Destiné à prendre en charge l’audio immersif, et appelé IAMF (Immersive Audio Model and Formats), le nouveau format créé par les codéveloppeurs Samsung et Google a été adopté cet automne par l’AOMedia (Alliance for Open Media), une alliance stratégique supportée par des acteurs majeurs de la Tech comme Amazon, AMD, Arm, Apple, Google, Huawei, Intel, LG, Meta, Microsoft, Netflix, Nvidia, Oppo, Snap, Tencent, Vivo, WD ou Zoom.
Depuis, les visiteurs du dernier CES de Las Vegas ont pu voir en janvier dernier des démos Google en partenariat avec la succursale de Vancouver du Vaudeville Sound Group, un prestataire spécialisé en sound design et mixage (broadcast, plates-formes, AR/VR, gaming…) établi au Royaume-Uni, aux États-Unis et au Canada. Derrière cette annonce, on imagine que l’idée serait de proposer un pack de codecs image/son libres de droits comprenant le HDR10+ pour la vidéo et l’IAMF pour l’audio, se posant en véritable alternative au tandem Dolby Vision et Dolby Atmos, deux formats propriétaires et donc coûteux en termes de licences.
Afin d’y voir plus clair, nous avons contacté l’Alliance for Open Media (AOMedia) et pu obtenir quelques réponses de leur groupe de travail Storage and Transport Formats (STF).

Pour quels types de programmes et d’utilisation l’IAMF a-t-il été prévu ? Se positionne-t-il uniquement comme un concurrent du Home Atmos ou est-il destiné à devenir également une alternative au Dolby Atmos pour le cinéma en salle ?
L’IAMF représente la première spécification de container gratuit à être proposée dans le cadre de l’AOMedia. Il a été conçu pour permettre aux créateurs de proposer leurs contenus audio immersifs dans le cadre de multiples applications : streaming, jeux vidéo, réalité augmentée et VR, sans oublier le broadcast. L’IAMF permet de véhiculer au travers d’un flux principal plusieurs éléments audio de nature différente. Plus précisément, on peut y trouver à la fois des contenus de type « channel based » (stéréo, 5.1, 7.1, etc.) mais aussi « scene-based » (Ambisonics, HOA), diffusables vers une grande variété de terminaux incluant les smartphones et la télévision. L’écoute peut se faire au casque, sur des barres de son ou en home theater.
Est-ce que le cinéma en salle pourrait faire partie des domaines d’application visés ?
L’IAMF a été effectivement conçu avec l’idée que le cinéma ferait partie un jour des applications possibles. Le standard va continuer à évoluer et nous avons l’intention de fournir davantage d’outils pour les mixeurs en les aidant à créer des expériences encore plus immersives pour le cinéma.

Comment fonctionne l’IAMF et que dire sur les algorithmes EAR et BEAR ?
Ces algorithmes inclus dans l’IAMF permettent de prendre en charge une grande variété de formats. EAR signifie EBU ADM Render. C’est l’interprétation complète de l’Audio Definition Model, le format ADM tel que défini dans la Recommandation ITU-R BS.2076-1. Il sera utilisé pour effectuer le rendering d’un contenu audio 3D vers un ensemble d’enceintes. BEAR est la version binaurale de l’EAR et a été conçu pour le rendering de contenus diffusés pour une écoute au casque.
Dans quelles mesures les studios déjà équipés avec un Dolby Atmos seront compatibles avec l’IAMF ?
L’IAMF se veut compatible avec les installations de studio existantes, de sorte que les créateurs puissent transférer leurs mixages, qu’ils soient réalisés en format Ambisonics ou channel-based comme le 7.1.4.
À part EAR, actuellement disponible uniquement en VST, quels outils de production permettront de travailler avec les principales stations audio du marché ?
Nous n’avons pas encore de dates précises à communiquer pour l’instant, mais on s’attend à ce que nos partenaires lancent leurs plug-ins compatibles avec les principales STAN courant 2024. D’ici là, l’AOM va fournir ses outils open source de façon à permettre d’encoder au format IAMF standalone ou encapsulé dans un fichier MP4 à partir des fichiers de mix incluant l’ADM.

aperçu de son activité sur son site. © DR
Que peut-on dire des mesures loudness dans le format IAMF ?
L’IAMF permet de mesurer le loudness du contenu audio original et les systèmes de lecture peuvent lire la valeur et ajuster le contenu audio à une valeur cible donnée. Cela permet d’aider à normaliser le loudness de programmes à la norme EBU R 128 par exemple, ou selon d’autres standards.
Quand les puces intégrables dans les décodeurs TV et autres terminaux seront-elles disponibles ?
Il faut savoir que l’IAMF ne nécessite pas le développement de nouvelles puces. Il peut parfaitement fonctionner sur les CPU et les DSP audio existants. Nous n’avons pas encore de dates précises à annoncer mais nous pouvons nous attendre à ce que les fabricants de hardware et de terminaux fassent leurs propres annonces quand ils seront prêts à supporter l’IAMF. D’autre part, l’IAMF va continuer à évoluer et le groupe de travail pense déjà aux nouvelles possibilités de la prochaine version comme la possibilité de compresser plusieurs mixages différents dans l’outil d’encodage. À suivre…
LES SPECIFICITES DE L’IAMF SELON SAMSUNG
Samsung met en avant trois particularités de l’IAMF : la capacité à prendre en charge la dimension verticale, une analyse des scènes audio à base d’IA et la possibilité d’obtenir des effets audio 3D avec un haut niveau de personnalisation. Donc au-delà des gauche, droite et centre, on retrouve l’élévation, le côté « zénithal » comme chez le concurrent Dolby Atmos.
Sur l’aspect AI, Samsung nous explique que des technologies de deep learning sont utilisées pour analyser l’image et permettre de diagnostiquer d’où vient le son dans l’idée de favoriser certains éléments de la bande son. Le dialogue pourra, par exemple, être mis en avant sur des scènes riches en musique et effets afin d’optimiser l’intelligibilité. De plus, le rendu pourra être optimisé en fonction de l’équipement utilisé : haut-parleur de TV, barre de son, système Hi-fi, etc. Enfin, les utilisateurs pourront personnaliser le rendu suivant leurs préférences en ajustant certains éléments. Voilà qui fait penser aux objets déjà présents chez Dolby, mais Samsung ne donne pour l’instant pas plus de précisions…
Article paru pour la première fois dans Mediakwest #56, pp 66-68