Presque trente ans plus tard, de nouvelles technologies permettent toujours plus d’immersion : ambisonie, WFS, Atmos, DTS:X, Front Wave Audio… À travers les points de vue d’enseignants de l’ENS Louis Lumière et d’experts de Dolby, Delair et 44.1, nous allons décrypter ces technologies et essayer de percevoir ce que nous pouvons en attendre dans un futur proche.
L’ambisonie
Même si cette technologie date des années 70, son nom n’est pas encore parvenu aux oreilles du grand public faute d’application commerciale à grande échelle. Et pourtant elle est aujourd’hui le sujet de nombreuses études et suscite un intérêt croissant, notamment pour l’immersion dans les jeux vidéo.
Alan Blum, enseignant des techniques audio à l’école Louis Lumière nous explique : « L’ambisonie consiste à envisager la diffusion spatiale du son. À la manière de l’analyse spectrale qui considère qu’un son est une somme de sons purs (sinusoïdes), l’ambisonie considère que tout l’espace peut être décomposé en une somme de fonctions spatiales. Pour comprendre la fonction spatiale, il faut imaginer plusieurs manières de découper l’espace. L’espace couvert par un micro omnidirectionnel, c’est-à-dire une sphère, représente la fonction zéro (ordre 0) de l’ambisonie. Ensuite une directivité bidirectionnelle, permet d’avoir un son stéréo. Puis trois micros bidirectionnels placés sur trois axes x, y et z permettent d’avoir trois dimensions (ordre 1), et ainsi de suite. Plus on monte en ordre, plus on a des fonctions d’espace directives avec des formes élaborées et plus la résolution spatiale est fine. »
L’ambisonie la plus fréquente fonctionne avec quatre canaux (ordre 1). Depuis les années 90, on s’intéresse aux ordres supérieurs appelés HOA (Higher-Orders-Ambisonics). Chaque fonction nécessite un canal audio. Il faut un certain nombre de canaux et donc d’enceintes pour porter ces informations spatiales. Le son peut alors être diffusé de manière cohérente pour un sweetspot (point d’écoute optimal), c’est-à-dire une personne placée au centre de la sphère, mais qui en pratique peut s’étendre à un groupe de personnes.
Alan Blum ajoute : « Une des raisons pour laquelle l’ambisonie suscite beaucoup d’intérêt est que son coût en puissance de calcul est très faible. Ce ne sont que des gains à attribuer à chaque composante x,y,z, pour déplacer le son dans l’espace. Il n’y a pas de filtrage ni d’opération de haut niveau. »
La WFS (Wave Field Synthesis)
De nouveau, écoutons Alan Blum : « Le principe de la WFS c’est de dire qu’avec suffisamment de sources secondaires sur une ligne (une rangée d’enceintes), je serais capable de simuler le champ acoustique que produirait n’importe quelle source sonore qui serait derrière cette ligne. Il faut imaginer un champ sonore comme celui créé par un instrument sur une scène et qui se propage vers le public comme une sphère qui augmenterait de volume. En WFS, une rangée d’enceintes devant la scène pourra simuler ce champ et permet à l’auditeur de localiser la source de chaque instrument. »
La théorie est plus lourde que pour l’ambisonie car il s’agit de traiter chaque source, en agissant notamment sur des filtrages et des retards, pour répartir les signaux résultants sur les enceintes.
Contrairement à l’ambisonie qui créé l’illusion de la position d’une source sonore lorsque l’auditeur est placé au bon endroit (le sweetspot), en WFS, Il n’y a plus de notion de sweetspot, il n’y a pas « d’illusion », le champ sonore est vraiment reproduit. L’auditeur peut se déplacer d’un bout à l’autre de la pièce, il entendra toujours la source du son au même endroit de l’espace.
Quelles utilisations pour l’ambisonie et WFS ?
La WFS a un avenir pour les concerts. Comme l’énergie sonore est mieux répartie, les auditeurs peuvent être beaucoup plus proches des enceintes sans être gênés par les forts niveaux et le son reste cohérent. Même en étant assez proche des haut-parleurs, l’auditeur n’aura pas l’impression que le son vient de celui-ci. La WFS est donc une réponse intéressante aux nouvelles normes de niveau sonore.
Aussi tout le monde dans la salle va entendre plus ou moins la même chose. D’un côté on va multiplier par dix (ou plus) le nombre d’enceintes mais d’un autre côté, on a besoin d’amplis et d’enceintes moins puissants.
Les utilisations de la WFS sont assez récentes. Peu d’équipements sont disponibles sur le marché. Il existe des logiciels comme WFS DIY (de Pierre-Olivier Boulant) en téléchargement libre. D’autres codes sont créés par exemple par des élèves de Louis Lumière. Euphonia commercialise un processeur de Sonic Emotion qui a équipé quelques salles comme l’auditorium de l’Institut du Monde Arabe ou Radio France. C’est assez coûteux car la WFS nécessite énormément de haut-parleurs très rapprochés. « Cependant, en comparaison avec un line array qui intègre aussi un grand nombre d’enceintes, Sonic Emotion arrivait à des coûts assez similaires », note Alan Blum.
En 2013 pour la première fois un processeur Sonic Emotion Wave I fut utilisé sur un concert en plein air, le Paris Jazz festival, par l’équipe de l’ingénieur du son Jacques Laville. Avec dix enceintes disposées au nez de scène et trois clusters d’enceintes placées en hauteur.
Quant à l’ambisonie elle est idéale pour les expériences virtuelles : simulateurs, jeux vidéo… où le sweetspot n’est pas un problème. Aussi, à l’instar d’une vidéo en 360° où on se déplace dans l’image, l’ambisonie permet de recréer un espace sonore à 360°. Pour une expérience réaliste, la bande son d’une vidéo 360° dans laquelle on se déplace, peut être un son stéréo recalculé à partir d’une source ambisonique en fonction de l’angle de vue.
Aussi, selon Alan Blum : « L’ambisonique semble être un potentiel bon porteur de l’information. Depuis l’ambisonique, on pourrait passer à de l’information objet et donc à un rendu sur potentiellement n’importe quel dispositif par la suite (VBAP, Binaural, WFS…). »
Le son orienté objet
Le son Dolby Atmos de Dolby comme le DTS:X de DTS intègre un concept d’objet sonore relativement nouveau (mais qui a presque dix ans). Il ne s’agit plus de penser la diffusion sonore comme une piste (un canal) reliée à une enceinte, mais comme une piste étant un objet sonore qui peut se déplacer d’une enceinte à l’autre.
Anaïs Libolt, directrice de Dolby France, nous explique : « L’ajout du Dolby Atmos c’est la verticalité et l’objet sonore. L’objet est une piste mono, par exemple un son de voiture (il pourrait aussi être stéréo) que le mixeur va pouvoir déplacer à l’aide d’un panner (par exemple avec un joystick) dans l’auditorium de mixage. C’est un déplacement libre dans l’espace tridimensionnel. La trajectoire de cet objet son va être enregistrée sous forme de métadonnées et lors de la diffusion, un renderer Dolby va interpréter ces métadonnées pour finir le mixage en faisant passer le son dans telle enceinte puis dans telle autre, etc. En général ces objets viennent se superposer à ce qu’on appelle le bed (semblable aux stems dans les mix 5.1). Il s’agit d’un mix classique dans lequel on va mettre les éléments sonores qui ne vont pas beaucoup évoluer. Typiquement, c’est une base 7.1.2, c’est-à-dire un 7.1 classique auquel on ajoute une paire stéréo au plafond. Les objets sonores vont être ajoutés par-dessus. L’Atmos supporte jusqu’à cent-vingt-huit objets. »
Cette philosophie permet aux mixeurs une prise en main plus rapide en conservant certaines habitudes, tout en ayant l’ajout de l’immersif et la précision des objets sonores.
Par ailleurs, le label Dolby Atmos, signifie que le son est encodé dans un format de compression Dolby (Dolby Digital Plus ou AC-4 pour les compressions à perte et Dolby True HD pour une compression lossless). L’Atmos peut être décodé sur n’importe quel équipement compatible y compris un simple téléviseur stéréo ou un casque binaural. Bien sûr, plus la configuration son est élaborée, plus l’effet immersif sera présent. Cette technologie est bien répandue dans le grand public : Blu-ray et home cinéma. Quant au cinéma, c’est plus de deux-cent-cinquante salles en France qui sont labélisées Dolby Atmos. Notons que le label Dolby Cinéma inclut le Dolby Atmos et le Dolby Vision (image HDR). Il existe dix salles Dolby Cinéma en France chez Pathé.
Le son immersif au cinéma : le problème de l’écran perforé
Dans les salles de cinéma, le placement des enceintes derrière l’écran pose un problème pour le son, encore en 2021… Difficile de parler d’immersion lorsque la voix de l’acteur en gros plan semble venir de derrière l’écran. Malgré les perforations de l’écran et les corrections apportées sur les signaux, le résultat n’est pas 100 % satisfaisant. Pire, les perforations dans la toile dégradent la qualité de l’image.
Pierre Vincent, fondateur de la société Delair et inventeur de la technologie Front Wave Audio, se penche sur ce problème depuis plus de quinze ans. Il nous explique : « Les fréquences entre 800 Hz et 7 000 Hz sont détériorées par l’écran, on appelle ça des effets de “filtre en peigne”. Une partie de l’onde émise repart dans le haut-parleur et est annulée. Les perforations dans l’écran sont juste une amélioration mais ça reste un pis-aller. »
Avec le système Front Wave Audio, les enceintes acoustiques sont remplacées par des inducteurs couplés à l’écran. La toile est utilisée comme membrane de haut-parleur et le son se forme devant l’écran. Il n’y a plus d’obstacle entre le son et le spectateur. À ces fréquences, les vibrations induites dans la toile sont de très faible amplitude (inférieure au centième de millimètre) et sont donc imperceptibles.
Cette technologie permet l’utilisation d’un écran non perforé et résout du même coup les problèmes de moiré ainsi que la perte de brillance et la désaturation induits par les trous. Ceci est d’autant plus appréciable que des tests effectués avec Delair et Barco ont montré que plus la luminosité augmente – ce qui est souhaitable pour le HDR – plus les perforations sont visibles de loin. La technologie FWA présente donc un double bénéfice : pour le son et pour l’image. Ce système, dont les premiers brevets datent de 2003, a été sans cesse optimisé jusqu’à remporter le prix de l’innovation au HPA de 2019 (Hollywood Professionnal Association).
Pierre Vincent précise que « la difficulté est d’avoir des inducteurs de petite surface. Comme on reproduit des fréquences aiguës, il faut être le moins directif possible. Pour être non directif il faut que l’inducteur soit le plus petit possible. Avec nos derniers inducteurs de quatrième génération, on couvre vraiment toute la salle et on évite le problème du sweetspot dans lequel lorsqu’on s’éloigne du point d’écoute optimal, on perd beaucoup en aigu. Jusqu’à présent, il y avait une dichotomie entre le son qui sortait de derrière l’écran et donc assez dégradé et le son surround qui lui était de meilleure qualité car sans obstacle. Le système Delair permet de régler cette dichotomie et rendre le son plus immersif. »
Le récent interêt d’Hollywood pour la technologie FWA, le fait qu’elle soit agnostique à la technologie en amont (Dolby, Dts, etc.) ainsi que son positionnement haut de gamme, pourrait accélérer son installation dans des salles prestigieuses.
La question de l’upmixing
À l’instar de l’image 3D stéréoscopique qui est soit captée, soit fabriquée en postprod, un son ambisonique n’est pas nécessairement le résultat d’une prise de son ambisonique. Il peut être fabriqué à partir d’un son stéréo. De même pour l’Atmos, certains films anciens sont upmixés de stéréo vers Atmos, d’autres films plus récents sont remixés en Atmos.
Jean-Luc Ohl, président chez 44.1 et spécialiste en son multicanal, précise que « c’est un travail qui peut être juste technique ou bien aussi artistique avec un rajout de matière, comme des reverbs. Il faut isoler des informations comme celles qui sont hors phase et en phase (le discours) ou encore par bande de fréquence (telle bande est plus liée à la voix). Le résultat est très intéressant. Un bon upmixage stéréo vers 5.1 peut être meilleur qu’un mix 5.1. »
Sylvain Lambinet enseignant à Louis Lumière, ajoute : « On pourrait comparer ça au remastering audio. Il faut être prudent : a-t-on envie d’entendre un morceau de blues des années 30 nettoyé par un algorithme et rebinauralisé ? L’expérience n’est pas forcément meilleure. Il y a un paradoxe intéressant : d’une part on cherche à remasteriser des albums des années 70, quitte à perdre la fidélité, et d’autre part, en musique baroque par exemple, on va essayer d’imiter la lutherie originale, rejouer les œuvres au même diapason avec les mêmes écarts de tempérament.
Il n’est pas forcément judicieux de parler d’amélioration, de qualitatif en transformant un son à l’aide des nouvelles technologies alors que depuis les années 20 on brandit la “fidélité” comme un étendard. Nous essayons de former nos étudiants à une grande vigilance par rapport au discours des fabricants et des modes, et de faire le tri. Cependant, il y a un avenir commercial lorsque c’est à la fois un projet technique et artistique. Un de nos étudiants a fait un projet dans lequel il est parti d’un documentaire radio stéréo et en a fait une version immersive sur dispositif acousmonium. Ça avait tout son sens. Il y avait une vraie intention artistique qui servait le propos du documentaire. C’était magique ».
Article paru pour la première fois dans Mediakwest #44, p. 58-63





