En matière de son à l’image, on peut considérer que la dernière augmentation significative de définition pour le format de production audio remonte au début des années 2000 où la résolution est passée de 16 à 24 bits tandis que la fréquence d’échantillonnage est majoritairement restée à 48kHz, les fréquences supérieures n’étant que rarement utilisées. Depuis cette évolution communément appelée à l’époque “HD audio”, le format est resté inchangé tandis que se sont développées les productions en multipiste avec notamment la banalisation du BWF mono et polyphonique dans les workflows. Face à ces images de plus en plus définies, la recherche d’une meilleure expérience pour le spectateur a conduit les industriels à chercher ailleurs, et à déployer notamment des solutions permettant un meilleur enveloppement. Sur ce créneau, on retrouve, pour le cinéma, Dolby avec le format Atmos, Auro 3D avec le format Auro 11.1 distribué par Barco ainsi que DTS.
La troisième dimension sonore
Pour le cinéma, c’est donc du côté de la « 3D audio » que le spectateur peut voir ou plutôt écouter et ressentir un changement, constate Matthieu Parmentier, Coordinateur de projets R&D chez France TV : « DTS, Auro et Dolby proposent des solutions plus ou moins immersives et coûteuses à déployer ou complexes à produire. Mais l’avènement de l’audio orienté objets au cinéma redéfinit vraiment l’expérience de l’auditeur: une grande précision de localisation des sources sonores, un mariage davantage maîtrisé avec l’acoustique de la salle et une sensation d’enveloppement bluffante. Tout est mis en œuvre pour que le cerveau se sente transporté naturellement dans un autre univers sonore. En donnant autant d’indices perceptifs réalistes, on réduit le recours à la gymnastique mentale et au final le cinéphile sort de la salle avec beaucoup plus de sensations que de fatigue auditive, à condition bien sûr que le niveau d’écoute ait été respecté. Par contre, aujourd’hui le niveau moyen de reproduction des films en salle pose d’énormes problèmes, certains mixages de films présentent moins de dynamique que leur version TV… »
La base reste monophonique
Alors, en quoi ces changements modifient la façon de capter le son à l’image ? Lucien Balibar, Chef Opérateur Son pour le cinéma, qui vient d’ailleurs de publier chez Dunod La Chaîne Du Son Au Cinéma et à la Télévision, un ouvrage technique qui synthétise notamment le fruit de ses expériences sur les rapports images/son, nous donne son point de vue : « Pour les films sur lesquels je travaille actuellement, on tourne régulièrement en 5 voire 6K, mais cela ne change pas grand chose pour l’équipe son, à part l’obligation de se placer parfois un peu plus loin pour éviter de se retrouver dans le champ en cas de recadrage». En parcourant son livre, on trouve de nombreuses réflexions qui expliquent les pratiques actuelles : « L’espace sonore au cinéma n’est ni monophonique (il l’a été à ses débuts par défaut), ni stéréophonique : il est composite, bricolé artificiellement à partir d’éléments ponctuels (des sons mono), et d’éléments stéréophoniques ou multicanal qui sont combinés pour former un espace défini par la disposition des enceintes dans une salle de cinéma. » Nulle surprise alors de retrouver en captation, sur un plateau de cinéma, une base majoritairement monophonique pour les dialogues qui alimentera la voie centrale, éventuellement enrichie si le décor le permet, par une stéréo synchrone. Sons seuls et ambiances captées selon divers procédés (mono, stéréo, LCR) viendront compléter en postproduction la bande son spatialisée dans l’espace Surround.
Immersion et captation
On est bien loin de l’idée qu’il suffirait de placer judicieusement un micro multicanal sur un plateau de tournage pour obtenir en une seule prise un son Surround. Effectivement, tous les essais de prise multicanale effectués sur des directs en cinéma ont rapidement montré que les canaux arrières sont la plupart du temps inutilisables car ils captent essentiellement le bruit généré par l’équipe de tournage en action! Voilà qui explique sans doute le peu d’impact des procédés de son immersif sur la façon dont on capte le son en fiction : « Pour l’instant un format comme l’Atmos n’a pas vraiment de répercussion sur la prise de son. Tout d’abord, cela reste un mixage multicanal classique (un stem 9.1 pour être précis NDLR) amélioré par des objets sonores monophoniques que l’on déplace sur 360°. D’autre part, comme le nombre de productions françaises à ce format reste encore limité, nous n’avons pour l’instant qu’assez peu de recul sur ce que l’on peut faire d’intéressant avec cette technologie.» En tant que monteur son, Gaël Nicolas nous explique l’intérêt qu’il porte au format Ambisonics pour l’enregistrement des ambiances : «En jouant simplement sur le décodage, on arrive à retrouver une sensation d’espace homogène rapidement. C’est à mon sens bien plus simple que de superposer plusieurs ambiances stéréo pour alimenter toutes les enceintes et c’est aussi plus facile à mixer. Mais attention, l’idée n’est pas d’avoir un effet de manège qui donne le tournis, mais plutôt de légères modifications d’encodage qui permettent de servir au mieux la réalisation tout en restant dans un espace cohérent.
Par exemple, sur une séquence où il y a des changements de plan, des champs contre-champs, au lieu de laisser un tapis d’ambiance statique, j’utilise un seul son Ambisonic avec un décodage qui varie en fonction du découpage. Ainsi, la texture va légèrement évoluer, des détimbrages subtils vont apparaître sans pour autant donner le mal de mer. Au final, le rendu reste très naturel. » En tout cas, pour peu qu’on ait le temps de s’y pencher, les solutions de captation mises au point au cours du temps ne manquent pas et présentent chacune leurs avantages conclut Matthieu Parmentier : « En fait, il n’y a aucune recette, les systèmes de prise de son corrélés (double MS, Soundfield, HOA) ou décorrélés (arbres, couples AB) doivent être utilisés en fonction du type d’ambiance souhaitée. Si les premiers proposent une localisation précise, une bonne sensation d’enveloppement et se post-produisent avec bonheur grâce à de puissants outils qui permettent déformation, rotation et autre zoom a posteriori, les solutions décorrélées offrent en général une excellente impression d’espace qu’un auditeur pourra ressentir y compris s’il est mal placé par rapport aux haut-parleurs ».
Captation musicale : une exception ?
En marge de la fiction, la captation de concert, de par un cahier des charges différent, se prête sans doute plus facilement l’utilisation de techniques de captation plus étendues. Elle permet également d’explorer de nouveaux rapports image/son. Par exemple, sur la captation des Vêpres Solennelles de la Vierge de Monteverdi, dirigées par Sir John Eliot Gardiner qui ont eu lieu dans la Chapelle Royale de Versailles, on trouve, parmi les moyens déployés, huit caméras Sony F55 Ultra Haute Définition et un dispositif de prise de son multicanal totalisant 75 microphones. Fruit d’une collaboration entre France TV, Wahoo Production et Château de Versailles Spectacles, le concert, retransmis en direct, est aujourd’hui accessible sur le site Culture Box où l’internaute peut choisir entre les versions stéréo et binaurales tandis qu’une version 22.2 est destinée à l’exploitation en salle… En amont, le réalisateur Stéphan Aubé, également musicien et lecteur, a pris le temps d’effectuer son découpage sur partition et de le faire valider en amont par le chef d’orchestre… De son côté, l’ingénieur du son Thomas Dappelo a opté pour un système multi micro à base de DPA 4052 associé à d’autres dispositifs type tête artificielle Neumann, double MS Schoeps ou encore micro Surround DPA 5100. Au final, outre le rendu plus enveloppant qu’en stéréo, la réalisation, pensée en fonction du son et de la musique, a permis de proposer un mixage où plans sonores, retournements et spatialisation 3D suivent l’image : «Lors du mixage, on peut par exemple augmenter progressivement le taux de réverbération au fur et à mesure que le plan s’élargit » remarque Matthieu Parmentier. « Cela suppose évidemment une réalisation adaptée avec des plans suffisamment long (entre huit secondes et une minute), mais ces images très définies, où l’œil a beaucoup de détails, à découvrir s’y prêtent bien. »
TV vs IT
Parallèlement au cinéma, le son pour la télévision où les images Ultra HD arrivent à grand-pas est lui aussi remis en question, de nouveaux standards devant permettre à la fois de renouveler l’expérience utilisateur et de proposer de nouveaux services : « La norme est divisée en trois phases » détaille Matthieu Parmentier. « Limitée à la définition 4K, l’UHD-1 phase 1 ne devrait pas connaitre de révolution sonore. En revanche pour la phase 2 puis l’UHD-2 (8K), un saut technologique majeur s’annonce avec l’apparition d’un moteur de rendu audio placé dans les récepteurs. En termes de normalisation, tout se joue dans l’année à venir : quel type de process ce moteur devra-t-il offrir ? Combien d’objets sonores simultanés devra-t-il gérer ? Saura-t-il adapter le rendu sonore à l’acoustique de la pièce et le nombre de haut-parleurs disponibles ? »
En tout cas, les groupes de normalisation sont à pied d’œuvre pour répondre à ces questions tant à l’EBU, l’ITU qu’au DVB. Au plus tôt, cette nouvelle génération devrait voir le jour vers 2018. Notons qu’en attendant ces évolutions, le monde de l’informatique et des télécoms possède une longueur d’avance sur la télévision puisque tablettes, smartphones et applications web intègrent déjà des moteurs de rendu audio capables d’offrir de nouvelles expériences utilisateurs. « Les processeurs sont disponibles, plus faciles à programmer, et les éditeurs de contenus peuvent choisir d’y intégrer les fonctionnalités qu’ils désirent. En priorité, la possibilité de rendre de l’audio en 3D et tirer parti de quelques objets sonores tels que «dialogues», «musique» ou «effets». » Outre l’écoute au casque immersive grâce au traitement binaural, cette nouvelle donne va aussi proposer d’adapter le rendu du mixage aux conditions d’écoute parfois délicates mais aussi de l’optimiser en fonction de l’environnement de consommation qui devient de plus en plus diversifié et même parfois mobile (métro, avion, chambre à coucher…). Enfin, parmi les services envisageables que peut apporter un moteur de rendu audio, figure également le renforcement de l’intelligibilité, une fonctionnalité nécessaire pour les personnes présentant un handicap auditif, mais aussi les spectateurs dont l’ouïe commence à montrer certains signes de faiblesse, un marché potentiel en augmentation suite au vieillissement de la population dans les pays développés…
Des moteurs audio dans nos TV ?
Mais avant que ne s’impose le moteur de rendu audio dans les domaines du son à l’image, il va bien sûr falloir évangéliser les professionnels du son et de la diffusion, les fabricants de téléviseur, mais aussi apprendre à maîtriser ce concept hérité du jeu vidéo. En tout cas, pareille révolution promet de changer la chaîne de distribution audio depuis la régie son jusque chez le spectateur:« Le mixeur doit accepter de contrôler virtuellement l’issue de son mixage en alimentant ce fameux moteur de rendu avec de bonnes sources et de bonnes instructions » confirme Matthieu Parmentier. « Depuis plusieurs années déjà, les métadonnées Dolby, MPEG ou DVB servent à réaliser le downmix stéréo d’un flux 5.1 reçu sur une TV. L’audio orienté objets décuple le nombre de ces données pour renforcer la qualité d’expérience de l’auditeur en s’adaptant à ses conditions d’écoute. » Reste à savoir si les fabricants de téléviseurs décideront à temps de l’incorporer dans leurs produits, mais pour notre interlocuteur : «ce n’est pas la vraie question dans la mesure où ces moteurs vont coloniser les applications pour smartphones, c’est le saut de qualité d’expérience qui poussera naturellement le marché à réagir. » Affaire à suivre…
Le futur du son à l’image : les divergences entre Hollywood et l’Europe.
C’est un fait, les priorités quant à l’évolution du son à l’image ne sont pas les mêmes de part et d’autre de l’Atlantique. Une différence qui s’explique sans doute en partie de par la nature du système de financement des fictions : « Les majors produisent en masse et se financent sans l’aide indispensable des chaînes tandis qu’en Europe les pré-achats TV conditionnent beaucoup la production de contenus » résume Matthieu Parmentier. « La compétition entre majors tourne à la surenchère de moyens pour assurer le succès et remporter la mise. » Face à cette quête, des procédés audio estampillés Dolby, DTS et Auro sont apparus au grand dam des exploitants de salles qui refusent de faire les frais du manque de standardisation et de revivre la douloureuse expérience de la confrontation entre les formats Dolby Surround, DTS et Sony SDDS. « La conjoncture ne permet plus de rentabiliser une installation audio 3D qui impose une centaine de haut-parleurs par salle pour couvrir les trois formats. Dans le même temps Google, Netflix, Apple et consorts se déploient, mais la production de contenus reste à Hollywood et les studios ne semblent pas sentir de menace… » Les majors du cinéma se feront-elle voler les profits de leur économie comme hier celle du disque, aujourd’hui trustée par Apple et Google ? Trop tôt pour le dire, en tout cas, la situation est différente en Europe où « sous l’influence des éditeurs TV, on se préoccupe beaucoup plus du numérique, de la reconquête d’une audience morcelée qui consomme des films sur de tout petits écrans au moyen d’un casque. On se passionne pour l’édition de jeux qui emprunte tous les codes des grosses productions hollywoodiennes mais avec un savoir-faire très différent. Il existe une vraie place pour l’émergence de nouveaux contenus conçus à l’ère numérique, où l’immersion sonore au casque va considérablement engager le téléspectateur et venir compenser la petite taille de son écran mobile.» Reste à sensibiliser et former scénaristes et réalisateurs de façon à ce que de nouvelles écritures puissent voir le jour et rencontrer leur public.
Audio orienté objet : la chasse au codec
Si l’audio orienté objet commence à faire son chemin, entre cinéma, télévision et multimédia, les contraintes ne sont pas les mêmes et le travail de normalisation n’en est qu’à ses débuts : « Le monde du cinéma, où l’audio orienté objets est apparu et vit ses premiers succès, n’a pas de contrainte de bande passante » précise Matthieu Parmentier alors que « dans l’audiovisuel et le multimédia, la ressource est critique et l’avènement de codecs orientés objets s’impose. Plusieurs technologies candidatent pour le prochain Blu-Ray UHD et les premières diffusions de contenus audio 3D en ligne. Aucune n’offre la gratuité, ni encore l’assurance d’une parfaite adéquation avec les exigences de l’écoute domestique. Le démarrage de services va contribuer comme souvent à la régulation du marché. Aujourd’hui le MPEG domine (MP3, AAC, HE-AAC) car les navigateurs Internet et les appareils électroniques possèdent tous un décodeur MPEG intégré. Il faut justement surveiller les codecs libres dont les compétences parfois surprenantes pourraient semer le trouble. Cependant la récente normalisation du MPEG-H 3D va constituer un étalon de référence pour toutes les autres implémentations audio 3D et orientées objets car ce codec cumule presque toutes les caractéristiques idéales dans sa toute première version. » La saison de la chasse au codec est donc ré-ouverte !