Si la photographie numérique à 360° est déjà ancienne, la vidéo à 360° (ou cinematic VR) semble encore expérimentale à beaucoup. On peut en tenter une définition en la désignant comme une scène filmée à 360° – qui sera synchronisée au moment de la lecture aux mouvements du regard – associée à une perception en relief de l’espace visuel (stéréoscopie) et à un environnement sonore multicanal.
La RV intéresse aujourd’hui beaucoup d’acteurs par le fait qu’elle se positionne au carrefour des réseaux sociaux, de l’audiovisuel et du web. Pour le moment, on constate que le spectateur peut s’intéresser plusieurs minutes à un film en RV, difficilement extensible en pratique au-delà d’une dizaine de minutes. Ce qui est très différent du jeu vidéo, où les joueurs peuvent s’immerger des heures durant dans un jeu en RV.
De grandes manœuvres sont en cours du côté de Facebook qui possède maintenant Oculus, ainsi que de Samsung et de GoPro, lequel a acheté Kolor, spécialiste français du logiciel d’assemblage (stitching).
Trouver une écriture spécifique
Neotopy Studio est une petite structure de quatre personnes disposant d’un large réseau de professionnels aguerris. Neotopy a passé un accord croisé avec Sylicone qui l’héberge. Neotopy fournit les moyens techniques strictement VR et profite des infrastructures techniques de postproduction de Sylicone : serveurs, systèmes d’étalonnage, en particulier la station d’étalonnage Scratch VR. Neotopy monte et conçoit des projets, défriche de nouvelles formes d’écriture et de récit, et trouve des opérateurs et techniciens motivés dans son cercle d’influence.
Tourner et monter en RV est très différent des procédures traditionnelles en cinéma et vidéo, les règles classiques du montage et des raccords de plan ne s’appliquent pas bien, voire sont contre-indiquées. En tournage, la stabilité des caméras est indispensable pour éviter une gêne, voire des nausées. Les plans longs sont privilégiés. Les écueils sont nombreux : problèmes de parallaxe, horizontalité, images fantômes, flare…
En montage, une entrée de champ doit être justifiée. Les raccords en cut sont souvent déstabilisants, les fondus sont préférables… Une narration spécifique est en cours de défrichage. « Du côté des matériels, paradoxalement, la RV est un nouveau medium qui arrive d’abord par le grand public : smartphones, jeux vidéo, Gopro… », constate Ivan Maucuit. C’est très récemment seulement que des fabricants, tel Nokia avec la caméra Ozo, prétendent se positionner sur le marché professionnel.
La Nokia Ozo, première caméra professionnelle
Jusqu’à aujourd’hui, Neotopy utilisait un rig maison constitué de quatre GoPro modifiées avec des objectifs très grand angle (220 °). Les quatre caméras sont réglées en 4/3 en cadrage vertical. Le champ couvert par chacune est d’environ 170° dont 150° utilisables. Un recouvrement (overlap) d’environ 70° entre chaque caméra est prévu pour faciliter l’assemblage.
Deux inconvénients majeurs de ces rigs à base de petites caméras sont leur refroidissement et la compression importante de l’image enregistrée dès les rushes. Pour avoir un bon recouvrement, les quatre caméras doivent être collées les unes aux autres, ce qui contrecarre leur refroidissement. La durée d’enregistrement est alors limitée par la surchauffe des caméras.
Si on les monte plus espacées, on gagne en refroidissement, mais on perd en recouvrement d’image. C’est pourquoi Neotopy s’est engagé dans la conception d’une nouvelle caméra 360° à base de Blackmagic 4K et teste par ailleurs la Nokia Ozo en partenariat avec PhotoCineRent.
Première caméra de réalité virtuelle professionnelle, la Nokia Ozo est une caméra à couverture sphérique (ou plutôt hémisphérique : 360° H x 180° V) et stéréoscopique. Elle met en œuvre huit capteurs de résolution 2K x 2K, soit des capteurs carrés, ce qui est judicieux en RV. Ils sont à balayage progressif et obturateur (shutter) global. La cadence image est de 30 i/s, ce qui semble un peu juste pour la RV.
Chaque objectif a un angle de champ de 195°, une ouverture de f/2,4. L’écart inter-objectifs est de 86 mm. La sensibilité est annoncée à 400 iso pour un rapport S/B de 60 dB. La température de couleur nominale est à 5 000 K. La sortie vidéo « programme » est en 3G-SDI SMPTE 242M, sur un connecteur DIN. Une sortie HDMI donne l’image assemblée et en relief en définition 3 840 x 2 160 par œil.
Du côté du son, huit microphones intégrés donnent un enregistrement omnidirectionnel sphérique (360° x 360°), avec un rapport S/B de 64 dB. Le refroidissement de l’électronique et des capteurs est passif – pas de ventilateur qui perturberait la qualité sonore. Est-ce une contrepartie, la température d’utilisation est annoncée de 0 à 25°.
L’enregistrement se fait sur une cartouche de mémoire flash de 500 Go, intégrée à la batterie, avec 45 mn de capacité annoncée. On change donc à la fois de batterie et de support. Une « docking station » assure la recharge et le transfert des rushes en USB 3.
Les fichiers Ozo Virtual Reality comportent huit canaux vidéo en Raw 2K x 2K, 10 bits et huit canaux audio. Ils sont encapsulés en QuickTime avec une compression vidéo en ondelettes. Nokia fournit le logiciel Ozo Creator pour assembler les vues (sur MacOs Yosemite et supérieur). La caméra se contrôle par WiFi avec le logiciel Ozo Remote. L’Ozo est en location chez PhotoCineRent-PhotoCineLive.
L’assemblage et visualisation 360°
L’étape importante après le tournage est d’associer les images des caméras pour obtenir une image équirectangulaire qui donnera la sphère visuelle dans laquelle se positionnera le spectateur. C’est l’étape dite du « stitching ». Elle est en partie automatisée, mais des interventions manuelles sont indispensables pour corriger, modifier les « coutures ». On cherchera à masquer une jointure trop visible en la positionnant sur une arête, sur l’angle d’un mur.
On comprend l’intérêt d’avoir beaucoup de recouvrement afin de disposer d’une grande latitude d’intervention dans le placement des points de masking. De même, il faut pouvoir intervenir sur les coutures le plus tard possible en postproduction. Il existe différents logiciels d’assemblage, dont Autopano Video Pro 2, conçu par Kolor, une société d’Annecy qui travaille sur la photo 360° depuis 2004. Signe des grandes manœuvres dans le monde de la RV, Kolor a été récemment acheté par GoPro.
En pratique et en fonction du Codec de sortie, le calcul final de l’assemblage peut être très long, de l’ordre de 4 i/s ! Jusqu’à très récemment, l’export se faisait seulement en compression H264, mais le ProRes a été ajouté, diminuant grandement la perte de qualité visuelle.
Pour le montage, Adobe a intégré cette année une série d’outils dans Premiere CC. En effet, monter en ne visualisant que l’image équirectangulaire n’est pas efficace. Il faut un casque de RV alimenté par le logiciel de montage et d’effets pour juger du résultat.
Par ailleurs, Nuke intègre maintenant Carat VR qui permet des interventions poussées sur l’image RV, mais avec une procédure plutôt complexe. Assimilate a intégré des fonctionnalités à Scratch pour l’étalonnage RV.
Aujourd’hui, la postproduction du son en VR est en avance sur celle de l’image. « Pour un professionnel du son qui sait ce qu’est le binaural de synthèse ou l’ambisonic, le travail est relativement simple et le résultat fonctionne. » La postproduction son, sur ProTools par exemple, se fait sur l’image basse résolution pour que le player synchronise l’image le plus vite possible. En effet, l’ordinateur ne peut traiter les pistes son en temps réel et lire en même temps la vidéo RV pleine résolution.
Stockage et temps de calcul explosent
Le volume de données à traiter en postproduction se déduit des caractéristiques techniques minimales qu’on demande à une vidéo 360°. « Si l’on veut un angle de vue de plus de 120°, pour des consommateurs aujourd’hui habitués à la HD, il faut, pour assurer une définition minimale, au moins tourner en HD/2K par caméra, ce qui aboutit à une taille d’image d’au moins 6K », explique Ivan Maucuit. « Côté fréquence image, il faut au minimum le 50 i/s, même si aujourd’hui beaucoup de choses sont tournées en 25 i/s. En 25P, les effets stroboscopiques dans les mouvements gênent l’effet immersif recherché. »
Enfin, le relief – la stéréoscopie – est pratiquement indispensable pour un réalisme abouti, ainsi que le son multicanal, puisque l’on recherche une immersion la plus véridique possible dans un univers visuel et sonore.
Le tout aboutit à des débits numériques très élevés, qui sont encore aujourd’hui difficiles à soutenir en production courante. « On parle d’une V2 à venir de l’Oculus avec une définition de 4K par œil ! », ajoute Ivan Maucuit. « C’est le paradoxe de la RV aujourd’hui ; il est relativement facile de filmer, les outils d’assemblage existent, les outils de postproduction commencent à être au point, mais le vrai souci, c’est le volume de données à traiter. Le bond technologique en stockage et en calcul est gigantesque ! »
* Cet article est paru pour la première fois dans Mediakwest #18, pp.14-16. Soyez parmi les premiers à lire nos articles en vous abonnant à notre magazine version papier ici