Une fois n’est pas coutume, ce ne sont pas les chiffres de l’emploi 2023 et ceux de l’animation qui ont inauguré les Rencontres professionnelles de l’animation, mais une session très dense sur les outils logiciels de prochaine génération.
Les RADI (Rencontres Animation Développement Innovation), qui fêtaient (du 19 au 22 novembre) leur dixième anniversaire (et ont gagné une demi-journée de programmation), se sont employées à passer en revue les outils plus innovants (son, voix, image). Sans oublier de saluer au passage quarante ans d’innovations dans les studios d’animation et la filière hexagonale (forte aujourd’hui de 10 000 emplois) brossées par Valérie Bourgoin et Pierre Hénon, auteur de la (seule) histoire sur le sujet (Histoire de l’image de synthèse en France).
Le sujet majeur restait toutefois les percées de l’IA Générative dans les chaînes de production. Son impact sur les métiers et les compétences, ses débuts de régulation, sa chaîne des valeurs (quelle juste rémunération pour les auteurs ?), son entrée dans les écoles, etc.
Entre réflexion prospectiviste à trois ou cinq ans, prises de pouls des technologies temps réel qui se diffusent de plus en plus dans les studios, et rappel de méthodes « inspirantes » pour la filière comme, entre autres, la captation volumétrique, les Rencontres de l’Animation (plus de 450 professionnels du secteur), dont les maîtres mots demeurent l’exploration et le partage, ont, en trois jours et demi, tenté de faire le tour de la question…
Start-up innovantes et technos émergentes
Introduite par Stéphane Singier qui a concocté le programme des journées RADI avec Véronique Dumon, la session très dense « Nouvelle génération d’outils et de formats » a passé en revue tout un panel d’outils de prochaine génération – beaucoup à partir d’IA – touchant à la fois à la traduction, au doublage automatisé, la génération de sous-titres, l’animation faciale avec synchronisation labiale sans oublier un incontournable de l’immersion narrative, la 4K HDR/ Dolby Atmos.
Sur le terrain de l’animation produite en IAG, les start-up X&Immersion (Paris) et Chat3D (Saint-Étienne) étaient attendues avec intérêt. « L’IA générative, qui permet de tester plus rapidement des idées créatives, va devenir un standard dans les ICC », prévient Côme Demarigny, cofondateur de X&Immersion qui propose, pour les studios (surtout de jeu vidéo), des outils de clonage vocal (avec une localisation multilingue) mais aussi de synchronisation labiale automatique. « Le temps de calcul pour animer en IA un visage Metahuman (avec ses différentes expressions) est à peine d’une seconde. Notre animation reste modifiable sur Unreal par l’animateur. »
Créée il y a un an, la start-up stéphanoise Chat3D a développé, de son côté, un outil qui vise, à partir de descriptions textuelles successives ou d’un concept art, de s’affranchir des bibliothèques 3D voire d’un long apprentissage de logiciels. « Nous nous sommes concentrés sur la génération rapide de modèles cohérents via l’IA générative. Aujourd’hui, notre focus porte sur la retopologie automatique », remarque Glenn Avezoux, cofondateur de Chat3D. « À terme, nous visons l’intégration de notre outil dans un pipeline de production sous forme d’un plug-in ou d’un add on. » Chat3D cible pour l’instant essentiellement les marchés du jeu vidéo, de la VR, de l’architecture et du design.

Autre voie envisagée, l’animation 3D directement obtenue à partir d’une séquence filmée : « Avec cette méthode, qui capture les gestes d’un animateur et génère automatiquement une animation qui peut être modifiée (etc.), l’humain peut rester au centre de la création », observe Stéphane Singier. « Cette piste Video to Animation semble très prometteuse car elle permet à l’animateur de garder la main sur les sources de l’image et la création de l’animation. »
Pour mettre en avant cette modalité, les RADI ont choisi, en guise d’introduction, le film de promotion de Wonder Dynamics diffusé lors de la conférence de presse d’Autodesk (octobre 2024), lequel montre comment une animation est générée à partir d’une vidéo, puis remise de manière spatiale dans une scène 3D.
Créée en 2020, Kinetix (déjà présentée aux RADI en 2021) s’est concentrée elle aussi et ce, depuis le début, sur ce modèle qui permet, à partir d’une vidéo classique, d’en extraire les mouvements en 3D. En trois ans à peine, la start-up française, à l’origine tournée vers le marché du gaming, est en mesure aujourd’hui, vu l’évolution très rapide des modèles d’IA, de fournir des preuves de concept en animation suffisamment convaincantes pour que son modèle d’IA soit proposé sur Unity Engine, et puisse être directement intégré dans le pipeline des créateurs.
« Avec l’intelligence spatiale, les modèles génératifs sont dotés d’une compréhension tridimensionnelle du monde qui nous entoure et multimodale (vidéo, 3D, texte…) », rappelle Yassine Tahi, CEO de Kinetix. « Dans ces scènes générées en 3D et spatialisées, le contrôle des mouvements devient alors beaucoup plus qualitatif et contribue à donner plus de consistance aux personnages. » Et de distinguer deux approches : la première en front avec une IA pouvant être directement intégrée dans les workflows 3D pour permettre le contrôle et l’éditabilité ; la seconde en background recourant à des modèles GenAI à destination des créateurs (de contenus YouTube par exemple) qui pourront ainsi créer de plus en plus de contenus 3D, et donc enrichir la base de données sur laquelle vont s’entraîner les modèles IA.

Les modèles IA (neuronaux cette fois-ci) se retrouvent encore, en bonne place, dans les solutions de synchronisation labiale (lipsync) automatisée. Développée par Dynalips, une start-up issue du labo de recherche Loria-CNRS/Inria à l’Université de Lorraine, la solution de lipsynch prend en compte, pour la première fois, la coarticulation afin de permettre une parole synchronisée de manière naturelle avec le mouvement des lèvres. La solution proposée est aussi multilingue, ce qui permet de multiplier les versions localisées (sans passer par un doublage vocal). Très simple d’utilisation, l’outil multilingue génère une animation 3D à partir d’un fichier audio et de son texte correspondant, laquelle s’adapte au modèle de bouche 2D ou 3D envoyée par le studio.
« L’outil est basé sur de l’IA neuronale et construit à partir de données de motion capture. Il ne remplace en aucun cas l’animateur qui peut toujours contrôler l’animation et y ajouter de l’expressivité », observe Slim Ouni, le fondateur et dirigeant de Dynalips. D’ores et déjà opérationnel, l’outil de lipsync, qui a prévu d’inclure l’animation des gestes dans ses prochains développements, est commercialisé sous forme d’un service Web, accessible directement ou via un plug-in pour Unreal (bientôt sur Blender et Maya).
Toujours aussi innovants mais, parfois, sans IA
« Au travers de toutes ces présentations, nous essayons de donner un aperçu du futur de l’animation, et comment ces outils (avec ou sans IA) vont se compléter », poursuit Stéphane Singier. « Mais, quand nous introduisons la captation volumétrique telle qu’elle est pratiquée chez Stage 11 (Paris), nous savons pertinemment qu’un tel équipement n’est pas à la portée d’un studio d’animation (une trentaine de caméras Sony FR7…). Montrer néanmoins comment l’industrie de la musique commence à s’emparer de ces technologies émergentes pour réinventer des concerts en numérique pourrait inspirer de nouvelles méthodes pour la communauté de l’animation. »
Depuis plusieurs années déjà, les Rencontres d’Angoulême prennent le pouls de l’état de l’art en captation volumétrique. En revenant sur la plate-forme très innovante mise en place par Stage 11 (uniquement pour son usage interne), l’accent est mis sur un exemple concret : la production d’un événement musical immersif associant des dispositifs de captation volumétrique hyperréaliste de personnages (visage et corps) avec la technique de rendu de volume en Gaussian Splatting (rendu en temps réel de scènes photoréalistes). À partir de ces scans dynamiques, sont récupérés à la fois le modèle, la texture (jusqu’aux infimes détails de la peau) et même l’éclairage HDR qui pourra être directement repris dans l’environnement virtuel de l’artiste (numérisé à partir de captations photos). Et ainsi assurer une parfaite cohérence dans le rendu de l’expérience musicale.

Les RADI ne se font pas uniquement l’écho des outils de prochaine génération mais tiennent aussi à demeurer une tribune ouverte aux logiciels innovants disponibles sur le marché ou encore en bêta test. Application certainement la plus accessible (en termes de prix comme de prise en main), Callipeg développé par Enoben, qui avait fait déjà l’objet d’une présentation lors des RADI 2021, a porté l’animation 2D sur iPad. Callipeg se décline aujourd’hui sur iPhone (Callipeg Mini) et tablette Android, une plate-forme jusqu’à présent peu exploitée en animation. Elle s’enrichit au passage de nouvelles fonctions (groupes de calques, intégration des exports, etc.) et interface. En 2025, l’outil d’animation sera porté sur ordinateur Mac et PC sous le nom de Callipeg Studio.
De son côté, Praxinos annonce un nouveau module d’animation, pour l’heure en bêta test, pour Odyssey (Prix Director Award à Tokyo 2024). Édité par la scop messine officiellement depuis février 2024, le logiciel (dont la version 2.1 est sortie en novembre 2014) s’est fait connaître pour combiner, dans l’environnement Unreal Engine, l’animation 2D bitmap, vectorielle et la 3D temps réel. Pour apporter encore plus de contrôle pour l’animateur (sur le timing et le spacing), l’éditeur n’a pas fait le choix de l’IA générative, mais a préféré collaborer avec l’Inria pour mettre au point, à partir de toute sa connaissance métier, un prototype inédit de génération d’intervalles pour l’animation 2D (Projet Mostyle). S’appliquant directement sur des dessins ou des esquisses, ce module très prometteur d’interpolation se démarque en effet des autres procédés (par rigs, trait par trait) en étant facilement exploitable par les studios. Et Fabrice Debarge, cofondateur et chef de projet chez Praxinos, de faire un appel aux animateurs de la salle pour lui faire remonter, non des data sets, mais des remarques afin d’améliorer son futur outil d’interpolation.

L’open source à la recherche d’une gouvernance nationale
Prenant de plus en plus d’ampleur, l’open source est suivie de très près par les RADI qui introduisent régulièrement les sociétés les plus investies. Cette année, ce modèle de développement a donné lieu à une session inhabituellement longue : « L’objectif est de favoriser l’émergence, à l’échelle nationale, d’un écosystème développant des outils open source pour la filière animation via des échanges collaboratifs », souhaite Stéphane Singier. Si la logique open source est inhérente à la création de certains studios (Les Fées Spéciales, Autour de Minuit…) qui portent régulièrement leurs développements open source sur gitlab.com par exemple, de nombreux freins existent encore dès qu’il s’agit de faire une contribution en licence libre.
« D’après l’étude Ynput 2023 VFX et Animation Pipeline Survey portant sur 110 studios (de 33 pays), si les studios adoptent massivement le logiciel libre en production, 66 % ne partagent pas leurs développements en libre », rappelle Flavio Pérez, directeur technique et cofondateur des Fées Spéciales. Mieux partager le code, qui implique de le documenter voire de le corriger, permettrait, d’après Yannick Castaing, superviseur R&D chez Bobbypills, de développer un socle commun d’outils très utiles pour la filière. Cette publication des briques open source est également fortement encouragée par les politiques publiques, au travers des dispositifs du CNC comme l’AMT (Aide aux Moyens Techniques) ou La Grande Fabrique de l’Image, lesquelles soutiennent aujourd’hui « massivement » l’open source tant en France qu’en Europe.
Si les projets incluant un développement en open sourcing sont donc « regardés avec bienveillance » par le comité d’experts, ils doivent aussi apporter la preuve qu’ils servent à la filière, et non pas au seul profit du studio qui les a créés. « Ce développement va-t-il bien alimenter la filière et sur quelle communauté s’appuie-t-il ? Celle-ci est-elle en mesure d’améliorer l’outil en permanence ? », précise Arnaud Roland, chargé de mission Aide aux moyens techniques/Production numérique au CNC.
Depuis la mise en place de l’AMT, une majorité de projets faisant appel à l’open source ont été soutenus. « Ce qui représente 1,4 million d’euros envoyé dans la filière. Ce sont surtout des projets de développement d’outils ou d’amélioration de pipeline de production. Nous notons aussi plusieurs projets de bascule de Maya vers Blender, ou des outils internes de gestion de production. »
Pour faire émerger cette gouvernance du libre pour la filière cinéma d’animation, les RADI ont directement demandé aux studios d’animation présents dans la salle quels outils d’animation ou services leur faisaient encore défaut dans leurs pipelines de fabrication. De cette session de deux heures ont fini par émerger quelques pistes comme la nécessité d’identifier les projets (sous forme d’inventaire ou autre), trouver une nomenclature commune, élaborer une charte ou un guide des bonnes pratiques de l’open source (quelle licence choisir, etc.), connaître son impact environnemental… Dans la foulée, un espace d’échanges sur Discord a été mis en ligne. En quelques heures seulement après la publication de son QR Code (https://discord.com/invite/9eQ4zmPtTn), plus de 160 adeptes du libre s’étaient déjà inscrits…

techniques : de la prise de vue réelles macroscopiques en time lapse à l’animation en 2D et 3D. © Miyu Production, Ecce Films et Umedia Production
Dans les coulisses de Planètes de Momoko Seto
À défaut de présenter un film réalisé tout en IA, les RADI ont préféré s’arrêter sur Planètes, un long-métrage en cours de production qui fait l’apologie du vivant et qui a su trouver des solutions inventives de captation d’images. Produit par Ecce Films et Miyu Productions (avec Umedia Production), et réalisé par Momoko Seto (Prix de la Fondation Gan en 2022), Planètes narre l’épopée de quatre akènes de pissenlit échoués sur une planète à la recherche d’une terre pour s’enraciner.

Pour Franck Malmin, producteur exécutif chez VFX Reepost, qui a suivi cette aventure « à la Indiana Jones », disposer d’une petite équipe rompue à tout a constitué un avantage certain face aux nombreux enjeux du film (sans dialogue). Lequel mêle, dans une approche « artisanale », différentes techniques et échelles de prises de vue : avec drones sur des glaciers islandais, caméra high speed dans une forêt japonaise afin de collecter un maximum de matières vivantes, vues macroscopiques en studio qui a reconstitué jusqu’au moindre brin d’herbe les cinq univers parcourus par les végétaux intrépides (rendus en 3D par Guionne Leroy).
« Dans les serres du château de Rambuteau, nous avons construit plusieurs plateaux de tournage sur lesquels nous avons fait pousser de vraies plantes et filmé dedans des limaces, grenouilles, mantes religieuses… » Chaque plateau était équipé d’un set d’appareils photos et d’un modèle réduit de robot industriel automobile adapté et mis en place par Olivier Dubois, ingénieur R&D chez Cinetronic :

« Pour la même séquence, nous avions à gérer à la fois le mouvement du robot et les appareils photos qui filmaient en time lapse. » Pour ce film, qui multiplie les formats et occupe pas moins de 600 teraoctets de data, la chaîne de fabrication mise en place par Reepost inclut Maya et Blender, l’outil de tracking Cerebro, Resolve et Nuke en compositing. Dotée d’un budget de 4 millions d’euros, la production a nécessité pas moins de quatre années de fabrication (dont neuf mois de tournage et un an et demi de postproduction). « Quand nous avons présenté cette production à l’international, on nous a dit qu’il n’y avait qu’en France qu’un film aussi fou pouvait être produit », se souvient Franck Malmin. Ovations dans la salle.
Extrait de l’article paru pour la première fois dans Mediakwest #60, p.122-128