You are currently viewing L’apport de l’IA, dans la production de live de sport, avec les solutions d’EVS
A gauche : En combinant deep learning et IA générative, le système devient capable d’éliminer le flou de mouvement dans les ralentis. A droite : Le « deblurring » est tel qu’on retrouve les traits des joueurs. © DR

L’apport de l’IA, dans la production de live de sport, avec les solutions d’EVS

 

Quand on pense aux bouleversements qu’ont connus nos sociétés avec l’avènement de cette forme d’énergie, on a du mal à imaginer ce que pourrait être une transformation de cette ampleur de nos modes de vie. Les répercussions de cette mutation, bien qu’étant à ses prémices, sont déjà nettement visibles dans divers secteurs, et notamment dans l’audiovisuel, qui a toujours été intimement lié aux évolutions technologiques. Nos caméras nous assistent davantage, nos logiciels automatisent des tâches fastidieuses et génèrent les images et les sons issus de nos pensées.

Pourtant il est un secteur dans lequel cela semble faire moins sens : celui de la vidéo de sport. L’intérêt du sujet tient justement dans le fait de voir des athlètes faire ce qui semble inhumain : courir cent mètres en moins de dix secondes, enchaîner les grands cols des Alpes à vélo, se faufiler à travers la défense adverse pour marquer un but… Créer des images d’exploits incroyables paraît ainsi moins intéressant que de jouer à un jeu vidéo. Mais pourtant, certaines applications de l’IA dans le live de sport sont fascinantes.

EVS, la société bien connue pour ses serveurs de ralentis, a bien perçu le potentiel que pouvaient représenter ces nouvelles technologies pour améliorer l’expérience du spectateur, tout en offrant plus de souplesse à la production. Olivier Barnich, directeur de l’Innovation et de l’Architecture, précise : « À travers les années notre industrie est passée de la SD à la HD puis à l’UHD, du SDI à l’IP, mais les processus n’ont pas vraiment changé. Aujourd’hui, on voit avec l’IA la possibilité d’améliorer grandement les ralentis dans le live, et ainsi de captiver le spectateur en suscitant plus d’émotions. »

Pour l’instant, la narration du programme dépend de ce qui a été planifié en amont, avec le plan d’implantation des caméras. Certaines ont des focales larges, d’autres serrées, certaines sont à haute cadence pour permettre des ralentis fluides… Chaque choix de caméra et d’objectif implique des compromis pour le réalisateur qui doit composer avec ce qui est disponible. Par exemple, l’utilisation de caméras Super Slow-Motion implique des temps d’exposition courts et de grandes ouvertures, donc une profondeur de champ réduite, ce qui rend difficile la mise au point sur des sujets se déplaçant rapidement, et n’est pas forcément adaptée à la compréhension de moments de jeu intenses.

 

Un zoom numérique intelligent associé à un algorithme de super résolution pour offrir des valeurs de plan supplémentaires au réalisateur. © DR

 

Les nouvelles solutions proposées par EVS, en s’appuyant sur les possibilités offertes par les réseaux neuronaux profonds de l’IA (les deep neural networks), ont pour but d’étendre les capacités du système en termes de fréquence d’images, de netteté, de résolution et de profondeur de champ pendant la retransmission. Cela se traduit concrètement par quatre applications.

Tout d’abord, la capacité de simuler une caméra à haute cadence à partir de l’image de n’importe quelle caméra, grâce à l’interpolation d’image temporelle. Ainsi, au lieu de restreindre les possibilités de ralenti aux seules images issues des caméras Super Slow-Motion, cette technique permet de les effectuer à partir de toutes les caméras. Le processus consiste à générer des images intermédiaires, souvent appelées « images hallucinées », pour obtenir des ralentis fluides.

Pour cela, le système s’appuie sur les méthodes de flux optique et de bout en bout. On connaissait déjà ces techniques dans les logiciels de postproduction, mais on peut imaginer la complexité pour les appliquer dans le live. C’est là que l’apprentissage en profondeur (le deep learning) intervient : le système a étudié quantité d’images préexistantes pour connaître les mouvements des joueurs et ainsi plus efficacement recréer les images intermédiaires nécessaires aux ralentis de leurs actions.

Une autre application est l’accroissement du piqué de l’image, avec un effet de réduction du flou de mouvement. Celui-ci peut être souhaitable dans certains cas, car en imitant la persistance rétinienne il donne une plus grande impression de fluidité. Mais dans d’autres, il crée un rendu désagréable, à cause de la perte d’information. On ne peut donc pas définir un temps d’exposition optimal qui correspondrait à tous les scénarii.

C’est là que l’IA intervient. En combinant deep learning et IA générative, il devient possible d’éliminer le flou de mouvement, avec le processus connu sous le nom de « deblurring ». Encore une fois, la machine a été entraînée en analysant un ensemble de données issues d’images filmées à haute cadence pour recréer le piqué d’une telle image sur celle issue d’une caméra à vitesse standard. Le rendu est assez époustouflant, surtout quand on pense à la puissance de calcul nécessaire pour effectuer ce renforcement de netteté en temps réel.

Pour aller encore plus loin, les nouvelles solutions d’EVS créent des effets de profondeur de champ, en simulant virtuellement divers objectifs. Vous appréciez peut-être d’ajouter un bokeh artificiel aux photos que vous prenez avec votre téléphone ? L’idée est la même, mais pour de la vidéo broadcast live !

Comme on l’a abordé précédemment, il n’est pas forcément adapté de capter le sport avec des images à courte profondeur de champ : effectuer la mise au point est très difficile à de telles distances, et le spectateur peut perdre une partie de l’action qui se déroulerait dans un plan flou de l’image. En revanche, focaliser son attention sur une zone de jeu, avec un rendu cinématographique, peut augmenter l’émotion du spectateur pendant le replay d’une action.

 

Grâce à la reconnaissance des sujets et à l’analyse de leur position et taille dans l’image, la solution EVS crée un bokeh artificiel réaliste. © DR

Pour que l’effet soit réaliste, il faut que le système sache reconnaître les individus et estimer la distance qui les sépare par leur différence de taille dans l’image. Cela se fait par apprentissage, c’est le deep learning. Ensuite, il faut qu’il soit capable de déterminer quelle zone de l’image mérite d’être nette, et assurer le suivi de l’objet choisi grâce aux méthodes de détection de sujet et de tracking. C’est ainsi que le système peut simuler le rendu visuel d’un objectif à grande ouverture, en effectuant un suivi de mise au point sur le sujet principal et un floutage des autres en arrière-plan. Et encore une fois, cela doit se faire en temps réel.

Quatrième application de l’IA dans les solutions d’EVS : un zoom numérique intelligent avec un algorithme de super résolution. Bien que le réalisateur crée le plan d’implantation des caméras qui serve au mieux la narration et dirige ses cadreurs pour qu’ils conservent un plan d’ensemble nécessaire à la compréhension du jeu ou qu’ils suivent un joueur en particulier, il peut arriver qu’une action échappe à l’angle des plans serrés et soit trop petite dans un plan large pour être comprise.

En combinant la détection de la saillance, la détection d’objet et leur suivi, il devient possible de définir de manière semi-automatique une trajectoire de caméra virtuelle qui vient recadrer de manière plus serrée une image grand-angle. Pour la ramener à la résolution native de la production, le système fait appel à un algorithme de super résolution, qui consiste à générer des images haute-résolution à partir de basses définitions. C’est un système auquel les productions font appel depuis longtemps, mais qui a fait de nets progrès, encore une fois grâce aux capacités d’apprentissage de l’IA.

L’exploitation des capacités de l’intelligence artificielle, combinée avec diverses techniques, représente un grand pas en avant dans le secteur du live broadcast. Les possibilités de création ne sont plus limitées par les décisions prises avant l’événement. Des paramètres tels que la fréquence vidéo, le temps d’exposition, l’ouverture et la longueur focale peuvent désormais être ajustés en temps réel. Pouvoir disposer de ces effets en tant que flux vidéo disponible à tout instant donne plus de flexibilité aux réalisateurs.

Olivier Barnich résume : « Grâce à l’intelligence artificielle, nos opérateurs bénéficient de nouveaux outils pour exprimer leur créativité. Pour produire des ralentis fluides, ils sont d’ores et déjà affranchis du nombre d’images par seconde acquises par les caméras. Et dans un futur proche, ils bénéficieront d’une liberté similaire vis à vis de la profondeur de champ, de la distance focale, de la résolution et du flou de mouvement. »

Il anticipe déjà que la prochaine étape concernera les positions et les orientations des caméras. Les progrès récents des algorithmes de reconstruction 3D permettent de déplacer une caméra vidéo virtuelle dans n’importe quelle position afin d’obtenir des transitions fluides ou de montrer des points de vue inédits, tels que la perspective à la première personne d’un joueur. On peut ainsi imaginer de nouvelles opportunités de raconter des histoires encore plus captivantes, avec un minimum d’efforts ou de surcoût d’équipement, grâce à la puissance des machines, et à l’intelligence artificielle bien sûr.

 

Article paru pour la première fois dans Mediakwest #55, p. 112-114