Le sport s’éveille à l’intelligence artificielle

Déjà au cœur des transactions financières, des géosciences et de développements aussi divers que les transports autonomes et la médecine prédictive, l’intelligence artificielle (IA) frappe aujourd’hui à la porte de l’industrie du sport broadcast. Certains acteurs, à l’image d’EVS, ont devancé l’appel...
1_RUSSIE 2 FCC.jpg

 

Lors des derniers JO d’été, parmi les quelque 7 000 collaborateurs travaillant sous la bannière d’Olympic Broadcasting Services (OBS), l’opérateur hôte, une cinquantaine de loggers étaient chargés d’intégrer en temps réel et en permanence des métadonnées dans tous les flux vidéo. Et si le logger de demain, entre autres opérateurs spécialisés, était un algorithme ? Et si, de la même manière, les caméras, consoles audio, mélangeurs vidéo et autres CCU, dont la gestion repose sur le savoir-faire humain, étaient pilotés par un programme informatique ?

« Les outils d’IA sont déjà capables de fournir une assistance pertinente. Il manque encore l’intégration avec des interfaces utilisateur et le prix est encore trop élevé. Mais cela va bientôt changer », pronostique Pedro Ferreira, expert international à multiples casquettes (formateur à l’UER/Eurovision, fondateur de Bisect, partenaire de Strdeo…).

 

 

Des technologies encore loin du but

Avec les diaphragmes électroniques, l’autofocus, le suivi du ballon ou d’un joueur (tracking), etc., le phénomène d’automatisation dans l’industrie du sport broadcast est déjà bien engagé. Avec le déploiement des technologies auto-apprenantes (machine learning et deep learning) d’IA que soutient la migration vers le tout IP, celui-ci va s’accélérer et revêtir de nouvelles formes car, comme dans d’autres secteurs, il s’agira de produire plus à budget constant en réduisant, sinon en éliminant, les tâches répétitives et chronophages.

« Toute la difficulté va être d’identifier des modèles dans lesquels l’IA est économiquement viable, sans être destructrice de valeurs (et d’emplois) », résume Charles Lesoil, responsable ingénierie et projets au sein de la Direction Technique Edition (DTE) du groupe Canal+. Et ce afin de répondre aux nouveaux enjeux et besoins (rapidité, robustesse…) d’une production transgressive.

« Si l’on songe que seulement 10 % du contenu capturé par les caméras est réellement exploité et diffusé vers le téléspectateur, l’IA ouvre de nouveaux horizons », convient Nicolas Bourdon, directeur marketing chez EVS.

Toutefois, avant de les atteindre, il va se passer un peu de temps. « Il y a encore plusieurs limites pour le sport en direct. Par exemple, les outils de reconnaissance faciale sont inopérants quand les acteurs sont trop loin », illustre Pedro Ferreira. De même, les machines ont encore du mal à reconnaître ce qui se passe sur le terrain.

« Aujourd’hui, il est plus facile d’utiliser l’IA pour créer différentes versions de highlights (extraits) que de générer des clips automatiquement, car la définition des événements (but, penalty, carton rouge…) nécessite encore la compréhension d’un environnement », tempère également Nicolas Déal, TV transmission manager à l’Union des associations européennes de football (UEFA). Autrement dit, la machine peut, par exemple, percevoir quand un but a été marqué, mais ne pas savoir par qui ni par quelle équipe il l’a été.

D’autre part, « la mise en place de nouveaux workflows orientés service, que ce soit pour les contenus ou les données, y compris l’automatisation des liens entre les deux, représente un effort d’intégration qui ne devra pas être sous-estimé, sinon le chaos régnera à une échelle plus grande que dans les architectures traditionnelles », prévient de son côté Jean-Pierre Evain, expert en IA et Big Data à l’Union européenne de radio-télévision (UER).

 

 

Logging et indexation d’abord…

Si des solutions de logging automatisé existent déjà, l’apport de l’IA, grâce à l’analyse des images, apparaît davantage pour une indexation plus rapide et plus fine, non seulement des vidéos nouvelles, mais aussi des archives.

« Les travaux en cours consistent pour la plupart à extraire une information sémantique dans un flux vidéo et audio. Cette aide au logging est la première étape d’une production basée sur l’IA », abonde Pedro Ferreira. Une aide qui intéresse de près les diffuseurs.

« L’IA est devenue un très gros sujet de prospective et d’investigation. Sur le sport, nous avons des projets qui visent l’indexation des contenus et pour lesquels nous discutons avec des partenaires », confirme ainsi Guillaume Esmiol, responsable open innovation et nouveaux business à TF1.

Comment mieux collecter les data, qui constituent le carburant indispensable aux technologies d’IA, et mieux les rendre intelligibles, c’est-à-dire exploitables par des algorithmes ?

« Dans le domaine du sport broadcast, la collecte et le traitement des données de type résultats ne requièrent pas nécessairement l’utilisation d’outils IA, bien que l’UER préconise que ces données soient traitées suivant des modèles sémantiques, lesquels relèvent du champ de l’IA, afin de développer les liens entre les ressources pour une recherche plus efficace et dynamique », expose Jean-Pierre Evain. En revanche, enchaîne l’expert, « il y aura sans doute un intérêt plus marqué à l’utilisation de ce type d’outils avec le développement d’objets connectés, tels que maillots, chaussures, gants de boxe et autres raquettes, qui vont fournir un flot exponentiel de données dynamiques impossibles à exploiter sans l’aide de l’intelligence artificielle. »

Pour l’heure, cependant, le logging traditionnel, avec ou sans clavier dédié, a encore ses dévots. La création de données reste très manuelle, alors même que les diffuseurs auraient la possibilité d’utiliser celles fournies par l’opérateur hôte.

« Les partenaires avec lesquels nous traitons opposent une incroyable résistance à l’évolution des équipements. Certaines sociétés leaders du secteur déstructurent les données et les concatènent dans des chaînes de caractères, quand elles ne se débarrassent pas de données essentielles. Il s’agit là d’un manque évident de maturité qui augure mal de leurs contributions futures aux développements de l’IA », pointe à ce sujet Jean-Pierre Evain.

L’autre point critique, déjà évoqué, est la capacité des machines à détecter les événements. « Les techniques individuelles (audio-transcription, tracking, reconnaissance faciale…) existent, mais leur combinaison n’est pas encore mature », convient Nicolas Déal. Du coup, les loggers ont encore, semble-t-il, de beaux jours devant eux. « Ils sont plus lents que les machines et, donc, il faut parfois compenser leur temps de réaction en revenant au time code d’origine par visionnage après coup. Mais ils ne passent pas à côté de certains événements complexes qui rendent les machines “perplexes”. »

 

 

Réalisateur virtuel ou simple aide à la réalisation ?

Extraction automatique de données, découpage automatique de séquences, hyper-personnalisation des contenus, fabrication de résumés prêts à diffuser au cours du direct, création d’images intermédiaires pour les ralentis… La révolution 4.0 ne fait que commencer et, sans nul doute, les tâches déléguées aux algorithmes vont se multiplier au point de raccourcir comme jamais les cycles d’innovation.

« Filmer comme un métronome, je ne sais pas faire… », déclarait en 1998 Jean-Paul Jaud, à la veille de la finale de la Coupe du monde de football en France. Vingt ans plus tard, la réaction du réalisateur historique de Canal+ a un air de prophétie. La création d’outils d’aide à la réalisation, sinon d’un réalisateur virtuel, s’annonce, en effet, comme l’une des prochaines étapes.

Déjà des outils de réalisation fonctionnant sans intervention humaine existent, comme ceux de l’israélien Pixellot pour des productions légères. Des outils que convoitent également les clubs, désireux d’optimiser leurs performances en filmant à bon marché leurs séances d’entraînement, sinon leurs matches.

En revanche, pour les grosses productions, où les enjeux sont importants, « la méfiance, sinon l’hostilité, des opérateurs et des donneurs d’ordres à l’égard de ces solutions est encore trop forte pour envisager leur mise en œuvre », constate Nicolas Déal.

Il n’empêche que certains industriels du broadcast, comme EVS, y travaillent, tout en se défendant de vouloir remplacer l’homme par l’algorithme. « L’intelligence artificielle ne va pas se substituer aux opérateurs, loin de là, mais venir en renfort de leurs capacités créatrices, en leur permettant de remplir des tâches à plus forte valeur ajoutée », plaide ainsi Nicolas Bourdon.

Ici, l’algorithme apprend lui-même où se trouve l’action et comment un réalisateur fait ses choix, sur la base de centaines de matches (400 dans le cas d’EVS et, selon nos informations, 500 pour l’un de ses concurrents). À condition, toutefois, d’avoir les moyens d’éduquer la machine. Outre les ressources de calcul nécessaires, « la problématique se situe au niveau du learning set », éclaire l’une des parties prenantes. « Dans les archives, on ne retrouve que le programme final, celui qui a été mis à l’antenne. Alors que pour créer un algorithme de réalisation automatique, il faut pouvoir disposer de toutes les sources vidéo, y compris les plans de caméras divergées, isolées et autres. »

De plus, la machine peut reproduire des biais, selon qu’elle aura été « entraînée », pour le football en l’occurrence, avec des retransmissions de matches anglais, allemands ou français, qui témoignent de différences notables quant au nombre de plans de caméras (600 à 800 en Angleterre, par exemple, contre 1 000 à 1 300 chez nous) ou de ralentis par match (40 à 70 en général en Allemagne, contre près du double en moyenne en Italie ou en Espagne).

D’autre part, à cause du nombre de mobiles (joueurs, arbitres, ballon…), de leurs va-et-vient incessants, des conditions d’éclairage et des dimensions du terrain, qui nécessitent l’utilisation de caméras à longue focale, le défi pour la machine semble bien plus relevé pour des grands sports collectifs que pour des compétitions individuelles ou se disputant sur des aires de jeu réduites, pour lesquelles un simple plan large est en général pertinent.

Autre point critique : quid de l’interface commentateurs-réalisateur virtuel ? « Il faudrait que celui-ci réagisse à la voix pour montrer des images à la demande des premiers », suggère Charles Lesoil. « L’apprentissage sur le live sera encore long et fastidieux et ne concernera qu’un nombre restreint de disciplines. Quant aux grands sports collectifs, je ne crois pas qu’ils puissent, à terme, passer facilement en mode automatique », résume un proche du dossier.

Dans ce contexte, à l’instar de la solution Virtual Production Assistant d’EVS, l’IA s’annonce plutôt comme un outil de recommandation ou d’aide à la décision, soumise à validation humaine. « Elle pourra analyser les différentes sources, prédire un certain nombre d’événements et proposer au réalisateur un certain nombre d’options qu’il pourra choisir ou ignorer », développe Nicolas Déal.

Restent les situations que la machine n’aura pas mémorisées, telles celles relevant du hors-champ. Ainsi, programmée pour identifier les faits de jeu, il est probable qu’une solution d’IA n’aurait pas su repérer le fameux coup de tête de Zidane à Materazzi lors de la finale France-Italie du Mondial 2006…

 

 

Betting, monitoring et gamification

Pour le meilleur et, peut-être, le pire, l’IA va se déployer sur d’autres terrains que la production live, la postproduction assistée ou encore la gestion des contenus.

Dans le domaine du monitoring, par exemple, elle permettra d’instaurer une surveillance plus étroite des sites et autres plates-formes pirates. Combinée à des solutions de watermarking ou de fingerprinting, « l’IA peut servir à reconnaître l’usage illégal de contenus. Néanmoins, l’arrêt de ces diffusions ne peut être décidé que par des humains, sur la base de lois et non d’adresses IP », observe Nicolas Déal.

Mieux que d’autres, grâce à l’identification automatique de l’action et de son auteur, ainsi qu’à un sous-titrage et une transcription audio automatisés, des solutions basées sur l’IA permettront également d’élargir l’audience du sport à des publics de déficients sensoriels.

« L’accessibilité sera obligatoirement améliorée », convient Jean-Pierre Evain. « Au Japon, la NHK fait déjà de la conversion du texte à la parole, indiquant par exemple le nom du joueur et son résultat (0-15, 0-30…) » précise-t-il, avant d’ajouter : « Tout ce qui est “speech to text” avec traduction automatique est déjà disponible. Et tout ce qui est NLP (natural language processing), qui est une autre source d’indexation après conversion de la parole en texte, voit ses performances augmenter rapidement, avec l’utilisation du deep learning et des réseaux neuronaux (traduction contextuelle basée sur une grande quantité de données diverses). »

De même, lors d’une production live, pourra-t-on réaliser des pronostics en amont et illustrer, sous forme d’animations ou de séquences prédictives, la probabilité d’une action (longueur d’un lancer ou d’un saut, échec ou réussite d’un coup de pied arrêté, par exemple), sinon la blessure ou l’abandon d’un compétiteur, grâce à la combinaison naissante du sport connecté et de l’IA, c’est-à-dire de capteurs et d’algorithmes aptes à analyser en temps réel des masses de données (course d’élan, appuis, champ visuel, posture…) ! Sur quoi pourraient se créer, entre autres, de nouvelles expériences de gamification (jeux à destination des fans présents dans le stade ou devant leur écran), sinon des intérêts commerciaux (sociétés de paris).

« À l’instar de la météo, où la précision des prévisions s’améliore au fur et à mesure que les données locales arrivent, le problème est que le temps de calcul risque d’être supérieur à l’avance que peut prendre le moteur de prédiction », commente Nicolas Déal. « Si tant est que la prédiction arrive avant l’événement, cela pourrait être une source de conflit avec le monde des paris sportifs. À cet égard, la comparaison avec le trading haute fréquence montre que la fenêtre temporelle utile peut être extrêmement réduite, et néanmoins génératrice de profits. »

Par ailleurs, qu’adviendrait-il de la valeur des droits live si la « noble incertitude » du sport venait à être plus ou moins entamée ? « Son économie en serait totalement déstabilisée », résume Jean-Pierre Evain. « Heureusement, de nombreuses études en matière de prédictions statistiques ont montré l’importance du facteur humain (capacité à se surpasser, force mentale, empathie, etc.) »

 

 

Caméras « intelligentes » et media cloud

Côté workflow, l’IA conduira-t-elle à une analyse des images sur la caméra, réduisant du même coup les charges du serveur et du réseau ? « Le “source timed switching” permet déjà de ne rapatrier que les contenus choisis, rappelle Nicolas Déal. Il permet aussi de produire plusieurs signaux en parallèle. L’IA serait juste le moyen d’automatiser tout ou partie du processus. »

Déporter l’IA sur le hardware ? « Techniquement parlant, on sait exécuter l’inférence sur du CPU/GPU/FPGA. Mais, dans tous les cas, il faudra que la puissance de calcul soit disponible », prévient Johan Vounckx, responsable innovation chez EVS. De plus, « un traitement de l’image sur la caméra accroît le risque d’une perte de contenu de valeur sur une simple décision algorithmique », intervient Jean-Pierre Evain.

L’autre direction à prendre est de remonter toutes les informations issues de toutes les sources (caméras, micros, capteurs divers…) vers des data centers et d’y fabriquer des images dans les formats souhaités par les différents utilisateurs, en s’aidant ici de l’IA pour faire le tri dans la masse d’informations disponibles et réaliser du même coup une économie de stockage et de bande passante.

« Par rapport à une production sur site, le bénéfice d’une production centralisée est de l’ordre de 30 %. Mais qui dit multiproduction, dit coûts additionnels, l’IA pouvant être alors un moyen de limiter ces derniers », révèle Nicolas Déal.

Pour le représentant de l’UEFA, « la création de media cloud (réseau + intelligence) est la condition sine qua non de cette évolution ». Pour des applications professionnelles, « il est sans doute plus efficient d’aller vers le cloud que d’investir dans du matériel “intelligent” », renchérit Pedro Ferreira. Il n’en demeure pas moins que, même si la puissance de calcul reste importante, le besoin en bande passante et la latence ne le permettent pas toujours. Ainsi, pour une caméra robotique, une latence supplémentaire de 100 millisecondes peut affecter sérieusement la qualité du pilotage.

« Une évolution full-cloud est possible pour ne plus avoir à gérer d’infrastructure. Mais il y a encore des problèmes de sécurité, voire des problèmes de vendor lock-in, ou tout simplement un désir, somme toute légitime, de contrôle », analyse de son côté Jean-Pierre Evain. De plus, « il apparaît, par exemple, que les plates-formes de type cloud sont perpétuellement mises à jour sans rétrocompatibilité, ce qui signifie que les développeurs doivent en permanence adapter leur code pour se connecter à elles. On peut espérer que les interfaces vont se développer à un niveau d’abstraction suffisant pour se libérer de ces contraintes. »

Pour les diffuseurs, en effet, sauf à recourir à des solutions de type open source, par exemple, la difficulté est de trouver un partenaire IA avec lequel ils vont pouvoir partager des données ou des contenus qui, en fait, ne leur appartiennent pas.

Charles Lesoil s’interroge : « Est-ce que les détenteurs de droits ont vraiment envie que leurs images soient exportées sur les Gafa (ndlr : sinon les Batx, leur équivalent chinois), lesquels disposent de puissants moteurs d’IA et vendent celles-ci comme un service ? Du coup, cela limite un peu nos choix d’implémentation à des solutions de type IBM Watson qu’on peut intégrer à la maison. »

 

 

Du côté des acteurs

Pour bon nombre de solutions IA, les plates-formes de type cloud ont pris les devants, comme Adobe Sensei AI, laquelle propose des solutions de camera matching et d’auto-ducking, Intel, partenaire IA des prochains JO d’été (Tokyo 2020), ou encore IBM Watson Media. La technologie de Big Blue, qui facilite la production de highlights, a été étrennée lors du dernier US Open de tennis, et utilisée plus récemment sur Wimbledon et par Fox Sports lors du Mondial de football en Russie.

Dans l’ombre de ces géants du numérique et d’autres acteurs connus (Valossa…) s’activent des start-up désireuses de diffuser leurs propres solutions. Comme au Portugal, où Strdeo se positionne sur plusieurs marchés verticaux, dont la production de médias en direct. « Avec l’appui de l’IA, nous développons un système de logging semi-automatisé dont le pilote a déjà trouvé sa place au sein d’une fédération sportive », confie Pedro Ferreira, l’un des partenaires de la start-up.

L’IA orientée sport s’invente aussi sur les rives du Léman et en Suisse, siège de plusieurs fédérations sportives internationales (CIO, UEFA…) et d’instituts de recherche réputés (EPFL, ETHZ…). Ainsi, à la Haute École Ingénierie Gestion (HEIG) d’Yverdon-les-Bains, dans le canton de Vaud, un projet en attente de brevet piloté par Romuald Mosqueron, docteur en instrumentation et informatique de l’image, vise à créer, selon une architecture maître/esclave (caméras + unité de calcul), une solution de réalisation automatique et, dans une deuxième phase, de résumé automatique live pendant le streaming. « L’IA sélectionne elle-même les images les plus intéressantes dès la captation, suivant ce qui se passe sur le terrain, sa technique d’apprentissage et les objectifs fixés par le broadcaster », résume son responsable.

De son côté, l’Union européenne de radio-télévision (UER) a installé deux groupes de travail sur l’IA, l’un centré sur la recommandation et la « personnalisation for each » (projet Peach), qui intéressent, entre autres, le sport et utilisent des algorithmes de big data pour traiter les données fournies par les membres participants ; l’autre dédié au « Media Information Management and Artificial Intelligence » (MIM-AI), à savoir l’étude et l’implémentation des outils IA et leur intégration dans les workflows broadcast, l’extraction automatique de données, les data sémantiques et autres modèles de data.

Cet été, les premiers championnats d’Europe unifiés, qui se sont déroulés à Berlin et Glasgow, ont par ailleurs été l’occasion de tester « l’intégration de données live dans un MAM sémantique sur la base de l’ontologie sport de l’UER, laquelle permet, entre autres, un mapping des données au format ODF (Olympic Data Feed) », signale Jean-Pierre Evain.

Ailleurs, EVS aussi a devancé l’appel. Chez le constructeur belge, des solutions de calibration automatique des caméras, de définition et d’assemblage automatiques de clips à partir des temps forts d’un direct, d’aide à la réalisation, de découpage automatique d’une zone dans une image HD et de publication automatique sur les réseaux sociaux sont en cours de développement, à des stades plus ou moins avancés.

Ainsi, le révélateur de hors-jeu (Epsio) est aujourd’hui intégré dans la version 2.0 de la solution d’assistance à l’arbitrage Xeebra grâce à un moteur d’IA permettant à la caméra d’ajuster automatiquement ses paramètres, une calibration jusqu’ici manuelle et à la charge d’un opérateur avant ou pendant le direct. Désormais, « si la caméra bouge, la configuration de la ligne de hors-jeu reste correcte et s’adapte à la nouvelle position de la caméra », résume Nicolas Bourdon.

De même, la solution de découpage automatique (Automated Framing) est en cours d’intégration dans l’un des modules de la suite du futur produit de gestion de contenus IP Direction, notamment pour la préparation de séquences destinées aux réseaux sociaux. Enfin, la solution d’interpolation d’image sur un flux de replay, encore à l’état de prototype, promet la création virtuelle d’une séquence slow motion à partir d’une captation classique à 25 images/seconde.

 

Extrait de l’article paru pour la première fois dans Mediakwest #28, p. 72/76. Abonnez-vous à Mediakwest (5 numéros/an + 1 Hors-Série « Guide du tournage ») pour accéder, dès leur sortie, à nos articles dans leur intégralité.