Retour sur ce Proof of Concept (PoC) avec l’Espagnol Guillermo Jimenez Navarro, directeur de l’ingénierie broadcast au sein d’Olympic Broadcasting Services (OBS) et grand artisan, depuis plus de quinze ans, des innovations technologiques introduites par l’opérateur hôte des Jeux Olympiques.
Avec votre projet de description automatique des médias (AMD), qui a été testé pour la première fois à Tokyo, quel objectif poursuivez-vous ?
Guillermo Jimenez Navarro : L’objectif d’AMD est d’améliorer les métadonnées associées à la vidéo en appliquant la reconnaissance d’images par intelligence artificielle (pour la reconnaissance des athlètes, les prises de vue, les drapeaux, la présence de spectateurs…) et le traitement du langage naturel (pour la synthèse vocale des commentaires). Le résultat passe par des mots-clés qui peuvent être utilisés ultérieurement pour d’autres applications pour rechercher, sélectionner, récupérer des images et, éventuellement, trouver des modèles pouvant aider à automatiser la production dans un proche avenir.
Sur quels sports exactement ce projet a-t-il été mené ?
Plusieurs sports ont été sélectionnés pour les différents PoC que nous avions prévus. Ces sports étaient l’athlétisme, le football, le rugby à sept, la voile et le VTT. Pour des sports comme le football ou le basket-ball, des modules d’Intelligence artificielle (IA) sont déjà sur le marché. Maintenant, pour couvrir les besoins des Jeux Olympiques [ndlr : qui, à Tokyo, ont mis en vedette trente-trois sports au total], le challenge est que les algorithmes de reconnaissance faciale et autres puissent s’appliquer à tous les sports du programme olympique.
Concrètement, comment la reconnaissance des athlètes s’effectuait-elle ? Grâce à un système de tracking des dossards ou des maillots ?
C’était le concept. Selon le sport, le dossard était un numéro, un nom de famille ou un sigle du Comité National Olympique. De plus, dans le cas des sports d’équipe, les numéros peuvent être répétés, il faut donc tenir compte de la couleur du maillot. Pour l’occasion, en revanche, nous n’avons pas fait appel à des techniques de reconnaissance faciale.
Quelles ont été les problématiques rencontrées en la matière ? Je songe notamment aux occlusions optiques, spécialement dans un sport comme le rugby, où s’affrontent d’ordinaire deux équipes de quinze joueurs et où ceux-ci s’empilent dans des mêlées ouvertes ou fermées…
Oui, les défis sont nombreux. Pour n’en citer que quelques-uns : difficulté d’identifier un acteur de la compétition dans différentes positions (debout, assise, allongée…) ; difficulté d’identifier cet acteur comme étant un athlète et non un officiel, un spectateur ou un arbitre ; difficulté, comme vous venez de le souligner, de suivre cet athlète à travers des occlusions avec d’autres athlètes ou des objets ; difficulté de traiter un maillot avec des rayures qui occultent partiellement le numéro ou le nom de l’athlète…

Les technologies d’intelligence artificielle pour la reconnaissance d’images vous paraissent-elles aujourd’hui opérationnelles ?
L’intelligence artificielle dans ce domaine n’en est qu’à ses débuts. La détection d’objets de base est une chose, mais distinguer et classer les mêmes objets dans différentes catégories (athlètes, arbitres, etc.) et les suivre, nécessitent un long apprentissage pour chaque sport. Le moteur d’IA n’est pas conscient du contexte (épreuve de tir à l’arc versus match de football, par exemple) et peut facilement confondre les spectateurs avec les athlètes ou vice versa. Afin d’être conscient du contexte, il doit y avoir une concaténation de différents modèles de reconnaissance d’IA qui doivent fonctionner ensemble ou entraîner différents modèles pour différents sports. Ces modèles ont été largement développés pour les sports de grande audience (football, basket-ball, etc.), mais, encore une fois, pour couvrir les besoins des Jeux Olympiques, nous en avons besoin pour tous les sports.
Quels enseignements tirez-vous pour le futur de l’expérience menée à Tokyo ?
La leçon à retenir des derniers Jeux d’été est qu’il faut beaucoup de données, une vision claire de la courbe d’apprentissage de l’IA pour commencer à travailler et être pertinent dans ses recherches. La précision des résultats peut ne pas toujours être celle escomptée et le filtrage des faux positifs peut prendre beaucoup de temps.
D’une manière générale, les outils de reconnaissance (sonore, faciale, corporelle ou par l’objet) sont-ils aujourd’hui suffisamment aboutis pour permettre une indexation sûre, sans contrôle humain ?
Tout dépend du contexte. Des images simples avec un objet clair et un arrière-plan clair sont une chose ; déplacer des objets dans un arrière-plan complexe (tribunes garnies de spectateurs) avec une réalisation alternant plans larges, gros plans, graphiques à l’écran, etc., rend les choses plus difficiles. Il reste encore beaucoup de travail à faire pour pouvoir obtenir de bons résultats dans n’importe quel sport. La formation et la supervision sont encore nécessaires. Mais d’énormes progrès sont réalisés chaque année. Nous continuerons certainement à travailler dessus car il existe un grand potentiel pour changer radicalement la façon dont le sport est aujourd’hui diffusé.
Article paru pour la première fois dans Mediakwest #48 p. 94-96