Les entreprises françaises ainsi que les adaptateurs et traducteurs ont dû s’adapter face aux bouleversements engendrés par l’évolution rapide des programmes basés sur l’IA.
Aux origines de l’IA
Le Traitement automatique des langues (TAL) n’est pas un phénomène récent. Depuis plus d’une vingtaine d’années, le TAL est devenu très mathématique. Thierry Poibeau, directeur de recherche au CNRS et directeur adjoint du laboratoire LATTICE (Langue, Textes, Traitements Informatiques et Cognition), explique que « depuis vingt ans, on apprend à partir des données […] il y en a tellement sur Internet qu’en prenant tous les textes, par apprentissage, on peut obtenir des modèles capables de générer (produire) d’autres textes. » Il s’agit du traitement brut d’un nombre très important de données, des milliards de mots présents sur Internet, et on en tire des connaissances qui permettent au système de fonctionner automatiquement. Ce genre de modèle permet de réussir aujourd’hui à générer des chatbots tels que ChatGPT.
« Il y a maintenant trente ans qu’est advenu le premier système statistique de traduction automatique. Par exemple, à partir d’un corpus en français et en anglais alignés – c’est-à-dire où chaque phrase est mise en regard de sa traduction –, on peut inférer un dictionnaire et des règles, sur une base purement statistique. […] On se rend ainsi compte que la langue est très statistique. Les réseaux de neurones sont aujourd’hui en quelque sorte des généralisations de ces premières approches statistiques », souligne Thierry Poibeau.

La traduction neuronale est basée sur l’IA appuyée sur le deep learning. Plus le nombre de données augmente, plus ce système est performant. C’est grâce au deep learning que les solutions basées sur l’IA ont considérablement évolué vers des modèles très efficaces, s’intégrant au sein de multiples industries : automobile, médicale, commerciale, etc.
La traduction ainsi que le sous-titrage automatique ont également bénéficié de cette innovation que l’on peut considérer comme disruptive. Google est passé à la traduction neuronale en septembre 2016, comme la plupart des autres logiciels de traduction, ce qui a engendré une évolution exceptionnelle quant aux résultats. Nos connaissances sur le langage ont évolué grâce aux puissances de calcul aujourd’hui disponibles ; seule l’informatique est capable de traiter une telle masse de données.
Cette IA a besoin d’un nombre important de sources pour progresser. Ainsi, moins il y a de références, moins l’IA saura traduire ou transcrire une langue avec précision. Les solutions disponibles sont plus performantes lorsqu’elles traitent des langues comme l’anglais ou l’arabe, où les sources sont foisonnantes, que lorsqu’elles doivent analyser un isolat comme le bourouchaski parlé au nord du Pakistan.
De plus, certaines langues plus complexes sont moins évidentes à appréhender par l’informatique. L’anglais, qui est une langue analytique, est davantage adaptée que le chinois. Mais le chinois étant une langue souvent employée dans le domaine des nouvelles technologies, l’IA peut se baser sur une base de données suffisamment grande pour réaliser des traductions et transcriptions correctes.

L’évolution croissante de l’IA dans le sous-titrage
Le développement de technologies toujours plus performantes n’est pas le seul élément qui a poussé les professionnels de l’audiovisuel à proposer des solutions basées sur l’IA. L’évolution des pratiques, notamment sur les réseaux sociaux, a engendré de nouveaux besoins du côté des sous-titrages. Les usagers regardent parfois les vidéos sans son, lisent les sous-titres avant d’éventuellement activer l’audio si le contenu les intéresse. En outre, les utilisateurs se sont progressivement aperçu qu’une vidéo sous-titrée était mieux référencée sur YouTube, ce qui a participé à augmenter la demande émanant de certains créateurs de contenu. « Les marques, les diffuseurs, les producteurs de contenu, ont l’opportunité d’avoir une présence sur toutes les plates-formes, quelles qu’elles soient », analyse Frédéric Rolland, responsable du développement stratégique de l’EMEA pour les médias numériques audio et vidéo chez Adobe.
Les nouvelles générations regardent également davantage de séries ou films en VOSTFR et lisent plus rapidement, ce qui peut engendrer une augmentation du nombre de signes affichés par seconde. Il y a un réel intérêt pour toute l’industrie audiovisuelle de sous-titrer systématiquement ses contenus, ce qui engendre une très forte demande à laquelle doivent répondre les professionnels du secteur.
À la fin des années 2010, de nouvelles entreprises ainsi que des sociétés non spécialisées dans le sous-titrage ont commencé à développer leurs outils pour satisfaire ce nouveau besoin. Erwan de Kerautem a été créateur de contenus (réalisation de films courts pour des organisations internationales, des ONG, etc.) pendant une douzaine d’années. Il a progressivement eu besoin de réaliser des projets incluant des sous-titrages multilingues. Ces derniers, conjugués à ses rencontres avec des développeurs, ont fait germer chez lui l’idée de fonder sa société : Mediawen. « Au départ, on a surtout été du côté des entreprises. […] Il s’agissait de nouveaux utilisateurs avec des besoins concrets. »
Les solutions IA ont été progressivement introduites dans la plate-forme. La société Vidéo Menthe, spécialisée depuis la fin des années 2000 dans les solutions de workflows, propose désormais des solutions de sous-titrage et de traduction automatiques qui évoluent en fonction des demandes des clients. Muriel Le Bellac, CEO de Vidéo Menthe, considère qu’« il faut un mix entre outils automatiques et validation humaine. Notre plate-forme a été conçue dans une approche collaborative. […] L’utilisateur a la possibilité de modifier le texte, de renseigner des dictionnaires de mots personnalisés, de resynchroniser les sous-titres directement sur la plate-forme. Nous ne nous sommes pas arrêtés là, nous avons également proposé la traduction des sous-titres. Ce qui nous a permis d’enclencher sur des versions un peu plus complexes, avec notamment la possibilité de proposer plusieurs langues simultanément pour une même vidéo. »
Chez Adobe, Frédéric Rolland confie : « C’est vrai que c’est une notion [le développement de l’IA pour générer des sous-titres automatiquement] qui est entrée dans notre réflexion il y a à peu près trois ou quatre ans. L’IA commençait à donner des résultats très prometteurs avec un niveau d’erreur très faible. La demande de sous-titrage était grandissante du fait de l’augmentation des contenus sur les réseaux sociaux, de l’amélioration de l’engagement grâce à la vidéo sous-titrée sur les plates-formes comme YouTube. »
Il est désormais possible d’utiliser le logiciel de montage Premiere Pro et de réaliser dans un premier temps une transcription de l’audio de la vidéo avant d’utiliser cette transcription pour éditer les sous-titres correspondants. Cette fonctionnalité peut intéresser les créateurs pluridisciplinaires en offrant la possibilité de n’utiliser qu’un seul outil répondant à plusieurs besoins.
Face à ces évolutions, des entreprises déjà spécialisées dans le sous-titrage ont dû s’adapter à ces nouvelles pratiques et proposer des systèmes recourant à l’IA. Jean-Pierre Pinco, CEO de Spotl, raconte : « Je fais du sous-titrage depuis des années. Mon entreprise Média Solution, créée en 2012, est ce que l’on appelle un laboratoire de sous-titrage. À partir de 2017, j’ai commencé à voir des solutions de transcription automatique en speech to text de plus en plus puissantes. Des sociétés ont émergé en proposant de faire du sous-titrage en utilisant ces solutions. […] De nombreux médias nous sollicitaient, mais nous étions trop chers et trop lents – nous réalisions des projets en trois ou quatre heures lorsqu’on nous demandait un délai d’une heure –, nous n’étions pas adaptés. Nos tarifs étaient également trop élevés. »
Partant de ce constat, il décide avec David Mathieu de fonder Spotl qui propose une solution de sous-titrage et de traduction automatique associée à une relecture réalisée par des professionnels (la post-édition). « Moi, j’apporte l’expertise métier et lui [David Mathieu], son savoir-faire en IA et en développement informatique. Il a fallu quasiment un an et demi de travail. Nous avons commercialisé Spotl en 2021. »
Les médias ont besoin, pour alimenter les réseaux sociaux, de produire du contenu fiable rapidement. « Il y a des gains de productivité phénoménaux de l’ordre de 85 % si la source est bonne. Même avec du bruit ou de la musique derrière, les progrès des moteurs de transcriptions sont vraiment impressionnants. Après, cela n’empêche qu’il faut une validation humaine, sauf à accepter un monde rempli d’erreurs… », explique Erwan de Kerautem. Mediawen propose des solutions hybrides « le meilleur des technologies et le meilleur de l’humain ».

Des utilisateurs multiples
Les plates-formes proposent des outils d’édition afin de pouvoir modifier le sous-titre généré par l’IA. Erwan de Kerautem indique : « Vous pouvez intégrer des logos, des pictogrammes, ensuite, ce qui va sortir à l’encodage va être exactement ce que vous aviez sur votre écran d’ordinateur. »
Muriel Le Bellac quant à elle, déclare que « certains utilisateurs récupèrent simplement le fichier SRT et vont ensuite l’incruster sur leur plate-forme de montage. D’autres se servent de la plate-forme, auquel cas ils ont la main sur l’habillage du sous-titre. Enfin, notre solution gère désormais les sous-titres sourds et malentendants, avec le STL level 1. »
Dans Premiere Pro, le fait d’intégrer les sous-titres dans l’outil de montage permet au monteur de les modifier, il peut corriger le texte et a tous les outils d’édition à sa disposition. Brut est un parfait exemple de l’évolution de la place des sous-titres dans les médias. Ils apportent une touche graphique à leur sous-titre, qui ne s’affiche plus en bas de l’écran mais s’intègre dans la vidéo, avec une police identifiable. « On est vraiment sur une ambition qui est d’enrichir le contenu, de le rendre plus engageant pour pouvoir faire en sorte que le consommateur puisse regarder son contenu en “silence viewing” », selon Frédéric Rolland. La marque peut définir sa propre charte graphique. Les utilisateurs d’Adobe n’ont « plus qu’à prendre les modèles qui ont été créés par le motion designer. »
Les projets et les besoins sont multiples, Sandrine Hamon de Vidéo Menthe précise qu’ils possèdent « deux types de clientèles : des profils broadcast ou des profils plus corporate et nous traitons par conséquent tout type de contenu, du très court pour les réseaux sociaux jusqu’au long format, documentaire par exemple. »
Adobe propose aujourd’hui dans une version beta la possibilité de chercher un mot dans le texte et de trouver l’image associée à ce mot, il est alors possible de mettre un point d’entrée et un point de sortie dans le texte pour réaliser un montage basé sur ce dernier. Cette fonctionnalité, nommée Text Based Editing, pourrait être utile notamment pour les journalistes. L’objectif est de rendre cette technologie accessible au plus grand nombre. Le sous-titrage automatique peut également permettre aux sourds et malentendants d’avoir accès à un nombre de vidéos beaucoup plus large. Erwan de Kerautem insiste également sur la nécessité de fournir un outil sécurisé. Mediawen permet de donner l’accès à seulement certaines parties du projet en fonction du travail de chaque utilisateur et privilégie une feuille de route européenne.
Le sous-titrage automatique semble aujourd’hui majoritairement utilisé par des entreprises qui n’auraient pas pu faire appel aux compétences humaines par manque de temps et/ou de moyen. La traduction et le sous-titrage automatique de vidéos sont majoritairement utilisés par les entreprises ou les médias, en revanche, l’industrie du cinéma paraît résister à ces évolutions.

Quelle place pour l’humain ?
Tous les acteurs s’accordent à dire que l’intervention humaine reste nécessaire pour obtenir des sous-titres de qualité. Frédéric Rolland pense qu’« on ne va pas remplacer l’utilisateur, le créatif, par des processus d’intelligence artificielle. Au contraire, on va mettre l’intelligence artificielle au service du créateur pour qu’il puisse aller plus vite et se concentrer davantage sur son travail de créatif. »
Les métiers de la traduction et du sous-titrage se sont déjà transformés au gré de l’évolution des logiciels, certaines tâches automatisables font gagner un temps considérable, notamment pour les repérages. C’est avec l’arrivée de l’IA dans le domaine du sous-titrage que l’on voit apparaître la figure des post-éditeurs. Lors de la table ronde « Métiers de la traduction : ce qu’automatiser veut dire » du 13 novembre 2022 aux vingt-neuvième assises de la traduction littéraire, Anne-Marie Robert, traductrice, définissait la post-édition comme « une activité qui consiste à repasser après un texte pré-traduit automatiquement pour le rendre humainement intelligible. »
La post-édition est probablement davantage réalisée par la jeune génération qui, selon Stéphanie Penot-Lenoir, adaptatrice et traductrice, « pense qu’elle n’a pas le choix, ou a du mal à débuter sa carrière car elle manque encore d’expérience ». Il faut que le post-éditeur modifie, corrige, remanie et adapte le texte. La plupart des solutions disponibles sur le marché français proposent des services de post-édition à leurs utilisateurs. Il faut que les post-éditeurs repèrent les erreurs, tentent d’améliorer ce qui a été fait par la machine. Suite à ce travail de révision, le logiciel peut évoluer.
Cela pose la question du droit d’auteur puisque les IA se basent sur des données écrites par l’homme. Qui est l’auteur du texte généré par l’IA ? La machine, le développeur, son propriétaire ou l’humain qui intervient sur le texte ? Cette question n’est pas encore résolue. Sur le plan juridique, il faut déterminer le rôle du traducteur sur le texte. Selon Jonathan Seror, responsable juridique à l’association des Traducteurs Littéraires de France, la différence entre le texte en VO et le texte pré-traduit permet au post-éditeur de déterminer l’apport intellectuel qu’il va amener au texte. Des solutions juridiques devront être trouvées car les adaptateurs et traducteurs perçoivent une rémunération de droit d’auteur au moment de la diffusion des œuvres.
Chloé Leleu, traductrice audiovisuelle, se désole de constater que beaucoup de discours sur les développements de sous-titrage automatique font l’impasse sur l’aspect artistique. « Au cinéma, le but des sous-titres, c’est qu’on les oublie ! On cherche à atteindre ce résultat-là. » Les travaux en post-édition sont moins bien rémunérés, « on risque d’avoir un métier à deux vitesses », d’un côté le cinéma, de l’autre le reste de l’industrie avec un texte fourni par une machine révisée par un humain. La baisse de tarif associée au travail de post-édition est justifiée par une diminution du temps de travail sur la traduction ou le sous-titrage. Mais cette diminution du temps de travail est-elle réellement importante ? Cela dépend surtout du degré de correction à apporter et de la qualité demandée.
Pour Jean-Pierre Pinco, « nous aurions tort de nous passer des solutions de sous-titrage automatique post-éditées. Cela fait gagner du temps et diminuer les coûts, ce qui permet à des clients qui ne pouvaient pas se payer un service de sous-titrage d’y accéder. » L’Association des Traducteurs/Adaptateurs de l’Audiovisuel (ATAA) a été créée en 2006 afin de tisser des liens entre les professionnels et de rassembler des informations sur les métiers. Elle permet, entre autres, de dialoguer avec les distributeurs, les chaînes de télévision, les éditeurs vidéo ou les laboratoires afin de défendre les métiers de l’adaptation et de la traduction audiovisuelle face à la baisse des tarifs. Des stratégies se mettent en place dans le but d’encadrer le travail des post-éditeurs. Une norme internationale ISO pour la post-édition a vu le jour en 2017, elle « spécifie les exigences relatives au processus de post-édition humaine ».

La SFT (Société Française de Traduction) travaille à la publication d’une fiche métier sur la post-édition avec de « bonnes pratiques » comme l’indique Anne-Marie Robert. Les logiciels se basant souvent sur des solutions IA similaires, se pose également la question de la standardisation.
Le deep learning est utilisé en traduction depuis 2012/2014. Si DeepL semble se démarquer de ses concurrents, cela montre que, selon la base, à partir de petites subtilités, les traductions obtenues diffèrent, aboutissant ainsi à des modèles dissemblables. Mais Stéphanie Penot-Lenoir souligne que, « plus on aura de traductions réalisées avec l’IA, plus l’IA se nourrira de son propre travail. […] Le vocabulaire est en train de se réduire, ce qui est inquiétant car le langage contribue à la construction de la pensée. »
Avec l’augmentation des demandes de traduction, l’industrie a toujours besoin de traducteurs. Les logiciels utilisant l’IA doivent rester des outils au service de la création. « Les spectateurs se plaignent de plus en plus régulièrement de la qualité des sous-titrages. D’ailleurs, de grandes plates-formes disent ne vouloir avoir recours qu’à l’humain », explique Stéphanie Penot-Lenoir.
En fonction du projet cinématographique et audiovisuel, les besoins diffèrent. Les spectateurs vont également jouer un rôle pour déterminer dans quel cas les productions feront appel ou non à des IA. Certains créateurs ont essayé de s’emparer des IA afin de proposer des expériences parfois décalées. Ce fut le cas de L’indéprimeuse (Davina Sammarcelli) qui a édité Hamlet de Shakespeare traduit de l’anglais au français par Google traduction. Hamlet devient alors Jambon-laissé de Guillaume Remuepoire ! Le texte est truffé d’erreurs qui rendent les répliques souvent absurdes. Cet exemple laisse à penser qu’en fonction des projets, l’IA ne pourra pas toujours apporter une satisfaction suffisante. « Personne n’avait prédit qu’on en arriverait là aujourd’hui. Dans l’absolu, il est difficile de savoir comment ça va évoluer, mais les systèmes vont continuer à s’améliorer. […] Pour les textes littéraires, on continuera à avoir besoin de traducteurs […] mais à terme, pour le sous-titrage par exemple, l’IA est amenée à se développer, avec le concours de post-éditeurs », conclut Thierry Poibeau.
Article paru pour la première fois dans Mediakwest #51, p. 48-52