Deux catégories principales de solutions logicielles se démarquent : la transcription automatique basée sur l’Intelligence artificielle (IA) et la transcription manuelle réalisée par des transcripteurs humains. Ces solutions offrent des avantages différents en termes de coût et de précision. Nous aborderons ici les solutions logicielles qui se multiplient avec la maturité des systèmes IA basé sur l’apprentissage de plusieurs centaines de milliers d’heures d’audio dans toutes les langues.
Les solutions traditionnelles
Parmi les solutions populaires, Happy Scribe et Otter.ai excellent dans la transcription automatique, tandis que TranscribeMe propose une approche manuelle. Le choix entre ces solutions dépend des besoins spécifiques de l’utilisateur, de la durée des fichiers audio et du niveau d’exactitude requis.
Améliorer la précision des transcriptions nécessite quelques astuces simples telles que l’enregistrement dans un environnement calme, l’utilisation de microphones de qualité et la préparation d’un script avant l’enregistrement le cas échéant. Toutefois, dans des contextes imprévisibles comme les reportages, la qualité de la prise de son devient cruciale.

Les alternatives open source
Pour les adeptes du terminal et des outils Python, les bibliothèques open source récentes telles que Whisper et SpeechRecognition offrent les meilleures solutions gratuites de transcription audio vers texte. Whisper, développée par OpenAI, se distingue par son entraînement sur un vaste ensemble de données, tandis que SpeechRecognition de Google propose une alternative mature et fiable.
Une comparaison entre Whisper et SpeechRecognition met en lumière des différences significatives en termes de précision, de langues prises en charge, d’ensemble de données d’entraînement et de stade de développement. Le choix entre ces deux bibliothèques dépendra des besoins spécifiques de l’utilisateur (lire plus loin « L’histoire de la reconnaissance vocale »).
D’autres alternatives open source telles que DeepSpeech, Kaldi et Librosa offrent des fonctionnalités similaires à Whisper et SpeechRecognition. Ces projets, développés respectivement par Mozilla, des chercheurs de l’Université de Carnegie Mellon, et une bibliothèque Python, élargissent les options pour les utilisateurs souhaitant explorer des solutions open source, mais qui demandent un savoir-faire technique plus élaboré via des lignes de commandes dans un terminal. Toutefois, pour les adeptes du NoCode, Google Research vient de sortir Colab, un service gratuit qui permet d’exécuter du code Python dans votre navigateur Web, sans installation requise (lire plus loin). La seule obligation est d’avoir un compte gmail.
Des solutions propriétaires puissantes
En parallèle, des solutions propriétaires telles qu’Amazon Transcribe, Google Cloud Speech-to-Text, et Microsoft Azure Speech Services dominent le marché. Ces services cloud offrent une prise en charge étendue des langues et des fonctionnalités avancées, mais nécessitent un investissement financier.
En conclusion, le choix entre les solutions de transcription audio vers texte dépend de divers facteurs tels que le budget, la précision requise et la facilité d’intégration. Les options open source, de plus en plus précises, offrent une flexibilité et une personnalisation accrues. Les solutions propriétaires, quant à elles, garantissent souvent une précision supérieure, mais ont un coût financier. Ainsi, chaque utilisateur doit évaluer ses besoins spécifiques pour choisir la solution qui optimise l’équilibre entre coût, précision et fonctionnalités.

Les plug-ins pour montage
Dans le domaine du montage audiovisuel, la transcription des contenus audio s’avère être un outil essentiel pour accélérer les processus de dérushage et de création. Des plug-ins dédiés ont été développés pour des logiciels de montage tels que Final Cut Pro, Adobe Premiere, DaVinci Resolve et Avid, automatisant ainsi le processus de transcription directement au sein de ces applications.
Le plug-in Transcriber pour Final Cut Pro offre une intégration fluide de la transcription audio. Facilitant le dérushage d’interviews et d’autres contenus audio, il simplifie le processus en permettant aux utilisateurs de travailler directement dans l’application. Cela permet d’économiser du temps tout en maintenant une précision élevée.
Speechmatics propose un plug-in compatible avec plusieurs logiciels de montage, dont Adobe Premiere, DaVinci Resolve et Avid. En automatisant la transcription audio dans l’application, ce plug-in est une solution pratique pour les professionnels du montage.
Descript propose un autre plug-in compatible avec Adobe Premiere, Avid et DaVinci Resolve, offrant une solution de transcription directe au sein de ces logiciels.
Depuis la version 18.5 de DaVinci Resolve, une fonctionnalité de transcription audio intégrée est disponible dans la version Studio du logiciel, version payante. Cette fonctionnalité offre aux utilisateurs la possibilité de transcrire des contenus audio directement dans l’application, réduisant ainsi la nécessité d’utiliser des plug-ins tiers.
Conclusion
L’utilisation de plug-ins pour la transcription audio dans les logiciels de montage s’avère une étape significative pour accélérer la postproduction. Cela permet non seulement d’économiser du temps, mais également d’améliorer l’efficacité globale du processus créatif.
Pour les applications de sous-titrage automatique, mes tests de transcriptions en open source récents ont porté sur deux fois vingt minutes d’audio issus de casques aéronautiques, donc déjà filtré pour la voix mais de piètre qualité. J’ai été surpris par le peu d’erreurs générées par Whisper via Colab, comparé au générateur automatique de sous-titres de YouTube, ainsi que par la précision des calages à l’image.
COLAB, SERVICE GRATUIT DE GOOGLE RESEARCH
Colab, abréviation de Colaboratory, permet d’exécuter du code Python dans votre navigateur Web, sans installation requise. C’est essentiellement un bloc-notes Jupyter hébergé dans le cloud, ce qui le rend accessible à tous, quelle que soit la puissance de votre ordinateur personnel.
Caractéristiques principales
- exécution de code Python dans le cloud : vous n’avez pas besoin d’installer Python ou des bibliothèques sur votre ordinateur. Il suffit de vous connecter à Colab et de commencer à coder ;
- gratuit à utiliser : Colab est entièrement gratuit, soutenu par Google ;
- GPU et TPU gratuits : Colab offre gratuitement des GPU et des TPU (unités de traitement tensoriel) pour exécuter des charges de travail intensives en calcul, particulièrement utiles pour l’apprentissage automatique et le deep learning ;
- collaboration : vous pouvez facilement partager vos notebooks Colab avec d’autres personnes et travailler ensemble en temps réel ;
- intégration avec Google Drive : les notebooks Colab sont automatiquement enregistrés dans votre Google Drive, ce qui facilite la sauvegarde et l’accès à vos travaux.
Quelques cas d’utilisation courants
- apprentissage automatique et deep learning : Colab est une plate-forme populaire pour expérimenter et développer des modèles d’apprentissage automatique et de deep learning, en profitant gratuitement des GPU et des TPU disponibles ;
- analyse de données : vous pouvez utiliser Colab pour nettoyer, analyser et visualiser des données à l’aide de bibliothèques Python telles que Pandas, NumPy et Matplotlib ;
- enseignement et éducation : Colab est un excellent outil pour enseigner la programmation Python et la science des données, car il permet aux étudiants de travailler dans leur navigateur Web sans aucune configuration requise.
Si vous cherchez à démarrer avec Python, l’apprentissage automatique ou la science des données, Colab est un excellent point de départ. Avec son interface facile à utiliser et ses ressources gratuites, il permet à quiconque d’explorer le monde du codage et de l’intelligence artificielle.

L’HISTOIRE DE LA RECONNAISSANCE VOCALE : UNE EPOPEE TECHNOLOGIQUE
L’idée de capturer la parole humaine et de la transformer en texte a fasciné les inventeurs depuis des siècles. Mais ce n’est qu’au XXe siècle, avec l’avènement de l’électronique et de l’informatique, que la reconnaissance vocale a commencé à prendre forme.
Les premiers pas (années 1950-1970)
- 1952 : Audrey, le premier système de reconnaissance vocale, est développé par les laboratoires Bell. Il reconnaît les chiffres de 0 à 9 avec une précision de 99 %.
- 1962 : Shoebox, une machine capable de reconnaître 30 mots, est présentée par IBM.
- Années 1970 : Le Département de la Défense américain investit dans la recherche sur la reconnaissance vocale, ce qui stimule le développement de la technologie.
Des progrès majeurs (années 1980-2000)
- 1983 : Premier système de commande vocale embarqué dans un avion de chasse en France.
- 1985 : Commercialisation des premiers systèmes de reconnaissance vocale de plusieurs milliers de mots.
- 1993 : Lancement du projet japonais ATR de téléphone avec traduction automatique en temps réel.
- Années 2000 : Les modèles de langage statistique et l’apprentissage automatique font progresser la précision de la reconnaissance vocale.
L’ère du numérique (années 2010-présent)
- 2011 : Siri, l’assistant vocal d’Apple, est intégré à l’iPhone 4S.
- 2014 : Amazon Echo, un assistant vocal intelligent, est commercialisé.
- 2017 : Google Assistant devient disponible sur une large gamme d’appareils.
- Aujourd’hui : La reconnaissance vocale est utilisée dans de nombreux domaines, comme la recherche, l’éducation, les affaires et les médias.
Défis et perspectives
- La reconnaissance vocale continue de se perfectionner, mais elle n’est pas encore parfaite. Le bruit ambiant et les accents peuvent encore la perturber.
- La confidentialité des données est un sujet important dans le contexte de la reconnaissance vocale.
- De nouvelles applications de la reconnaissance vocale sont en cours de développement, comme la commande de machines à distance et la traduction automatique en temps réel.
L’histoire de la reconnaissance vocale est une épopée technologique qui continue de se dérouler. De ses débuts modestes à ses applications actuelles, la reconnaissance vocale a transformé la façon dont nous interagissons avec les machines. Son avenir promet d’être encore plus révolutionnaire, avec des applications qui changent la donne dans de nombreux domaines de la vie quotidienne.
https://fr.wikipedia.org/wiki/Reconnaissance_automatique_de_la_parole
Article paru pour la première fois dans Mediakwest #56, pp 52-56