Recherche vocale : vous allez bientôt parler avec votre téléviseur

Pendant de nombreuses années, les technologies de recherche vocales efficaces sont restées éloignées des entreprises qui ont tenté de présenter des méthodes de saisie de nouvelle génération aux consommateurs.

Philippe Grang

Publié le 16/10/2014

Confinées à la navigation de base sur le principe de « mots magiques », les commandes vocales ont été inefficaces et souvent difficiles à utiliser pour les consommateurs.

La très large adoption des smartphones et tablettes a conduit à renouveler l’intérêt pour ce genre de technologie et l’assistant virtuel d’Apple, Siri, va au-delà des fonctions de base de navigation dans les menus. Le marché semble maintenant en mesure d’accueillir positivement une nouvelle génération de fonctions vocales, appelée par certains interface langagière, conçue pour simplifier un certain nombre d’interactions des consommateurs avec les systèmes et appareils, et surtout de permettre aux gens d’établir une véritable conversation avec leurs appareils comme ils le feraient entre eux.

Un des premiers domaines d’application des interfaces langagières est la télévision. Du fait du volume énorme de sources de divertissement et de programmation maintenant accessible dans les salons, les entreprises s’intéressent aux interfaces vocales ou langagières afin d’essayer de répondre au problème: comment aider le consommateur à trouver un programme intéressant à regarder à la télévision.

Parler la langue du spectateur

La vidéo est un support difficile pour la recherche, et les gens s’intéressent au contenu vidéo de façon particulière, en associant des choix personnels, des critères de distribution, d’intrigue et de genre, tous dépendant des préférences de l’utilisateur.

Pour les interfaces langagières, qui doivent simuler les qualités de communication du langage naturel et éliminer la contrainte de conformité aux structures hiérarchiques des menus, la technologie doit comprendre quand un utilisateur souhaite avoir plus d’information sur un genre particulier ou quand il a changé d’avis et qu’il est passé à complètement autre chose dans sa tête.

Pour réussir, les interfaces langagières doivent intégrer différentes capacités très variées, chacune indispensable à leur succès :

Levée d’ambiguïté : la technologie de langage naturel doit réussir à comprendre et interpréter les intentions de l’utilisateur. Par exemple, l’interprétation phonétique de « Crouse » pourrait désigner aussi bien Tom Cruise que Penelope Cruz, et le système devrait être capable de comprendre ce que l’utilisateur recherche en fonction de la demande d’origine. « City » peut s’appliquer aussi bien à Manchester City que Norwich City dans un contexte sportif, donc ici encore le système doit apprendre à connaître les préférences de l’utilisateur.
Maintien d’état : pendant un dialogue avec un utilisateur, le système devrait être en mesure de conserver un contexte et de comprendre que les gens peuvent sauter d’un critère à un autre. L’utilisateur pourrait par exemple affirmer qu’il « verrait bien un polar », avant de sauter à « Bond » puis à « anciens ». Dans l’idéal, le système devrait être en mesure de comprendre ces requêtes et de proposer une série d’anciens films de James Bond au choix du spectateur.
Personnalisation : les systèmes langagiers doivent comprendre leurs utilisateurs individuellement. Le système devrait par exemple apprendre qu’un utilisateur basé à Manchester qui demande « à quelle heure est le match » souhaite avoir des informations sur son équipe locale et que s’il demande « à quelle heure est le match de City » il fait référence à Manchester City.

Faire passer la compréhension au niveau supérieur

Derrière les interfaces langagières réussies se trouve une excellente fonction de recherche. Les prestataires de recherche ont défriché la voie pour intégrer les nouvelles technologies de façon à mieux satisfaire leurs clients. En 2012, Google a présenté son « Graphe du savoir » qui a été conçu pour comprendre les mots clés avec une profondeur jamais atteinte et en faire plus des relations que des termes séparés.

En 2013, Facebook a présenté sa « Recherche dans le graphe », qui explore les résultats à partir des amis, du contenu et des relations de la personne qui lance la recherche, ainsi que de tendances plus larges sur le site. Ces technologies ont apporté des résultats de recherche de haute qualité très pertinents aux consommateurs dans le monde entier et ont établi de nouvelles références dans divers domaines.

Dans le contexte de la télévision, la plupart des consommateurs ont des habitudes télévisuelles qui peuvent être cartographiées pour fournir des résultats de recherche extrêmement personnalisés.

C’est plus précis que la création d’un profil par utilisateur ou des évaluations « pouce levé/baissé » qui sont à la fois sensibles aux erreurs et ne prennent pas automatiquement en compte l’évolution des goûts et des préférences au cours du temps des utilisateurs. La capacité à rendre la personnalisation précise et extrêmement pertinente – ce qu’on appelle maintenant dans le domaine hyperpersonnalisation – est corrélée aux capacités sémantiques du graphe des connaissances.

À la base, un moteur de recherche langagière de qualité pour les loisirs devrait couvrir les fonctions suivantes :

Graphe des connaissances : Il permet de mettre en correspondance les résultats de recherche avec l’intention et non pas simplement avec des mots clés et des termes de recherche.

– Un graphe des connaissances devrait rechercher des entités par leur nom dans les supports multimédias, les loisirs et la géographie

– Des algorithmes d’extraction, de déduplication et de levée d’ambiguïté des entités entre différentes sources

– Des capacités de codage pour bâtir des relations entre entités.

– Graphe de contenus : Il intègre les éléments de contenu eux-mêmes pouvant être consommés par les utilisateurs, qu’il s’agisse de films, de programmes ou de manifestations sportives. Le graphe de contenu fait correspondre ces éléments au graphe des connaissances, et un même graphe de connaissances peut correspondre à plusieurs graphes de contenu.

– Graphe personnel : Élément crucial des systèmes vraiment langagiers, le graphe personnel optimise le système langagier en fonction de chaque personne pour simuler des conversations naturelles. Le graphe personnel est :

– Basé sur un apprentissage automatique statistique

– Capable d’apprendre les modèles comportementaux et intérêts de chaque personne

– Capable d’apprendre l’influence du temps et de l’appareil sur les recommandations

Pour l’interface extérieure du système, le moteur de requêtes langagier doit relier tous ces éléments. Ceci fait appel à des algorithmes clés de mise en correspondance et d’apprentissage de fonctions linguistiques pour fournir des fonctions et des API de découverte de contenu aux consommateurs.

Recherche et recommandation intuitives

La technologie de langage naturel appuyée sur des graphes de connaissances peut offrir une révolution dans les interfaces langagières, la recherche et la recommandation de programmes TV. En l’associant à d’excellentes métadonnées couvrant les acteurs et actrices, les synopsis de contenu et même des citations célèbres des films, les opérateurs de chaîne peuvent créer un cerveau de loisirs sans équivalent permettant d’offrir à leurs consommateurs un accès rapide et précis à leurs émissions favorites, et à des contenus similaires qu’ils pourraient aussi apprécier. La recherche langagière autour de graphes de connaissances n’est pas un gadget – elle est destinée à changer le mode d’interaction des gens avec leur téléviseur.