La plate-forme Big Data de TV Globo montrée en exemple

L’IBC Technical Papers Comittee a dernièrement récompensé le rapport présenté par deux ingénieurs de la chaîne brésilienne TV Globo, Marcelo Souza et João Castellani. Tous deux ont présenté en détail l’ensemble de la plate-forme Big Data que la chaîne a mise en place ces deux dernières années, en vue de servir, à la fois, les besoins des journalistes et ceux des services marketing pour l’analyse des audiences et la recommandation personnalisée des contenus.*
TVGlob_Data.jpg

 

TV Globo a commencé par agréger un ensemble de données provenant de sources dédiées au Data Journalism au sein d’un « data lake » hébergé dans le cloud (Amazon AWS S3). En plus de ces données opendata, TV Globo a ingéré des données « maison », fruits de l’indexation des journalistes et des monteurs sur les stations Avid iNews.

Ces données structurées de manières différentes ont ensuite été raffinées et processées sur des serveurs Amazon EMR via des moteurs de traitement open source, comme Elastic Search et Hadoop, et préparées à l’analyse. Enfin, une fois structurées et analysées, ces données sont utilisées par les journalistes et stockées dans un réservoir de données, toujours sur serveurs AWS S3.

 

La partie de la plate-forme Big Data orientée vers l’analyse des audiences et la recommandation reprend la même infrastructure technique, mais les données ingérées proviennent, cette fois, de Google Analytics, Comscore Media Metrix, Adobe Digital Analytics et de mesures d’audiences en ligne fournies par Kantar Media.

La grande différence de l’usage du Big Data tient ici à un important travail préalable de choix des métriques à mettre en place pour mesurer les parcours utilisateurs sur l’ensemble des plates-formes de distribution adressées par les chaînes du groupe TV Globo. TV Globo a mis en place des outils de tracking de la consommation sur ses propres offres OTT comme Globo Play.

 

Enfin, en termes de recommandation, TV Globo explique avoir mélangé les approches entre le filtrage « contenu à contenu » et le mode « filtrage collaboratif », en s’appuyant notamment sur le moteur sémantique d’Oracle pour scanner les conversations des réseaux sociaux et en utilisant sa base de données d’archives audiovisuelles indexée de manière fine.

Après une phase de testing A/B (avec ou sans recommandation) sur l’ensemble des terminaux de consultation regardés par le public, la chaîne brésilienne a constaté que les programmes recommandés étaient visionnés près de 35 % de plus que ceux qui ne l’étaient pas. Voilà qui se passe de commentaire sur l’efficacité de ces techniques, conçues pour valoriser les contenus à la demande !

 

* Extrait de notre Cahier des tendances IBC 2017 paru pour la première fois dans Mediakwest #24, p. 35-76. Abonnez-vous à Mediakwest (5 numéros/an + 1 Hors série « Guide du tournage) pour accéder, dès leur sortie, à nos articles dans leur intégralité.