Si vous suivez l’actualité concernant le monde de la téléphonie mobile, vous connaissez sans doute 3GPP (troisième Generation Partnership Project), une organisation qui normalise les standards (GSM, 4G, 5G, etc.) et dont le siège se trouve en France, à Sophia Antipolis. Elle a déjà normalisé le codec audio EVS (Enhanced Voice Services) qui est disponible depuis fin 2014 et proposé en France par Orange et Free.
EVS promet plus d’efficacité et de qualité dans des débits compris entre 5,9 et 128 kbit/sec. Sa finalité est de remplacer autant les anciens codecs à bande étroite que ceux actuellement utilisés pour les services HD Voice (jusqu’à 7 Khz) en offrant la possibilité d’aller plus loin en qualité. En effet le Full HD voice (jusqu’à 20 Khz) est désormais accessible sur les réseaux 4 et 5G qui permettent la commutation par paquets comme sur Internet.
C’est dans ce contexte qu’arrive IVAS (Immersive Voice and Audio Service), le nouveau codec basé sur EVS qui ajoute le support de la stéréo et des formats immersifs, là où EVS s’arrêtait à la transmission du signal en mono. Pour quels bénéfices utilisateurs et quels usages ?
L’ambition d’IVAS, nous explique le 3GPP dans son communiqué, est de transférer la voix « comme dans la vraie vie ». Il faut comprendre par-là, que ce nouveau codec prend en compte la spatialisation, et offre ainsi plus de naturel et d’intelligibilité, deux avancées qui seront appréciables lors de nos conversations de tous les jours bien sûr, mais aussi et surtout pour les calls professionnels et les vidéo conférences.
Nokia, qui est l’un des artisans du projet, imagine par exemple un correspondant qui lors d’une conversation que l’on imagine romantique avec son ou sa bien-aimée, partage en toile de fond un magnifique panorama sonore composé du bruit des vagues, des mouettes et du vent dans les cheveux…
De son côté, le Fraunhofer Institute, qui a pris part au développement du projet, le décrit comme un codec « conversationnel stéréo et immersif » et répond à nos questions par l’intermédiaire de Markus Multrus, responsable du Speech and Audio Coding for Mobile Applications Group et de Stefan Döhla, responsable du Multimedia Communications Group.

Avant de parler d’IVAS, que penser du déploiement des services de voix Full-HD utilisant l’EVS qui paraissent timides, en France en tout cas, et avec une communication bien discrète de la part des opérateurs téléphoniques ?
Nous ne pouvons commenter le fait que le déploiement de la voix HD (100 à 7 000 Hz en utilisant AMR-WB ou EVS) ou de la voix HD+ (50 à 16 000 Hz en utilisant EVS) soit perçu comme lent sur certains marchés, ni pourquoi il n’y a pas de communication plus large sur le sujet. En tout cas, en Allemagne, la voix HD+ utilisant l’EVS a été introduite entre 2016 et 2018 par les opérateurs concernés à l’époque, à savoir Vodafone, Deutsche Telekom et Telefonica. Peu après cette introduction, les appels HD Voice+ entre réseaux sont également devenus possibles. Et d’après les communiqués de presse publiés à l’époque, l’augmentation de la largeur de bande audio et l’amélioration de la qualité des appels semblent avoir été des arguments importants pour l’introduction de HD Voice+ en Allemagne.
Comment des codecs comme EVS et IVAS peuvent fonctionner avec des débits aussi limités ? Sont-ils basés sur la psychoacoustique ou sur d’autres principes ?
EVS et IVAS sont des codecs hybrides. Ils combinent une approche traditionnelle avec une approche de codage paramétrique appliquée dans plusieurs domaines.
Quelles différences avec le MPEG-4 AAC, par exemple ?
Dans la famille AAC, prenons l’exemple de MPEG-4 AAC-LC. Il exploite la psychoacoustique dans le domaine fréquentiel grâce à la modélisation du cerveau et de l’oreille humaine. EVS, de son côté, combine deux systèmes de codage : un système général de codage audio similaire à l’AAC-LC, et un autre pour le codage de la voix. Ce dernier s’appuie sur un modèle de production de la parole humaine. Ces deux systèmes sont combinés de manière très efficace.
En outre, l’EVS comporte plusieurs approches paramétriques qui servent, entre autres, à étendre la largeur de bande audio grâce à une description paramétrique, ce qui maintient le débit pour cette partie du signal audio à un niveau extrêmement bas. Enfin, IVAS est basé sur EVS, mais là où EVS se concentre uniquement sur les signaux à canal unique (monaural), IVAS prend également en charge les signaux stéréo et immersifs : multicanaux, Ambisonics, objets ainsi que le nouveau format MASA (Metadata Assisted Spatial Sudio).
Enfin, il faut bien comprendre la spécificité de chaque codec. Le MPEG-4 AAC a été conçu pour le stockage et la distribution audio, des situations où la latence ne joue pas un rôle important. EVS et IVAS ont été conçus comme des codecs pour la communication. Ces algorithmes ont généralement une latence nettement inférieure à celui du MPEG-4 AAC-LC et offrent des fonctions supplémentaires pour la communication mobile…
Quel est le rôle du Fraunhofer IIS dans le développement de l’IVAS ?
Normalisé par le 3GPP, IVAS a été développé par un groupe de onze sociétés appelé « IVAS Public Collaboration ». Fraunhofer IIS est l’un des principaux experts en technologie au sein de ce groupe et contribue de manière significative au projet.

Pourriez-vous donner quelques exemples d’utilisation du codec IVAS (à la maison, au bureau…) ? Serait-il approprié pour les livraisons/streaming de médias, tels que la musique ou la vidéo ?
IVAS a vraiment été conçu comme un codec pour la communication immersive et la téléphonie. Voici quelques exemples d’utilisation :
- des appels immersifs : IVAS permet aux participants de capturer des scènes immersives et de les transmettre les uns aux autres. Cette fonction est idéale pour partager l’expérience immersive complète d’un événement ou d’une expérience en plein air, par exemple ;
- la conférence : en plaçant simplement le téléphone sur une table de conférence, une image acoustique réaliste des personnes placées autour peut être captée et restituée sur l’appareil récepteur. Le rendu de la scène immersive permet de distinguer plus facilement les voix des orateurs et de les séparer des sons ambiants ;
- la conférence multipartite : pour les situations plus complexes, les voix de plusieurs participants peuvent être transmises sous forme de flux individuels et restituées dans l’espace sur l’appareil récepteur pour correspondre à la scène vidéo transmise en parallèle. Les utilisateurs peuvent alors personnaliser le son, par exemple en modifiant le volume pour chaque participant ou en modifiant leur position autour de la table. Par ailleurs, un serveur d’appel intermédiaire pourrait combiner plusieurs participants en appelant différents endroits, puis en recomposant une scène sonore immersive fictive, comme si tous les intervenants se trouvaient dans la même pièce.
Ces scénarios peuvent se dérouler dans des environnements différents ou même être reliés entre eux. Par exemple, pour une réunion avec des personnes à la maison, au bureau et dans la voiture. D’ailleurs, il existe également des options d’application qui relient les environnements extérieurs, urbains et industriels, en intégrant les participants dans une scène immersive capturée. Dans tous ces exemples, IVAS garantit une expérience plus réaliste qui va – et ça a été prouvé – réduire l’effort d’écoute et de concentration et, par conséquent, la fatigue.
Notons que les technologies connexes qui améliorent également l’expérience immersive, telles que les oreillettes sans fil avec suivi de la tête ou le rendu immersif dans les salons ou les voitures, sont soit déjà déployées à grande échelle, soit en plein essor…
Outre ces principaux domaines d’application, IVAS est également capable d’améliorer les messages audio type SMS/iMessage et RCS avec des impressions immersives. Par rapport au message mono encore courant, cela peut constituer un avantage distinctif permettant aux fournisseurs de se démarquer de l’offre générale. Potentiellement, le codec peut également être utilisé pour des cas de distribution de contenu tels que la diffusion en continu de contenu stéréo/immersif et d’applications VR/AR avancées. Toutefois, il existe des codecs spécialisés plus adaptés à ces applications non critiques en termes de latence, comme le MPEG-H Audio.
Est-ce que IVAS pourrait entrer en concurrence avec l’IAMS promu par Google et Samsung ou le Home Atmos de Dolby ?
IVAS a vraiment été développé pour les communications mobiles. Il a été optimisé pour une compression très efficace de l’audio immersif. Si cette fonctionnalité est cruciale dans l’environnement des communications mobiles, elle est d’une importance secondaire pour les applications de divertissement basées sur la radiodiffusion ou les fichiers. Même s’il peut y avoir un certain chevauchement, et que l’IVAS peut techniquement être utilisé pour les cas de radiodiffusion/fichiers, l’objectif initial est différent.
Quand IVAS sera-t-il implémenté dans les appareils et quand les applications seront-elles disponibles pour les utilisateurs ?
Nous prévoyons la finalisation de l’ensemble des spécifications IVAS dans le cadre du 3GPP au cours de l’été 2024, des parties importantes étant déjà disponibles et approuvées. Pour l’instant, nous ne pouvons pas donner de détails sur l’introduction d’IVAS sur le marché.
LES CODECS UTILISÉS EN TELEPHONIE MOBILE
Ce schéma résume les qualités et les codecs disponibles actuellement dans le monde de la téléphonie mobile. Les POTS (Plain Old Telephon System), autrement dit les systèmes téléphoniques classiques, fournissent des signaux audio à bande étroite (NB), soit 3,4 Khz de largeur de bande audio. Un cran au-dessus, les services HD Voice offrent une qualité large bande (WB), soit 7 Khz ; c’est déjà plus confortable, sans être de la Hi-fi pour autant. Encore au-dessus en qualité, on trouve la voix Full-HD, qui comprend les niveaux de qualité super-large bande (SWB jusqu’à 16 Khz) et pleine bande (FB jusqu’à 20 Khz).
Pour les services Narrow et Wide Band, ce sont les codecs AMR-NB et AMR-WB qui sont utilisés encore majoritairement, avec un débit de 12 kbit/s, voire 23,85 kbit/s pour le WB. Pour le Full HD Voice, ce sont AAC(E) LD (24 kbit/s up to 64 kbit/s) qu’on retrouve aussi d’ailleurs sur des services type Skype ou FaceTime. Face à ces anciens codecs, le déploiement des services 4 et 5G promet l’implémentation d’une nouvelle génération de codecs prometteuse en termes de qualité audio tant pour la voix que pour la musique : EVS pour la mono et IVAS pour la stéréo et les formats immersifs.
Article paru pour la première fois dans Mediakwest #56, pp 76-78