Un nouveau codage couleur plus performant pour le HDR et le WCG

L’ITU a publié en juillet 2016 la recommandation BT.2100-0 qui définit les paramètres des images vidéo UHD-1 et UHD-2 et fixe les deux courbes de transfert, OETF et EOTF, utilisées pour le traitement et la reproduction des signaux HDR. Au fil des pages de ce document, un nouveau codage des composantes couleur, dénommé I,Ct,Cp et basé sur l’espace colorimétrique L,M,S, apparaît à côté du traditionnel codage Y’,C’b,C’r.(1)*
ICC_OK.jpg

 

Dans tous les systèmes de prises de vues vidéo couleur, la première étape du codage des signaux consiste en une opération de matriçage combinant les trois signaux rouge, vert et bleu pour obtenir le signal Y (ou luminance) et deux signaux de chrominance, (B-Y) et (R-Y) (différence bleue et différence rouge).

Les coefficients de pondération des primaires R, V et B ont varié au fil du temps et de l’évolution des formats vidéo (voir tableau 1). Cette opération présente plusieurs avantages : fournir un signal noir et blanc pour assurer par le passé une rétro-compatibilité avec les TV monochromes, réduire le spectre de fréquences du signal couleur en diminuant la bande passante des deux différences couleur sans diminuer la définition de l’image, limiter l’impact des dérives de couleur lors de défauts d’amplification sur l’une des voies de transmission avec un câblage en composantes.

Malgré ces avantages, ce codage Y’,C’b,C’r présente un défaut : rendre la luminance Y et les deux différentes couleurs interdépendantes car calculées à partir des mêmes variables R, V et B.  Ainsi, une conversion du codage, un sous-échantillonnage, une atténuation ou un mélange vidéo, qui agissent sur la couleur, auront une incidence sur l’intensité Y et donc le niveau lumineux.

Si cet inconvénient était acceptable avec des images SDR (Standard Dynamic Range), son impact devient gênant avec des sources HDR exploitant le Wide Color Gamut (WCG). Ce codage est caractérisé comme « Non Constant Luminance » (NCL). Un codage Y’,C’b,C’r de type CL (Constant Luminance) a été ajouté à la Rec. BT.2020, mais face à sa complexité et aux résultats mitigés obtenus, il n’a jamais été mis en œuvre au plan pratique.

 

IPT, un espace colorimétrique basé sur la sensibilité LMS de l’œil

Ebner et Fairchild ont proposé en 1998 un nouvel espace colorimétrique dénommé IPT, basé sur la sensibilité des cônes, les récepteurs internes de l’œil humain. Ceux-ci présentent trois pics de sensibilité pour les rouges (grandes longueurs d’onde), les verts (longueurs d’onde moyennes) et les bleus pour les courtes, d’où la dénomination L,M,S (pour Long, Medium et Short).

Ce modèle est plus proche de la réalité de la perception humaine que celle obtenue avec les trois primaires R,V,B placées dans le diagramme de la CIE. Il permet d’obtenir une représentation des couleurs plus fidèle par rapport aux variations de luminance. La valeur I correspond à l’intensité lumineuse, tandis que P décrit les informations de chrominance selon un axe rouge/vert ou Protan, et T selon un axe jaune/bleu ou Tritan.

Dolby a perfectionné cette solution en l’adaptant à la dynamique de l’image HDR et à l’élargissement du WCG. Cette version porte parfois le nom d’ITP dans lequel les deux axes ont été inversés pour correspondre à l’ordre habituel de C’b et C’r. Mais pour éviter les confusions entre IPT et ITP, c’est l’appellation I,Ct,Cp qui est la plus utilisée.

 

Un codage en trois étapes

Le codage se découpe en trois phases. Une première conversion matricielle 3 x 3 sert à calculer les valeurs L,M,S à partir des valeurs linéaires R,V,B fournies par le capteur. Ensuite ces valeurs sont traitées avec la courbe OETF choisie (PQ ou HLG) et deviennent L’,M’,S’. Enfin on applique une troisième matrice 3 x 3 pour obtenir les valeurs finales de I,Ct,Cp.

Les valeurs de cette matrice ont été reprises du modèle initial HPE (Hunt-Pointer-Estevez) déjà défini dans la Rec. BT.2020. Elle améliore l’uniformité de la représentation des couleurs en particulier aux limites du gamut BT.2020. D’autres corrections réduisent les erreurs d’interpolation, redressent les lignes de teinte constante et améliorent l’uniformité des ellipses de MacAdam. Celles-ci caractérisent les seuils de détection différentielle de la vision ou JND pour Just Noticeable Difference.

De nombreux tests ont été menés et ils ont montré que le codage I,Ct,Cp apportait plusieurs avantages par rapport à la version NCL du codage Y’,C’b,C’r. L’intensité lumineuse I reste indépendante des informations de chrominance lorsqu’elles varient. Des mesures ont confirmé que pour l’ensemble des couleurs contenues dans l’espace colorimétrique BT.2020, les valeurs de I restaient presqu’identiques à celles de Y codées en PQ, alors que pour un codage Y’,C’b,C’r, elles s’éloignaient fortement de la droite 1:1 idéale, en particulier pour les teintes bleues et rouges (voir figure 3). Un second avantage concerne la désaturation des couleurs qui restent alignées sur une droite de luminance constante avec I,Ct,Cp alors qu’avec Y’,C’b,C’r, les valeurs s’en écartent fortement (voir tableau 3).

 

Réduction de l’impact du sous-échantillonnage

La transmission des contenus UHD et HDR utilisera des réseaux de diffusion où la compression (HEVC ou autre) restera un passage incontournable. Pour diminuer le débit du signal, les techniques de sous-échantillonnage sont mises à contribution. Lors d’une réduction des signaux en 4:2:0, les faibles écarts de couleur sur une zone apparemment unie, sont amplifiés et provoquent, avec un codage Y’,C’b,C’r, l’apparition de zones de seuillage visibles. Là aussi le codage I,Ct,Cp révèle toute sa puissance en respectant la tonalité unie de l’image d’origine et élimine ce genre d’artefact (voir figure 4).

 

Réduction de la profondeur de quantification

La profondeur de quantification des signaux vidéo numériques augmente régulièrement dans les caméras haut de gamme et pour les phases de postproduction ; et ce mouvement est renforcé avec le HDR et le WCG pour tenir compte de l’augmentation d’amplitude des signaux. Pour les échanges de contenu à longue distance ou la diffusion, le nombre de bits de quantification est souvent réduit afin de limiter le débit ou la taille des fichiers. Si cette réduction est trop forte, des défauts apparaissent, comme l’augmentation du bruit, la perte de détail, des contours moins précis ou des dérives colorées lors de fortes transitions. Il faut donc trouver le meilleur compromis entre l’optimisation du débit – et donc des paramètres de numérisation – et le seuil de détection des défauts par le spectateur.

Des tests de perception ont été menés en faisant varier le niveau lumineux. Les défauts visibles sont évalués selon la méthode de mesure du ∆E2000 élaborée par la CIE. Pour le cinéma numérique, le DCI a fixé à la valeur de 3.0 le niveau maximal à ne pas dépasser dans une salle de projection. Une valeur de ∆E2000 inférieure à 1.0 correspond à des défauts non visibles par l’œil humain.

Pour comparer les performances des deux codages, Y’,C’b,C’r et I,Ct,Cp, des tests ont été menés en faisant varier la profondeur de quantification et les niveaux d’éclairement (ces tests étant effectués sans compression du signal). Une synthèse des résultats est rassemblée sur la figure 5. Ils montrent qu’un signal codé en Y’,C’b,C’r sur 10 bits présente toujours des défauts au-dessus de la limite fixée par le DCI.

Si le même signal est codé sur 12 bits, les valeurs de ∆E2000 restent cantonnées autour de 1.0, la limite de visibilité. Si les images sont codées en I,Ct,Cp à 10 bits, les mesures se trouvent dans l’intervalle entre 1.0 et 3.0, donc avec des défauts nettement moins visibles qu’avec un codage Y’,C’b,C’r. Le codage I,Ct,Cp s’il est adopté par les diffuseurs leur permettra de conserver une diffusion numérique en 10 bits, avec le HDR et le WCG sans modifier leurs infrastructures.

 

Une évolution en douceur

À travers ces quelques exemples, on constate que le codage I,Ct,Cp apporte des améliorations notables par rapport au codage traditionnel Y’,C’b,C’r et qu’il préserve le gain de qualité induit par le HDR et le WCG sans remettre en cause le dimensionnement des architectures numériques. On pourrait également craindre que l’ajout de ce nouveau mode de codage couleur exige une refonte des équipements et des logiciels.

Les ingénieurs ont réussi à organiser ce nouveau traitement et ses paramètres dans une conversion matricielle de type 3 x 3 similaire à celle du codage Y’,C’b,C’r. Il suffira donc de modifier les coefficients de cette matrice pour passer de l’un à l’autre. Une simple mise à jour logicielle ou du « firmware » devrait permettre d’ajouter le traitement I,Ct,Cp aux systèmes existants.

Maintenant que les formules de calcul ont été spécifiées dans la recommandation BT.2100, le passage à ce nouveau mode de codage demandera un travail de standardisation au niveau des métadonnées pour que la gestion et la reconnaissance de ces signaux soient automatiques et transparentes pour l’utilisateur.

Les lecteurs qui souhaiteraient approfondir ces questions pourront consulter en anglais un « white paper » de Dolby consacré au codage I,Ct,Cp, les recommandations BT.2100 et BT.2390 de l’ITU et un article de la revue ZTE Communications de février 2016.

 

(1) Le signe « prime » après chaque variable indique que le signal est délinéarisé après traitement par une courbe de transfert, gamma ou OETF

 

*Article paru pour la première fois dans Mediakwest #20, p.66-67Abonnez-vous à Mediakwest (5 nos/an + 1 Hors série « Guide du tournage) pour accéder, dès leur sortie, à nos articles dans leur totalité.