dimanche, 20 juillet 2014 19:42

R128 et niveaux audio v2 Spécial

Écrit par

r128Voici un bien bel article écrit par Jocelyn Chappaz sur la base des documents techniques de l'EBU (les schémas en sont issus) et des discussions dans le forum SDO sur le sujet des niveaux audios, des normes et plus particulièrement sur notre ami R128, recommandation pour les niveaux audios en diffusion TV, transcrite en France dans la recommandation technique de la CST sous le nom de CST RT 040 v1.2 (MàJ de décembre 2016), utilisée par la majorité des diffuseurs francais.

(http://www.ficam.fr/IMG/pdf/cst-rt-040-tv-2016-pad_fichiers_editeurs_v1.2.pdf)

Ce document avait pour vocation originale d'être une base d'un cours formel en BTS Audiovisuel: il est donc très scolaire dans la forme. Un cours, par définition, se doit d'évoluer et il est fort probable que des mises à jours (ou des refontes) de ce cours apparaissent de loin en loin, afin d'améliorer sa compréhension et son adéquation avec la réalité professionnelle.

Des gros sons ou des normes son ? (Révision de Mai 2014)

Krr !

Les évolutions dans les métiers du son passent et trépassent... C'est le cas dans bon nombre de domaines. Il en est une qui a toutes les chances de rester pour un long moment et qui remplit les forums des professionnels du son ( je fais la séquence « pub » tout de suite, comme çà c'est fait: www.sounddesigners.org / www.afsi.eu ), c'est l'évolution récente des normes de niveaux sonores, soit la maintenant fameuse R128 et son « loudness ».

Du fait de ce mot difficilement traduisible qu'est le « loudness », c'est maintenant dans toutes les bouches (et les oreilles) des techniciens du son, en particulier celles du monde audiovisuel, avec souvent une connaissance approximative.

Cet article a pour but de préciser les choses et surtout, de donner une idée de la situation et du pourquoi du comment. Voyons d'abord les bases et les normes précédentes.

 

1- Quelques rappels

1-1 Principe de l'alignement d'un programme, de la calibration en général

Quels sont les intérêts de l'alignement d'un programme audio, des signaux de calibration, des visualiseurs de niveaux ?

Ces instruments de mesure permettent, avant tout, de confirmer certains problèmes détectés à l'audition du programme audio, mais aussi d'assurer une conformité technique du programme par rapport à un standard requis (pour la diffusion, par exemple). D'autre part, ils peuvent être également utilisés pour calibrer certains environnements de travail composés d'équipements mixtes (analogiques et numériques) et permettent ainsi, d'assurer une certaine cohérence et une fidélité de restitution du signal audio tout au long de la chaîne de traitements.

N'oublions pas que certains appareils sont conçus pour fonctionner à +4 dBu (environ 1,23 Volts) et d'autres à -10 dBV (environ 0,32 Volts)... Et même s'ils sont essentiellement numériques, il reste souvent une part d'analogique ici ou là !

 

1-2 Unités

dBu, dBm, dBFS sont autant d'unités présentes sur les appareils de mesures afin d'assurer une visualisation et un contrôle des niveaux présents dans un programme audio. L'unité couramment utilisée pour la mesure du niveau du signal audio est le décibel dB, défini comme fonction du logarithme du rapport entre deux grandeurs (puissance, intensité, pression ...). Une grandeur exprimée en décibel dépend donc d'une valeur de référence et donne le rapport entre la référence et la valeur mesurée. En fixant une référence, on annoncera alors que le niveau mesuré se trouve à x dB au dessus ou au dessous de cette référence.

dBm, dBu, dBv : Le 0 dBu correspond à la tension en volt efficace qui, appliquée aux bornes d'une résistance de 600 Ω, engendre une puissance de 1 mW.  Soit u = (0,001 W x 600 Ω) 0,5 = 0,775 Veff.

La définition du 1mW dans une impédance de 600 Ω a une origine historique liée aux installations électriques anciennes. Cette référence n'a plus lieu d'être aujourd'hui puisque l'on compare des tensions avec des charges différentes et où la notion de puissance n'intervient plus. Les Allemands rappellent cette référence de 0,775 V par la lettre u; les Japonais et les Américains par la lettre v. Ainsi 0 dBm = 0dBu = 0 dBv = 0,775 V. Pour éviter toute confusion avec le dBV, on a cessé d'utiliser le dBv.

Lorsque l'on dit +12 dBu cela signifie 12 dB au-dessus de 0,775 V soit 0,775 Veff. x 4 = 3,1 V.

dBV : Le dBV a pour référence 1 V. Ainsi 0 dBV correspond à une tension 1 V. Cette référence est rappelée par la lettre V.

dBFS (Decibel Full Scale) : Le dBFS est une échelle utilisée en numérique. Le 0 dBFS étant la mesure remplissant la totalité de l'échelle, la mesure maximale (Full Scale), pouvant être encodée par un système numérique n'employant que des entiers. Pour le dire différemment, tous les bits codant la valeur sont à 1, il ne peut pas exister une valeur supérieure.

 

1-3 Principes

Dynamique: la dynamique d'un signal est définie comme le rapport entre son niveau le plus fort et son niveau le plus faible. Celle d'un appareil est le rapport entre son niveau le plus fort et son niveau le plus faible correctement transmis/reproduit, soit, généralement, le rapport entre le bruit intrinsèque et le niveau maximum admissible/reproductible sans distorsion d'aucune sorte.

Niveau Maximum Permis: pour avoir le meilleur rapport Signal sur Bruit, les crêtes maximales du signal audio devraient se situer le plus près possible du niveau maximum permis par le système, mais sans risque de l'atteindre. Suivant les applications (post-production, enregistrement en direct), ce niveau de crêtes est variable et, parfois, imprévisible. Une valeur arbitraire a donc été fixée en dessous du niveau maximum admissible par les systèmes. Cette valeur est appelée Niveau Maximum Permis (ou PML pour Permitted Maximum Level). Elle est considérée comme une valeur maximum pour les crêtes d'un programme audio mais on peut accepter en pratique de pouvoir la dépasser occasionnellement. Cet écart entre le niveau maximum du système (niveau d'écrêtage ou clip) et le niveau maximum permis est appelé Headroom (réserve). Elle est une marge « tampon » de sécurité permettant d'éviter un risque de distorsion du signal audio par saturation.

 

Illustration 1: Exemple de PPM de la BBC, gradué de 1 à 7 - Source: wikimedia.org

1-4 Rappels des systèmes précédents et de leurs limites

Aujourd'hui de nombreux appareils de mesure aux caractéristiques très différentes sont utilisés. Nous détaillons ici quelques uns.

Les principales caractéristiques des outils de mesure présentés ci-dessous concernent principalement: l'échelle balistique (la graduation), le temps d'établissement ou d'intégration et le temps de descente.

Chaque appareil est utilisé en fonction du type d'application (musique, cinéma, télévision), du type de diffusion (analogique, numérique) ainsi que des recommandations ou normes en vigueur (ou qui l'ont été) dans le pays. Il existe ainsi plusieurs types de modèles : Type I Nordic, Type BBC, DIN 45406, VU,  EBU PPM Std, EBU Digi PPM, IRT Digi PPM, etc...

La BBC avait même plusieurs modèles différents !

 

Illustration 2: Exemple de VU Mètre (marque TEAC) - Source: Lain Fergussion via wikimedia.org

Le VU-mètre (Illustration 2)

Le vu-mètre d'origine américaine est inventé en 1939 par les laboratoires Bell. Il est un indicateur de niveau baptisé « vu-meter » (Volum Unit Meter). Les caractéristiques des Vu-mètre sont régies par les normes: ANSCI C16.5-1942, British Standard BS 6840 et IEC 60268-17. Le Vu-mètre est gradué de -20 à + 3 (échelle non linéaire) et possède un temps de montée et un temps de descente de 300ms. Il indique 0 quand on applique à ses bornes un signal sinusoïdal de 1000 Hz permanent de + 4 dBu.

Cet instrument de mesure du fait de ses caractéristiques, est imprécis pour mesurer les transitoires du signal audio et mesure une valeur moyenne d'une modulation sur 300 ms. Il est le plus vieil instrument de mesure encore utilisé aujourd'hui, mais reste dans certains cas toujours requis pour contrôler le niveau sonore d'un programme en conformité avec certains standards. De plus, même avec les nouvelles normes et malgré son âge, il peut rester pertinent...

 

Les crêtes mètres analogiques (analog QPPM)Illustration 3: Exemple de PPM Nordic (Norme IEC 268-10 I) - Source: wikimedia.orgIllustration 4: Exemple de PPM Norme DIN 45406 - Source: wikimedia.org

Le crête mètre d'origine européenne appelé aussi quasi-crête, indicateur de crête ou crête mètre PPM (Peak Program Meter) a été initialement défini pour les besoins de la radio.

Ses caractéristiques diffèrent selon les normes respectées en fonction du pays et du type d'application.

Ainsi, il existe plusieurs types de crête mètre analogiques (Type I Nordic, BBC, DIN 45406, etc...). En France, la mesure du niveau électrique pour une diffusion analogique est généralement effectuée à l'aide d'un Quasi PPM à la norme DIN 45406 (Illustration 4). Les caractéristiques des crêtes mètres analogiques sont régies en Europe par la norme CEI 268-10. Le crête mètre analogique DIN 45406 (Din QPPM) est gradué de - 50 à + 5 et possède un temps d'intégration de 10 ms et un temps de descente de 1,5 s.

Jusqu'en décembre 2011, il était encore considéré comme la référence (normes des diffuseurs pour la télévision et loi du CSA pour la radio) pour le contrôle des niveaux sonores dans le domaine télévisuel et radiophonique.

Le crête mètre analogique, tout comme le vu-mètre, présente une valeur moyenne du niveau sonore d'une modulation sur 10 ms, mais possède un temps de montée plus court que le vu-mètre. Cela permet de contrôler avec plus de précision d'éventuels problèmes liés aux modulations courtes (crêtes) du signal audio.

 

Les Crêtes mètres numériques (Sample Peak Meter)

Les caractéristiques des crêtes mètre numériques sont régies en Europe par la norme CEI 268-18 et par la recommandation R68-2000 de l'EBU. Contrairement aux crêtes mètres analogiques (QPPM) ayant un temps de montée de 10 ms, les crête mètre numériques (SPPM) affichent les crêtes du signal audio avec un temps de montée tendant vers 0 ms. Le temps de descente peut varier d'une application logicielle à l'autre mais est généralement compris entre 1,5 s et 2,5 s.

La majorité des crêtes mètres numériques (SPPM) présente une échelle balistique avec un pas de 1 dBFS et affichant un niveau maximum de 0 dBFS ainsi qu'un voyant «Over». Cette échelle de valeurs exprimée en dBFS est souvent une conversion de la valeur numérique de chaque échantillon en une représentation visuelle.

Tableau 5: Comparaison des visualiseurs utilisés en studio musique, "broadcast" ou radio. Le dBr est une référence arbitraire.

Aux USA, le VU mètre reste une référence.

Les différents systèmes varient selon leur temps d'intégration, de relâchement, mais aussi d'échelles.

Par exemple, le PPM allemand met 10 ms pour atteindre le grade 90% sur son échelle, là où celui de la BBC atteindra son 80% dans le même temps.

La diversité des temps d'intégration, de réaction, produit des réserves différentes d'une échelle à l'autre: 9 dB pour un PPM mais 18 dB pour un Vu mètre !

 

Si on prend un visualiseur en dBFS au sens strict du terme, un SPPM (Sample PPM), il n'y a pas besoin de réserve puisqu'il décrit le signal numérique tel quel (en théorie !) mais il ne permet pas de se faire une idée de niveau moyen du programme.

Illustration 6: Comparaison de différents visualiseurs en tenant compte de leurs caractéristiques ballistiques. Une forme d'onde (en bleu) contenant une crête donnée, sera plus ou moins visible selon les caractéristiques du visualiseur utilisé. (Source: Documents IRT)

1-5 Situation depuis plus de 20 ans, jusqu'à Janvier 2012

En France, la norme longtemps en vigueur pour les  programmes P.A.D (Prêt à diffuser) se basait sur le QPPM DIN 45406 avec un niveau d'alignement (équivalent à 0 VU, donc à +4 dBu) à -9 dB DIN, un PML à 0 dB DIN avec une tolérance jusqu'à 2 dB DIN.

La traduction sur un SPPM était assez simple, il y avait un simple saut de lecture de -9 dB:

Niveau d'alignement à -18 dBFS, PML à -9 dBFS, tolérance jusqu'à -7 dBFS.

Le premier étudiant en BTS Métiers de l'Audiovisuel option Métiers du Son des années 90 et 2000 sait cela parfaitement.

Seulement, le temps de réaction d'un QPPMS est généralement de 10 ms (5 ms est relativement courant également). Cela signifie que toutes les crêtes inférieures à ce temps ne seront pas gérées correctement. C'est souvent le cas des transitoires. D'un autre côté, le dB FS, lui réagit au sample près, mais cela n'empêche pas les crêtes intersamples (entre les échantillons). La limitation étant prévue à -9 dBFS maximum, cela signifie souvent une disparition de la réserve nécessaire à l'expression des transitoires et des crêtes courtes en général.

Cette limite vient de la diffusion du signal en FM. La porteuse ne doit pas avoir une déviation de plus de 50 kHz au total et la déviation dûe au niveau ne doit pas dépasser 30 kHz, ce qui se traduit par une marge de 20 kHz, soit 4,4 dB de réserve.

Depuis quelques années, la pression commerciale a poussé les productions à dépasser ce seuil et à utiliser la totalité des 50 kHz de déviation, afin d'être plus fort que le voisin. Il a donc fallu aligner le PML à cette valeur. Il faut donc trancher net le moindre transitoire pour éviter la distorsion. Néanmoins, ce compromis a semblé acceptable à ceux qui l'ont mis en place, même si la plupart des gens ayant des oreilles en état de marche étaient probablement d'un avis différent.

En effet, la technique consiste simplement à compresser le signal bien au delà de ce qui est nécessaire, permettant de ce fait de remonter le niveau moyen sans risque de saturer.

Illustration 7: Courbes isosoniques (rouge) selon ISO 226:2003 Courbes de Flechter et Munson (bleu) en comparaison               (source: Wikipédia)

De plus, notre oreille n'est pas linéaire comme le montre l'illustration 7. Celle ci entend mieux les haut médium et moins bien les fréquences basses.

Comme ces dernières sont celles qui contiennent le plus d'énergie et qui sont donc les plus susceptibles de dépasser le niveau maximum, un travail en compression multibande s'opère: on compresse encore plus exagérément les fréquences basses et, du fait que le niveau global baisse, on peut remonter à outrance les haut médium.

Cela a pour effet d'avoir un niveau moyen qui est le même qu'auparavant pour une machine... mais qui semble beaucoup plus fort à l'oreille humaine !

Et si le résultat sonne de façon désagréable, cela ne dérange que l'auditeur...

Donc, lorsque l'on passe d'une station de radio à l'autre, d'une chaine de télévision à l'autre, si on passe d' ''une qui n'a pas rejoint la guerre du volume'' à ''une qui y joue'', le volume augmente et agresse d'un coup.

D'autre part, la valeur numérique ne donne pas la valeur réelle une fois le son reconverti en analogique: les approximations et les corrections peuvent faire dépasser le signal final de plusieurs décibels par rapport à ce qu'affiche le visualiseur en dBFS ou en QPPM !

On comprend aisément les limites des raisonnements qui ont été si longtemps en vigueur... D'ailleurs, ces raisonnements sont encore et toujours d'actualité en musique (CD, vente en ligne), dans la diffusion internet, en diffusion radio analogique (avec la R.N.T, il est prévu que cela change) et, en fait, dès qu'on sort du cadre très contrôlé du petit écran.

C'est d'ailleurs parfaitement notable en musique actuelle, avec une dynamique tellement compressée (la désormais fameuse « forme d'onde en bloc rectangulaire » bien connue) que tous les sons, quels que soient leurs niveaux originaux, s'entendent au même niveau, soit « à fond, à fond, à fond » ! Avec la musique électronique, cela peut parfois passer... Dans certaines musiques à forte distorsion ajoutée (comprendre « beeuurrrhaaarrgg métôôÔÔÔooll ! ») également, car, par principe, distordre un signal revient à diminuer sa dynamique. Néanmoins, même dans ces musiques là (et a fortiori dans les autres...), cela devient lassant... Hélas, la situation n'est pas prête de changer.

Le cinéma a ses propres normes (sur cela, je ne m'aventurerai pas ici...) et la vidéo (c'est à dire DVD/BluRay) n'en a... pas vraiment non plus. Heureusement, l'encodage Dolby souvent utilisé pour ses supports, comporte un système permettant, en théorie, de limiter les dégâts. Ce n'est pas non plus le sujet de cette série d'articles bien que nous y ferons un détour à un moment, vu la similitude entre les métadonnées Dolby et celles prévues sur cette recommandation R128 (et sa traduction dans la loi française, la très sympathique CST-RT017) que je décrirai par le menu dans le prochain chapitre.

L'insecte.

 

Des gros sons ou des normes son, partie 2

Krr !

Après avoir rappelé les précédents systèmes et avoir pointé du doigt leurs défauts, abordons maintenant cette fameuse « recommandation EBU R128 ». Celle ci a été traduite dans une recommandation de l'UIT (Union Internationale des Télécommunications - ce qui donne ITU en version anglaise  et donc en version internet) poétiquement nommée BS.1770 (c'est de l'humour absurde, il n'y a pas la moindre poésie là dedans). C'est donc sous cette appellation que je vous conseille d'aller vérifier si je ne vous raconte pas des palinodies ou des billevesées.

 

2- EBU R128, ITU-R BS.1770

La recommandation EBU R128 établit les méthodes de mesures du niveau audio des programmes, courts ou longs et ce, pour la quasi-totalité des plateformes de diffusion. La norme qui lui est associée, ITU-R BS.1770, définit un algorithme standard, ouvert, accessible à tous pour ces mesures.

Intérêt: faire disparaitre la bataille de celui qui pisse le plus fort ainsi que les effets indésirables de cette bataille: pompage, artéfact, limitation excessive, manque de dynamique. Le but du nouveau principe devrait permettre de ne plus avoir à faire le choix entre être aussi fort que les autres ou avoir un son dynamique, agréable, correct.

 

2-1 – C'est un K, LU !

(blague compréhensible uniquement par un marseillais)

Illustration 8: Courbe isosonique pondérée K (source: Document ITU BS-1770)

Comment fonctionne ce système ? D'abord, commençons par tenir compte de nos bonnes vieilles feuilles de choux ! L'algorithme applique donc en premier lieu une courbe pondérée de réponse en fréquence (K-Weighting filtre curve) sur le même principe que les courbes isosoniques A ou C utilisées en mesures de nuisances sonores ou de calibration d'enceintes.

Cette courbe est appliquée à tous les canaux, sauf le LFE (qui n'est, pour l'instant, pas du tout géré par la norme R128) puis l'algorithme effectue un calcul en valeur efficace (total mean square ou RMS) est calculé.

Une pondération se fait pour les canaux arrières, de +1,5 dB, ceci ayant pour but d'exagérer légèrement la mesure du niveau des canaux arrières afin d'éviter que ceux ci se retrouvent, en moyenne, plus forts que les canaux avants. Tous les canaux sont alors sommés et le résultat s'affiche sur une échelle logarithmique, similaire à celle du dB Fs. Attention, similaire ne signifie pas égal !

Le résultat est donné en LKFS (Loudness, K-Weighting, referencing to digital Full Scale). Pour des mesures relatives, l'unité utilisée est le LU (Loudness Unit) ou 1 LU est équivalent à 1 dB en moyenne ou bien à la fréquence de 1000 Hz.

Pour éviter une confusion certaine dans l'analogie avec le dB Fs et le dB, le terme LKFS est souvent remplacé par LUFS (Loudness Unit, referencing to digital Full Scale)

Les règles sont les mêmes que le décibel FS:Illustration 9: Schéma du processus de constitution de l'échelle en LKFS/LUFS (source: Document ITU BS-1770) LUFS décrit une valeur absolue, là où une valeur en LU indique une valeur relative (à une référence, à une autre valeur, etc…).

Il n'est pas exagéré de considérer une certaine « égalité » entre les deux échelles mais il faut bien garder à l'esprit que le dB FS ne tient pas compte de la fréquence, là où le LUFS est pondéré.

Sur un son sinusoïdal à 1 kHz, cette égalité est fondée et, en moyenne, sur les programmes, elle se vérifie en pratique mais cela reste deux échelles différentes sur le papier.

 

2-2 Silent Gate

Maintenant que l'échelle est définie, voyons un peu comment cela fonctionne en pratique. Tout d'abord et afin d'éviter toute tricherie consistant à mettre des passages de silence pour pouvoir envoyer des passages bien trop forts, et également pour éviter que les parties ne contenant pas de son faussent la mesure, un « Gate » est prévu à – 70 LU FS. Donc, le niveau minimal est donné pour: -70 LUFS (silence absolu). Toute valeur inférieure n'est pas prise en compte: elle n'existe tout simplement pas.

 

2-3 Fenêtres de calcul

La recommandation ITU BS.1770 définit trois fenêtres de calcul:

-      Ponctuel: 400 ms (Momentary Loudness : MLK). Il n'y aucune fréquence de rafraichissement prévue, mais dans la pratique, le rafraichissement est généralement de 10 Hz. Chaque bloc se recoupe avec le suivant sur 75% de sa durée. Si le programme se finit au milieu d'un bloc, celui ci ne sera pas pris en compte pour la mesure.

-      Courte: 3 s (Short-term Loundness : SLK). La fréquence de rafraichissement de la mesure doit être au minimum de 10 Hz.

-      Intégrée: toute la durée du programme (Integrated Loundness : ILK). La fréquence de rafraichissement de la mesure doit être au minimum de 1 Hz.

Le ILK et le SLK sont mesurés en prenant en compte la valeur de blocs consécutifs de 400 ms, soit, pour le dire différemment, la moyenne des valeurs de MLK sur trois secondes pour le SLK et la moyenne des valeurs de l'ILK sur toute la durée du programme.  Les blocs en dessous de la valeur minimale (- 70 LUFS) ne seront pas pris en compte non plus dans la mesure, comme nous l'avons dit plus haut. Cela revient à dire qu'une nouvelle valeur se présente toutes les 0,1 secondes et que celle ci est intégrée au calcul du ILK et SLK, eux même mis à jour toutes les 0,1 secondes.

En l'état actuel, aucune valeur de relâchement ou d'attaque n'est prévue dans la norme. Un consensus international doit être trouvé sur ce point et sera intégré dans le futur dans la norme du EBU Mode.

 

2-4 Programme Loudness: ILK

Le Program loudness décrit donc le niveau/volume moyen, pondéré, sur toute la durée du programme. Dans le cas de la recommandation EBU R128, le terme "programme" inclut également les publicités, des virgules et annonces. Ce paramètre se traduit par un seul nombre, donné en LUFS avec un nombre après la virgule qui indique le volume moyen du programme, dans sa totalité.

Après plusieurs tests, le choix de la valeur de -23,0 LUFS est devenu la règle, avec une tolérance conseillée de 0,5 LU. Une déviation de +/- 1 LU est cependant acceptée, essentiellement pour que les programmes où la normalisation à -23,0 LUFS n'est pas faisable en pratique (programmes en direct, par exemple) puisse être diffusés.

Il y a des cas, cependant, où les niveaux des signaux d'un programme sont difficilement prédictibles ou bien lorsque le programme ne contient que des éléments d'habillage (musique de fond pour la météo, par exemple). Dans ces cas, il est donc prévu une tolérance plus large pour ces programmes. (Néanmoins, cette tolérance n'est pas légalement prévue pour les programmes en France, actuellement)

Enfin, il y a une distinction pour les programmes de moins de deux minutes. Nous reviendrons également sur ce point plus loin.

 

2-5 Loundess Range (LRA)

Il s'agit d'une information qui va permettre de décider si une compression dynamique est nécessaire. Cette valeur décrit les variations de la mesure du volume d'un programme.

Dans les documents ITU, ce paramètre est décrit d'une façon que je trouve exagérément complexe. Je vais donc me permettre de donner ici mon interprétation du LRA.

Nous avons vu que, tout au long du programme, des mesures de MLK (sur 400 ms, chaque 100 ms) sont générées. Prenons la totalité de ces mesures (hormis, bien sûr, celles qui sont en dessous de – 70 LUFS qui n'existent pas), soit 100% des mesures effectuées valables. Je vais avoir des mesures qui vont transcrire des niveaux très faibles, faibles, moyens, forts et très forts.  Je vais d'abord « enlever » de mon calcul 5% des valeurs qui correspondent aux niveaux les plus forts. Ensuite, j'enlève de mon calcul 10% des valeurs qui correspondent aux niveaux les plus faibles. Puis, je mesure la dynamique en fonction des valeurs restantes, soit l'écart entre la valeur du niveau le plus faible et la valeur du niveau le plus élevé qu'il me reste. Et voilà mon LRA !

Ces choix tiennent compte de la réalité des programmes télévisuels d'aujourd'hui (et d'hier aussi, quand même): on retire les 10% des valeurs les plus faibles pour éviter qu'un fade out ne change la valeur et les 10% des valeurs les plus fortes pour éviter qu'un bruit ponctuel (coup de feu, explosion, par exemple) ne change le LRA. Cela permet aussi d'avoir, dans le programme, des passages calmes et des climax sonores nécessaire à l'écriture, à la réalisation, à la transmission du message que véhicule le programme, sans que cela n'influe trop sur la mesure.

ll est généralement accepté que la valeur de LRA maximale pour un programme très dynamique est de 20 LU. La majorité des programmes ne devrait jamais avoir besoin d'une telle valeur et, dans les faits, être autorisé à l'atteindre. En France, depuis janvier 2013, le LRA devrait être compris entre 5 et 20 LU mais, ce n'est pas une obligation légale.

 

2-6 De vraies crêtes, sans couper les cheveux en quatre.

Nous avons vu dans l'article précédent les limites des visualiseurs de crêtes du signal audio, que ce soit les QPPM ou les SPPM. Le QPPM a vécu, néamoins, en Europe, il est encore largement utilisé. Avec le numérique, on est passé au SPPM mais les défauts du premier se retrouvent souvent dans le second.

Le QPPM ayant un temps d'intégration d'environ 10 ms, il ne montrera pas une crête qui dure moins que 10 ms. Le SPPM montre la valeur de l'échantillon mais rien ne nous permet de dire qu'il n'y a pas, entre chaque échantillon, une crête qui dépassera alors le seuil de distorsion.

Dans l'exemple ci-dessous, issu de la Tech Library de TC, par S. Nielsen & Thomas Lund, on peut constater que le niveau de crête est de 1,3 dB numérique au dessous du niveau réel.

Illustration 10: Ecart entre la valeur de l'échantillon et la valeur réèlle du signal (Source: TC Tech Library, S Nielsen & Thomas Lund)

Il a été démontré qu'il pouvait y avoir un écart entre la valeur affichée en dB Fs et la crête réelle allant jusqu'à 5,6 dB ! Comment faire pour pouvoir mesurer ces crêtes ? Il n'y pas 50 possibilités: il faut augmenter la résolution, soit la fréquence d'échantillonnage, d'un facteur au moins égal à 4.

Donc, en sur-échantillonnant 4 fois le signal, le visualiseur en True Peak Level va permettre de détecter ces crêtes. Cette valeur indique la valeur maximum de la forme d'onde dans le domaine du temps continu (le monde digital n'est pas du temps continu mais fini et échantillonné). Cette valeur est, dans la plupart des cas, supérieur à celles que donneraient un QPPM ou un SPPM, car les deux rateraient les vraies crêtes qui peuvent se loger entre deux échantillons.

Il permet donc une véritable estimation des crêtes du signal audio, le Maximum True Peak Level (MTPL) donné sur une échelle gradué en dB True Peak (dB TP).

Comme il est très difficile d'estimer totalement ces crêtes, il peut y avoir une erreur d'approximation, c'est pourquoi la valeur maximale autorisée est de -1 dB TP en production, afin de tolérer un écart potentiel de 0,5 dB (non détectable par un TP Meter, sur un signal à 48 khz, avec un sur-échantillonnage de x4).

Le MTPL (Maximum True Peak Level) est donc de -1 dB TP pour la recommandation EBU R128 mais en France, le MTPL est fixé à -3 dB TP.

Notons cependant que dans certains cas (passage sur un système de diffusion analogique ou bien encodage en bas débit), un niveau inférieur de TP sera nécessaire.

Certains visualiseurs permettent, optionnellement, de retirer une valeur continue présente dans le signal ainsi qu'une fonction de pré-emphasis. Actuellement, ces fonctions ne contredisent pas la norme mais il n'est pas impossible que cela change.

 

2-7 Résumé EBU R 128 / CST RT017

Les valeurs en gras sont celles de l’EBU R128 et en italique, celles de la RT017. Evidemment, une valeur en gras et en italique est donc commune aux deux recommandations. Il est à noter qu’en France, la recommandation RT017 est en fait une loi, il ne s’agit pas de la prendre comme un conseil mais plutôt comme un ordre !

-      les mesures Program Loudness, Loudness Range et Maximum True Peak Level caractérisent un signal audio

-      Le Program Loudness Level (ILK) doit être normalisé à – 23.0 LUFS

-      La tolérance est généralement de +/- 1 LU pour les programmes où une normalisation exacte ne peut pas être effectuée, et en pratique, les diffuseurs ne tolèrent souvent qu’un écart de 0,5 LU surtout depuis la note de l’EBU de juin 2014 sur le sujet.

-      Les mesures doivent être faites avec un visualiseur qui respectent les normes ITU-R BS.1770-2 et EBU Tech Doc 3341

-      La mesure de LRA (Loudness Range) doit être permettre de déterminer si une compression dynamique est nécessaire (en fonction du genre du programme, du public ciblé et de la plateforme de diffusion) et celle ci ne devrait pas excéder 20 LU. En France, le LRA ne devrait pas être inférieur à 5 LU et ne doit pas dépasser 20 LU (mais j’ai eu vent d’exceptions à ce dernier point).

-      Le MTPL en production est de -1 dBTP / -3 dBTP

-      Le SLK des dialogues ne doit pas dépasser une excursion de +/- 7 LU. La difficulté consistant à déterminer ce qui est du dialogue ou ce qui ne l’est pas. Quand on travaille par STEM, c’est évidemment plus simple... Je vous conseille la lecture du PDF que l’on trouve aisément sur le site de la CST. Il suffit de taper « CST RT017 » pour avoir la dernière version (V3.x).

 

3- En pratique

OK, c'est joli tout çà mais comment garder les yeux sur autant de valeurs différentes ? Il s'agit de ne pas s'inquiéter: tout le processus a été surtout établi pour éviter les tricheries et permettre de mixer « à l'oreille » sans forcément être scotché sur l'écran du visualiseur.

Détaillons néanmoins un certain nombre de points.

 

Illustration 11: Echelles EBU R128 (Source: Documents EBU Tech 3341)

3-1 T'a vu, j'enlève l'échelle !

La norme R128 ne défini à priori aucune échelle mais en conseille deux, présentes dans l'EBU Mode:

-      Echelle EBU +9 : pour la majorité des programmes ayant une marge de 30 LU, entre -21 et +9 (échelle absolue de -41.0 LUFS à -14.0 LUFS, relative de -18.0 à +9.0 LU)

-      Echelle EBU + 18: pour les programmes avec un LRA très large (échelle absolue de -59.0 LUFS à -5.0 LUFS, relative de -36.0 à +18.0 LU)

Avec pour base que le 0 LU de l'échelle est égal à - 23.0 LUFS. L'échelle EBU +9 est celle par défaut.

Les échelles absolues et relatives devront, par contre, être présentes sur le visualiseur (mais pas nécessaire en même temps), avec une précision à la première décimale.

Il y a deux types de visualiseurs:

-      Live Meter/Online: les trois échelles doivent être disponibles mais pas forcément affichées en même temps

-      Non Live/Offline: cela peut être un logiciel qui analyse un fichier et pas un plug-in en temps réel.

 

3-2 MLK, c'est pas du chocolat

Les valeurs MLK et SLK doivent être utilisées pour mettre immédiatement à niveau et pour mixer les signaux audios. Le premier réglage de niveau est généralement plus efficace s'il suit la fenêtre MLK, en ajustant les éléments audios clés (voix, dialogues, musique, effets sonores) autour de -23 LUFS.

Il est conseillé de bien régler les niveaux dès le début car il est acquis qu'on se laisse plus facilement aller à augmenter les niveaux qu'à les baisser au cours du montage et du mixage. Cela permet également de pouvoir monter les niveaux si besoin et de façon naturelle.

Lorsque les niveaux sont réglés, le technicien ou l'ingénieur du son peut se concentrer sur ses oreilles. Il lui suffit de garder un oeil sur les MLK & SLK, avec un coup d'oeil de temps en temps sur le ILK, qui donnera la confirmation finale que le mix est dans les seuils de tolérance autour du niveau cible.

Le ILK étant donné avec une décimale après la virgule (ou avec un visualiseur de même précision), il est aisé de gérer les soucis et de les anticiper. Il vaut mieux d'ailleurs puisqu’en pratique, c'est plutôt une tolérance de +/- 0,5 LU que de +/- 1 LU !

Les test effectués avec la NDR, l'ORF et la RTBF démontrent que même dans le cas d'un mixage en direct, il est possible de rester dans la fenêtre de +/1 LU permise par la norme R128.

Pour la post production, il y a même une certaine égalité LU/dB décrite plus haut qui peut venir simplement à l'aide d'un mixeur pressé: si vous êtes X LU trop fort ou trop faible par rapport au niveau cible, appliquez un gain en dB de la valeur inverse sur tout le programme... et dans 99,9% des cas, ca règle le problème, pour le Loudness.

Enfin, notez qu'on vérifie le programme et uniquement le programme: on ne passe pas les signaux de calibration dans le visualiseur ! Pas de 1000 Hz rupté, pas d'annonce, pas de bip de synchro !

 

3-3 Et ma crête, je la rase ?

Doit on dès lors remplacer tous les QPPM et SPPM ? Sur le long terme, oui. D'ici là, les deux vont coexister et il est donc nécessaire de s'adapter. Evidemment, il est absolument nécessaire de travailler en True Peak Mode au plus vite.

Heureusement, même quand on a ni visualiseur temps réel en TPL, ni limiteur True Peak, il est possible d'envisager de travailler avec un limiteur « normal » mais une marge de 6 dB, soit supérieure aux 5,6 dB d'écart possible entre valeur de l’échantillon et vraie crête, doit alors être conservée, soit, dans la norme EBU R128, à une valeur de – 7 dB Fs comme seuil pour le limiteur.

Ce qui est intéressant, c'est le choix de la CST (Commission Supérieure Technique de l'Image et du Son) lorsqu'elle a adaptée la recommandation EBU R128, qui fut de mettre le MTPL à -3 dB TP. Ce qui nous ramène, avec le calcul précédent, à limiter les crêtes à -9 dB Fs sur un limiteur standard... Cette limite va rappeler beaucoup de choses à tous ceux qui ont fait des P.A.D pour la télévision avant 2012: il s'agissait d'un des points phares des normes pour le son ! Cela signifie de facto une forme de « compatibilité » des anciens programmes avec l'EBU R128: il suffit d'appliquer un gain de -5 dB au programme et celui ci à toutes les chances d'être directement P.A.D !

 

3-4 Met ta donnée au bon endroit

Utiliser les métadonnées qui vont décrire le niveau d'intensité moyen du programme, ce n'est plus optionnel ! C'est devenu obligatoire dans la transcription de la R128 et de l'ITU BS1770 vers la recommandation technique du Commission Supérieure Technique de l'Image et du Son RT017, actuellement en version 3.0.2. En renseignant correctement l'information du niveau d'intensité moyen afin que, si besoin, l'appareil en charge de la gestion du Loudness, chez le diffuseur voire même le consommateur, modifie le gain du programme lors de la diffusion afin d'arriver au même but: un niveau moyen d'intensité équivalent d'un programme à l'autre.

Le format BWF (Broadcast Wave Format) supporte déjà les champs de métadonnées des trois mesures qui nous importe: Programme Loudness, Loundess Range et Maximum True Peak Level. Il sera donc nécessaire de trouver le moyen de renseigner également les information de Maximum Momentary Loudness Level et de Maximum Short Term Loudness Level. Ces deux informations sont essentielles afin de pouvoir contrôler la dynamique d'un contenu très court.

Il est également prévu que les métadonnées de Loudness soient incluses dans les informations SMPTE avec des profils de Loudness afin de pouvoir activer différents pré-réglages de processeurs de niveau automatiques lors de diffusion, de transferts, etc...

Dans les metadonnées déjà existantes, il y en a trois qui sont de première importance concernant le Loudness:

-      Programme Loudness

-      Dynamic Range Control

-      Downmix Coefficients

Dans le cas de l'AC-3 de Dolby, ces paramètres sont appelés « Dialnorm », « dynrng », et « Center/Surround Downmix Level ». Dialnorm décrit véritablement le Loudness d'un programme dans sa totalité avec tous ces éléments (voix, musique, bruitages, etc...). Même un programme purement musical a une valeur de Dialnorm. Faisons un petit rappel rapide:

Dialnorm (Dialog Level)

Le Dialnorm est la métadonnée qui contrôle le gain lors de la diffusion chez le consommateur, dans le cas d'une diffusion en AC-3 (Dolby Digital). Il s'agit d'une valeur comprise entre 1 et 31 et correspondant à une valeur de -30 à 0 dB, respectivement. Les valeurs hautes permettent plus de réserve (headroom) et correspondent à des programmes dynamiques comme les films d'action.

Le Dialnorm est normalement déterminé comme le niveau moyen du programme et, en cela, il se rapproche du Loudness de la norme R128, d'autant que cette valeur est également pondérée mais en courbe A (et non pas en courbe K).

Dynamic Range Control

Ce paramètre, pour le Dolby Digital, consiste en deux profils: RF Mode et Line Mode. Ils sont utilisés pour ajuster les valeurs des extrêmes d'un programme, en terme de niveau sonore. En cela, il se rapproche du LRA.

Le RF Mode est utilisé dans les situations où les limitations des crêtes doivent être « compatibles » avec une diffusion hertzienne analogique. C'est également le profil utilisé pour le « midnight mode » quand on veut être sûr que le film d'action ne va pas réveiller les voisins.

Le Line Mode donne une compression plus légère et permet les ajustements d'augmentation des graves et du filtre coupe haut au sein d'un décodeur standard. Ces ajustements permettent au consommateur d'adapter le signal audio à son environnement d'écoute.

Downmix Coefficients

Dans le cas où les signaux de son surround doivent être automatiquement mélangés pour avoir un signal stéréophonique, un downmix est effectué à partir de ces informations.

Il est évidemment nécessaire de prendre garde à ne pas saturer et donc, à ne pas dépasser, une fois la réduction stéréo effectuée le – 1 dB TP. (- 3 dB TP en France)

Les coefficients de downmix, chez Dolby, sont consolés par deux profils. A la base, il n'y avait qu'un seul profil, avec des coefficients bruts de -3 / -4,5 / - 6 dB pour le canal central et -3 / -6 / -∞ dB pour les canaux arrières. Maintenant, le profil Extended Bitstream Information (BSI) permet des étapes plus fines (+3 / +1,5 / 0 / -1,5 / -3 / -4,5 / -6 / -∞ dB) mais tous les équipements ne sont pas compatibles, en particulier les plus anciens.

Sans une information précise, il est conseillé de suivre la norme ITU-R BS.775-2  soit -3 dB pour le canal central et les canaux arrières.

Notons que, lors de la mesure de Loudness original, en multicanal, les canaux arrières subissent une pondération de + 1,5 dB. Cette pondération ne s'appliquera pas lors de la mesure du Loudness de la réduction stéréo.

 

3-5 Calibration

Il est nécessaire qu'un visualiseur respecte un minimum de règles. 

Illustration 12: Descriptions des tests à effectuer pour vérifier le bon fonctionnement d'un visualiseur EBU R128 (Source: Documents EBU)

Évidemment, les test doivent être reproduits plusieurs fois et la réponse doit être identique à chaque test.

Un signal de 1 kHz à -18 dB FS doit être lu à -18.0 LUFS sur le visualiseur (ou +5 LU sur l'échelle EBU Mode relative). Il est important que le signal soit précisément à 1 kHz car à la différence d'un SPPM, un visualiser en mode EBU tient compte de la fréquence. De plus, il est également nécessaire qu'il soit en phase sur les deux canaux. Si le signal est présent sur seulement un des deux canaux, le visualiseur de Loudness montrera -21 LUFS (ou +2 LU).

Nota: le canal LFE n'est donc pas inclus pour l'instant. Néanmoins s'il est inclus dans la mesure, il est recommandé d'appliquer un gain de +10 dB sur celui ci afin de correspondre à son niveau réel de diffusion chez le consommateur.

 

3-6 Moniteurs

Le document EBU Tech 3276-E nous donne deux équations selon qu'on soit en écoute à deux canaux ou bien en écoute multicanal. Celle ci définit le réglage des enceintes de monitoring à l'aide d'un bruit rose pleine bande (2.0) ou sur la plage de fréquence 500 – 2000 Hz (multicanal), envoyé dans les enceintes au niveau d'alignement (donc -18 dB Fs RMS). Le résultat sur un décibel-mètre pondéré doit donner 85 dB A SPL en système 2.0 et 78 dB C SPL en multicanal. La pondération sera donc en courbe A pour la stéréo et en courbe C pour le multicanal, en réponse lente dans les deux cas.

Dans la mesure où le - 23.0 LUFS est environ 3 LU inférieur au niveau d'alignement des programmes actuels, il faut s'attendre à une habitude consistant à remonter le niveau d'écoute. Si cela peut être fait temporairement, cela ne doit pas devenir permanent.

 

3-7 – Cas particulier des publicités, trailers et programmes très courts

Ces programmes sont ceux qui recueillent le plus de critiques concernant le niveau sonore perçu. Dans plusieurs pays, des lois ont été mises en place afin de remédier à cela. Certaines ont entériné l'application de la norme R128 comme c'est le cas en France depuis Janvier 2012 (via la CST RT017 v 3.0.2).

Ces programmes étant très courts, la mesure du LRA ne convient pas, car le calcul est basé sur des blocs trop « grands » par rapport à la durée du programme (Short Term Loudness, soit 3 secondes). Il sera alors utilisé les mesures de MLK et/ou SLK. Ceci est particulièrement valable pour les programmes de moins de 30 secondes. Une valeur maximum de + 8 LU (-15 LUFS) pour le MLK et une valeur de +3 LU (-20 LUFS) pour le SLK ont été considérées comme les limites du Loudness.

En France, les valeurs de SLK sont tolérées jusqu'à -20 LUFS pour les programmes de moins de deux minutes et le programme ne peut en aucun cas dépasser le – 23 LUFS.

 

3-8 – Programmes musicaux et programmes de niveau faible

Les programmes de niveau faible peuvent volontairement avoir une valeur inférieur à – 23,0 LUFS, pour des besoins créatifs. Dans ce cas, il conviendra de parfaitement renseigner les métadonnées afin que le programme arrive jusqu'à la diffusion sans être modifié.

Dans le cas des programmes musicaux, malgré le fait qu'il puisse sembler naturel qu'un concert de musique actuelle sonne plus fort qu'une quatuor de musique de chambre, aucune dérogation à la norme n'est prévue afin de ne pas ouvrir à nouveau la porte de la guerre au niveau sonore.

Le public est toujours à même de modifier à sa convenance le niveau sonore d'écoute (ce qui est sensiblement différent que d'être obligé de le baisser pour ne pas être agressé par le niveau sonore).

 

3-9 Divers détails pratiques

a- L'EBU a designé un logo qui annonce la compatibilité avec R 128.

Les fabricants peuvent utiliser ce logo pour indiquer la compatibilité avec le « mode EBU », sous certaines conditions.

b- Il faut mettre en avant la conséquence directe de R128: l'oreille redevient un outil pour le mixage ! Mixer à l'oreille redevient possible, pourvu que les éléments du programme soient correctement normalisés et, surtout, que les enceintes soient réglés avec un niveau de volume fixe correspondant à une valeur d'environ 82 dB SPL (système 2.0).

c- Il est conseillé de bien régler les niveaux des sources ainsi que des moniteurs dès le début et de ne plus les toucher. La tendance consistant à monter le niveau au cours d'un programme est une habitude à perdre.

d- Il en va de même pour l'habitude d'avoir un compresseur sur la sortie monitor (CTRL Room) et si un tel compresseur est placé sur la sortie Master, il est utile de le régler pour une compatibilité avec la norme et de pouvoir le désactiver.

 

4- Conclusion

Jusqu'à présent, on normalisait les crêtes et c'était le niveau d'intensité, le Loudness, qui variait d'un programme à l'autre. Cela obligeait l'auditeur a modifié en permanence le volume de son récepteur.

De plus, la dynamique était souvent ce qui pâtissait le plus de cette situation.

Illustration 13: Différence dans les faits entre la situation avant et après l'arrivée de la norme EBU R128 (Source: Documents EBU)

Avec R128, c'est l'inverse: les crêtes peuvent varier. La dynamique nécessaire au programme est préservée. C'est le Loudness qui va etre identique, c'est à dire, le niveau de perception du programme, d'un programme à l'autre.

Cela ne signifie pas pour autant que le Loudness sera le même tout au long du programme, bien au contraire ! De même; cela ne signifie que tous les éléments individuels d'un programme (musique, ambiance, dialogues, bruitages) doivent être au même niveau.

Pour clôturer, il me semble important de rappeler un fait en filigrane tout au long de cet article: il n'a pour but que de décrire la recommandation EBU R128 et sa transcription ITU BS.1770. En France, les recommandations (c'est à dire: « vous devriez faire comme çà ») en question ont été traduites dans une recommandation technique de la CST qui équivaut à une loi (c'est à dire: « on te demande pas ton avis, tu VA faire comme çà, sinon c'est la fessée... »), la CST RT017. J'ai décrit ici et là quelques indices sur les différences mais toutes n'y sont pas. Heureusement le document RT017 est disponible gratuitement via internet (actuellement en version 3.0.2) sous format PDF... Je ne peux que conseiller à tous les mixeurs de le lire précisément, sachant que rien n'empêche un diffuseur de durcir encore plus ce cadre ! De quoi ne plus pouvoir les voir en peinture …

Sur ce dernier bon mot absolument déplorable, je vous remercie de m'avoir subi jusqu'ici et vous donne rendez vous au prochain article de l'insecte du son ! Krr !

Lu 18330 fois
Plus dans cette catégorie : « Les Microphones