La dynamique et les métadonnées

Les 3D

C'est aux laboratoires Dolby que nous devons les plus grandes innovations audio que le cinéma a connu ces 30 dernières années. En une génération nous sommes passés du son analogique mono au 7.1 numérique et l'aventure ne fait que commencer. L’expérience acquise dans les studios et les salles commerciales sert aujourd’hui de cadre de développement pour les techniques de transfert sur les supports vidéo grand public et pour le traitement du signal dans les équipements de nos home-cinémas. Toutefois, derrière ces innovations se cache une philosophie pas toujours très bien comprise par l’utilisateur.

Les films, dans leur immense majorité, sont d’abord enregistrés puis mixés pour être diffusés dans les salles, avant d’être diffusés à la télévision ou transcrits sur un support vidéo pour un usage privé. Selon Dolby et quelques autres, les studios et les salles commerciales ont un énorme avantage sur les installations privées : c’est la salle elle-même. Dans un environnement silencieux, équipé de gros amplificateurs, avec des enceintes performantes, on peut reproduire sans peine toute la plage dynamique d’un film, depuis le murmure chuchoté à l’oreille jusqu’au tremblement de terre. En revanche, toujours selon Dolby, un home cinéma est par définition ou par expérience, une pièce bruyante aux parois minces, équipée d’un écran plat et de mini enceintes, entourée de voisins à l’affût du moindre bruit. Cette vision réductrice est sans doute vraie sur un plan statistique même si, à mon sens, il ne s'agit pas véritablement d'un home-cinéma. Alors, la question que Dolby se pose, est : « comment allons faire entrer toute la dynamique d’un film dans cette pièce ? ».

Une réponse parmi d'autres, est de permettre au récepteur de modifier les caractéristiques dynamiques du programme sonore pour compenser les déficiences de la pièce, ce qui se conçoit parfaitement pour un usage domestique de la télévision. Une dynamique réduite permet d’entendre autant les sons faibles que les sons forts, sans fatigue ni risque d’incommoder le voisinage. Cette option est beaucoup moins justifiée pour un HC installé dans une pièce dédiée. L’inconvénient majeur étant d’oblitérer d’emblée toute chance d’obtenir chez soi le même son que dans une grande salle.

Afin de ménager toutes les sensibilités et pouvoir faire face aux différentes situations, il est prudent de présenter cette fonctionalité comme une option accessible à l'utilisateur, mais non obligatoire. Modifier la dynamique directement sur le support figerait cette dernière, ce qui n'est évidemment pas souhaitable. La transformation doit donc s'opérer à la lecture sur le décodeur. Alors comment des directives spécifiques à un programme, peuvent être interprétées à volonté par l'ensemble des décodeurs? Parmi les étapes du processus d’élaboration d’un DVD ou BluRay, le report ou "mastering" consiste à copier la bande originale vers le nouveau support. Durant cette opération, on introduit des informations supplémentaires dans le flux de données numériques qui contient le programme sonore. Ce sont les metadonnées (metadata en Anglais). Ces informations serviront à piloter les caractéristiques dynamiques de votre récepteur ou votre préampli. Les métadonnées contrôlent la normalisation des dialogues (DialNorm), la plage dynamique (DRC) et la réduction automatique des canaux (Downmix). Commençant toutes par la même lettre, l’ensemble des métadonnées Dolby s’appelle les 3D. Notons que les métadonnées sont réservées à un usage domestique. Elles n'existent pas sur la bande son originale et les salles commerciales les ignorent.

Il faut aussi saluer les laboratoires Dolby pour avoir su imposer une certaine rigueur dans le traitement du son au cinéma, à travers plusieurs normalisations indispensables. Pour chaque film estampillé Dolby, le producteur s’engage par écrit, à respecter la charte de qualité qui accompagne la licence. Cette charte indique les méthodes et les procédures à suivre pendant l’enregistrement, le mixage, le report et la duplication de la bande son. Elle stipule également que ces opérations doivent être effectuées dans un studio (on dit un auditorium) dont les équipements et l’acoustique répondent à un cahier des charges fixé par Dolby.

Pour comprendre comment fonctionnent les métadonnées, il faut s’attarder quelques instants sur le traitement du signal en studio. S’appuyant sur une ébauche fournie par la SMPTE (1), Dolby a élaboré un codage numérique du son multicanal nommé AC-3. Ce codage est décliné en plusieurs versions pour le cinéma (Dolby Digital), la télévision HD et les DVD. Les différentes versions de l'AC-3 ne sont pas interchangeables car le flux varie de l’une à l’autre. Le codage s’effectue en 24 bits dont 20 seulement sont utilisés pour l’audio. La résolution finale offre une plage dynamique de 105dB.

Sur une échelle numérique, le niveau maximal correspond à 0dB FS. (FS signifie Full Scale ou pleine échelle). L’échelle en dB FS ne concerne que les signaux présents dans la partie numérique du traitement du signal. Dès qu’on quitte le domaine numérique on change de décibels et de référence. 0dB FS est le niveau le plus élevé possible sur le DVD, le plus faible étant -105 dB FS. La correspondance entre les dB FS et le niveau d’écoute en dB SPL n’est pas fixée. Elle dépend du type d’application, des procédures et pour le grand public, du choix de l’utilisateur.

Le niveau sonore dans la salle

En 1983, Tomlinson Holman (inventeur de la charte THX), fut invité par l’AES à faire une démonstration des techniques utilisées pour la bande son du film Starwars devant plus de1000 professionnels au Ziegfield Theater à New-York. Pour l’évènement, les ingénieurs de Dolby avaient peaufiné durant 2 jours, la calibration du système de diffusion avec une référence à 85dB SPL. A la fin de la séance, Holman a demandé : « qui parmi vous a trouvé le son trop fort ? » 4 personnes ont levé la main. « Qui a trouvé le son pas assez fort ? » Personne n’a bougé. « Qui a trouvé le niveau correct ? » Toute la salle a levé la main.
Avec un niveau moyen de 85dB au milieu de la salle, les dialogues semblent naturels avec un excellent rapport signal/bruit et une réserve de puissance confortable. Depuis, cette démonstration, de nombreux essais, menés dans divers pays ont confirmé ce niveau comme étant optimal pour le cinéma. La norme SMPTE RP 200 (2002) précise la relation entre +4dBu et le niveau d’écoute à 85dB SPL.

Quand le son numérique est arrivé au cinéma en 1993, Dolby a fixé le niveau de référence à -18 puis à -20dB FS, c'est à dire 20dB en dessous de la limite physique. Pour toutes ces raisons, la plupart des auditoriums et des salles de cinéma est aujourd’hui calibrée avec -20dB FS = +4dBu = 0dB VU = 85dB SPL.

Remarque : Certaines procédures Européennes fixent la référence à 83dB, selon que le bruit rose est filtré ou non et qu’on place la référence à -18 ou -20 dB FS avec 0dB FS à 103 ou 105dB SPL (EBU R68, EBU 3276, CST).

La normalisation des dialogues

Le niveau de référence à -20dB FS n’est qu’un niveau d’alignement, c'est-à-dire un repère servant à régler toutes les machines. Au-delà de cette référence, l’ingénieur du son conserve toute sa liberté pour placer les sons au niveau qui lui semble le mieux approprié pour la scène qui se déroule devant lui. Il gardera à l’esprit que tout cela reste très encadré et il devra se servir des instruments de contrôle dont il dispose sur sa console pour maintenir un niveau cohérent durant tout le mixage.

Les normes sont faites pour que tout le monde roule du même coté de la route sans dépasser une certaine vitesse. Mais au cinéma comme ailleurs, il y a des petits malins qui ne respectent pas les règles. Nonobstant les recommandations précédentes, il arrive que des producteurs demandent à l’ingénieur du son de « charger » la bande son avec un niveau supérieur à la norme. C’est le cas notamment pour les bandes annonces et les publicités doivent se démarquer du spot précédent et retenir l'attention du spectateur en un temps très court. Le problème, c’est que les autres en font autant et on arrive vite à une course aux décibels qui sème le désordre et fatigue les spectateurs.

Dans le même esprit, le report (mastering) n’est pas toujours exécuté dans le respect des normes et les caractéristiques de la bande son du DVD sont parfois assez éloignées de celles du mixage original. Dolby résout le problème en proposant un dispositif qui maintient l’écoute à un niveau uniforme quelque soit le niveau enregistré sur le support ou les conditions d’écoute.

Parmi tous les sons contenus dans un film, les dialogues sont ceux auxquels nous sommes le plus habitués, notamment en termes de niveau sonore. Les professionnels de la vidéo ont déterminé que les dialogues doivent rester en dessous du niveau de référence. Pour THX et DTS, le niveau moyen des dialogues se situe à -27dB FS, tandis que Dolby le désigne à -31dB FS.

La normalisation des niveaux, ou DialNorm, telle que Dolby l’a imaginée, est un contrôle automatique du volume basé sur le niveau moyen des dialogues. Le système a été développé pour la télévision où les programmes publicitaires sont fréquents et les chaînes toutes différentes. Le processus consiste à appliquer une atténuation automatique au programme pour qu’il soit toujours reproduit au même niveau. La détection intervient uniquement sur les dialogues mais le contrôle agit sur l’ensemble du programme sonore. Par convention, la plage d’atténuation s’étend de 1 à 31 décibels.

Il faut donc savoir à quel niveau se situent les dialogues pour un film donné. Heureusement, ce n’est pas à l’utilisateur de le déterminer. La détection intervient en studio, après le mixage. On mesure le niveau moyen des dialogues durant un intervalle de temps qui est fonction de la durée du film (publicitaire, bande annonce, long métrage). Ce type de mesure, très répandu dans les études environnementales, s’appelle niveau équivalent ou Leq. Ici, contrairement au niveau d’écoute, la mesure du Leq est pondérée sur une bande étroite, correspondant au spectre de la parole et à la sensibilité de l'oreille. Au début, Dolby utilisait une pondération A, mais l’expérience a montré que le comportement de l’oreille est mieux traduit par une courbe CCIR 468, relevée de 5,6dB de manière à croiser la courbe A à 0dB à 2 kHz (Leqm), le "m" signifiant "movie". Les relevés s’opèrent dans l’auditorium à l’aide d’un enregistreur spécial, suivant une procédure interne complexe (Dolby ref 737). L'appareil prélève le signal pour tous les canaux (sauf le subwoofer) à la sortie du processeur d'écoute, avant les égaliseurs et les amplificateurs.

Le niveau Leqm comparé à la pleine échelle (0dB FS), devient le paramètre de normalisation de l’encodeur AC-3. Si par exemple, on mesure -17,6dB, l’ingénieur du son règle la normalisation sur l’encodeur à -18dB. Ce paramètre est ensuite traduit en un mot de 5 bits intégré dans les métadonnées. Chez l'utilisateur, le contrôle automatique de volume est programmé pour atténuer les dialogues de 31dB moins la valeur du DialNorm.
L’atténuation n’est pas gérée directement par le décodeur AC-3. Ce dernier se contente d’envoyer une information de commande au contrôle de volume du préamplificateur. Dans l’exemple ci-dessus, la valeur du DialNorm lue par le décodeur va donner l’ordre d’atténuer de 31–18 = 13dB, ce qui aura pour effet de ramener les dialogues à un niveau effectif moyen de -17,6 -13 = -30,6 dB FS.
Imaginons maintenant qu’une bande annonce ou une publicité arrive avec des dialogues à -7,2dB FS. Le DialNorm sera à -7 d’où une atténuation de 31 – 7 = 24dB et un niveau des dialogues ramené à -7,2 – 24 = -31,2dB FS. Si le niveau moyen des dialogues avait été à -31dB dès le départ, aucune atténuation n’aurait été appliquée. Dans tous les cas, le programme est bien lu à -31dB (+/- 0,5 dB), comme le préconise Dolby.

A gauche, 4 programmes avec des niveaux de dialogues différents. A droite, les mêmes programmes corrigés avec DialNorm. Les repères correspondent à l'échelle numérique FS.
Les couleurs représentent le niveau sonore dans la pièce.

La normalisation des dialogues engendre inévitablement une perte de niveau. L'atténuation étant globale, le niveau maximal de 105dB diminue d'autant. Si les métadonnées contiennent un paramètre de normalisation à -4dB (DialNorm = 27), le niveau maximal diminue à 101dB.

Le niveau d’écoute est fonction du niveau réel des dialogues, du DialNorm et des réglages de l’utilisateur. Auditivement parlant, -31 dB FS est une valeur faible en regard des autres standards. THX recommande un DialNorm à -27dB. Les films encodés pour le format THX seront donc atténués de 31 – 27 = 4dB. DTS n'utilisait pas les métadonnées jusqu'à une époque récente. Depuis 2007, DTS-HD Master Audio inclut la normalisation des dialogues (valeur par défaut -31dB FS).
En activant la fonction Dialnorm vous serez généralement amené à augmenter manuellement le volume d’écoute d’au moins 4dB et parfois davantage si vous voulez recréer les conditions d’une vraie salle de cinéma. Certains constructeurs appliquent (probablement sur une recommandation de THX), une élévation automatique de 4dB au décodeur AC-3 pour obtenir un niveau équivalent entre Dolby, THX et DTS. L'avantage du DialNorm est de ne plus avoir à changer le réglage du volume une fois que vous avez trouvé le niveau d'écoute idéal pour votre pièce. La normalisation des dialogues ne compresse pas le signal.

La correction tonale

La normalisation des dialogues ne sait qu’atténuer le niveau d’écoute. Par exemple, si les dialogues ont été enregistrés à 0dB VU pour être écoutés à 85dB SPL en salle, ils seront atténués de 11dB par le DialNorm, ramenant le niveau d’écoute à 74dB SPL. En diminuant le niveau d’écoute, la sensation subjective de la balance tonale change, surtout pour les sons faibles, à cause de la non-linéarité de l’oreille. Les constructeurs commencent à s’intéresser à ce problème en proposant diverses solutions :

- Le "Dolby Modeler" qui est une extension du contrôleur de niveau "Dolby Volume", corrige la réponse en fréquence en fonction du niveau sonore. Cette option ne fait pas partie des métadonnées, c'est une fonction du récepteur. On la trouve sur certains téléviseurs seulement.

- Le système "Loudness Plus" de THX restore la balance tonale et modifie l'équilibre des niveaux entre la façade et les canaux surrounds.

- Le Dynamic EQ du constructeur Audyssey applique une correction progressive qui consiste à relever les graves et les aiguës au fur et à mesure que le niveau global diminue.

 

La compression DRC

Quand on évoque le son d'un home-cinéma de salon, il n’est pas rare d’entendre dire que les dialogues sont trop faibles ou que les effets sont trop forts, parfois même les deux en même temps. Alors on joue constamment sur le volume avec la télécommande pour régler l’écoute à un niveau confortable. Ceci est en contradiction totale avec l’anecdote précédente où un niveau moyen à 85dB faisait l’unanimité dans la salle. En réalité, le niveau n’est pas plus fort chez soi. Est-ce à dire que nous avons une perception différente ? Le matériel ne serait pas adapté ? L’acoustique de la pièce serait en cause ?

C’est un peu tout ça, mais la vraie réponse à ces questions commence par savoir ce que l’on cherche exactement. Si votre ambition est de regarder les programmes télévisés ou des films sur un écran plat dans votre salon, la remarque est parfaitement justifiée, le son est trop fort. Les artifices électroniques proposés par Dolby, THX, Audyssey et quelques autres sont alors très utiles. Ils sont là pour adapter l’écoute à votre environnement et vous faire profiter pleinement du programme diffusé. Dans cette optique, vous n’avez même pas besoin de correction acoustique passive. Mais vous ne pourrez jamais simuler le son d’une salle de cinéma.

A l’opposé, si vous cherchez l’émotion que le réalisateur a voulu transmettre, ressentir l’impact d’un « gros son », profiter de toutes les subtilités contenues dans le programme sonore ou plus simplement retrouver l’ambiance sonore d’un vrai cinéma, ce qui suit n’est pas pour vous.

L'usage domestique de la télévision doit permettre d’entendre à la fois les sons faibles et forts sans avoir à agir sur le volume sonore. Mais il est difficile de faire cohabiter un murmure à -45dB et une explosion à -5dB dans une pièce à vivre. Le murmure disparaît dans le bruit résiduel ambiant et si l’explosion ne réveille pas les voisins, les dialogues sont trop faibles et demandent une extrême attention pour être correctement perçus, d'où une fatigue auditive.

Le problème étant de réduire l’écart d’amplitude entre les sons faibles et forts, il n’existe pas d’autre solution que de restreindre la dynamique. Inévitablement, on touche à l’intégrité du programme sonore en introduisant des distorsions, mais c’est le prix à payer et il faut l’accepter. On sait réduire la dynamique en la compressant.

Le compresseur de dynamique est un appareil qui atténue les crêtes de modulation au dessus d’un seuil, réglable ou programmé à l’avance. (Il ne faut pas confondre avec la compression de données qui optimise les données numériques pour économiser l'espace disponible sur le disque). On peut affiner l’effet recherché et réduire encore la dynamique en adjoignant au compresseur un autre appareil capable d’amplifier les sons faibles en dessous d’un autre seuil également préréglé. Là, il s’agit d’un expanseur. En rapprochant les deux circuits on obtient l’outil idéal pour contrôler toute la plage dynamique.

Dolby a développé un système assez classique qui regroupe les deux fonctions. Appelé « Dynamic Range Compression » ou DRC, il permet de spécifier un taux de compression qui pourra être activé par l’utilisateur pour répondre à une situation donnée. L’ingénieur décide du taux de compression à l'encodage (Dynamic Range ou DynRng), en fonction de la destination du produit. Six options sont proposées: Film light, Film Standard, Music Light, Music Standard, Speech (Dialogue) ou None (Aucun).

Les fonctions DialNorm, DRC et Downmix sont interdépendantes. La valeur du DialNorm est un paramètre crucial car elle place le niveau moyen au centre d’une plage dynamique où le DRC n’agit pas. Cette plage est située en dessous du seuil de compression et en dessus du seuil d’expansion. Les modes Speech, Film Standard et Music Standard établissent une bande de +/- 2,5dB autour du niveau de DialNorm, où le DRC reste transparent. La bande neutre s’élargit à +/- 10dB pour les modes Music Light et Film Light.

Il faut noter que le signal n’est pas compressé à l’encodage. La valeur du DynRng est une métadonnée qui va activer le compresseur de dynamique à la réception du programme si l’utilisateur a choisi ce mode. Mais on peut très bien profiter du DialNorm par exemple, sans activer le DRC.

Mode nocturne
Pour ne pas déranger les autres occupants de l’habitation, la plupart des préamplis possèdent un mode nocturne (Night Mode). Cette fonction n'a rien à voir avec les métadonnées. Il s'agit d'un limiteur qui rabote les crêtes de modulation au desus d'un seuil préréglé. Les caractéristiques sont spécifiques pour chaque appareil. Dans tous les cas, le son n'a plus rien de commun avec la bande originale (il vaut mieux aller se coucher)

La réduction automatique Downmix

Dernière métadonnée de la liste, la fonction Downmix permet de rééquilibrer les niveaux entre les canaux pendant la réduction automatique du format de diffusion, depuis l’écoute en 5.1 jusqu’à la monophonie en passant par la stéréo, sans intervention manuelle particulière. Le DRC est automatiquement activé pour éviter les surcharges de modulation.

Les métadonnées ont été crées pour la diffusion des programmes en télévisés diffusés en haute définition. Jusqu’à présent, seuls quelques pays dont les Etats-Unis profitent de cette technologie.

Equipement Ecran plat Projection Projection
Local Pièce à vivre Dédié sans traitement Dédié avec traitement
DialNorm Indispensable Utile Optionnel
DRC Indispensable Optionnel A proscrire
Downmix Optionnel Inutile Inutile

Usage des métadonnées en fonction de la configuration

Un home-cinéma c'est comme une voiture de sport. Pour profiter des performances il faut avoir non seulement la voiture mais aussi la route (le matériel et la pièce). Activer le DRC, c'est brider le moteur.
Restez cohérent. Si vous n'avez pas l'environnement adéquat, contentez vous d'un matériel modeste.

(1) SMPTE (Society of Motion Picture and Television Engineers). Organisation professionnelle à l'origine de la plupart des normes et des recommandations techniques des métiers du cinéma et de la télévision. Créée en 1916 et présente dans 64 pays.