Qui sommes nous ?

Nous sommes un collectif d'audioprothésistes, depuis 2006, qui cherchent à améliorer l'image et la diffusion de connaissances techniques à destination des audioprothésistes ! L'exercice nous permet de commenter et également d'améliorer nos connaissances. Il faut bien le dire ce blog bouillonne de bonnes idées !!!! Si toi aussi tu as envie de partager ton expérience ! Alors rejoins nous !

3 – Le Saint Graal de l’audioprothèse : mesurer le RSB en sortie d’aide auditive – Test 3… et fin !

Suite du premier et second billet. Troisème test après celui ci et celui ci.

Troisième (et dernier) candidat : WIDEX UNIQUE 440 Fusion

Il s’agit d’un RIC pile 312, successeur du circuit DREAM 440. Le Widex UNIQUE marque une rupture technologique qui semble importante chez ce fabricant puisque l’on a pour la première fois une détection automatique de 9 environnements sonores différents, le choix entre la transposition fréquentielle « classique » ou une duplication (mais ce n’est pas le sujet qui nous intéresse aujourd’hui), 4 convertisseurs A/D  de 18bits, soit pas loin de 108dB de dynamique, un seuil d’enclenchement possible vers 5dB SPL (étonnant), etc… Surtout, et là c’est plus surprenant (pour les audios habitués à la marque) et intéressant, l’amélioration de l’intelligibilité ne repose pas uniquement sur un réglage de « réduction du bruit » à proprement parler, mais plusieurs réglages de détection et et d’amplification de la parole (Speech Enhancer), dont un mystérieux réglage « Audibilité ». Widex explique d’ailleurs que les patients agissant sur le potentiomètre à la hausse, agiront spécifiquement sur ce réglage de renforcement de la parole.

Alors ? Marketing tout ça ou réelle avancée technologique ?

Appareil testé sur un pré-réglage avec méthodologie propriétaire Widex, base audiogramme KS100. Le LTASS de la voix moyenne (65dB SPL) a été mis sur une cible sur DSL 5.0a, base insert et RECD HA1, comme pour les autres appareils testés, afin de tous les comparer dans des conditions de réglages similaires. Pour ce Widex UNIQUE comme pour les autres appareils testés, les rapports de compression sont restés tels que préconisés par leurs fabricants respectifs.

Laisser faire les automatismes ou « fixer » l’appareil dans un mode particulier ?

Connaissant depuis un petit moment déjà l’anti-larsen Widex, on pourra certes lui reprocher plein de choses, mais en aucun cas d’inverser la phase du signal. C’est le genre d’effets collatéraux que l’on découvre en faisant ce genre de tests… Donc, et contrairement aux autres fabricants testés précédemment, j’ai décidé :
  • dans un premier temps, de le tester en désactivant la détection automatique d’environnements, d’activer le micro directionnel fixe avant, mais en activant ce fameux réglage « d’audibilité » au maximum; donc en fixant l’appareil dans une sorte de mode « parole dans le bruit », avec anti-larsen actif
  • puis de le tester dans un second temps « tel quel », sans activer, désactiver ou sur-activer de traitement du signal particulier, ni désactiver la reconnaissance automatique d’environnements. Je ne l’avais pas fait lors des essais précédents, les extractions n’auraient alors pas été possibles à cause de l’anti-larsen par opposition de phase des deux appareils précédents testés (et dans une moindre mesure, de la détection automatique des environnements)
  • enfin, de comparer les deux conditions afin de savoir si ce réglage d’extraction de la parole améliore réellement le RSB

Les résultats « visuels » à RSB -5dB :

U440_AUDIB_SNRm5 Les connaisseurs de Widex reconnaitront le fonctionnement typique de la marque : la réduction du bruit et/ou l’activation du mode directionnel est très progressif, mais nettement plus rapide que sur les modèles précédents où il fallait 10 à 15 secondes à l’appareil pour activer ses divers systèmes. Sur cet UNIQUE440, c’est beaucoup plus rapide : environ 7 secondes. Les crêtes semblent bien préservées tout au long de la mesure, n’oublions pas que nous sommes à un RSB de -5dB en entrée.

On écoute ?

 Voici d’abord ce que le micro de référence capte en cabine à RSB -5dB :

REF_CABINE_SNRm5Et ce que ça donne à l’écoute en cabine, sans appareil (il y a de l’ambiance !) :

 Et voici avec l’appareil, toujours à RSB -5dB en entrée, réglage d’audibilité au maximum (c’est l’écoute du visuel avec les zones temporelles entourées) :

On sent très nettement, entre la 12ème et la 15ème seconde, la réduction du bruit. La parole devient alors de plus en plus audible. Est-il plus probable que ce que l’on entende soit dû à l’enclenchement du microphone directionnel et/ou à l’activation d’un réducteur de bruit ? Nous verrons cela plus en détail par la suite… Suspenssssssss inssssssoutenable !!

 Des chiffres (réglage « Audibilité » maximum + micro. dir. fixe avant) :

Juste à noter, un détail : les extractions des signaux issus du Widex UNIQUE 440 ne peuvent se faire qu’avec un alignement par l’enveloppe des signaux SpN, SmN, mSmN et mSpN. Impossible d’avoir des extractions correctes en alignant par la structure fine… à l’inverse des deux autres fabricants testés ! Mystère… U440_audMax_micDir On trouve sur ce graphique :
  • ce que capte en parallèle le micro de référence (lignes 10 à 14)
  • les Leq en dBA(30s) respectifs du signal et du bruit (colonnes D et E)
  • lignes 3 à 7 : les extractions avec le UNIQUE 440
  • colonne C3<–>C7 le RSB réel en entrée (issu du micro de réf.)
  • colonne I3<–>I7 le RSB en sortie de l’appareil
  • colonne J17<–>J21 la différence entre le RSB à la sortie de l’appareil et le RSB réel en cabine (mic. de réf.)
La parole est très stable (delta de 3,5dB de RSB +10 à RSB -10), l’appareil « n’emporte pas » le signal avec le réducteur de bruit (ça arrive des fois…). Le bruit varie de 20 dB en entrée pour 17dB en sortie. L’amélioration du RSB par l’appareil est d’environ 8dB dans ce mode (colonne I – colonne C) de +10 à à 0dB en entrée. Les deltas sont en J17<–>J21. On est donc face à un appareil très performant dans le bruit, présentant un très efficace mode directionnel, mais couplé à un système qui semblerait préserver (donc différentier ?) le signal utile. Comment mettre en évidence ce système ? S’agit-il plutôt d’un réducteur de bruit ou d’un détecteur/expanseur de parole ?

« Audibilité renforcée » : réglage utile ou gadget ?

Vous vous demandez certainement (comme moi…) si le fait de déplacer un curseur de deux crans va réellement agir sur l’audibilité de la parole. Et quelle est l’action de ce réglage ? Une réduction du bruit dans les silences de la parole permettant une émergence du signal utile (comme le Bernafon) ? Ou au contraire une détection des indices vocaux et une amplification renforcée sélective ? Une seconde série de mesure à été refaite :
  1. comme la précédente, audibilité max et mic. directionnel avant fixe
  2. réglage « standard » en mode automatique total
AN : le réglages sont très reproductibles, puisque les deux mesures faites en « audibilité max. + mic. dir. » sont quasi-identiques sur les deux mesures.

Réponse avec l’analyse LeqA des divers signaux extraits sur les 30 dernières secondes (de 40″ à 1’10 ») du mix signal + bruit (donc après l’activation du microphone directionnel qui a dû se produire dans les 7 premières secondes) : U440_STDvsAUDIB Les réglages des gains sont les mêmes dans les deux conditions :
  • Il n’y a quasiment pas de différence entre les niveaux du bruit (lignes E3/E7 et E11/E15) avec le réglage d’audibilité « moyenne » ou « maximum » : le LeqA(30s) évolue dans les deux conditions de 63 à 80dB environ de +9 à -11dB de RSB(in). Le réglage d’audibilité n’est donc pas principalement un réducteur de bruit.
  • Par contre, on constate un net renforcement du signal de parole entre les deux conditions : +3 à +5dB en « audibilité maximum » par rapport au réglage « standard » (lignes D3/D7 par comparaison à D11/D15).
C’est donc l’action de ce réglage qui explique l’amélioration du RSB entre les deux conditions. Il ne s’agit donc pas d’un réducteur de bruit, mais bien d’une détection spécifique et d’un renforcement du signal de parole.

Voici la progression du UNIQUE 440 :

U440_auto_audib L’amélioration du RSB est de 4dB environ en « mode auto » (courbe orange), ce que bien des fabricants aimeraient atteindre en mode directionnel fixe et RB au maximum… On notera juste que l’appareil, dans les deux modes de réglages va privilégier le confort plus que l’efficacité sous RSB 0dB.

Par contre en mode d’audibilité renforcée (courbe rouge), l’appareil regagne encore 4dB de RSB, ce qui donne au total une amélioration du RSB de 8dB entre 0 et +10dB et 6 à 7dB environ entre -10 et 0dB. Impressionnant tout de même, c’est le maximum mesuré jusque là entre les divers fabricants en monaural…

Au-delà de la performance pure, certains appareils performants atteignent quasiment ce niveau, mais avec une qualité sonore du signal utile très « artificielle » (je présume, hachée par les compressions). Ici, et c’est souvent le cas chez Widex, la qualité du son reste très bonne. Les extractions (en sortie de l’appareil) donnent un signal de parole clair, comme ici extraite des 30 dernières secondes d’un mix RSB -5dB : Ca fonctionne quand même bien la méthode de séparation des signaux par opposition de phase… Merci Messieurs Hagerman & Olofsson ! Il faudra un jour que je vous fasse écouter les extractions de parole de 7 fabricants testés, en blind test : nous aurons des surprises dans la qualité sonore… C’est un aspect des choses ignoré, mais qui doit avoir aussi son importance…

Emergence du message

Widex dit utiliser un SII « HD » dans son algorithme. Je ne connais pas de norme SII « HD »… mais la bonne vieille (et toujours en vigueur) norme ANSI S3.5-1997 qui définit le calcul du SII, auquel, c’est vrai, on peut ajouter un calcul (non encore normé) du SII bilatéral. Bref… améliore t-il le SII ? On peut présumer que oui puisque la parole est détectée et amplifiée sélectivement.

Voici ce qui se passerait si l’appareil n’améliorait pas le RSB (situation encore fréquente ces dernières années…) : U440_SNR0in_SNR0out RSBin_equal_RSBout_corr_KS100Le SII avec l’appareil serait d’environ 0,38 à RSB 0dB.

Et avec l’appareil, dont l’amélioration RSB est d’environ 7,2dB à RSB 0dB en entrée : U440_SNR0in_SNR7out U440_SIILe SII passe à 0.61 (SII calculé sur base audiogramme KS100, signal à l’avant et bruit arrière, par le logiciel SIP-Toolbox). On obtient une émergence améliorée de 23% du signal par rapport au bruit. Pour vous donner une idée : un SII de 0,33 est suffisant à un normo-entendant pour répéter 50% des mots de listes dysyllabiques, et 0,4 pour répéter 90% des phrases d’un test (selon la norme SII). Vous noterez au passage qu’il serait impossible d’obtenir un SII supérieur à 0,8…

Conclusion(s)

  • Le réglage « Audibilité » de ce Widex UNIQUE 440 fonctionne bien comme un détecteur et « expanseur » de parole
  • absence de potentiomètre standard, remplacé par ce réglage croissant de détection de la parole améliore progressivement de RSB; vous êtes gêné pour comprendre dans le bruit = appuyez sur la touche + !!!
  • les meilleurs résultats dans le bruit (+8dB de RSB) sont obtenus avec un programme spécifique, en désactivant le détecteur d’environnements, en mode directionnel fixe et audibilité au maximum, comme sur les modèles testés précédemment. La directionnalité fixe potentialise toujours nettement l’action des algorithmes.

Fichiers et extractions

Pour les incrédules de la méthode (ou des résultats obtenus), ce que je peux comprendre, vous trouverez à l’adresse de ce lien tous les fichiers de calibration des micros de référence (Behringer) et de mesure (DPA) ainsi que les enregistrements avec ce UNIQUE 440 FS, découpages des séquences et extraits correspondants de parole et bruit à chaque RSB. Condition de test : Audibilité max. et mic. dir. fixe avant.

Formule d’usage : l’auteur signale un lien d’intérêt avec le fabricant testé, puisqu’il a accepté de me prêter cet appareil avant sa commercialisation officielle, mais pas dans le but de ces tests. Le « risque » est relativement important pour Widex qui a décidé de prêter quelques appareils à des fins comparatives à des patients déjà équipés de technologies évoluées. Si les résultats n’avaient pas été à la hauteur, je n’en aurait peut-être pas parlé, et chacun se serait fait son idée. Ce n’est pas (à mon humble avis), le cas. Comme d’habitude, n’y voyez aucune malice (et d’ailleurs, j’arrête la diffusion publique de ces tests, en attendant que les facs, en études multi-centriques, prennent le relai avec du matériel professionnel en cours d’installation), ne déduisez rien d’absolu au vu des seuls résultats. L’appareillage auditif est une alchimie entre l’audioprothésiste, son patient et la technologie la plus appropriée qu’ils choisissent en commun.

Ce troisième test conclura donc les billets sur l’analyse du RSB en sortie d’aide auditive par la méthode de séparation des signaux de Hagerman & Olofsson. Elle est cependant incomplète, car potentiellement améliorable par une même mesure, mais en binaural. Il est intéressant (j’espère) et rassurant de voir que la technologie a énormément évolué ces dernières années. Ce que nous ressentons vaguement dans les dires de nos patients est une réalité tangible et mesurable avec quelques appareils récents.

J’ai entendu parler (mais je ne lis pas ce genre d’articles) qu’un journal de consommateurs assimilait les appareils auditifs à des biens électroniques de grande consommation, et dont le prix ne pouvait que baisser dans le temps, comme tout bien électronique qui se respecte… C’est bien vite oublier que toutes ces améliorations sont le fruit d’algorithmes de plus en plus sophistiqués associés à l’évolution de composants ultra-spécifiques à l’appareillage auditif. Ces derniers ne sont qu’au service des premiers. Car, quelle est la différence entre l’appareil d’il y a 5 ans, et par exemple ce Widex UNIQUE 440 ? Pas le micro directionnel… Cette recherche, je veux bien le croire, nécessite des moyens colossaux en temps, en cerveaux et technologie.

Les appareils de 2015 n’ont finalement plus grand chose en commun avec ceux de 2005, mais présentent des spécificités importantes de comportement inter-marques.

Entre celui qui privilégie le confort avec une diminution de sonie importante, mais en conservant toujours un RSB amélioré, celui qui mise sur un « nettoyage » du bruit dans les silences de la parole, celui qui va chercher à améliorer la perception des crêtes afin d’améliorer le RSB, et que sais-je encore, les différences de fonctionnement sont très variées et très différentes selon les fabricants.

Pouvons-nous penser un seul instant que tous pourraient s’adapter indifféremment à n’importe quel patient ? Certainement pas…

Malheureusement, la seule lecture des fiches techniques ne nous renseignera pas sur leurs manières d’agir. Et certaines fois, la présentation de ces technologies se résume à une soirée promotionnelle…

A nous d’être curieux 😉

« Send out the Signals… Deep and Loud ! »*

Et pour finir cette série de 5 billets sur une note légère, un peu de musique avec un très beau morceau de Peter Gabriel (* paroles de la chanson) qui colle bien au sujet : Signal to Noise ! Où même le bruit peut devenir signal, si on le décide…     Encore merci à Franck et François-Xavier !

2 – Le Saint Graal de l’audioprothèse : mesurer le RSB en sortie d’aide auditive – Mise en place d’un test

La technique d’extraction du signal et du bruit à la sortie d’une aide auditive proposée par Hagerman&Olofsson est fréquemment utilisée en mastering audio, sous le nom de « NULL TEST« . Elle permet entre autres, de quantifier la perte de qualité liée à un ré-échantillonage ou compression « lossy » du signal d’origine. Comme nous l’avons vu précédemment, Miller (2013) utilise 4 signaux pour l’extraction et l’estimation du facteur de qualité de cette extraction, permettent une analyse du RSB assez robuste à la sortie d’une aide auditive :
  • (+S+N) + (+S-N) extrait le signal (+6dB)
  • (+S+N) + (-S+N) extrait le bruit (+6dB)
  • et (+S+N) + (-S-N) extrait… rien !, ou plutôt devrait tendre vers -∞ mais en réalité « doit être 20dB plus faible que le plus faible extrait des deux précédents (parole ou bruit) ». C’est un critère de qualité/d’erreur décrit dans la thèse de Taylor (voir post précédent).
La difficulté majeure de ce type de test vient de l’alignement de tous ces signaux : plus elle est rigoureuse et précise, plus le calcul fera « disparaître » les signaux se retrouvant en opposition de phase. Et ça se joue quelques échantillons près (un échantillon avec une fréquence d’échantillonnage de 96kHz dure… 10μs !).  Les éléments technologiques présents dans les aides auditives actuelles rendent très difficile cet alignement :
  • les anti-larsen notamment ont tendance à inverser la phase du signal pendant le test, et bien sûr, jamais au même moment…
  • Les systèmes « d’aide à la décision » analysant également la scène sonore ont tendance à ne jamais faire exactement la même chose au même moment entre deux mesures.
  • Enfin, entre autres joyeusetés, les appareils peuvent présenter un phénomène de « Time shifting », c’est à dire qu’ils allongent (certes de quelques pouillèmes de sec…) le signal, mais jamais non plus aux mêmes endroits des tests…
Bref, une solution s’impose : se méfier des anti-larsen ( = les désactiver) et fixer les appareils dans un mode programme défini. De là à dire qu’il faudrait faire pareil avec les appareils de nos patients… mais ça pourrait des fois se discuter pour des raisons de qualité sonore ! Alignement précis = élimination précise de la parole ou du bruit = besoin d’un enregistrement « HiRes », c’est à dire en 96kHz/24bits = de bon gros fichiers .wav pour 45′ environ d’enregistrement (RSB testés +10/+5/0/-5/-10dB, pour 4 configurations différentes +S+N, -S-N, +S-N et -S+N). Bien aligner ensuite tout le monde, pour bien éliminer ce qui doit l’être. Exemple avec l’ISTS et l’IFnoise à RSB -4dB :   SpN+SmN   Le signal +S+N à l’écoute :   Le signal +S-N à l’écoute (aucune différence à l’oreille) :     Ici deux fichiers +S+N et +S-N se retrouvant strictement synchronisés (configuration Hagerman & Olofsson de 2004), l’addition des deux va donner la parole + 6dB, le bruit en opposition de phase dans +S-N, s’annulant avec +S+N :   Parole extraite   Pour ceux qui voudraient écouter le signal extrait (extraction médiocre… non conservée) ci-dessus, non trafiqué, même si ça a un petit côté magique :     Et si vous ne me croyez pas, vous pouvez télécharger ces +S+N et +S-N et les fusionner dans Audacity, vous retrouverez bien la voix extraite ! Et si vous avez tout suivi, et que vous maîtrisez un peu Audacity, avec ces deux extraits, vous pourriez même, connaissant le RSB à l’entrée (-4dB), reconstituer le RSB à la sortie de ce Widex Dream Fashion 440 😉

Allez, je vous aide ! On n’a rien sans rien…

Cet alignement est très long et fastidieux. Si vous avez eu le courage de tenter la manip ci-dessus, vous avez dû comprendre. Et encore, les signaux sont déjà alignés et tous prêts à l’emploi !

Une solution :

mise en place par Franck LECLERE et avant lui, l’institut Fraunhofer (François-Xavier NSABIMANA), a été un traitement par lots (batch processing) des divers fichiers enregistrés à divers RSB avec « alignement automatique », basé soit sur la structure fine, soit l’enveloppe du signal (au choix, selon les appareils) :   Décomposition signal_Seewave   Pourquoi des signaux mesurés à la sortie de certains appareils s’alignent mieux avec l’enveloppe (une majorité) ou d’autres par la structure fine ? cela reste un mystère…

Donc pour faire court, on obtient :
  • un « train » de 4 signaux à 5 RSB différents (20 combinaisons),
  • enregistrés en 96kHz/24bits,
  • qu’il va falloir découper,
  • puis aligner entre eux afin d’en extraire la substantifique moelle (y’a pas que l’audio dans la vie… vous lisez trop le blog !) :
  TrainH&O C’est un algorithme Matlab qui va découper ce train, aligner les signaux (ici sur l’enveloppe) et extraire signal et bruit. Il ne restera plus qu’à recalculer le RSB à la sortie.

Conditions de test :
  • Signal ISTS, bruit IFnoise (même densité spectrale de niveau), téléchargeables sur le site de l’EHIMA
  • Appareil réglé selon méthodologie fabricant, dont le niveau de sortie pour l’ISTS à 65dB SPL d’entrée a été fixé dans un coupleur 2cc sur cible DSL 5.0a (EAR + RECD HA2) sur la base d’un audiogramme normalisé KS100 (sans inconfort entré)
  • Cabine : TR 0,23s et BDF 27dBA
  • HP : 1 à l’avant (émission de l’ISTS) à 0.70m et 2 à l’arrière (émission de l’IFnoise) à 135 et 225°, à 1,5m chacun
  • Etalonnage du niveau d’émission de l’ISTS par sonomètre au niveau du micro de l’AA par Leq 30s en dBA; étalonnage identique pour l’IFnoise
  • Emission du signal numérisé par lecteur Cowon PLENUE 1 relié en optique au convertisseur D/A d’un ampli NAD C375 BEE
  • enregistrement en fond de coupleur HA1 ou HA2 par un microphone DPA 4061 en 96kHz/24bits, en acquisition sur enregistreur Roland R26
  • enregistrement en parallèle (micro de référence) par un microphone BEHRINGER ECM8000 afin de vérifier la RSB à l’entrée
  • Calibration des deux microphones avant enregistrements par calibrateur B&K 4231
  • Découpage, extraction et calcul du RSB à la sortie de l’AA par un code Matlab sur les 30 dernières secondes de chaque mesure (afin de laisser les algos se stabiliser) pour l’enregistrement de l’appareil, et pour l’enregistrement de référence
Le premier testé sera un appareil qui ne prêtera pas à polémique, puisqu’il n’est plus diffusé : un Widex Inteo 19, de 2006 si j’ai bonne mémoire. Il y a eu 3 générations de circuits après cet appareil (puces Mind, Clear puis Dream).

On obtient, par exemple à RSB -10dB, la séparation des signaux :   Exemple fig extraction RSB-10dB   Voici sa progression :   IN19   Pas d’amélioration du RSB, sauf à -10dB (lissage du bruit par la compression WDRC, j’en avais parlé dans l’article précédent) et détérioration (légère) du RSB à +10dB par l’effet inverse (= un lissage des crêtes du signal utile).

On retrouve tout à fait les résultats décrits par Taylor & Johannesson en 2009 (le Widex Inteo avait un temps de retour variable, comme le lièvre, mais plutôt long) :   Capture   Par la même occasion, si vous avez eu la patience de lire la thèse de Miller (2013), les résultats étaient quasi identiques avec son successeur, le Widex Mind 440. Je précise : les autres fabricants ne faisaient pas mieux à l’époque, voire plutôt moins bien.   A suivre…

La troisème dimension (presque…)

En audioprothèse, nous nous sommes longtemps contentés d’un affichage en « 2D », c’est à dire Gain/Fréquence ou Niveau de sortie/fréquence. Exemple classique:

noeud 6K

Les spécialistes reconnaitront le type de mesure… et son erreur !

Ces représentations graphiques étaient valables pour des signaux stables en intensité à une fréquence donnée, c.à.d. ne fluctuant pas au cours du temps. Mais intégrer la « troisième dimension », le temps, ne rendrait pas les choses très faciles non plus; nous aurions accès aux variations temporelles, en perdant les informations spectrales (ici le famous fabricant 1…):

AC9_ISTS_OVG_RSB0_temporal domain

L’utilisation de la parole comme signal de test, fluctuant en intensité, change la donne. Pour s’en convaincre, la mesure du premier graphique à été réalisée avec un signal de parole (l’ISTS). Ce signal, normalisé, présente des fluctuations d’intensité de plus de 30dB. La mesure du graphique ci-dessus également avec le même signal. Nous avons donc deux représentations différentes qui présentent toutes deux des informations intéressantes, mais chacune incomplète.

Comment concilier spectral et temporel en quelque sorte ? Comment obtenir la classique représentation spectrale mais en intégrant le traitement des fluctuations d’intensité par l’aide auditive ?

Les fabricants de matériel de mesure nous apportent aujourd’hui des réponses à ce problème.

En reprenant le premier graphique: la mesure de l’amplification (en gain) par l’oreille nue donnera un gain identique (le REUG) quelle que soit l’intensité de la voix « normale ». La voix « moyenne » (prenons 65dB SPL) peut fluctuer entre 40 et 65dB SPL à 2KHz:

Capture2

L’ensemble Torse/Tête/Pavillon/Conduit présente une amplification linéaire pour les niveaux d’entrée, c’est à dire que les niveaux faibles (vallées) et plus forts (crêtes) sont autant amplifiés les uns que les autres. Donc toujours dans cet exemple à 2KHz, la dynamique d’entrée du signal est de 25dB, en fond de conduit on retrouve bien la même dynamique, on peut considérer que l’on a un facteur de compression de 1.0 (amplitude du signal d’origine = amplitude en fond de conduit).

Dans quel cas aurions-nous une altération ? lors du passage dans une aide auditive, typiquement.

Imaginons une aide auditive dont un point de compression serait à 30dB SPL et un second à 55dB SPL, linéaire de 30 à 55dB SPL et de facteur de compression 1.3 de 55 à 75dB SPL par exemple, lorsque que l’on utilise des systèmes capables de vous donner le gain pour des régions spécifiques en intensités (les percentiles d’intensité), on obtient non pas la première courbe, mais celle-ci (attention ça pique !):

ISTS Gain Fonix

Difficile à croire, mais cette mesure de gain est faite avec le même signal que le premier graphique (l’ISTS), mais passé par une aide auditive, puis analyse séparée pour chaque percentile d’intensité.

La courbe verte est le « LTASS », niveau à long terme moyenné sur le temps de mesure (20 sec. ici). Cette courbe verte correspond à la courbe rouge du premier et du troisième graphique.

La courbe jaune correspond à l’amplification des 30èmes percentiles, c’est à dire en gros, des niveaux environ 18dB moins élevés que le niveau moyen (le LTASS), ou autrement, des niveaux dépassés 70% du temps, que l’on nomme habituellement « les vallées » de la parole.

La courbe bleue correspond à l’amplification des percentiles 99 d’énergie, les niveaux les plus élevés de la voix moyenne, ses crêtes, les niveaux atteints et dépassés 1% du temps.

Que constate t-on: que les vallées de la parole sont plus amplifiées que ses niveaux moyens (en rouge et en vert) que ses crêtes. Si on considère la parole « non-traitée » (comme les oranges après récolte…) comme ayant une dynamique standardisée de 30dB à laquelle on attribue un facteur 1.0 de compression (non comprimée donc), dans ce cas mesuré ici par la chaîne de mesure, les « vallées » ont été remontées et les crêtes, lissées. Sa dynamique de sortie est donc réduite (ce qui est quand même bien dommage pour de la voix moyenne) et donc à la louche elle subit une compression de 1.3 jusqu’à 2KHz dans l’exemple mesuré par la Fonix ci-dessus.

En connaissant donc le gain appliqué à chaque tranche de percentiles d’énergie, vous pouvez alors avoir une action sur une zone de compression bien définie:

  • l’expansion et son mystérieux et jamais renseigné point d’enclenchement…
  • la première compression en entrée (premier TK) qui peut être trop haut (vallées échappant à l’amplification) ou trop bas (plus rare) comme l’exemple ci-dessus
  • la seconde compression au TK mal placé (quasiment pas réglable) ou tranche trop comprimée (percentiles 65 à 99 trop comprimés)
  • Un AGCo trop bas et qui lisse tout
Beaucoup de chaînes de mesure vont aujourd’hui vous donner ces renseignements soit sous la forme d’un gain appliqué à chaque niveau (la Fonix ci-dessus), soit sous la forme d’un taux de compression:

Capture

Ce taux varie de zéro et quelques (rarement sous 0.8) si les niveaux bas ne sont pas assez amplifiés (le plus souvent) à plus de 1 (rarement plus de 1.8) si les niveaux de crête ou les niveau moyens (percentiles 65) sont réduits par la compression ou un système de compression en sortie très agressif et très (trop ?) bas.

Il est très hasardeux de comparer ces taux compression de dynamique aux taux de compressions affichés dans les logiciels de réglage, bien qu’il y ait évidemment un rapport. Sachez cependant qu’il ne serait pas franchement normal de trop comprimer la dynamique de la voix moyenne.

On est donc passé en quelques années d’un affichage en « 2D » (gain ou niveaux de sortie moyen/Fréquence) à un « presque 3D » dans le sens où les systèmes de mesure nous donnent une indication sur la façon dont le signal a été traité au cours du temps, dans ses fluctuations.

Une petite gymnastique de lecture et d’interprétation, mais au final, beaucoup plus d’informations à disposition et d’actions possibles sur les réglages.

Une dernière chose: bonne année 2014 à tous !

Ratio de compression in-vivo

Une difficulté rencontrée lors de la mesure in-vivo est de faire coïncider le ratio de compression affiché par le logiciel de réglage et celui, réel, mesuré in-vivo. Si vous effectuez une mesure in-vivo avec un signal de balayage, une mesure à 65 puis à 75dB SPL vous donnerons une lecture quasi-immédiate de CR par un calcul simple. Mais il est bien dommage, voire impossible d’effectuer aujourd’hui une MIV avec un tel signal. L’ISTS est pour cela hautement recommandé. Le problème avec un signal de parole, fluctuant par nature, est qu’il devient très délicat d’associer le CR affiché et l’action (bonne ou mauvaise) de ce taux de compression sur le signal vocal. En effet, si le logiciel dit CR=4.0 entre 65dB SPL et 80dB SPL, malgré l’énormité d’une telle compression, il y a de fortes chances que la « voix moyenne » (65dB SPL) et même la voix forte (75dB SPL) ne soient pas impactées par cette compression. Pourquoi ? car même à niveau « moyen », l’énergie par bande de tiers d’octave d’un signal vocal ne dépasse pas 60dB SPL, y compris en crêtes: Une telle compression (CR de 4.0 à TK=65dB SPL) n’aurait quasiment aucun effet à voix moyenne et à voix forte. Les points d’enclenchement nécessaires à une action sur un signal de parole sont situés entre 30 et 60dB SPL. Cette difficulté de relier « CR affichés » et « CR réels » lors de l’utilisation d’un signal vocal avait été exploré dans ce très bon article. Mais cela n’empêche pas la dégradation de la dynamique vocale par les compressions de bas niveau d’entrée et autres expansions dont on ne sait en général pas où elles agissent… Si l’on considère la dynamique vocale non-déformée, on retrouvera une valeur d’environ 30dB, correspondant au LTASS +12dB et LTASS -18dB:

Tout facteur de compression excessif positionné à un TK de 55dB SPL aurait tendance à dégrader les crêtes du signal, et à l’opposé, tout TK de la première compression, situé trop haut (ex: 40dB SPL) aurait pour conséquence de ne pas amplifier les « vallées » de la parole. De retour du congrès, j’ai donc découvert la possibilité, en temps réel, d’analyser la facteur de compression sur la dynamique de la parole, le tout in-vivo. Du percentile 30 (vallées) au percentile 99 (crêtes), la chaîne de mesure Affinity calcule en temps réel le ratio de compression, et dans chaque bande de tiers d’octave vous affiche le CR:

Cette analyse est intéressante pour les niveaux élevés de parole (ex: 75dB SPL) et peut être effectuée, au choix, sur la dynamique perc. 30/perc. 99 ou bien perc. 60/perc. 99:

Le taux de compression utilisé reflète donc le traitement du signal appliqué mais peut prendre des valeurs inhabituelles: par exemple, un CR de 0.85 reflèterait un premier TK trop haut, une mauvaise amplification des informations de faible niveau (percentiles 30). Un ratio de compression de 1.0 indique donc une dynamique vocale préservée (30dB en entrée, 30dB en sortie amplifiée). Il va sans dire que cet affichage est TRES intéressant lorsque l’on utilise des appareils censés utiliser un « gain linéaire flottant ». S’il est vraiment « linéaire » ce « gain flottant », la dynamique vocale ne devra pas être détériorée, donc Affinity devrait afficher un CR de 1.0, ou en tout cas décorrélé du CR « classique » ou « affiché »…

Cette fonctionnalité est présente dans la version 2.3 d’Affinity et peut être réalisée in-vivo (exemple précédent) ou au coupleur (exemple ci dessus). Elle correspond à la norme IEC 60318-5.

Je trouve cette mesure extrêmement utile: au-delà de s’assurer qu’il y a « in-vivo » une amplification suffisante, nous allons pouvoir vérifier qu’il n’y a pas de dégradation de la dynamique du signal et que les algorithmes nous assurant un traitement spécifique pour la parole, le font bien.

Pour les puristes, cette version d’Affinity, par simple clic-droit sur le « label » (niveau) de la courbe dans le bandeau de droite, vous donne accès à l’analyse statistique complète des niveaux d’énergie du signal au cours du temps. Preuve en est que nous avons à disposition de bien beaux joujoux !

On progresse toujours…

Expansion, piège à sons…

Vous m’excuserez de ne pas vous parler du Sonalto qui bientôt occupera 95% des posts de ce blog, ni de programmation neuro-linguistique, de consolidation de chiffre d’affaire, etc. Je suis juste un audio…   Je pense que si on devait décerner la palme du réglage  » presse-bouton  » dans le genre  » j’appuie-là-et-on-verra-si-c’est-mieux-le-bruit-de-vo’t-frigo-dans-une-semaine-ma-bonne-dame « , l’expansion serait en bonne position de tête ! Avec l’apparition des méthodologies non-linéaires et surtout des anti-larsen performants, il a été possible en théorie (et en pratique), de donner une amplification très importante à faibles niveaux d’entrée. Tellement importante que le risque, comme tout excès, est de noyer le malentendant dans un « brouillard bruité » du type « la VMC, le frigo et la route à 200m ». Alors l’idée géniale a été de proposer un « réglage » d’expansion. Quand je dis réglage, je suis gentil, car souvent on a on/off, 0/1 et même 0/1/2/3 (soyons fous !) ou alors des trucs non traduits du type soft sounds reducer (là forcément en anglais ça marche mieux). En plus, pour faire simple intellectuellement, off ou 0 ça veut dire au max = le plus de sons faibles ! Techniquement, l’expansion consiste à ne pas amplifier (ou moins amplifier) les sons en dessous d’un certain niveau sonore:

Principe du réglage d'expansion

Effectivement, ça permet aussi de ne pas trop faire entrer dans le circuit divers bruits de fond électroniques tel que celui du microphone.

Le problème comme toujours avec ces systèmes fermés, c’est que le fabricant (pas tous, mais la majorité) ne communique pas sur le fameux « TK bas » ou premier point d’enclenchement de cette expansion. Sur le graphique ci-dessus, il est fixé à 25dB HL, donc on peut imaginer que c’est le seuil audiométrique qui va dicter ou non son enclenchement. 25dB HL, déjà c’est un peu flou: à quelle fréquence ? pareil à toutes les fréquences ? (ça a son importance), dans quelle mesure ? (plus rien après le TK ou un peu moins de gain?) etc. Tout ça pourrait nous intéresser, nous, les audios (et oui, on ne vend pas encore du Sonalto !). Pourquoi ? d’abord par curiosité intellectuelle, et puis même bas, qui dit que ce « TK bas » n’a pas d’influence sur la perception de la parole ?

Si on prend un appareil lambda par exemple, on visualise très légèrement moins de gain à 45dB SPL d’entrée qu’à 65dB SPL:

On peut penser que le point d’expansion est « quelque part » entre 45 et 65dB SPL que que sous ce point d’expansion, le facteur de compression est faible (pas trop de différence entre les deux courbes de gain). On reste quand même dans le flou.

Prenons une autre aide auditive avec un point d’expansion inconnu et un comportement sous le TK lui aussi inconnu. La courbe suivante de niveau de sortie in-vivo (REAR) est mesurée pour un signal d’entrée vocal de 65dB SPL, avec un réglage linéaire sous le premier TK (expansion off ou 0):

REAR 65dB SPL ISTS EXP "off"

Sachant que l’appareil est réglé de façon quasi linéaire, la zone verte claire représente la ligne de crêtes (percentile 99: dépassé 1% du temps) et en partie basse la ligne de « vallées » (percentile 30: dépassé 70% du temps). Cette analyse percentile est censée représenter (si l’appareil est linéaire) une dynamique comprise entre -18 et +12dB par rapport au spectre à long terme (courbe verte). Avec expansion off, c’est bien le cas: la dynamique dans la partie bas niveau (vallées) est respectée. Si par contre on met le réglage d’origine, à savoir expansion on, donc réduction de gain dans une mesure inconnue, sous un niveau inconnu, on obtient:

REAR 65 expansion ON

Evidemment, les niveaux de crêtes ne sont pas altérés, le spectre à long terme quasiment pas (ce qui aurait pu), mais les bas niveaux « bavent » (je n’ai pas d’autres mots). La dynamique inférieure n’est plus de -18dB mais descend à -25dB, voire plus.

Qu’est-ce que cela signifie ? Les informations de parole passent en permanence au-dessus et en-dessous d’un TK bas vraisemblablement fixé trop haut (45dB SPL ?), et surtout, sous ce TK, la compression est forte. L’appareil s’arrête quasiment sous ce point d’expansion. Ce qui partait à l’origine d’une volonté de protection contre une amplification trop importante des sons faibles à un impact sur la parole à niveau normal: les informations de bas niveau sonores de la parole ne passent plus au-dessus du seuil. On imagine pour une émission plus faible, à 55dB SPL par exemple.

Pour le malentendant, cela se traduit par par des micros ruptures d’amplification selon que l’énergie est sur ou sous ce fameux point d’expansion. Certains le décrivent comme de brusque éclats (augmentation soudaine) de voix.

Même à niveau « normal » (63dB SPL par exemple), le spectre moyen de la parole n’atteint jamais 63dB SPL, mais souvent nettement moins:

Niveaux par bandes d'octaves de la parole à 63dB SPL

L’addition des bandes donne 63dB SPL, mais dès 1600Hz, on passe sous 45dB SPL. Certaines informations de la parole sont extrêmement faibles, et on ne parle que de niveau normal… Les points d’expansion se doivent donc d’être judicieusement placés, et surtout, le comportement de l’appareil sous ce point est important. Il est dommage que les logiciels et les fabricants ne nous donnent pas plus d’informations sur ces aspects.