Catégorie : Expansion

Non, ce n’est pas un billet tiré de « philosophie magazine » ou inspiré par une quelconque mouvance « mindfulness », quoique… allez savoir !

Je reviens à nos moutons audioprothétiques, et là normalement vous allez vous dire que le rédacteur de ce billet est totalement obsédé par ce sujet de… dynamique vocale !

Oui, je vais encore aborder le sujet car il me semble important, et même crucial de connaître l’état de cette dynamique à l’entrée de l’aide auditive, et à sa sortie. Surtout à sa sortie : une aide auditive qui lisserait les contrastes temporels de la parole par une compression trop importante des « crêtes » ou une amplification exagérée des « vallées » en réduirait le contraste dynamique, réduisant du même coup les chances du malentendant appareillé d’extraire ces informations dans un bruit par nature souvent plus stationnaire que la parole.

Mais puisque l’on parle de « dynamique », encore faut-il savoir de quoi on parle. Nous avons coutume de considérer que la parole a une dynamique de 30dB environ. C’est à dire que si l’on mesure son niveau par bandes de 1/3 d’octaves à long terme (ex : 1 minute), les crêtes se situent 12dB au-dessus de ce niveau à long terme, et les vallées 18dB en-dessous, environ.

Cette dynamique de 30dB n’est pas « plaquée » autour du LTASS, elle est le résultat d’une analyse statistique de la distribution des niveaux du signal. Dans le cas de la chaîne de mesure in-vivo, pendant toute la durée de la mesure, la chaîne de mesure « classe » les différents niveaux atteints, et va se retrouver avec une courbe de distribution suivant une loi normale (cas de l’ISTS), ou de densité autre (signaux non vocaux par exemple), et dont les niveaux se répartissent autour d’un niveau médian (= dépassé, ou non-atteint 50% du temps), et qui indique, par exemple,  que 10% du temps le signal  a atteint tel niveau, que 30% du temps il a dépassé tel niveau, etc.

C’est une donc ce que l’on appelle l’analyse percentile du signal. Je vous laisse imaginer le calcul processeur nécessaire pour faire cela « à la volée », mais aussi en parallèle compiler et classer sur le long terme (ex : pendant 45 secondes).

Classer les différents niveaux va permette au final de définir la « dynamique » que nous avons l’habitude de visualiser entre le 30ème percentile (dépassé 70% du temps = les vallées) et le 99ème percentile (dépassé 1% du temps = les crêtes). Et on a coutume de dire que cette dynamique 30/99ème percentile est de 30dB.

Oui… mais pas tout à fait ! Ce calcul est totalement dépendant de la fenêtre temporelle d’analyse du signal. Si on voulait utiliser une analogie avec la photographie ce serait le temps d’ouverture de l’objectif de l’analyseur. En photo, plus longtemps vous « ouvrez », plus vous faites entrer de photons sur le capteur. Si vous êtes en plein jour et que vous ouvrez très longtemps, votre photo sera « cramée », c’est à dire blanche…

La chaîne de mesure fonctionne un peu comme un objectif : elle prendra une « photo » selon un temps d’ouverture, et le résultat de l’analyse percentile (et donc la dynamique du signal) sera très dépendant de nombreux facteurs. Parmi ceux ci, il y a la résolution temporelle de la fenêtre de la FFT, et cette dernière peut avoir une influence sur la résolution fréquentielle de la mesure (voir plus loin).

Pour faire savant, si un signal est échantillonné à 44100Hz (Fs) et que la FFT est réalisée avec un bloc de 1024 échantillons (c’est à dire N = 1024 échantillons temporels, correspondant à une taille mémoire imposée par le matériel), la résolution temporelle sera de N/Fs = 1024/44100=23ms, et la résolution fréquentielle sera de Fs/N = 44100/1024=43Hz. N est toujours une puissance de 2 dans les analyseurs physiques. Le principe de la FFT (Fast Fourier Transform) utilisée, entre autres, dans nos chaînes de mesure est donc de prendre ces 1024 échantillons temporels de 23ms et 43Hz de « large » qui vont aller remplir la mémoire de l’analyseur pour ensuite passer dans un algorithme de calcul FFT. Si on voulait avoir une résolution temporelle de 1 seconde, il faudrait remplir une mémoire adéquate avec 44100 échantillons (dans ce cas, le nombre N d’échantillons temporels serait égal à la fréquence d’échantillonnage Fs).

Dans nos chaînes de mesure, il va y avoir, comme dans tout analyseur matériel, plusieurs limitations. L’une est la taille de la mémoire (qui limite le nombre d’échantillons à analyser), l’autre est la vitesse de transmission du port USB qui limite la résolution temporelle de signaux pouvant transiter vers le PC à des blocs de 46ms (donc impossible de faire transiter des informations plus fines en temporel). Ce n’est pas forcément un problème, car l’analyse idéale, définie par la norme IEC 60118-15 (qui régit l’analyse des signaux de mesure in-vivo), souhaiterait que la mesure in-vivo soit réalisée avec une résolution temporelle de 125ms. Mais c’est, pour l’instant, techniquement difficile, car pour y arriver il faudrait, au choix :

  1. diminuer la fréquence d’échantillonnage du signal, et donc sa bande passante (voir la suite)…
  2. ou alors, si on voulait conserver une fréquence d’échantillonnage de 44100Hz afin de ne pas perdre de bande passante mais garder une résolution temporelle de 125ms (0,125sec), effectuer 0,125ms x 44100Hz = 5512,5  blocs temporels pour le calcul de la FFT, soit 5 fois plus qu’actuellement (en fait, ce serait 2 puissance 12 ou 2 puissance 13 blocs temporels pour être exact).

Tout est une question de moyens financiers que l’on veut mettre dans du matériel possédant des capacités aussi importantes… Notez quand même qu’à l’heure actuelle, un matériel distribué en France par la société AURITEC, le Verifit2 d’Audioscan, permet une résolution temporelle de 128ms avec une bande passante (in-vivo et coupleur) de 16kHz, donc 4096 blocs temporels (32000Hz*0,128ms) pour le calcul de la FFT. Il s’agit d’une chaîne autonome (non reliée en USB au PC), tournant sous Linux, avec processeurs dédiés.

Si on applique cette méthode d’analyse idéale (norme IEC 60118-15), donc avec fenêtre de 125ms (donc N=Fs x 0,125ms = 5512,5), pour un signal (ISTS) émis à 65dB SPL, on obtient :

ISTS_30_99_125ms_65dB SPL

En observant l’analyse ci dessus, on constate bien que la dynamique entre les percentiles 30/99 est d’environ 30dB à 3kHz,et d’environ 20dB à 400Hz.

Mais si on avait analysé le signal avec une fenêtre de résolution temporelle 1 seconde (N=44100 échantillons temporels), pour un ISTS toujours à 65dB SPL, on aurait eu :

ISTS_1s

La fenêtre d’analyse étant plus grande, et si on suppose que les zones faibles (comme les fortes) du signal sont très brèves, elles ont été « diluées » en quelque sorte avec les zones moyennes (entre les percentiles 50 et 65), plus représentées statistiquement. La dynamique a été divisée par 2 (env. 15dB à 3kHz). La parole peut être considérée comme un signal stationnaire… (Citation de Franck L. 😉 ).

Poussons le raisonnement à l’inverse, avec une fenêtre de résolution temporelle de 5ms (de l’ordre du phonème, avec N=220,5 écantillons temporels) :

ISTS_5ms

La dynamique du signal passe à 30dB à 400Hz, et environ 37dB à 3000Hz. Mais surtout, vous remarquerez la perte de résolution fréquentielle  dans les basses fréquences. C’est mathématique : la durée de la fenêtre temporelle doit être au moins 5 fois plus longue que la période du signal à analyser : donc ici pour 200Hz, fenêtre temporelle minimale = 5 x (1/200Hz) = 0,025 = 25ms. La fenêtre temporelle de 5ms n’est pas adaptée à l’analyse de signaux de 200Hz, et pour être exact, cette résolution temporelle ne permet même pas une analyse correcte de signaux inférieurs à 900Hz car leur période (= 1/fréq) est supérieure à la résolution temporelle de la fenêtre d’analyse… ce qui veut dire en clair que nous n’aurons jamais accès à des événements brefs (impulsionnels), dans les graves tout au moins avec les méthodes de type analyse FFT utilisées actuellement sur nos chaînes de mesure. Mais d’autres méthodes existent pour ces événements impulsionnels, et peut-être les verrons-nous dans de futurs modèles de chaînes de mesure…

AN : avec une résolution temporelle de 23ms sur une chaîne de mesure, la plus basse fréquence analysable correctement est de 5/0,023 = 217Hz. On comprend mieux pourquoi l’ISTS a été créé avec des voix de femmes et un fondamental laryngé de 200Hz, et pas des voix d’hommes avec un F0 à 125 ou 150Hz…

Et enfin, ce que font nos chaînes de mesure avec une résolution temporelle de 46ms (2 blocs de 23ms moyennés = 2 x 1024 points moyennés) :

ISTS_65dBSPL_46ms
Vous remarquerez que la dynamique percentile 30<–>percentile 99 est un peu plus importante que celle du signal analysé en 125ms. Tout est relatif donc dans ce genre de mesures et d’analyse de la dynamique du signal…

Le facteur temporel d’analyse, qui découle donc de la fenêtre FFT (1024 échantillons sur nos chaînes de mesure), a donc des répercussions sur la lecture des mesures. La dynamique de la parole (ou d’un autre signal) est tout à fait relative, en fonction des paramètres d’analyse, souvent dictés par le matériel. Les audioprothésistes (les fabricants de nos chaînes de mesures…) sont face à un dilemme :

  • nous donner accès à des événements très brefs et potentiellement agressifs pour le patient, en lecture de crêtes, mais en perdant de la résolution fréquentielle et en sachant que ce n’est pas possible en basses fréquences (avec les méthodes d’analyse actuelles)
  • nous donner accès à la meilleure résolution fréquentielle possible pour les réglages en perdant en résolution temporelle, et donc en risquant de ne pas avoir la lecture d’événements potentiellement agressifs…
  • … je résumerais donc ce dilemme avec une maxime de Pierre DAC : « Plus je pédale moins fort, moins j’avance plus vite » !

Il y a donc un compromis dans la mesure, pour l’usage en audioprothèse, et qui va être :

  • de ne pas descendre sous quelques dizaines de ms afin de garder une bonne résolution fréquentielle (en BF),
  • d’aller au-delà de 125ms afin de visualiser l’effet des compressions sur le signal amplifié par la lecture de sa dynamique,
  • … mais tout en sachant que se rapprocher de 125ms permet une bonne résolution fréquentielle (idéale selon la norme)…
  • … donc de se situer dans une fourchette d’analyse 40 <–> 125ms… c’est justement celle choisie par les fabricants de chaînes de mesure !
  • … et tout cela dans la mesure du possible d’une chaîne de mesure reliée à un PC et qui est limitée par son port USB ne pouvant transmettre des segments de plus rapides que 46ms !

On peut imaginer dans un futur pas si lointain la possibilité  de se rapprocher des préconisations de la norme IEC de 125ms, avec un port plus rapide, voire un système autonome (chaîne de mesure ayant une fréquence d’échantillonnage plus importante que 44100Hz, avec processeurs dédiés à l’analyse et tournant sous son propre OS). Allez savoir, il est bien possible que ce soit dans les cartons…

Mais pourquoi tout ce cirque avec une analyse précise de la dynamique ?

A des niveaux « normaux » (efforts vocaux moyens), la lecture précise de la dynamique du signal amplifié est réellement utile, car elle peut être détruite par une compression trop importante qui en lisserait les crêtes, mais, c’est moins connu, également par une amplification trop rapide et importante des vallées (réduction de la dynamique par le bas). C’est ce qu’avait montré Holube en 2007 (interview pour Audiology Online de l’initiatrice de l’ISTS) :

 

 

TA_TR rapides

Le graphique de gauche montre le signal amplifié par une aide auditive à temps d’attaque (TA) et temps de retour (TR) très rapides. Les vallées, dès qu’elles faiblissent, sont amplifiées très rapidement; les crêtes, dès qu’elles apparaissent sont lissées très rapidement également. Il en résulte une très nette diminution de la dynamique par rapport à un système plus lent (graphique de droite). Pour aller plus loin, vous pouvez également consulter ce document très intéressant (enfin, je trouve !).

Attention donc : sur quelques appareils, nous avons encore indirectement la main sur ces facteurs temporels, par le choix (obscur, j’adore !) de la « typologie du malentendant » et notamment un fameux choix « dynamique ». Les connaisseurs de ces fabricants reconnaitrons de qui je veux parler…

Juste pour vous montrer ce que devient le signal extrait d’un RSB 0dB, d’un appareil que j’avais testé précédemment sur ce blog, avant son amplification, puis après (émission à 65dBA, fenêtre d’analyse IEC 60118, de 125ms) :

Dyn ISTS in SNR0Dyn_voix extr SNR0

La dynamique est réduite après amplification, au maximum, d’environ 5dB. Il y a donc un respect de la dynamique du signal, même en milieu bruyant. Ce n’est pas toujours le cas… (des noms ! des noms !). Ce n’était pas du tout le cas il y a quelques années, et c’est là que les choses ont beaucoup évolué, il faut le reconnaître. Notez au passage l’amplification du signal @ 3kHz = 28dB.

Voilà ce que subit le bruit avant et après amplification par le même appareil, extrait du même mix à RSB 0dB :

Dyn ISTSnoise in SNR0

Dyn_bruit extr SNR0

Le bruit n’a pas de dynamique (c’est l’IFnoise), ce qui rend d’ailleurs « l’audition dans les vallées du bruit » très difficile; sa dynamique n’est donc pas affectée… puisqu’il n’en a pas. Notez au passage l’amplification du bruit @ 3kHz = 22dB, alors que les deux signaux ont été émis strictement au même niveau (RSB 0dB) et ont la même densité spectrale de niveau. Le signal est détecté, traité et amplifié de manière sélective (+6dB d’amplification par rapport au bruit).

Imaginons maintenant que la dynamique de sortie du signal n’ait pas été respectée (écrasée), cette différence d’amplification entre le signal et le bruit aurait été réduite à néant, car nous l’avons vu, la dynamique du signal avait déjà été réduite de 5dB par les compressions déjà « douces » (CR env. 1.2); une trop grande compression (protection) de la part de l’audioprothésiste aurait encore réduit cette dynamique, lui faisant perdre ses quelques dB d’émergence.

On le voit donc, la lecture de la dynamique du signal est extrêmement importante. Son respect par les algorithmes de traitement du signal est crucial. Pour info, la plupart des chaînes de mesure utilisent résolution temporelle de 46ms, mais en « overlapping », c’est à dire en faisant se chevaucher plusieurs blocs temporels à 50%, arrivent à 92ms de résolution temporelle, et donc se rapprochent des 125ms de l’idéal standard (j’en avais déjà parlé dans un billet traitant des diverses constantes de temps des chaînes de mesure in-vivo). Vous pouvez accédez à cette fonction dans le paramétrage de vos chaînes de mesure.

Tout cela montre bien la subtilité de toutes ces analyses, mais nous fait aussi prendre conscience (attention : psychologie magazine !) que nous voyons le monde, en général, à travers… une fenêtre !

###############################################

Atelier informatique

###############################################

Pour ceux qui seraient intéressés, cette analyse percentile du signal est réalisable avec une fonction (script) écrite pour le logiciel R.

Ce programme a été écrit par Nathan D. Merchant pour accompagner leur article sur l’acoustique des habitats écologiques. J’en ai modifié le code source afin de l’adapter à l’analyse percentile du signal au audioprothèse. Vous pouvez, si vous le souhaitez, en modifier également les bornes percentiles (ici j’ai défini 30, 50, 65, 95 et 99, dans le fichier Viewer.R). Vous trouverez le script de cette version modifiée ici. Téléchargez les fichiers PAMGuide.R et Viewer.R et mettez-les dans un dossier (votre bureau par exemple). Ouvrez R et définissez ce dossier comme répertoire de travail, puis tapez les commandes suivantes :

source("/votre dossier de destination/PAMGuide.R")

Vous pouvez aussi, sans taper cette commande, accéder au menu « Sourcer fichier » dans R et sélectionner « PAMGuide.R », puis taper :

PAMGuide(atype="TOL", plottype="Stats", lcut=200, Hcut=16000, N=5512.5)

Cette commande déclenche une boîte de dialogue vous demandant de choisir un fichier .wav pour analyse. Cette dernière est effectuée en 1/3 d’octave (TOL), en bande passante de 200 à 16000Hz, et avec fenêtre temporelle de 125ms (N=5512,5). Le paramètre temporel N est fonction de la fréquence d’échantillonnage du signal à analyser : si vous avez 44100Hz de f.e., N=44100 x 0,125 =5512,5. Pour un signal échantillonné à 96000Hz, avec fenêtre d’analyse de 46ms, N = 96000 x 0,046 = 4416. Dans le cas où vous souhaiteriez avoir les valeurs en dB SPL (comme ici) et non pas en dB relatifs, utilisez le paramètre « calib=1 », puis définissez la sensibilité en dB du paramètre Mh en fonction de votre calibration (ici, un fichier .wav de calibration à 94dB SPL a servi de référence pour définir précisément Mh).

Par exemple pour une analyse de l’ISTS (fichier son téléchargeable sur le site de l’EHIMA), en dB absolus (et RMS = 65dB SPL) et fenêtre temporelle de 1 sec. :

PAMGuide(atype="TOL", plottype="Stats", lcut=200, hcut=16000, N=44100, calib=1, Mh=-3.4)

Et pour finir, l’analyse standardisée IEC 60118-15 en audiologie/audioprothèse, pour l’ISTS :

PAMGuide(atype="TOL", plottype="Stats", lcut=200, hcut=16000, N=5512.5, calib=1, Mh=-3.4, winname="Hann", r=50)

… suite de la première partie.

En reprenant l’exemple suivant :

Capture

 

Environ 30dB SPL de bruit de fond (EINLevel) à 3KHz peuvent-ils être considérés comme gênants pour ce patient ?

On peut penser (mais je n’en ai pas la confirmation) que lorsqu’un fabricant met un modèle sur le marché, de surcroît s’il est censé pouvoir s’adapter sur des surdités légères à moyennes, il connait les limites de BDF acceptables issues de la littérature. Enfin, on espère…

Une solution radicale pour se garantir de toute perception de BDF serait de placer le 1er TK en entrée assez haut, mais pas trop quand même car il y aurait un risque de sous-amplifier les zones failles de la parole; disons 30/35dB SPL. C’est étrange, en explorant les courbes entrée/sortie (si par chance vous les avez), c’est justement la limite très commune d’expansion !

Un seul fabricant, depuis fort longtemps s’est quand même aventuré à passer sous cette barre : Widex, depuis le premier Senso. Mais quand vous voulez amplifier des niveaux très bas (5 à 30dB SPL) pour éventuellement les faire émerger au-dessus du seuil, il va falloir énormément de gain (si le larsen vous le permet). Et donc vous pouvez amener par la même occasion le bruit de fond en même temps que l’information dans la zone audible. Je crois me souvenir que tout avait été pensé chez ce fabricant pour maintenir le niveau du BDF toujours sous le meilleur seuil, notamment par la mesure du « sensogramme » qui était (est toujours) quasi obligatoire, comme celle du larsen. Très rapidement, l’effet d’évent (et pas uniquement son seul diamètre) a été également mesuré afin d’estimer la limite basse de TK sans larsen et/ou sans risque de BDF perceptible dans les BF.

Bref, pour passer sous la barre des 30dB SPL en entrée sans craindre une perception de BDF avec une méthodologie d’amplification non-linéaire, il vaut mieux avoir confiance en sa technologie…

Macrae et Dillon ont établi des niveaux de BDF acceptables en fonction du gain apporté (donc en fonction du seuil d’audition) à diverses fréquences, et mesuré dans un coupleur HA1 (intra). Pour donner quelques exemples (mais vous pouvez les retrouver sur l’article téléchargeable de la première partie) :

@1KHz, de 0 à 50dB de gain : env. 17,5dB SPL

@250Hz, de 0 à 45dB de gain : env. 37dB SPL

@2KHz, de 0 à 60dB de gain : env. 13dB SPL

Attention : il s’agit de bruit de fond à l’entrée, comme vu dans la première partie. On constate une gêne survenant plus rapidement après 1KHz. Etrangement, la « tolérance » au BDF semblerait importante dans les BF, mais ces zones fréquentielles sont souvent masquées (et le BDF avec) par le bruit ambiant, la « rumeur ». Et d’autant plus  l’appareillage présente un évent : le bruit ambiant entrant par l’évent minimise la perception du BDF de l’appareil.

Je vous passe les calculs éprouvants des auteurs, mais je reprendrais le résumé de leur méthode de calcul du EIN acceptable en fonction de la surdité : considérant un seuil à une fréquence donnée, ce seuil doit être corrigé avec NAL (et oui, c’est Dillon quand même !). Attention, ici, c’est NAL « old school » = formule linéaire d’avant NAL-NL1, c’est à dire NAL-R.

On a :

 EINL = Max( HTL + MAP – CG – Corr – 15,EINL0 )   (1)

Et là, oui, c’est beaucoup plus clair n’est-ce pas ?

En fait, NAL ne fournissant pas de cibles de niveaux de sortie en dB SPL au tympan (REAR), contrairement à DSL, Macrae et Dillon on converti la perte auditive (HTL), en niveau au tympan. Ils ont donc pour ceci ajouté au seuil HTL, le MAP (qui est le niveau d’audition minimal mesuré en dB SPL au niveau du tympan), ce qui a converti en quelque sorte le seuil HTL en seuil SPL au tympan. Mais comme la valeur du gain (CG) est donnée dans le coupleur d’intra (le HA1), ils ont ajouté une correction (Corr) pour passer du coupleur au tympan. Pour les puristes, cette valeur de correction provient de diverses tables de conversion toujours utilisées et très souvent citées dans la littérature : les valeurs de conversions (ou fonction de transfert) de Bentler & Pavlovic, et leur pendant en champ diffus. Aride… mais sachez quand même que ces valeurs se cachent encore dans tous nos logiciels de réglages et jusque dans nos chaînes de mesure (tables 1 & 2). Et enfin, la soustraction de l’EIN tolérable (EINL0) donnant 0dB SL (Sensation Level).

Vous retrouverez dans l’article (Table 6.) les valeurs de l’EIN max. acceptable, en fonction du seuil d’audition pour chaque bande de 1/3 d’octave.

Ce qui est intéressant, c’est de pouvoir saisir ces valeurs dans votre chaîne de mesure, comme ici pour un seuil de 0dB HL (ligne pleine) et un seuil, par exemple, de 50dB HL (carrés) :

Limites EIN

Par contre, il faut relativiser cette mesure, par l’apport de bruit de fond extérieur : performance du caisson de mesures (isolation) et BDF des transducteurs de mesure (microphones de mesure et de référence). Par exemple dans un caisson très performant, Bruël&Kjaer/Interacoustics TBS25 avec la config suivante:

20150306_173214

On obtient, au plus bas, cet EIN:

EIN TBS25 micros

Pour conclure, j’ouvrirais le débat sur les valeurs de Macrae et Dillon qui ont été obtenues à l’époque sur la base d’une formule linéaire (NAL-R). Il serait très intéressant d’avoir des valeurs aujourd’hui avec des formules de correction non-linéaires (NAL-NL et DSL) puisque les sons faibles sont nettement plus amplifiés qu’avec NAL-R, et que l’EIN risque donc potentiellement d’augmenter car le facteur CG de l’équation (1) augmente.

Avis aux étudiants de D.E. ou M1/2 en recherche de mémoire…

Once upon a time : des aides auditives qui se réglaient avec des sons Wobulés, au caisson de mesure.

Cela se passait dans des temps forts lointains, où les Elfes, les Ents et les hommes vivaient en bonne harmonie; un temps où Saroumane ne commençait pas à faire n’importe quoi. En ce temps là, les assureurs assuraient, les banquiers banquaient, la sécu remboursait, les Zaudios appareillaient, les opticiens lunettaient, les professions réglementaient (jeu de mots…), etc. « Toute chose à sa place, toute place a sa chose », comme disait ma grand-mère.

Tout allait bien, quoi !

Et chez nous, les Zaudios (ça me fait penser à Claude PONTI et l’île des Zertes), un son « moyen » était à 65dB SPL, un son « faible » à 50dB SPL (allez, je vous le fais à 40dB SPL !) et un son « fort » à 80dB SPL.

C’était le bon temps : de bonnes vieilles valeurs simples, robustes et fiables ! Et qui nous parlaient bien !

Mais tout changea. Quand ? je ne saurais trop le dire… Des tours sont tombées, des bulles ont éclaté, des 4×4 sillonnent des déserts que photographient des drones, le vin français titre désormais à 14,5°, des regroupements/fusions/acquisitions ont eu lieu, etc, etc, etc.

Et désormais « On doit pouvoir s’épanouir en voyant « Fin » en l’air », comme dit la chanson…

Bref, tout a changé dans ce monde, mais un bastion résiste, en dehors des modes et du temps : le logiciel de réglage des Zaudios !!

G_BEG_Wid2G_WidG_STKG_SIG_RSDG_PKG_OT

Mais oui ! Vous l’avez remarqué : dans notre monde terrible de complexité, le logiciel de réglage se compose toujours (en autres, quand même) du bon (= le G65/moyen/modéré), de la brute (G80/fort) et du truand (expansion, G40/G50/faible, carrément fourbe celui-là !). J’oubliai aussi Dieu : le MPO !

C’est simple et de bon aloi, mais un peu tiédasse quand même pour « fort, moyen et faible », pas bien précis en tous cas. Et surtout, ces niveaux d’entrée vaguement flous contrastent furieusement avec la précision diabolique (au dB près) des pas de réglage.

Pour couronner le tout, on ne sait même pas s’il s’agit en entrée de dB SPL, de dB HL, de Sones. Et surtout, je le redis : ça n’a pas bougé depuis… que ces logiciels de réglages existent ! Nuance quand même : depuis que les circuits WDRC à trois points d’enclenchements existent, c’est à dire depuis peu pour certains 😉 .

  • A quoi correspondent aujourd’hui ces réglages hérités des temps anciens, lorsque par exemple, un patient va nous dire : « Les voix fortes sont un peu trop fortes » ? Les fabricants veulent-ils que nous touchions le « G80 » ? le « Fort » ?
  • Pour augmenter la perception de la voix « moyenne », faut-il toucher « Modéré » ou « G65 »  ?
  • Où commence et finit la zone couverte par « Modéré » ? de 50 à 70dB SPL ?
  • Et les autres zones ?

Avant éventuellement d’apporter un peu de précisions, on présumera (mais ce n’est pas explicite…) que ce qu’affiche un logiciel de réglage sous la forme « Expansion », G40/50/65 et 80 ou autres « Faible, Modéré, Fort » concerne les niveaux d’entrée. Puisque on part du principe qu’aujourd’hui, toutes les aides auditives ont des compressions en entrée (AGCi) et en sortie (AGCo/MPO); donc tout ce qui est inférieur à 80dB (SPL ? Oui !) en entrée est régit par les AGCi.

C’est de là que vient la grande ambiguïté : une discordance entre l’affichage logiciel et/ou in-vivo qui est un niveau de sortie, et le niveau d’entrée, souvent invisible. Lorsque l’audioprothésiste règle une aide auditive, il voit çà sur son logiciel de réglage :

SPL_PK_TARGET

Et/ou éventuellement il voit ça en mesure in vivo :

REAR_65

Dans les deux cas ci dessus, le logiciel ou la mesure donnent le niveau de sortie prévu ou mesuré dans le conduit auditif pour la voix « moyenne » (65dB SPL) en entrée, qui est ici (zone entourée) de 90dB SPL entre 2 et 4KHz.

Donc si on voulait, par exemple, augmenter cette fameuse zone 2/4KHz, il faudrait :

  • augmenter le G80, puisqu’on est à 90dB SPL in vivo ?
  • augmenter le G65, puisqu’on est à voix moyenne en entrée ?
  • autre chose ?

Réponse : augmenter le gain entre 40 et 50dB d’entrée…

… parce que la voix moyenne (pour le niveau à long terme, c’est à dire le niveau de la cible donnée par telle ou telle méthodologie) est à environ +/- 50dB SPL en entrée.

Toute la difficulté est là :

  1. Raisonner en entrée alors que nous visualisons en sortie
  2. Se dépatouiller avec des niveaux « logiciels » qui n’ont rien à voir avec les niveaux réels de la parole en entrée

J’ai voulu essayer de donner une correspondance entre le signal d’entrée (ce signal étant une voix), et l’action à entreprendre dans les logiciels pour avoir un impact sur ses différents niveaux d’énergie (classés en percentiles) et dans quatre zones fréquentielles différentes.

Vous trouverez donc ci dessous les niveaux logiciels intervenants dans les réglages spécifiques de la parole, pour les zones 250/500Hz, 500/1000Hz, 1000/2000Hz et 2000/4000Hz; trois percentiles de parole (crêtes=  percentile 99 , long terme= LTASS = env. percentile 65 et vallées = percentiles 30), le tout à trois niveaux d’entrée (faible, moyenne et forte):

Voix faible (55dB SPL)

V55

Télécharger ce fichier « 55dB SPL »

Voix moyenne (65dB SPL)

V65

Télécharger ce fichier « 65dB SPL »

 

Voix forte (75dB SPL)

V80

Télécharger ce fichier « 75dB SPL »

Et là, oui, ça va mieux : on commence à comprendre que le « G80 » ne va pas servir à grand chose, et que même le « G65 » est finalement peu utilisé. Il va donc falloir faire attention à sélectionner des aides auditives dont le premier TK sera réglable, ou réputées avoir une expansion de très bas niveau, car même la voix « moyenne » est constituée d’indices de très faibles niveaux…

Mais attention : ces différentes zones dynamiques sont très approximatives, et surtout, différentes d’un fabricant à l’autre. Il faudrait connaître les TK exacts et donc pour cela avoir les courbes de transfert (entrée/sortie) qui sont bien souvent absentes… Et même quand ces courbes I/O sont présentes, la plupart commencent leur affichage à 40dB SPL (rien à voir et à savoir en dessous ?). Dommage…

Et Dieu dans tout ça ? (le MPO !)

Et bien lui, il ne fait jamais rien comme les autres, c’est connu ! Si vous reprenez la mesure in-vivo ci-dessus, vous constaterez qu’un MPO peut agir, disons dès 90dB SPL et que les crêtes de la voix moyenne dans la zone 2/4KHz, qui sont régies en entrée par le gain à 50/65dB SPL peuvent être atteintes (et détruites) par un MPO trop bas ou trop actif (ou volontairement réglé comme cela). Donc on aurait finalement deux informations à surveiller : le niveau en entrée, souvent inférieur à 65dB SPL dans une bande de fréquence, et le niveau en sortie, affiché par le logiciel ou la mesure in vivo.

La balle est maintenant dans le camp des fabricants. Il est temps de nous donner un choix d’affichage plus « réaliste » pour les niveaux vocaux en entrée :

  • Pourquoi ne pas proposer (en option dans les logiciels) des réglages adaptés aux niveaux d’énergie de la parole ? Je suggère « G35 », « G50 » et « G65 » par exemple qui couvriraient la voix faible à forte.
  • Pourquoi ne pas permettre d’afficher (à la demande) les spectres en entrée de la voix faible, ou moyenne ou forte, dans la fenêtre de niveau de sortie ? Certains, comme OTICON le proposent (voix moyenne).
  • Enfin, en mesure in vivo, pourquoi ne pas afficher lors d’une mesure vocale, le spectre en entrée correspondant ? FreeFit le propose à chaque niveau, Interacoustics, pour un seul niveau (voix moyenne).

Voilà, voilà. J’en ai fini avec mes récriminations qui, je l’espère, feront avancer le shmilblick (vous aurez remarqué deux très jolis mots placés dans une même phrase !).

Merci d’être parvenus jusqu’à la fin de ce loooooonnnng post, et bonne année 2015 !

 

Crédit image pour les spectres à long terme de la parole : Aurical FreeFit.

Vous m’excuserez de ne pas vous parler du Sonalto qui bientôt occupera 95% des posts de ce blog, ni de programmation neuro-linguistique, de consolidation de chiffre d’affaire, etc. Je suis juste un audio…

 

Je pense que si on devait décerner la palme du réglage  » presse-bouton  » dans le genre  » j’appuie-là-et-on-verra-si-c’est-mieux-le-bruit-de-vo’t-frigo-dans-une-semaine-ma-bonne-dame « , l’expansion serait en bonne position de tête !

Avec l’apparition des méthodologies non-linéaires et surtout des anti-larsen performants, il a été possible en théorie (et en pratique), de donner une amplification très importante à faibles niveaux d’entrée. Tellement importante que le risque, comme tout excès, est de noyer le malentendant dans un « brouillard bruité » du type « la VMC, le frigo et la route à 200m ». Alors l’idée géniale a été de proposer un « réglage » d’expansion. Quand je dis réglage, je suis gentil, car souvent on a on/off, 0/1 et même 0/1/2/3 (soyons fous !) ou alors des trucs non traduits du type soft sounds reducer (là forcément en anglais ça marche mieux).

En plus, pour faire simple intellectuellement, off ou 0 ça veut dire au max = le plus de sons faibles !

Techniquement, l’expansion consiste à ne pas amplifier (ou moins amplifier) les sons en dessous d’un certain niveau sonore:

Principe du réglage d'expansion

Effectivement, ça permet aussi de ne pas trop faire entrer dans le circuit divers bruits de fond électroniques tel que celui du microphone.

Le problème comme toujours avec ces systèmes fermés, c’est que le fabricant (pas tous, mais la majorité) ne communique pas sur le fameux « TK bas » ou premier point d’enclenchement de cette expansion. Sur le graphique ci-dessus, il est fixé à 25dB HL, donc on peut imaginer que c’est le seuil audiométrique qui va dicter ou non son enclenchement. 25dB HL, déjà c’est un peu flou: à quelle fréquence ? pareil à toutes les fréquences ? (ça a son importance), dans quelle mesure ? (plus rien après le TK ou un peu moins de gain?) etc. Tout ça pourrait nous intéresser, nous, les audios (et oui, on ne vend pas encore du Sonalto !). Pourquoi ? d’abord par curiosité intellectuelle, et puis même bas, qui dit que ce « TK bas » n’a pas d’influence sur la perception de la parole ?

Si on prend un appareil lambda par exemple, on visualise très légèrement moins de gain à 45dB SPL d’entrée qu’à 65dB SPL:

On peut penser que le point d’expansion est « quelque part » entre 45 et 65dB SPL que que sous ce point d’expansion, le facteur de compression est faible (pas trop de différence entre les deux courbes de gain). On reste quand même dans le flou.

Prenons une autre aide auditive avec un point d’expansion inconnu et un comportement sous le TK lui aussi inconnu. La courbe suivante de niveau de sortie in-vivo (REAR) est mesurée pour un signal d’entrée vocal de 65dB SPL, avec un réglage linéaire sous le premier TK (expansion off ou 0):

REAR 65dB SPL ISTS EXP "off"

Sachant que l’appareil est réglé de façon quasi linéaire, la zone verte claire représente la ligne de crêtes (percentile 99: dépassé 1% du temps) et en partie basse la ligne de « vallées » (percentile 30: dépassé 70% du temps). Cette analyse percentile est censée représenter (si l’appareil est linéaire) une dynamique comprise entre -18 et +12dB par rapport au spectre à long terme (courbe verte). Avec expansion off, c’est bien le cas: la dynamique dans la partie bas niveau (vallées) est respectée.

Si par contre on met le réglage d’origine, à savoir expansion on, donc réduction de gain dans une mesure inconnue, sous un niveau inconnu, on obtient:

REAR 65 expansion ON

Evidemment, les niveaux de crêtes ne sont pas altérés, le spectre à long terme quasiment pas (ce qui aurait pu), mais les bas niveaux « bavent » (je n’ai pas d’autres mots). La dynamique inférieure n’est plus de -18dB mais descend à -25dB, voire plus.

Qu’est-ce que cela signifie ? Les informations de parole passent en permanence au-dessus et en-dessous d’un TK bas vraisemblablement fixé trop haut (45dB SPL ?), et surtout, sous ce TK, la compression est forte. L’appareil s’arrête quasiment sous ce point d’expansion. Ce qui partait à l’origine d’une volonté de protection contre une amplification trop importante des sons faibles à un impact sur la parole à niveau normal: les informations de bas niveau sonores de la parole ne passent plus au-dessus du seuil. On imagine pour une émission plus faible, à 55dB SPL par exemple.

Pour le malentendant, cela se traduit par par des micros ruptures d’amplification selon que l’énergie est sur ou sous ce fameux point d’expansion. Certains le décrivent comme de brusque éclats (augmentation soudaine) de voix.

Même à niveau « normal » (63dB SPL par exemple), le spectre moyen de la parole n’atteint jamais 63dB SPL, mais souvent nettement moins:

Niveaux par bandes d'octaves de la parole à 63dB SPL

L’addition des bandes donne 63dB SPL, mais dès 1600Hz, on passe sous 45dB SPL. Certaines informations de la parole sont extrêmement faibles, et on ne parle que de niveau normal…

Les points d’expansion se doivent donc d’être judicieusement placés, et surtout, le comportement de l’appareil sous ce point est important. Il est dommage que les logiciels et les fabricants ne nous donnent pas plus d’informations sur ces aspects.

Bienvenu

Bienvenu chez Blog-Audioprothesiste.fr !

Qui Sommes nous ?

Contactez nous !

Je contacte Sébastien
Je contacte Xavier
Je contacte Jean Michel