traitement de signal

La sommation numérique

13 Avril 2013 , Rédigé par Jean Rouchouse Publié dans #Traitement de signal

Ce mémoire a été réalisé par Bastien Prevosto et soutenu à l'Ecole nationale supérieure Louis Lumière, en juin 2012, sous les directions de Laurent Millot et Gaël Martinet.

L'auteur aborde un sujet sensible, et pas toujours très bien connu : la sommation numérique. Cette opération arithmétique est responsable de la qualité du signal obtenu en sortie d'un dispositif de mélange.

Résumé :

Lors d’un mixage audio-numérique, les signaux audio-numériques de chaque piste sont traités puis additionnés entre eux pour constituer un nouveau signal audio-numérique qui sera diffusé ou stocké.

La sommation numérique est l’opération de traitement du signal numérique qui correspond à cette addition des différents signaux audio-numériques à mixer.

Dans ce mémoire, nous voulons déterminer s’il existe des différences entre plusieurs versions d’un même mixage, réalisées par des logiciels de mixage audionumérique différents. Nous explorons donc les représentations binaires utilisées pour coder les signaux audio-numériques, notamment la représentation binaire en virgule flottante. La programmation d’un plug-in nous permet l’écoute des différences entre des traitements réalisés dans plusieurs précisions en représentation en virgule flottante. Enfin, nous rendons compte des résultats de tests réalisés avec

plusieurs logiciels effectuant un même mixage.

Mots clefs : Traitement du signal numérique, Représentation binaire en virgule

flottante, Erreurs d’arrondi, Sommation numérique, Mixage audio.

Lien : Téléchargement du mémoire de Bastien Prevosto " La sommation numérique".

Thèse de Greg Eustace Mc Gill University Montréal Canada

14 Juillet 2011 , Rédigé par Jean Rouchouse Publié dans #Traitement de signal

"Subjective evaluation of an autoregressive model-based method for the restoration of audio recordings contaminated with impulsive noise."

Thèse de Greg Eustace présentée à l'Université Mc Gill Montréal Canada. Octobre 2008.

Résumé :

De nombreux signaux musicaux d'intérêt historique sont stockés sur des supports analogues dégradés, tels que les enregistrements phonographiques.

La dégradation est souvent associée à des gênes sonores qui sont désagréables pour l'auditeur. La restauration audio utilise les technologies de traitement du signal numérique pour réduire ces artefacts associés aux bruits des signaux audionumériques. La restauration des clics, en particulier, s'attaque à la corruption du signal par des bruits impulsifs.

Ce projet a permis de développer un logiciel de restauration de clics, lequel utilise une méthode fondée sur le modèle auto-régressif bien connu pour détecter et supprimer les clics. Les résultats de la restauration ont été évalués subjectivement par des auditeurs experts, qui ont comparé la qualité sonore associée aux enregistrements phonographiques restaurés par la méthode d'auto-corrélation avec celle d'un système matériel de restauration très respecté et disponible commercialement.

Cette thèse reprend les travaux précédents sur la restauration audio, décrit la conception et la mise en œuvre du logiciel de restauration, explique la procédure d'évaluation, indique les résultats obtenus, dresse les conclusions et propose des suggestions de travaux futurs.

Téléchargement de la thèse G.Eustace (format .pdf) Numéro de publication : MR53518. 85 pages.

Le traitement du signal dans la restauration sonore (Partie 2)

10 Juillet 2011 , Rédigé par Jean Rouchouse Publié dans #Traitement de signal

Cette seconde partie du traitement de signal dans la restauration sonore concerne les bruits impulsionnels.

Les notes bibliographiques concernent les deux articles.

2 Bruits impulsionnels.

Les enregistrements anciens présentent généralement des défauts qui n'affectent que de courts instants de l'enregistrement. Parmi ceux-ci, on distingue en général deux types de dégradations :

Les bruits impulsionnels (impulsive-noise ou clicks en anglais) qui ont une durée extrêmement brève, de l'ordre de la milliseconde. Les bruits impulsionnels qui sont en général très nombreux (plus de 4000 en moyenne pour un morceau musical complet issu d'un disque 78 tours) constituent l'essentiel des défauts localisés présents sur les disques analogiques.

Les craquements (ou scratches en anglais) qui perturbent le signal durant des durées beaucoup plus importantes de l'ordre de la vingtaine de millisecondes. Les craquements correspondent à des dégradations importantes du support de l'enregistrement.

Dans, la suite on présente la technique la plus utilisée actuellement pour le traitement des bruits impulsionnels.

2.1 Détection des bruits impulsionnels.

Le principe de la méthode détection est de travailler à partir du signal résiduel (ou erreur de modélisation) issu de la modélisation autorégressive (ou AR) du signal. On montre en effet que les bruits impulsionnels présents dans le signal, même à niveau très faible, apparaissent clairement dans le signal résiduel.

Pour simplifier la situation réelle, on suppose, d'une part que le signal utile s(n) (signal audio et bruit de fond) est un processus stationnaire issu d'un modèle autorégressif supposé connu.

On notera 1 = A(z) sa fonction de transfert, p son ordre, et a0, a1,…, ap ses coefficients (avec a0 = 1). D'autre part, on admet que le bruit impulsionnel peut être assimilé à une impulsion de Dirac additionnée au signal utile (on notera d(n) = d0δ(n0) le bruit impulsionnel). Le "signal résiduel" x(n) est obtenu par filtrage du signal bruité par l'inverse de la fonction de transfert du modèle, c'est-à-dire avec les notations de la transformée en Z :

Dans cette équation, le terme A(z)S(z) correspond au signal résiduel associé à la modélisation AR et notée e(n) (à proprement parler c'est le seul signal qui devrait être appelé signal résiduel).

Le second terme de (6.9) représente l'image du bruit impulsionnel dans le domaine du signal résiduel.

Mise en évidence du bruit impulsionnel par passage au résiduel :

On définit le niveau relatif du bruit impulsionnel (noté N) comme la puissance maximale du bruit impulsionnel divisée par la puissance du signal qu'il affecte. Pour le signal original, le niveau relatif du bruit impulsionnel s'écrit :

Pour le signal résiduel, d'après la relation (6.9), le niveau relatif du bruit impulsionnel devient :

Dans l'hypothèse d'un signal AR, e(n) est un bruit blanc, la relation de filtrage (6.9) qui existe entre le signal s(n) et le signal résiduel implique donc que :

Le terme entre parenthèses correspond à l'énergie totale de la fonction de transfert du modèle AR, on montre que celle-ci est forcément supérieure à 1. En reportant ce résultat dans l'équation (6.11) et en comparant avec l'expression (6.10), on obtient la relation suivante entre les niveaux relatifs du bruit impulsionnel :

Les coefficients ai du modèle AR n'étant pas connus, on ne peut en toute généralité que minorer le terme de droite de l' l’équation ci dessus en remarquant que a0 = 1 implique

Ceci revient à dire que l'amplitude du bruit impulsionnel ne peut pas diminuer lors du passage au signal résiduel. En prenant en compte ce résultat, la relation (6.13) devient

L'intérêt de travailler sur le signal résiduel e(n) tient essentiellement au fait que dès que la fonction de transfert du modèle AR présente des zones assez résonantes, le gain de l'équation (6.14) devient très important. Pour la plupart des signaux audio, ce gain est largement supérieur à 20 dB. L'équation (6.14) indique donc que le bruit impulsionnel à détecter est fortement amplifié lors du passage au signal résiduel. En fait, il faut noter qu'il s'agit d'une amplification relative, c'est-à-dire que le bruit impulsionnel conserve à peu près son amplitude, par contre le signal dans lequel il est noyé voit son amplitude fortement diminuer.

Localisation du bruit impulsionnel par filtrage adapté.

Au point précédent, nous avons vu que le bruit impulsionnel était convolué par la réponse impulsionnelle du filtre inverse A(z) lors du passage au résiduel. Ce nouveau bruit impulsionnel est noyé dans le signal résiduel qui est un bruit blanc gaussien dans l'hypothèse où le signal de départ provient d'un processus autorégressif.

Dans ces conditions, on montre que la meilleure stratégie de détection du bruit impulsionnel, au sens du rapport de vraisemblance, consiste à utiliser le filtre dit adapté. La détection du bruit impulsionnel s'effectue alors simplement en comparant l'amplitude maximale du signal après filtrage adapté à un seuil [Van Tress 68]. Dans le cas réel, le fitre adapté est obtenu en inversant l'ordre temporel des coefficients de la réponse impulsionnelle du filtre A(z) [Van Tress 68] [Charbit 90].

La détection par filtrage adapté est représentée sous forme schématique par la partie droite de la figure 6.5.

Une remarque intéressante est que le résultat du filtrage adapté s'interprète aussi comme l'intercorrélation de la réponse impulsionnelle A(z) avec le signal résiduel

(ce que l'on note par y(n) = R a,x (n)). En se souvenant que d'après la relation (6.9), le signal résiduel x(n) est composé de deux termes distincts, on obtient par linéarité

Le second terme de cette relation correspond à l'image bruit impulsionnel après filtrage adapté, on note que celle-ci correspond à l'autocorrélation de la réponse impulsionnelle A(z) translatée autour de l'indice temporel n0 où est localisé le bruit impulsionnel. Le niveau relatif du bruit impulsionnel dans le signal obtenu en sortie du filtre adapté est donc défini par

L'autocorrélation d'un signal étant toujours maximale en zéro, on a

Ce point illustre un des avantages du filtrage adapté : quelle que soit la forme de la réponse impulsionnel A(z), la détection (si elle a lieu) intervient toujours à l'indice n₀ qui correspond à la position exacte du bruit impulsionnel. Par ailleurs, comme le signal résiduel e_(n) est un bruit blanc, on a une relation similaire a (6.12) qui s'écrit

La quantité entre parenthèse qui correspond à l'énergie totale de la réponse impulsionnelle du filtre inverse A(z) est égale au terme R _a,a (0) qui figure au numérateur de (6.16) (théorème de Parseval). En reportant (6.17) dans (6.16) on déduit donc que le niveau relatif du bruit impulsionnel vérifie

6.18

On note au passage que la limite de détection associée au filtre adapté ne dépend que de l'énergie du signal recherché (au numérateur) et de la puissance du bruit blanc dans lequel il est noyé (au dénominateur) [Van Tress 68]. Par suite, en faisant apparaître l'expression du niveau relatif du bruit impulsionnel N(résiduel) défini par (6.11) on obtient

6.18(1)

On obtient donc une relation analogue à (6.14) qui décrit le gain obtenu lors du filtrage adapté

6.19

L'étape de filtrage adapté se traduit donc bien par un gain, puisque le terme de droite dans l'équation ci-dessus et forcément supérieur à 1. De plus, ce gain est d'autant plus important que la réponse impulsionnelle A(z) est "étendue", c'est-à-dire qu'elle présente plusieurs termes d'amplitudes comparables.

Le principal intérêt du filtrage adapté est de permettre une localisation plus précise du défaut, en effet, l'étalement du bruit impulsionnel dû au filtrage par A(z) lors du passage au résiduel peut rendre dicile la location du bruit impulsionnel. Or nous avons vu que le filtrage adapté permet de déterminer sans ambiguïté la position du bruit impulsionnel.

Mise en œuvre

La procédure complète de détection des bruits impulsionnels est représentée par le schéma de la figure 6.5. Où la première étape de filtrage correspond au passage au signal résiduel, tandis que le filtrage par A(z-1) (réponse impulsionnelle du filtre inverse retournée ) et le seuillage représentent la détection par filtrage adapté.􏰚

On note qu’il est nécessaire d’estimer la puissance du signal résiduel afin de fixer le seuil de détection. Plus précisément la relation (6.15 ) montre que pour obtenir un taux de fausses alarmes fixé, le signal sur lequel on doit appliquer le seuil est

(se souvenir que R a,e(n) est un signal gaussien) [Van Tress 68 ]. La réponse A(z) étant connue, et en utilisant le résultat (6.17), le seul paramètre à déterminer est bien E {e2}.

Une remarque est que cette puissance ne correspond pas au σ2 fourni par la modélisation AR du fait de la présence du bruit

Fig 6.5

Figure 5 : Schéma de principe de la détection des bruits impulsionnels.

résiduel additionné au signal résiduel e(n). En effet σ2 représente la puissance du signal x(n) (bruit impulsionnel compris) et donc σ2 > E {e2}.

En pratique, pour estimer la puissance de e(n) qui est inconnu, à partir du signal x(n) on rejette dans x(n) les valeurs trop importantes qui ont de fortes chances d’être dues à la présence de bruits impulsionnels avant d’estimer la puissance.

En pratique la situation est moins favorable que le cas idéal décrit aux paragraphes précédents pour plusieurs raisons :

- Le bruit impulsionnel, même s'il est très bref, n'est pas une impulsion de Dirac (pour

mémoire, une milliseconde à la fréquence d'échantillonnage de 32 kHz représente tout de même 32 échantillons).

- Le modèle AR du signal n'est pas connu, il doit être estimé. Le problème est que la

présence de bruits impulsionnels tend à aplatir le spectre du modèle estimé en limitant la dynamique des zones résonantes et en relevant le niveau des zones de faible niveau. D'après la relation (6.14), ceci limite les possibilités de détection du système.

- Pour la plupart des signaux audio, l'hypothèse d'un signal AR n'est elle-même pas

vérifiée. En particulier il est bien connu que pour des sons de parole voisés le signal

résiduel n'est pas un bruit blanc mais plutôt une suite d'impulsions quasi périodiques

[Makhoul 75]. Il faut donc tenir compte de cet aspect lors du réglage du seuil de détection.

Malgré tout, les résultats obtenus restent très satisfaisants. La figure 6.6 présente un exemple de détection pour un extrait de signal réel. Les paramêtres retenus pour la modélisation sont une durée de trame de 500 échantillons, soit 20 ms compte tenu de la fréquence d'échantillonnage, et un ordre de 20 pour le modèle, la méthode de modélisation AR utilisée est la méthode de covariance (Least-Square en anglais) [Kay 88]. On note que le bruit impulsionnel qui est à peine visible sur le signal est détecté dans ce cas. De plus, le rapport de l'équation (6.14) vaut environ 40 dB pour le modèle estimé dans cet exemple, c'est-à-dire qu'un bruit impulsionnel d'amplitude 10 fois plus faible que celui qui est représenté sur la figure 6.6 serait encore détecté.

Correction des bruits impulsionnels

Pour s'affranchir de la perturbation due au bruit impulsionnel, on cherche à interpoler le signal.

La méthode la plus robuste pour les signaux audio consiste à considérer que les données à

interpoler sont issues d'un signal autorégressif. Dans cette approche, le modèle AR du signal s(n) est connu, et on cherche à interpoler les données manquantes avec une erreur quadratique moyenne d'interpolation minimale (c'est-à-dire que le signal interpolé S(n) minimise E {| s(n) - S(n) | 2 } ). Il est possible de trouver l'expression analytique de l'estimateur linéaire des données manquantes qui vérifie cette propriété de variance minimale [Jansen 86].

Figure 6 : Détection d'un bruit impulsionnel. En haut, le signal original, le niveau relatif du bruit impulsionnel est de -18 dB (rapport 1/8 en amplitude). En bas, le signal résiduel après filtrage adapté.

Dans le cas général, la procédure d'interpolation obtenue est assez lourde à mettre en œuvre puisque la résolution du système implique l'inversion d'une matrice de dimension ι × ι, où ι est le nombre d'échantillons à interpoler. Toutefois, si tous les échantillons à interpoler sont consécutifs, la matrice à inverser présente une structure particulière dite de Toeplitz.

L'inversion de cette matrice peut alors être réalisée de manière beaucoup moins coûteuse grâce à l'algorithme de Levinson [Press 86]. Pour les bruits impulsionnels, il est donc toujours plus efficace d'interpoler séparément chaque défaut pour se ramener au cas d'échantillons consécutifs.

Toutefois, ceci n'est possible que si les bruits impulsionnels sont séparés d'au moins p (ordre du modèle AR) échantillons de signal sans défauts. En effet, si les zones à interpoler sont trop proches il devient impossible de considérer les défauts séparément, il est alors nécessaire de réaliser l'interpolation globale (donc coûteuse).

Avec cette méthode, l'interpolation de zones de signal allant jusqu'à plusieurs dizaines d'échantillons successifs est quasiment inaudible pour la plupart des signaux audio [Jansen 86].

Bibliographie :

[Boll 79] S. F. Boll. Suppression of acoustic noise in speech using spectral substraction. IEEE Trans. Acoust., Speech, Signal Processing, vol. 27 (2), pp. 113{120, 1979.

[Brillinger 81] D. R. Brillinger. Time Series Data Analysis and Theory. Holden-Day, expanded edition, 1981.

[Cappe 93] O. Capp_e. Techniques de R_eduction de Bruit pour la Restauration d'Enregistrements Musicaux. PhD thesis, ENST, Sep 1993.

[Charbit 90] M. Charbit. Eléments de théorie du Signal: les signaux aléatoires. Collection Pédagogique de Télécommunication. Ellipse, Paris, 1990.

[Ephraim 84] Y. Ephraim and D. Malah. Speech enhancement using a minimummean-square error short-time spectral amplitude estimator. IEEE Trans. Acoust., Speech, Signal Processing, vol. 32 (6), pp. 1109{1121, 1984.

[Jansen 86] A. J. E. M. Jansen, R. N. J. Veldhuis, and . B. Vries. Adaptive interpolation of discrete-time signals that can be modelled as autoregressive processes. IEEE Trans. Acoust., Speech, Signal Processing, vol. 34 (2), pp. 317{330, 1986.

[Kay 88] S. M. Kay. Modern Spectral Estimation. Prentice Hall, Englewood Cli_s, NewJersey, 1988.

[Lim 79] J. S. Lim and A. V. Oppenheim. Enhancement and bandwidth compression of noisy speech. Proc. IEEE, vol. 67 (12), Dec 1979.

[Lim 83] J. S. Lim. Speech enhancement. Prentice-Hall signal processing series. Prentice-Hall, 1983.

[Makhoul 75] J. Makhoul. Linear prediction: A tutorial review. Proc. IEEE, vol. 63 (11), pp. 1380{1418, Nov 1975.

[Press 86] W. H. Press. Numerical Recipes, The Art of Scienti_c Computing. Cambridge University Press, Cambrige, 1986.

[Van Tress 68] H.L. Van Tress. Detection, Estimation and Modulation Theory. Wiley, New York, 1968.

Le traitement du signal dans la restauration sonore (Partie 1)

14 Mai 2011 , Rédigé par Jean Rouchouse Publié dans #Traitement de signal

Le traitement du signal dans la restauration sonore est un extrait du document intitulé " Traitement des Signaux Audio-Fréquences de Jean Laroche ,département Signal, Groupe Acoustique TELECOM.

Cette première partie est consacrée à la méthode de la soustraction de puissance utilisée dans l'atténuation du niveau de bruit de fond.

La seconde partie sera consacré aux bruits impulsionnels.

Les références bibliographiques seront publiées à la fin de la seconde partie.

La restauration d'anciens enregistrements par des techniques de traitement du signal est un domaine qui s'est développé avec la généralisation de l'audionumérique, c'est-à-dire depuis environ une dizaine d'années. Il existe maintenant plusieurs systèmes commerciaux qui permettent de traiter des anciens enregistrements en temps réel. Il faut toutefois avoir conscience du fait que ce type de technique ne peut être efficace que si les démarches préliminaires au traitement ont été réalisées avec soin. Ces démarches peuvent être, par exemple, la sélection d'un enregistrement original (recherche historique et musicologique) et le choix d'une technique de transfert adapté au support de l'enregistrement (ce qui suppose des connaissances historiques ainsi que l'utilisation d'un système mécanique approprié). On peut aussi imaginer (et c'est ce qui est souvent fait) de retravailler l'enregistrement historique à la manière de l'ingénieur du son, étant entendu que ce sont alors des compétences artistiques qui guident le traitement.

La partie abordée dans la suite de ce chapitre concerne uniquement l'aspect "signal", c'est-à-dire l'élimination des dégradations présentes sur l'enregistrement dont on suppose qu'il a déjà été transféré de manière adéquate sous forme numérique.

1 Bruit de fond

1.1 Principe du traitement

Les références [Lim 79] [Lim 83] présentent un panorama des techniques de réduction de bruit utilisées pour les signaux de parole au début des années 80. Ces techniques s'appliquent aussi, pour la plupart, au cas des anciens enregistrements, toutefois il est nécessaire de prendre en compte deux aspects importants :

- On ne dispose en général que d'une seule copie de l'enregistrement, ce qui exclue les méthodes de type multi capteurs.

- Compte tenu de la diversité des signaux musicaux présents sur les enregistrements, il est difficile d'émettre des hypothèses sur la nature du signal. En conséquence beaucoup de méthodes utilisées pour le débruitage de signaux de parole ne sont pas directement utilisables pour les anciens enregistrements (par exemple, lorsqu'elles supposent que le signal est quasi-périodique).

Dans ces conditions, les techniques utilisées pour la restauration d'enregistrements musicaux fonctionnent généralement selon le principe d'atténuation spectrale à court terme qui consiste à effectuer une analyse du signal bruité par transformée de Fourier à court terme, puis à atténuer certains points des spectres à court terme. L'atténuation apportée est d'autant plus importante que le niveau du spectre à court terme est proche d'une estimation spectrale de la puissance du bruit de fond Pd(ω_k). La mesure de la densité spectrale de puissance du bruit de fond est en général réalisée au préalable à partir d'un morceau de bruit seul pris en début ou en fin de l'enregistrement. Ceci suppose que le bruit de fond soit stationnaire tout au long de l'enregistrement. Le schéma de principe d'une telle technique est représenté par la figure 1. Dans ce schéma, la règle de suppression désigne le mécanisme qui permet de calculer l'atténuation à apporter à chaque point de la transformée à court terme.

Fig 1

Figure 1 : Débruitage par atténuation spectrale à court terme. La partie du schéma représentée en pointillés se fait au préalable à partir d'une portion représentative du bruit d(n). Toutes les opérations représentées en trait plein se font pour chaque fenêtre de signal à court terme.

1.2 Mise en œuvre

Un grand nombre de règles de suppression a été proposé dans la littérature [Lim 79], nous allons ici détailler le raisonnement qui permet d'obtenir l'une d'elles qui est appelée soustraction en puissance.

On suppose que le bruit de fond d(n) est un signal stationnaire qui est venu s'additionner au signal sonore inconnu s(n). On admet de plus que les signaux d(n) et s(n) sont décorrélés.

Le signal observé (l'enregistrement bruité) est noté x(n). On montre aisément que la non corrélation du signal inconnu et du bruit de fond implique la relation suivante sur les modules des transformées de Fourier à court terme des différents signaux :

Figure 2 : Notations

Le bruit de fond étant supposé stationnaire, la quantité E ne dépend pas de l'indice temporel p, elle est égale à l'espérance du périodogramme du bruit (défini comme le module au carré de la transformée de Fourier discrète). On peut montrer que cette quantité constitue bien une estimation de la densité spectrale de puissance du bruit de fond [Kay 88] [Brillinger 81], on choisit donc de noter :

L’équation 6.1 devient donc :

ce qui peut s’écrire à nouveau :

Cette dernière relation va nous permettre de définir le signal restauré y(n). Pour mettre, en évidence l'atténuation apportée à chaque point du spectre à court terme, on écrit que le spectre à court terme du signal restauré est obtenu comme suit :

EQ5

ce qui implique :

C'est cette forme qui est à l'origine de la dénomination de la soustraction en puissance. En comparant les relations (6.6) et (6.4), il apparaît que le signal y(n) restauré vérifie la propriété suivante :

On obtient donc une estimation non biaisée du carré du module de la transformée de Fourier à court terme du signal inconnu. Ceci est intéressant car on sait que des sons qui présentent des transformées de Fourier à court terme semblables en module sont perçus comme étant très proches à l'écoute (c'est le principe du spectrogramme où l'on ne représente que le module des spectres à court terme). Attention toutefois, cette propriété est loin d'être infaillible et il est très facile de trouver des contres exemples. Cependant, la relation (6.7) garantit tout de même en pratique une forte ressemblance du signal restauré y(n) avec le signal original inconnu lors de l'écoute.

Il faut cependant remarquer que l'estimation obtenue en pratique est tout de même biaisée pour les faibles valeurs du spectre. Ceci vient du fait que la quantité définie par l'équation (6.6) n'est pas forcément positive. Afin de préserver le sens physique de Y (p,ω_k)² (et de pouvoir synthétiser un signal temporel), on choisit en général de forcer à zéro les valeurs négatives.

La règle de suppression dite de soustraction en puissance s'écrit donc :

EQ8

mais ceci n'est vrai qu'en moyenne.

Fig 3

Figure 3 : Exemple de modification spectrale par la règle de soustraction en puissance : Cas d'un signal de fort niveau. A gauche, le spectre original X (p,ω_k) avec en pointillé l'estimation de la densité spectrale du bruit de fond Pd(ω_k) (ici un bruit blanc). A droite, le spectre modifié ,Y (p,ω_k). Seule une partie des spectres est représentée.

Fig 4

Figure 4 : Exemple de modification spectrale par la règle de la soustraction en puissance. Cas d'un instant de silence. A gauche, le spectre original X (p,ω_k),avec en pointillés l'estimation de la densité spectrale du bruit de fond P_d(w_k) (ici un bruit blanc). A droite, le spectre modifié Y (p,ω_k). Seule une partie des spectres est représentée.

Si on ne considère qu'une seule trame à court terme (c'est-à-dire une seule réalisation), on constate une grande disparité entre X (p,ω_k)²et ce qui est une propriété bien connue du périodogramme [Kay 88]. C'est le moyennage effectué sur plusieurs fenêtres distinctes qui garanti l'aspect lisse de Pd(ω_k), il n'en va pas de même pour X (p,ω_k)². Le point gênant est que, dans une zone de silence, X (p,ω_k)²est susceptible de prendre des valeurs nettement plus grandes que Pd(ω_k). Ces valeurs du spectre à court terme sont donc peu atténuées puisque rien ne les différencie des composantes de signal de bas niveau. En conséquence le spectre du signal en sortie présente des pics (cf. partie droite de la figure 4).

La présence de ces pics, dont les positions varient aléatoirement d'une trame à court terme à l'autre, se traduit par un phénomène audible et peu naturel connu sous le nom de bruit musical. La solution la plus intuitive à ce problème consiste à surestimer le niveau de bruit de fond, c'est-à-dire à multiplier Pd(ω_k) par un facteur supérieur à 1. On conçoit en effet que si l'estimation du bruit de fond (en pointillés sur la partie gauche de la figure 4) est artificiellement surélevée jusqu'à passer au dessus des variations de X (p,ω_k)², alors le spectre modifié sera bien identiquement nul. L'inconvénient de cette solution c'est que l'atténuation apportée aux valeurs du spectre à court terme, qui correspondent au signal devient de plus en plus importante ce qui finit par créer des distorsions audibles du signal. Plusieurs autres solutions à ce problème ont été proposées, on en trouvera des exemples dans [Boll 79] ou dans [Ephraim 84].