De la reconnaissance automatique du locuteur à la signature vocale19/03/07 La reconnaissance automatique du locuteur recherche des méthodes pour extraire les caractéristiques vocales propres à chaque individu. Ces caractéristiques servent à créer une signature vocale qui permette d'authentifier la voix de chacun.
Nous avons tous des timbres de voix différents. La voix de chaque personne dépend de caractéristiques à la fois anatomiques et comportementales.
Outre la variabilité de la voix d'une même personne, une autre difficulté pour que l'ordinateur puisse reconnaître une voix vient du fait que les conditions et la qualité d'enregistrement d'une même voix peuvent être très différentes.
Comment surmonter la variabilité ?Les humains sont capables d'une certaine souplesse quand ils associent leurs perceptions à un objet : un chat est un chat, qu'il soit noir ou tigré, siamois ou persan, dans un jardin ou sur une photo. Pour l'ordinateur, c'est plus difficile : il ne fonctionne que dans les situations pour lesquelles il a été programmé. Il n'a pas de capacité propre à appréhender le monde qui l'entoure dans toute sa généralité. Il faut donc concevoir des méthodes qui lui permettent de fonctionner dans des contextes très variés. Pour tolérer une certaine variabilité de la voix, on utilise des modèles statistiques pour créer chaque signature vocale. Le système utilise une technique classique permettant de caractériser la voix d'une personne. Cette technique est basée sur des modèles dits « modèles de mélanges de gaussiennes ». Détection d'activité de paroleLorsque l'on dispose d'un enregistrement de parole, la première phase d'analyse consiste à séparer les zones de silence des zones où il y a vraiment de la parole. Pour effectuer cette séparation, on se base sur l'énergie du signal. Ainsi, on ne conserve que les parties où l'énergie du signal est supérieure à un certain seuil. La principale difficulté réside alors dans le choix d'un seuil approprié à chaque signal. Ce seuil est obtenu en regardant la distribution statistique de l'énergie du signal. On segmente tout d'abord le signal en trames de 20 ms. Ce choix de longueur de trames pour l'analyse du signal de parole repose sur l'hypothèse, formulée à partir d'une étude empirique, que la parole varie peu en 20 ms. En calculant l'énergie de chacune des trames, on peut fixer le seuil voulu.
Analyse du signal de paroleOn ne conserve comme signal de parole que les zones où l'énergie est supérieure au seuil choisi. Par des transformations mathématiques, on extrait ensuite de ce signal segmenté certaines caractéristiques propres à la voix. Seules les fréquences propres à la voix humaine, c'est-à-dire comprises entre 200 Hz et 3400 Hz, sont analysées. Les caractéristiques extraites sont en relation avec le contenu fréquentiel de la parole, la forme du conduit vocal, l'intonation ou encore la prosodie. Elles concernent les fréquences les plus présentes dans la voix, ainsi qu'une information d'intonation ou de transition entre les fréquences à chaque instant. Pour chaque trame de parole, on extrait ainsi un vecteur de 20 à 30 caractéristiques qui sont les coefficients « cepstraux »
Construction de la signature vocaleEn raison de la variabilité des enregistrements et des voix, un seul enregistrement de courte durée ne permet pas de créer un modèle robuste pour reconnaître la voix d'une personne. Pour pallier ce problème, une solution consiste à créer les modèles de voix à partir d'un modèle générique plutôt que de toutes pièces. Ce modèle générique est appelé « modèle du monde » et est entraîné sur une grande variabilité de parole (nombreuses personnes, contenu varié, différents types de microphones, d'ambiances acoustiques...). Chaque modèle spécifique est ensuite adapté de ce modèle générique pour refléter au mieux les caractéristiques propres à chaque voix. Pour cela, on utilise un petit nombre de caractéristiques extraites de l'enregistrement pour spécialiser le modèle du monde. Pour comprendre plus précisement comment l'adaptation est effectuée, il faut entrer un peu plus dans le détail des modèles probabilistes. Modèles probabilistesOn crée pour chaque voix un modèle statistique des caractéristiques, c'est-à-dire que l'on modélise la répartition des informations (moyenne, étalement) plutôt que des valeurs précises des coefficients de l'analyse. Cette répartition des informations, que l'on appelle aussi distribution, est représentée par des fonctions mathématiques variées ayant chacune une forme géométrique différente. On choisit alors telle ou telle distribution, suivant la répartition des caractéristiques que l'on souhaite modéliser. Une forme très fréquemment utilisée est la fonction Gaussienne qui est bien adaptée pour représenter des fluctuations d'une grandeur physique autour d'une valeur moyenne (comme par exemple le bruit de fond dans un enregistrement). Le modèle mathématique n'utilise que deux paramètres, ce qui rend plus facile son estimation : la valeur moyenne prise par les caractéristiques et l'écart type de fluctuation autour de cette valeur. Lorsque l'on veut modéliser des distributions plus complexes, comme c'est le cas pour les caractéristiques de la voix, une technique couramment utilisée consiste à utiliser une somme de fonctions simples, comme les Gaussiennes, plutôt qu'une fonction très compliquée et difficile à estimer. Il existe bien sûr de nombreuses autres techniques, que nous n'abordons pas ici.
Les modèles que nous utilisons sont donc des « modèles de mélanges de Gaussiennes », appelés aussi GMM. Ces modèles sont constitués d'une somme de fonctions Gaussiennes ayant des poids différents. Pour la voix, les modèles couramment utilisés sont constitués de plusieurs centaines, voire plusieurs milliers de Gaussiennes. Aussi, pour estimer les paramètres de ces modèles - on parle également d'apprentissage des modèles - un court extrait de quelques secondes ne suffit pas. Dans les techniques classiques de reconnaissance du locuteur, le modèle du monde est appris sur plusieurs centaines d'heures de parole, pour couvrir au maximum la variabilité de la voix et de son enregistrement.
Procédure d'authentificationUne fois le modèle créé, le test d'authentification mesure la ressemblance d'un enregistrement de parole avec toutes les signatures connues par le système. Le résultat du test est un score de vraisemblance proportionnel à la ressemblance entre l'enregistrement et le modèle testé. Si la personne est déjà connue du système, on peut alors lui attribuer l'identité du modèle qui obtient le meilleur score. C'est la vérification du locuteur. Si elle n'est pas connue du système, on mesure alors simplement la ressemblance de sa voix avec les voix du système. Cette méthode est-elle infaillible ?Non, dans toutes les techniques d'identification vocale, il existe une marge d'erreur. Et l'on ne peut jamais être certain que deux enregistrements proviennent du même locuteur, même si les signatures vocales se ressemblent. Et la recherche ?Les enjeux de la recherche sont donc de proposer des méthodes de modélisation et de test qui soient robustes aux variations de la voix et aux différents types d'enregistrements, tout en restant discriminantes entre locuteurs. Il est aussi important de noter que les techniques utilisées pour la voix sont également utilisées pour caractériser de nombreux autres types de de sons. Démonstration interactiveAu travers de cette démonstration, vous pourrez créer un modèle de votre voix et voir si le système vous authentifie avec fiabilité. Vous pourrez aussi découvrir à la voix de quelle célébrité la vôtre ressemble le plus. Afin de vous permettre de tester votre voix plusieurs fois et d'écouter les signaux utilisés pour créer votre signature acoustique, vous êtes invité dans un premier temps à vous enregistrer en indiquant votre pseudo (s'il existe déjà, un numéro unique sera ajouté à la fin) et votre mot de passe. Vous pouvez alors choisir soit de créer (ou recréer) un modèle de votre voix, soit de tester votre voix avec celles des utilisateurs ou des célébrités entrées dans le système. Dans tous les cas, vous devrez enregistrer un court extrait de votre voix. Une fois cet extrait enregistré, le système pourra l'utiliser pour créer un modèle de votre voix. Il analysera le son par détection d'activité et décomposition « cepstrale », puis créera un modèle à partir des caractéristiques statistiques obtenues, enfin, il affichera le modèle et l'enregistrera dans la base des utilisateurs. Le système pourra aussi effectuer un test d'authentification de votre voix. Après l'enregistrement d'un extrait de votre voix et son analyse, il le comparera avec les modèles existant dans la base, en utilisant selon votre choix la base des utilisateurs ou la base des célébrités, et affichera les rapports de vraisemblance. Accéder à la démonstration interactive en ligne
|
|||||||||||||||||||||