UniNE > ESPLAB > domaines de recherche > traitement audio >
    annuaire    plan du site    contact    accès
    
laboratoire d'électronique et de traitement du signal



 
 
 
 
 



labo pratique 
forum université
 


 
reconnaissance automatique du locuteur  

Contact : Sara Grassi

Reconnaissance automatique du locuteur

Le terme générique « reconnaissance automatique du locuteur » est utilisé aussi bien pour définir l'identification et la reconnaissance du locuteur. La vérification consiste à accepter ou refuser l'identité proclamée par un locuteur, en se basant sur un modèle qui lui est associé. L'identification consiste en la reconnaissance d'un locuteur particulier parmi un ensemble fini de locuteurs possibles. Aussi bien la reconnaissance, que l'identification du locuteur se font en calculant un modèle stochastique sur la base de l'expression vocale du locuteur à reconnaître. Une fois calculé, ce modèle est comparé à des modèles préentraînés sur la base de différentes phrases prononcées par le(s) locuteur(s).

On classifie également les systèmes de reconnaissance et d'identification du locuteur en deux catégories :

1) Indépendant du contenu de la phrase prononcé ("text-independent").

2) Dépendant du texte et donc effectué sur la base d'un texte imposé ("text-dependent")

Les applications potentielles des systèmes de reconnaissance de locuteur incluent le contrôle d'accès à distance de bases de données, les services d'information et de réservation à distance, les services bancaires à distance, etc. La tendance actuelle montre une évolution vers l'exécution de diverses transactions en utilisant les téléphones mobiles.

Le LETS a étudié l'effet de la compression du signal de parole des appareils mobiles (GSM) sur des systèmes de reconnaissance et d'identification du locuteur indépendantes du texte, basées sur la méthode de modélisation par mélange de fonctions de densité gaussiennes (GMM-Gaussian Mixture Models). La dégradation du taux de reconnaissance mesuré en utilisant la parole comprimée/décomprimée s'est révélée trop élevée pour permettre une implantation pratique de tels systèmes. Pour améliorer les performances obtenues, les caractéristiques extraites à partir du flot de bits de la parole comprimée ont été utilisées, et ceci avant même la décompression. Les performances obtenues sont ainsi légèrement meilleures, mais encore insuffisantes pour une application réelle.


Finalement, le LETS a étudié l'implantation d'un système de reconnaissance du locuteur dans un système distribué, en utilisant des paramètres du standard ETSI AURORA, originellement conçus pour la reconnaissance de parole. Le taux de reconnaissance obtenu est ainsi largement meilleur que celui obtenu avec des systèmes utilisant la parole comprimée.

Publications :


  • S. Grassi, M. Ansorge, F. Pellandini, P.-A. Farine, "Distributed Speaker Recognition Using the ETSI AURORA Standard", Proc. of 3rd COST 276 Workshop on Information and Knowledge Management for Integrated Media Communication, Budapest, Hungary, Oct. 11-12, 2002, pp.120-125.
  • S. Grassi, L. Besacier, A. Dufaux, M. Ansorge, F. Pellandini, "Influence of GSM Speech Coding on the Performance of Text-Independent Speaker Recognition", Proc. of EUSIPCO 2000, European Signal Processing Conference 2000, Tampere, Finland, September 4-8, 2000, pp. 437-440.
  • L. Besacier, S. Grassi, A. Dufaux, M. Ansorge, F. Pellandini, "GSM Speech Coding and Speaker recognition", ICASSP 2000, International Conference on Acoustics, Speech, and Signal Processing, Istanbul, Turkey, June 5-9, 2000, Vol.II, pp. 1085-1088.
  • S. Grassi, A. Dufaux, L. Besacier, M. Ansorge, F. Pellandini, "Speaker Recognition on Compressed Speech", Proc. of the International COST 254 Workshop on Friendly Exchanging Through the Net, Bordeaux, France, March 23-24, 2000, pp. 117-122.
  • L. Besacier, J. Luettin, G. Maître, E. Meurville, "Experimental Evaluation of Text-Independent Speaker Verification on Laboratory and Field Test Databases in the M2VTS Project", Proc. of the 6th EUROSPEECH 99, European Conference on Speech Communication and Technologies, Budapest, Hungary, September 5-9, 1999, Vol. 2, pp. 751-754.