|
|
|
reconnaissance automatique du locuteur
|
|
Contact : Sara Grassi
Reconnaissance automatique du locuteur
Le
terme générique « reconnaissance automatique du locuteur » est utilisé
aussi bien pour définir l'identification et la reconnaissance du
locuteur. La vérification consiste à accepter ou refuser l'identité
proclamée par un locuteur, en se basant sur un modèle qui lui est
associé. L'identification consiste en la reconnaissance d'un locuteur
particulier parmi un ensemble fini de locuteurs possibles. Aussi bien
la reconnaissance, que l'identification du locuteur se font en
calculant un modèle stochastique sur la base de l'expression vocale du
locuteur à reconnaître. Une fois calculé, ce modèle est comparé à des
modèles préentraînés sur la base de différentes phrases prononcées par
le(s) locuteur(s). On classifie également les systèmes de reconnaissance et d'identification du locuteur en deux catégories : 1) Indépendant du contenu de la phrase prononcé ("text-independent"). 2) Dépendant du texte et donc effectué sur la base d'un texte imposé ("text-dependent") Les
applications potentielles des systèmes de reconnaissance de locuteur
incluent le contrôle d'accès à distance de bases de données, les
services d'information et de réservation à distance, les services
bancaires à distance, etc. La tendance actuelle montre une évolution
vers l'exécution de diverses transactions en utilisant les téléphones
mobiles. Le
LETS a étudié l'effet de la compression du signal de parole des
appareils mobiles (GSM) sur des systèmes de reconnaissance et
d'identification du locuteur indépendantes du texte, basées sur la
méthode de modélisation par mélange de fonctions de densité gaussiennes
(GMM-Gaussian Mixture Models). La dégradation du taux de reconnaissance
mesuré en utilisant la parole comprimée/décomprimée s'est révélée trop
élevée pour permettre une implantation pratique de tels systèmes. Pour
améliorer les performances obtenues, les caractéristiques extraites à
partir du flot de bits de la parole comprimée ont été utilisées, et
ceci avant même la décompression. Les performances obtenues sont ainsi
légèrement meilleures, mais encore insuffisantes pour une application
réelle.
Finalement, le LETS a étudié l'implantation d'un système de
reconnaissance du locuteur dans un système distribué, en utilisant des
paramètres du standard ETSI AURORA, originellement conçus pour la
reconnaissance de parole. Le taux de reconnaissance obtenu est ainsi
largement meilleur que celui obtenu avec des systèmes utilisant la
parole comprimée. Publications :
-
-
S. Grassi, M. Ansorge, F. Pellandini, P.-A. Farine, "Distributed
Speaker Recognition Using the ETSI AURORA Standard", Proc. of 3rd COST
276 Workshop on Information and Knowledge Management for Integrated
Media Communication, Budapest, Hungary, Oct. 11-12, 2002, pp.120-125.
- S. Grassi, L. Besacier, A. Dufaux, M. Ansorge,
F. Pellandini, "Influence of GSM Speech Coding on the Performance of
Text-Independent Speaker Recognition", Proc. of EUSIPCO 2000, European
Signal Processing Conference 2000, Tampere, Finland, September 4-8,
2000, pp. 437-440.
- L. Besacier, S. Grassi, A. Dufaux, M. Ansorge,
F. Pellandini, "GSM Speech Coding and Speaker recognition", ICASSP
2000, International Conference on Acoustics, Speech, and Signal
Processing, Istanbul, Turkey, June 5-9, 2000, Vol.II, pp. 1085-1088.
- S. Grassi, A. Dufaux, L. Besacier, M. Ansorge,
F. Pellandini, "Speaker Recognition on Compressed Speech", Proc. of the
International COST 254 Workshop on Friendly Exchanging Through the Net,
Bordeaux, France, March 23-24, 2000, pp. 117-122.
- L. Besacier, J. Luettin, G. Maître, E.
Meurville, "Experimental Evaluation of Text-Independent Speaker
Verification on Laboratory and Field Test Databases in the M2VTS
Project", Proc. of the 6th EUROSPEECH 99, European Conference on Speech
Communication and Technologies, Budapest, Hungary, September 5-9, 1999,
Vol. 2, pp. 751-754.
|
|