Aplicación de técnicas de adaptación a locutor en sistemas de

Anuncio
Miguel Ángel Caraballo Morcillo
Anteproyecto Fin de Carrera
ANTEPROYECTO FIN DE CARRERA
Alumno: Miguel Ángel Caraballo Morcillo.
Tutor: D. Ricardo de Córdoba Herralde.
Título del proyecto:
Aplicación de técnicas de adaptación a locutor en sistemas de reconocimiento de habla
para el control de un robot
1.
OBJETIVOS
El objetivo de este proyecto es la implementación de un sistema de
reconocimiento de habla independientes del locutor y su posterior adaptación a un
locutor concreto utilizando la cantidad mínima de datos de adaptación. El proyecto está
englobado dentro de un proyecto del Grupo de Tecnología del Habla para desarrollar un
sistema de reconocimiento de voz con adaptación a locutor que se podrá aplicar en los
proyectos TINA (UPM-CAM. REF: R05/10922), ROBINT (DPI2004-07908-C02) y
EDECAN (TIN2005-08660-C04) incluyendo la adaptación a locutor en todos ellos.
Dentro de este objetivo principal pueden detallarse los siguientes objetivos secundarios:

Estudiar y evaluar las distintas técnicas empleadas para la adaptación de un
sistema de reconocimiento de habla independiente del locutor a un locutor
concreto. Con la adaptación se consigue mejorar la tasa de reconocimiento para
el locutor que va a utilizar el sistema. El objetivo es aproximarnos a la tasa de
reconocimiento de un sistema dependiente del locutor pero utilizando menos
datos de entrenamiento, que resultan muy costosos de obtener.

Comparar distintas técnicas de adaptación basadas en MAP y MLLR. En MLLR
se estudiará el tamaño del árbol y la forma de construirlo en función de la
cantidad de datos disponibles para la adaptación. En MAP se estudiarán distintas
alternativas para la adaptación de gaussianas no aparecidas en los datos de
adaptación.

También se van a explorar técnicas para adaptación rápida de locutor, como las
basadas en auto-voces y las que definen agrupaciones de locutores con una cierta
similitud acústica (para los cuales se entrenan modelos acústicos diferenciados).
En este último caso, una ponderación adecuada de estos modelos acorde con el
análisis del segmento de señal a reconocer permitirá adaptarlos a sus
características.
-1-
Miguel Ángel Caraballo Morcillo
2.
Anteproyecto Fin de Carrera
MÉTODO Y FASES DEL TRABAJO
Se detalla en este punto el método de trabajo que se va a seguir en el desarrollo
del proyecto, así como las fases de que consta el mismo, y su duración temporal
prevista.
FASE 1 (2 Meses): Desarrollo de un sistema de reconocimiento de habla continua
independiente del locutor basado en la base de datos Sony.
Está fase representa una primera toma de contacto con la herramienta HTK que ha sido
la elegida para el desarrollo de este proyecto. En ella se implementará un sistema de
reconocimiento de habla continua independiente del locutor, y se adaptará y modificará,
en la medida en que sea necesario, la herramienta HTK a las necesidades concretas de
este proyecto.
Para ello se utilizará la base de datos Sony, que ya ha sido utilizada con anterioridad en
trabajos previos del Grupo de Tecnologías del Habla. Concretamente, será necesario
procesar la segunda parte de la base de datos, generar nuevas listas y diccionarios y
comprobar que la trascripción de las frases es correcta en algunos de los casos.
FASE 2 (2 Meses): Adaptación del sistema independiente del locutor de la fase
anterior a los locutores finales.
En esta fase se va a adaptar el sistema desarrollado a cada uno de los locutores que lo
utilizarán. Con ello lograremos una mejora significativa de la tasa de reconocimiento
del sistema con un número limitado de datos de adaptación. Se utilizarán las siguientes
técnicas de adaptación:

Adaptación de modelos utilizando MLLR (Regresión Lineal de Máxima
Verosimilitud). Estas técnicas calculan una serie de transformaciones que
reducen las diferencias entre el conjunto inicial de modelos y los datos de
adaptación. Se estudiará el tamaño del árbol y la forma de construirlo en función
de la cantidad de datos disponibles para la adaptación.

Adaptación de modelos utilizando MAP (Máximo A Posteriori). Partiendo de los
modelos independientes de locutor obtenidos en la fase anterior, este método
maximiza la verosimilitud de los datos de adaptación.
Así mismo, se trabajará en técnicas para la selección de listas óptimas de datos de
adaptación dadas unas listas globales con todos los datos disponibles para el locutor.
FASE 3 (Simultánea a la Fase 3): Evaluación de los resultados de la adaptación y
optimización de la misma.
De manera simultánea a la fase anterior se llevará a cabo una evaluación de los
resultados obtenidos con las diferentes técnicas de adaptación. De modo que se
realimentarán los resultados obtenidos a la fase anterior para mejorar su rendimiento.
-2-
Miguel Ángel Caraballo Morcillo
Anteproyecto Fin de Carrera
FASE 4 (2 Meses): Exploración de técnicas avanzadas de adaptación
Se estudiarán técnicas de adaptación más avanzadas. En MAP se estudiarán distintas
alternativas para la adaptación de gaussianas no aparecidas en los datos de adaptación.
Se explorarán técnicas para adaptación rápida de locutor, como las basadas en autovoces y las que definen agrupaciones de locutores con una cierta similitud acústica (para
los cuales se entrenan modelos acústicos diferenciados). En este último caso, una
ponderación adecuada de estos modelos acorde con el análisis del segmento de señal a
reconocer permitirá adaptarlos a sus características.
FASE 6 (1 Mes): Redacción del Proyecto.
En esta fase se llevará a cabo la redacción de la memoria del proyecto.
3.
MATERIAL NECESARIO
El material requerido para el desarrollo del proyecto es el detallado a continuación:
Recursos Hardware:


Estaciones de trabajo UNIX/Linux y ordenadores personales donde ejecutar
procesos en paralelo.
CD-ROM con las bases de datos necesarias para el entrenamiento y el
reconocimiento.
Recursos Software:





4.
Sistema Operativo:
Compilador C/C++ :
Control de versiones:
Kit de herramientas para construir HMM:
Procesador de textos:
GNU/Linux.
GNU/gcc.
CVS.
HTK v.3.3.
Microsoft Word.
BIBLIOGRAFÍA

“C manual de referencia”. H. Schildt. McGraw Hill 1996.

“Hidden Markov models for speech recognition”. X.D. Huang, Y. Ariki, M.A.
Jack. Edinburgh University Press 1990.

“The HTK Book (for HTK Version 3.3)”. Steve Young, Dan Kershaw, Julian
Odell, Dave Ollason, Valtcho Valtchev, Phil Woodland.
-3-
Miguel Ángel Caraballo Morcillo
Anteproyecto Fin de Carrera

“Sistemas de reconocimiento de habla continua y aislada: comparación y
optimización de los sistemas de modelado y parametrización”. Ricardo de
Córdoba Herralde. Tesis doctoral. ETSIT. UPM 1995.

“Estudio de Técnicas de Adaptación a Locutor en Sistemas de Reconocimiento
de Habla”, Díaz, Sergio, Proyecto de Fin de Carrera, UPM, 2003.
Artículos relevantes:
 “Maximum likelihood linear regression for speaker adaptation of continuous
density hidden Markov models”. Legetter, C.J., Woodland, P.C. Computer
Speech and Language, 9, pp 171-185, 1995.
 “Cluster Adaptive Training of Hidden Markov Models”. Gales, M.J.F., IEEE
Transactions on Speech and Audio Processing, Vol. 8, Nº 4, Julio 2000.
 “The Generation and Use of Regression Class Trees for MLLR Adaptation”.
Gales, M.J.F., Universidad de Cambridge, Agosto 1996
 “Maximum Likelihood Linear Transformations for HMM-based speech
recognition”. Gales, M.J.F., Computer Speech and Language, 12, pp 75-98,
1998
 “Maximum a Posteriori Estimation for Multivariate Gaussian Mixture
Observations of Markov Chains”. Gauvain, J.L., Lee, C.H., IEEE Transactions
on Speech and Audio Processing, Vol. 2, No. 2, Abril 1994
 “Adaptive methods for speech and speaker recognition”. Junqua, J.C., Kuhn, R.
Tutorial de la International Conference on Spoken Language Processing
(ICSLP), 2002.
 “Structural MAP Speaker Adaptation Using Hierarchical Priors”. Shinoda, K.,
Lee, C.H. Proc. IEEE Workshop on Automatic Speech Recognition and
Understanding, pp. 381-388, Santa Barbara, 1997
 “Speaker Adaptation: Techniques and Challenges”. Woodland, P.C. Proc. IEEE
Workshop on Automatic Speech Recognition and Understanding, pp. 85-90,
1999.
 “Self-Adaptation Using Eigenvoices for Large-Vocabulary Continuous Speech
Recognition”. P. Nguyen, L. Rigazio, R. Kuhn, J.-C. Junqua, and C. Wellekens,
in ISCA ITR Workshop on Adaptation Methods for Speech Recognition, pp. 3740, 2001.
 “Improved Cross-Task Recognition Using MMIE Training”. Cordoba, R., P.C.
Woodland & M.J.F. Gales. IEEE ICASSP 2002, pp. 85-88.
 “Cross-Task Adaptation and Speaker Adaptation in Air Traffic Control Tasks”.
Córdoba, R., J. Ferreiros, J.M. Montero, F. Fernández, J. Macías-Guarasa, S.
Díaz. III Jornadas en Tecnología del Habla, pp. 93-97. Noviembre 2004.
 “Cross-Task and Speaker Adaptation in a Speech Recognition System for Air
Traffic Control”. Córdoba, R., Ferreiros, J., San-Segundo, R., Macías-Guarasa,
J., Montero, J. M., Fernández, F., D’Haro, L. F., Pardo, J. M. (2006). IEEE
Aerospace and Electronics Systems Magazine. Aceptado y pendiente de
publicación.
-4-
Descargar