Miguel Ángel Caraballo Morcillo Anteproyecto Fin de Carrera ANTEPROYECTO FIN DE CARRERA Alumno: Miguel Ángel Caraballo Morcillo. Tutor: D. Ricardo de Córdoba Herralde. Título del proyecto: Aplicación de técnicas de adaptación a locutor en sistemas de reconocimiento de habla para el control de un robot 1. OBJETIVOS El objetivo de este proyecto es la implementación de un sistema de reconocimiento de habla independientes del locutor y su posterior adaptación a un locutor concreto utilizando la cantidad mínima de datos de adaptación. El proyecto está englobado dentro de un proyecto del Grupo de Tecnología del Habla para desarrollar un sistema de reconocimiento de voz con adaptación a locutor que se podrá aplicar en los proyectos TINA (UPM-CAM. REF: R05/10922), ROBINT (DPI2004-07908-C02) y EDECAN (TIN2005-08660-C04) incluyendo la adaptación a locutor en todos ellos. Dentro de este objetivo principal pueden detallarse los siguientes objetivos secundarios: Estudiar y evaluar las distintas técnicas empleadas para la adaptación de un sistema de reconocimiento de habla independiente del locutor a un locutor concreto. Con la adaptación se consigue mejorar la tasa de reconocimiento para el locutor que va a utilizar el sistema. El objetivo es aproximarnos a la tasa de reconocimiento de un sistema dependiente del locutor pero utilizando menos datos de entrenamiento, que resultan muy costosos de obtener. Comparar distintas técnicas de adaptación basadas en MAP y MLLR. En MLLR se estudiará el tamaño del árbol y la forma de construirlo en función de la cantidad de datos disponibles para la adaptación. En MAP se estudiarán distintas alternativas para la adaptación de gaussianas no aparecidas en los datos de adaptación. También se van a explorar técnicas para adaptación rápida de locutor, como las basadas en auto-voces y las que definen agrupaciones de locutores con una cierta similitud acústica (para los cuales se entrenan modelos acústicos diferenciados). En este último caso, una ponderación adecuada de estos modelos acorde con el análisis del segmento de señal a reconocer permitirá adaptarlos a sus características. -1- Miguel Ángel Caraballo Morcillo 2. Anteproyecto Fin de Carrera MÉTODO Y FASES DEL TRABAJO Se detalla en este punto el método de trabajo que se va a seguir en el desarrollo del proyecto, así como las fases de que consta el mismo, y su duración temporal prevista. FASE 1 (2 Meses): Desarrollo de un sistema de reconocimiento de habla continua independiente del locutor basado en la base de datos Sony. Está fase representa una primera toma de contacto con la herramienta HTK que ha sido la elegida para el desarrollo de este proyecto. En ella se implementará un sistema de reconocimiento de habla continua independiente del locutor, y se adaptará y modificará, en la medida en que sea necesario, la herramienta HTK a las necesidades concretas de este proyecto. Para ello se utilizará la base de datos Sony, que ya ha sido utilizada con anterioridad en trabajos previos del Grupo de Tecnologías del Habla. Concretamente, será necesario procesar la segunda parte de la base de datos, generar nuevas listas y diccionarios y comprobar que la trascripción de las frases es correcta en algunos de los casos. FASE 2 (2 Meses): Adaptación del sistema independiente del locutor de la fase anterior a los locutores finales. En esta fase se va a adaptar el sistema desarrollado a cada uno de los locutores que lo utilizarán. Con ello lograremos una mejora significativa de la tasa de reconocimiento del sistema con un número limitado de datos de adaptación. Se utilizarán las siguientes técnicas de adaptación: Adaptación de modelos utilizando MLLR (Regresión Lineal de Máxima Verosimilitud). Estas técnicas calculan una serie de transformaciones que reducen las diferencias entre el conjunto inicial de modelos y los datos de adaptación. Se estudiará el tamaño del árbol y la forma de construirlo en función de la cantidad de datos disponibles para la adaptación. Adaptación de modelos utilizando MAP (Máximo A Posteriori). Partiendo de los modelos independientes de locutor obtenidos en la fase anterior, este método maximiza la verosimilitud de los datos de adaptación. Así mismo, se trabajará en técnicas para la selección de listas óptimas de datos de adaptación dadas unas listas globales con todos los datos disponibles para el locutor. FASE 3 (Simultánea a la Fase 3): Evaluación de los resultados de la adaptación y optimización de la misma. De manera simultánea a la fase anterior se llevará a cabo una evaluación de los resultados obtenidos con las diferentes técnicas de adaptación. De modo que se realimentarán los resultados obtenidos a la fase anterior para mejorar su rendimiento. -2- Miguel Ángel Caraballo Morcillo Anteproyecto Fin de Carrera FASE 4 (2 Meses): Exploración de técnicas avanzadas de adaptación Se estudiarán técnicas de adaptación más avanzadas. En MAP se estudiarán distintas alternativas para la adaptación de gaussianas no aparecidas en los datos de adaptación. Se explorarán técnicas para adaptación rápida de locutor, como las basadas en autovoces y las que definen agrupaciones de locutores con una cierta similitud acústica (para los cuales se entrenan modelos acústicos diferenciados). En este último caso, una ponderación adecuada de estos modelos acorde con el análisis del segmento de señal a reconocer permitirá adaptarlos a sus características. FASE 6 (1 Mes): Redacción del Proyecto. En esta fase se llevará a cabo la redacción de la memoria del proyecto. 3. MATERIAL NECESARIO El material requerido para el desarrollo del proyecto es el detallado a continuación: Recursos Hardware: Estaciones de trabajo UNIX/Linux y ordenadores personales donde ejecutar procesos en paralelo. CD-ROM con las bases de datos necesarias para el entrenamiento y el reconocimiento. Recursos Software: 4. Sistema Operativo: Compilador C/C++ : Control de versiones: Kit de herramientas para construir HMM: Procesador de textos: GNU/Linux. GNU/gcc. CVS. HTK v.3.3. Microsoft Word. BIBLIOGRAFÍA “C manual de referencia”. H. Schildt. McGraw Hill 1996. “Hidden Markov models for speech recognition”. X.D. Huang, Y. Ariki, M.A. Jack. Edinburgh University Press 1990. “The HTK Book (for HTK Version 3.3)”. Steve Young, Dan Kershaw, Julian Odell, Dave Ollason, Valtcho Valtchev, Phil Woodland. -3- Miguel Ángel Caraballo Morcillo Anteproyecto Fin de Carrera “Sistemas de reconocimiento de habla continua y aislada: comparación y optimización de los sistemas de modelado y parametrización”. Ricardo de Córdoba Herralde. Tesis doctoral. ETSIT. UPM 1995. “Estudio de Técnicas de Adaptación a Locutor en Sistemas de Reconocimiento de Habla”, Díaz, Sergio, Proyecto de Fin de Carrera, UPM, 2003. Artículos relevantes: “Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models”. Legetter, C.J., Woodland, P.C. Computer Speech and Language, 9, pp 171-185, 1995. “Cluster Adaptive Training of Hidden Markov Models”. Gales, M.J.F., IEEE Transactions on Speech and Audio Processing, Vol. 8, Nº 4, Julio 2000. “The Generation and Use of Regression Class Trees for MLLR Adaptation”. Gales, M.J.F., Universidad de Cambridge, Agosto 1996 “Maximum Likelihood Linear Transformations for HMM-based speech recognition”. Gales, M.J.F., Computer Speech and Language, 12, pp 75-98, 1998 “Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains”. Gauvain, J.L., Lee, C.H., IEEE Transactions on Speech and Audio Processing, Vol. 2, No. 2, Abril 1994 “Adaptive methods for speech and speaker recognition”. Junqua, J.C., Kuhn, R. Tutorial de la International Conference on Spoken Language Processing (ICSLP), 2002. “Structural MAP Speaker Adaptation Using Hierarchical Priors”. Shinoda, K., Lee, C.H. Proc. IEEE Workshop on Automatic Speech Recognition and Understanding, pp. 381-388, Santa Barbara, 1997 “Speaker Adaptation: Techniques and Challenges”. Woodland, P.C. Proc. IEEE Workshop on Automatic Speech Recognition and Understanding, pp. 85-90, 1999. “Self-Adaptation Using Eigenvoices for Large-Vocabulary Continuous Speech Recognition”. P. Nguyen, L. Rigazio, R. Kuhn, J.-C. Junqua, and C. Wellekens, in ISCA ITR Workshop on Adaptation Methods for Speech Recognition, pp. 3740, 2001. “Improved Cross-Task Recognition Using MMIE Training”. Cordoba, R., P.C. Woodland & M.J.F. Gales. IEEE ICASSP 2002, pp. 85-88. “Cross-Task Adaptation and Speaker Adaptation in Air Traffic Control Tasks”. Córdoba, R., J. Ferreiros, J.M. Montero, F. Fernández, J. Macías-Guarasa, S. Díaz. III Jornadas en Tecnología del Habla, pp. 93-97. Noviembre 2004. “Cross-Task and Speaker Adaptation in a Speech Recognition System for Air Traffic Control”. Córdoba, R., Ferreiros, J., San-Segundo, R., Macías-Guarasa, J., Montero, J. M., Fernández, F., D’Haro, L. F., Pardo, J. M. (2006). IEEE Aerospace and Electronics Systems Magazine. Aceptado y pendiente de publicación. -4-