Modelos de percepción del habla Modelos activos Teoría motriz Teoría del análisis por síntesis Modelos pasivos Modelos auditivos Modelos de detección de rasgos Redes neuronales La teoría cuántica El modelo de la hiper y la hipo articulación Joaquim Llisterri Modelos activos • Motivados por la ausencia de invariancia acústica y perceptiva • Diferentes configuraciones acústicas pueden ser percibidas como el mismo segmento fonológico • La misma configuración acústica puede ser percibida como un segmento fonológico diferente en función del contexto Joaquim Llisterri BLUMSTEIN, S. E. (1980) "Speech Perception: An Overview", in YENIKOMSHIAN, G. - KAVANAGH, J.F.-FERGUSON, C.A. (Eds.) Child Phonology. Vol. II: Perception. New York: Academic Press. pp. 9-21. Joaquim Llisterri La Teoría Motriz (Motor Theory) • La percepción del habla conlleva la decodificación de la relación entre la onda sonora y la producción de los gestos articulatorios • Los gestos articulatorios actuan de mediador entre el estímulo acústico y su percepción • En la percepción el hablante realiza una comparación entre la señal sonora y sus conocimientos de los mecanismos de control de la articulación Joaquim Llisterri LIBERMAN, A.- COOPER, F.- SHANKWEILER, D.- STUDDERT KENNEDY, M. (1967) "Perception of the Speech Code", Psychological Review, 74, 6 : 431-459 "Though we can not exclude the possibility that a purely auditive decoder exists, we find it more plausible to assume that speech is perceived by processes that are also involved in its production. The most general and obvious motivation for such a view is that the perceiver is also a speaker and must be supposed, therefore, to possess all the mechanisms for putting language through the successive coding operations that result eventually in the acoustic signal. It seem unparsimonious to assume that the speaker-listener employs two entirely separate processes of equal status, one for encoding language and the other for decoding it. A simpler assumption is that there is only one process, with appropriate linkages between sensory and motor components” (p.452) Joaquim Llisterri PAAP, K.R. (1975) "Theories of Speech Perception", in MASSARO, D.W. ( Ed.) Understanding Language. New York: Academic Press. pp. 151-207 . • Solapamiento de rasgos articulatorios en la sílaba • Solapamiento de información acústica correspondiente a diferentes segmentos • Adaptado de Liberman (1970) y Cooper (1972) Joaquim Llisterri PAAP, K.R. (1975) "Theories of Speech Perception", in MASSARO, D.W. (Ed.) Understanding Language. New York: Academic Press. pp. 151207 . • La decodificación del mensaje se lleva a cabo comparando la señal acústica con los comandos neuromotores que se activarían en la producción • Liberman et al (1965) Joaquim Llisterri KLATT, D. H. (1988) "Review of Selected Models of Speech Perception", Speech Communication Group Working Papers 17. Cambridge, Mass.: Research Laboratory of Electronics, MIT. pp. 201-262. Joaquim Llisterri La Teoría Motriz Revisada • La unidad básica común a la producción y la percepción es el gesto articulatorio • Los gestos articulatorios son unidades de producción abstractas, subyacentes e intencionales asociadas a los segmentos fonológicos • La percepción se lleva a cabo interpretando directamente los gestos articulatorios subyacentes a los estímulos acústicos Joaquim Llisterri LIBERMAN, A.M.- MATTINGLY, I. (1986) "The Motor Theory of Speech Perception Revised", Cognition 21: 1-36 "The first claim of the motor theory is that the objects of speech perception are the intended phonetic gestures of the speaker, represented in the brain as invariant motor commands that call for movements of the articulators through certain linguistically significant configurations, These gestural commands are the physical reality underlying the traditional phonetic notions - for example "tongue backing", "lip rounding" and "jaw raising" that provide the basis for phonetic categories" (p. 2) Joaquim Llisterri LIBERMAN, A.M.- MATTINGLY, I. (1986) "The Motor Theory of Speech Perception Revised", Cognition 21: 1-36 " (...) perception of the gestures occurs in a specialized mode, different in important ways from the auditory mode, responsible also for the production of phonetic structures, and part of the larger specialization for language. The adaptive function of the perceptual side of this mode (...) is to make the conversion from acoustic signal to gesture automatically (...)” (p.3) Joaquim Llisterri LIBERMAN, A.M.- MATTINGLY, I. (1986) "The Motor Theory of Speech Perception Revised", Cognition 21: 1-36 "On the one side of the module, the motor gestures are not the means to sounds designed to be congenial to the ear; rather, they are, in themselves, the essential phonetic units. On the other side, the sounds are not the true objects of perception, made available for linguistic purposes in some common auditory register: rather, they only supply the information for immediate perception of the gestures" (p.31) Joaquim Llisterri La Teoría del Análisis por Síntesis • La percepción se basa en un sistema de comparación entre el análisis del estímulo y los modelos generados por un conjunto de reglas • Las reglas que crean los modelos abstractos con los que se compara el estímulo son comunes a la producción y a la percepción • La comparación se lleva a cabo mediante un catálogo de descripciones articulatorias y representaciones auditivas Joaquim Llisterri PAAP, K.R. (1975) "Theories of Speech Perception", in MASSARO, D.W. (Ed.) Understanding Language. New York: Academic Press. pp. 151-207. Halle & Stevens (1964) Joaquim Llisterri KLATT, D. H. (1988) "Review of Selected Models of Speech Perception", Speech Communication Group Working Papers 17. Cambridge, Mass.: Research Laboratory of Electronics, MIT. pp. 201-262. Halle & Stevens (1964) Joaquim Llisterri Modelos activos KLATT, D. H. (1988) " Review of Selected Models of Speech Perception", Speech Communication Group Working Papers 17. Cambridge, Mass.: Research Laboratory of Electronics, MIT. pp. 201-262. Joaquim Llisterri Modelos Pasivos • El oyente es sensible únicamente a las estructuras acústicas distintivas • Los estímulos se comparan con representaciones internalizadas de cada una de las categorías fonéticas o se analizan para encontrar su estructura acústica Joaquim Llisterri Modelos Auditivos • El análisis auditivo extrae estructuras subfonémicas de tipo auditivo relacionadas con los rasgos distintivos • A partir de la extracción de parámetros acústicos se lleva a cabo la detección de segmentos fonéticos, con los que se construyen las unidades mayores hasta llegar a la decodificación completa del mensaje Joaquim Llisterri PAAP, K.R. (1975) "Theories of Speech Perception", in MASSARO, D.W. (Ed.) Understanding Language. New York: Academic Press. pp. 151-207. Fant (1967) Joaquim Llisterri Modelos Auditivos • Los modelos auditivos llevan al desarrollo de modelos de extracción directa de rasgos fonéticos o modelos de detección de rasgos Joaquim Llisterri KLATT, D. H. (1988) "Review of Selected Models of Speech Perception", Speech Communication Group Working Papers 17. Cambridge, Mass.: Research Laboratory of Electronics, MIT. pp. 201-262. Modelo de percepción del habla basado en la detección de rasgos Joaquim Llisterri La Teoría Cuántica (Quantal Theory) • Establece las relaciones entre las propiedades articulatorias, acústicas y auditivas • En ciertos casos la configuración articulatoria puede variarse sin variaciones importantes en el resultado acústico • En ciertos casos, un pequeño cambio en la configuración articulatoria produce cambios importantes en la configuración acústica • El mismo fenómeno sucede entre las características acústicas y la respuesta auditiva Joaquim Llisterri STEVENS, K.N. (1989) "On the quantal nature of speech", Journal of Phonetics 17, 1/2: 3-45. Joaquim Llisterri La Teoría Cuántica (Quantal Theory) • Si el valor de un parámetro acústico supera el nivel umbral se produce un cambio en el nivel de la respuesta auditiva • La relación entre características acústicas y auditivas no es continua, sino cuántica Joaquim Llisterri Respuesta auditiva STEVENS, K.N. (1989) "On the quantal nature of speech", Journal of Phonetics 17, 1/2: 3-45. Umbral Respuesta auditiva estable A Umbral Respuesta auditiva estable B Parámetro acústico Joaquim Llisterri La Teoría Cuántica (Quantal Theory) • Discontinuidad entre las características acústicas y la respuesta auditiva • Entre 800Hz y 3000Hz las fibras del nervio auditivo responden a la frecuencia a la que se encuentran los picos de los formantes vocálicos más que a la frecuencia característica de la parte correspondiente de la membrana basilar en la que se encuentran Joaquim Llisterri La Teoría Cuántica (Quantal Theory) • Discontinuidad entre las características acústicas y la respuesta auditiva • Por encima de 3000Hz y con espectros de ruido las fibras del nervio auditivo responden según la frecuencia característica de la parte correspondiente de la membrana basilar en la que se encuentran Joaquim Llisterri La Teoría Cuántica (Quantal Theory) • La diferencia entre los dos tipos de respuesta viene dada por la amplitud de la banda de los filtros (bandas críticas) del sistema auditivo • Entre 800Hz y 3000Hz la amplitud de banda de los formantes es menor que la del filtro auditivo • En un espectro de ruido con frecuencia superior a 3000Hz las amplitudes se aproximan • De este modo se crea una discontinuidad en las respuestas del sistema auditivo a diferentes estímulos acústicos Joaquim Llisterri La Teoría Cuántica (Quantal Theory) Sincronía Excitación Fibra / Pico Espectral Vibración de la membrana basilar en función del estímulo Umbral Vibración de la frecuencia Característica de la fibra Amplitud de banda del estímulo Joaquim Llisterri STEVENS, K.N. (1989) "On the quantal nature of speech", Journal of Phonetics 17, 1/2: 3-45. " (...) there are some articulatory states or configurations or gestures that give rise to well-defined patterns of auditory response in a human listener, such that these patterns are not strongly sensitive to small perturbations or inaccuracies in the articulation. These patterns are distinctive in the sense that if some articulatory parameter crosses over a threshold region there will be a significant change in the auditory response (...) We suggest that this tendency for quantal relations between articulatory and acoustic parameters and between acoustic and auditory parameters is a principal factor shaping the inventory of articulatory states or gestures and their acoustic consequences that are used to signal distinctions in language” (p.3) Joaquim Llisterri Modelos de Procesado en Paralelo • Modelos de extracción de rasgos basados en redes neuronales • Una red está formada por unidades de procesamiento interconectadas. • Las unidades se activan según la información que reciben de las unidades del nivel inferior a las que están conectadas y envían información a otras unidades del nivel superior a las que también están conectadas Joaquim Llisterri Modelos de Procesado en Paralelo • Cada unidad tiene su umbral de excitación y de inhibición • El grado de excitación depende de la fuerza del estímulo • El reconocimiento es el resultado de la combinación de la acción en paralelo de todas las unidades de la red Joaquim Llisterri KLATT, D. H. (1988) "Review of Selected Models of Speech Perception", Speech Communication Group Working Papers 17. Cambridge, Mass.: Research Laboratory of Electronics, MIT. pp. 201-262. La unidad de procesamiento clasifica los patrones de activación de entrada Joaquim Llisterri McCLELLAND, J.L.- ELMAN, J.L. (1986) "The TRACE Model of Speech Perception", Cognitive Psychology 18: 1-86. • Primer nivel: detectores de rasgos fonéticos extraídos a partir de las propiedades espectrales de la señal acústica • Segundo nivel: decisiones fonémicas en función de los rasgos fonéticos detectados • Tercer nivel: detección de palabras en función de las unidades fonémicas detectadas Joaquim Llisterri KLATT, D. H. (1988) "Review of Selected Models of Speech Perception", Speech Communication Group Working Papers 17. Cambridge, Mass.: Research Laboratory of Electronics, MIT. pp. 201-262. El modelo TRACE McLelland & Elman (1986) Joaquim Llisterri McCLELLAND, J.L.- ELMAN, J.L. (1986) "The TRACE Model of Speech Perception", Cognitive Psychology 18: 1-86. " (...) the unit for /g/ has mutually excitatory connections with units for words containing /g/, and has mutually inhibitory connections with units for other phonemes. When the activation of a unit exceeds some threshold activation value, it begins to influence the activation of other units via its outgoing connections; the strength of these signals depends on the degree of the sender's activation. The state of the system at a given point in time represents the current status of various possible hypothesis about the input: information processing amounts to the evolution of that state over time. Throughout the course of processing, each unit is continually receiving input from other units, continually updating its activation on the basis of these inputs , and, if it is over threshold, it is continually sending excitatory and inhibitory signals to other units. This "interactive-activation" process allows each hypothesis both to constrain and be constrained by other mutually consistent or inconsistent hypotheses" (p. 3) Joaquim Llisterri El modelo de la Hiperarticulación y la Hipoarticulación (H&H) • Problemas en la definición de la invarianza a distintos niveles: • Articulatorio • Objetivos espaciales que debe alcanzar el locutor para la producción de un determinado segmento Joaquim Llisterri El modelo de la Hiperarticulación y la Hipoarticulación (H&H) • Problemas en la definición de la invarianza a distintos niveles: • Acústico • Propiedades espectrales de cada clase de consonantes Joaquim Llisterri El modelo de la Hiperarticulación y la Hipoarticulación (H&H) • Problemas en la definición de la invarianza a distintos niveles: • Auditivo • Mantenimiento de elementos constantes como el timbre vocálico a pesar de cambios en el sexo, la edad o el esfuerzo vocal del hablante Joaquim Llisterri El modelo de la Hiperarticulación y la Hipoarticulación (H&H) • La invarianza debe definirse en función de la comprensión del mensaje por parte del oyente • La percepción del habla es el resultado de una combinación entre la información contextual y la información presente en la señal acústica Joaquim Llisterri El modelo de la Hiperarticulación y la Hipoarticulación (H&H) • El comportamiento articulatorio se rige por la plasticidad - reorganización orientada hacia el oyente - y la economía - simplificación en beneficio del hablante • El comportamiento auditivo se rige por la información presente en la señal acústica modulada por la información existente en el contexto Joaquim Llisterri El modelo de la Hiperarticulación y la Hipoarticulación (H&H) • La variabilidad fonética es el resultado de la adaptación al intercambio de información entre el hablante y el oyente Joaquim Llisterri LINDBLOM, B. (1990) "Explaining Phonetic Variation: A Sketch of the H and H Theory", in HARDCASTLE, W.J.- MARCHAL, A. (Eds.) Speech Production and Speech Modelling. Dordecht: Kluwer Academic Publishers (NATO ASI Series D: Behavioural and Social Sciences, vol 55) pp. 403-439. Joaquim Llisterri El modelo de la Hiperarticulación y la Hipoarticulación (H&H) • Para que el habla sea inteligible la suma de la información explícita en la onda sonora y la información contextual debe alcanzar un cierto umbral • Variabilidad adaptativa en el comportamiento del hablante • Necesidad de un contraste suficiente entre las características de la señal para llegar a la discriminación de las unidades que permita la comprensión del mensaje Joaquim Llisterri