Digitalización de Sonido Emilia Gómez Gutiérrez Anàlisi, Síntesi i Processament del So I Departament de Sonologia Escola Superior de Musica de Catalunya [email protected] 20 de febrero de 2012 Índice 1. Repaso de conceptos básicos 2 2. Introducción a la digitalización de sonidos 2 3. Muestreo 3.1. Frecuencia de Nyquist . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Aliasing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3. Amplitud, energia y potencia de una señal . . . . . . . . . . . . . 4 5 6 7 4. Cuantización 4.1. Cuantización uniforme . . . . . . . . . . . . . . . . . . . . . . . . 4.2. Ruido de cuantización . . . . . . . . . . . . . . . . . . . . . . . . 4.3. Cuantización no uniforme . . . . . . . . . . . . . . . . . . . . . . 7 8 8 9 5. Codificación 10 6. Rango dinámico 10 7. Ventajas del formato digital frente al analógico 11 8. Bibliografía 12 9. Cuestiones de evaluación 13 10.Bibliografia 14 1 1. Repaso de conceptos básicos El sonido es un fenómeno perceptual que se produce cuando un objeto entra en vibración mecánica, la cual se traduce a una variación de la presión atmosférica en el aire que envuelve el objeto. La naturaleza de dicha vibración puede ser periódica o no periódica, o incluso una combinación entre las dos. Las vibraciones periódicas generan, en general, una sensación de altura, y las no periódicas una sensación de ruido. Los sonidos naturales son casi todos semiperiódicos, es decir, corresponden a una combinación de vibraciones periódicas y no periódicas. Estas variaciones se denominan comúnmente formas de onda. Las formas de onda más simples son las funciones sinusoidales puras: sin y cos. x(t) = A · sin(2πf0 t + φ) Dicha función se caracteriza por: Frecuencia: f0 . Tasa de repetición en ciclos por segundo (Hz). Período: T = 1 f0 . Duración de un ciclo de la forma de onda. Amplitud: A. Fase: φ. Fase en el instante inicial t = 0, x(0) = A · sin(φ). Los sonidos naturales contienen diversas frecuencias, además de la fundamental, que forman un sonido complejo y da lugar a la percepción del timbre. Para todo sonido periódico, la duración de un motivo recurrente de la forma de onda seguirá siendo el período T . El número de veces que dicho período se repite en un segundo (es decir, la tasa de repetición, la inversa del período) nos dará su frecuencia fundamental f0 = T1 . La frecuencia fundamental de una onda determina su altura. A las frecuencias adicionales se les denomina armónicos o parciales, según sea su frecuencia múltiplo o no de la frecuencia fundamental. 2. Introducción a la digitalización de sonidos Ahora veremos en profundidad conceptos relacionados con: Muestreo (Sampling) Cuantización (Quantization) Codificación (Codification) de señales de audio. Las vibraciones sonoras pueden ser representadas como señales electrónicas a través de algunos dispositivos (por ejemplo, un micrófono), que convierte estas vibraciones en una señal de voltaje o tensión dependiente del tiempo. El resultado de la conversión se denomina señal analógica (analog signal). Las señales analógicas son continuas en el sentido en que consisten en un continuo de valores. 2 Una señal analógica puede grabarse en una cinta magnética mediante tecnología electromagnética. Con el fin de reproducir este sonido grabado, la señal es escaneada y enviada a un altavoz que reproduce las vibraciones del sonido en el aire. Como vimos anteriormente, los sintetizadores analógicos tienen la función básica de crear sonidos desde cero utilizando dispositivos electrónicos capaces de producir este tipo de señales adecuadas para la vibración de los altavoces. Por lo tanto, las señales analógicas pueden ser manipuladas, grabadas y amplificadas mediante técnicas analógicas. En la Figura 1 se representa la cadena de reproducción de audio analógico. Figura 1: Cadena de reproducción de audio analógico La reproducción analógica, aunque es adecuada para algunas aplicaciones, posee un defecto claro: cuando una grabación analógica se copia, estamos añadiendo una cantidad imporante de ruido. Por otra parte, cuando amplificamos una señal, también amplificamos el ruido presente en la misma. Sin embargo, los ordenadores son máquinas digitales y no analógicas, es decir, sus operaciones se basan en matemáticas discretas, término opuesto a 3 continuo. Las entidades son contadas en vez de ser medidas o pesadas, por lo que los cálculos deben trabajar con números finitos y exactos. Ejemplo: analogía con el reloj analógico y digital. En el reloj analógico, las agujas tienen un movimiento continuo, y en el digital los dígitos cambian dando saltos. La mayor dificultad en utilizar el ordenador para síntesis de sonido es que se trabaja sólo en el dominio discreto, mientras que el conocimiento científico que se tiene sobre el sonido es esencialmente analógico. Es más, los ordenadores trabajan con números binarios (combinaciones de 0 y 1) en contraste con el sistema decimal (valores del 0 al 9) que es utilizado en el lenguaje científico. La unidad mínima de información con la que el ordenador trabaja es el bit, o binary digit. Para trabajar con sonidos en el ordenador, las señales analógicas tienen que ser convertidas a formato digital, es decir, el sonido debe ser representado con números binarios. En el sentido contrario, las señales digitales deben ser convertidas a formato analógico para escucharlas. Por lo tanto, el ordenador tiene que tener dos tipos de conversores de datos: convertidor analógico a digital (ADC) y digital a analógico (DAC). En la figura 2 se representan los pasos principales de una conversión analógico/digital, proceso que explicaremos a continuación. Figura 2: Pasos para la digitalización de una señal analógica CAD 3. Muestreo El bloque de muestreo funciona midiendo la amplitud de la señal continua a intervalos de igual duración. Cada valor que se mide se denomina muestra (o sample) de la señal. Esto matemáticamente se puede expresar de la siguiente 4 manera: muestrear una señal es tomar valores de una señal continua x(t) a determinados instantes de tiempo tn : xc (t = tn ) = x[n], tn = n · Tm La distancia temporal o el intervalo de tiempo que hay entre dos muestras consecutivas se denomina período de muestreo, y se mide en segundos. Su inversa fm = T1m se denomina frecuencia de muestreo o sampling rate, y se mide en ciclos (muestras) por segundo o Hz. Por lo tanto, en el proceso de muestreo pasamos de una señal continua a un conjunto de muestras (es decir, puntos discretos en el tiempo). Es importante muestrear la señal lo suficientemente rápido como para capturar toda la información. El teorema de muestreo, o teorema de Nyquist, demuestra que para representar adecuadamente una sinusoide es necesario tener al menos dos muestras por cada ciclo de la sinusoide. Por tanto, para representar adecuadamente un sonido, la frecuencia de muestreo fm tiene que ser mayor, como mínimo, del doble de la frecuencia más alta contenida en la señal: fm ≥ 2 · fmaxima 1 0.8 0.6 0.4 0.2 0 −0.2 −0.4 −0.6 −0.8 −1 0 50 100 150 200 250 300 350 400 450 Figura 3: Señal continua 3.1. Frecuencia de Nyquist Se denomina frecuencia de Nyquist a la frecuencia más alta que se puede capturar con una determinada frecuencia de muestreo fm : fm 2 Los sonidos musicales no contienen información significante por arriba de 10KHz, por lo que 20KHz es una frecuencia de muestreo adecuada. Los reproductores de CD a su vez utilizan una frecuencia de muestreo de 44,1KHz. El límite superior de audición de una persona joven y sana es de 20KHz, por lo que podemos decir que los reproductores de CD “exageran” al muestrear. En la práctica se utilizan las siguientes frecuencias de muestreo: fN yquist = 16.000 Hz para micrófonos (wideband). 5 1 0.8 0.6 0.4 0.2 0 −0.2 −0.4 −0.6 −0.8 −1 0 5 10 15 20 25 30 Figura 4: Señal muestreada 8.000 Hz para teléfono (el teléfono se filtra en 4KHz, de 300Hz a 3400 Hz). 3.2. Aliasing Una onda compleja puede componerse de sinusoides a frecuencias muy altas, las cuales oscilan tan rápidamente que no son representadas correctamente por las muestras de la señal, al estar éstas demasiado espaciadas entre sí. A este fenómenos se le denomina aliasing, y ocurre cuando la señal que se muestrea tiene componentes de frecuencia que son mayores que la mitad de la frecuencia de muestreo o frecuencia de Nyquist. Para estas frecuencias no se cumple el teorema de muestreo y se produce, por lo tanto, este fenómeno. fm 2 Estas componentes de frecuencia corrompen la señal original introduciendo componentes que se denominan alias. Este efecto está ilustrado en la Figura 5. f ≥ fN yquist ; f ≥ Figura 5: Ejemplo de aliasing. (a,d,g): señales sinusoidales de entrada de un ADC. (b,e,h): trenes de impulsos a la frecuencia de nuestreo. (c,f,i): señal reconstruida a la salida del DAC. Las frecuencias que aparecen pueden calcularse como 6 fr = fm − fx siendo fm la frecuencia de muestre y fx la frecuencia de la señal. En el dominio visual se produce el mismo fenómeno bajo el efecto de una luz estroboscópica o en el cine (e.g. impresión de rotación en el sentido inverso de las ruedas de los coches). Las soluciones posibles para este problema son las siguientes: Aumentar la frecuencia de muestreo para que esta sea mayor o igual al doble de la frecuencia máxima de la señal. Realizar un filtrado de las frecuencias por encima de la frecuencia de Nyquist: estos filtros se denominan filtros antialiasing y son filtros de tipo paso bajo (Low-Pass Filter)1 . 3.3. Amplitud, energia y potencia de una señal Hemos definido la amplitud de una señal mediante la función x[n]. Definiremos su energía como: Ex = N X x[i]2 i=1 La potencia de una señal es su energía por unidad de tiempo, y se mide en Julios por Segundo (Watios): 1 Ex = σx2 N Generalmente se utiliza el valor RMS, que es la raiz cuadrada del valor anterior: v u r N u1 X 1 x[i]2 Ex = t RM S = σx = N N i=1 Px = 4. Cuantización Una vez la señal muestreada nos encontramos con un conjunto de muestras o de valores continuos de la amplitud de la señal. La cuantización se realiza al limitar los posibles valores de amplitud de una señal, definiendo una serie discreta (no continua) de valores posibles. x̂[n] = Q{x[n]} El número de posibles valores de amplitud viene determinado por la resolución del convertidor (CAD o CDA). La resolución de los convertidores depende del tamaño de la palabra que se utiliza para representar cada una de las muestras de la señal. La resolución de un convertidor se mide en número de bits de la palabra que utiliza, y un convertidor de n bits de resolución cuantizará a 1 Los filtros se verán en un tema posterior 7 2n valores de la señal. Ejemplo: un sistema con una resolución de 4 bits tendría sólo 16 valores diferentes de señal (24 ), y un sistema de 16 bits tendría 216 = 65536 valores diferentes. Cuanto mayor sea la resolución del convertidor, mayor precisión tendremos en la representación de la señal. 1 0.8 0.6 0.4 0.2 0 −0.2 −0.4 −0.6 −0.8 −1 0 5 10 15 20 25 30 Figura 6: Señal cuantizada Usualmente se emplea una cuantización de 8 bits (256 niveles), 16 bits (65 K niveles) o 32 bits (232 niveles). Existen varios tipos de cuantización. 4.1. Cuantización uniforme La cuantización más simple distribuye los valores reales de manera uniforme en los niveles elegidos. Por tanto, tanto los niveles de decisión como los de reconstrucción están uniformemente distribuidos. A éste tipo de cuantización se le denomina cuantización uniforme PCM (Pulse Code Modulation). Este tipo de cuantización se ilustra en la figura 7, y está pensada para señales que tengan una distribución de potencia uniforme en el rango 2Xm 4.2. Ruido de cuantización El ruido de cuantización aparece en el proceso de cuantización, en el cual sustituimos la amplitud de la muestra por la amplitud más cercana del conjunto de valores admitidos. Se define como la diferencia entre la señal muestreada antes de cuantizar y la señal muestreada cuantizada: e[n] = x[n] − x̂[n] x[n] sería el valor de la muestra sin cuantizar, x̂[n] sería el valor de la muestra cuantizada, y e[n] sería el valor del ruido de cuantización para la muestra número n. El ruido de cuantización representa la pérdida de calidad de sonido al cuantizar. Existen dos tipos de errores de cuantización. En primer lugar, hay errores dentro del rango dinámico de cuantización (2Xm ). En ése caso, se tiene que cumplir que ∆ −∆ < e[n] < 2 2 8 Figura 7: Cuantización uniforme Entonces, si el rango pico-a-pico de la señal es 2Xm y B es el número de bits del cuantizador: 2Xm 2B Definimos la relación señal a ruido como la relación entre la potencia de la señal y la potencia del ruido de cuantización. Podemos aproximar la relación señal a ruido del cuantizador como ∆= SN RQ = 10log( Xm σx2 ) ) = 6,02B + 4,78 − 20log10 ( 2 σe σx Donde σx mide la energía RMS de la señal a cuantizar. Por tanto, ganamos 6 dB por cada bit. En segundo lugar, hay errores cuando la señal está fuera del rango dinámico de cuantización. Tendremos entonces que redefinir el valor entre picos. 4.3. Cuantización no uniforme Normalmente, en las señales sonoras, los valores bajos son más comunes que los altos, por lo cual hacemos pasos de cuantización más pequeños en valores bajos y mayores en los altos. Tipos comunes de cuantizadores no uniformes son los de ley A (Europa) y ley µ (USA). En éste tipo de cuantizadores, por ejemplo, un cuantizador no uniforme de 7 bits es comparable a uno uniforme de 12 bits. Éste tipo de cuantizadores se denominan log-PCM y se han utilizado tradicionalmente en telefonía. Como resultado, las muestras se distribuyen linealmente en los niveles bajos y logarítmicamente en los niveles altos. 9 Figura 8: Cuantizador no uniforme de 3 bits 5. Codificación El proceso de codificación consiste en asignar un código binario o conjunto de bits a cada uno de los valores posibles de las muestras de la señal. Hay muchas posibilidades de realizar este proceso de codificación. Se denomina códec (abreviatura para codificador/decodificador) es el código específico que se utiliza para codificar y decodificar datos. El códec incluye parámetros referentes a todo el proceso de digitalización, indicando cómo se tiene que realizar el proceso de conversion: Número de canales: monoaural, binaural o multicanal. Frecuencia de muestreo. Resolución: número de bits. Como hemos visto en el punto anterior, cuanto mayor sea el número de bits que utilicemos, mayor resolución tendremos y menor ruido de cuantización. Por otra parte, tendremos palabras de un tamaño mayor, por lo que se tendrá que llegar a un compromiso entre espacio de almacenamiento y resolución. Bit rate: velocidad o tasa de transferencia (en bits por segundo). Pérdida: algunos códecs realizan una compresión del sonido, y por tanto eliminan cierta cantidad de información, y el sonido resultante puede tener algunas pérdidas. 6. Rango dinámico Al establecer del conjunto de valores de una señal que se permiten definimos también lo que se denomina rango dinámico del proceso de CAD. El rango 10 dinámico en decibelios se define de la siguiente forma: RDdB = 10 · log10 ( A2max ) A2min Si en un sistema digital consideramos la amplitud máxima como 2n y la mínima como 1, tendremos que un sistema de conversión de n bits posee un rango dinámico de: 22n ) = 20n · log10 2 1 Como 10·log10 2 = 6,02 el rango dinámico puede aproximarse con la siguiente fórmula: RDdB = 10 · log10 ( RDdB ≈ 6 · n 8bits nos daría 48dB y 16bits 96dB. 7. Ventajas del formato digital frente al analógico La principal ventaja del formato digital frente al analógico es la posibilidad de repetición. Una vez digitalizado, el sonido puede reproducirse y copiarse exactamente sin pérdida de calidad alguna. Esto no ocurre en el formato analógico, en el que existen pérdidas debido al ruido de reproducción que se van acumulando con las copias. Esta robustez frente al ruido está ilustrada en la Figura 9. Figura 9: (a) Señal analógica representando una serie de bits (0100111101011..). (b) Señal con ruido de fondo (canal, ondas interferentes, ruido del soporte, etc). (c) Regeneración de la señal digital. (d) Señal reconstruida. 11 Por otro lado, existe la ventaja de realizar un procesado digital. El mismo proceso realizado al mismo sonido digital dará siempre el mismo resultado, ya que se realizan relaciones matemáticas con los números. En el caso analógico, es imposible obtener 2 veces el mismo resultado ya que algunos componentes electrónicos son susceptibles de variar dependiendo, por ejemplo, de las condiciones ambientales. Figura 10: Proceso de conversión AD y DA. 8. Bibliografía Roads, C. 1996. The Computer Music Tutorial, MIT Press, Chapter 1. Story, M. 1997. A suggested explanation for (some of ) the audible differences between high sample rate and conventional sample rate audio material. 12 9. Cuestiones de evaluación 1. Enumera los pasos más importantes del proceso de conversión analógico/digital. 2. Enumera algunas de las ventajas del formato digital respecto al analógico. 3. ¿Qué es la frecuencia de muestreo de un sistema de audio digital? ¿Cómo se elige esta frecuencia? ¿Qué pasa cuando la frecuencia de muestreo viene dada por las características del sistema y por lo tanto no se puede elegir libremente (e.g. en un CD)? 4. ¿Qué quiere decir aliasing? Explica por qué se produce y cómo se puede evitar. 5. Una forma de onda cuadrada de frecuencia fundamental f0 = 500Hz tiene los armónicos impares de dicha frecuencia fk = (2k − 1) · f0 . Calcula las primeras 10 componentes de frecuencia. Si muestreamos la señal con una frecuencia de muestreo fm = 8000Hz y sin filtro antialiasing, determina si hay o no aliasing y qué frecuencias tendrá el sonido muestreado. 6. ¿Cómo se mide la energía de una señal sonora? 7. Revisa la diferencia entre la energía, potencia y RMS de una señal sonora digital. 8. Calcula el valor de Px y RM S del senyal periòdic x[n] = {−1, 0, 1, 0, 1 − 1, 0, 1, 0, ...}. 9. ¿Qué es la resolución de un sistema de audio digital? 10. ¿Qué diferencia hay entre la cuantización uniforme y no uniforme? 11. Investiga que és el dither, per què es fa servir i com afecta a la qualitat de la conversió analògica-digital. Pots consultar el libre [1], pp. 40 (e.g. Figura 2.9, 2.10.). 12. Investiga que és el jitter, per què es produeix, i com afecta a la qualitat de la conversió analògica-digital. Pots consultar el libre [1], pp. 132. 13. A partir de les especificacions tècniques dels següents conversors, intenta esbrinar els aspectes estudiats a classe: a) Apogee Rosetta: http://www.apogeedigital.com/products/rosetta-series.php http://www.apogeedigital.com/products/rosetta-series.php? section=features http://digitalprosound.digitalmedianet.com/articles/viewarticle. jsp?id=30222 b) Prism Sound: http://www.prismsound.com/music\_recording/products\_subs/ ada8xr/ada8xr\_home.php http://www.prismsound.com/music\_recording/products\_subs/ ada8xr/ada8xr\_spec.php 13 Itenta esbrinar: Freqüència/freqüències de mostreig que fan servir. Nombre de bits/resolució/rang dinàmic. Sistema de quantització / codificació. Jitter, dither. 14. Si muestreamos una señal de 26000 Hz con una tasa de 40000 Hz, ¿tendremos aliasing? En caso afirmativo, ¿qué frecuencias aparecerán?. 15. a) Determina y dibuja la función de cuantificación de un cuantificador uniforme en el rango (−1, 1) de 2 bits. b) Para la secuencia {0,2, −0,3, −0,7, 0,8}, determina la secuencia cuantificada que se obtiene. c) Determina una posible secuencia de bits resultante una vez codificada la señal. d ) Determina la relación señal a ruido del cuantizador SN RQ 16. Si cuantizamos uniformemente una señal sonora. ¿Qué mejora de SN RQ se obtiene cuando añadimos 1 bit por muestra? ¿Cómo cambia la SN RQ si dividimos la señal a codificar por 3? 10. Bibliografia [1] Pohlmann, Ken C., Principles of digital audio, vista prèvia disponible a google books (http://books.google.com) 14