Digitalización de Sonido - Anàlisi, Síntesi i Processament del So

Anuncio
Digitalización de Sonido
Emilia Gómez Gutiérrez
Anàlisi, Síntesi i Processament del So I
Departament de Sonologia
Escola Superior de Musica de Catalunya
[email protected]
20 de febrero de 2012
Índice
1. Repaso de conceptos básicos
2
2. Introducción a la digitalización de sonidos
2
3. Muestreo
3.1. Frecuencia de Nyquist . . . . . . . . . . . . . . . . . . . . . . . .
3.2. Aliasing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3. Amplitud, energia y potencia de una señal . . . . . . . . . . . . .
4
5
6
7
4. Cuantización
4.1. Cuantización uniforme . . . . . . . . . . . . . . . . . . . . . . . .
4.2. Ruido de cuantización . . . . . . . . . . . . . . . . . . . . . . . .
4.3. Cuantización no uniforme . . . . . . . . . . . . . . . . . . . . . .
7
8
8
9
5. Codificación
10
6. Rango dinámico
10
7. Ventajas del formato digital frente al analógico
11
8. Bibliografía
12
9. Cuestiones de evaluación
13
10.Bibliografia
14
1
1.
Repaso de conceptos básicos
El sonido es un fenómeno perceptual que se produce cuando un objeto entra
en vibración mecánica, la cual se traduce a una variación de la presión atmosférica en el aire que envuelve el objeto. La naturaleza de dicha vibración puede ser
periódica o no periódica, o incluso una combinación entre las dos. Las vibraciones periódicas generan, en general, una sensación de altura, y las no periódicas
una sensación de ruido. Los sonidos naturales son casi todos semiperiódicos, es
decir, corresponden a una combinación de vibraciones periódicas y no periódicas.
Estas variaciones se denominan comúnmente formas de onda.
Las formas de onda más simples son las funciones sinusoidales puras: sin y
cos.
x(t) = A · sin(2πf0 t + φ)
Dicha función se caracteriza por:
Frecuencia: f0 . Tasa de repetición en ciclos por segundo (Hz).
Período: T =
1
f0 .
Duración de un ciclo de la forma de onda.
Amplitud: A.
Fase: φ. Fase en el instante inicial t = 0, x(0) = A · sin(φ).
Los sonidos naturales contienen diversas frecuencias, además de la fundamental, que forman un sonido complejo y da lugar a la percepción del timbre.
Para todo sonido periódico, la duración de un motivo recurrente de la forma
de onda seguirá siendo el período T . El número de veces que dicho período se
repite en un segundo (es decir, la tasa de repetición, la inversa del período) nos
dará su frecuencia fundamental f0 = T1 . La frecuencia fundamental de una onda
determina su altura. A las frecuencias adicionales se les denomina armónicos o
parciales, según sea su frecuencia múltiplo o no de la frecuencia fundamental.
2.
Introducción a la digitalización de sonidos
Ahora veremos en profundidad conceptos relacionados con:
Muestreo (Sampling)
Cuantización (Quantization)
Codificación (Codification)
de señales de audio.
Las vibraciones sonoras pueden ser representadas como señales electrónicas
a través de algunos dispositivos (por ejemplo, un micrófono), que convierte estas vibraciones en una señal de voltaje o tensión dependiente del tiempo. El
resultado de la conversión se denomina señal analógica (analog signal). Las señales analógicas son continuas en el sentido en que consisten en un continuo de
valores.
2
Una señal analógica puede grabarse en una cinta magnética mediante tecnología electromagnética. Con el fin de reproducir este sonido grabado, la señal es
escaneada y enviada a un altavoz que reproduce las vibraciones del sonido en el
aire. Como vimos anteriormente, los sintetizadores analógicos tienen la función
básica de crear sonidos desde cero utilizando dispositivos electrónicos capaces
de producir este tipo de señales adecuadas para la vibración de los altavoces.
Por lo tanto, las señales analógicas pueden ser manipuladas, grabadas y
amplificadas mediante técnicas analógicas. En la Figura 1 se representa la cadena
de reproducción de audio analógico.
Figura 1: Cadena de reproducción de audio analógico
La reproducción analógica, aunque es adecuada para algunas aplicaciones,
posee un defecto claro: cuando una grabación analógica se copia, estamos añadiendo una cantidad imporante de ruido. Por otra parte, cuando amplificamos
una señal, también amplificamos el ruido presente en la misma.
Sin embargo, los ordenadores son máquinas digitales y no analógicas, es
decir, sus operaciones se basan en matemáticas discretas, término opuesto a
3
continuo. Las entidades son contadas en vez de ser medidas o pesadas, por lo
que los cálculos deben trabajar con números finitos y exactos.
Ejemplo: analogía con el reloj analógico y digital. En el reloj analógico, las
agujas tienen un movimiento continuo, y en el digital los dígitos cambian dando
saltos.
La mayor dificultad en utilizar el ordenador para síntesis de sonido es que
se trabaja sólo en el dominio discreto, mientras que el conocimiento científico
que se tiene sobre el sonido es esencialmente analógico. Es más, los ordenadores
trabajan con números binarios (combinaciones de 0 y 1) en contraste con el
sistema decimal (valores del 0 al 9) que es utilizado en el lenguaje científico.
La unidad mínima de información con la que el ordenador trabaja es el bit, o
binary digit.
Para trabajar con sonidos en el ordenador, las señales analógicas tienen
que ser convertidas a formato digital, es decir, el sonido debe ser representado
con números binarios. En el sentido contrario, las señales digitales deben ser
convertidas a formato analógico para escucharlas. Por lo tanto, el ordenador
tiene que tener dos tipos de conversores de datos: convertidor analógico a digital
(ADC) y digital a analógico (DAC).
En la figura 2 se representan los pasos principales de una conversión analógico/digital, proceso que explicaremos a continuación.
Figura 2: Pasos para la digitalización de una señal analógica CAD
3.
Muestreo
El bloque de muestreo funciona midiendo la amplitud de la señal continua
a intervalos de igual duración. Cada valor que se mide se denomina muestra (o
sample) de la señal. Esto matemáticamente se puede expresar de la siguiente
4
manera: muestrear una señal es tomar valores de una señal continua x(t) a
determinados instantes de tiempo tn :
xc (t = tn ) = x[n], tn = n · Tm
La distancia temporal o el intervalo de tiempo que hay entre dos muestras
consecutivas se denomina período de muestreo, y se mide en segundos. Su inversa
fm = T1m se denomina frecuencia de muestreo o sampling rate, y se mide en ciclos
(muestras) por segundo o Hz.
Por lo tanto, en el proceso de muestreo pasamos de una señal continua a un
conjunto de muestras (es decir, puntos discretos en el tiempo).
Es importante muestrear la señal lo suficientemente rápido como para capturar toda la información. El teorema de muestreo, o teorema de Nyquist, demuestra que para representar adecuadamente una sinusoide es necesario tener al
menos dos muestras por cada ciclo de la sinusoide. Por tanto, para representar
adecuadamente un sonido, la frecuencia de muestreo fm tiene que ser mayor,
como mínimo, del doble de la frecuencia más alta contenida en la señal:
fm ≥ 2 · fmaxima
1
0.8
0.6
0.4
0.2
0
−0.2
−0.4
−0.6
−0.8
−1
0
50
100
150
200
250
300
350
400
450
Figura 3: Señal continua
3.1.
Frecuencia de Nyquist
Se denomina frecuencia de Nyquist a la frecuencia más alta que se puede
capturar con una determinada frecuencia de muestreo fm :
fm
2
Los sonidos musicales no contienen información significante por arriba de
10KHz, por lo que 20KHz es una frecuencia de muestreo adecuada. Los reproductores de CD a su vez utilizan una frecuencia de muestreo de 44,1KHz. El
límite superior de audición de una persona joven y sana es de 20KHz, por lo
que podemos decir que los reproductores de CD “exageran” al muestrear.
En la práctica se utilizan las siguientes frecuencias de muestreo:
fN yquist =
16.000 Hz para micrófonos (wideband).
5
1
0.8
0.6
0.4
0.2
0
−0.2
−0.4
−0.6
−0.8
−1
0
5
10
15
20
25
30
Figura 4: Señal muestreada
8.000 Hz para teléfono (el teléfono se filtra en 4KHz, de 300Hz a 3400 Hz).
3.2.
Aliasing
Una onda compleja puede componerse de sinusoides a frecuencias muy altas,
las cuales oscilan tan rápidamente que no son representadas correctamente por
las muestras de la señal, al estar éstas demasiado espaciadas entre sí. A este
fenómenos se le denomina aliasing, y ocurre cuando la señal que se muestrea
tiene componentes de frecuencia que son mayores que la mitad de la frecuencia
de muestreo o frecuencia de Nyquist. Para estas frecuencias no se cumple el
teorema de muestreo y se produce, por lo tanto, este fenómeno.
fm
2
Estas componentes de frecuencia corrompen la señal original introduciendo
componentes que se denominan alias. Este efecto está ilustrado en la Figura 5.
f ≥ fN yquist ; f ≥
Figura 5: Ejemplo de aliasing. (a,d,g): señales sinusoidales de entrada de un
ADC. (b,e,h): trenes de impulsos a la frecuencia de nuestreo. (c,f,i): señal reconstruida a la salida del DAC.
Las frecuencias que aparecen pueden calcularse como
6
fr = fm − fx
siendo fm la frecuencia de muestre y fx la frecuencia de la señal. En el dominio visual se produce el mismo fenómeno bajo el efecto de una luz estroboscópica
o en el cine (e.g. impresión de rotación en el sentido inverso de las ruedas de los
coches).
Las soluciones posibles para este problema son las siguientes:
Aumentar la frecuencia de muestreo para que esta sea mayor o igual al
doble de la frecuencia máxima de la señal.
Realizar un filtrado de las frecuencias por encima de la frecuencia de Nyquist: estos filtros se denominan filtros antialiasing y son filtros de tipo
paso bajo (Low-Pass Filter)1 .
3.3.
Amplitud, energia y potencia de una señal
Hemos definido la amplitud de una señal mediante la función x[n]. Definiremos su energía como:
Ex =
N
X
x[i]2
i=1
La potencia de una señal es su energía por unidad de tiempo, y se mide en
Julios por Segundo (Watios):
1
Ex = σx2
N
Generalmente se utiliza el valor RMS, que es la raiz cuadrada del valor
anterior:
v
u
r
N
u1 X
1
x[i]2
Ex = t
RM S = σx =
N
N i=1
Px =
4.
Cuantización
Una vez la señal muestreada nos encontramos con un conjunto de muestras
o de valores continuos de la amplitud de la señal. La cuantización se realiza
al limitar los posibles valores de amplitud de una señal, definiendo una serie
discreta (no continua) de valores posibles.
x̂[n] = Q{x[n]}
El número de posibles valores de amplitud viene determinado por la resolución del convertidor (CAD o CDA). La resolución de los convertidores depende
del tamaño de la palabra que se utiliza para representar cada una de las muestras de la señal. La resolución de un convertidor se mide en número de bits de
la palabra que utiliza, y un convertidor de n bits de resolución cuantizará a
1 Los
filtros se verán en un tema posterior
7
2n valores de la señal. Ejemplo: un sistema con una resolución de 4 bits tendría sólo 16 valores diferentes de señal (24 ), y un sistema de 16 bits tendría
216 = 65536 valores diferentes. Cuanto mayor sea la resolución del convertidor,
mayor precisión tendremos en la representación de la señal.
1
0.8
0.6
0.4
0.2
0
−0.2
−0.4
−0.6
−0.8
−1
0
5
10
15
20
25
30
Figura 6: Señal cuantizada
Usualmente se emplea una cuantización de 8 bits (256 niveles), 16 bits (65
K niveles) o 32 bits (232 niveles). Existen varios tipos de cuantización.
4.1.
Cuantización uniforme
La cuantización más simple distribuye los valores reales de manera uniforme
en los niveles elegidos. Por tanto, tanto los niveles de decisión como los de
reconstrucción están uniformemente distribuidos. A éste tipo de cuantización se
le denomina cuantización uniforme PCM (Pulse Code Modulation). Este tipo de
cuantización se ilustra en la figura 7, y está pensada para señales que tengan
una distribución de potencia uniforme en el rango 2Xm
4.2.
Ruido de cuantización
El ruido de cuantización aparece en el proceso de cuantización, en el cual
sustituimos la amplitud de la muestra por la amplitud más cercana del conjunto
de valores admitidos. Se define como la diferencia entre la señal muestreada antes
de cuantizar y la señal muestreada cuantizada:
e[n] = x[n] − x̂[n]
x[n] sería el valor de la muestra sin cuantizar, x̂[n] sería el valor de la muestra cuantizada, y e[n] sería el valor del ruido de cuantización para la muestra
número n. El ruido de cuantización representa la pérdida de calidad de sonido
al cuantizar.
Existen dos tipos de errores de cuantización. En primer lugar, hay errores
dentro del rango dinámico de cuantización (2Xm ). En ése caso, se tiene que
cumplir que
∆
−∆
< e[n] <
2
2
8
Figura 7: Cuantización uniforme
Entonces, si el rango pico-a-pico de la señal es 2Xm y B es el número de bits
del cuantizador:
2Xm
2B
Definimos la relación señal a ruido como la relación entre la potencia de la
señal y la potencia del ruido de cuantización. Podemos aproximar la relación
señal a ruido del cuantizador como
∆=
SN RQ = 10log(
Xm
σx2
)
) = 6,02B + 4,78 − 20log10 (
2
σe
σx
Donde σx mide la energía RMS de la señal a cuantizar. Por tanto, ganamos
6 dB por cada bit. En segundo lugar, hay errores cuando la señal está fuera del
rango dinámico de cuantización. Tendremos entonces que redefinir el valor entre
picos.
4.3.
Cuantización no uniforme
Normalmente, en las señales sonoras, los valores bajos son más comunes que
los altos, por lo cual hacemos pasos de cuantización más pequeños en valores
bajos y mayores en los altos. Tipos comunes de cuantizadores no uniformes son
los de ley A (Europa) y ley µ (USA). En éste tipo de cuantizadores, por ejemplo,
un cuantizador no uniforme de 7 bits es comparable a uno uniforme de 12 bits.
Éste tipo de cuantizadores se denominan log-PCM y se han utilizado tradicionalmente en telefonía.
Como resultado, las muestras se distribuyen linealmente en los niveles bajos
y logarítmicamente en los niveles altos.
9
Figura 8: Cuantizador no uniforme de 3 bits
5.
Codificación
El proceso de codificación consiste en asignar un código binario o conjunto
de bits a cada uno de los valores posibles de las muestras de la señal. Hay
muchas posibilidades de realizar este proceso de codificación. Se denomina códec
(abreviatura para codificador/decodificador) es el código específico que se utiliza
para codificar y decodificar datos. El códec incluye parámetros referentes a todo
el proceso de digitalización, indicando cómo se tiene que realizar el proceso de
conversion:
Número de canales: monoaural, binaural o multicanal.
Frecuencia de muestreo.
Resolución: número de bits. Como hemos visto en el punto anterior, cuanto
mayor sea el número de bits que utilicemos, mayor resolución tendremos
y menor ruido de cuantización. Por otra parte, tendremos palabras de un
tamaño mayor, por lo que se tendrá que llegar a un compromiso entre
espacio de almacenamiento y resolución.
Bit rate: velocidad o tasa de transferencia (en bits por segundo).
Pérdida: algunos códecs realizan una compresión del sonido, y por tanto
eliminan cierta cantidad de información, y el sonido resultante puede tener
algunas pérdidas.
6.
Rango dinámico
Al establecer del conjunto de valores de una señal que se permiten definimos
también lo que se denomina rango dinámico del proceso de CAD. El rango
10
dinámico en decibelios se define de la siguiente forma:
RDdB = 10 · log10 (
A2max
)
A2min
Si en un sistema digital consideramos la amplitud máxima como 2n y la
mínima como 1, tendremos que un sistema de conversión de n bits posee un
rango dinámico de:
22n
) = 20n · log10 2
1
Como 10·log10 2 = 6,02 el rango dinámico puede aproximarse con la siguiente
fórmula:
RDdB = 10 · log10 (
RDdB ≈ 6 · n
8bits nos daría 48dB y 16bits 96dB.
7.
Ventajas del formato digital frente al analógico
La principal ventaja del formato digital frente al analógico es la posibilidad de repetición. Una vez digitalizado, el sonido puede reproducirse y copiarse
exactamente sin pérdida de calidad alguna. Esto no ocurre en el formato analógico, en el que existen pérdidas debido al ruido de reproducción que se van
acumulando con las copias. Esta robustez frente al ruido está ilustrada en la
Figura 9.
Figura 9: (a) Señal analógica representando una serie de bits (0100111101011..).
(b) Señal con ruido de fondo (canal, ondas interferentes, ruido del soporte, etc).
(c) Regeneración de la señal digital. (d) Señal reconstruida.
11
Por otro lado, existe la ventaja de realizar un procesado digital. El mismo
proceso realizado al mismo sonido digital dará siempre el mismo resultado, ya
que se realizan relaciones matemáticas con los números. En el caso analógico, es
imposible obtener 2 veces el mismo resultado ya que algunos componentes electrónicos son susceptibles de variar dependiendo, por ejemplo, de las condiciones
ambientales.
Figura 10: Proceso de conversión AD y DA.
8.
Bibliografía
Roads, C. 1996. The Computer Music Tutorial, MIT Press, Chapter 1.
Story, M. 1997. A suggested explanation for (some of ) the audible differences between high sample rate and conventional sample rate audio material.
12
9.
Cuestiones de evaluación
1. Enumera los pasos más importantes del proceso de conversión analógico/digital.
2. Enumera algunas de las ventajas del formato digital respecto al analógico.
3. ¿Qué es la frecuencia de muestreo de un sistema de audio digital? ¿Cómo
se elige esta frecuencia? ¿Qué pasa cuando la frecuencia de muestreo viene
dada por las características del sistema y por lo tanto no se puede elegir
libremente (e.g. en un CD)?
4. ¿Qué quiere decir aliasing? Explica por qué se produce y cómo se puede
evitar.
5. Una forma de onda cuadrada de frecuencia fundamental f0 = 500Hz tiene
los armónicos impares de dicha frecuencia fk = (2k − 1) · f0 . Calcula las
primeras 10 componentes de frecuencia. Si muestreamos la señal con una
frecuencia de muestreo fm = 8000Hz y sin filtro antialiasing, determina
si hay o no aliasing y qué frecuencias tendrá el sonido muestreado.
6. ¿Cómo se mide la energía de una señal sonora?
7. Revisa la diferencia entre la energía, potencia y RMS de una señal sonora
digital.
8. Calcula el valor de Px y RM S del senyal periòdic x[n] = {−1, 0, 1, 0, 1 −
1, 0, 1, 0, ...}.
9. ¿Qué es la resolución de un sistema de audio digital?
10. ¿Qué diferencia hay entre la cuantización uniforme y no uniforme?
11. Investiga que és el dither, per què es fa servir i com afecta a la qualitat
de la conversió analògica-digital. Pots consultar el libre [1], pp. 40 (e.g.
Figura 2.9, 2.10.).
12. Investiga que és el jitter, per què es produeix, i com afecta a la qualitat
de la conversió analògica-digital. Pots consultar el libre [1], pp. 132.
13. A partir de les especificacions tècniques dels següents conversors, intenta
esbrinar els aspectes estudiats a classe:
a) Apogee Rosetta:
http://www.apogeedigital.com/products/rosetta-series.php
http://www.apogeedigital.com/products/rosetta-series.php?
section=features
http://digitalprosound.digitalmedianet.com/articles/viewarticle.
jsp?id=30222
b) Prism Sound:
http://www.prismsound.com/music\_recording/products\_subs/
ada8xr/ada8xr\_home.php
http://www.prismsound.com/music\_recording/products\_subs/
ada8xr/ada8xr\_spec.php
13
Itenta esbrinar:
Freqüència/freqüències de mostreig que fan servir.
Nombre de bits/resolució/rang dinàmic.
Sistema de quantització / codificació.
Jitter, dither.
14. Si muestreamos una señal de 26000 Hz con una tasa de 40000 Hz, ¿tendremos aliasing? En caso afirmativo, ¿qué frecuencias aparecerán?.
15.
a) Determina y dibuja la función de cuantificación de un cuantificador
uniforme en el rango (−1, 1) de 2 bits.
b) Para la secuencia {0,2, −0,3, −0,7, 0,8}, determina la secuencia cuantificada que se obtiene.
c) Determina una posible secuencia de bits resultante una vez codificada
la señal.
d ) Determina la relación señal a ruido del cuantizador SN RQ
16. Si cuantizamos uniformemente una señal sonora. ¿Qué mejora de SN RQ
se obtiene cuando añadimos 1 bit por muestra? ¿Cómo cambia la SN RQ
si dividimos la señal a codificar por 3?
10.
Bibliografia
[1] Pohlmann, Ken C., Principles of digital audio, vista prèvia disponible a
google books (http://books.google.com)
14
Descargar