Ir al contenido

Teoría de la Síntesis de Sonido/Sonido en el Dominio Digital

De Wikilibros, la colección de libros de texto de contenido libre.
← Sonido en el Dominio Temporal Sonido en el Dominio Digital Análisis del Dominio Temporal →
Teoría de la Síntesis de Sonido


Sonido en el Dominio Digital

[editar]

Introducción

[editar]

Los sistemas digitales (por ejemplo, computadoras) y los formatos (por ejemplo, CD) son claramente los métodos más populares y comunes de almacenamiento y manipulación de audio. Desde la introducción del disco compacto a principios de la década de 1980, el formato digital ha proporcionado una capacidad de almacenamiento cada vez mayor y la capacidad de almacenar información de audio con una calidad aceptable. Aunque todavía existen formatos analógicos (disco de vinilo, cinta), normalmente sirven a un público en especifico. Los sistemas digitales son omnipresentes en la tecnología de la música moderna. Debe enfatizarse que no hay argumento en cuanto a si un dominio, ya sea analógico o digital es superior, pero lo siguiente proporciona algunas características deseables al trabajar con audio en el dominio digital.

  • Almacenamiento. La cantidad de datos de audio digital que se puede almacenar en un disco duro moderno es mucho mayor que un sistema de cinta. Además, podemos elegir la calidad de los datos de audio capturados, lo que se relaciona directamente con el tamaño del archivo y otros factores.
  • Control. Al almacenar información de audio en formato digital, podemos realizar operaciones potentes y complejas en los datos que de otro modo serían extremadamente difíciles de realizar.
  • Durabilidad. El audio digital se puede copiar en todos los dispositivos sin pérdida de información. Además, muchos sistemas emplean códigos de corrección de errores para compensar el desgaste en un formato físico digital como un disco compacto.

Conversión Analógica <-> Digital

[editar]

La información acústica (ondas de sonido) se trata como señales. Como se demostró en el capítulo anterior, tradicionalmente vemos estas señales como amplitud variable a lo largo del tiempo. En sistemas analógicos, esto generalmente significa que la amplitud está representada por un voltaje "continuo"; pero dentro de un sistema digital, la señal debe almacenarse como una corriente de valores discretos.


Figura 2.1. Una visión general del proceso de conversión analógica <-> digital.


Los datos digitales almacenados de esta manera no tienen un significado real físico; uno podría describir una canción en una computadora como solo un matriz de números; estos números no tienen sentido a menos que exista dentro del sistema un proceso que pueda interpretar cada número en secuencia de manera apropiada. Fig. 2.1 muestra una visión general del proceso de capturar sonido analógico y convertirlo en una corriente digital de números para su almacenamiento y manipulación en dicho sistema. Los pasos son los siguientes:

  1. Una entrada como un micrófono convierte las variaciones de presión de aire acústica (ondas de sonido) en variaciones de voltaje.
  2. Un convertidor de analógico a digital (CAD) convierte la tensión variable en una corriente de valores digitales tomando una 'foto instantánea' de la tensión en un punto en el tiempo y asignándole un valor en función de su amplitud. Por lo general, toma estas 'fotos instantáneas' miles de veces por segundo, la velocidad a la que se conoce como la frecuencia de muestreo.
  3. Los datos numéricos se almacenan en el sistema digital y luego son manipulados o analizados por el usuario.
  4. Los datos numéricos se re-leen y se transmiten fuera del sistema digital.
  5. Un convertidor digital a analógico (CDA) convierte la corriente de valores digitales a una tensión variable.
  6. Un altavoz convierte el voltaje a variaciones en la presión del aire (sonido).


Aunque la señal en cada etapa viene en una forma diferente (energía de sonido, valores digitales, etc.), la información es análoga. Sin embargo, debido a la naturaleza del proceso de conversión, estos datos pueden manipularse y distorsionarse. Por ejemplo, valores bajos para frecuencias de muestreo u otros factores en el CAD pueden significar que la señal analógica continua no se representa con suficiente detalle y, posteriormente, la información se distorsionará. También hay imperfecciones en los dispositivos físicos, como los micrófonos, que además "colorean" la señal de alguna manera. Es por esta razón que los músicos e ingenieros intentan utilizar los equipos y procesos de la más alta calidad para preservar la integridad del sonido original durante todo el proceso. Los músicos e ingenieros deben considerar por qué otros procesos pasará su música antes del consumo, también (transmisión de radio, etc.).

Muestreo

[editar]

Las ondas sonoras en su forma acústica natural pueden considerarse continuas; es decir, sus gráficos del dominio temporal son líneas suaves en todos los factores de zoom sin ningunos quiebres o saltos. No podemos tener estos cortes, o discontinuidades porque el sonido no puede cambiar instantáneamente entre dos valores. Un ejemplo de esto puede ser una forma de onda idealizada como una onda cuadrada - en papel, cambia entre 1 y -1 amplitud en un punto instantáneamente; sin embargo, un altavoz no puede, según las leyes de la física, saltar entre dos puntos en muy poco tiempo, el cono tiene que viajar a través de un camino continuo de un punto al siguiente.

Figura 2.2. Muestras discretas (rojas) de una forma de onda continua (gris).

Muestreo es el proceso de tomar una forma de onda acústica continua y convertirla en una secuencia digital de números discretos. Un CAD mide la amplitud de la entrada a una velocidad regular creando una secuencia de valores que representan la forma de onda en digital. La salida se crea pasando estos valores al CDA, que maneja un altavoz de manera apropiada. Al medir la amplitud miles de veces por segundo, creamos una "imagen" del sonido que es de suficiente calidad para los oídos humanos. Cuanto más y más aumentamos esta frecuencia de muestreo, más exactamente se representa y reproduce una forma de onda.

Teorema de muestreo de Nyquist-Shannon

[editar]

La frecuencia de una señal tiene implicaciones para su representación, especialmente a frecuencias muy altas. Como se discutió en el capítulo anterior, la frecuencia de una onda sinusoidal es la cantidad de ciclos por segundo. Si tenemos una velocidad de muestreo de 20000 muestras por segundo (20 kHz), está claro que una sinusoide de alta frecuencia como 9000 Hz tendrá menos "fotos instantáneas" que una sinusoide a 150 Hz. Finalmente, llega un punto en el que no hay suficientes puntos de muestra para poder registrar el ciclo de una forma de onda, lo que nos lleva al siguiente requisito importante:

La frecuencia de muestreo debe ser mayor que el doble de la frecuencia máxima representada.

¿Por qué pasa esto? El número mínimo de puntos de muestra necesarios para representar una onda sinusoidal es dos, pero necesitamos al menos un poco más que esto para que no dependamos de la fase (las muestras son exactamente dos veces la frecuencia de onda sinusoidal, las muestras pueden caer en los picos de la onda sinusoidal, o en los cruces por cero). Puede parecer aparente en este momento que usar solo dos puntos para representar una curva continua como una sinusoide daría como resultado una aproximación cruda: una onda cuadrada. Y, dentro del sistema digital, esto es cierto. Sin embargo, tanto los CAD como los CDA tienen filtros de paso bajo configurados a la mitad de la frecuencia de muestreo (la frecuencia más alta representable). Lo que esto significa para la entrada y salida es que cualquier frecuencia por encima del punto de corte se elimina y de esto se deriva que la representación del seno puro - una onda cuadrada en teoría - se filtra a una sola frecuencia (es decir, onda sinusoidal). A partir de esto, tenemos dos resultados matemáticos:


y


Donde es la frecuencia de muestreo, es la frecuencia más alta en la señal. es la frecuencia de Nyquist. Las frecuencias sobre la frecuencia de Nyquist normalmente son bloqueadas por filtros antes de la conversión al dominio digital cuando se graba; sin tales procesos habría un componente de frecuencia plegable, también conocido como aliasing.

Exactitud de muestreo y profundidad de bits

[editar]

Se ha establecido que cuanto mayor es la frecuencia de muestreo, más precisa es la representación de una forma de onda en un sistema digital. Sin embargo, aunque hay muchas razones y argumentos para tasas de muestreo más altas, existen dos estándares generales: 44100 muestras por segundo y 48000 muestras por segundo, siendo el primero el más común. La consideración principal para esto es el hecho de que el rango de audición humana se extiende, como máximo, hasta un límite aproximado (que varía de persona a persona) de 20000 Hz. Las frecuencias por encima de esto son inaudibles. Considerando el ejemplo de 44.1 kHz, encontramos que la frecuencia de Nyquist se evalúa a 22050 Hz, que es más de lo que el sistema auditivo humano es capaz de percibir. Hay otras razones para esta frecuencia de muestreo particular, pero eso está más allá del alcance de este libro.

Figura 2.3. Efectos del aumento de la frecuencia de muestreo y la profundidad de bits en la representación de una señal analógica continua.

Hay un factor más importante a considerar cuando se considera el proceso de muestreo: profundidad de bits. La profundidad del bit representa la precisión con la que se mide la amplitud. De la misma manera que hay una cantidad limitada de muestras por segundo en un proceso de conversión, también hay una cantidad limitada de valores de amplitud para un punto de muestra, y cuanto mayor sea el número, mayor será la precisión. Una resolución de bits común que se encuentra en la mayoría de los sistemas de audio digital estándar (Hi-Fi, disco compacto) es de 16 bits binarios bits que permite un rango de 65536 () valores de amplitud individuales en un punto en el tiempo. Los valores de bit más bajos producen una mayor distorsión del sonido: un sistema de dos bits () solo permite cuatro amplitudes diferentes, lo que da como resultado una aproximación masivamente imprecisa de la señal de entrada.