¿Sabes las diferencias que existen entre los formatos? ¿Entiendes cómo funciona la tasa de compresión? ¡Descubre estos y otros parámetros en este artículo!
Las configuraciones de audio para grabadores o interfaces de sonido pueden ser muy confusas. Pero, si vas a trabajar con videos o podcaste, te será útil saber cómo interpretar los parámetros al grabar y exportar archivos, ya sea en Audacity (gratuito), Reaper, Adobe Audition o en editores de video. Aquí vamos a hablar sobre las diferencias entre las tasas de muestreo (sample rate), resolución (bit depth), tasas de compresión de archivo y variaciones de formatos. Así, estarás más seguro de las opciones que tienes con relación a la calidad de audio y podrás garantizar buenos resultados.
Resumiendo, entenderás por qué recomendamos grabar en formato no comprimido (WAV, por ejemplo) en 24 bits y 48 kHz. Además, también sabrás el motivo por el cual, en la mayor parte de los casos, no necesitamos más que un MP3 de 192 kbps para exportar audio de excelente calidad.
Hablaremos también sobre la posibilidad de comprimir más archivos de podcasts, que pueden generarse en MP3 de 64 kbps, mono, para facilitar el consumo online.
Formatos, extensiones y codecs: ¿Qué significan?
Cuando de archivos de audio se trata, podemos hablar de formatos, extensiones y codecs. De forma resumida, podemos decir que el formato se refiere al tipo de archivo, identificado por su extensión (*.mp3, *.wav, *.ogg, *.wma etc), que muchas veces nos dice cómo ha sido codificado o cuál es su codec.
Por ejemplo, un archivo en el formato MP3 tiene extensión *.mp3 y codec MPEG-1 Audio Layer III.
Normalmente esas terminaciones se mezclan. Pero lo que es importante saber es que, así como en los videos, los archivos con el mismo tipo de extensión no siempre tienen el mismo codec y viceversa.
Esa información es válida para que no te sientas perdido en caso de que no entiendas el motivo por el cual un software, que normalmente reproduce tus archivos *.m4a, no reproduce otro con la misma extensión, por ejemplo.
Una situación de ese tipo podría indicar que los codecs utilizados son diferentes. En ese caso, la solución sería usar otro software para leer el archivo o para convertirlo (nueva codificación). Esto puede hacerse hasta en editores de video.
Las variaciones de formatos y codecs dependen de las opciones de las empresas que desarrollan los softwares que ejecutan los archivos. En estos casos, hay muchas cosas en juego, como las especificaciones técnicas y las relaciones con las patentes.
Por otro lado, los archivos suelen dividirse en dos tipos: sin compresión o comprimidos.
Archivos sin compresión
Los equipos de grabación de audio suelen ofrecernos opciones para grabar archivos sin perder ninguna información. Estos archivos, no comprimidos, pueden generarse en diversos formatos y extensiones, como WAV, AIFF, FLAC y ALAC. Para quien está familiarizado con fotografía, son equivalentes al RAW o DNG.
Como suelen ser muy pesados, utilizar los formatos sin pérdidas (lossless) en el producto final solo se recomienda en algunos casos, como:
- cuando el producto final puede ser procesado por el consumidor (archivos destinados a bancos sonoros, por ejemplo);
- cuando habrá grabación en medios físicos (CD, DVD y Blue-Ray);
- o para el mercado de audiófilos (por una cuestión de valor percibido y garantía de alta calidad).
Pero, aunque no quieras finalizar el proceso con un WAV (uno de los más comunes), los formatos lossless pueden ser muy útiles en la etapa de edición. Por contener mucha información, soportan alteraciones más extremas sin perjudicar la calidad de audio.
Con plugins, conversiones y procesamientos, se pueden manipular de forma más libre, garantizando una calidad excelente, incluso si se genera posteriormente un archivo comprimido.
Archivos comprimidos
La mayor parte de los equipos disponibles en el mercado (cámaras, celulares y hasta grabadores de audios) suele entregar archivos ya comprimidos. Este tipo de archivo es más práctico, fácil de procesar, requiere menos espacio de almacenamiento y tiene tamaños muy reducidos (en bytes).
Algunos ejemplos de estos formatos son: 3GP, AAC, M4A, OGG, WMA y MP3, que es, sin lugar a dudas, el más conocido. Los archivos son como el JPEG o el GIF en el campo de las imágenes.
A través de un algoritmo complejo, estos archivos se generan buscando mantener solo informaciones relevantes para nuestros oídos. Dependiendo del modo de compresión, podemos generar un MP3 a partir de un WAV y tener un archivo 10 veces más pequeño, sin alteraciones perceptibles en la calidad de audio.
Hablando de MP3, a pesar de su gran popularidad, actualmente se le considera un formato obsoleto, ya que otros, como el ACC (extensión .acc o .m4a), posibilitan obtener archivos más pequeños y con más calidad.
Aun así, el MP3 sigue siendo ampliamente utilizado, pues gran parte de los softwares y equipos fueron desarrollados para este formato. Por eso, para hablar de tasas de compresión, lo utilizaremos como ejemplo.
Tasa de compresión: ¿Cuál es su relación con la calidad de audio?
Ahora que ya entendiste que un archivo puede ser comprimido y mantener una calidad suficiente para nuestros oídos, debes saber que el nivel de compresión puede variar mucho.
Y es por el valor de la tasa de compresión (o bitrate) que logramos controlar el tamaño del archivo y, por lo tanto, la calidad de audio.
Por ejemplo, un MP3 de 320 kbps (kilobits por segundo) puede sonar tan bien como el audio no comprimido de un CD o DVD. A medida que disminuye el valor del bitrate, el tamaño del archivo se reduce, pero las pérdidas sonoras pasan a ser perceptibles, dependiendo del audio.
Para tener una noción de cómo esta tasa afecta la calidad del sonido, échale un vistazo a las siguientes referencias:
- 320 kbps – audio que no se diferencia de la calidad de un CD;
- 192 kbps – sin pérdidas significativas para la mayoría de las personas;
- 128 kbps – pérdidas ligeramente perceptibles;
- 96 kbps – calidad similar a la radio FM;
- 32 kbps – similar a la radio AM;
- 16 kbps – similar a la radio de ondas cortas (“walkie-talkie”).
Te recordamos que los valores y las descripciones anteriores son solo una aproximación, pues la compresión del archivo se comporta de manera diferente en cada tipo de audio. Mientras más información perceptible (o mientras más complejo sea el audio en cuestión), más margen habrá para que la compresión afecte la calidad.
Es por eso que para un podcast sin banda sonora puede no ser un problema generar un archivo de apenas 64 kbps, mono, con una única señal de audio, tocando simultáneamente en los canales de la izquierda (L) y de la derecha (R).
Sin embargo, una canción bien producida en estudio, tocada con varios instrumentos diferentes, puede sufrir pérdidas perceptibles, aunque el archivo comprimido sea de 128 kpbs, estéreo, con una señal diferente para cada caja, derecha e izquierda.
Aquí estamos hablando de tasas de compresión fijas (CBR – constant bitrate), pero existe también la posibilidad de generar archivos con tasas variables, como las llamadas VBR (variable bitrate) o ABR (average bitrate).
En la VBR, el algoritmo analiza el audio y decide en qué partes puede comprimirlo de manera más agresiva y en cuáles debe retirar menos información. La ABR actúa de modo similar, pero se mantiene en el promedio de la tasa estipulada previamente. Estos dos métodos, a pesar de ser más inteligentes, pueden generar incompatibilidad con algunos reproductores de sonido.
Cuando hablamos de compresión vs calidad de audio, recuerda que no hay reglas: cada caso es diferente y es preciso evaluarlos individualmente para saber hasta qué punto las pérdidas son aceptables, o cuándo vale la pena desistir de la calidad a favor de la facilidad de uso (descarga más rápida o menor impacto de almacenamiento, por ejemplo).
Recuerda que algunos sitios web y servicios recodifican el audio después de subirlo. Como no podemos controlar este proceso, puede ser una buena idea enviar archivos con un poco más de calidad de lo necesario, para tener un margen de seguridad en caso de nuevas conversiones.
Resolución de amplitud: ¿16 bits o 24 bits?
Si vas a utilizar una interfaz/placa de sonido o un grabador, vas a depararte con opciones de valores de bit depth. Esto está relacionado con el patrón de audio digital PCM y no se aplica a los archivos comprimidos.
Los valores se refieren a la relación señal-ruido. En otras palabras, tiene que ver con la dinámica o los niveles de volumen que el archivo consigue registrar con calidad.
Es como si fuera una resolución de amplitud del sonido. Así, en teoría, un audio en 16 bits logra representar 65.536 niveles de volumen entre el valor más bajo y el más alto de la escala. Mientras que en 24 bits, hay 16.7 millones de gradaciones.
A pesar de la gran diferencia numérica, en la práctica, no se trata de una variación perceptible a nuestros oídos. Pero, existe una diferencia técnica que puede, en algunos casos, darle una ventaja al archivo de 24 bits a la hora de la captación y la edición.
Sabemos que debemos tener cuidado con el nivel de entrada al grabar, para que el audio no “estalle” (generando clipping). Eso es lo que ocurre cuando dejamos que el medidor gráfico suba mucho, llegando a pasar de 0 dB (valor máximo antes de que haya saturación/ distorsión digital). Por eso, se debe respetar un cierto margen de seguridad, llamado “headroom”.
En 16 bits, además de cuidado, se recomienda también prestar atención para que el nivel de entrada no se mantenga muy bajo.
El motivo para eso es que, como no hay resolución suficiente para registrar con exactitud señales extremadamente débiles, los sonidos pueden parecer distorsionados digitalmente o estar llenos de ruidos, a través de un proceso llamado dithering, que intenta disimular fallos de cuantización.
De esta forma, como el archivo en 16 bits registra menos gradaciones de volumen (48 dB a menos con relación al de 24 bits), teóricamente corres el riesgo de que, al subir el volumen en el software, te depares con una dosis mayor de “chillidos”. En 24 bits, técnicamente, no existe ese riesgo.
A pesar de lo comentado, seguro que vas a encontrar una cantidad de ruidos (noise floor) provenientes de diversas fuentes como: cables, red eléctrica, preamplificadores, micrófonos, componentes de baja calidad, ruidos del propio ambiente (“ruido de sala”) y hasta derivados del funcionamiento natural del equipo utilizado (algunos fabricantes hasta especifican el valor en el manual).
En la práctica, valores de bit depth probablemente no influirán en tu grabación de modo relevante. Entonces, si tu equipo solo soporta 16 bits, quédate tranquilo. Al fin y al cabo, es el mismo valor de bit depth de un CD de audio que, como debes saber, puede presentar un sonido cristalino en la mayor parte de los usos.
Sin embargo, como un archivo de 24 bits no es más pesado que uno de 16 bits, vale la pena grabar en la resolución más alta, siempre que sea posible. Además de garantizar un margen de seguridad mayor al procesar el archivo digitalmente, 24 bits es el patrón de DVD y Blu-ray. Así, se evitan conversiones innecesarias, en caso de que el audio final se destine a uno de estos medios de comunicación físicos.
Actualmente, existen equipos que trabajan en 32 bits, pero, como vimos, difícilmente podrás beneficiarte de algo así, pues se trata de una opción para casos específicos.
Por ejemplo, cuando se crea el sonido directamente dentro de la computadora, sin pasar por toda una parafernalia analógica, que acaba agregando diversos ruidos en el proceso.
Tasa de muestreo: ¿qué nos dice ese valor?
Algunos valores que encontrarás son relativos a la tasa de muestreo (o sample rate). Esos números se refieren a la cantidad de veces, por segundo, que el sonido analógico es “registrado” para ser reconstruido digitalmente (44.1 kHz es igual a 44.100 muestras por segundo). Son semejantes a la cantidad de cuadros (frames) por segundo, que se necesitan en video para que nuestros ojos creen la ilusión de movimiento.
Estos valores también se refieren a la frecuencia máxima (sonido más agudo) que se puede reproducir en el archivo.
Para aclarar este tema, vale la pena recordar que mientras más grave es un sonido (baja altura tonal), más baja es su frecuencia (medida en Hertz). Mientras más agudo (tono más alto), mayor es el valor numérico en Hz.
En general, la frecuencia más baja que logramos oír, el sonido más grave, tiene alrededor de 20 Hz (o 20 veinte oscilaciones de onda por segundo) y la más alta, el sonido más agudo, en torno a 20 kHz (o 20.000 oscilaciones por segundo).
Por cuestiones técnicas (teorema de Nyquist), el promedio digital debe soportar el doble de la capacidad de frecuencia que va a reproducir. Así, la tasa de muestreo de un CD (estándar de la industria por mucho tiempo) se definió en 44.1 kHz.
Esto significa que con ese valor se tienen datos suficientes (por segundo) para representar frecuencias de hasta 22 kHz, aproximadamente. En teoría, es más de lo necesario para reproducir cualquier sonido que podamos escuchar, considerando que mucha gente no logra percibir frecuencias tan agudas. Principalmente con el avance de la edad, buena parte de los adultos no oye frecuencias superiores a 17 kHz o, incluso, a 16 kHz.
En 1995, llega al mercado el DVD y el estándar elegido pasa a ser de 48 kHz. Nuevamente, el número fue definido por una cuestión técnica: básicamente para redondear valores con relación a la cantidad de cuadros por segundo (fps) en video.
De acuerdo con lo que vimos anteriormente, queda claro que ese leve aumento no altera nuestra percepción del sonido reproducido.
A pesar de eso, algunos equipos permiten grabaciones en hasta 96 kHz o más. El único motivo para trabajar con valores tan elevados de sample rate es tener datos para manipular archivos digitalmente (algo similar a lo que vimos sobre trabajar con WAV en comparación al MP3).
Pero, como esto implica más espacio de almacenamiento y una mayor exigencia de procesamiento, no lo recomendamos. Para el video online o podcast, las ventajas probablemente serán insignificantes. Además, en algunos casos, los valores muy elevados de sample rate pueden generar distorsiones armónicas no deseadas.
Por eso, recomendamos utilizar 48 kHz, especialmente para trabajar con video. Por tratarse de un valor estándar de mercado, tendrás menos riesgos de incompatibilidades o errores de lectura.
Algunos de los posibles errores de compatibilidad tienen relación con la duración del audio y la altura tonal (pitch) reproducida. Por ejemplo, un archivo de 44.1 kHz puede sonar más rápido y “agudo” en un proyecto configurado para 48 kHz. Mientras que un archivo de 48 kHz, si se lee como uno de 44.1 kHz, sonará más lento y con los timbres más “graves”.
Por suerte, la mayor parte de los softwares actuales logra identificar las diferencias de tasas de muestreo e interpreta automáticamente el archivo de manera correcta, realizando una conversión instantánea (generalmente seguida de un aviso) cuando el valor no corresponde a lo definido en el software.
En algunos casos, para quien trabaja exclusivamente con audio (principalmente música), puede ser una buena idea mantenerse en 44.1 kHz, pues, a pesar de que el CD no se usa tanto como antes, todavía es el principal medio físico de consumo musical.
En realidad, difícilmente tendrás problemas convirtiendo de un patrón a otro. Como dijimos, actualmente las plataformas y softwares leen e interpretan muy bien ambos valores de las tasas de muestreo.
Nuestras recomendaciones son solo una garantía para evitar posibles y raros problemas, que pueden generar pequeños errores (artefactos digitales), derivados de los fallos de las conversiones.
Aplicando el conocimiento en tu día a día: ¿qué debes considerar?
Hablar sobre configuraciones de audio, preferencias y recomendaciones demanda algunas observaciones. Como el modo de consumo varía mucho, así como la capacidad de audición de las personas, lo que puede ser de excelente calidad para algunos, puede no serlo para otros.
Además, en una cadena de audio existe una infinidad de elementos que pueden alterar el sonido de manera más significativa que los tópicos mencionados aquí.
Para un aficionado al audio, alguien con oídos atentos, que utiliza excelentes equipos de alta fidelidad, las diferencias de parámetros (como las tasas de compresión) pueden ser más perceptibles, dependiendo de los sonidos en cuestión.
Existe, además, la teoría de que algunos sonidos muy graves, como los infrasonidos entre 4 y 16 Hza, a pesar de no ser audibles para nosotros, pueden percibirse de manera táctil.
Algunos estudios (que son controvertidos) también llevan a creer que frecuencias ultrasónicas (superiores a 20 kHz), en algunos casos, pueden ser percibidas por nuestro organismo, no necesariamente por el sistema auditivo.
Por último, nuestra audición no es tan desarrollada como nuestra visión. Por eso, es más difícil hacer evaluaciones y es común que surja el “efecto placebo” cuando analizamos calidad de audio.
Por esa misma razón, el mercado de electrónicos puede aprovecharse, en ocasiones, de la evolución técnica de los equipos (mayores valores de bit depth, sample rate, respuesta de frecuencias) para vender productos que, en la práctica, pueden no presentar ninguna diferencia para el usuario.
By Hotmart