MP3 - MP3

MP3
Mp3.svg
Extensión de nombre de archivo .mp3
.bit (antes de 1995)
Tipo de medio de Internet
Desarrollado por Karlheinz Brandenburg , Ernst Eberlein, Heinz Gerhäuser, Bernhard Grill , Jürgen Herre y Harald Popp (todos de Fraunhofer Society ), y otros
Versión inicial 1991 ; Hace 30 años ( 1991 )
Tipo de formato Audio digital
Contenido por MPEG-ES
Estándares
¿ Formato abierto ?

MP3 (formalmente MPEG-1 Audio Layer III o MPEG-2 Audio Layer III ) es un formato de codificación para audio digital desarrollado en gran parte por la Fraunhofer Society en Alemania, con el apoyo de otros científicos digitales en los EE. UU. Y otros lugares. Originalmente definido como el tercer formato de audio del estándar MPEG-1 , se retuvo y amplió aún más, definiendo velocidades de bits adicionales y soporte para más canales de audio , como el tercer formato de audio del estándar MPEG-2 posterior . Una tercera versión, conocida como MPEG 2.5, extendida para soportar mejor velocidades de bits más bajas, se implementa comúnmente, pero no es un estándar reconocido.

MP3 (o mp3 ) como formato de archivo comúnmente designa archivos que contienen un flujo elemental de datos codificados en MPEG-1 Audio o MPEG-2 Audio, sin otras complejidades del estándar MP3.

Con respecto a la compresión de audio (el aspecto del estándar más evidente para los usuarios finales y por el que es más conocido), MP3 utiliza compresión de datos con pérdida para codificar datos utilizando aproximaciones inexactas y el descarte parcial de datos. Esto permite una gran reducción en el tamaño de los archivos en comparación con el audio sin comprimir. La combinación de un tamaño pequeño y una fidelidad aceptable condujo a un auge en la distribución de música a través de Internet a mediados y finales de la década de 1990, con MP3 sirviendo como tecnología habilitadora en un momento en que el ancho de banda y el almacenamiento aún eran un bien escaso. El formato MP3 pronto se asoció con controversias en torno a la infracción de derechos de autor , la piratería de música y los servicios de extracción / intercambio de archivos MP3.com y Napster , entre otros. Con la llegada de los reproductores multimedia portátiles , una categoría de productos que también incluye teléfonos inteligentes , la compatibilidad con MP3 sigue siendo casi universal.

La compresión MP3 funciona reduciendo (o aproximando) la precisión de ciertos componentes del sonido que se consideran (según el análisis psicoacústico) más allá de las capacidades auditivas de la mayoría de los seres humanos. Este método se conoce comúnmente como codificación perceptual o modelado psicoacústico . A continuación, la información de audio restante se graba de manera eficiente en el espacio, utilizando algoritmos MDCT y FFT . En comparación con el audio digital con calidad de CD , la compresión MP3 normalmente puede lograr una reducción de tamaño del 75 al 95%. Por ejemplo, un MP3 codificado a una tasa de bits constante de 128 kbit / s daría como resultado un archivo de aproximadamente el 9% del tamaño del audio del CD original. A principios de la década de 2000, los reproductores de discos compactos adoptaron cada vez más la compatibilidad con la reproducción de archivos MP3 en CD de datos.

El Moving Picture Experts Group (MPEG) diseñó MP3 como parte de sus estándares MPEG-1 y, posteriormente, MPEG-2 . MPEG-1 Audio (MPEG-1 Part 3), que incluía MPEG-1 Audio Layer I, II y III, fue aprobado como un borrador del comité para una norma ISO / IEC en 1991, finalizado en 1992 y publicado en 1993 como ISO / IEC 11172-3: 1993. En 1995 se publicó una extensión de audio MPEG-2 (MPEG-2 Parte 3) con tasas de bits y de muestreo más bajas como ISO / IEC 13818-3: 1995. Solo requiere modificaciones mínimas a los decodificadores MPEG-1 existentes (reconocimiento del bit MPEG-2 en el encabezado y adición de las nuevas velocidades de muestreo y bits más bajas).

Historia

Fondo

El algoritmo de compresión de datos de audio con pérdida de MP3 aprovecha una limitación de percepción de la audición humana llamada enmascaramiento auditivo . En 1894, el físico estadounidense Alfred M. Mayer informó que un tono podía volverse inaudible por otro tono de baja frecuencia. En 1959, Richard Ehmer describió un conjunto completo de curvas auditivas con respecto a este fenómeno. Entre 1967 y 1974, Eberhard Zwicker trabajó en las áreas de sintonización y enmascaramiento de bandas de frecuencia críticas, que a su vez se basaron en la investigación fundamental en el área de Harvey Fletcher y sus colaboradores en Bell Labs .

La codificación perceptual se utilizó por primera vez para la compresión de codificación de voz con codificación predictiva lineal (LPC), que tiene sus orígenes en el trabajo de Fumitada Itakura ( Universidad de Nagoya ) y Shuzo Saito ( Nippon Telegraph and Telephone ) en 1966. En 1978, Bishnu S. Atal y Manfred R. Schroeder de Bell Labs propuso un códec de voz LPC , llamado codificación predictiva adaptativa , que utilizaba un algoritmo de codificación psicoacústica que explotaba las propiedades de enmascaramiento del oído humano. Posteriormente, en un artículo de 1979 se informó sobre la optimización adicional de Schroeder y Atal con JL Hall. Ese mismo año, MA Krasner también propuso un códec de enmascaramiento psicoacústico, quien publicó y produjo hardware para el habla (no utilizable como compresión de bits de música), pero la publicación de sus resultados en un informe técnico del Laboratorio Lincoln relativamente oscuro no influyó de inmediato. la corriente principal del desarrollo de códecs psicoacústicos.

La transformada de coseno discreta (DCT), un tipo de codificación de transformada para compresión con pérdida , propuesta por Nasir Ahmed en 1972, fue desarrollada por Ahmed con T. Natarajan y KR Rao en 1973; publicaron sus resultados en 1974. Esto condujo al desarrollo de la transformada de coseno discreta modificada (TCMD), propuesta por JP Princen, AW Johnson y AB Bradley en 1987, siguiendo un trabajo anterior de Princen y Bradley en 1986. La TCMD se convirtió más tarde en un parte central del algoritmo MP3.

Ernst Terhardt y col. construyó un algoritmo que describe el enmascaramiento auditivo con alta precisión en 1982. Este trabajo se sumó a una variedad de informes de autores que se remontan a Fletcher, y al trabajo que inicialmente determinó las proporciones críticas y los anchos de banda críticos.

En 1985, Atal y Schroeder presentaron la predicción lineal excitada por código (CELP), un algoritmo de codificación de voz perceptual basado en LPC con enmascaramiento auditivo que logró una tasa de compresión de datos significativa para su época. El Journal sobre áreas seleccionadas en comunicaciones del IEEE informó sobre una amplia variedad de algoritmos de compresión de audio (principalmente perceptuales) en 1988. La edición "Codificación de voz para comunicaciones" publicada en febrero de 1988 informó sobre una amplia gama de compresión de bits de audio establecida y operativa. tecnologías, algunas de las cuales utilizan enmascaramiento auditivo como parte de su diseño fundamental, y varias muestran implementaciones de hardware en tiempo real.

Desarrollo

La génesis de la tecnología MP3 se describe detalladamente en un artículo del profesor Hans Musmann, quien presidió el grupo de audio ISO MPEG durante varios años. En diciembre de 1988, MPEG solicitó un estándar de codificación de audio. En junio de 1989 se presentaron 14 algoritmos de codificación de audio. Debido a ciertas similitudes entre estas propuestas de codificación, se agruparon en cuatro grupos de desarrollo. El primer grupo fue ASPEC, de Fraunhofer Gesellschaft , AT&T , France Telecom , Deutsche y Thomson-Brandt . El segundo grupo fue MUSICAM , de Matsushita , CCETT , ITT y Philips . El tercer grupo fue ATAC, de Fujitsu , JVC , NEC y Sony . Y el cuarto grupo fue SB-ADPCM , de NTT y BTRL.

Los predecesores inmediatos de MP3 fueron "Optimum Coding in the Frequency Domain" (OCF) y Perceptual Transform Coding (PXFM). Estos dos códecs, junto con las contribuciones de Thomson-Brandt para el cambio de bloques, se fusionaron en un códec llamado ASPEC, que se envió a MPEG y que ganó la competencia de calidad, pero que fue rechazado por error por ser demasiado complejo de implementar. La primera implementación práctica de un codificador de percepción de audio (OCF) en hardware (el hardware de Krasner era demasiado engorroso y lento para el uso práctico) fue una implementación de un codificador de transformación psicoacústica basado en chips Motorola 56000 DSP .

Otro antecesor del formato y la tecnología MP3 se encuentra en el códec perceptual MUSICAM basado en un banco de filtros de aritmética entera de 32 subbandas, impulsado por un modelo psicoacústico. Fue diseñado principalmente para la radiodifusión de audio digital (radio digital) y la televisión digital, y sus principios básicos fueron revelados a la comunidad científica por CCETT (Francia) e IRT (Alemania) en Atlanta durante una conferencia IEEE-ICASSP en 1991, después de haber trabajado en MUSICAM con Matsushita y Philips desde 1989.

Este códec incorporado a un sistema de transmisión que utiliza modulación COFDM se demostró en el aire y en el campo con Radio Canada y CRC Canada durante el programa NAB (Las Vegas) en 1991. La implementación de la parte de audio de este sistema de transmisión se basó en dos - codificador de chips (uno para la transformación de subbanda, otro para el modelo psicoacústico diseñado por el equipo de G. Stoll (IRT Alemania), más tarde conocido como modelo psicoacústico I) y un decodificador en tiempo real que utiliza un chip Motorola 56001 DSP que ejecuta una aritmética de enteros software diseñado por el equipo de YF Dehery ( CCETT , Francia). La simplicidad del decodificador correspondiente junto con la alta calidad de audio de este códec que utiliza por primera vez una frecuencia de muestreo de 48 kHz, un formato de entrada de 20 bits / muestra (el estándar de muestreo más alto disponible en 1991, compatible con el digital profesional AES / EBU). estándar de estudio de entrada) fueron las principales razones para adoptar posteriormente las características de MUSICAM como las funciones básicas para un códec de compresión de música digital avanzado.

Durante el desarrollo del software de codificación MUSICAM, el equipo de Stoll y Dehery hizo un uso exhaustivo de un conjunto de material de evaluación de audio de alta calidad seleccionado por un grupo de profesionales del audio de la Unión Europea de Radiodifusión y posteriormente utilizado como referencia para la evaluación de la compresión musical. códecs. La técnica de codificación de subbandas resultó ser eficaz, no solo para la codificación perceptiva de los materiales de sonido de alta calidad, sino especialmente para la codificación de materiales de sonido de percusión críticos (batería, triángulo, ...), debido al efecto de enmascaramiento temporal específico. del banco de filtros de subbanda MUSICAM (esta ventaja es una característica específica de las técnicas de codificación de transformada corta).

Como estudiante de doctorado en la Universidad Alemana de Erlangen-Nuremberg , Karlheinz Brandenburg comenzó a trabajar en la compresión de música digital a principios de la década de 1980, centrándose en cómo la gente percibe la música. Completó su trabajo de doctorado en 1989. MP3 desciende directamente de OCF y PXFM, lo que representa el resultado de la colaboración de Brandenburg, trabajando como investigador postdoctoral en AT & T-Bell Labs con James D. Johnston ("JJ") de AT & T-Bell Laboratorios - con el Instituto Fraunhofer de Circuitos Integrados , Erlangen (donde trabajó con Bernhard Grill y otros cuatro investigadores - "The Original Six"), con contribuciones relativamente menores de la rama MP2 de codificadores de subbanda psicoacústica. En 1990, Brandeburgo se convirtió en profesor asistente en Erlangen-Nuremberg. Una vez allí, continuó trabajando en compresión de música con científicos de la Sociedad Fraunhofer 's Instituto Heinrich Herz (en 1993 se unió al personal de Fraunhofer HHI). La canción " Tom's Diner " de Suzanne Vega fue la primera canción utilizada por Karlheinz Brandenburg para desarrollar el MP3. Brandenburg adoptó la canción con fines de prueba, escuchándola una y otra vez cada vez que refinaba el esquema, asegurándose de que no afectara negativamente la sutileza de la voz de Vega.

Estandarización

En 1991 había dos propuestas disponibles que se evaluaron para una norma de audio MPEG: MUSICAM ( M patrón pidiendo adaptado U niversal S ubband I NTEGRADO C Oding A nd M ultiplexing) y ASPEC ( A daptive S pectral P erceptual E ntropy C Oding). La técnica MUSICAM, propuesta por Philips (Holanda), CCETT (Francia), el Institute for Broadcast Technology (Alemania) y Matsushita (Japón), fue elegida por su simplicidad y robustez de errores, así como por su alto nivel de computación. eficiencia. El formato MUSICAM, basado en la codificación de subbanda , se convirtió en la base del formato de compresión MPEG Audio, incorporando, por ejemplo, su estructura de cuadros, formato de encabezado, frecuencias de muestreo, etc.

Si bien gran parte de la tecnología y las ideas de MUSICAM se incorporaron en la definición de MPEG Audio Layer I y Layer II, el banco de filtros solo y la estructura de datos basada en 1152 muestras de encuadre (formato de archivo y flujo orientado a bytes) de MUSICAM permanecieron en la Capa III ( MP3), como parte del banco de filtros híbridos computacionalmente ineficiente . Bajo la presidencia del profesor Musmann de la Universidad Leibniz de Hannover , la edición de la norma se delegó a Leon van de Kerkhof (Países Bajos), Gerhard Stoll (Alemania) e Yves-François Dehery (Francia), quienes trabajaron en Layer I y Layer II. ASPEC fue la propuesta conjunta de AT&T Bell Laboratories, Thomson Consumer Electronics, Fraunhofer Society y CNET . Proporcionó la mayor eficiencia de codificación.

Un grupo de trabajo formado por van de Kerkhof, Stoll, Leonardo Chiariglione ( CSELT VP for Media), Yves-François Dehery, Karlheinz Brandenburg (Alemania) y James D. Johnston (Estados Unidos) tomó ideas de ASPEC, integró el banco de filtros de Layer II, agregó algunas de sus propias ideas, como la codificación estéreo conjunta de MUSICAM y creó el formato MP3, que fue diseñado para lograr la misma calidad a 128  kbit / s que MP2 a 192 kbit / s.

Los algoritmos para MPEG-1 Audio Layer I, II y III fueron aprobados en 1991 y finalizados en 1992 como parte de MPEG-1 , el primer conjunto estándar de MPEG , que resultó en el estándar internacional ISO / IEC 11172-3 (también conocido como MPEG -1 Audio o MPEG-1 Parte 3 ), publicado en 1993. Los archivos o flujos de datos que cumplan con este estándar deben manejar frecuencias de muestreo de 48k, 44100 y 32k y seguir siendo compatibles con los reproductores y decodificadores MP3 actuales . Así, la primera generación de MP3 definió 14 × 3 = 42 interpretaciones de estructuras de datos de trama MP3 y diseños de tamaño.

El trabajo adicional en audio MPEG finalizó en 1994 como parte del segundo conjunto de estándares MPEG, MPEG-2 , más formalmente conocido como estándar internacional ISO / IEC 13818-3 (también conocido como MPEG-2 Part 3 o MPEG-2 Audio o retrocompatible). MPEG-2 Audio BC ), publicado originalmente en 1995. MPEG-2 Parte 3 (ISO / IEC 13818-3) definió 42 velocidades de bits y frecuencias de muestreo adicionales para MPEG-1 Audio Layer I, II y III. Las nuevas velocidades de muestreo son exactamente la mitad de las definidas originalmente en MPEG-1 Audio. Esta reducción de la frecuencia de muestreo sirve para reducir la fidelidad de frecuencia disponible a la mitad y, al mismo tiempo, reduce la frecuencia de bits en un 50%. MPEG-2 Part 3 también mejoró el audio de MPEG-1 al permitir la codificación de programas de audio con más de dos canales, hasta 5.1 multicanal. Un MP3 codificado con MPEG-2 da como resultado la mitad del ancho de banda de reproducción de MPEG-1 apropiado para piano y canto.

Una tercera generación de flujos de datos (archivos) de estilo "MP3" extendió las ideas y la implementación de MPEG-2 , pero se denominó audio MPEG-2.5 , ya que MPEG-3 ya tenía un significado diferente. Esta extensión fue desarrollada en Fraunhofer IIS, los titulares de patentes registrados de MP3, al reducir el campo de sincronización de cuadros en el encabezado MP3 de 12 a 11 bits. Al igual que en la transición de MPEG-1 a MPEG-2, MPEG-2.5 agrega frecuencias de muestreo adicionales exactamente la mitad de las disponibles con MPEG-2. Por lo tanto, amplía el alcance de MP3 para incluir el habla humana y otras aplicaciones, pero requiere solo el 25% del ancho de banda (reproducción de frecuencia) posible utilizando tasas de muestreo MPEG-1. Si bien no es un estándar reconocido por ISO, MPEG-2.5 es ampliamente compatible con reproductores de audio digitales chinos y de marca de bajo costo, así como codificadores de MP3 basados ​​en software de computadora ( LAME ), decodificadores (FFmpeg) y reproductores (MPC) que agregan 3 × 8 = 24 tipos de fotogramas MP3 adicionales. Por lo tanto, cada generación de MP3 admite 3 velocidades de muestreo exactamente la mitad que la generación anterior para un total de 9 variedades de archivos de formato MP3. La tabla de comparación de la frecuencia de muestreo entre MPEG-1, 2 y 2.5 se proporciona más adelante en el artículo. MPEG-2.5 es compatible con LAME (desde 2000), Media Player Classic (MPC), iTunes y FFmpeg.

MPEG-2.5 no fue desarrollado por MPEG (ver arriba) y nunca fue aprobado como estándar internacional. MPEG-2.5 es, por tanto, una extensión no oficial o propietaria del formato MP3. No obstante, es ubicuo y especialmente ventajoso para aplicaciones de voz humana de baja tasa de bits.

Versiones de MPEG Audio Layer III
Versión Estándar internacional Fecha de lanzamiento público de la primera edición Fecha de lanzamiento público de la última edición
Capa de audio MPEG-1 III ISO / IEC 11172-3 (MPEG-1 Parte 3) 1993
Capa de audio MPEG-2 III ISO / IEC 13818-3 (MPEG-2 Parte 3) 1995 1998
MPEG-2.5 Audio Layer III no estándar, propietario 2000 2008

  • El estándar ISO ISO / IEC 11172-3 (también conocido como MPEG-1 Audio) definió tres formatos: MPEG-1 Audio Layer I, Layer II y Layer III. El estándar ISO ISO / IEC 13818-3 (también conocido como MPEG-2 Audio) definió la versión extendida del MPEG-1 Audio: MPEG-2 Audio Layer I, Layer II y Layer III. El audio MPEG-2 (MPEG-2 Parte 3) no debe confundirse con MPEG-2 AAC (MPEG-2 Parte 7 - ISO / IEC 13818-7).

La eficiencia de compresión de los codificadores se define típicamente por la tasa de bits, porque la tasa de compresión depende de la profundidad de bits y la tasa de muestreo de la señal de entrada. Sin embargo, las relaciones de compresión se publican a menudo. Pueden utilizar los parámetros del disco compacto (CD) como referencias (44,1 kHz , 2 canales a 16 bits por canal o 2 × 16 bits) o, a veces, los parámetros SP de la cinta de audio digital (DAT) (48 kHz, 2 × 16 bits) . Las relaciones de compresión con esta última referencia son más altas, lo que demuestra el problema con el uso del término relación de compresión para codificadores con pérdida.

Karlheinz Brandenburg usó una grabación en CD de la canción " Tom's Diner " de Suzanne Vega para evaluar y refinar el algoritmo de compresión MP3 . Se eligió esta canción debido a su naturaleza casi monofónica y su amplio contenido espectral, lo que facilita escuchar las imperfecciones en el formato de compresión durante las reproducciones. Algunos se refieren a Suzanne Vega como "La madre del MP3". Esta pista en particular tiene una propiedad interesante en el sentido de que los dos canales son casi, pero no completamente, lo mismo, lo que lleva a un caso en el que la depresión del nivel de enmascaramiento binaural provoca el desenmascaramiento espacial de los artefactos de ruido a menos que el codificador reconozca correctamente la situación y aplique correcciones similares a las detallado en el modelo psicoacústico MPEG-2 AAC. Algunos extractos de audio más críticos ( glockenspiel , triángulo , acordeón , etc.) se tomaron del disco compacto de referencia EBU V3 / SQAM y han sido utilizados por ingenieros de sonido profesionales para evaluar la calidad subjetiva de los formatos de audio MPEG. LAME es el codificador MP3 más avanzado. LAME incluye una codificación de tasa de bits variable VBR que utiliza un parámetro de calidad en lugar de un objetivo de tasa de bits. Versiones posteriores 2008+) admiten un objetivo de calidad n.nnn que selecciona automáticamente las velocidades de muestreo MPEG-2 o MPEG-2.5 según corresponda para grabaciones de voz humana que solo necesitan una resolución de ancho de banda de 5512 Hz.

Hacerlo público

Una implementación de software de simulación de referencia, escrita en lenguaje C y más tarde conocida como ISO 11172-5 , fue desarrollada (en 1991-1996) por los miembros del comité ISO MPEG Audio para producir archivos de audio MPEG compatibles con bits (Capa 1, Capa 2, Capa 3). Fue aprobado como un borrador del informe técnico de ISO / IEC en marzo de 1994 e impreso como documento CD 11172-5 en abril de 1994. Fue aprobado como un borrador de informe técnico (DTR / DIS) en noviembre de 1994, finalizado en 1996 y publicado como estándar internacional ISO / IEC TR 11172-5: 1998 en 1998. El software de referencia en lenguaje C se publicó más tarde como un estándar ISO disponible gratuitamente. Trabajando en tiempo no real en varios sistemas operativos, pudo demostrar la primera decodificación de hardware en tiempo real ( basada en DSP ) de audio comprimido. Algunas otras implementaciones en tiempo real de codificadores y decodificadores MPEG Audio estaban disponibles con el propósito de transmisión digital (radio DAB , televisión DVB ) hacia receptores de consumo y decodificadores.

El 7 de julio de 1994, la Fraunhofer Society lanzó el primer codificador de MP3 por software, llamado l3enc . La extensión del nombre de archivo .mp3 fue elegida por el equipo de Fraunhofer el 14 de julio de 1995 (anteriormente, los archivos se llamaban .bit ). Con el primer reproductor MP3 de software en tiempo real WinPlay3 (lanzado el 9 de septiembre de 1995), muchas personas pudieron codificar y reproducir archivos MP3 en sus PC. Debido a los discos duros relativamente pequeños de la época (≈500–1000 MB ), la compresión con pérdida era esencial para almacenar la música de varios álbumes en una computadora doméstica como grabaciones completas (a diferencia de la notación MIDI o archivos de seguimiento que combinaban notación con grabaciones breves de instrumentos que tocan notas individuales). Como señala el experto en sonido Jonathan Sterne, "Un pirata informático australiano adquirió l3enc con una tarjeta de crédito robada. Luego, el pirata informático realizó ingeniería inversa del software, escribió una nueva interfaz de usuario y la redistribuyó de forma gratuita, llamándola" gracias Fraunhofer "".

Implementación de ejemplo de Fraunhofer

Un hacker llamado SoloH descubrió el código fuente de la implementación de referencia MPEG "dist10" poco después del lanzamiento en los servidores de la Universidad de Erlangen . Desarrolló una versión de mayor calidad y la difundió en Internet. Este código inició la extracción generalizada de CD y la distribución de música digital como MP3 a través de Internet.

Distribución por internet

En la segunda mitad de la década de 1990, los archivos MP3 comenzaron a difundirse en Internet , a menudo a través de redes clandestinas de canciones pirateadas. El primer experimento conocido en distribución por Internet fue organizado a principios de la década de 1990 por Internet Underground Music Archive, más conocido por el acrónimo IUMA. Después de algunos experimentos usando archivos de audio sin comprimir, este archivo comenzó a entregar en la Internet nativa de baja velocidad en todo el mundo algunos archivos de audio MPEG comprimidos usando el formato MP2 (Layer II) y más tarde archivos MP3 usados ​​cuando el estándar se completó por completo. La popularidad de los MP3 comenzó a aumentar rápidamente con la llegada del reproductor de audio Winamp de Nullsoft , lanzado en 1997. En 1998, el primer reproductor de audio digital portátil de estado sólido MPMan , desarrollado por SaeHan Information Systems, con sede en Seúl , Corea del Sur , fue lanzado y el Rio PMP300 se vendió posteriormente en 1998, a pesar de los esfuerzos de represión legal por parte de la RIAA .

En noviembre de 1997, el sitio web mp3.com ofrecía miles de MP3 creados por artistas independientes de forma gratuita. El pequeño tamaño de los archivos MP3 habilitado generalizada peer-to-peer para compartir archivos de música arrancado desde CD, que habría sido casi imposible anteriormente. La primera gran red de intercambio de archivos de igual a igual, Napster , se lanzó en 1999. La facilidad para crear y compartir MP3 resultó en una infracción generalizada de los derechos de autor . Las principales compañías discográficas argumentaron que este intercambio gratuito de música reducía las ventas y lo llamaron " piratería musical ". Reaccionaron entablando demandas contra Napster (que finalmente se cerró y luego se vendió) y contra usuarios individuales que participaban en el intercambio de archivos.

El intercambio no autorizado de archivos MP3 continúa en las redes peer-to-peer de próxima generación . Algunos servicios autorizados, como Beatport , Bleep , Juno Records , eMusic , Zune Marketplace , Walmart.com , Rhapsody , la reencarnación de Napster aprobada por la industria discográfica y Amazon.com venden música sin restricciones en formato MP3.

Diseño

Estructura de archivo

Diagrama de la estructura de un archivo MP3
Diagrama de la estructura de un archivo MP3 (no se admite la versión 2.5 de MPEG, por lo tanto, 12 en lugar de 11 bits para MP3 Sync Word).

Un archivo MP3 se compone de marcos MP3, que constan de un encabezado y un bloque de datos. Esta secuencia de tramas se denomina flujo elemental . Debido al "depósito de bits", las tramas no son elementos independientes y, por lo general, no se pueden extraer en límites de trama arbitrarios. Los bloques de datos MP3 contienen la información de audio (comprimida) en términos de frecuencias y amplitudes. El diagrama muestra que el encabezado MP3 consta de una palabra de sincronización , que se utiliza para identificar el comienzo de un marco válido. A esto le sigue un bit que indica que este es el estándar MPEG y dos bits que indican que se utiliza la capa 3; por lo tanto, MPEG-1 Audio Layer 3 o MP3. Después de esto, los valores serán diferentes, dependiendo del archivo MP3. ISO / IEC 11172-3 define el rango de valores para cada sección del encabezado junto con la especificación del encabezado. La mayoría de los archivos MP3 actuales contienen metadatos ID3 , que preceden o siguen a los fotogramas MP3, como se indica en el diagrama. El flujo de datos puede contener una suma de comprobación opcional.

El estéreo conjunto se realiza solo cuadro a cuadro.

Codificación y decodificación

El algoritmo de codificación MP3 generalmente se divide en cuatro partes. La parte 1 divide la señal de audio en piezas más pequeñas, llamadas fotogramas, y luego se realiza un filtro de transformada de coseno discreto modificado (MDCT) en la salida. La parte 2 pasa la muestra a una transformada rápida de Fourier (FFT) de 1024 puntos , luego se aplica el modelo psicoacústico y se realiza otro filtro MDCT en la salida. La parte 3 cuantifica y codifica cada muestra, conocida como asignación de ruido, que se ajusta a sí misma para cumplir con los requisitos de velocidad de bits y enmascaramiento de sonido . La parte 4 formatea el flujo de bits , llamado marco de audio, que se compone de 4 partes, el encabezado , la verificación de errores , los datos de audio y los datos auxiliares .

El estándar MPEG-1 no incluye una especificación precisa para un codificador MP3, pero proporciona modelos psicoacústicos de ejemplo, bucle de velocidad y similares en la parte no normativa del estándar original. MPEG-2 duplica la cantidad de frecuencias de muestreo admitidas y MPEG-2.5 agrega 3 más. Cuando se escribió esto, las implementaciones sugeridas estaban bastante anticuadas. Se suponía que los implementadores del estándar diseñarían sus propios algoritmos adecuados para eliminar partes de la información de la entrada de audio. Como resultado, se dispuso de muchos codificadores MP3 diferentes, cada uno de los cuales producía archivos de diferente calidad. Las comparaciones estaban ampliamente disponibles, por lo que era fácil para un posible usuario de un codificador buscar la mejor opción. Algunos codificadores que eran competentes en la codificación a velocidades de bits más altas (como LAME ) no eran necesariamente tan buenos a velocidades de bits más bajas. Con el tiempo, LAME evolucionó en el sitio web de SourceForge hasta que se convirtió en el codificador CBR MP3 de facto. Posteriormente se agregó un modo ABR. El trabajo avanzó en la tasa de bits variable verdadera utilizando un objetivo de calidad entre 0 y 10. Con el tiempo, los números (como -V 9.600) podrían generar una codificación de voz de baja tasa de bits de excelente calidad a solo 41 kbit / s utilizando las extensiones MPEG-2.5.

Durante la codificación, se toman 576 muestras en el dominio del tiempo y se transforman en 576 muestras en el dominio de la frecuencia . Si hay un transitorio , se toman 192 muestras en lugar de 576. Esto se hace para limitar la propagación temporal del ruido de cuantificación que acompaña al transitorio (ver psicoacústica ). La resolución de frecuencia está limitada por el tamaño pequeño de la ventana del bloque largo, lo que reduce la eficiencia de la codificación. La resolución de tiempo puede ser demasiado baja para señales muy transitorias y puede causar manchas en los sonidos de percusión.

Debido a la estructura de árbol del banco de filtros, los problemas de pre-eco empeoran, ya que la respuesta de impulso combinada de los dos bancos de filtros no proporciona, ni puede, proporcionar una solución óptima en resolución de tiempo / frecuencia. Además, la combinación de las salidas de los dos bancos de filtros crea problemas de aliasing que deben ser manejados parcialmente por la etapa de "compensación de aliasing"; sin embargo, eso crea un exceso de energía para codificar en el dominio de la frecuencia, disminuyendo así la eficiencia de la codificación.

La decodificación, por otro lado, se define cuidadosamente en el estándar. La mayoría de los decodificadores son " compatibles con bitstream ", lo que significa que la salida descomprimida que producen de un archivo MP3 dado será la misma, dentro de un grado especificado de tolerancia de redondeo , que la salida especificada matemáticamente en el documento de alto estándar ISO / IEC (ISO / IEC 11172-3). Por lo tanto, la comparación de decodificadores generalmente se basa en cuán eficientes computacionalmente son (es decir, cuánta memoria o tiempo de CPU usan en el proceso de decodificación). Con el tiempo, esta preocupación se ha convertido en un problema menor a medida que las velocidades de la CPU pasaron de MHz a GHz. El retardo general del codificador / decodificador no está definido, lo que significa que no existe una disposición oficial para la reproducción sin interrupciones . Sin embargo, algunos codificadores como LAME pueden adjuntar metadatos adicionales que permitirán a los jugadores que pueden manejarlos ofrecer una reproducción perfecta.

Calidad

Al realizar una codificación de audio con pérdida, como la creación de un flujo de datos MP3, existe una compensación entre la cantidad de datos generados y la calidad del sonido de los resultados. La persona que genera un MP3 selecciona una tasa de bits , que especifica cuántos kilobits por segundo de audio se desean. Cuanto mayor sea la tasa de bits, mayor será el flujo de datos MP3 y, en general, más parecido a la grabación original sonará. Con una tasa de bits demasiado baja, los artefactos de compresión (es decir, sonidos que no estaban presentes en la grabación original) pueden ser audibles en la reproducción. Parte del audio es difícil de comprimir debido a su aleatoriedad y ataques agudos. Cuando se comprime este tipo de audio, generalmente se escuchan artefactos como el timbre o el eco previo . Una muestra de aplausos o un instrumento triangular con una tasa de bits relativamente baja proporcionan buenos ejemplos de artefactos de compresión. La mayoría de las pruebas subjetivas de códecs de percepción tienden a evitar el uso de este tipo de materiales sonoros; sin embargo, los artefactos generados por los sonidos de percusión son apenas perceptibles debido a la característica de enmascaramiento temporal específico del banco de filtros de 32 subbandas de la Capa II en el que se basa el formato. .

Además de la velocidad de bits de una pieza de audio codificada, la calidad del sonido codificado en MP3 también depende de la calidad del algoritmo del codificador, así como de la complejidad de la señal que se codifica. Como el estándar MP3 permite bastante libertad con los algoritmos de codificación, los diferentes codificadores presentan una calidad bastante diferente, incluso con tasas de bits idénticas. A modo de ejemplo, en una prueba de escucha pública con dos codificadores de MP3 tempranos configurados en aproximadamente 128 kbit / s, uno obtuvo una puntuación de 3,66 en una escala de 1 a 5, mientras que el otro obtuvo solo 2,22. La calidad depende de la elección del codificador y los parámetros de codificación.

Esta observación provocó una revolución en la codificación de audio. Al principio, la tasa de bits era la principal y única consideración. En ese momento, los archivos MP3 eran del tipo más simple: usaban la misma tasa de bits para todo el archivo: este proceso se conoce como codificación de tasa de bits constante (CBR). El uso de una tasa de bits constante hace que la codificación sea más simple y menos intensiva en la CPU. Sin embargo, también es posible crear archivos en los que la tasa de bits cambia a lo largo del archivo. Estos se conocen como velocidad de bits variable . El depósito de bits y la codificación VBR eran en realidad parte del estándar MPEG-1 original. El concepto detrás de ellos es que, en cualquier pieza de audio, algunas secciones son más fáciles de comprimir, como el silencio o la música que contiene solo unos pocos tonos, mientras que otras serán más difíciles de comprimir. Por lo tanto, la calidad general del archivo puede aumentarse utilizando una tasa de bits más baja para los pasajes menos complejos y una más alta para las partes más complejas. Con algunos codificadores de MP3 avanzados, es posible especificar una calidad determinada y el codificador ajustará la velocidad de bits en consecuencia. Los usuarios que deseen una "configuración de calidad" particular que sea transparente para sus oídos pueden utilizar este valor al codificar toda su música y, en general, no deben preocuparse por realizar pruebas de escucha personales en cada pieza musical para determinar la tasa de bits correcta.

La calidad percibida puede verse influenciada por el entorno de escucha (ruido ambiental), la atención del oyente y el entrenamiento del oyente y, en la mayoría de los casos, por el equipo de audio del oyente (como tarjetas de sonido, parlantes y auriculares). Además, se puede lograr una calidad suficiente mediante un ajuste de menor calidad para conferencias y aplicaciones de habla humana y reduce el tiempo de codificación y la complejidad. Una prueba dada a los nuevos estudiantes por el profesor de música de la Universidad de Stanford, Jonathan Berger, mostró que la preferencia de los estudiantes por la música con calidad MP3 ha aumentado cada año. Berger dijo que los estudiantes parecen preferir los sonidos "chisporroteantes" que los MP3 aportan a la música.

Un estudio en profundidad de la calidad de audio MP3, el proyecto del artista de sonido y compositor Ryan Maguire "El fantasma en el MP3" aísla los sonidos perdidos durante la compresión MP3. En 2015, lanzó la pista "moDernisT" (un anagrama de "Tom's Diner"), compuesta exclusivamente a partir de los sonidos eliminados durante la compresión MP3 de la canción "Tom's Diner", la pista originalmente utilizada en la formulación del estándar MP3. En las Actas de la Conferencia Internacional de Música por Computadora de 2014 se publicó una descripción detallada de las técnicas utilizadas para aislar los sonidos eliminados durante la compresión MP3, junto con la motivación conceptual del proyecto.

Tasa de bits

Velocidades de
bits disponibles de MPEG Audio Layer III (kbit / s)

Capa de audio MPEG-1 III

Capa de audio MPEG-2 III
MPEG-2.5
Audio Layer III
- 8 8
- dieciséis dieciséis
- 24 24
32 32 32
40 40 40
48 48 48
56 56 56
64 64 64
80 80 -
96 96 -
112 112 -
128 128 -
n / A 144 -
160 160 -
192 - -
224 - -
256 - -
320 - -
Tasas de muestreo admitidas
por formato de audio MPEG

Capa de audio MPEG-1 III

Capa de audio MPEG-2 III
MPEG-2.5
Audio Layer III
- - 8000 Hz
- - 11025 Hz
- - 12000 Hz
- 16000 Hz -
- 22050 Hz -
- 24000 Hz -
32000 Hz - -
44100 Hz - -
48000 Hz - -

La tasa de bits es el producto de la frecuencia de muestreo y el número de bits por muestra utilizados para codificar la música. El audio de CD es 44100 muestras por segundo. El número de bits por muestra también depende del número de canales de audio. El CD es estéreo y tiene 16 bits por canal. Entonces, multiplicar 44100 por 32 da 1411200, la tasa de bits del audio digital de CD sin comprimir. MP3 fue diseñado para codificar estos datos de 1411 kbit / sa 320 kbit / so menos. Como los algoritmos MP3 detectan pasajes menos complejos, pueden emplearse tasas de bits más bajas. Cuando se usa MPEG-2 en lugar de MPEG-1, MP3 solo admite velocidades de muestreo más bajas (16000, 22050 o 24000 muestras por segundo) y ofrece opciones de velocidad de bits tan bajas como 8 kbit / s pero no superiores a 160 kbit / s. Al reducir la frecuencia de muestreo, MPEG-2 layer III elimina todas las frecuencias por encima de la mitad de la nueva frecuencia de muestreo que puede haber estado presente en la fuente de audio.

Como se muestra en estas dos tablas, se permiten 14 velocidades de bits seleccionadas en el estándar MPEG-1 Audio Layer III: 32, 40, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256 y 320 kbit / s, junto con las 3 frecuencias de muestreo más altas disponibles de 32, 44,1 y 48  kHz . MPEG-2 Audio Layer III también permite 14 velocidades de bits algo diferentes (y en su mayoría más bajas) de 8, 16, 24, 32, 40, 48, 56, 64, 80, 96, 112, 128, 144, 160 kbit / s con Las frecuencias de muestreo de 16, 22,05 y 24  kHz, que son exactamente la mitad de las tramas MPEG-1 MPEG-2.5 Audio Layer III, están limitadas a solo 8 velocidades de bits de 8, 16, 24, 32, 40, 48, 56 y 64 kbit / s con 3 frecuencias de muestreo aún más bajas de 8, 11.025 y 12 kHz. En los sistemas anteriores que solo admiten el estándar MPEG-1 Audio Layer III, los archivos MP3 con una velocidad de bits inferior a 32 kbit / s pueden reproducirse de forma acelerada y mejorada.

Los sistemas anteriores también carecen de controles de reproducción de avance rápido y rebobinado en MP3.

Las tramas MPEG-1 contienen la mayor cantidad de detalles en el modo de 320 kbit / s, la configuración de velocidad de bits más alta permitida, con silencio y tonos simples que aún requieren 32 kbit / s. Los fotogramas MPEG-2 pueden capturar reproducciones de sonido de hasta 12 kHz necesarias hasta 160 kbit / s. Los archivos MP3 creados con MPEG-2 no tienen un ancho de banda de 20 kHz debido al teorema de muestreo de Nyquist-Shannon . La reproducción de frecuencia es siempre estrictamente inferior a la mitad de la frecuencia de muestreo, y los filtros imperfectos requieren un mayor margen de error (nivel de ruido frente a la nitidez del filtro), por lo que una frecuencia de muestreo de 8 kHz limita la frecuencia máxima a 4 kHz, mientras que una frecuencia de muestreo de 48 kHz La frecuencia limita un MP3 a una reproducción de sonido máxima de 24 kHz. MPEG-2 usa la mitad y MPEG-2.5 solo una cuarta parte de las frecuencias de muestreo de MPEG-1.

Para el campo general de la reproducción del habla humana, un ancho de banda de 5512 Hz es suficiente para producir resultados excelentes (para voz) utilizando la frecuencia de muestreo de 11025 y la codificación VBR del archivo WAV 44100 (estándar). Los angloparlantes tienen un promedio de 41 a 42 kbit / s con una configuración de -V 9,6, pero esto puede variar según la cantidad de silencio registrado o la velocidad de transmisión (ppm). El remuestreo a 12000 (ancho de banda de 6K) se selecciona mediante el parámetro LAME -V 9.4 Del mismo modo, -V 9.2 selecciona una frecuencia de muestreo de 16000 y un filtrado de paso bajo de 8K resultante. Para obtener más información, consulte Nyquist - Shannon. Las versiones anteriores de LAME y FFmpeg solo admiten argumentos enteros para el parámetro de selección de calidad de velocidad de bits variable. El parámetro de calidad n.nnn (-V) está documentado en lame.sourceforge.net, pero solo se admite en LAME con el nuevo selector de calidad de velocidad de bits variable VBR, no la velocidad de bits promedio (ABR).

Una frecuencia de muestreo de 44,1 kHz se usa comúnmente para la reproducción de música, porque también se usa para audio de CD , la fuente principal utilizada para crear archivos MP3. En Internet se utiliza una gran variedad de velocidades de bits. Se suele utilizar una velocidad de bits de 128 kbit / s, con una relación de compresión de 11: 1, que ofrece una calidad de audio adecuada en un espacio relativamente pequeño. A medida que la disponibilidad de ancho de banda de Internet y el tamaño de los discos duros han aumentado, se generalizan velocidades de bits más altas de hasta 320 kbit / s. El audio sin comprimir almacenado en un CD de audio tiene una tasa de bits de 1411,2 kbit / s (16 bits / muestra × 44100 muestras / segundo × 2 canales / 1000 bits / kilobit), por lo que las tasas de bits son 128, 160 y 192 kbit / s representan relaciones de compresión de aproximadamente 11: 1, 9: 1 y 7: 1 respectivamente.

Se pueden lograr velocidades de bits no estándar de hasta 640 kbit / s con el codificador LAME y la opción de formato libre, aunque pocos reproductores MP3 pueden reproducir esos archivos. Según la norma ISO, los decodificadores solo deben poder decodificar flujos de hasta 320 kbit / s. Los primeros codificadores MPEG Layer III usaban lo que ahora se llama Tasa de bits constante (CBR). El software solo pudo utilizar una tasa de bits uniforme en todos los fotogramas de un archivo MP3. Más tarde, los codificadores de MP3 más sofisticados pudieron usar el depósito de bits para apuntar a una tasa de bits promedio seleccionando la tasa de codificación para cada cuadro en función de la complejidad del sonido en esa parte de la grabación.

Un codificador MP3 más sofisticado puede producir audio con tasa de bits variable . El audio MPEG puede usar la conmutación de tasa de bits por cuadro, pero solo los decodificadores de capa III deben admitirlo. VBR se utiliza cuando el objetivo es lograr un nivel fijo de calidad. El tamaño de archivo final de una codificación VBR es menos predecible que con una tasa de bits constante . La tasa de bits promedio es un tipo de VBR implementado como un compromiso entre los dos: se permite que la tasa de bits varíe para obtener una calidad más consistente, pero se controla para que permanezca cerca de un valor promedio elegido por el usuario, para tamaños de archivo predecibles. Aunque un decodificador MP3 debe ser compatible con VBR para cumplir con los estándares, históricamente algunos decodificadores tienen errores con la decodificación VBR, particularmente antes de que los codificadores VBR se generalizaran. El codificador de MP3 LAME más evolucionado admite la generación de VBR, ABR e incluso los formatos CBR MP3 más antiguos.

El audio de capa III también puede usar un "depósito de bits", la capacidad de un cuadro parcialmente completo para contener parte de los datos de audio del siguiente cuadro, lo que permite cambios temporales en la tasa de bits efectiva, incluso en un flujo de tasa de bits constante. El manejo interno del depósito de bits aumenta el retardo de codificación. No existe un factor de escala de banda 21 (sfb21) para frecuencias por encima de aproximadamente 16  kHz , lo que obliga al codificador a elegir entre una representación menos precisa en la banda 21 o un almacenamiento menos eficiente en todas las bandas por debajo de la banda 21, lo que resulta en una tasa de bits desperdiciada en la codificación VBR.

Datos auxiliares

El campo de datos auxiliares se puede utilizar para almacenar datos definidos por el usuario. Los datos auxiliares son opcionales y el número de bits disponibles no se proporciona explícitamente. Los datos auxiliares se ubican después de los bits del código de Huffman y van hacia donde apunta el main_data_begin del siguiente marco. El codificador mp3PRO utilizó datos auxiliares para codificar información adicional que podría mejorar la calidad del audio cuando se decodifica con su propio algoritmo.

Metadatos

Una "etiqueta" en un archivo de audio es una sección del archivo que contiene metadatos como el título, artista, álbum, número de pista u otra información sobre el contenido del archivo. Los estándares MP3 no definen formatos de etiquetas para archivos MP3, ni existe un formato contenedor estándar que admita metadatos y evite la necesidad de etiquetas. Sin embargo, existen varios estándares de facto para formatos de etiquetas. A partir de 2010, los más extendidos son ID3v1 e ID3v2 , y el APEv2 introducido más recientemente . Estas etiquetas normalmente están incrustadas al principio o al final de los archivos MP3, separadas de los datos reales del marco MP3. Los decodificadores MP3 extraen información de las etiquetas o simplemente las tratan como datos basura ignorables que no son MP3.

El software de reproducción y edición a menudo contiene la funcionalidad de edición de etiquetas, pero también hay aplicaciones de edición de etiquetas dedicadas a este propósito. Aparte de los metadatos relacionados con el contenido de audio, las etiquetas también se pueden utilizar para DRM . ReplayGain es un estándar para medir y almacenar el volumen de un archivo MP3 ( normalización de audio ) en su etiqueta de metadatos, lo que permite que un reproductor compatible con ReplayGain ajuste automáticamente el volumen de reproducción general para cada archivo. MP3Gain se puede utilizar para modificar archivos de forma reversible en función de las mediciones de ReplayGain, de modo que se pueda lograr una reproducción ajustada en reproductores sin la capacidad de ReplayGain.

Licencias, propiedad y legislación

La tecnología básica de codificación y decodificación de MP3 no tiene patente en la Unión Europea, y todas las patentes han expirado en 2012 a más tardar. En los Estados Unidos, la tecnología quedó sustancialmente libre de patentes el 16 de abril de 2017 (ver más abajo). Las patentes de MP3 expiraron en los EE. UU. Entre 2007 y 2017. En el pasado, muchas organizaciones han reclamado la propiedad de patentes relacionadas con la decodificación o codificación de MP3. Estos reclamos dieron lugar a una serie de amenazas legales y acciones de diversas fuentes. Como resultado, la incertidumbre sobre qué patentes deben haber sido licenciadas para crear productos MP3 sin cometer una infracción de patentes en los países que permiten las patentes de software fue una característica común de las primeras etapas de adopción de la tecnología.

El estándar inicial MPEG-1 casi completo (partes 1, 2 y 3) estuvo disponible públicamente el 6 de diciembre de 1991 como ISO CD 11172. En la mayoría de los países, las patentes no se pueden presentar después de que el estado de la técnica se ha hecho público y las patentes caducan 20 años. después de la fecha de presentación inicial, que puede ser hasta 12 meses después para presentaciones en otros países. Como resultado, las patentes requeridas para implementar MP3 expiraron en la mayoría de los países en diciembre de 2012, 21 años después de la publicación de ISO CD 11172.

Una excepción son los Estados Unidos, donde las patentes en vigor pero presentadas antes del 8 de junio de 1995 expiran después de 17 años desde la fecha de emisión o 20 años desde la fecha de prioridad. Un proceso prolongado de tramitación de patentes puede dar lugar a que la patente se expida mucho más tarde de lo que normalmente se espera (consulte las patentes submarinas ). Las diversas patentes relacionadas con MP3 expiraron en fechas que van de 2007 a 2017 en los Estados Unidos. Las patentes para cualquier cosa divulgada en ISO CD 11172 presentada un año o más después de su publicación son cuestionables. Si solo se consideran las patentes de MP3 conocidas presentadas hasta diciembre de 1992, entonces la decodificación de MP3 está libre de patentes en los EE. UU. Desde el 22 de septiembre de 2015, cuando expiró la patente de EE. UU . 5,812,672 , que tenía una solicitud PCT en octubre de 1992. Si se toma como medida la patente de mayor duración mencionada en las referencias antes mencionadas, entonces la tecnología MP3 quedó libre de patente en los Estados Unidos el 16 de abril de 2017, cuando expiró la patente estadounidense 6,009,399 , mantenida y administrada por Technicolor . Como resultado, muchos proyectos de software gratuitos y de código abierto , como el sistema operativo Fedora , han decidido comenzar a enviar soporte MP3 de forma predeterminada, y los usuarios ya no tendrán que recurrir a la instalación de paquetes no oficiales mantenidos por repositorios de software de terceros para MP3. reproducción o codificación.

Technicolor (anteriormente llamado Thomson Consumer Electronics) afirmó controlar la concesión de licencias MP3 de las patentes de Capa 3 en muchos países, incluidos Estados Unidos, Japón, Canadá y países de la UE. Technicolor había estado aplicando activamente estas patentes. Los ingresos por licencias MP3 de la administración de Technicolor generaron alrededor de 100 millones de euros para la Fraunhofer Society en 2005. En septiembre de 1998, el Instituto Fraunhofer envió una carta a varios desarrolladores de software MP3 en la que se indicaba que se necesitaba una licencia para "distribuir y / o vender decodificadores y / o codificadores ". La carta afirmaba que los productos sin licencia "infringen los derechos de patente de Fraunhofer y Thomson. Para fabricar, vender o distribuir productos utilizando el estándar [MPEG Layer-3] y, por lo tanto, nuestras patentes, debe obtener una licencia nuestra bajo estas patentes". Esto llevó a la situación en la que el proyecto del codificador de MP3 LAME no podía ofrecer a sus usuarios binarios oficiales que pudieran ejecutarse en su computadora. La posición del proyecto era que, como código fuente, LAME era simplemente una descripción de cómo se podría implementar un codificador MP3 . Extraoficialmente, los binarios compilados estaban disponibles en otras fuentes.

Sisvel SpA, una empresa con sede en Luxemburgo, administra las licencias de patentes que se aplican a MPEG Audio. Ellos, junto con su subsidiaria estadounidense Audio MPEG, Inc., demandaron previamente a Thomson por infracción de patente sobre tecnología MP3, pero esas disputas se resolvieron en noviembre de 2005 y Sisvel otorgó a Thomson una licencia para sus patentes. Motorola siguió poco después, y firmó con Sisvel para licenciar patentes relacionadas con MP3 en diciembre de 2005. Excepto por tres patentes, las patentes de EE. UU. Administradas por Sisvel habían expirado todas en 2015. Las tres excepciones son: Patente de EE . UU. 5,878,080 , expirada en febrero de 2017; Patente de EE. UU . 5,850,456 , vencida en febrero de 2017; y la patente de EE. UU . 5,960,037 , vencida el 9 de abril de 2017.

En septiembre de 2006, funcionarios alemanes confiscaron reproductores MP3 del stand de SanDisk en la feria IFA de Berlín después de que una empresa de patentes italiana ganara una orden judicial en nombre de Sisvel contra SanDisk en una disputa sobre derechos de licencia. La orden judicial fue revocada más tarde por un juez de Berlín, pero esa revocación a su vez fue bloqueada el mismo día por otro juez del mismo tribunal, "trayendo la Patente del Lejano Oeste a Alemania", en palabras de un comentarista. En febrero de 2007, Texas MP3 Technologies demandó a Apple, Samsung Electronics y Sandisk en un tribunal federal del este de Texas , alegando la infracción de una patente de reproductor MP3 portátil que Texas MP3 dijo que se le había asignado. Apple, Samsung y Sandisk resolvieron las reclamaciones en su contra en enero de 2009.

Alcatel-Lucent ha hecho valer varias patentes de codificación y compresión MP3, supuestamente heredadas de AT & T-Bell Labs, en un litigio propio. En noviembre de 2006, antes de la fusión de las empresas, Alcatel demandó a Microsoft por supuestamente infringir siete patentes. El 23 de febrero de 2007, un jurado de San Diego otorgó a Alcatel-Lucent 1.520 millones de dólares en daños y perjuicios por la infracción de dos de ellos. Sin embargo, el tribunal revocó posteriormente el laudo, al concluir que una patente no había sido infringida y que la otra no era propiedad de Alcatel-Lucent ; era copropiedad de AT&T y Fraunhofer, que le había otorgado la licencia a Microsoft , dictaminó el juez. Esa sentencia de la defensa fue confirmada en apelación en 2008. Ver Alcatel-Lucent v. Microsoft para más información.

Tecnologías alternativas

Existen otros formatos con pérdida. Entre estos, Advanced Audio Coding (AAC) es el más utilizado y fue diseñado para ser el sucesor de MP3. También existen otros formatos con pérdida como mp3PRO y MP2 . Son miembros de la misma familia tecnológica que MP3 y dependen de modelos psicoacústicos y algoritmos MDCT más o menos similares . Mientras que MP3 utiliza un enfoque de codificación híbrido que es parte MDCT y parte FFT , AAC es puramente MDCT, lo que mejora significativamente la eficiencia de la compresión. Muchas de las patentes básicas subyacentes a estos formatos pertenecen a Fraunhofer Society , Alcatel-Lucent, Thomson Consumer Electronics , Bell , Dolby , LG Electronics , NEC , NTT Docomo , Panasonic , Sony Corporation , ETRI , JVC Kenwood , Philips , Microsoft y NTT. .

Cuando despegaba el mercado de los reproductores de audio digital, el MP3 se adoptó ampliamente como estándar, de ahí el nombre popular de "reproductor MP3". Sony fue una excepción y utilizó su propio códec ATRAC tomado de su formato MiniDisc , que según Sony era mejor. Tras las críticas y las ventas de Walkman más bajas de lo esperado , en 2004 Sony introdujo por primera vez soporte MP3 nativo para sus reproductores Walkman.

También hay formatos de compresión abiertos como Opus y Vorbis que están disponibles de forma gratuita y sin restricciones de patente conocidas. Algunos de los formatos de compresión de audio más nuevos, como AAC, WMA Pro y Vorbis, están libres de algunas limitaciones inherentes al formato MP3 que ningún codificador MP3 puede superar.

Además de los métodos de compresión con pérdida, los formatos sin pérdida son una alternativa importante a MP3 porque proporcionan contenido de audio inalterado, aunque con un tamaño de archivo mayor en comparación con la compresión con pérdida. Los formatos sin pérdida incluyen FLAC (Free Lossless Audio Codec), Apple Lossless y muchos otros.

Ver también

Referencias

Otras lecturas

enlaces externos