Modulación de código de impulsos - Pulse-code modulation

Modulación de código de impulsos
Extensión de nombre de archivo
.L16, .WAV, .AIFF, .AU, .PCM
Tipo de medio de Internet
audio / L16, audio / L8, audio / L20, audio / L24
Código de tipo "AIFF" para L16, ninguno
número mágico Varía
Tipo de formato Audio sin comprimir
Contenido por CD de audio , AES3 , WAV , AIFF , AU , M2TS , VOB y muchos otros

La modulación de código de impulsos ( PCM ) es un método utilizado para representar digitalmente señales analógicas muestreadas . Es la forma estándar de audio digital en computadoras, discos compactos , telefonía digital y otras aplicaciones de audio digital. En un flujo PCM , la amplitud de la señal analógica se muestrea regularmente a intervalos uniformes, y cada muestra se cuantifica al valor más cercano dentro de un rango de pasos digitales.

La modulación de código de pulso lineal ( LPCM ) es un tipo específico de PCM en el que los niveles de cuantificación son linealmente uniformes. Esto contrasta con las codificaciones PCM en las que los niveles de cuantificación varían en función de la amplitud (como con el algoritmo de ley A o el algoritmo de ley μ ). Aunque PCM es un término más general, a menudo se usa para describir datos codificados como LPCM.

Una secuencia PCM tiene dos propiedades básicas que determinan la fidelidad de la secuencia a la señal analógica original: la frecuencia de muestreo , que es el número de veces por segundo que se toman muestras; y la profundidad de bits , que determina el número de posibles valores digitales que se pueden utilizar para representar cada muestra.

Historia

Las primeras comunicaciones eléctricas comenzaron a muestrear señales para multiplexar muestras de múltiples fuentes de telegrafía y transmitirlas a través de un solo cable telegráfico. El inventor estadounidense Moses G. Farmer transmitió la multiplexación por división de tiempo (TDM) del telégrafo ya en 1853. El ingeniero eléctrico WM Miner, en 1903, utilizó un conmutador electromecánico para la multiplexación por división de tiempo de múltiples señales de telégrafo; también aplicó esta tecnología a la telefonía . Obtuvo un habla inteligible de los canales muestreados a una frecuencia superior a 3500-4300 Hz; las tasas más bajas resultaron insatisfactorias.

En 1920, el sistema de transmisión de imágenes por cable de Bartlane utilizó la señalización telegráfica de caracteres perforados en cinta de papel para enviar muestras de imágenes cuantificadas a 5 niveles. En 1926, Paul M. Rainey de Western Electric patentó una máquina de fax que transmitía su señal utilizando PCM de 5 bits, codificada por un convertidor opto-mecánico de analógico a digital . La máquina no entró en producción.

El ingeniero británico Alec Reeves , sin tener conocimiento de trabajos anteriores, concibió el uso de PCM para la comunicación de voz en 1937 mientras trabajaba para International Telephone and Telegraph en Francia. Describió la teoría y sus ventajas, pero no resultó una aplicación práctica. Reeves solicitó una patente francesa en 1938, y su patente estadounidense fue concedida en 1943. Para entonces, Reeves había comenzado a trabajar en el Establecimiento de Investigación de Telecomunicaciones .

La primera transmisión de voz por técnicas digitales, el equipo de encriptación SIGSALY , transmitió comunicaciones aliadas de alto nivel durante la Segunda Guerra Mundial . En 1943, los investigadores de Bell Labs que diseñaron el sistema SIGSALY se dieron cuenta del uso de la codificación binaria PCM como ya lo había propuesto Reeves. En 1949, para el sistema DATAR de la Armada canadiense , Ferranti Canadá construyó un sistema de radio PCM en funcionamiento que podía transmitir datos de radar digitalizados a largas distancias.

PCM a finales de la década de 1940 y principios de la de 1950 utilizaba un tubo de codificación de rayos catódicos con un electrodo de placa que tenía perforaciones de codificación. Como en un osciloscopio , el haz se barrió horizontalmente a la frecuencia de muestreo, mientras que la desviación vertical se controló mediante la señal analógica de entrada, lo que provocó que el haz pasara a través de porciones superiores o inferiores de la placa perforada. La placa recogió o pasó el rayo, produciendo variaciones de corriente en código binario, un bit a la vez. En lugar de binario natural, la cuadrícula del tubo posterior de Goodall fue perforada para producir un código Gray sin fallas y produjo todos los bits simultáneamente usando un haz de ventilador en lugar de un haz de exploración.

En los Estados Unidos, el Salón de la Fama de Inventores Nacionales ha honrado a Bernard M. Oliver y Claude Shannon como los inventores de PCM, como se describe en "Sistema de comunicación que emplea modulación de código de pulso", Patente estadounidense 2.801.281 presentada en 1946 y 1952, otorgada en 1956 Otra patente con el mismo título fue presentada por John R. Pierce en 1945 y emitida en 1948: Patente de Estados Unidos 2.437.707 . Los tres publicaron "La filosofía del PCM" en 1948.

El sistema T-carrier , introducido en 1961, utiliza dos líneas de transmisión de par trenzado para transportar 24 llamadas telefónicas PCM muestreadas a 8 kHz y resolución de 8 bits. Este desarrollo mejoró la capacidad y la calidad de las llamadas en comparación con los esquemas de multiplexación por división de frecuencia anteriores .

En 1973, P. Cummiskey, Nikil Jayant y James L. Flanagan desarrollaron la modulación diferencial adaptativa por código de impulsos (ADPCM) .

Grabaciones de audio digital

En 1967, las instalaciones de investigación de NHK en Japón desarrollaron la primera grabadora PCM . El dispositivo de 12 bits de 30 kHz utilizó un comparador (similar a la reducción de ruido DBX ) para ampliar el rango dinámico y almacenó las señales en una grabadora de cinta de vídeo . En 1969, NHK amplió las capacidades del sistema a estéreo de 2 canales y resolución de 13 bits de 32 kHz. En enero de 1971, utilizando el sistema de grabación PCM de NHK, los ingenieros de Denon grabaron las primeras grabaciones digitales comerciales.

En 1972, Denon presentó la primera grabadora digital de 8 canales, la DN-023R, que utilizaba una grabadora de cinta de video de transmisión de carrete abierto de 4 cabezales para grabar audio PCM de 13 bits y 47,25 kHz. En 1977, Denon desarrolló el sistema de grabación PCM portátil, el DN-034R. Al igual que el DN-023R, grabó 8 canales a 47,25 kHz, pero utilizó 14 bits "con énfasis , lo que lo hace equivalente a 15,5 bits".

En 1979 , se grabó el primer álbum de pop digital, Bop till You Drop . Se grabó en PCM lineal de 16 bits y 50 kHz utilizando una grabadora de cinta digital de 3M.

El disco compacto (CD) llevó PCM a las aplicaciones de audio de consumo con su introducción en 1982. El CD utiliza una frecuencia de muestreo de 44,100 Hz y una resolución de 16 bits y almacena hasta 80 minutos de audio estéreo por disco.

Telefonía digital

El rápido desarrollo y la amplia adopción de la telefonía digital PCM fue posible gracias a la tecnología de circuitos de condensadores conmutados (SC) de semiconductores de óxido de metal (MOS) , desarrollada a principios de la década de 1970. Esto llevó al desarrollo de chips de filtro de códec PCM a fines de la década de 1970. El chip de filtro de códec PCM CMOS (MOS complementario) de puerta de silicio , desarrollado por David A. Hodges y WC Black en 1980, ha sido desde entonces el estándar de la industria para la telefonía digital. En la década de 1990, las redes de telecomunicaciones como la red telefónica pública conmutada (PSTN) se habían digitalizado en gran medida con filtros de códec CMOS PCM de integración a muy gran escala (VLSI), ampliamente utilizados en sistemas de conmutación electrónica para centrales telefónicas , módems de usuario y una amplia gama de aplicaciones de transmisión digital como la red digital de servicios integrados (ISDN), teléfonos inalámbricos y teléfonos móviles .

Implementaciones

PCM es el método de codificación que se utiliza normalmente para audio digital sin comprimir.

  • El conmutador 4ESS introdujo la conmutación por división de tiempo en el sistema telefónico de EE. UU. En 1976, basado en tecnología de circuitos integrados de escala media.
  • LPCM se utiliza para la codificación sin pérdidas de datos de audio en el estándar Compact disc Red Book (informalmente también conocido como CD de audio ), introducido en 1982.
  • AES3 (especificado en 1985, en el que se basa S / PDIF ) es un formato particular que utiliza LPCM.
  • Los LaserDiscs con sonido digital tienen una pista LPCM en el canal digital.
  • En las PC, PCM y LPCM a menudo se refieren al formato utilizado en WAV (definido en 1991) y formatos de contenedor de audio AIFF (definido en 1988). Los datos LPCM también se pueden almacenar en otros formatos como AU , formato de audio sin procesar (archivo sin encabezado) y varios formatos de contenedor multimedia .
  • LPCM se ha definido como parte de los estándares DVD (desde 1995) y Blu-ray (desde 2006). También se define como parte de varios formatos de almacenamiento de audio y video digital (por ejemplo, DV desde 1995, AVCHD desde 2006).
  • LPCM es utilizado por HDMI (definido en 2002), una interfaz de conector de audio / video digital de un solo cable para transmitir datos digitales sin comprimir.
  • El formato de contenedor RF64 (definido en 2007) utiliza LPCM y también permite el almacenamiento de flujo de bits no PCM: se pueden configurar varios formatos de compresión contenidos en el archivo RF64 como ráfagas de datos (Dolby E, Dolby AC3, DTS, MPEG-1 / MPEG-2 "disfrazado" de PCM lineal.

Modulación

Muestreo y cuantificación de una señal (rojo) para LPCM de 4 bits

En el diagrama, se muestrea y cuantifica una onda sinusoidal (curva roja) para PCM. La onda sinusoidal se muestrea a intervalos regulares, mostrados como líneas verticales. Para cada muestra, se elige uno de los valores disponibles (en el eje y). El proceso PCM se implementa comúnmente en un solo circuito integrado llamado convertidor de analógico a digital (ADC). Esto produce una representación completamente discreta de la señal de entrada (puntos azules) que se puede codificar fácilmente como datos digitales para su almacenamiento o manipulación. También se podrían multiplexar varios flujos PCM en un flujo de datos agregados más grande , generalmente para la transmisión de múltiples flujos a través de un solo enlace físico. Una técnica se llama multiplexación por división de tiempo (TDM) y se utiliza ampliamente, sobre todo en el sistema telefónico público moderno.

Demodulación

Los componentes electrónicos que intervienen en la producción de una señal analógica precisa a partir de los datos discretos son similares a los que se utilizan para generar la señal digital. Estos dispositivos son convertidores de digital a analógico (DAC). Producen una tensión o corriente (según el tipo) que representa el valor presentado en sus entradas digitales. Esta salida generalmente se filtraría y amplificaría para su uso.

Para recuperar la señal original de los datos muestreados, un demodulador puede aplicar el procedimiento de modulación a la inversa. Después de cada período de muestreo, el demodulador lee el siguiente valor y cambia la señal de salida al nuevo valor. Como resultado de estas transiciones, la señal retiene una cantidad significativa de energía de alta frecuencia debido a los efectos de la imagen. Para eliminar estas frecuencias indeseables, el demodulador pasa la señal a través de un filtro de reconstrucción que suprime la energía fuera del rango de frecuencia esperado (mayor que la frecuencia de Nyquist ).

Precisión y tasas de muestreo estándar

Las profundidades de muestra comunes para LPCM son 8, 16, 20 o 24 bits por muestra .

LPCM codifica un solo canal de sonido. La compatibilidad con audio multicanal depende del formato de archivo y se basa en la sincronización de múltiples transmisiones LPCM. Si bien dos canales (estéreo) es el formato más común, los sistemas pueden admitir hasta 8 canales de audio (envolvente 7.1) o más.

Las frecuencias de muestreo comunes son 48 kHz como se usa con videos en formato DVD , o 44.1 kHz como se usa en CD. En algunos equipos se pueden utilizar frecuencias de muestreo de 96 kHz o 192 kHz, pero se han debatido los beneficios.

Limitaciones

El teorema de muestreo de Nyquist-Shannon muestra que los dispositivos PCM pueden funcionar sin introducir distorsiones dentro de sus bandas de frecuencia diseñadas si proporcionan una frecuencia de muestreo al menos dos veces mayor que la frecuencia más alta contenida en la señal de entrada. Por ejemplo, en telefonía , la banda de frecuencia de voz utilizable varía de aproximadamente 300  Hz a 3400 Hz. Por lo tanto, para una reconstrucción eficaz de la señal de voz, las aplicaciones de telefonía suelen utilizar una frecuencia de muestreo de 8000 Hz, que es más del doble de la frecuencia de voz más alta utilizable.

Independientemente, existen posibles fuentes de deterioro implícitas en cualquier sistema PCM:

  • La elección de un valor discreto que esté cerca pero no exactamente al nivel de la señal analógica para cada muestra conduce a un error de cuantificación .
  • Entre muestras no se realiza ninguna medición de la señal; el teorema de muestreo garantiza una representación y recuperación no ambigua de la señal solo si no tiene energía a la frecuencia f s / 2 o superior (la mitad de la frecuencia de muestreo, conocida como frecuencia de Nyquist ); las frecuencias más altas no se representarán o recuperarán correctamente y agregarán distorsión de alias a la señal por debajo de la frecuencia de Nyquist.
  • Como las muestras dependen del tiempo, se requiere un reloj preciso para una reproducción precisa. Si el reloj de codificación o decodificación no es estable, estas imperfecciones afectarán directamente la calidad de salida del dispositivo.

Procesamiento y codificación

Algunas formas de PCM combinan el procesamiento de señales con la codificación. Las versiones anteriores de estos sistemas aplicaban el procesamiento en el dominio analógico como parte del proceso de analógico a digital; las implementaciones más nuevas lo hacen en el dominio digital. Estas técnicas simples se han vuelto obsoletas en gran medida por las técnicas modernas de compresión de audio basadas en transformadas , como la codificación de transformada de coseno discreta modificada (MDCT).

  • PCM lineal (LPCM) es PCM con cuantificación lineal.
  • PCM diferencial (DPCM) codifica los valores de PCM como diferencias entre el valor actual y el predicho. Un algoritmo predice la siguiente muestra basándose en las muestras anteriores, y el codificador almacena solo la diferencia entre esta predicción y el valor real. Si la predicción es razonable, se pueden usar menos bits para representar la misma información. Para el audio, este tipo de codificación reduce la cantidad de bits necesarios por muestra en aproximadamente un 25% en comparación con PCM.
  • La modulación de código de pulso diferencial adaptable (ADPCM) es una variante de DPCM que varía el tamaño del paso de cuantificación, para permitir una mayor reducción del ancho de banda requerido para una relación señal / ruido dada .
  • La modulación delta es una forma de DPCM que usa un bit por muestra para indicar si la señal aumenta o disminuye en comparación con la muestra anterior.

En telefonía, una señal de audio estándar para una sola llamada telefónica se codifica como 8.000 muestras por segundo , de 8 bits cada una, dando una señal digital de 64 kbit / s conocida como DS0 . La codificación de compresión de señal predeterminada en un DS0 es PCM de ley μ (ley mu) (América del Norte y Japón) o PCM de ley A (Europa y la mayor parte del resto del mundo). Estos son sistemas de compresión logarítmica en los que un número de muestra PCM lineal de 12 o 13 bits se asigna a un valor de 8 bits. Este sistema está descrito por la norma internacional G.711 .

Cuando los costos de los circuitos son altos y la pérdida de calidad de voz es aceptable, a veces tiene sentido comprimir aún más la señal de voz. Se utiliza un algoritmo ADPCM para mapear una serie de muestras PCM de ley μ o ley A de 8 bits en una serie de muestras ADPCM de 4 bits. De esta forma se duplica la capacidad de la línea. La técnica se detalla en el estándar G.726 .

Se han desarrollado formatos de codificación de audio y códecs de audio para lograr una mayor compresión. Algunas de estas técnicas se han estandarizado y patentado. Las técnicas de compresión avanzadas, como MDCT y codificación predictiva lineal (LPC), ahora se utilizan ampliamente en teléfonos móviles , voz sobre IP (VoIP) y medios de transmisión .

Codificación para transmisión en serie

PCM puede ser de retorno a cero (RZ) o no retorno a cero (NRZ). Para que un sistema NRZ se sincronice utilizando información dentro de banda, no debe haber secuencias largas de símbolos idénticos, como unos o ceros. Para los sistemas PCM binarios, la densidad de los símbolos 1 se denomina densidad de unos .

La densidad de unidades a menudo se controla mediante técnicas de precodificación, como la codificación limitada de longitud de ejecución , donde el código PCM se expande en un código un poco más largo con un límite garantizado de densidad de unidades antes de la modulación en el canal. En otros casos, se agregan bits de entramado adicionales al flujo, lo que garantiza al menos transiciones de símbolo ocasionales.

Otra técnica utilizada para controlar la densidad de unidades es el uso de un codificador en los datos, que tenderá a convertir el flujo de datos en un flujo que parece pseudoaleatorio , pero donde los datos se pueden recuperar exactamente mediante un descodificador complementario. En este caso, las ejecuciones largas de ceros o unos todavía son posibles en la salida, pero se consideran lo suficientemente improbables como para permitir una sincronización confiable.

En otros casos, el valor de CC a largo plazo de la señal modulada es importante, ya que la creación de una polarización de CC tenderá a mover los circuitos de comunicaciones fuera de su rango operativo. En este caso, se toman medidas especiales para mantener un recuento de la polarización de CC acumulada y para modificar los códigos si es necesario para hacer que la polarización de CC siempre vuelva a cero.

Muchos de estos códigos son códigos bipolares , donde los pulsos pueden ser positivos, negativos o ausentes. En el típico código de inversión de marca alternativa , los pulsos distintos de cero alternan entre ser positivo y negativo. Estas reglas pueden violarse para generar símbolos especiales utilizados para enmarcar u otros propósitos especiales.

Nomenclatura

La palabra pulso en el término modulación de código de pulso se refiere a los pulsos que se encuentran en la línea de transmisión. Esto quizás sea una consecuencia natural de que esta técnica ha evolucionado junto con dos métodos analógicos, modulación por ancho de pulso y modulación por posición de pulso , en los que la información a codificar está representada por pulsos de señal discretos de diferente ancho o posición, respectivamente. A este respecto, PCM se parece poco a estas otras formas de codificación de señales, excepto que todas pueden usarse en multiplexación por división de tiempo, y los números de los códigos PCM se representan como pulsos eléctricos.

Ver también

Notas

Referencias

Otras lecturas

enlaces externos