Psicoacústica - Psychoacoustics

La psicoacústica es la rama de la psicofísica que involucra el estudio científico de la percepción del sonido y la audiología, cómo los humanos percibimos varios sonidos. Más específicamente, es la rama de la ciencia que estudia las respuestas psicológicas asociadas con el sonido (incluido el ruido , el habla y la música ). La psicoacústica es un campo interdisciplinario de muchas áreas, que incluyen psicología, acústica, ingeniería electrónica, física, biología, fisiología e informática.

Fondo

La audición no es un fenómeno puramente mecánico de propagación de ondas , sino que también es un evento sensorial y perceptivo; en otras palabras, cuando una persona escucha algo, ese algo llega al oído como una onda sonora mecánica que viaja por el aire, pero dentro del oído se transforma en potenciales de acción neuronales . Las células ciliadas externas (OHC) de la cóclea de un mamífero dan lugar a una mayor sensibilidad y una mejor resolución de frecuencia de la respuesta mecánica de la partición coclear. Estos pulsos nerviosos luego viajan al cerebro donde se perciben. Por lo tanto, en muchos problemas de acústica, como el procesamiento de audio , es ventajoso tener en cuenta no solo la mecánica del entorno, sino también el hecho de que tanto el oído como el cerebro están involucrados en la experiencia auditiva de una persona.

El oído interno , por ejemplo, realiza un procesamiento de señal significativo al convertir formas de onda de sonido en estímulos neuronales, por lo que ciertas diferencias entre formas de onda pueden ser imperceptibles. Las técnicas de compresión de datos , como MP3 , aprovechan este hecho. Además, el oído tiene una respuesta no lineal a los sonidos de diferentes niveles de intensidad; esta respuesta no lineal se llama sonoridad . Las redes telefónicas y los sistemas de reducción de ruido de audio hacen uso de este hecho comprimiendo de forma no lineal las muestras de datos antes de la transmisión y luego expandiéndolas para su reproducción. Otro efecto de la respuesta no lineal del oído es que los sonidos que tienen una frecuencia cercana producen notas de tiempo fantasma o productos de distorsión de intermodulación .

El término "psicoacústica" también surge en discusiones sobre psicología cognitiva y los efectos que las expectativas personales, los prejuicios y las predisposiciones pueden tener en las evaluaciones relativas de los oyentes y las comparaciones de la estética y la agudeza sonoras y en las diferentes determinaciones de los oyentes acerca de las cualidades relativas de varios instrumentos musicales. instrumentos e intérpretes. La expresión que uno "escucha lo que uno quiere (o espera) escuchar" puede pertenecer a tales discusiones.

Límites de percepción

Un contorno de igual volumen . Note la sensibilidad máxima alrededor de 2–4 kHz, en el medio de la banda de frecuencia de la voz .

El oído humano puede oír nominalmente sonidos en el rango de 20 Hz (0,02 kHz) a 20 000 Hz (20 kHz). El límite superior tiende a disminuir con la edad; la mayoría de los adultos no pueden oír por encima de los 16 kHz. La frecuencia más baja que se ha identificado como tono musical es de 12 Hz en condiciones ideales de laboratorio. Los tonos entre 4 y 16 Hz se pueden percibir a través del sentido del tacto del cuerpo .

La resolución de frecuencia del oído es de aproximadamente 3,6 Hz dentro de la octava de 1000-2000 Hz. Es decir, los cambios en el tono superiores a 3,6 Hz se pueden percibir en un entorno clínico. Sin embargo, se pueden percibir diferencias de tono incluso más pequeñas a través de otros medios. Por ejemplo, la interferencia de dos tonos a menudo se puede escuchar como una variación repetitiva en el volumen del tono. Esta modulación de amplitud ocurre con una frecuencia igual a la diferencia de frecuencias de los dos tonos y se conoce como latido .

La escala de semitonos utilizada en la notación musical occidental no es una escala de frecuencia lineal sino logarítmica . Otras escalas se han derivado directamente de experimentos sobre la percepción auditiva humana, como la escala mel y la escala Bark (estas se utilizan para estudiar la percepción, pero no generalmente en la composición musical), y son aproximadamente logarítmicas en frecuencia en el extremo de alta frecuencia. , pero casi lineal en el extremo de baja frecuencia.

El rango de intensidad de los sonidos audibles es enorme. Los tímpanos humanos son sensibles a las variaciones en la presión del sonido y pueden detectar cambios de presión desde tan pequeños como unos pocos micropascales (μPa) hasta más de 100 kPa . Por esta razón, el nivel de presión acústica también se mide logarítmicamente, con todas las presiones referenciadas a 20 μPa (o 1,97385 × 10 −10 atm ). Por lo tanto, el límite inferior de audibilidad se define como 0 dB , pero el límite superior no está tan claramente definido. El límite superior es más una cuestión del límite donde el oído se dañará físicamente o con el potencial de causar pérdida auditiva inducida por ruido .

Una exploración más rigurosa de los límites inferiores de audibilidad determina que el umbral mínimo en el que se puede escuchar un sonido depende de la frecuencia. Al medir esta intensidad mínima para probar tonos de varias frecuencias, se puede derivar una curva de umbral absoluto de audición (ATH) dependiente de la frecuencia . Por lo general, el oído muestra un pico de sensibilidad (es decir, su ATH más bajo) entre 1 y 5 kHz, aunque el umbral cambia con la edad, y los oídos más viejos muestran una sensibilidad disminuida por encima de 2 kHz.

El ATH es el más bajo de los contornos de igual volumen . Los contornos de igual volumen indican el nivel de presión sonora (dB SPL), en el rango de frecuencias audibles, que se perciben como de igual volumen. Los contornos de igual volumen fueron medidos por primera vez por Fletcher y Munson en Bell Labs en 1933 utilizando tonos puros reproducidos a través de auriculares, y los datos que recopilaron se denominan curvas de Fletcher-Munson . Debido a que la sonoridad subjetiva era difícil de medir, las curvas de Fletcher-Munson se promediaron sobre muchos sujetos.

Robinson y Dadson refinaron el proceso en 1956 para obtener un nuevo conjunto de curvas de igual volumen para una fuente de sonido frontal medida en una cámara anecoica . Las curvas Robinson-Dadson se estandarizaron como ISO 226 en 1986. En 2003, ISO 226 se revisó como contorno de igual volumen utilizando datos recopilados de 12 estudios internacionales.

Localización de sonido

La localización del sonido es el proceso de determinar la ubicación de una fuente de sonido. El cerebro utiliza diferencias sutiles en el volumen, el tono y la sincronización entre los dos oídos para permitirnos localizar las fuentes de sonido. La localización se puede describir en términos de posición tridimensional: el acimut o ángulo horizontal, el cenit o ángulo vertical y la distancia (para sonidos estáticos) o velocidad (para sonidos en movimiento). Los seres humanos, como la mayoría de los animales de cuatro patas , son expertos en detectar la dirección en la horizontal, pero menos en la vertical debido a que las orejas están colocadas simétricamente. Algunas especies de búhos tienen las orejas colocadas asimétricamente y pueden detectar el sonido en los tres planos, una adaptación para cazar pequeños mamíferos en la oscuridad.

Efectos de enmascaramiento

Gráfico de enmascaramiento de audio

Suponga que un oyente puede escuchar una señal acústica determinada en condiciones de silencio. Cuando se reproduce una señal mientras se reproduce otro sonido (un enmascarador), la señal tiene que ser más fuerte para que el oyente la escuche. El enmascarador no necesita tener los componentes de frecuencia de la señal original para que ocurra el enmascaramiento. Se puede escuchar una señal enmascarada aunque sea más débil que la del enmascarador. El enmascaramiento ocurre cuando una señal y un enmascarador se reproducen juntos, por ejemplo, cuando una persona susurra mientras otra persona grita, y el oyente no escucha la señal más débil ya que ha sido enmascarada por el enmascarador más fuerte. El enmascaramiento también puede ocurrir en una señal antes de que comience un enmascarador o después de que se detenga. Por ejemplo, un solo sonido de aplauso fuerte y repentino puede hacer que los sonidos que preceden o siguen inmediatamente sean inaudibles. Los efectos del enmascaramiento hacia atrás son más débiles que el enmascaramiento hacia adelante. El efecto de enmascaramiento se ha estudiado ampliamente en la investigación psicoacústica. Se puede cambiar el nivel del enmascarador y medir el umbral, luego crear un diagrama de una curva de sintonía psicofísica que revelará características similares. Los efectos de enmascaramiento también se utilizan en la codificación de audio con pérdida, como MP3 .

Falta fundamental

Cuando se les presenta una serie armónica de frecuencias en la relación 2 f , 3 f , 4 f , 5 f , etc. (donde f es una frecuencia específica), los humanos tienden a percibir que el tono es f . Se puede encontrar un ejemplo audible en YouTube.

Software

La codificación de audio perceptual utiliza algoritmos basados ​​en psicoacústica.

El modelo psicoacústico proporciona compresión de señal con pérdida de alta calidad al describir qué partes de una señal de audio digital determinada pueden eliminarse (o comprimirse agresivamente) de forma segura, es decir, sin pérdidas significativas en la calidad percibida (conscientemente) del sonido.

Puede explicar cómo un fuerte aplauso de las manos puede parecer dolorosamente fuerte en una biblioteca silenciosa, pero apenas se nota después de que un automóvil fracasa en una concurrida calle urbana. Esto proporciona un gran beneficio a la relación de compresión general, y el análisis psicoacústico conduce habitualmente a archivos de música comprimidos que tienen un tamaño de 1/10 a 1/12 del tamaño de los masters de alta calidad, pero con una pérdida de calidad notablemente menos proporcional. Esta compresión es una característica de casi todos los formatos modernos de compresión de audio con pérdida. Algunos de estos formatos incluyen Dolby Digital (AC-3), MP3 , Opus , Ogg Vorbis , AAC , WMA , MPEG-1 Layer II (utilizado para la transmisión de audio digital en varios países) y ATRAC , la compresión utilizada en MiniDisc y algunos Walkman. modelos.

La psicoacústica se basa en gran medida en la anatomía humana , especialmente en las limitaciones del oído para percibir el sonido, como se describió anteriormente. Para resumir, estas limitaciones son:

Un algoritmo de compresión puede asignar una prioridad más baja a los sonidos fuera del rango del oído humano. Al alejar cuidadosamente los bits de los componentes sin importancia y acercarlos a los importantes, el algoritmo garantiza que los sonidos que es más probable que perciba un oyente se representen con mayor precisión.

Música

La psicoacústica incluye temas y estudios que son relevantes para la psicología musical y la musicoterapia . Teóricos como Benjamin Boretz consideran que algunos de los resultados de la psicoacústica son significativos solo en un contexto musical.

Irv Teibel 's serie de entornos LPS (1969-79) son un ejemplo temprano de sonidos disponibles en el mercado liberados expresamente para la mejora de las habilidades psicológicas.

Psicoacústica aplicada

Modelo psicoacústico

La psicoacústica ha disfrutado durante mucho tiempo de una relación simbiótica con la informática . Los pioneros de Internet JCR Licklider y Bob Taylor completaron su trabajo a nivel de posgrado en psicoacústica, mientras que BBN Technologies se especializó originalmente en consultoría en temas de acústica antes de comenzar a construir la primera red de conmutación de paquetes .

Licklider escribió un artículo titulado "Una teoría dúplex de la percepción del tono".

La psicoacústica se aplica en muchos campos del desarrollo de software, donde los desarrolladores trazan patrones matemáticos probados y experimentales en el procesamiento de señales digitales. Muchos códecs de compresión de audio, como MP3 y Opus, utilizan un modelo psicoacústico para aumentar las relaciones de compresión. El éxito de los sistemas de audio convencionales para la reproducción de música en teatros y hogares se puede atribuir a la psicoacústica y las consideraciones psicoacústicas dieron lugar a nuevos sistemas de audio, como la síntesis de campos sonoros psicoacústicos . Además, los científicos han experimentado con un éxito limitado en la creación de nuevas armas acústicas, que emiten frecuencias que pueden dañar, dañar o matar. La psicoacústica también se aprovecha en la sonificación para hacer que múltiples dimensiones de datos independientes sean audibles y fácilmente interpretables. Esto permite la guía auditiva sin la necesidad de audio espacial y en juegos de computadora de sonificación y otras aplicaciones, como el vuelo con drones y la cirugía guiada por imágenes . También se aplica hoy en día dentro de la música, donde los músicos y artistas continúan creando nuevas experiencias auditivas al enmascarar frecuencias no deseadas de instrumentos, lo que hace que se mejoren otras frecuencias. Otra aplicación más es el diseño de altavoces pequeños o de menor calidad, que pueden utilizar el fenómeno de los fundamentos faltantes para dar el efecto de notas graves a frecuencias más bajas que las que los altavoces son físicamente capaces de producir (ver referencias).

Los fabricantes de automóviles diseñan sus motores e incluso sus puertas para que tengan un cierto sonido.

Ver también

Campos relacionados

Temas psicoacústicos

Referencias

Notas

Fuentes

enlaces externos