Lectura de labios - Lip reading

La lectura de labios , también conocida como lectura del habla , es una técnica de comprensión del habla mediante la interpretación visual de los movimientos de los labios, la cara y la lengua cuando no se dispone de un sonido normal. También se basa en la información proporcionada por el contexto, el conocimiento del idioma y cualquier audición residual. Aunque la lectura de labios es utilizada más ampliamente por personas sordas y con problemas de audición, la mayoría de las personas con audición normal procesan parte de la información del habla al ver la boca en movimiento.

Proceso

Aunque la percepción del habla se considera una habilidad auditiva, es intrínsecamente multimodal, ya que la producción del habla requiere que el hablante realice movimientos de labios, dientes y lengua que a menudo son visibles en la comunicación cara a cara. La información de los labios y la cara apoya la comprensión auditiva y la mayoría de los oyentes fluidos de un idioma son sensibles a las acciones del habla que se ven (ver efecto McGurk ). La medida en que las personas hacen uso de las acciones del habla vista varía con la visibilidad de la acción del habla y el conocimiento y la habilidad del perceptor.

Fonemas y visemas

El fonema es la unidad de sonido más pequeña detectable en un idioma que sirve para distinguir palabras entre sí. / pit / y / pik / difieren en un fonema y se refieren a conceptos diferentes. El inglés hablado tiene alrededor de 44 fonemas. Para la lectura de labios, el número de unidades visualmente distintivas ( visemas ) es mucho menor, por lo que varios fonemas se asignan a unos pocos visemas. Esto se debe a que muchos fonemas se producen dentro de la boca y la garganta y no se pueden ver. Estos incluyen consonantes glotales y la mayoría de los gestos de la lengua. Los pares sonoros y sordos parecen idénticos, como [p] y [b], [k] y [g], [t] y [d], [f] y [v], y [s] y [z]; lo mismo ocurre con la nasalización (por ejemplo, [m] frente a [b]). Los homofenos son palabras que se ven similares cuando se leen los labios, pero que contienen diferentes fonemas. Debido a que hay aproximadamente tres veces más fonemas que visemas en inglés, a menudo se afirma que solo el 30% del habla se puede leer en los labios. Los homofenos son una fuente crucial de errores en la lectura de los labios.

La leyenda de este acertijo dice: "Aquí hay una clase de una docena de niños, quienes, al ser llamados para dar sus nombres, fueron fotografiados por el proceso instantáneo justo cuando cada uno comenzaba a pronunciar su propio nombre. Los doce nombres eran Oom, Alden , Eastman, Alfred, Arthur, Luke, Fletcher, Matthew, Theodore, Richard, Shirmer y Hisswald. Ahora no parece posible dar el nombre correcto a cada uno de los doce niños, pero si practicas la lista a cada uno, no le resultará difícil localizar el nombre propio de cada uno de los chicos ".

Coarticulación

Los visemas se pueden capturar como imágenes fijas, pero el habla se desarrolla en el tiempo. La articulación suave de los sonidos del habla en secuencia puede significar que los patrones de la boca pueden ser "moldeados" por un fonema adyacente: el sonido "th" en "diente" y en "dientes" parece muy diferente debido al contexto vocálico . Esta característica de la lectura dinámica del habla afecta a la lectura de labios "más allá del visema".

¿Cómo puede "funcionar" con tan pocos visemas?

La distribución estadística de los fonemas dentro del léxico de una lengua es desigual. Si bien hay grupos de palabras que son fonémicamente similares entre sí ('vecinos léxicos', como escupir / sorber / sentarse / pegar ... etc.), Otras son diferentes a todas las demás palabras: son 'únicas' en términos de la distribución de sus fonemas ("paraguas" puede ser un ejemplo). Los usuarios expertos del idioma aportan este conocimiento al interpretar el habla, por lo que generalmente es más difícil identificar una palabra escuchada con muchos vecinos léxicos que una con pocos vecinos. Aplicando esta percepción al habla vista, algunas palabras en el idioma pueden leerse los labios sin ambigüedades incluso cuando contienen pocos visemas, simplemente porque ninguna otra palabra podría "encajar".

Variación en legibilidad y habilidad

Muchos factores afectan la visibilidad de una cara que habla, incluida la iluminación, el movimiento de la cabeza / cámara, la velocidad de fotogramas de la imagen en movimiento y la distancia del espectador (ver p. Ej.). El movimiento de la cabeza que acompaña al habla normal también puede mejorar la lectura de los labios, independientemente de las acciones orales. Sin embargo, cuando la lectura de labios conecta el habla , el conocimiento del lenguaje hablado por parte del espectador, la familiaridad con el hablante y el estilo del habla, y el contexto del material de lectura de labios son tan importantes como la visibilidad del hablante. Si bien la mayoría de las personas oyentes son sensibles al habla vista, existe una gran variabilidad en la habilidad individual de lectura del habla. Los buenos lectores de labios suelen ser más precisos que los malos lectores de labios a la hora de identificar fonemas a partir del habla visual.

Algunos investigadores han cuestionado una simple medida visémica de la "legibilidad de los labios". La medida de la "clase de equivalencia de fonemas" tiene en cuenta la estructura estadística del léxico y también puede adaptarse a las diferencias individuales en la capacidad de leer los labios. De acuerdo con esto, la excelente lectura de labios a menudo se asocia con habilidades cognitivas de base más amplia, incluida la competencia general del lenguaje, la función ejecutiva y la memoria de trabajo .

Lectura de labios y aprendizaje de idiomas en bebés y niños con audición

Los primeros meses

Ver la boca juega un papel en la sensibilidad temprana al habla de los bebés muy pequeños y los prepara para convertirse en hablantes entre 1 y 2 años. Para imitar, un bebé debe aprender a moldear sus labios de acuerdo con los sonidos que escucha; ver al hablante puede ayudarles a hacer esto. Los recién nacidos imitan los movimientos de la boca de los adultos, como sacar la lengua o abrir la boca, lo que podría ser un precursor de una mayor imitación y posterior aprendizaje del idioma. Los bebés se molestan cuando el habla audiovisual de un hablante familiar está desincronizado y tienden a mostrar patrones de apariencia diferentes para rostros familiares que para rostros desconocidos cuando se combinan con voces (grabadas). Los bebés son sensibles a las ilusiones de McGurk meses antes de haber aprendido a hablar. Estos estudios y muchos más apuntan al papel de la visión en el desarrollo de la sensibilidad al habla (auditiva) en el primer semestre de vida.

Los próximos seis meses; un papel en el aprendizaje de un idioma nativo

Hasta alrededor de los seis meses de edad, la mayoría de los bebés que oyen son sensibles a una amplia gama de gestos del habla, incluidos los que se pueden ver en la boca, que pueden o no ser parte de la fonología de su lengua materna. Pero en los segundos seis meses de vida, el bebé que oye muestra un estrechamiento de la percepción de la estructura fonética de su propio idioma y puede perder la sensibilidad inicial a los patrones de la boca que no son útiles. Los sonidos del habla / v / y / b / que son visémicamente distintivos en inglés pero no en castellano se distinguen con precisión en bebés expuestos al español y expuestos al inglés hasta la edad de alrededor de 6 meses. Sin embargo, los bebés mayores expuestos al español pierden la capacidad de "ver" esta distinción, mientras que se retiene para los bebés expuestos al inglés. Dichos estudios sugieren que en lugar de que la audición y la visión se desarrollen de manera independiente en la infancia, el procesamiento multimodal es la regla, no la excepción, en el desarrollo (del lenguaje) del cerebro infantil.

Producción lingüística temprana: uno a dos años

Dados los numerosos estudios que indican un papel de la visión en el desarrollo del lenguaje en el niño pre-lingual, los efectos de la ceguera congénita en el desarrollo del lenguaje son sorprendentemente pequeños. Los niños de 18 meses aprenden palabras nuevas más fácilmente cuando las escuchan y no las aprenden cuando se les muestran los movimientos del habla sin escuchar. Sin embargo, los niños ciegos de nacimiento pueden confundir / m / y / n / en su propia producción temprana de palabras en inglés, una confusión que rara vez se ve en niños oyentes videntes, ya que / m / y / n / son visiblemente distintivos, pero auditorialmente confusos. El papel de la visión en los niños de 1 a 2 años puede ser menos crítico para la producción de su lengua materna, ya que, a esa edad, han alcanzado las habilidades que necesitan para identificar e imitar los sonidos del habla. Sin embargo, escuchar un idioma no nativo puede desviar la atención del niño hacia la participación visual y auditiva mediante la lectura y la escucha de los labios para procesar, comprender y producir el habla.

En la niñez

Los estudios con bebés y niños prelingüísticos utilizan medidas indirectas no verbales para indicar la sensibilidad al habla vista. La lectura explícita de los labios se puede probar de manera confiable al escuchar a los niños en edad preescolar pidiéndoles que "digan en voz alta lo que digo en silencio". En los niños en edad escolar, la lectura de labios de palabras conocidas de un conjunto cerrado, como las palabras numéricas, se puede obtener fácilmente. Las diferencias individuales en la habilidad de leer los labios, comprobadas al pedirle al niño que 'diga la palabra que usted lee', o al hacer coincidir una expresión de lectura de labios con una imagen, muestran una relación entre la habilidad de leer los labios y la edad.

En adultos que oyen: consideraciones sobre la vida útil

Si bien la lectura de labios en voz baja representa un desafío para la mayoría de las personas oyentes, agregar la vista del hablante al discurso escuchado mejora el procesamiento del habla en muchas condiciones. Los mecanismos para esto, y las formas precisas en las que la lectura de labios ayuda, son temas de investigación actual. Ver al hablante ayuda en todos los niveles del procesamiento del habla, desde la discriminación de características fonéticas hasta la interpretación de enunciados pragmáticos . Los efectos positivos de agregar visión al habla son mayores en entornos ruidosos que silenciosos, donde al facilitar la percepción del habla, ver al hablante puede liberar recursos cognitivos, permitiendo un procesamiento más profundo del contenido del habla.

A medida que la audición se vuelve menos confiable en la vejez, las personas tienden a depender más de la lectura de labios, y se les anima a hacerlo. Sin embargo, es posible que una mayor dependencia de la lectura de labios no siempre mejore los efectos de la pérdida auditiva relacionada con la edad. El deterioro cognitivo en el envejecimiento puede estar precedido o asociado con una pérdida auditiva medible. Por lo tanto, es posible que la lectura de labios no siempre pueda compensar por completo las disminuciones combinadas de audición y cognición relacionadas con la edad.

En poblaciones específicas (auditivas)

Varios estudios informan anomalías en la lectura de labios en poblaciones con trastornos distintivos del desarrollo. Autismo : las personas con autismo pueden mostrar una capacidad reducida para leer los labios y una dependencia reducida de la visión en la percepción del habla audiovisual. Esto puede estar asociado con anomalías de mirada a la cara en estas personas. Síndrome de Williams : las personas con síndrome de Williams muestran algunos déficits en la lectura del habla que pueden ser independientes de sus dificultades visoespaciales. Deterioro específico del lenguaje : También se informa que los niños con SLI muestran una sensibilidad reducida a la lectura de labios, al igual que las personas con dislexia .

Sordera

Se ha debatido durante cientos de años sobre el papel de la lectura de labios (' oralismo ') en comparación con otros métodos de comunicación (más recientemente, la comunicación total ) en la educación de las personas sordas. La medida en que uno u otro enfoque sea beneficioso depende de una variedad de factores, incluido el nivel de pérdida auditiva de la persona sorda, la edad de la pérdida auditiva, la participación de los padres y el idioma (s) de los padres. Luego hay una pregunta sobre los objetivos de la persona sorda y su comunidad y cuidadores. ¿El objetivo de la educación es mejorar la comunicación en general, desarrollar el lenguaje de señas como primer idioma o desarrollar habilidades en el lenguaje hablado de la comunidad auditiva? Los investigadores ahora se centran en qué aspectos del lenguaje y la comunicación pueden transmitirse mejor por qué medios y en qué contextos, dado el estado auditivo del niño y su familia, y sus planes educativos. El bilingüismo bimodal (competencia tanto en el habla como en el lenguaje de señas) es un enfoque actual dominante en la educación del lenguaje para el niño sordo.

Las personas sordas suelen leer mejor los labios que las personas con audición normal. Algunas personas sordas practican como lectores de labios profesionales, por ejemplo, en lectura de labios forense . En las personas sordas que tienen un implante coclear , la habilidad para leer los labios antes del implante puede predecir el procesamiento del habla después del implante (auditivo o audiovisual). Para muchas personas sordas, el acceso a la comunicación hablada se puede ayudar cuando un mensaje hablado se transmite a través de un orador de labios profesional capacitado .

En relación con la lectura de labios y el desarrollo de la lectoescritura, los niños que nacen sordos suelen mostrar un retraso en el desarrollo de las habilidades de lectoescritura , lo que puede reflejar dificultades para adquirir elementos del lenguaje hablado. En particular, el mapeo confiable de fonemas y grafemas puede ser más difícil para los niños sordos, que necesitan ser lectores hábiles del habla para dominar este paso necesario en la adquisición de la alfabetización. La habilidad de leer los labios está asociada con las habilidades de alfabetización en adultos y niños sordos y el entrenamiento en la lectura de labios puede ayudar a desarrollar las habilidades de alfabetización.

El habla con señales utiliza la lectura de labios acompañada de formas de manos que eliminan la ambigüedad de la forma de labios visémica (consonante). Se dice que el lenguaje con claves es más fácil de aprender para los padres oyentes que el lenguaje de señas, y los estudios, principalmente de Bélgica, muestran que un niño sordo expuesto al habla con claves en la infancia puede progresar de manera más eficiente en el aprendizaje de un idioma hablado que solo con la lectura de labios. Es probable que el uso del habla con claves en la implantación coclear para la sordera sea positivo. Un enfoque similar, que implica el uso de formas de mano que acompañan al habla vista, es Visual Phonics , que algunos educadores utilizan para apoyar el aprendizaje del lenguaje escrito y hablado.

Enseñanza y formación

El objetivo de la enseñanza y la formación en lectura de labios es desarrollar la conciencia de la naturaleza de la lectura de labios y practicar formas de mejorar la capacidad de percibir el habla "a simple vista". Las clases de lectura de labios, a menudo llamadas clases de lectura de labios y manejo de la pérdida auditiva , están dirigidas principalmente a adultos con pérdida auditiva. La mayor proporción de adultos con pérdida auditiva tiene una pérdida relacionada con la edad o el ruido ; con estas dos formas de pérdida auditiva, los sonidos de alta frecuencia se pierden primero. Dado que muchas de las consonantes del habla son sonidos de alta frecuencia, el habla se distorsiona. Los audífonos ayudan, pero es posible que no curen esto. Se ha demostrado que las clases de lectura de labios son beneficiosas en estudios del Reino Unido encargados por la organización benéfica Action on Hearing Loss (2012).

Los entrenadores reconocen que leer los labios es un arte inexacto. A los estudiantes se les enseña a observar los movimientos de los labios, la lengua y la mandíbula, a seguir el estrés y el ritmo del lenguaje, a usar su audición residual, con o sin audífonos, a observar la expresión y el lenguaje corporal, y a usar su capacidad para razonar y deducir. . Se les enseña el alfabeto de los lectores de labios , grupos de sonidos que se parecen en los labios (visemas) como p, b, m, o f, v. El objetivo es comprender lo esencial, para tener la confianza necesaria para participar en la conversación. y evitar el aislamiento social dañino que a menudo acompaña a la pérdida auditiva. Las clases de lectura de labios se recomiendan para cualquier persona que tenga dificultades para oír en ambientes ruidosos y le ayudarán a adaptarse a la pérdida auditiva. ATLA (Association for Teaching Lipreading to Adults) es la asociación profesional del Reino Unido para tutores calificados de lectura de labios.

Pruebas

La mayoría de las pruebas de lectura de labios se diseñaron para medir las diferencias individuales en la realización de tareas específicas de procesamiento del habla y para detectar cambios en el rendimiento después del entrenamiento. Las pruebas de lectura de labios se han utilizado con grupos relativamente pequeños en entornos experimentales o como indicadores clínicos con pacientes y clientes individuales. Es decir, las pruebas de lectura de labios hasta la fecha tienen una validez limitada como marcadores de la habilidad de lectura de labios en la población general.

Lectura de labios y habla de labios a máquina

La lectura de labios automatizada ha sido un tema de interés en la ingeniería computacional, así como en las películas de ciencia ficción . El ingeniero computacional Steve Omohundro , entre otros, fue pionero en su desarrollo. En la animación facial , el objetivo es generar acciones faciales realistas, especialmente movimientos de la boca, que simulen las acciones del habla humana. Los algoritmos informáticos para deformar o manipular imágenes de rostros pueden ser impulsados ​​por el lenguaje oral o escrito. Los sistemas pueden basarse en modelos detallados derivados de movimientos faciales ( captura de movimiento ); sobre el modelado anatómico de las acciones de la mandíbula, la boca y la lengua; o en el mapeo de propiedades conocidas de visemefonemas. La animación facial se ha utilizado en el entrenamiento de lectura del habla (demostrando cómo se "ven" los diferentes sonidos). Estos sistemas son un subconjunto del modelado de síntesis de voz cuyo objetivo es ofrecer salidas fiables de "texto a (visto) voz". Un objetivo complementario —lo contrario de hacer que las caras se muevan en el habla— es desarrollar algoritmos informáticos que puedan ofrecer interpretaciones realistas del habla (es decir, una transcripción escrita o un registro de audio) a partir de datos de vídeo naturales de un rostro en acción: este es el reconocimiento facial del habla. Estos modelos también pueden obtenerse de una variedad de datos. El reconocimiento de voz visual automático a partir de video ha tenido bastante éxito en distinguir diferentes idiomas (de un corpus de datos de idiomas hablados). Los modelos de demostración, que utilizan algoritmos de aprendizaje automático, han tenido cierto éxito en la lectura de labios de elementos del habla, como palabras específicas, a partir de videos y para identificar fonemas difíciles de leer a partir de acciones de la boca visualmente similares. La lectura de voz basada en máquina ahora está haciendo un uso exitoso de algoritmos basados ​​en redes neuronales que utilizan grandes bases de datos de hablantes y material de voz (siguiendo el modelo exitoso para el reconocimiento auditivo automático de voz ).

Los usos de la lectura de labios por máquina podrían incluir la lectura de labios automatizada de registros de solo video, la lectura de labios automatizada de hablantes con tractos vocales dañados y el procesamiento del habla en video cara a cara (es decir, a partir de datos de videoteléfono). La lectura de labios automatizada puede ayudar a procesar el habla ruidosa o desconocida. La lectura de labios automatizada puede contribuir a la identificación biométrica de personas, reemplazando la identificación basada en contraseña.

El cerebro

Tras el descubrimiento de que las regiones cerebrales auditivas , incluida la circunvolución de Heschl , se activaban con el habla vista, se demostró que el circuito neural para la lectura del habla incluye regiones de procesamiento supramodales, especialmente el surco temporal superior (todas las partes), así como las regiones occipital-temporales posteroinferiores. incluyendo regiones especializadas para el procesamiento de rostros y movimiento biológico . En algunos estudios, pero no en todos, se informa la activación del área de Broca para la lectura del habla, lo que sugiere que los mecanismos articulatorios pueden activarse en la lectura del habla. Los estudios del curso temporal del procesamiento del habla audiovisual mostraron que la visión del habla puede preparar regiones de procesamiento auditivo antes de la señal acústica. Una mejor habilidad para leer los labios se asocia con una mayor activación en el surco temporal superior (izquierdo) y las regiones temporales inferiores adyacentes (visual) en las personas oyentes. En las personas sordas, el circuito dedicado a la lectura del habla parece ser muy similar al de las personas oyentes, con asociaciones similares de activación temporal superior (izquierda) y habilidad para leer los labios.

Referencias

Bibliografía

  • D.Stork y M.Henneke (Eds) (1996) Lectura de voz por humanos y máquinas: modelos de sistemas y aplicaciones. Nato ASI series F Computer and Systems sciences Vol 150. Springer, Berlín Alemania
  • E.Bailly, P. Perrier y E.Vatikiotis-Bateson (Eds) (2012) Procesamiento de voz audiovisual, Cambridge University Press, Cambridge Reino Unido
  • Hearing By Eye (1987) , B. Dodd y R. Campbell (Eds), Erlbaum Asstes, Hillsdale NJ, EUA; Hearing by Eye II , (1997) R. Campbell, B. Dodd y D. Burnham (Eds), Psychology Press, Hove Reino Unido
  • DW Massaro (1987, reimpreso en 2014) Percepción del habla por oído y por ojo , Lawrence Erlbaum Associates, Hillsdale NJ

Otras lecturas

enlaces externos