Viseme - Viseme

Un visema es cualquiera de varios sonidos del habla que se ven iguales, por ejemplo, al leer los labios (Fisher 1968).

Los visemas y los fonemas no comparten una correspondencia uno a uno. A menudo, varios fonemas corresponden a un solo visema, ya que varios fonemas se ven iguales en la cara cuando se producen, como / k, ɡ, ŋ / , (visema: / k /), / t͡ʃ, ʃ, d͡ʒ, ʒ / (visema : / ch /), / t, d, n, l / (visema: / t /) y / p, b, m / (visema: / p /). Por lo tanto, las palabras como mascota, campana y hombres son difíciles de distinguir para los lectores de labios, ya que todas parecen / mascota /. Sin embargo, puede haber diferencias en el tiempo y la duración durante el discurso real en términos de la "firma" visual de un gesto dado que no se puede capturar con una sola fotografía. Por el contrario, algunos sonidos que son difíciles de distinguir acústicamente se distinguen claramente por la cara (Chen 2001). Por ejemplo, acústicamente hablando en inglés / l / y / r / pueden ser bastante similares (especialmente en grupos, como 'hierba' frente a 'vidrio'), sin embargo, la información visual puede mostrar un contraste claro. Esto se demuestra por los errores de escucha más frecuentes de las palabras en el teléfono que en persona. Algunos lingüistas han argumentado que el habla se entiende mejor como bimodal (auditiva y visual), y la comprensión puede verse comprometida si uno de estos dos dominios está ausente ( McGurk y MacDonald 1976 ).

Los visemas a menudo pueden ser graciosos, como en la frase "jugo de elefante", que cuando se leen los labios parece idéntica a "Te amo".

Las solicitudes para el estudio de visemas incluyen el procesamiento de voz , reconocimiento de voz , y la animación facial ordenador .

Ver también

Referencias

  • Chen, T. (mayo de 1998). "Integración audiovisual en la comunicación multimodal". Actas del IEEE 86, 837–852.
  • Chen, T. (2001). "Procesamiento audiovisual del habla". Revista de procesamiento de señales IEEE , 9–31.
  • Fisher, CG (1968). "Confusiones entre consonantes percibidas visualmente". Revista de investigación del habla y la audición , 11 (4): 796–804.
  • McGurk, H. y MacDonald, J. (diciembre de 1976). "Escuchando labios y viendo voces". Nature , 746–748.
  • Patrick Lucey, Terrence Martin, Sridha Sridharan (2004). "Confusabilidad de fonemas agrupados según sus clases de visema en entornos ruidosos". Presentado en la Décima Conferencia Internacional Australiana sobre Ciencia y Tecnología del Habla, Universidad Macquarie , Sydney, 8 a 10 de diciembre de 2004. Artículo en línea (documento PDF)