Reconocimiento de emociones - Emotion recognition

El reconocimiento de emociones es el proceso de identificación de las emociones humanas . Las personas varían mucho en su precisión para reconocer las emociones de los demás. El uso de la tecnología para ayudar a las personas con el reconocimiento de emociones es un área de investigación relativamente incipiente. Generalmente, la tecnología funciona mejor si usa múltiples modalidades en contexto. Hasta la fecha, la mayor parte del trabajo se ha realizado para automatizar el reconocimiento de expresiones faciales de video, expresiones habladas de audio, expresiones escritas de texto y fisiología medida por dispositivos portátiles.

Humano

Los seres humanos muestran una gran variabilidad en sus habilidades para reconocer las emociones. Un punto clave a tener en cuenta al aprender sobre el reconocimiento automático de emociones es que existen varias fuentes de "verdad fundamental" o verdad sobre cuál es la emoción real. Supongamos que estamos tratando de reconocer las emociones de Alex. Una fuente es "¿qué diría la mayoría de la gente que está sintiendo Alex?" En este caso, la "verdad" puede no corresponder a lo que Alex siente, pero puede corresponder a lo que la mayoría de la gente diría que parece que Alex siente. Por ejemplo, Alex puede sentirse triste, pero pone una gran sonrisa y luego la mayoría de la gente dice que se ve feliz. Si un método automatizado logra los mismos resultados que un grupo de observadores, puede considerarse preciso, incluso si en realidad no mide lo que Alex realmente siente. Otra fuente de "verdad" es preguntarle a Alex qué siente realmente. Esto funciona si Alex tiene un buen sentido de su estado interno, quiere decirte cuál es y es capaz de expresarlo con precisión en palabras o en un número. Sin embargo, algunas personas son alexitímicas y no tienen un buen sentido de sus sentimientos internos, o no son capaces de comunicarlos con precisión con palabras y números. En general, llegar a la verdad de qué emoción está realmente presente puede requerir algo de trabajo, puede variar según los criterios que se seleccionen y, por lo general, implicará mantener cierto nivel de incertidumbre.

Automático

Se han realizado décadas de investigación científica desarrollando y evaluando métodos para el reconocimiento automático de emociones. En la actualidad, existe una extensa literatura que propone y evalúa cientos de diferentes tipos de métodos, aprovechando técnicas de múltiples áreas, como el procesamiento de señales , el aprendizaje automático , la visión por computadora y el procesamiento del habla . Se pueden emplear diferentes metodologías y técnicas para interpretar la emoción, como las redes bayesianas . , Modelos de mezcla gaussiana y modelos ocultos de Markov y redes neuronales profundas .

Enfoques

La precisión del reconocimiento de emociones generalmente mejora cuando combina el análisis de expresiones humanas de formas multimodales como textos, fisiología, audio o video. Los diferentes tipos de emociones se detectan mediante la integración de información de expresiones faciales , movimientos y gestos corporales y habla. Se dice que la tecnología contribuye al surgimiento de la llamada Internet emocional o emotiva .

Los enfoques existentes en el reconocimiento de emociones para clasificar ciertos tipos de emociones se pueden clasificar generalmente en tres categorías principales: técnicas basadas en el conocimiento, métodos estadísticos y enfoques híbridos.

Técnicas basadas en el conocimiento

Las técnicas basadas en el conocimiento (a veces denominadas técnicas basadas en el léxico ) utilizan el conocimiento del dominio y las características semánticas y sintácticas del lenguaje para detectar ciertos tipos de emociones . En este enfoque, es común utilizar recursos basados ​​en el conocimiento durante el proceso de clasificación de emociones como WordNet , SenticNet, ConceptNet y EmotiNet, por nombrar algunos. Una de las ventajas de este enfoque es la accesibilidad y la economía provocadas por la gran disponibilidad de tales recursos basados ​​en el conocimiento. Una limitación de esta técnica, por otro lado, es su incapacidad para manejar los matices de los conceptos y las reglas lingüísticas complejas.

Las técnicas basadas en el conocimiento se pueden clasificar principalmente en dos categorías: enfoques basados ​​en diccionarios y basados ​​en corpus. Los enfoques basados ​​en diccionarios encuentran palabras de semillas de opinión o emoción en un diccionario y buscan sus sinónimos y antónimos para expandir la lista inicial de opiniones o emociones . Los enfoques basados ​​en corpus, por otro lado, comienzan con una lista inicial de palabras de opinión o emoción y amplían la base de datos encontrando otras palabras con características específicas del contexto en un corpus grande . Si bien los enfoques basados ​​en corpus tienen en cuenta el contexto, su desempeño aún varía en diferentes dominios, ya que una palabra en un dominio puede tener una orientación diferente en otro dominio.

métodos de estadística

Los métodos estadísticos comúnmente implican el uso de diferentes algoritmos de aprendizaje automático supervisados en los que se introduce un gran conjunto de datos anotados en los algoritmos para que el sistema aprenda y prediga los tipos de emoción apropiados . Los algoritmos de aprendizaje automático generalmente brindan una precisión de clasificación más razonable en comparación con otros enfoques, pero uno de los desafíos para lograr buenos resultados en el proceso de clasificación es la necesidad de tener un conjunto de entrenamiento suficientemente grande.

Algunos de los algoritmos de aprendizaje automático más utilizados incluyen Support Vector Machines (SVM) , Naive Bayes y Maximum Entropy . El aprendizaje profundo , que pertenece a la familia no supervisada del aprendizaje automático , también se emplea ampliamente en el reconocimiento de emociones. Los algoritmos de aprendizaje profundo bien conocidos incluyen diferentes arquitecturas de red neuronal artificial (ANN) , como la red neuronal convolucional (CNN) , la memoria a largo plazo a corto plazo (LSTM) y la máquina de aprendizaje extremo (ELM) . La popularidad de los enfoques de aprendizaje profundo en el dominio del reconocimiento de emociones puede atribuirse principalmente a su éxito en aplicaciones relacionadas, como la visión por computadora , el reconocimiento de voz y el procesamiento del lenguaje natural (PNL) .

Enfoques híbridos

Los enfoques híbridos en el reconocimiento de emociones son esencialmente una combinación de técnicas basadas en el conocimiento y métodos estadísticos, que explotan características complementarias de ambas técnicas. Algunos de los trabajos que han aplicado un conjunto de elementos lingüísticos y métodos estadísticos impulsados ​​por el conocimiento incluyen la computación sentic e iFeel, que han adoptado el recurso basado en el conocimiento a nivel de concepto SenticNet. El papel de estos recursos basados ​​en el conocimiento en la implementación de enfoques híbridos es muy importante en el proceso de clasificación de emociones . Dado que las técnicas híbridas se benefician de los beneficios que ofrecen los enfoques estadísticos y basados ​​en el conocimiento, tienden a tener un mejor rendimiento de clasificación en lugar de emplear métodos estadísticos o basados ​​en el conocimiento de forma independiente. Sin embargo, una desventaja de usar técnicas híbridas es la complejidad computacional durante el proceso de clasificación.

Conjuntos de datos

Los datos son una parte integral de los enfoques existentes en el reconocimiento de emociones y, en la mayoría de los casos, es un desafío obtener datos anotados que son necesarios para entrenar algoritmos de aprendizaje automático . Para la tarea de clasificar diferentes tipos de emociones de fuentes multimodales en forma de textos, audio, videos o señales fisiológicas, se encuentran disponibles los siguientes conjuntos de datos:

  1. HUMAINE: proporciona clips naturales con palabras de emoción y etiquetas de contexto en múltiples modalidades
  2. Base de datos de Belfast: proporciona clips con una amplia gama de emociones de programas de televisión y grabaciones de entrevistas.
  3. SEMAINE: proporciona grabaciones audiovisuales entre una persona y un agente virtual y contiene anotaciones de emociones como enojo, alegría, miedo, disgusto, tristeza, desprecio y diversión.
  4. IEMOCAP: proporciona grabaciones de sesiones diádicas entre actores y contiene anotaciones emocionales como felicidad, ira, tristeza, frustración y estado neutral.
  5. eNTERFACE: proporciona grabaciones audiovisuales de sujetos de siete nacionalidades y contiene anotaciones emocionales como felicidad, enfado, tristeza, sorpresa, disgusto y miedo.
  6. DEAP: proporciona electroencefalografía ( EEG ), electrocardiografía ( ECG ) y grabaciones de video faciales, así como anotaciones de emociones en términos de valencia , excitación y dominio de las personas que ven clips de películas.
  7. DREAMER: proporciona grabaciones de electroencefalografía ( EEG ) y electrocardiografía ( ECG ), así como anotaciones de emociones en términos de valencia , excitación y dominio de las personas que ven clips de películas.
  8. MELD: es un conjunto de datos conversacionales de múltiples partes donde cada enunciado está etiquetado con emoción y sentimiento. MELD proporciona conversaciones en formato de video y, por lo tanto, es adecuado para el reconocimiento de emociones multimodal y el análisis de sentimientos . MELD es útil para análisis de sentimientos multimodal y reconocimiento de emociones, sistemas de diálogo y reconocimiento de emociones en conversaciones .
  9. MuSe: proporciona grabaciones audiovisuales de interacciones naturales entre una persona y un objeto. Tiene anotaciones de emociones discretas y continuas en términos de valencia, excitación y confiabilidad, así como temas de habla útiles para el análisis de sentimientos multimodal y el reconocimiento de emociones.
  10. UIT-VSMEC: es un corpus de emociones de redes sociales vietnamita estándar (UIT-VSMEC) con aproximadamente 6,927 oraciones anotadas por humanos con seis etiquetas de emoción, lo que contribuye a la investigación del reconocimiento de emociones en vietnamita, que es un lenguaje de bajos recursos en el procesamiento del lenguaje natural (PNL) .
  11. BED: proporciona grabaciones de electroencefalografía ( EEG ), así como anotaciones de emociones en términos de valencia y excitación de las personas que miran imágenes. También incluye grabaciones de electroencefalografía ( EEG ) de personas expuestas a diversos estímulos ( SSVEP , reposo con los ojos cerrados, reposo con los ojos abiertos, tareas cognitivas) para la tarea de biometría basada en EEG .

Aplicaciones

El reconocimiento de emociones se utiliza en la sociedad por diversas razones. Affectiva , que surgió del MIT , proporciona un software de inteligencia artificial que lo hace más eficiente para realizar tareas que las personas anteriormente realizaban manualmente, principalmente para recopilar información sobre expresiones faciales y vocales relacionadas con contextos específicos en los que los espectadores han dado su consentimiento para compartir esta información. Por ejemplo, en lugar de completar una encuesta extensa sobre cómo se siente en cada momento al ver un video educativo o un anuncio, puede dar su consentimiento para que una cámara mire su rostro y escuche lo que dice, y anote durante qué partes de la experiencia mostrar expresiones como aburrimiento, interés, confusión o sonrisas. (Tenga en cuenta que esto no implica que esté leyendo sus sentimientos más íntimos, solo lee lo que expresa externamente). Otros usos de Affectiva incluyen ayudar a los niños con autismo, ayudar a las personas ciegas a leer expresiones faciales, ayudar a los robots a interactuar de manera más inteligente con las personas. y monitorear las señales de atención mientras se conduce en un esfuerzo por mejorar la seguridad del conductor.

Una patente presentada por Snapchat en 2015 describe un método para extraer datos sobre multitudes en eventos públicos mediante la realización de un reconocimiento algorítmico de emociones en las selfies geoetiquetadas de los usuarios .

Emotient fue una empresa de nueva creación que aplicó el reconocimiento de emociones a la lectura de ceños fruncidos, sonrisas y otras expresiones en los rostros, concretamente inteligencia artificial para predecir "actitudes y acciones basadas en expresiones faciales". Apple compró Emotient en 2016 y utiliza tecnología de reconocimiento de emociones para mejorar la inteligencia emocional de sus productos.

nViso proporciona reconocimiento de emociones en tiempo real para aplicaciones web y móviles a través de una API en tiempo real . Visage Technologies AB ofrece estimación de emociones como parte de su Visage SDK para investigación científica y de marketing y fines similares.

Eyeris es una empresa de reconocimiento de emociones que trabaja con fabricantes de sistemas integrados, incluidos fabricantes de automóviles y empresas de robótica social, en la integración de su software de reconocimiento de emociones y análisis facial; así como con los creadores de contenido de video para ayudarlos a medir la efectividad percibida de su creatividad de video de formato corto y largo.

También existen muchos productos para agregar información de las emociones comunicadas en línea, incluso mediante la pulsación del botón "Me gusta" y mediante el recuento de frases positivas y negativas en el texto, y el reconocimiento de afectos se utiliza cada vez más en algunos tipos de juegos y en la realidad virtual, tanto con fines educativos como para dar a los jugadores un control más natural sobre sus avatares sociales.

Subcampos del reconocimiento de emociones

El reconocimiento de emociones probablemente obtenga el mejor resultado si se aplican múltiples modalidades combinando diferentes objetos, incluido texto (conversación), audio, video y fisiología para detectar emociones.

Reconocimiento de emociones en texto

Los datos de texto son un objeto de investigación favorable para el reconocimiento de emociones cuando son gratuitos y están disponibles en todas partes de la vida humana. En comparación con otros tipos de datos, el almacenamiento de datos de texto es más liviano y fácil de comprimir para obtener el mejor rendimiento debido a la frecuente repetición de palabras y caracteres en los idiomas. Las emociones se pueden extraer de dos formas de texto esenciales: textos escritos y conversaciones (diálogos). Para los textos escritos, muchos académicos se enfocan en trabajar con el nivel de la oración para extraer "palabras / frases" que representan emociones.

Reconocimiento de emociones en audio

A diferencia del reconocimiento de emociones en el texto, las señales vocales se utilizan para el reconocimiento para extraer emociones del audio .

Reconocimiento de emociones en video

Los datos de video son una combinación de datos de audio, datos de imágenes y, a veces, textos (en el caso de los subtítulos ).

Reconocimiento de emociones en la conversación.

El reconocimiento de emociones en la conversación (ERC) extrae opiniones entre los participantes a partir de datos de conversación masivos en plataformas sociales , como Facebook , Twitter , YouTube y otras. ERC puede tomar datos de entrada como texto, audio, video o una forma combinada para detectar varias emociones como miedo, lujuria, dolor y placer.

Ver también

Referencias