Asistente virtual - Virtual assistant

Control remoto de Apple TV , con el que los usuarios pueden pedirle a Siri, el asistente virtual, que busque contenido para mirar.
Altavoz inteligente Amazon Echo que ejecuta el asistente virtual Alexa

Un asistente virtual inteligente ( IVA ) o asistente personal inteligente ( IPA ) es un agente de software que puede realizar tareas o servicios para una persona en función de comandos o preguntas. El término " chatbot " se utiliza a veces para referirse a los asistentes virtuales a los que se accede de forma general o específica mediante el chat en línea . En algunos casos, los programas de chat en línea son exclusivamente para fines de entretenimiento. Algunos asistentes virtuales pueden interpretar el habla humana y responder a través de voces sintetizadas. Los usuarios pueden hacer preguntas a sus asistentes, controlar los dispositivos de automatización del hogar y la reproducción de medios a través de la voz, y administrar otras tareas básicas como el correo electrónico, las listas de tareas pendientes y los calendarios con comandos verbales (¿hablados?). Un concepto similar, aunque con diferencias, se encuentra bajo los sistemas de diálogo .

A partir de 2017, las capacidades y el uso de asistentes virtuales se están expandiendo rápidamente, con nuevos productos que ingresan al mercado y un fuerte énfasis en las interfaces de usuario de correo electrónico y voz . Apple y Google tienen grandes bases de usuarios instaladas en teléfonos inteligentes . Microsoft tiene una gran base instalada de computadoras personales , teléfonos inteligentes y parlantes inteligentes basados ​​en Windows . Amazon tiene una gran base de instalación para altavoces inteligentes. Conversica tiene más de 100 millones de interacciones a través de su interfaz de correo electrónico y SMS, asistentes virtuales inteligentes para empresas.

Historia

Decenios experimentales: de 1910 a 1980

Radio Rex fue el primer juguete activado por voz lanzado en 1922. Era un juguete de madera con forma de perro que salía de su casa cuando se llamaba por su nombre.

En 1952, Bell Labs presentó "Audrey", la máquina de reconocimiento automático de dígitos. Ocupaba un bastidor de relés de dos metros de altura, consumía una cantidad considerable de energía, tenía corrientes de cables y presentaba la miríada de problemas de mantenimiento asociados con los complejos circuitos de los tubos de vacío. Podría reconocer las unidades fundamentales del habla, los fonemas. Se limitó al reconocimiento preciso de los dígitos hablados por los hablantes designados. Por lo tanto, podría usarse para la marcación por voz, pero en la mayoría de los casos la marcación con botones era más barata y rápida, en lugar de decir los dígitos consecutivos.

Otra herramienta temprana que fue habilitada para realizar el reconocimiento de voz digital fue la calculadora IBM Shoebox activada por voz, presentada al público en general durante la Feria Mundial de Seattle de 1962 después de su lanzamiento al mercado inicial en 1961. Esta computadora temprana, desarrollada casi 20 años antes de su introducción de la primera computadora personal de IBM en 1981, fue capaz de reconocer 16 palabras habladas y los dígitos del 0 al 9.

El primer programa informático de procesamiento de lenguaje natural o el chatbot ELIZA fue desarrollado por el profesor del MIT Joseph Weizenbaum en la década de 1960. Fue creado para "demostrar que la comunicación entre el hombre y la máquina era superficial". ELIZA usó la metodología de comparación y sustitución de patrones en respuestas escritas para simular una conversación, lo que dio una ilusión de comprensión por parte del programa.

Según los informes, la propia secretaria de Weizenbaum le pidió a Weizenbaum que saliera de la habitación para que ella y ELIZA pudieran tener una conversación real. Weizenbaum se sorprendió por esto, y luego escribió: "No me había dado cuenta ... de que exposiciones extremadamente breves a un programa de computadora relativamente simple podrían inducir un poderoso pensamiento delirante en personas bastante normales.

Esto dio nombre al efecto ELIZA , la tendencia a asumir inconscientemente que los comportamientos de la computadora son análogos a los comportamientos humanos; es decir, la antropomorfización, fenómeno presente en las interacciones humanas con asistentes virtuales.

El siguiente hito en el desarrollo de la tecnología de reconocimiento de voz se logró en la década de 1970 en la Universidad Carnegie Mellon en Pittsburgh , Pensilvania, con el apoyo sustancial del Departamento de Defensa de los Estados Unidos y su agencia DARPA , financiado por cinco años de un programa de investigación de comprensión del habla, con el objetivo de alcanzar un vocabulario mínimo de 1000 palabras. Participaron en el programa empresas y academias como IBM, Carnegie Mellon University (CMU) y Stanford Research Institute.

El resultado fue "Arpía", dominó alrededor de 1000 palabras, el vocabulario de un niño de tres años y pudo entender oraciones. Podría procesar el habla que sigue estructuras de vocabulario, pronunciación y gramática preprogramadas para determinar qué secuencias de palabras tienen sentido juntas y así reducir los errores de reconocimiento del habla.

En 1986 Tangora fue una actualización de Shoebox, era una máquina de escribir con reconocimiento de voz. Nombrado en honor a la mecanógrafa más rápida del mundo en ese momento, tenía un vocabulario de 20.000 palabras y utilizaba predicciones para decidir el resultado más probable basándose en lo que se dijo en el pasado. El enfoque de IBM se basó en un modelo de Markov oculto , que agrega estadísticas a las técnicas de procesamiento de señales digitales. El método permite predecir los fonemas más probables que seguirán a un fonema determinado. Aún así, cada hablante tuvo que entrenar individualmente la máquina de escribir para reconocer su voz y hacer una pausa entre cada palabra.

Nacimiento de asistentes virtuales inteligentes: década de 1990 hasta el presente

La tecnología de reconocimiento de voz digital de la década de 1990 se convirtió en una característica de la computadora personal con IBM , Philips y Lernout & Hauspie luchando por los clientes. Mucho más tarde, el lanzamiento al mercado del primer teléfono inteligente IBM Simon en 1994 sentó las bases para los asistentes virtuales inteligentes tal como los conocemos hoy.

En 1997, el software Naturally Speaking de Dragon podía reconocer y transcribir el habla humana natural sin pausas entre cada palabra en un documento a una velocidad de 100 palabras por minuto. Una versión de Naturally Speaking todavía está disponible para descargar y todavía se usa hoy, por ejemplo, por muchos médicos en los EE. UU. Y el Reino Unido para documentar sus registros médicos.

En 2001, Colloquis lanzó públicamente SmarterChild , en plataformas como AIM y MSN Messenger . Si bien SmarterChild, completamente basado en texto, pudo jugar juegos, verificar el clima, buscar datos y conversar con los usuarios hasta cierto punto.

El primer asistente virtual digital moderno instalado en un teléfono inteligente fue Siri , que se introdujo como una función del iPhone 4S el 4 de octubre de 2011. Apple Inc. desarrolló Siri tras la adquisición en 2010 de Siri Inc. , una escisión de SRI International . que es un instituto de investigación financiado por DARPA y el Departamento de Defensa de los Estados Unidos . Su objetivo era ayudar en tareas como enviar un mensaje de texto, hacer llamadas telefónicas, verificar el clima o configurar una alarma. Con el tiempo, se ha desarrollado para brindar recomendaciones de restaurantes, realizar búsquedas en Internet y proporcionar indicaciones para llegar en automóvil.

En noviembre de 2014, Amazon anunció Alexa junto con Echo.

En abril de 2017, Amazon lanzó un servicio para crear interfaces de conversación para cualquier tipo de asistente o interfaz virtual.

Método de interacción

Los asistentes virtuales funcionan a través de:

Se puede acceder a algunos asistentes virtuales a través de varios métodos, como el Asistente de Google a través del chat en la aplicación Google Allo y Mensajes de Google y a través de la voz en los altavoces inteligentes de Google Home .

Los asistentes virtuales utilizan el procesamiento del lenguaje natural (NLP) para hacer coincidir el texto del usuario o la entrada de voz con los comandos ejecutables. Muchos aprenden continuamente utilizando técnicas de inteligencia artificial , incluido el aprendizaje automático . Algunos de estos asistentes como Google Assistant (que contiene Google Lens ) y Samsung Bixby también tienen la capacidad adicional de realizar procesamiento de imágenes para reconocer objetos en la imagen para ayudar a los usuarios a obtener mejores resultados de las imágenes en las que se hace clic.

Para activar un asistente virtual usando la voz, se puede usar una palabra de activación. Esta es una palabra o grupos de palabras como "Hola Siri", "OK Google" o "Hola Google", "Alexa" y "Hola Microsoft". A medida que los asistentes virtuales se vuelven más populares, aumentan los riesgos legales involucrados.

Dispositivos y objetos donde se encuentran

Los asistentes virtuales pueden integrarse en muchos tipos de plataformas o, como Amazon Alexa , en varias de ellas:

Servicios

Los asistentes virtuales pueden proporcionar una amplia variedad de servicios. Éstos incluyen:

  • Proporcione información como el clima, datos de, por ejemplo, Wikipedia o IMDb , configure una alarma, cree listas de tareas y listas de compras
  • Reproduzca música de servicios de transmisión por secuencias como Spotify y Pandora ; reproducir estaciones de radio; leer audiolibros
  • Reproduzca videos, programas de TV o películas en televisores, transmitiendo desde, por ejemplo, Netflix
  • Comercio conversacional (ver más abajo)
  • Ayudar a las interacciones públicas con el gobierno (ver Inteligencia artificial en el gobierno )
  • Complementar y / o reemplazar el servicio al cliente por humanos. Un informe estimó que un asistente en línea automatizado produjo una disminución del 30% en la carga de trabajo para un centro de llamadas proporcionado por humanos .

Comercio conversacional

El comercio conversacional es comercio electrónico a través de varios medios de mensajería, incluso a través de asistentes de voz, pero también chat en vivo en sitios web de comercio electrónico , chat en vivo en aplicaciones de mensajería como WeChat , Facebook Messenger y WhatsApp y chatbots en aplicaciones de mensajería o sitios web.

Atención al cliente

Un asistente virtual puede trabajar con el equipo de soporte al cliente de una empresa para brindar soporte 24x7 a los clientes. Proporciona respuestas rápidas, lo que mejora la experiencia del cliente.

Servicios de terceros

Amazon habilita las "Habilidades" de Alexa y las "Acciones" de Google, esencialmente aplicaciones que se ejecutan en las plataformas de asistentes.

Privacidad del asistente virtual

Los asistentes virtuales tienen una variedad de preocupaciones de privacidad asociadas con ellos. Funciones como la activación por voz suponen una amenaza, ya que estas funciones requieren que el dispositivo esté siempre escuchando. Se han propuesto modos de privacidad como el botón de seguridad virtual para crear una autenticación multicapa para asistentes virtuales.

Política de privacidad de asistentes virtuales destacados

Asistente de Google

El Asistente de Google no almacena los datos de los usuarios sin su permiso. Para almacenar el audio, el usuario puede ir a Actividad de voz y audio (VAA) y activar esta función. Los archivos de audio se envían a la nube y Google los usa para mejorar el rendimiento del Asistente de Google, pero solo si la función VAA está activada.

Alexa de Amazon

La asistente virtual de Amazon, Alexa, solo escucha las conversaciones cuando se usa su palabra de activación (como Alexa, Amazon, Echo). Comienza a grabar la conversación después de la llamada de una palabra de activación. Deja de escuchar después de 8 segundos de silencio. Envía la conversación grabada a la nube. Es posible eliminar la grabación de la nube visitando 'Privacidad de Alexa' en 'Alexa'. Hay una función para evitar que Alexa escuche sus conversaciones usando la función 'silenciar' de Alexa. Después de silenciar el dispositivo, no puede escuchar incluso si se usaron las palabras de activación (como Alexa).

Siri de Apple

Apple no graba audio para mejorar Siri, sino que usa transcripciones. Solo envía datos que son importantes para el análisis, por ejemplo, si el usuario le pide a Siri que lea su mensaje, no enviará el mensaje a la nube, la máquina leerá directamente el mensaje sin la interferencia del servidor. Los usuarios pueden optar por no participar en cualquier momento si no quieren que Siri envíe las transcripciones en la nube.

Interés presunto y observado para el consumidor

Presunto valor añadido al permitir una nueva forma de interacción

El valor agregado de los asistentes virtuales puede provenir, entre otros, de lo siguiente:

  1. Es conveniente: hay algunos sectores donde la voz es la única vía de comunicación posible y, de manera más general, permite liberar las manos y la visión potencialmente para realizar otra actividad en paralelo, o ayudar también a las personas con discapacidad.
  2. Es más rápido: la voz es más eficiente que escribir en un teclado: podemos hablar hasta 200 palabras por minuto frente a 60 en el caso de escribir en un teclado. También es más natural, por lo que requiere menos esfuerzo (la lectura de un texto, sin embargo, puede alcanzar las 700 palabras por minuto).
  • Los asistentes virtuales ahorran mucho tiempo mediante la automatización: pueden concertar citas o leer las noticias mientras el consumidor hace otra cosa. También es posible pedirle al asistente virtual que programe reuniones, lo que ayuda a organizar el tiempo. Los diseñadores de los nuevos programadores digitales explicaron la ambición que tenían de que estos calendarios programen vidas para que el consumidor use su tiempo de manera más eficiente, a través de procesos de aprendizaje automático, y organización completa del tiempo de trabajo y tiempo libre. Como ejemplo cuando el consumidor expresa el deseo de programar una pausa, la VA lo programará en un momento óptimo para este propósito (por ejemplo, en un momento de la semana en el que sea menos productivo), con el objetivo adicional a largo plazo de ser capaz de programar y organizar el tiempo libre del consumidor, para asegurarle una óptima eficiencia laboral.

Interés percibido

Resumen gráfico del estudio que captura los motivos de interés de los asistentes virtuales para los consumidores.
  • Según un estudio reciente (2019), las dos razones para utilizar asistentes virtuales para los consumidores son la utilidad percibida y el disfrute percibido. El primer resultado de este estudio es que tanto la utilidad percibida como el disfrute percibido tienen una influencia equivalente muy fuerte en la disposición del consumidor a utilizar un asistente virtual.
  • El segundo resultado de este estudio es que:
  1. La calidad del contenido proporcionado tiene una gran influencia en la utilidad percibida y una fuerte influencia en el disfrute percibido.
  2. El atractivo visual tiene una influencia muy fuerte en la percepción del disfrute.
  3. La automatización tiene una gran influencia en la utilidad percibida.

Controversias

Controversias de inteligencia artificial

  • Los asistentes virtuales estimulan la burbuja de los filtros : En cuanto a las redes sociales , los algoritmos de los asistentes virtuales están entrenados para mostrar datos pertinentes y descartar otros en base a actividades previas del consumidor: El dato pertinente es el que le interesará o agradará al consumidor. Como resultado, se aíslan de los datos que no están de acuerdo con sus puntos de vista, aislándolos efectivamente en su propia burbuja intelectual y reforzando sus opiniones. Se sabía que este fenómeno reforzaba las cámaras de eco y las noticias falsas .
  • Los asistentes virtuales también son a veces criticados por estar sobrevalorados. En particular, A. Casilli señala que la IA de los asistentes virtuales no es ni inteligente ni artificial por dos razones:
  1. No inteligentes porque todo lo que hacen es ser el asistente del humano, y solo haciendo tareas que un humano podría hacer fácilmente, y en un espectro de acciones muy limitado: buscar, clasificar y presentar información, ofertas o documentos. Además, los asistentes virtuales no pueden tomar decisiones por sí mismos ni anticipar cosas.
  2. Y no artificiales porque serían imposibles sin el etiquetado humano a través del microtrabajo .

Implicaciones éticas

En 2019 Antonio A. Casilli , un sociólogo francés , criticó la inteligencia artificial y los asistentes virtuales en particular de la siguiente manera:

En un primer nivel, el hecho de que el consumidor proporcione datos gratuitos para la formación y mejora del asistente virtual, muchas veces sin saberlo, es éticamente perturbador.

Pero en un segundo nivel, podría ser aún más perturbador éticamente saber cómo se entrenan estas IA con estos datos.

Esta inteligencia artificial se entrena a través de redes neuronales , que requieren una gran cantidad de datos etiquetados. Sin embargo, estos datos deben etiquetarse a través de un proceso humano, lo que explica el aumento del microtrabajo en la última década. Es decir, utilizar de forma remota a algunas personas en todo el mundo que realizan algunas tareas repetitivas y muy simples por unos pocos centavos, como escuchar los datos de voz del asistente virtual y escribir lo que se dijo. Microwork ha sido criticado por la inseguridad laboral que causa, y por la total falta de regulación: el salario promedio fue de 1,38 dólares / hora en 2010, y no brinda atención médica ni jubilación, enfermedad , salario mínimo . Por lo tanto, los asistentes virtuales y sus diseñadores son controvertidos por estimular la inseguridad laboral, y las IA que proponen siguen siendo humanas de una manera que serían imposibles sin el microtrabajo de millones de trabajadores humanos.

Las preocupaciones sobre la privacidad surgen por el hecho de que los proveedores de asistentes virtuales disponen de comandos de voz sin cifrar y, por lo tanto, pueden compartirse con terceros y procesarse de manera no autorizada o inesperada. Además del contenido lingüístico del habla grabada, la forma de expresión y las características de la voz de un usuario pueden contener implícitamente información sobre su identidad biométrica, rasgos de personalidad, forma corporal, condición de salud física y mental, sexo, género, estados de ánimo y emociones, estatus socioeconómico. y origen geográfico.

Plataformas para desarrolladores

Las plataformas de desarrollo notables para asistentes virtuales incluyen:

  • Amazon Lex se abrió a los desarrolladores en abril de 2017. Implica tecnología de comprensión del lenguaje natural combinada con reconocimiento automático de voz y se introdujo en noviembre de 2016.
  • Google proporciona las plataformas Actions on Google y Dialogflow para que los desarrolladores creen "Acciones" para el Asistente de Google.
  • Apple proporciona SiriKit para que los desarrolladores creen extensiones para Siri
  • IBM 's Watson , aunque a veces se habla de él como un asistente virtual es en realidad toda una inteligencia artificial plataforma y comunidad de la alimentación de algunos asistentes virtuales, chatbots . y muchos otros tipos de soluciones.

Generaciones previas

En generaciones anteriores de asistentes virtuales basados ​​en chat de texto, el asistente a menudo estaba representado por un avatar (también conocido como personaje interactivo en línea o personaje automatizado ), esto se conocía como un agente incorporado .

Comparación de asistentes notables

Asistente personal inteligente Desarrollador Software libre Hardware gratuito y de código abierto Salida HDMI E / S externas IOT Integración de Chromecast Aplicación de teléfono inteligente Siempre encendido Unidad a unidad de canal de voz Lenguaje de habilidad
Alexa (también conocida como Echo ) Amazon.com No No No No No ? JavaScript
Alicia Yandex No N / A N / A N / A No N / A ?
AliGenie Grupo Alibaba No No N / A N / A No N / A ?
Asistente Speaktoit No N / A N / A N / A No No No N / A ?
Bixby Samsung Electronics No N / A N / A N / A No No N / A N / A ?
Asistente de BlackBerry BlackBerry Limited No N / A N / A N / A No No No N / A ?
Braina Brainasoft No N / A N / A N / A No No No N / A ?
Clova Corporación Naver No N / A N / A N / A No N / A ?
Cortana Microsoft No N / A N / A N / A No N / A ?
Duer Baidu
Evi Amazon.com Verdadero conocimiento No N / A N / A N / A No No No N / A ?
Asistente de Google Google No N / A N / A N / A N / A C ++
Google ahora Google No N / A N / A N / A N / A ?
M (descontinuado) Facebook
Mycroft Mycroft AI Pitón
SILVIA Código cognitivo No N / A N / A N / A No No No N / A ?
Siri Apple Inc. No No N / A N / A No N / A ?
Viv Samsung Electronics No N / A N / A N / A No No N / A ?
Xiaowei Tencent ?
Celia Huawei No No N / A N / A No N / A ?

Relevancia económica

Para individuos

Las experiencias digitales habilitadas por asistentes virtuales se consideran entre los principales avances tecnológicos recientes y las tendencias de consumo más prometedoras. Los expertos afirman que las experiencias digitales alcanzarán un peso de estado comparable a las experiencias "reales", si no se volverán más buscadas y apreciadas. La tendencia es verificada por un alto número de usuarios frecuentes y el crecimiento sustancial del número de usuarios de asistentes digitales virtuales en todo el mundo. A mediados de 2017, el número de usuarios frecuentes de asistentes virtuales digitales se estima en alrededor de 1000 millones en todo el mundo. Además, se puede observar que la tecnología de asistente digital virtual ya no se limita a las aplicaciones de teléfonos inteligentes, sino que está presente en muchos sectores de la industria (incluidos el automóvil , las telecomunicaciones, el comercio minorista , la atención médica y la educación). En respuesta a los importantes gastos de I + D de las empresas en todos los sectores y a la creciente implementación de dispositivos móviles, se prevé que el mercado de la tecnología de reconocimiento de voz crezca a una tasa compuesta anual del 34,9% a nivel mundial durante el período de 2016 a 2024 y, por lo tanto, supere a un mercado global. de US $ 7.500 millones para 2024. Según un estudio de Ovum , se proyecta que la "base instalada de asistentes digitales nativos" superará a la población mundial para 2021, con 7.500 millones de dispositivos con capacidad de inteligencia artificial de voz activa. Según Ovum, para entonces "Google Assistant dominará el mercado de dispositivos con capacidad de inteligencia artificial de voz con una participación de mercado del 23,3%, seguido por Bixby de Samsung (14,5%), Siri de Apple (13,1%), Alexa de Amazon (3,9%) y Microsoft Cortana (2,3%) ".

Teniendo en cuenta la distribución regional de los líderes del mercado, se espera que las empresas norteamericanas (por ejemplo, Nuance Communications , IBM , eGain ) dominen la industria durante los próximos años, debido al impacto significativo de BYOD ( Bring Your Own Device ) y el negocio de movilidad empresarial. modelos. Además, se espera que la creciente demanda de plataformas asistidas por teléfonos inteligentes impulse aún más el crecimiento de la industria del asistente virtual inteligente (IVA) en América del Norte. A pesar de su menor tamaño en comparación con el mercado norteamericano, se prevé que la industria de asistentes virtuales inteligentes de la región de Asia-Pacífico , con sus principales actores ubicados en India y China, crezca a una tasa de crecimiento anual del 40% (por encima del promedio global). durante el período 2016-2024.

Oportunidad económica para empresas

Los asistentes virtuales no deben verse solo como un gadget para las personas, ya que podrían tener una utilidad económica real para las empresas. A modo de ejemplo, un asistente virtual puede asumir el papel de un asistente siempre disponible con conocimientos enciclopédicos. Y que puede organizar reuniones, consultar inventarios, verificar informaciones. Los asistentes virtuales son tanto más importantes que su integración en las pequeñas y medianas empresas a menudo consiste en un primer paso sencillo a través de la adaptación y el uso más global de Internet de las cosas (IoT) . De hecho, las pequeñas y medianas empresas perciben por primera vez las tecnologías de IoT como tecnologías de importancia crítica, pero demasiado complicadas, arriesgadas o costosas de utilizar.

Seguridad

En mayo de 2018, investigadores de la Universidad de California, Berkeley , publicaron un artículo que mostraba que los comandos de audio indetectables para el oído humano podrían integrarse directamente en la música o el texto hablado, manipulando así a los asistentes virtuales para que realicen ciertas acciones sin que el usuario lo note. . Los investigadores realizaron pequeños cambios en los archivos de audio, que cancelaron los patrones de sonido que los sistemas de reconocimiento de voz deben detectar. Estos fueron reemplazados por sonidos que serían interpretados de manera diferente por el sistema y le ordenarían marcar números de teléfono, abrir sitios web o incluso transferir dinero. La posibilidad de esto se conoce desde 2016, y afecta a dispositivos de Apple , Amazon y Google .

Además de las acciones no intencionales y la grabación de voz, otro riesgo de seguridad y privacidad asociado con los asistentes virtuales inteligentes son los comandos de voz maliciosos: un atacante que se hace pasar por un usuario y emite comandos de voz maliciosos para, por ejemplo, desbloquear una puerta inteligente para obtener acceso no autorizado a un casa o garaje o pedir artículos en línea sin el conocimiento del usuario. Aunque algunos IVA proporcionan una función de entrenamiento de la voz para evitar dicha suplantación, puede resultar difícil para el sistema distinguir entre voces similares. Por lo tanto, una persona malintencionada que pueda acceder a un dispositivo habilitado para IVA podría engañar al sistema haciéndole creer que es el propietario real y llevar a cabo actos delictivos o maliciosos.

Ver también

Referencias