Transferir aprendizaje - Transfer learning

El aprendizaje por transferencia (TL) es un problema de investigación en aprendizaje automático (ML) que se centra en almacenar el conocimiento adquirido mientras se resuelve un problema y se aplica a un problema diferente pero relacionado. Por ejemplo, el conocimiento adquirido al aprender a reconocer automóviles podría aplicarse al intentar reconocer camiones. Esta área de investigación guarda alguna relación con la larga historia de la literatura psicológica sobre la transferencia del aprendizaje , aunque los vínculos prácticos entre los dos campos son limitados. Desde el punto de vista práctico, reutilizar o transferir información de tareas previamente aprendidas para el aprendizaje de nuevas tareas tiene el potencial de mejorar significativamente la eficiencia de la muestra de un agente de aprendizaje por refuerzo .

Historia

En 1976, Stevo Bozinovski y Ante Fulgosi publicaron un artículo que abordaba explícitamente el aprendizaje por transferencia en el entrenamiento de redes neuronales. El artículo ofrece un modelo matemático y geométrico de aprendizaje por transferencia. En 1981 se presentó un informe sobre la aplicación del aprendizaje por transferencia en el entrenamiento de una red neuronal en un conjunto de datos de imágenes que representan letras de terminales de computadora. Se demostró experimentalmente el aprendizaje por transferencia tanto positivo como negativo.

En 1993, Lorien Pratt publicó un artículo sobre la transferencia en el aprendizaje automático , formulando el algoritmo de transferencia basada en discriminabilidad (DBT).

En 1997, Pratt y Sebastian Thrun editaron como invitado un número especial de Machine Learning dedicado al aprendizaje por transferencia, y para 1998, el campo había avanzado para incluir el aprendizaje multitarea , junto con un análisis más formal de sus fundamentos teóricos. Learning to Learn , editado por Thrun y Pratt, es una revisión de 1998 del tema.

El aprendizaje por transferencia también se ha aplicado en la ciencia cognitiva , y Pratt también publicó como invitado un número de Connection Science sobre la reutilización de redes neuronales a través de la transferencia en 1996.

Andrew Ng dijo en su tutorial de NIPS 2016 que TL será el próximo impulsor del éxito comercial de ML después del aprendizaje supervisado para resaltar la importancia de TL.

Definición

La definición de aprendizaje por transferencia se da en términos de dominios y tareas. Un dominio consta de: un espacio de características y una distribución de probabilidad marginal , donde . Dado un dominio específico , una tarea consta de dos componentes: un espacio de etiqueta y una función predictiva objetiva . La función se utiliza para predecir la etiqueta correspondiente de una nueva instancia . Esta tarea, denotada por , se aprende de los datos de entrenamiento que consisten en pares , dónde y . ${\ Displaystyle {\ mathcal {D}}}$ ${\ Displaystyle {\ mathcal {X}}}$ ${\ Displaystyle P (X)}$ ${\ Displaystyle X = \ {x_ {1}, ..., x_ {n} \} \ in {\ mathcal {X}}}$ ${\ Displaystyle {\ mathcal {D}} = \ {{\ mathcal {X}}, P (X) \}}$ ${\ Displaystyle {\ mathcal {Y}}}$ ${\ Displaystyle f: {\ mathcal {X}} \ rightarrow {\ mathcal {Y}}}$ ${\ Displaystyle f}$ ${\ Displaystyle f (x)}$ ${\ Displaystyle x}$ ${\ Displaystyle {\ mathcal {T}} = \ {{\ mathcal {Y}}, f (x) \}}$ ${\ Displaystyle \ {x_ {i}, y_ {i} \}}$ ${\ Displaystyle x_ {i} \ in X}$ ${\ Displaystyle y_ {i} \ in {\ mathcal {Y}}}$

Dado un dominio de origen y una tarea de aprendizaje , un dominio de destino y una tarea de aprendizaje , donde , o transferir el aprendizaje, tiene como objetivo ayudar a mejorar el aprendizaje de la función predictiva de destino en el uso del conocimiento en y . ${\ Displaystyle {\ mathcal {D}} _ {S}}$ ${\ Displaystyle {\ mathcal {T}} _ {S}}$ ${\ Displaystyle {\ mathcal {D}} _ {T}}$ ${\ Displaystyle {\ mathcal {T}} _ {T}}$ ${\ Displaystyle {\ mathcal {D}} _ {S} \ neq {\ mathcal {D}} _ {T}}$ ${\ Displaystyle {\ mathcal {T}} _ {S} \ neq {\ mathcal {T}} _ {T}}$ ${\ Displaystyle f_ {T} (\ cdot)}$ ${\ Displaystyle {\ mathcal {D}} _ {T}}$ ${\ Displaystyle {\ mathcal {D}} _ {S}}$ ${\ Displaystyle {\ mathcal {T}} _ {S}}$

Aplicaciones

Los algoritmos están disponibles para el aprendizaje por transferencia en redes lógicas de Markov y redes bayesianas . El aprendizaje por transferencia también se ha aplicado al descubrimiento de subtipos de cáncer, utilización de edificios , juegos generales , clasificación de texto , reconocimiento de dígitos, imágenes médicas y filtrado de spam .

En 2020 se descubrió que, debido a sus naturalezas físicas similares, el aprendizaje de transferencia es posible entre las señales electromiográficas (EMG) de los músculos al clasificar los comportamientos de las ondas cerebrales electroencefalográficas (EEG) desde el dominio de reconocimiento de gestos hasta el dominio de reconocimiento del estado mental. También se observó que esta relación funcionaba al revés, lo que demuestra que el EEG también se puede utilizar para clasificar EMG. Los experimentos observaron que la precisión de las redes neuronales y las redes neuronales convolucionales se mejoró mediante el aprendizaje por transferencia tanto en la primera época (antes de cualquier aprendizaje, es decir, en comparación con la distribución de peso aleatoria estándar) como en la asíntota (el final del proceso de aprendizaje). . Es decir, los algoritmos se mejoran con la exposición a otro dominio. Además, el usuario final de un modelo previamente entrenado puede cambiar la estructura de capas completamente conectadas para lograr un rendimiento superior.

Ver también

Referencias

Fuentes

Thrun, Sebastian; Pratt, Lorien (6 de diciembre de 2012). Aprendiendo a aprender . Springer Science & Business Media. ISBN 978-1-4615-5529-2.

Languages

In other projects