Aprendizaje supervisado - Supervised learning

El aprendizaje supervisado (SL) es la tarea de aprendizaje automático de aprender una función que asigna una entrada a una salida en función de pares de entrada-salida de ejemplo. Infiere una función de datos de entrenamiento etiquetados que consisten en un conjunto deejemplosdeentrenamiento. En el aprendizaje supervisado, cada ejemplo es unpar queconsta de un objeto de entrada (normalmente un vector) y un valor de salida deseado (también llamadoseñal de supervisión). Un algoritmo de aprendizaje supervisado analiza los datos de entrenamiento y produce una función inferida, que puede usarse para mapear nuevos ejemplos. Un escenario óptimo permitirá que el algoritmo determine correctamente las etiquetas de clase para instancias invisibles. Esto requiere que el algoritmo de aprendizaje generalice a partir de los datos de entrenamiento a situaciones invisibles de una manera "razonable" (versesgo inductivo). Esta calidad estadística de un algoritmo se mide mediante el llamadoerror de generalización.

La tarea paralela en psicología humana y animal a menudo se denomina aprendizaje de conceptos .

Pasos

Para resolver un determinado problema de aprendizaje supervisado, se deben realizar los siguientes pasos:

  1. Determine el tipo de ejemplos de formación. Antes de hacer cualquier otra cosa, el usuario debe decidir qué tipo de datos se utilizarán como conjunto de entrenamiento. En el caso del análisis de escritura a mano , por ejemplo, esto podría ser un solo carácter escrito a mano, una palabra escrita a mano completa, una oración completa de escritura a mano o quizás un párrafo completo de escritura a mano.
  2. Reúna un juego de entrenamiento. El conjunto de entrenamiento debe ser representativo del uso real de la función. Por lo tanto, se recopila un conjunto de objetos de entrada y también se recopilan las salidas correspondientes, ya sea de expertos humanos o de mediciones.
  3. Determine la representación de la característica de entrada de la función aprendida. La precisión de la función aprendida depende en gran medida de cómo se representa el objeto de entrada. Normalmente, el objeto de entrada se transforma en un vector de características , que contiene una serie de características que son descriptivas del objeto. El número de características no debería ser demasiado grande, debido a la maldición de la dimensionalidad ; pero debe contener suficiente información para predecir con precisión el resultado.
  4. Determine la estructura de la función aprendida y el algoritmo de aprendizaje correspondiente. Por ejemplo, el ingeniero puede optar por utilizar máquinas de vectores de soporte o árboles de decisión .
  5. Completa el diseño. Ejecute el algoritmo de aprendizaje en el conjunto de entrenamiento recopilado. Algunos algoritmos de aprendizaje supervisado requieren que el usuario determine ciertos parámetros de control. Estos parámetros se pueden ajustar optimizando el rendimiento en un subconjunto (llamado conjunto de validación ) del conjunto de entrenamiento o mediante validación cruzada .
  6. Evalúe la precisión de la función aprendida. Después del ajuste y el aprendizaje de los parámetros, el rendimiento de la función resultante debe medirse en un conjunto de prueba que esté separado del conjunto de entrenamiento.

Elección del algoritmo

Se encuentra disponible una amplia gama de algoritmos de aprendizaje supervisado, cada uno con sus fortalezas y debilidades. No existe un algoritmo de aprendizaje único que funcione mejor en todos los problemas de aprendizaje supervisado (consulte el teorema de no almuerzo gratis ).

Hay cuatro cuestiones principales a considerar en el aprendizaje supervisado:

Compensación de sesgo-varianza

Un primer problema es el compromiso entre sesgo y varianza . Imagine que tenemos disponibles varios conjuntos de datos de entrenamiento diferentes, pero igualmente buenos. Un algoritmo de aprendizaje está sesgado para una entrada en particular si, cuando se entrena en cada uno de estos conjuntos de datos, es sistemáticamente incorrecto al predecir la salida correcta para . Un algoritmo de aprendizaje tiene una gran variación para una entrada en particular si predice diferentes valores de salida cuando se entrena en diferentes conjuntos de entrenamiento. El error de predicción de un clasificador aprendido está relacionado con la suma del sesgo y la varianza del algoritmo de aprendizaje. Generalmente, existe una compensación entre sesgo y varianza. Un algoritmo de aprendizaje con un sesgo bajo debe ser "flexible" para que pueda ajustarse bien a los datos. Pero si el algoritmo de aprendizaje es demasiado flexible, se ajustará a cada conjunto de datos de entrenamiento de manera diferente y, por lo tanto, tendrá una gran variación. Un aspecto clave de muchos métodos de aprendizaje supervisado es que pueden ajustar esta compensación entre sesgo y varianza (ya sea automáticamente o proporcionando un parámetro de sesgo / varianza que el usuario puede ajustar).

Complejidad de la función y cantidad de datos de entrenamiento

El segundo problema es la cantidad de datos de entrenamiento disponibles en relación con la complejidad de la función "verdadera" (función de clasificación o regresión). Si la función verdadera es simple, entonces un algoritmo de aprendizaje "inflexible" con alto sesgo y baja varianza podrá aprenderlo a partir de una pequeña cantidad de datos. Pero si la función verdadera es muy compleja (por ejemplo, porque implica interacciones complejas entre muchas características de entrada diferentes y se comporta de manera diferente en diferentes partes del espacio de entrada), entonces la función solo podrá aprender de una gran cantidad de datos de entrenamiento. y el uso de un algoritmo de aprendizaje "flexible" con bajo sesgo y alta varianza. Existe una clara demarcación entre la entrada y la salida deseada.

Dimensionalidad del espacio de entrada

Un tercer problema es la dimensionalidad del espacio de entrada. Si los vectores de características de entrada tienen una dimensión muy alta, el problema de aprendizaje puede ser difícil incluso si la función verdadera solo depende de una pequeña cantidad de esas características. Esto se debe a que las muchas dimensiones "adicionales" pueden confundir el algoritmo de aprendizaje y hacer que tenga una gran variación. Por lo tanto, una dimensión de entrada alta normalmente requiere ajustar el clasificador para que tenga una baja varianza y un alto sesgo. En la práctica, si el ingeniero puede eliminar manualmente características irrelevantes de los datos de entrada, es probable que esto mejore la precisión de la función aprendida. Además, existen muchos algoritmos para la selección de características que buscan identificar las características relevantes y descartar las irrelevantes. Este es un ejemplo de la estrategia más general de reducción de dimensionalidad , que busca mapear los datos de entrada en un espacio de menor dimensión antes de ejecutar el algoritmo de aprendizaje supervisado.

Ruido en los valores de salida

Un cuarto problema es el grado de ruido en los valores de salida deseados (las variables objetivo de supervisión ). Si los valores de salida deseados son a menudo incorrectos (debido a errores humanos o errores del sensor), entonces el algoritmo de aprendizaje no debe intentar encontrar una función que coincida exactamente con los ejemplos de entrenamiento. Intentar ajustar los datos con demasiado cuidado conduce a un sobreajuste . Puede sobreajustar incluso cuando no hay errores de medición (ruido estocástico) si la función que está tratando de aprender es demasiado compleja para su modelo de aprendizaje. En tal situación, la parte de la función de destino que no se puede modelar "corrompe" los datos de entrenamiento; este fenómeno se ha denominado ruido determinista . Cuando está presente cualquier tipo de ruido, es mejor utilizar un estimador de mayor sesgo y menor varianza.

En la práctica, existen varios enfoques para aliviar el ruido en los valores de salida, como la parada anticipada para evitar el sobreajuste , así como detectar y eliminar los ejemplos de entrenamiento ruidosos antes de entrenar el algoritmo de aprendizaje supervisado. Hay varios algoritmos que identifican ejemplos de entrenamiento ruidosos y la eliminación de los ejemplos de entrenamiento ruidosos sospechosos antes del entrenamiento ha disminuido el error de generalización con significación estadística .

Otros factores a considerar

Otros factores a considerar al elegir y aplicar un algoritmo de aprendizaje incluyen los siguientes:

Al considerar una nueva aplicación, el ingeniero puede comparar múltiples algoritmos de aprendizaje y determinar experimentalmente cuál funciona mejor en el problema en cuestión (ver validación cruzada ). Ajustar el rendimiento de un algoritmo de aprendizaje puede llevar mucho tiempo. Dados los recursos fijos, a menudo es mejor dedicar más tiempo a recopilar datos de entrenamiento adicionales y características más informativas que dedicar más tiempo a ajustar los algoritmos de aprendizaje.

Algoritmos

Los algoritmos de aprendizaje más utilizados son:

Cómo funcionan los algoritmos de aprendizaje supervisado

Dado un conjunto de ejemplos de entrenamiento de la forma tal que es el vector de características del -ésimo ejemplo y es su etiqueta (es decir, clase), un algoritmo de aprendizaje busca una función , donde es el espacio de entrada y es el espacio de salida. La función es un elemento de algún espacio de funciones posibles , generalmente llamado espacio de hipótesis . A veces es conveniente representar mediante una función de puntuación de tal manera que se define como la devolución del valor que da la puntuación más alta: . Dejar que denotan el espacio de funciones de puntuación.

Aunque y puede ser cualquier espacio de funciones, muchos algoritmos de aprendizaje son modelos probabilísticos donde toma la forma de un modelo de probabilidad condicional o toma la forma de un modelo de probabilidad conjunta . Por ejemplo, Bayes ingenuo y el análisis discriminante lineal son modelos de probabilidad conjunta, mientras que la regresión logística es un modelo de probabilidad condicional.

Hay dos enfoques básicos para elegir o : minimización del riesgo empírico y minimización del riesgo estructural . La minimización de riesgos empíricos busca la función que mejor se ajusta a los datos de entrenamiento. La minimización del riesgo estructural incluye una función de penalización que controla la compensación de sesgo / varianza.

En ambos casos, se supone que el conjunto de entrenamiento consiste en una muestra de pares independientes e idénticamente distribuidos , . Para medir qué tan bien se ajusta una función a los datos de entrenamiento, se define una función de pérdida . Por ejemplo de entrenamiento , la pérdida de predecir el valor es .

El riesgo de función se define como la pérdida esperada de . Esto se puede estimar a partir de los datos de entrenamiento como

.

Minimización de riesgos empíricos

En la minimización del riesgo empírico, el algoritmo de aprendizaje supervisado busca la función que minimiza . Por lo tanto, se puede construir un algoritmo de aprendizaje supervisado aplicando un algoritmo de optimización para encontrar .

Cuando es una distribución de probabilidad condicional y la función de pérdida es la probabilidad logarítmica negativa:, entonces la minimización del riesgo empírico es equivalente a la estimación de máxima verosimilitud .

Cuando contiene muchas funciones candidatas o el conjunto de entrenamiento no es lo suficientemente grande, la minimización del riesgo empírico conduce a una gran varianza y una mala generalización. El algoritmo de aprendizaje es capaz de memorizar los ejemplos de entrenamiento sin generalizar bien. A esto se le llama sobreajuste .

Minimización de riesgos estructurales

La minimización del riesgo estructural busca evitar el sobreajuste incorporando una penalización por regularización en la optimización. La penalización por regularización puede verse como la implementación de una forma de navaja de Occam que prefiere funciones más simples sobre las más complejas.

Se ha empleado una amplia variedad de sanciones que corresponden a diferentes definiciones de complejidad. Por ejemplo, considere el caso donde la función es una función lineal de la forma

.

Una penalización de regularización popular es , que es la norma euclidiana al cuadrado de los pesos, también conocida como la norma. Otras normas incluyen la norma, y la "norma" , que es el número de s distintos de cero . La penalización se indicará con .

El problema de la optimización del aprendizaje supervisado es encontrar la función que minimiza

El parámetro controla la compensación sesgo-varianza. Cuando , esto proporciona una minimización del riesgo empírico con bajo sesgo y alta varianza. Cuando es grande, el algoritmo de aprendizaje tendrá un alto sesgo y una baja varianza. El valor de puede elegirse empíricamente mediante validación cruzada .

La pena de complejidad tiene una interpretación bayesiana como el logaritmo negativo de la probabilidad a priori , en cuyo caso es la probabilidad posterior de .

Entrenamiento generativo

Los métodos de entrenamiento descritos anteriormente son métodos de entrenamiento discriminativos , porque buscan encontrar una función que discrimine bien entre los diferentes valores de salida (ver modelo discriminativo ). Para el caso especial donde es una distribución de probabilidad conjunta y la función de pérdida es la probabilidad logarítmica negativa , se dice que un algoritmo de minimización de riesgos realiza entrenamiento generativo , porque puede considerarse como un modelo generativo que explica cómo se generaron los datos. Los algoritmos de entrenamiento generativo son a menudo más simples y computacionalmente más eficientes que los algoritmos de entrenamiento discriminativos. En algunos casos, la solución se puede calcular en forma cerrada como en el análisis Bayes ingenuo y discriminante lineal .

Generalizaciones

Hay varias formas de generalizar el problema estándar de aprendizaje supervisado:

  • Aprendizaje semi-supervisado : en esta configuración, los valores de salida deseados se proporcionan solo para un subconjunto de los datos de entrenamiento. Los datos restantes no están etiquetados.
  • Supervisión débil : en este entorno, se utilizan fuentes ruidosas, limitadas o imprecisas para proporcionar una señal de supervisión para etiquetar los datos de entrenamiento.
  • Aprendizaje activo : en lugar de suponer que todos los ejemplos de formación se dan al principio, los algoritmos de aprendizaje activo recopilan de forma interactiva nuevos ejemplos, normalmente mediante consultas a un usuario humano. A menudo, las consultas se basan en datos sin etiquetar, que es un escenario que combina el aprendizaje semi-supervisado con el aprendizaje activo.
  • Predicción estructurada : cuando el valor de salida deseado es un objeto complejo, como un árbol de análisis sintáctico o un gráfico etiquetado, se deben ampliar los métodos estándar.
  • Aprendiendo a clasificar : cuando la entrada es un conjunto de objetos y la salida deseada es una clasificación de esos objetos, entonces nuevamente se deben extender los métodos estándar.

Enfoques y algoritmos

Aplicaciones

Asuntos Generales

Ver también

Referencias

enlaces externos