Promedio de conjuntos (aprendizaje automático) - Ensemble averaging (machine learning)

En el aprendizaje automático , particularmente en la creación de redes neuronales artificiales , el promedio de conjuntos es el proceso de crear múltiples modelos y combinarlos para producir un resultado deseado, en lugar de crear un solo modelo. Con frecuencia, un conjunto de modelos funciona mejor que cualquier modelo individual, porque los diversos errores de los modelos "promedian".

Descripción general

El promedio de conjuntos es uno de los tipos más simples de máquinas de comité . Junto con el impulso , es uno de los dos tipos principales de máquinas de comité estático. En contraste con el diseño de red estándar en el que se generan muchas redes pero solo se mantiene una, el promedio de conjuntos mantiene las redes menos satisfactorias, pero con menos peso. La teoría del promedio de conjuntos se basa en dos propiedades de las redes neuronales artificiales:

  1. En cualquier red, el sesgo se puede reducir a costa de una mayor varianza
  2. En un grupo de redes, la varianza se puede reducir sin costo de sesgo

El promedio de conjuntos crea un grupo de redes, cada una con un sesgo bajo y una varianza alta, luego las combina en una nueva red con (con suerte) un sesgo bajo y una varianza baja. Por tanto, es una resolución del dilema sesgo-varianza . La idea de combinar expertos se remonta a Pierre-Simon Laplace .

Método

La teoría mencionada anteriormente ofrece una estrategia obvia: crear un conjunto de expertos con bajo sesgo y alta varianza, y luego promediarlos. Generalmente, lo que esto significa es crear un conjunto de expertos con parámetros variables; con frecuencia, estos son los pesos sinápticos iniciales, aunque también pueden variar otros factores (como la tasa de aprendizaje, el impulso, etc.). Algunos autores recomiendan que no se produzca una disminución de peso variable y una interrupción temprana. Por tanto, los pasos son:

  1. Genere N expertos, cada uno con sus propios valores iniciales. (Los valores iniciales generalmente se eligen al azar de una distribución).
  2. Entrene a cada experto por separado.
  3. Combine a los expertos y promedie sus valores.

Alternativamente, el conocimiento del dominio se puede utilizar para generar varias clases de expertos. Se capacita a un experto de cada clase y luego se combina.

Una versión más compleja del promedio de conjunto ve el resultado final no como un mero promedio de todos los expertos, sino más bien como una suma ponderada. Si cada experto lo es , entonces el resultado general se puede definir como:

donde es un conjunto de pesos. El problema de optimización de encontrar alfa se resuelve fácilmente a través de redes neuronales, por lo tanto, se puede entrenar una "meta-red" donde cada "neurona" es de hecho una red neuronal completa, y los pesos sinápticos de la red final es el peso aplicado a cada una. experto. Esto se conoce como combinación lineal de expertos .

Se puede ver que la mayoría de las formas de redes neuronales son un subconjunto de una combinación lineal: la red neuronal estándar (donde solo se usa un experto) es simplemente una combinación lineal con todos y uno . Un promedio bruto es donde todos son iguales a algún valor constante, es decir, uno sobre el número total de expertos.

Un método de promediación por conjuntos más reciente es el aprendizaje de correlación negativa, propuesto por Y. Liu y X. Yao. Ahora bien, este método se ha utilizado ampliamente en la computación evolutiva .

Beneficios

  • El comité resultante es casi siempre menos complejo que una sola red que lograría el mismo nivel de desempeño.
  • El comité resultante se puede capacitar más fácilmente en conjuntos de entrada más pequeños.
  • El comité resultante a menudo ha mejorado el rendimiento en una sola red.
  • El riesgo de sobreajuste se reduce, ya que hay menos parámetros (pesos) que deben configurarse

Ver también

Referencias

  1. ^ a b c Haykin, Simon. Redes neuronales: una base integral. 2ª ed. Upper Saddle River Nueva Jersey: Prentice Hall, 1999.
  2. ^ a b c d Hashem, S. "Combinaciones lineales óptimas de redes neuronales". Redes neuronales 10, no. 4 (1997): 599–614.
  3. ^ a b Naftaly, U., N. Intrator y D. Horn. "Promedio de conjuntos óptimos de redes neuronales". Red: Computación en sistemas neuronales 8, no. 3 (1997): 283-296.
  4. ^ Geman, S., E. Bienenstock y R. Doursat. "Redes neuronales y el dilema sesgo / varianza". Computación neuronal 4, no. 1 (1992): 1–58.
  5. ^ Clemen, RT "Combinando pronósticos: una revisión y bibliografía comentada". Revista Internacional de Pronósticos 5, no. 4 (1989): 559–583.
  6. ^ Y. Liu y X. Yao, Ensemble Learning via Negative Correlation Neural Networks, Volumen 12, Número 10, diciembre de 1999, págs. 1399-1404. doi : 10.1016 / S0893-6080 (99) 00073-8
  7. ^ Pearlmutter, BA y R. Rosenfeld. "Complejidad y generalización de Chaitin-Kolmogorov en redes neuronales". En Actas de la conferencia de 1990 sobre avances en los sistemas de procesamiento de información neuronal 3, 931. Morgan Kaufmann Publishers Inc., 1990.

Otras lecturas

  • Perrone, MP (1993), Mejora de la estimación de regresión: métodos de promediado para la reducción de la varianza con extensiones a la optimización de la medida convexa general
  • Wolpert, DH (1992), "Generalización apilada", Neural Networks , 5 (2): 241-259, CiteSeerX   10.1.1.133.8090 , doi : 10.1016 / S0893-6080 (05) 80023-1
  • Hashem, S. (1997), "Combinaciones lineales óptimas de redes neuronales", Redes neuronales , 10 (4): 599–614, doi : 10.1016 / S0893-6080 (96) 00098-6 , PMID   12662858
  • Hashem, S. y B. Schmeiser (1993), "Aproximación de una función y sus derivadas utilizando combinaciones lineales óptimas de MSE de redes neuronales de alimentación directa entrenadas", Actas de la Conferencia conjunta sobre redes neuronales , 87 : 617–620