Perceptrón multicapa - Multilayer perceptron

Un perceptrón multicapa ( MLP ) es una clase de alimentación directa a la red neuronal artificial (ANN). El término MLP se utiliza de forma ambigua, a veces de forma vaga para referirse a cualquier ANN feedforward, a veces estrictamente para referirse a redes compuestas por múltiples capas de perceptrones (con activación de umbral); ver § Terminología . Los perceptrones multicapa a veces se denominan coloquialmente redes neuronales "vainilla", especialmente cuando tienen una sola capa oculta.

Un MLP consta de al menos tres capas de nodos: una capa de entrada , una capa oculta y una capa de salida . A excepción de los nodos de entrada, cada nodo es una neurona que utiliza una función de activación no lineal . MLP utiliza una técnica de aprendizaje supervisado llamada retropropagación para el entrenamiento. Sus múltiples capas y activación no lineal distinguen a MLP de un perceptrón lineal . Puede distinguir datos que no se pueden separar linealmente .

Teoría

Función de activación

Si un perceptrón multicapa tiene una función de activación lineal en todas las neuronas, es decir, una función lineal que asigna las entradas ponderadas a la salida de cada neurona, entonces el álgebra lineal muestra que cualquier número de capas se puede reducir a una entrada de dos capas. modelo de salida. En las MLP, algunas neuronas utilizan una función de activación no lineal que se desarrolló para modelar la frecuencia de los potenciales de acción , o activación, de las neuronas biológicas.

Las dos funciones de activación históricamente comunes son sigmoides y están descritas por

.

En desarrollos recientes de aprendizaje profundo, la unidad lineal rectificadora (ReLU) se usa con más frecuencia como una de las posibles formas de superar los problemas numéricos relacionados con los sigmoides.

La primera es una tangente hiperbólica que va de -1 a 1, mientras que la otra es la función logística , que tiene una forma similar pero que va de 0 a 1. Aquí está la salida del th nodo (neurona) y es la suma ponderada de las conexiones de entrada. Se han propuesto funciones de activación alternativas, incluidas las funciones rectificador y softplus . Las funciones de activación más especializadas incluyen funciones de base radial (utilizadas en redes de base radial , otra clase de modelos de redes neuronales supervisadas).

Capas

El MLP consta de tres o más capas (una capa de entrada y una de salida con una o más capas ocultas ) de nodos de activación no lineal. Dado que los MLP están completamente conectados, cada nodo en una capa se conecta con un cierto peso a cada nodo en la siguiente capa.

Aprendiendo

El aprendizaje ocurre en el perceptrón al cambiar los pesos de conexión después de que se procesa cada dato, según la cantidad de error en la salida en comparación con el resultado esperado. Este es un ejemplo de aprendizaje supervisado , y se lleva a cabo mediante retropropagación , una generalización del algoritmo de mínimos cuadrados medios en el perceptrón lineal.

Podemos representar el grado de error en un nodo de salida en el punto de datos (ejemplo de entrenamiento) por , donde es el valor objetivo y es el valor producido por el perceptrón. Los pesos de los nodos se pueden ajustar en función de las correcciones que minimizan el error en toda la salida, dado por

.

Usando el descenso de gradiente , el cambio en cada peso es

donde es la salida de la neurona anterior y es la tasa de aprendizaje , que se selecciona para garantizar que los pesos converjan rápidamente en una respuesta, sin oscilaciones.

La derivada a calcular depende del campo local inducido , que a su vez varía. Es fácil probar que para un nodo de salida, esta derivada se puede simplificar a

donde es la derivada de la función de activación descrita anteriormente, que en sí misma no varía. El análisis es más difícil para el cambio de ponderaciones a un nodo oculto, pero se puede demostrar que la derivada relevante es

.

Esto depende del cambio en los pesos de los nodos, que representan la capa de salida. Entonces, para cambiar los pesos de la capa oculta, los pesos de la capa de salida cambian de acuerdo con la derivada de la función de activación, por lo que este algoritmo representa una propagación hacia atrás de la función de activación.


Terminología

El término "perceptrón multicapa" no se refiere a un solo perceptrón que tiene múltiples capas. Más bien, contiene muchos perceptrones que están organizados en capas. Una alternativa es la "red de perceptrones multicapa". Además, los "perceptrones" MLP no son perceptrones en el sentido más estricto posible. Los perceptrones verdaderos son formalmente un caso especial de neuronas artificiales que utilizan una función de activación de umbral como la función escalón Heaviside . Los perceptrones MLP pueden emplear funciones de activación arbitrarias. Un verdadero perceptrón realiza una clasificación binaria , una neurona MLP es libre de realizar clasificación o regresión, dependiendo de su función de activación.

El término "perceptrón multicapa" se aplicó posteriormente sin tener en cuenta la naturaleza de los nodos / capas, que pueden estar compuestos por neuronas artificiales definidas arbitrariamente, y no por perceptrones específicamente. Esta interpretación evita la flexibilización de la definición de "perceptrón" para referirse a una neurona artificial en general.

Aplicaciones

Los MLP son útiles en la investigación por su capacidad para resolver problemas estocásticamente, lo que a menudo permite soluciones aproximadas para problemas extremadamente complejos como la aproximación de aptitud .

Los MLP son aproximadores de funciones universales, como lo muestra el teorema de Cybenko , por lo que pueden usarse para crear modelos matemáticos mediante análisis de regresión. Como la clasificación es un caso particular de regresión cuando la variable de respuesta es categórica , los MLP son buenos algoritmos de clasificación.

Los MLP fueron una solución de aprendizaje automático popular en la década de 1980, encontrando aplicaciones en diversos campos como el reconocimiento de voz , el reconocimiento de imágenes y el software de traducción automática , pero a partir de entonces se enfrentaron a una fuerte competencia de máquinas de vectores de soporte mucho más simples (y relacionadas) . El interés en las redes de retropropagación regresó debido a los éxitos del aprendizaje profundo .

Referencias

enlaces externos