Regresión logística multinomial - Multinomial logistic regression

En estadística , la regresión logística multinomial es un método de clasificación que generaliza la regresión logística a problemas multiclase , es decir, con más de dos posibles resultados discretos. Es decir, es un modelo que se utiliza para predecir las probabilidades de los diferentes resultados posibles de una variable dependiente distribuida categóricamente , dado un conjunto de variables independientes (que pueden ser de valor real, binario, categórico, etc. ).

La regresión logística multinomial se conoce con una variedad de otros nombres, que incluyen LR politómico , LR multiclase , regresión softmax , logit multinomial ( mlogit ), clasificador de entropía máxima ( MaxEnt ) y modelo de entropía máxima condicional .

Fondo

La regresión logística multinomial se utiliza cuando la variable dependiente en cuestión es nominal (equivalentemente categórica , lo que significa que cae en cualquiera de un conjunto de categorías que no se pueden ordenar de manera significativa) y para la cual hay más de dos categorías. Algunos ejemplos serían:

  • ¿Qué especialización elegirá un estudiante universitario, dadas sus calificaciones, gustos y disgustos declarados, etc.?
  • ¿Qué tipo de sangre tiene una persona, dados los resultados de varias pruebas de diagnóstico?
  • En una aplicación de marcación de teléfono móvil de manos libres, ¿qué nombre de persona se pronunció, dadas las diversas propiedades de la señal de voz?
  • ¿A qué candidato votará una persona, dadas las características demográficas particulares?
  • ¿En qué país ubicará una oficina una oficina, dadas las características de la empresa y de los distintos países candidatos?

Todos estos son problemas de clasificación estadística . Todos ellos tienen en común una variable dependiente a predecir que proviene de uno de un conjunto limitado de elementos que no se pueden ordenar de manera significativa, así como un conjunto de variables independientes (también conocidas como características, explicadores, etc.), que se utilizan para predecir la variable dependiente. La regresión logística multinomial es una solución particular a los problemas de clasificación que utilizan una combinación lineal de las características observadas y algunos parámetros específicos del problema para estimar la probabilidad de cada valor particular de la variable dependiente. Los mejores valores de los parámetros para un problema dado generalmente se determinan a partir de algunos datos de entrenamiento (por ejemplo, algunas personas para quienes se conocen tanto los resultados de las pruebas de diagnóstico como los tipos de sangre, o algunos ejemplos de palabras conocidas que se pronuncian).

Supuestos

El modelo logístico multinomial asume que los datos son específicos de cada caso; es decir, cada variable independiente tiene un valor único para cada caso. El modelo logístico multinomial también asume que la variable dependiente no puede predecirse perfectamente a partir de las variables independientes en ningún caso. Al igual que con otros tipos de regresión, no es necesario que las variables independientes sean estadísticamente independientes entre sí (a diferencia de, por ejemplo, en un clasificador de Bayes ingenuo ); sin embargo, se asume que la colinealidad es relativamente baja, ya que se vuelve difícil diferenciar entre el impacto de varias variables si este no es el caso.

Si se utiliza el logit multinomial para modelar elecciones, se basa en el supuesto de independencia de alternativas irrelevantes (IIA), lo que no siempre es deseable. Este supuesto establece que las probabilidades de preferir una clase sobre otra no dependen de la presencia o ausencia de otras alternativas "irrelevantes". Por ejemplo, las probabilidades relativas de ir al trabajo en automóvil o autobús no cambian si se agrega una bicicleta como posibilidad adicional. Esto permite modelar la elección de K alternativas como un conjunto de K -1 opciones binarias independientes, en el que una alternativa se elige como un "pivote" y la otra K -1 se compara con ella, una a la vez. La hipótesis IIA es una hipótesis central en la teoría de la elección racional; sin embargo, numerosos estudios en psicología muestran que los individuos a menudo violan esta suposición al tomar decisiones. Un ejemplo de caso problemático surge si las opciones incluyen un automóvil y un autobús azul. Suponga que la razón de probabilidades entre los dos es 1: 1. Ahora bien, si se introduce la opción de un autobús rojo, una persona puede ser indiferente entre un autobús rojo y uno azul y, por lo tanto, puede exhibir una razón de probabilidades de automóvil: autobús azul: autobús rojo de 1: 0,5: 0,5, manteniendo así una relación de coche: cualquier autobús de 1: 1 mientras se adopta una relación de coche cambiado: autobús azul de 1: 0,5. Aquí, la opción del autobús rojo no era irrelevante, porque un autobús rojo era un sustituto perfecto del autobús azul.

Si se utiliza el logit multinomial para modelar elecciones, en algunas situaciones puede imponer demasiadas restricciones a las preferencias relativas entre las diferentes alternativas. Es especialmente importante tener en cuenta este punto si el análisis tiene como objetivo predecir cómo cambiarían las opciones si una alternativa desapareciera (por ejemplo, si un candidato político se retira de una carrera de tres candidatos). Otros modelos, como el logit anidado o el probit multinomial, pueden usarse en tales casos, ya que permiten la violación del IIA.

Modelo

Introducción

Existen múltiples formas equivalentes de describir el modelo matemático subyacente a la regresión logística multinomial. Esto puede dificultar la comparación de diferentes tratamientos del tema en diferentes textos. El artículo sobre regresión logística presenta una serie de formulaciones equivalentes de regresión logística simple, y muchas de ellas tienen análogos en el modelo logit multinomial.

La idea detrás de todas ellas, como en muchas otras técnicas de clasificación estadística , es construir una función de predicción lineal que construya una puntuación a partir de un conjunto de ponderaciones que se combinan linealmente con las variables explicativas (características) de una observación dada utilizando un producto escalar. :

donde X i es el vector de variables explicativas que describen la observación i , β k es un vector de ponderaciones (o coeficientes de regresión ) correspondientes al resultado k , y la puntuación ( X i , k ) es la puntuación asociada con la asignación de la observación i a la categoría k . En la teoría de la elección discreta , donde las observaciones representan personas y los resultados representan elecciones, la puntuación se considera la utilidad asociada con la persona i que elige el resultado k . El resultado previsto es el que tiene la puntuación más alta.

La diferencia entre el modelo logit multinomial y muchos otros métodos, modelos, algoritmos, etc. con la misma configuración básica (el algoritmo de perceptrón , máquinas de vectores de soporte , análisis discriminante lineal , etc.) es el procedimiento para determinar (entrenar) los pesos óptimos. / coeficientes y la forma en que se interpreta la puntuación. En particular, en el modelo logit multinomial, la puntuación puede directamente ser convertido a un valor de probabilidad, que indica la probabilidad de observación i elegir resultado k dado las características medidas de la observación. Esto proporciona una forma basada en principios de incorporar la predicción de un modelo logit multinomial particular en un procedimiento más amplio que puede involucrar múltiples predicciones, cada una con una posibilidad de error. Sin estos medios de combinar predicciones, los errores tienden a multiplicarse. Por ejemplo, imagine un modelo predictivo grande que se divide en una serie de submodelos donde la predicción de un submodelo dado se usa como entrada de otro submodelo, y esa predicción a su vez se usa como entrada en un tercer submodelo, etc. Si cada submodelo tiene un 90% de precisión en sus predicciones y hay cinco submodelos en serie, entonces el modelo general tiene solo 0,9 5 = 59% de precisión. Si cada submodelo tiene una precisión del 80%, la precisión general se reduce a 0,8 5 = 33% de precisión. Este problema se conoce como propagación de errores y es un problema grave en los modelos predictivos del mundo real, que generalmente se componen de numerosas partes. Predecir las probabilidades de cada resultado posible, en lugar de simplemente hacer una única predicción óptima, es una forma de aliviar este problema.

Configuración

La configuración básica es la misma que en la regresión logística , con la única diferencia de que las variables dependientes son categóricas en lugar de binarias , es decir, hay K resultados posibles en lugar de solo dos. La siguiente descripción está algo abreviada; para más detalles, consulte el artículo de regresión logística .

Puntos de datos

Específicamente, se supone que tenemos una serie de N puntos de datos observados. Cada punto de datos i (que va de 1 a N ) consta de un conjunto de M variables explicativas x 1, i ... x M, i (también conocidas como variables independientes , variables predictoras, características, etc.) y un resultado categórico asociado Y i (también conocida como variable dependiente , variable de respuesta), que puede tomar uno de los K valores posibles. Estos valores posibles representan categorías lógicamente separadas (por ejemplo, partidos políticos diferentes, tipos de sangre, etc.), y con frecuencia se describen matemáticamente mediante la asignación arbitraria cada uno un número de 1 a K . Las variables explicativas y el resultado representan propiedades observadas de los puntos de datos y, a menudo, se piensa que se originan en las observaciones de N "experimentos", aunque un "experimento" puede consistir en nada más que recopilar datos. El objetivo de la regresión logística multinomial es construir un modelo que explique la relación entre las variables explicativas y el resultado, de modo que el resultado de un nuevo "experimento" pueda predecirse correctamente para un nuevo punto de datos para el cual las variables explicativas, pero no el resultado, están disponibles. En el proceso, el modelo intenta explicar el efecto relativo de las diferentes variables explicativas sobre el resultado.

Algunos ejemplos:

  • Los resultados observados son diferentes variantes de una enfermedad como la hepatitis (posiblemente incluyendo "no enfermedad" y / u otras enfermedades relacionadas) en un conjunto de pacientes, y las variables explicativas pueden ser características de los pacientes que se consideran pertinentes (sexo, raza , edad, presión arterial , resultados de diversas pruebas de función hepática, etc.). Entonces, el objetivo es predecir qué enfermedad está causando los síntomas relacionados con el hígado observados en un nuevo paciente.
  • Los resultados observados son el partido elegido por un conjunto de personas en una elección, y las variables explicativas son las características demográficas de cada persona (por ejemplo, sexo, raza, edad, ingresos, etc.). Entonces, el objetivo es predecir el voto probable de un nuevo votante con determinadas características.

Predictor lineal

Como en otras formas de regresión lineal, la regresión logística multinomial utiliza una función de predicción lineal para predecir la probabilidad de que la observación i tenga el resultado k , de la siguiente forma:

donde es un coeficiente de regresión asociado con la m ésima variable explicativa y el k ésimo resultado. Como se explica en el artículo de regresión logística , los coeficientes de regresión y las variables explicativas normalmente se agrupan en vectores de tamaño M + 1 , de modo que la función predictora se puede escribir de forma más compacta:

donde es el conjunto de coeficientes de regresión asociados con el resultado k , y (un vector de fila) es el conjunto de variables explicativas asociadas con la observación i .

Como un conjunto de regresiones binarias independientes

Para llegar al modelo logit multinomial, uno puede imaginar, para K resultados posibles, ejecutar modelos de regresión logística binaria independientes de K -1, en los que un resultado se elige como un "pivote" y luego los otros resultados K -1 se retroceden por separado contra el resultado pivote. Esto procedería de la siguiente manera, si se elige el resultado K (el último resultado) como pivote:

Esta formulación también se conoce como la transformada alr comúnmente utilizada en el análisis de datos de composición. Tenga en cuenta que hemos introducido conjuntos separados de coeficientes de regresión, uno para cada resultado posible.

Si exponenciamos ambos lados y resolvemos las probabilidades, obtenemos:

Usando el hecho de que todos los K de las probabilidades deben sumar uno, encontramos:

Podemos usar esto para encontrar las otras probabilidades:

El hecho de que ejecutemos regresiones múltiples revela por qué el modelo se basa en el supuesto de independencia de las alternativas irrelevantes descritas anteriormente.

Estimando los coeficientes

Los parámetros desconocidos en cada vector β k se estiman típicamente conjuntamente mediante la estimación máxima a posteriori (MAP), que es una extensión de la máxima verosimilitud utilizando la regularización de los pesos para evitar soluciones patológicas (generalmente una función de regularización al cuadrado, que es equivalente a colocar una distribución previa gaussiana de media cero en los pesos, pero también son posibles otras distribuciones). La solución se encuentra típicamente usando un procedimiento iterativo como el escalado iterativo generalizado , mínimos cuadrados reponderados iterativamente (IRLS), por medio de algoritmos de optimización basados ​​en gradientes como L-BFGS , o por algoritmos especializados de descenso de coordenadas .

Como modelo log-lineal

La formulación de la regresión logística binaria como un modelo log-lineal puede extenderse directamente a la regresión multidireccional. Es decir, modelamos el logaritmo de la probabilidad de ver una salida dada usando el predictor lineal, así como un factor de normalización adicional , el logaritmo de la función de partición :

Como en el caso binario, necesitamos un término adicional para asegurarnos de que todo el conjunto de probabilidades forme una distribución de probabilidad , es decir, para que todas sumen uno:

La razón por la que necesitamos agregar un término para asegurar la normalización, en lugar de multiplicar como es habitual, es porque hemos tomado el logaritmo de las probabilidades. Exponenciar ambos lados convierte el término aditivo en un factor multiplicativo, de modo que la probabilidad es solo la medida de Gibbs :

La cantidad Z se denomina función de partición para la distribución. Podemos calcular el valor de la función de partición aplicando la restricción anterior que requiere que todas las probabilidades sumen 1:

Por lo tanto:

Tenga en cuenta que este factor es "constante" en el sentido de que no es una función de Y i , que es la variable sobre la que se define la distribución de probabilidad. Sin embargo, definitivamente no es constante con respecto a las variables explicativas, o crucialmente, con respecto a los coeficientes de regresión desconocidos β k , que tendremos que determinar mediante algún tipo de procedimiento de optimización .

Las ecuaciones resultantes para las probabilidades son

O en general:

La siguiente función:

se conoce como la función softmax . La razón es que el efecto de exponencializar los valores es exagerar las diferencias entre ellos. Como resultado, devolverá un valor cercano a 0 siempre que sea ​​significativamente menor que el máximo de todos los valores, y devolverá un valor cercano a 1 cuando se aplique al valor máximo, a menos que esté extremadamente cerca del siguiente valor más grande. Por lo tanto, la función softmax se puede utilizar para construir un promedio ponderado que se comporte como una función suave (que se pueda diferenciar convenientemente , etc.) y que se aproxime a la función del indicador.

Por tanto, podemos escribir las ecuaciones de probabilidad como

Por tanto, la función softmax sirve como equivalente de la función logística en la regresión logística binaria.

Tenga en cuenta que no todos los vectores de coeficientes son identificables de forma única . Esto se debe al hecho de que todas las probabilidades deben sumar 1, por lo que una de ellas está completamente determinada una vez que se conocen todas las demás. Como resultado, solo hay probabilidades especificables por separado y, por lo tanto, vectores de coeficientes identificables por separado. Una forma de ver esto es observar que si agregamos un vector constante a todos los vectores de coeficientes, las ecuaciones son idénticas:

Como resultado, es convencional establecer (o alternativamente, uno de los otros vectores de coeficientes). Básicamente, establecemos la constante para que uno de los vectores se convierta en 0 y todos los demás vectores se transformen en la diferencia entre esos vectores y el vector que elegimos. Esto es equivalente a "pivotar" alrededor de una de las K opciones, y examinar cuánto mejores o peores son todas las otras opciones K -1, en relación con la elección sobre la que estamos pivotando. Matemáticamente, transformamos los coeficientes de la siguiente manera:

Esto conduce a las siguientes ecuaciones:

Aparte de los símbolos primos en los coeficientes de regresión, esta es exactamente la misma que la forma del modelo descrito anteriormente, en términos de regresiones bidireccionales independientes de K -1.

Como modelo de variable latente

También es posible formular la regresión logística multinomial como un modelo de variable latente, siguiendo el modelo de variable latente bidireccional descrito para la regresión logística binaria. Esta formulación es común en la teoría de modelos de elección discreta y facilita la comparación de la regresión logística multinomial con el modelo probit multinomial relacionado , así como su extensión a modelos más complejos.

Imagine que, para cada punto de datos i y posible resultado k = 1,2, ..., K , hay una variable latente continua Y i, k * (es decir, una variable aleatoria no observada ) que se distribuye de la siguiente manera:

donde es decir, una distribución estándar de valores extremos de tipo 1 .

Esta variable latente se puede considerar como la utilidad asociada con el punto de datos i que elige el resultado k , donde existe cierta aleatoriedad en la cantidad real de utilidad obtenida, lo que explica otros factores no modelados que intervienen en la elección. El valor de la variable real se determina luego de una manera no aleatoria a partir de estas variables latentes (es decir, la aleatoriedad se ha movido de los resultados observados a las variables latentes), donde el resultado k se elige si y solo si la utilidad asociada (la valor de ) es mayor que las utilidades de todas las demás opciones, es decir, si la utilidad asociada con el resultado k es el máximo de todas las utilidades. Dado que las variables latentes son continuas , la probabilidad de que dos tengan exactamente el mismo valor es 0, por lo que ignoramos el escenario. Es decir:

O equivalente:

Veamos más de cerca la primera ecuación, que podemos escribir de la siguiente manera:

Hay algunas cosas a tener en cuenta aquí:

  1. En general, si y luego Es decir, la diferencia de dos variables distribuidas de valores extremos independientes distribuidas de forma idéntica sigue la distribución logística , donde el primer parámetro no es importante. Esto es comprensible ya que el primer parámetro es un parámetro de ubicación , es decir, cambia la media en una cantidad fija, y si dos valores se desplazan en la misma cantidad, su diferencia sigue siendo la misma. Esto significa que todos los enunciados relacionales que subyacen a la probabilidad de una elección dada involucran la distribución logística, lo que hace que la elección inicial de la distribución de valores extremos, que parecía bastante arbitraria, algo más comprensible.
  2. El segundo parámetro en una distribución logística o de valor extremo es un parámetro de escala , de modo que si entonces Esto significa que el efecto de usar una variable de error con un parámetro de escala arbitrario en lugar de la escala 1 puede compensarse simplemente multiplicando todos los vectores de regresión por la misma escala. Junto con el punto anterior, esto muestra que el uso de una distribución estándar de valores extremos (ubicación 0, escala 1) para las variables de error no implica una pérdida de generalidad sobre el uso de una distribución arbitraria de valores extremos. De hecho, el modelo no es identificable ( no hay un solo conjunto de coeficientes óptimos) si se usa la distribución más general.
  3. Debido a que solo se utilizan diferencias de vectores de coeficientes de regresión, la adición de una constante arbitraria a todos los vectores de coeficientes no tiene ningún efecto en el modelo. Esto significa que, al igual que en el modelo log-lineal, solo K -1 de los vectores de coeficientes son identificables, y el último se puede establecer en un valor arbitrario (por ejemplo, 0).

En realidad, encontrar los valores de las probabilidades anteriores es algo difícil y es un problema de calcular un estadístico de orden particular (el primero, es decir, el máximo) de un conjunto de valores. Sin embargo, se puede demostrar que las expresiones resultantes son las mismas que en las formulaciones anteriores, es decir, las dos son equivalentes.

Estimación de la intersección

Cuando se utiliza la regresión logística multinomial, se elige una categoría de la variable dependiente como categoría de referencia. Se determinan razones de probabilidades separadas para todas las variables independientes para cada categoría de la variable dependiente con la excepción de la categoría de referencia, que se omite del análisis. El coeficiente beta exponencial representa el cambio en las probabilidades de que la variable dependiente esté en una categoría particular con respecto a la categoría de referencia, asociada con un cambio de una unidad de la variable independiente correspondiente.

Aplicación en el procesamiento del lenguaje natural

En el procesamiento del lenguaje natural , los clasificadores LR multinomiales se usan comúnmente como una alternativa a los clasificadores Bayes ingenuos porque no asumen independencia estadística de las variables aleatorias (comúnmente conocidas como características ) que sirven como predictores. Sin embargo, el aprendizaje en un modelo de este tipo es más lento que para un clasificador de Bayes ingenuo y, por lo tanto, puede que no sea apropiado dado un gran número de clases para aprender. En particular, aprender en un clasificador Naive Bayes es una simple cuestión de contar el número de co-ocurrencias de características y clases, mientras que en un clasificador de máxima entropía los pesos, que típicamente se maximizan usando la estimación máxima a posteriori (MAP), deben aprender mediante un procedimiento iterativo; ver #Estimando los coeficientes .

Ver también

Referencias