Modelo lineal generalizado - Generalized linear model

En estadística , un modelo lineal generalizado ( GLM ) es una generalización flexible de la regresión lineal ordinaria que permite que la variable de respuesta tenga una distribución de error distinta a la distribución normal . El GLM generaliza la regresión lineal al permitir que el modelo lineal se relacione con la variable de respuesta a través de una función de enlace y al permitir que la magnitud de la varianza de cada medición sea una función de su valor predicho.

John Nelder y Robert Wedderburn formularon modelos lineales generalizados como una forma de unificar varios otros modelos estadísticos, incluida la regresión lineal , la regresión logística y la regresión de Poisson . Propusieron un método de mínimos cuadrados reponderados iterativamente para la estimación de máxima verosimilitud de los parámetros del modelo. La estimación de máxima verosimilitud sigue siendo popular y es el método predeterminado en muchos paquetes de computación estadística. Se han desarrollado otros enfoques, incluidos los enfoques bayesianos y los ajustes por mínimos cuadrados a las respuestas estabilizadas por varianza .

Intuición

La regresión lineal ordinaria predice el valor esperado de una determinada cantidad desconocida (la variable de respuesta , una variable aleatoria ) como una combinación lineal de un conjunto de valores observados ( predictores ). Esto implica que un cambio constante en un predictor conduce a un cambio constante en la variable de respuesta (es decir, un modelo de respuesta lineal ). Esto es apropiado cuando la variable de respuesta puede variar, con una buena aproximación, indefinidamente en cualquier dirección, o más generalmente para cualquier cantidad que solo varía en una cantidad relativamente pequeña en comparación con la variación en las variables predictivas, por ejemplo, la altura humana.

Sin embargo, estos supuestos son inapropiados para algunos tipos de variables de respuesta. Por ejemplo, en los casos en los que se espera que la variable de respuesta sea siempre positiva y varíe en un amplio rango, los cambios de entrada constantes conducen a cambios de salida geométricamente (es decir, exponencialmente) que varían, en lugar de variar constantemente. Como ejemplo, suponga que un modelo de predicción lineal aprende de algunos datos (quizás extraídos principalmente de playas grandes) que una disminución de la temperatura de 10 grados conduciría a que 1,000 personas menos visiten la playa. Es poco probable que este modelo se generalice bien en playas de diferentes tamaños. Más específicamente, el problema es que si usa el modelo para predecir la nueva asistencia con una caída de temperatura de 10 para una playa que recibe regularmente a 50 bañistas, podría predecir un valor de asistencia imposible de −950. Lógicamente, un modelo más realista predeciría en cambio una tasa constante de aumento de la asistencia a la playa (por ejemplo, un aumento de 10 grados conduce a una duplicación de la asistencia a la playa, y una caída de 10 grados conduce a una reducción a la mitad). Tal modelo se denomina modelo de respuesta exponencial (o modelo log-lineal , ya que se predice que el logaritmo de la respuesta varía linealmente).

De manera similar, un modelo que predice una probabilidad de hacer una elección sí / no (una variable de Bernoulli ) es incluso menos adecuado como modelo de respuesta lineal, ya que las probabilidades están limitadas en ambos extremos (deben estar entre 0 y 1). Imagine, por ejemplo, un modelo que predice la probabilidad de que una persona determinada vaya a la playa en función de la temperatura. Un modelo razonable podría predecir, por ejemplo, que un cambio de 10 grados hace que una persona tenga dos veces más o menos probabilidades de ir a la playa. Pero, ¿qué significa "el doble de probabilidad" en términos de probabilidad? No puede significar literalmente duplicar el valor de probabilidad (por ejemplo, el 50% se convierte en 100%, el 75% se convierte en 150%, etc.). Más bien, es las probabilidades que se Duplicar de 2: 1 probabilidades, a 4: 1 probabilidades, a 8: 1 odds, etc. Tal modelo es un diario de probabilidades o logística modelo .

Los modelos lineales generalizados cubren todas estas situaciones al permitir que las variables de respuesta que tienen distribuciones arbitrarias (en lugar de distribuciones simplemente normales ), y que una función arbitraria de la variable de respuesta (la función de enlace ) varíe linealmente con los predictores (en lugar de suponer que el la respuesta en sí debe variar linealmente). Por ejemplo, el caso anterior del número predicho de asistentes a la playa se modelaría típicamente con una distribución de Poisson y un enlace de registro, mientras que el caso de probabilidad predicha de asistencia a la playa se modelaría típicamente con una distribución de Bernoulli (o distribución binomial , dependiendo exactamente de cómo se expresa el problema) y una función de enlace log-odds (o logit ).

Visión general

En un modelo lineal generalizado (GLM), se supone que cada resultado Y de las variables dependientes se genera a partir de una distribución particular en una familia exponencial , una gran clase de distribuciones de probabilidad que incluye las distribuciones normal , binomial , de Poisson y gamma , entre otras. . La media, μ , de la distribución depende de las variables independientes, X , a través de:

donde E ( Y | X ) es el valor esperado de Y condicionado a X ; X β es el predictor lineal , una combinación lineal de parámetros desconocidos β ; g es la función de enlace.

En este marco, la varianza es típicamente una función, V , de la media:

Es conveniente si V se sigue de una familia exponencial de distribuciones, pero puede ser simplemente que la varianza sea una función del valor predicho.

Los parámetros desconocidos, β , se estiman típicamente con máxima probabilidad , máxima cuasi verosimilitud o técnicas bayesianas .

Componentes del modelo

El GLM consta de tres elementos:

1. Una familia exponencial de distribuciones de probabilidad.
2. Un predictor lineal
3. Una función de enlace tal que

Distribución de probabilidad

Una familia de distribuciones exponenciales sobredispersas es una generalización de una familia exponencial y el modelo de distribuciones de dispersión exponencial e incluye aquellas familias de distribuciones de probabilidad, parametrizadas por y , cuyas funciones de densidad f (o función de masa de probabilidad , para el caso de una distribución discreta ) se puede expresar en la forma

El parámetro de dispersión , , típicamente se conoce y por lo general se relaciona con la varianza de la distribución. Las funciones , , , , y son conocidos. Muchas distribuciones comunes están en esta familia, incluidas la normal, exponencial, gamma, Poisson, Bernoulli y (para un número fijo de ensayos) binomial, multinomial y binomial negativa.

Para escalar y (denotado y en este caso), esto se reduce a

está relacionado con la media de la distribución. Si es la función de identidad, entonces se dice que la distribución está en forma canónica (o forma natural ). Tenga en cuenta que cualquier distribución se puede convertir a forma canónica reescribiendo como y luego aplicando la transformación . Siempre es posible convertir en términos de la nueva parametrización, incluso si no es una función uno a uno ; ver comentarios en la página sobre familias exponenciales . Si, además, es la identidad y se conoce, entonces se denomina parámetro canónico (o parámetro natural ) y se relaciona con la media mediante

Para escalar y , esto se reduce a

En este escenario, se puede demostrar que la varianza de la distribución es

Para escalar y , esto se reduce a

Predictor lineal

El predictor lineal es la cantidad que incorpora la información sobre las variables independientes en el modelo. El símbolo η ( griego " eta ") denota un predictor lineal. Está relacionado con el valor esperado de los datos a través de la función de enlace.

η se expresa como combinaciones lineales (por tanto, "lineal") de parámetros desconocidos β . Los coeficientes de la combinación lineal se representan como la matriz de variables independientes X . η puede entonces expresarse como

Función de enlace

La función de enlace proporciona la relación entre el predictor lineal y la media de la función de distribución. Hay muchas funciones de enlace de uso común y su elección se basa en varias consideraciones. Siempre hay una función de enlace canónica bien definida que se deriva del exponencial de la función de densidad de la respuesta . Sin embargo, en algunos casos tiene sentido intentar hacer coincidir el dominio de la función de enlace con el rango de la media de la función de distribución, o utilizar una función de enlace no canónica con fines algorítmicos, por ejemplo, la regresión probit bayesiana .

Cuando se usa una función de distribución con un parámetro canónico , la función de enlace canónico es la función que se expresa en términos de , es decir . Para las distribuciones más comunes, la media es uno de los parámetros en la forma estándar de la función de densidad de la distribución , y luego es la función definida anteriormente la que mapea la función de densidad en su forma canónica. Cuando se utiliza la función de enlace canónico , que permite ser una estadística suficiente para .

A continuación se muestra una tabla de varias distribuciones de familias exponenciales de uso común y los datos para los que se usan típicamente, junto con las funciones de enlace canónicas y sus inversas (a veces denominadas función media, como se hace aquí).

Distribuciones comunes con usos típicos y funciones de enlace canónico
Distribución Soporte de distribución Usos típicos Nombre del enlace Función de enlace, Función media
Normal verdadero: Datos de respuesta lineal Identidad
Exponencial verdadero: Datos de respuesta exponencial, parámetros de escala Inversa negativa
Gama

Gaussiano inverso
verdadero: Inverso al
cuadrado
Poisson entero: recuento de ocurrencias en una cantidad fija de tiempo / espacio Tronco
Bernoulli entero: resultado de una sola ocurrencia sí / no Logit
Binomio entero: recuento de # de ocurrencias "sí" de N ocurrencias sí / no
Categórico entero: resultado de la aparición de una vía K única
K-vector de integer : , donde exactamente un elemento en el vector tiene el valor 1
Multinomial K -vector de entero: recuento de ocurrencias de diferentes tipos (1 .. K ) de un total de N ocurrencias de K vías

En los casos de distribuciones exponenciales y gamma, el dominio de la función de enlace canónico no es el mismo que el rango permitido de la media. En particular, el predictor lineal puede ser positivo, lo que daría una media negativa imposible. Al maximizar la probabilidad, se deben tomar precauciones para evitarlo. Una alternativa es utilizar una función de enlace no canónica.

En el caso de las distribuciones Bernoulli, binomial, categórica y multinomial, el soporte de las distribuciones no es el mismo tipo de datos que el parámetro que se predice. En todos estos casos, el parámetro predicho es una o más probabilidades, es decir, números reales en el rango . El modelo resultante se conoce como regresión logística (o regresión logística multinomial en el caso de que se predigan valores de K-way en lugar de binarios).

Para las distribuciones de Bernoulli y binomial, el parámetro es una probabilidad única, que indica la probabilidad de que ocurra un solo evento. El Bernoulli aún satisface la condición básica del modelo lineal generalizado en el sentido de que, aunque un único resultado siempre será 0 o 1, el valor esperado será, no obstante, una probabilidad real, es decir, la probabilidad de que ocurra un "sí". (o 1) resultado. De manera similar, en una distribución binomial, el valor esperado es Np , es decir, la proporción esperada de resultados "sí" será la probabilidad a predecir.

Para distribuciones categóricas y multinomiales, el parámetro a predecir es un K -vector de probabilidades, con la restricción adicional de que todas las probabilidades deben sumar 1. Cada probabilidad indica la probabilidad de ocurrencia de uno de los K valores posibles. Para la distribución multinomial, y para la forma vectorial de la distribución categórica, los valores esperados de los elementos del vector pueden relacionarse con las probabilidades predichas de manera similar a las distribuciones binomial y de Bernoulli.

Adecuado

Máxima verosimilitud

Las estimaciones de máxima verosimilitud se pueden encontrar utilizando un algoritmo de mínimos cuadrados reponderados iterativamente o un método de Newton con actualizaciones de la forma:

donde es la matriz de información observada (el negativo de la matriz de Hesse ) y es la función de puntuación ; o un método de puntuación de Fisher :

donde está la matriz de información de Fisher . Tenga en cuenta que si se utiliza la función de enlace canónico, son iguales.

Métodos bayesianos

En general, la distribución posterior no se puede encontrar en forma cerrada y, por lo tanto, debe aproximarse, generalmente utilizando aproximaciones de Laplace o algún tipo de método de Monte Carlo de cadena de Markov , como el muestreo de Gibbs .

Ejemplos de

Modelos lineales generales

Un posible punto de confusión tiene que ver con la distinción entre modelos lineales generalizados y modelos lineales generales , dos modelos estadísticos amplios. El co-creador John Nelder ha expresado su pesar por esta terminología.

El modelo lineal general puede verse como un caso especial del modelo lineal generalizado con un vínculo de identidad y respuestas normalmente distribuidas. Como la mayoría de los resultados exactos de interés se obtienen solo para el modelo lineal general, el modelo lineal general ha experimentado un desarrollo histórico algo más largo. Los resultados del modelo lineal generalizado sin vínculo de identidad son asintóticos (tienden a funcionar bien con muestras grandes).

Regresión lineal

Un ejemplo simple y muy importante de un modelo lineal generalizado (también un ejemplo de un modelo lineal general) es la regresión lineal . En la regresión lineal, el uso del estimador de mínimos cuadrados está justificado por el teorema de Gauss-Markov , que no supone que la distribución sea normal.

Sin embargo, desde la perspectiva de los modelos lineales generalizados, es útil suponer que la función de distribución es la distribución normal con varianza constante y la función de vínculo es la identidad, que es el vínculo canónico si se conoce la varianza.

Para la distribución normal, el modelo lineal generalizado tiene una expresión de forma cerrada para las estimaciones de máxima verosimilitud, lo cual es conveniente. La mayoría de los demás GLM carecen de estimaciones de forma cerrada .

Datos binarios

Cuando los datos de respuesta, Y , son binarios (tomando solo los valores 0 y 1), la función de distribución generalmente se elige como la distribución de Bernoulli y la interpretación de μ i es entonces la probabilidad, p , de que Y i tome el valor uno.

Hay varias funciones de enlace populares para funciones binomiales.

Función de enlace logit

La función de enlace más típica es el enlace logit canónico :

Los GLM con esta configuración son modelos de regresión logística (o modelos logit ).

Función de enlace probit como opción popular de función de distribución acumulativa inversa

Alternativamente, se puede usar la inversa de cualquier función de distribución acumulativa continua (CDF) para el enlace, ya que el rango de CDF es el rango de la media binomial. El CDF normal es una opción popular y produce el modelo probit . Su enlace es

El motivo del uso del modelo probit es que un escalado constante de la variable de entrada a un CDF normal (que se puede absorber mediante un escalado equivalente de todos los parámetros) produce una función que es prácticamente idéntica a la función logit, pero probit los modelos son más manejables en algunas situaciones que los modelos logit. (En un entorno bayesiano en el que las distribuciones previas normalmente distribuidas se colocan en los parámetros, la relación entre las anteriores normales y la función de enlace CDF normal significa que un modelo probit se puede calcular utilizando el muestreo de Gibbs , mientras que un modelo logit generalmente no).

Log-log complementario (cloglog)

La función complementaria log-log también se puede utilizar:

Esta función de enlace es asimétrica y, a menudo, producirá resultados diferentes de las funciones de enlace logit y probit. El modelo de obstrucción corresponde a aplicaciones en las que observamos cero eventos (por ejemplo, defectos) o uno o más, donde se supone que el número de eventos sigue la distribución de Poisson . La suposición de Poisson significa que

donde μ es un número positivo que indica el número esperado de eventos. Si p representa la proporción de observaciones con al menos un evento, su complemento

y luego

Un modelo lineal requiere que la variable de respuesta tome valores en toda la línea real. Dado que μ debe ser positivo, podemos aplicarlo tomando el logaritmo y dejando que log ( μ ) sea un modelo lineal. Esto produce la transformación "cloglog"

Enlace de identidad

El vínculo de identidad g (p) = p también se usa a veces para datos binomiales para producir un modelo de probabilidad lineal . Sin embargo, el vínculo de identidad puede predecir "probabilidades" absurdas menores que cero o mayores que uno. Esto se puede evitar utilizando una transformación como cloglog, probit o logit (o cualquier función de distribución acumulativa inversa). Un mérito principal del enlace de identidad es que se puede estimar usando matemáticas lineales, y otras funciones de enlace estándar son aproximadamente lineales que coinciden con el enlace de identidad cerca de p = 0.5.

Función de varianza

La función de varianza para "los datos cuasibinomiales "son:

donde el parámetro de dispersión τ es exactamente 1 para la distribución binomial. De hecho, la probabilidad binomial estándar omite τ . Cuando está presente, el modelo se llama "cuasibinomial" y la probabilidad modificada se llama cuasi-verosimilitud , ya que generalmente no es la probabilidad correspondiente a ninguna familia real de distribuciones de probabilidad. Si τ excede de 1, se dice que el modelo exhibe una dispersión excesiva .

Regresión multinomial

El caso binomial puede extenderse fácilmente para permitir una distribución multinomial como respuesta (también, un modelo lineal generalizado para recuentos, con un total restringido). Hay dos formas en las que esto se suele hacer:

Respuesta ordenada

Si la variable de respuesta es ordinal , entonces se puede ajustar una función modelo de la forma:

para m > 2. Diferentes vínculos g conducen a modelos de regresión ordinal como modelos de probabilidades proporcionales o modelos probit ordenados .

Respuesta desordenada

Si la variable de respuesta es una medida nominal , o los datos no satisfacen los supuestos de un modelo ordenado, se puede ajustar un modelo de la siguiente forma:

para m > 2. Diferentes enlaces g conducen a modelos logit multinomial o probit multinomial . Estos son más generales que los modelos de respuesta ordenada y se estiman más parámetros.

Contar datos

Otro ejemplo de modelos lineales generalizados incluye la regresión de Poisson, cuyos modelos cuentan los datos utilizando la distribución de Poisson . El enlace suele ser el logaritmo, el enlace canónico.

La función de varianza es proporcional a la media

donde el parámetro de dispersión τ se fija típicamente exactamente en uno. Cuando no lo es, el modelo de cuasi-verosimilitud resultante se describe a menudo como Poisson con sobredispersión o cuasi-Poisson .

Extensiones

Datos correlacionados o agrupados

El GLM estándar asume que las observaciones no están correlacionadas . Se han desarrollado extensiones para permitir la correlación entre observaciones, como ocurre, por ejemplo, en estudios longitudinales y diseños agrupados:

  • Las ecuaciones de estimación generalizadas (GEE) permiten la correlación entre observaciones sin el uso de un modelo de probabilidad explícito para el origen de las correlaciones, por lo que no existe una probabilidad explícita. Son adecuados cuando los efectos aleatorios y sus varianzas no son de interés inherente, ya que permiten la correlación sin explicar su origen. La atención se centra en estimar la respuesta promedio sobre la población (efectos "promediados de la población") en lugar de los parámetros de regresión que permitirían predecir el efecto de cambiar uno o más componentes de X en un individuo dado. Los GEE se suelen utilizar junto con los errores estándar de Huber-White .
  • Los modelos mixtos lineales generalizados (GLMM) son una extensión de los GLM que incluyen efectos aleatorios en el predictor lineal, lo que proporciona un modelo de probabilidad explícito que explica el origen de las correlaciones. Las estimaciones de los parámetros "específicos del sujeto" resultantes son adecuadas cuando el enfoque está en estimar el efecto de cambiar uno o más componentes de X en un individuo dado. Los GLMM también se denominan modelos multinivel y modelo mixto . En general, ajustar GLMM es más complejo e intensivo desde el punto de vista informático que ajustar GEE.

Modelos aditivos generalizados

Los modelos aditivos generalizados (GAM) son otra extensión de los GLM en los que el predictor lineal η no está restringido a ser lineal en las covariables X, sino que es la suma de las funciones de suavizado aplicadas a x i s:

Las funciones de suavizado f i se estiman a partir de los datos. En general, esto requiere una gran cantidad de puntos de datos y es computacionalmente intensivo.

Ver también

Referencias

Citas

Bibliografía

Otras lecturas

enlaces externos