Prueba omnibus - Omnibus test

Las pruebas ómnibus son una especie de prueba estadística . Ellos prueban si la varianza explicada en un conjunto de datos es significativamente mayor que la varianza inexplicada , en general. Un ejemplo es la prueba F en el análisis de varianza . Puede haber efectos significativos legítimos dentro de un modelo incluso si la prueba ómnibus no es significativa. Por ejemplo, en un modelo con dos variables independientes, si solo una variable ejerce un efecto significativo sobre la variable dependiente y la otra no, entonces la prueba ómnibus puede no ser significativa. Este hecho no afecta las conclusiones que puedan extraerse de la única variable significativa. Para probar los efectos dentro de una prueba ómnibus, los investigadores a menudo usancontrastes .

Además, la prueba Omnibus como nombre general se refiere a una prueba general o global. Otros nombres incluyen prueba F o prueba de chi-cuadrado .

La prueba ómnibus como prueba estadística se implementa sobre una hipótesis general que tiende a encontrar significancia general entre la varianza de los parámetros, mientras se examinan parámetros del mismo tipo, tales como: Hipótesis sobre igualdad vs. desigualdad entre k expectativas μ 1 = μ 2 =. .. = μ k  vs. al menos un par  μ j ≠ μ j '   , donde j, j' = 1, ..., k y j ≠ j ', en Análisis de varianza (ANOVA); o con respecto a la igualdad entre k desviaciones estándar  σ 1 = σ 2 = .... = σ k   vs. al menos un par  σ j ≠ σ j '   al probar la igualdad de varianzas en ANOVA; o con respecto a los coeficientes  β 1 = β 2 = .... = β k   vs. al menos un par β j ≠ β j '  en Regresión lineal múltiple o en Regresión logística .

Por lo general, prueba más de dos parámetros del mismo tipo y su función es encontrar el significado general de al menos uno de los parámetros involucrados.

Las pruebas ómnibus comúnmente se refieren a cualquiera de esas pruebas estadísticas:

  • Prueba ANOVA F para probar la significancia entre todas las medias de los factores y / o entre sus varianzas la igualdad en el procedimiento de Análisis de Varianza;
  • Prueba F omnibus multivariante en ANOVA con medidas repetidas;
  • Prueba F para la igualdad / desigualdad de los coeficientes de regresión en Regresión múltiple;
  • Prueba de chi-cuadrado para explorar diferencias de significancia entre bloques de variables explicativas independientes o sus coeficientes en una regresión logística.

Esas pruebas ómnibus generalmente se realizan siempre que uno tiende a probar una hipótesis general en una estadística cuadrática (como suma de cuadrados o varianza o covarianza) o estadística cuadrática racional (como la prueba F general de ANOVA en análisis de varianza o prueba F en análisis de covarianza o la prueba F en regresión lineal, o Chi-cuadrado en regresión logística).

Si bien la importancia se basa en la prueba ómnibus, no especifica exactamente dónde se produjo la diferencia, lo que significa que no especifica qué parámetro es significativamente diferente del otro, pero determina estadísticamente que hay una diferencia, por lo que al menos dos de los parámetros probados son estadísticamente diferentes. Si se cumplió con la significancia, ninguna de esas pruebas dirá específicamente qué media difiere de las demás (en ANOVA), qué coeficiente difiere de los demás (en Regresión), etc.

Pruebas ómnibus en análisis de varianza unidireccional

La prueba F en ANOVA es un ejemplo de una prueba ómnibus, que prueba la importancia general del modelo. Una prueba F significativa significa que entre las medias probadas, al menos dos de las medias son significativamente diferentes, pero este resultado no especifica exactamente qué medias son diferentes entre sí. En realidad, la prueba de las diferencias de medias se realiza mediante el estadístico F cuadrático racional (F = MSB / MSW). Para determinar qué media difiere de otra media o qué contraste de medias es significativamente diferente, se deben realizar pruebas Post Hoc (pruebas de comparación múltiple) o pruebas planificadas después de obtener una prueba ómnibus F significativa. Se puede considerar utilizar la corrección simple de Bonferroni u otra corrección adecuada. Otra prueba ómnibus que podemos encontrar en ANOVA es la prueba F para probar uno de los supuestos de ANOVA: la igualdad de varianza entre grupos. En ANOVA de una vía, por ejemplo, las hipótesis probadas por la prueba ómnibus F son:

H0: μ 1 = μ 2 = .... = μ k

H1: al menos un par μ j ≠ μ j '

Estas hipótesis examinan el ajuste del modelo del modelo más común: y ij = μ j + ε ij , donde y ij es la variable dependiente, μ j es la expectativa de la j-ésima variable independiente, que generalmente se denomina "expectativa de grupo" o "expectativa del factor"; y ε ij son los resultados de los errores al usar el modelo.

El estadístico F de la prueba ómnibus es: Donde, es la media de la muestra general , es la media de la muestra del grupo j, k es el número de grupos yn j es el tamaño de la muestra del grupo j.

El estadístico F se distribuye F (k-1, nk), (α) bajo el supuesto de hipótesis nula y de normalidad. La prueba F se considera robusta en algunas situaciones, incluso cuando no se cumple el supuesto de normalidad.

Supuestos del modelo en ANOVA unidireccional

  • Muestreo aleatorio.
  • Distribución normal o aproximadamente normal de en cada grupo.
  • Igualdad de variaciones entre grupos.

Si no se cumple el supuesto de igualdad de varianzas, se prefiere la prueba de Tamhane. Cuando se satisface esta suposición, podemos elegir entre varias pruebas. Aunque la LSD (Diferencia mínima significativa de Fisher) es una prueba muy sólida para detectar pares de diferencias de medias, se aplica solo cuando la prueba F es significativa y, en general, es menos preferible ya que su método falla en la protección de una baja tasa de error. La prueba de Bonferroni es una buena elección debido a la corrección que sugiere su método. Esta corrección establece que si se van a aplicar n pruebas independientes, entonces el α en cada prueba debe ser igual a α / n. El método de Tukey también es preferido por muchos estadísticos porque controla la tasa de error general. (Se puede encontrar más información sobre este tema en cualquier libro de ANOVA, como Diseño y análisis de experimentos de Douglas C. Montgomery). En tamaños de muestra pequeños, cuando no se cumple el supuesto de normalidad, se puede realizar un análisis de varianza no paramétrico mediante la prueba de Kruskal-Wallis, que es otro ejemplo de prueba ómnibus (consulte el siguiente ejemplo). Una opción alternativa es utilizar métodos de arranque para evaluar si las medias del grupo son diferentes. Los métodos de bootstrap no tienen supuestos de distribución específicos y pueden ser una herramienta apropiada para usar, como usar el remuestreo , que es uno de los métodos de bootstrap más simples. Puede extender la idea al caso de varios grupos y estimar los valores p .

Ejemplo

Se revisó una encuesta celular sobre el tiempo de espera de los clientes en 1.963 clientes diferentes durante 7 días en cada una de las 20 semanas consecutivas. Suponiendo que ninguno de los clientes llamó dos veces y ninguno de ellos tiene relaciones con los clientes entre sí, se ejecutó One Way ANOVA en SPSS para encontrar diferencias significativas entre los días de tiempo de espera:

ANOVA

Variable dependiente: minutos de tiempo para responder

Fuente Suma de cuadrados df Cuadrado medio F Sig.
Entre grupos   12823.921   6  2137.320 158.266 .000
Dentro de grupos   26414.958 1956  13.505
Total  39238.879 1962

Los resultados de la prueba ómnibus F ANOVA anteriores indican diferencias significativas entre los días de tiempo de espera (Valor P = 0.000 <0.05, α = 0.05).

El otro ómnibus probado fue el supuesto de igualdad de varianzas, probado por la prueba F de Levene:

Prueba de homogeneidad de varianzas

Variable dependiente: minutos de tiempo para responder

Estadística de Levene df1 df2 Sig.
  36.192 6 1956 .000

Los resultados sugieren que no se puede realizar el supuesto de igualdad de varianzas. En ese caso, la prueba de Tamhane se puede realizar en comparaciones Post Hoc.

Algunas observaciones y consideraciones importantes

Una prueba ómnibus F significativa en el procedimiento ANOVA es un requisito previo antes de realizar la comparación Post Hoc; de lo contrario, esas comparaciones no son necesarias. Si la prueba ómnibus no encuentra diferencias significativas entre todas las medias, significa que no se han encontrado diferencias entre ninguna combinación de las medias probadas. De este modo, protege el error de Tipo I familiar, que puede aumentar si se pasa por alto la prueba general. Se han producido algunos debates sobre la eficacia del ómnibus F Test en ANOVA.

En un artículo Review of Educational Research (66 (3), 269-306) que revisó Greg Hancock, se discuten esos problemas:

William B. Ware (1997) afirma que la significancia de la prueba ómnibus se requiere dependiendo de la prueba Post Hoc que se realice o planifique: "... El HSD de Tukey y el procedimiento de Scheffé son procedimientos de un solo paso y se pueden realizar sin que el ómnibus F tenga que hacerlo. Son pruebas "a posteriori", pero en este caso, "a posteriori" significa "sin conocimiento previo", como en "sin hipótesis específicas". Por otro lado, la prueba de diferencia mínima significativa de Fisher es una prueba de dos pasos procedimiento. No debe hacerse sin que el estadístico F general sea significativo ".

William B. Ware (1997) argumentó que hay una serie de problemas asociados con el requisito de un rechazo de la prueba ómnibus antes de realizar comparaciones múltiples. Hancock está de acuerdo con ese enfoque y considera que el requisito general de ANOVA para realizar las pruebas planificadas es una prueba innecesaria y un obstáculo potencialmente perjudicial, a menos que esté relacionado con el LSD de Fisher, que es una opción viable para k = 3 grupos.

Otra razón para relacionarse con la significación de la prueba ómnibus cuando se trata de proteger el error de Tipo I familiar .

Esta publicación "Revisión de la investigación educativa" analiza cuatro problemas en el requisito de la prueba ómnibus F:

Primero , en un estudio bien planeado, las preguntas del investigador involucran contrastes específicos de medias grupales, mientras que la prueba ómnibus, aborda cada pregunta solo tangencialmente y se usa más bien para facilitar el control sobre la tasa de error de Tipo I.

En segundo lugar , esta cuestión de control está relacionada con el segundo punto: la creencia de que una prueba ómnibus ofrece protección no es completamente precisa. Cuando la hipótesis nula completa es verdadera, la prueba ómnibus facilita un control débil del error de tipo I familiar; pero, cuando el nulo completo es falso y existen nulos parciales, la prueba F no mantiene un control fuerte sobre la tasa de error familiar.

Un tercer punto, que Games (1971) demostró en su estudio, es que la prueba F puede no ser completamente consistente con los resultados de un enfoque de comparación por pares. Considere, por ejemplo, un investigador que recibe instrucciones de realizar la prueba de Tukey solo si una prueba F de nivel alfa rechaza el nulo completo. Es posible que se rechace el nulo completo pero que los medios de rango más amplio no difieran significativamente. Este es un ejemplo de lo que se ha denominado no consonancia / disonancia (Gabriel, 1969) o incompatibilidad (Lehmann, 1957). Por otro lado, el nulo completo puede retenerse mientras que el nulo asociado con los medios de rango más amplio se habría rechazado si la estructura de decisión hubiera permitido que se probara. Gabriel (1969) se refiere a esto como incoherencia . Uno se pregunta si, de hecho, un practicante en esta situación simplemente realizaría el MCP en contra de la recomendación de la prueba ómnibus.

El cuarto argumento en contra de la implementación tradicional de un ómnibus F-test inicial se deriva del hecho de que su protección bien intencionada pero innecesaria contribuye a una disminución de potencia. La primera prueba en un MCP por pares, como la de los medios más dispares en la prueba de Tukey, es una forma de prueba ómnibus por sí misma, que controla la tasa de error familiar en el nivel α en el sentido débil. Requerir una prueba F ómnibus preliminar equivale a obligar a un investigador a negociar dos obstáculos para proclamar que los medios más dispares son significativamente diferentes, una tarea que la prueba de rango logró en un nivel α aceptable por sí sola. Si estas dos pruebas fueran perfectamente redundantes, los resultados de ambas serían idénticos a los de la prueba ómnibus; probabilísticamente hablando, la probabilidad conjunta de rechazar ambos sería α cuando la hipótesis nula completa fuera verdadera. Sin embargo, las dos pruebas no son completamente redundantes; como resultado, la probabilidad conjunta de su rechazo es menor que α. Por tanto, la protección F impone un conservadurismo innecesario (véase Bernhardson, 1975, para una simulación de este conservadurismo). Por esta razón, y las enumeradas anteriormente, estamos de acuerdo con la declaración de Games (1971) con respecto a la implementación tradicional de una prueba F ómnibus preliminar: Parece que no tiene mucho sentido aplicar la prueba F general antes de ejecutar contrastes c mediante procedimientos que establezca [la tasa de error familiar] α .... Si los contrastes c expresan el interés experimental directamente, se justifican si la F general es significativa o no y (tasa de error familiar) todavía está controlada.

Pruebas ómnibus en regresión múltiple

En Regresión múltiple, la prueba ómnibus es una prueba ANOVA F en todos los coeficientes, que es equivalente a la prueba de correlaciones múltiples R Cuadrado F. La prueba ómnibus F es una prueba general que examina el ajuste del modelo, por lo que no rechazar la hipótesis nula implica que el modelo lineal sugerido no es significativamente adecuado para los datos. En otras palabras, ninguna de las variables independientes ha sido considerada significativa para explicar la variación de la variable dependiente. Estas hipótesis examinan el ajuste del modelo del modelo más común: y i = β 0 + β 1 x i1 + ... + β k x ik + ε ij

estimado por E (y i | x i1 .... x ik ) = β 0 + β 1 x i1 + ... + β k x ik , donde E (y i | x i1 .... x ik ) es la variable dependiente explicativa de la i-ésima observación, x ij es la j-ésima variable independiente (explicativa), β j es el j-ésimo coeficiente de x ij e indica su influencia sobre la variable dependiente y sobre su correlación parcial con y . La estadística F de la prueba ómnibus es:

Considerando que, ȳ es la media muestral general para y i , ŷ i es la media estimada de regresión para un conjunto específico de k variables independientes (explicativas) yn es el tamaño de la muestra.

El estadístico F se distribuye F (k, nk-1), (α) bajo el supuesto de hipótesis nula y de normalidad.

Supuestos del modelo en regresión lineal múltiple

  • Muestreo aleatorio.
  • Distribución normal o aproximadamente normal de los errores e ij .
  • Los errores e ij explicativos es igual a cero>, E (e ij ) = 0.
  • Varianzas iguales de los errores e ij . Que es la prueba ómnibus F (como la prueba Levene F).
  • No hay multicolinealidad entre el significado de las variables explicativas / predictoras: cov (x i , x j ) = 0 donde es i ≠ j, para cualquier i o j.

La prueba ómnibus F sobre las hipótesis sobre los coeficientes

H 0 : β 1 = β 2 = .... = β k = 0

H 1 : al menos un β j ≠ 0

La prueba ómnibus examina si hay coeficientes de regresión que sean significativamente distintos de cero, excepto el coeficiente β0. El coeficiente β0 va con el predictor constante y generalmente no es de interés. Generalmente se piensa que la hipótesis nula es falsa y se rechaza fácilmente con una cantidad razonable de datos, pero al contrario que ANOVA, es importante hacer la prueba de todos modos. Cuando no se puede rechazar la hipótesis nula, esto significa que los datos son completamente inútiles. El modelo que tiene la función de regresión constante se ajusta tan bien como el modelo de regresión, lo que significa que no es necesario realizar más análisis. En muchas investigaciones estadísticas, el ómnibus suele ser significativo, aunque parte o la mayoría de las variables independientes no tienen una influencia significativa sobre la variable dependiente. Por lo tanto, el ómnibus solo es útil para dar a entender si el modelo se ajusta o no, pero no ofrece el modelo recomendado corregido que se puede ajustar a los datos. La prueba ómnibus llega a ser significativa principalmente si al menos una de las variables independientes es significativa. Lo que significa que cualquier otra variable puede ingresar al modelo, bajo el supuesto modelo de no colinealidad entre variables independientes, mientras que la prueba ómnibus aún muestra significancia, es decir: el modelo sugerido se ajusta a los datos. Entonces, la significancia de la prueba ómnibus F (que se muestra en la tabla ANOVA) seguida de la selección del modelo, cuya parte está relacionada con la selección de la variable independiente significativa que contribuye a la variación de la variable dependiente.

Ejemplo 1: la prueba Omnibus F en SPSS

Una compañía de seguros tiene la intención de predecir el "Costo promedio de las reclamaciones" (nombre de la variable "Claimamt") mediante tres variables independientes (Predictores): "Número de reclamaciones" (nombre de la variable "nclaims"), "Edad del titular de la póliza" (nombre de la variable holderage), "Antigüedad del vehículo" (nombre de la variable antigüedad del vehículo). Se ha ejecutado el procedimiento de regresión lineal en los datos, de la siguiente manera: La prueba ómnibus F en la tabla ANOVA implica que el modelo involucrado estos tres predictores pueden ajustarse para predecir el "Costo promedio de las reclamaciones", ya que se rechaza la hipótesis nula (Valor p = 0,000 <0,01, α = 0,01). Este rechazo de la prueba ómnibus implica que al menos uno de los coeficientes de los predictores en el modelo no es cero. El múltiplo R-Cuadrado informado en la tabla Resumen del modelo es 0.362, lo que significa que los tres predictores pueden explicar el 36.2% de la variación del "Costo promedio de reclamaciones".

ANOVA b

Fuente Suma de cuadrados df Cuadrado medio F Sig.
Regresión  605407.143  3  201802.381  22.527 .000 una
Residual   1066019.508  119  8958.147 
Total   1671426.650 122

un. Predictores: (Constante), n reclamaciones Número de reclamaciones, antigüedad del titular de la póliza, antigüedad del vehículo Antigüedad del vehículo

B. Variable dependiente: reclamante Costo medio de las reclamaciones

Resumen Modelo

Modelo R R Plaza Cuadrado R ajustado Std. Error de la estimación
 1  .602 una   .362  .346  94.647

un. Predictores: (Constante), n reclamaciones Número de reclamaciones, antigüedad del titular de la póliza, antigüedad del vehículo Antigüedad del vehículo

Sin embargo, solo los predictores: "Antigüedad del vehículo" y "Número de reclamaciones" tienen influencia estadística y predicción sobre el "Costo medio de reclamaciones", como se muestra en la siguiente "Tabla de coeficientes", mientras que la "Edad del titular de la póliza" no es un predictor significativo. (Valor de p = 0,116> 0,05). Eso significa que un modelo sin este predictor puede ser adecuado.

Coeficientes a

Modelo coeficientes desestandarizados Coeficientes estandarizados t Sig.
1  B  Std. Error Beta
(Constante)  447.668  29.647 15.100 .000
antigüedad del vehículo Edad del vehículo  -67.877  9.366  -.644 -7.247 .000
edad del titular de la póliza de holderage  -6.624  4.184   -.128 -1.583 .116
nclaims Número de reclamos  -.274  .119   -.217 -2.30 .023

un. Variable dependiente: reclamante Costo medio de las reclamaciones


Ejemplo 2: prueba de regresión lineal múltiple ómnibus F en R

La siguiente salida R ilustra la regresión lineal y el ajuste del modelo de dos predictores: x1 y x2. La última línea describe la prueba ómnibus F para el ajuste del modelo. La interpretación es que se rechaza la hipótesis nula (P = 0.02692 <0.05, α = 0.05). Entonces, β1 o β2 parecen ser distintos de cero (o quizás ambos). Tenga en cuenta que la conclusión de la tabla Coeficientes: es que solo β1 es significativo (el valor P que se muestra en la columna Pr (> | t |) es 4.37e-05 << 0.001). Por lo tanto, la prueba de un paso, como la prueba ómnibus F para el ajuste del modelo, no es suficiente para determinar el ajuste del modelo para esos predictores.

Coeficientes

 Estimar  Std.  Valor t de error  Pr (> | t |)

(Intercepción)  -0.7451  .7319.  -1.018  0.343

X1  0,6186  0,7500  0,825  4,37e-05 ***

x2  0,0126  0,1373  0,092  0,929

Error estándar residual: 1,157 en 7 grados de libertad

R-cuadrado múltiple: 0,644, R-cuadrado ajustado: 0,5423

Estadístico F: 6,332 en 2 y 7 DF, valor de p: 0,02692

Pruebas ómnibus en regresión logística

En estadística, la regresión logística es un tipo de análisis de regresión que se utiliza para predecir el resultado de una variable dependiente categórica (con un número limitado de categorías) o una variable dependiente dicotómica basada en una o más variables predictoras. Las probabilidades que describen el posible resultado de un solo ensayo se modelan, en función de variables explicativas (independientes), utilizando una función logística o distribución multinomial. La regresión logística mide la relación entre una variable dependiente categórica o dicotómica y, por lo general, una variable independiente continua (o varias), convirtiendo la variable dependiente en puntajes de probabilidad. Las probabilidades se pueden recuperar utilizando la función logística o la distribución multinomial, mientras que esas probabilidades, como en la teoría de la probabilidad, toman valores entre cero y uno:

Entonces, el modelo probado se puede definir por:

, mientras que y i es la categoría de la variable dependiente para la i-ésima observación y x ij es la j variable independiente (j = 1,2, ... k) para esa observación, β j es el j-ésimo coeficiente de x ij e indica su influencia y la esperada del modelo ajustado.

Nota: las variables independientes en la regresión logística también pueden ser continuas.

La prueba ómnibus se relaciona con las hipótesis

H 0 : β 1 = β 2 = .... = β k = 0

H 1 : al menos un β j ≠ 0

Ajuste del modelo: método de máxima verosimilitud

La prueba ómnibus, entre las otras partes del procedimiento de regresión logística, es una prueba de razón de verosimilitud basada en el método de máxima verosimilitud. A diferencia del procedimiento de regresión lineal en el que la estimación de los coeficientes de regresión se puede derivar del procedimiento de mínimos cuadrados o minimizando la suma de los residuos cuadrados como en el método de máxima verosimilitud, en la regresión logística no existe tal solución analítica o un conjunto de ecuaciones a partir de las cuales se puede derivar una solución para estimar los coeficientes de regresión. Por tanto, la regresión logística utiliza el procedimiento de máxima verosimilitud para estimar los coeficientes que maximizan la probabilidad de los coeficientes de regresión dados los predictores y el criterio. [6] La solución de máxima verosimilitud es un proceso iterativo que comienza con una solución tentativa, la revisa ligeramente para ver si se puede mejorar y repite este proceso hasta que se logra la mejora, momento en el que se dice que el modelo ha convergido. [6] La aplicación del procedimiento está condicionada a la convergencia (ver también en las siguientes "observaciones y otras consideraciones").

En general, con respecto a las hipótesis simples sobre el parámetro θ (por ejemplo):  H 0 : θ = θ 0  frente a  H 1 : θ = θ 1  , el estadístico de prueba de razón de verosimilitud se puede denominar:

, donde L (y i | θ) es la función de verosimilitud, que se refiere al θ específico.

El numerador corresponde a la probabilidad máxima de un resultado observado bajo la hipótesis nula. El denominador corresponde a la probabilidad máxima de que un resultado observado varíe los parámetros en todo el espacio de parámetros. El numerador de esta razón es menor que el denominador. La razón de verosimilitud, por tanto, está entre 0 y 1.

Los valores más bajos de la razón de verosimilitud significan que el resultado observado era mucho menos probable que ocurriera bajo la hipótesis nula en comparación con la alternativa. Los valores más altos de la estadística significan que el resultado observado fue más o igualmente probable o casi tan probable de ocurrir bajo la hipótesis nula en comparación con la alternativa, y la hipótesis nula no puede rechazarse.

La prueba de razón de verosimilitud proporciona la siguiente regla de decisión:

Si no rechaza H 0 ,    

de lo contrario

Si rechaza H 0   

y también rechazar H 0 con probabilidad  q  si ,  

mientras que los valores críticos  c, q  se elige generalmente para obtener un nivel de significación α especificado, a través de la relación: .

Por lo tanto, la prueba de razón de verosimilitud rechaza la hipótesis nula si el valor de este estadístico es demasiado pequeño. Qué tan pequeño es demasiado pequeño depende del nivel de significancia de la prueba, es decir, de qué probabilidad de error de Tipo I se considera tolerable El lema de Neyman-Pearson [8] establece que esta prueba de razón de verosimilitud es la más poderosa entre todas las pruebas de nivel-α por este problema.

Estadística y distribución de la prueba: teorema de Wilks

Primero definimos la estadística de prueba como la desviación que indica probar la razón:

Mientras que el modelo saturado es un modelo con un ajuste teóricamente perfecto. Dado que la desviación es una medida de la diferencia entre un modelo dado y el modelo saturado, los valores más pequeños indican un mejor ajuste ya que el modelo ajustado se desvía menos del modelo saturado. Cuando se evalúa según una distribución de chi-cuadrado, los valores de chi-cuadrado no significativos indican muy poca varianza inexplicable y, por lo tanto, un buen ajuste del modelo. Por el contrario, un valor de chi-cuadrado significativo indica que una cantidad significativa de la varianza no se explica. Dos medidas de la desviación D son particularmente importantes en la regresión logística: la desviación nula y la desviación del modelo. La desviación nula representa la diferencia entre un modelo con solo la intersección y sin predictores y el modelo saturado. Y la desviación del modelo representa la diferencia entre un modelo con al menos un predictor y el modelo saturado. [3] En este sentido, el modelo nulo proporciona una línea de base sobre la cual comparar los modelos predictores. Por lo tanto, para evaluar la contribución de un predictor o un conjunto de predictores, se puede restar la desviación del modelo de la desviación nula y evaluar la diferencia en una distribución de chi-cuadrado con un grado de libertad. Si la desviación del modelo es significativamente menor que la desviación nula, se puede concluir que el predictor o el conjunto de predictores mejoró significativamente el ajuste del modelo. Esto es análogo a la prueba F utilizada en el análisis de regresión lineal para evaluar la importancia de la predicción. En la mayoría de los casos, la distribución exacta de la razón de verosimilitud correspondiente a hipótesis específicas es muy difícil de determinar. Un resultado conveniente, atribuido a Samuel S. Wilks, dice que a medida que el tamaño de muestra n se acerca, el estadístico de prueba tiene una distribución asintótica con grados de libertad iguales a la diferencia en dimensionalidad y parámetros de los coeficientes β como se mencionó anteriormente en la prueba ómnibus. por ejemplo, si n es lo suficientemente grande y si el modelo ajustado que asume la hipótesis nula consta de 3 predictores y el modelo saturado (completo) consta de 5 predictores, el estadístico de Wilks se distribuye aproximadamente (con 2 grados de libertad). Esto significa que podemos recuperar el valor crítico C del chi al cuadrado con 2 grados de libertad bajo un nivel de significancia específico.

Observaciones y otras consideraciones

  1. En algunos casos, es posible que el modelo no alcance la convergencia. Cuando un modelo no converge, esto indica que los coeficientes no son confiables ya que el modelo nunca alcanzó una solución final. La falta de convergencia puede resultar de una serie de problemas: tener una gran proporción de predictores a casos, multicolinealidad, escasez o separación completa. Aunque no es un número preciso, como regla general, los modelos de regresión logística requieren un mínimo de 10 casos por variable. Tener una gran proporción de variables en los casos da como resultado una estadística de Wald demasiado conservadora (que se analiza a continuación) y puede conducir a la no convergencia.
  2. La multicolinealidad se refiere a correlaciones inaceptablemente altas entre predictores. A medida que aumenta la multicolinealidad, los coeficientes permanecen insesgados, pero los errores estándar aumentan y la probabilidad de convergencia del modelo disminuye. Para detectar la multicolinealidad entre los predictores, se puede realizar un análisis de regresión lineal con los predictores de interés con el único propósito de examinar la estadística de tolerancia utilizada para evaluar si la multicolinealidad es inaceptablemente alta.
  3. La escasez de datos se refiere a tener una gran proporción de celdas vacías (celdas con cero recuentos). Los recuentos de células cero son particularmente problemáticos con los predictores categóricos. Con los predictores continuos, el modelo puede inferir valores para los recuentos de celdas cero, pero este no es el caso de los predictores categóricos. La razón por la que el modelo no convergerá con recuentos de celdas cero para los predictores categóricos es porque el logaritmo natural de cero es un valor indefinido, por lo que no se pueden alcanzar las soluciones finales del modelo. Para remediar este problema, los investigadores pueden colapsar categorías de una manera teóricamente significativa o pueden considerar agregar una constante a todas las celdas. [6] Otro problema numérico que puede conducir a una falta de convergencia es la separación completa, que se refiere a la instancia en la que los predictores predicen perfectamente el criterio: todos los casos se clasifican con precisión. En tales casos, uno debe volver a examinar los datos, ya que es probable que haya algún tipo de error.
  4. El estadístico de Wald se define por, donde es la estimación muestral de y es el error estándar de. Alternativamente, al evaluar la contribución de los predictores individuales en un modelo dado, se puede examinar la importancia del estadístico de Wald. La estadística de Wald, análoga a la prueba t en regresión lineal, se utiliza para evaluar la significancia de los coeficientes. El estadístico de Wald es la razón del cuadrado del coeficiente de regresión al cuadrado del error estándar del coeficiente y se distribuye asintóticamente como una distribución de chi-cuadrado. Aunque varios paquetes estadísticos (por ejemplo, SPSS, SAS) informan la estadística de Wald para evaluar la contribución de los predictores individuales, la estadística de Wald tiene algunas limitaciones. Primero, cuando el coeficiente de regresión es grande, el error estándar del coeficiente de regresión también tiende a ser grande, lo que aumenta la probabilidad de error de tipo II. En segundo lugar, la estadística de Wald también tiende a estar sesgada cuando los datos son escasos.
  5. El ajuste de modelo que incluye predictores categóricos se puede lograr mediante el uso de modelos log-lineales.

Ejemplo 1 de regresión logística [3]

Spector y Mazzeo examinaron el efecto de un método de enseñanza conocido como PSI en el desempeño de los estudiantes en un curso, macroeconomía intermedia. La pregunta era si los estudiantes expuestos al método obtuvieron mejores calificaciones en los exámenes de la clase. Recogieron datos de estudiantes en dos clases, una en la que se utilizó PSI y otra en la que se empleó un método de enseñanza tradicional. Para cada uno de los 32 estudiantes, recopilaron datos sobre

Variables independientes

• Promedio de calificaciones de GPA antes de tomar la clase. • TUCE: la puntuación en un examen que se da al comienzo del trimestre para probar el conocimiento del material. • PSI- una variable ficticia que indica el método de enseñanza utilizado (1 = Psi utilizado, 0 = otro método).

Variable dependiente

• CALIFICACIÓN: codificado 1 si la calificación final fue A, 0 si la calificación final fue B o C.

El interés particular de la investigación fue si el PSI tenía un efecto significativo en GRADE. TUCE y GPA se incluyen como variables de control.

El análisis estadístico mediante regresión logística de Grade en GPA, Tuce y Psi se realizó en SPSS usando Stepwise Logistic Regression.

En la salida, la línea de "bloque" se relaciona con la prueba de chi-cuadrado en el conjunto de variables independientes que se prueban e incluyen en el ajuste del modelo. La línea de "paso" se relaciona con la prueba de chi-cuadrado en el nivel de paso, mientras que las variables se incluyen en el modelo paso a paso. Tenga en cuenta que en la salida, un chi-cuadrado de paso es lo mismo que el chi-cuadrado de bloque, ya que ambos están probando la misma hipótesis de que las variables probadas que ingresan en este paso son distintas de cero. Sin embargo, si estuviera haciendo una regresión paso a paso , los resultados serían diferentes. Utilizando la selección progresiva hacia adelante, los investigadores dividieron las variables en dos bloques (consulte el MÉTODO en la sintaxis siguiente a continuación).

REGRESIÓN LOGÍSTICA VAR = grado

/ METHOD = fstep psi / fstep gpa tuce

/ CRITERIOS PIN (.50) SALIDA (.10) ITERAR (20) CORTE (.5).

El valor de PIN predeterminado es .05, fue cambiado por los investigadores a .5 para que el TUCE insignificante lo ingresara. En el primer bloque, solo se ingresa psi, por lo que la prueba de Chi de bloque y paso se relaciona con la hipótesis H0: βPSI = 0. Los resultados de las pruebas generales de chi-cuadrado implican que el PSI es significativo para predecir que es más probable que GRADE sea una calificación final de A.

Bloque 1: Método = Avanzar paso a paso (condicional) [6]
Pruebas ómnibus de coeficientes de modelo
Chi-cuadrado df Sig.
 paso 1 paso    5.842 1 .016
  Cuadra    5.842 1 .016
  Modelo    5.842 1 .016

Luego, en el siguiente bloque, el procedimiento de selección hacia adelante hace que se ingrese primero GPA, luego TUCE (vea el comando METHOD en la sintaxis anterior).

Bloque 2: Método = Avanzar paso a paso (condicional)
Pruebas ómnibus de coeficientes de modelo
Chi-cuadrado df Sig.
 Paso 1 Paso    9.088   1     .003  
  Cuadra    9.088    1     .003  
  Modelo    14.930     2     .001  
 Paso 2 Paso    .474     1     .491  
  Cuadra    9.562     2     .008  
  Modelo    15.404     3     .002  

El primer paso en el bloque 2 indica que el GPA es significativo (Valor P = 0.003 <0.05, α = 0.05)

Entonces, mirando las entradas finales en el paso 2 en el bloque 2,

  • El paso chi-cuadrado, .474, le indica si el efecto de la variable que se ingresó en el paso final, TUCE, difiere significativamente de cero. Es el equivalente a una prueba F incremental del parámetro, es decir, prueba H0: βTUCE = 0.
  • El bloque chi-cuadrado, 9,562, comprueba si una o ambas de las variables incluidas en este bloque (GPA y TUCE) tienen efectos que difieren de cero. Es el equivalente a una prueba F incremental, es decir, prueba H 0 : β GPA = β TUCE = 0.
  • El modelo chi-cuadrado, 15,404, le dice si alguna de las tres Variables Independientes tiene efectos significativos. Es el equivalente de una prueba F global, es decir, prueba H 0 : β GPA = β TUCE = β PSI = 0.

Pruebas de parámetros individuales que se muestran en las "variables en la tabla de ecuaciones", que prueba de Wald (W = (b / sb) 2, donde b es la estimación β y sb es su estimación del error estándar) que está probando si algún parámetro individual es igual a cero . Si lo desea, puede realizar una prueba de chi-cuadrado de LR incremental. Esa, de hecho, es la mejor forma de hacerlo, ya que la prueba de Wald a la que nos referimos a continuación está sesgada en determinadas situaciones. Cuando los parámetros se prueban por separado, controlando los otros parámetros, vemos que los efectos de GPA y PSI son estadísticamente significativos, pero el efecto de TUCE no lo es. Ambos tienen Exp (β) mayor que 1, lo que implica que la probabilidad de obtener una calificación "A" es mayor que la de obtener otra calificación depende del método de enseñanza PSI y del promedio de calificaciones anterior.

Variables en la ecuación
B SE Wald df Sig. Exp (B)
Paso 1 un  GPA    2.826     1.263    5.007     1     .025    16.872  
  TUCE     0,095    .142    .452   1   .502    1.100 
  PSI     2.378     1.064    4,992   1   .025     10.786  
  Constante     -13.019     4.930    6.972   1   .008     .000  

un. Variable (es) ingresadas en el paso 1: PSI

Ejemplo 2 de regresión logística [7]

Tema de investigación: "Los efectos del empleo, la educación, la rehabilitación y la gravedad del delito en la nueva detención" [8]. Un trabajador social en una agencia de libertad condicional de justicia penal tiende a examinar si algunos de los factores están llevando a que se vuelva a arrestar a las personas administradas por su agencia durante los últimos cinco años que fueron condenados y luego liberados. Los datos constan de 1.000 clientes con las siguientes variables:

Variable dependiente (codificada como variable ficticia)

• Detenido nuevamente versus no arrestado nuevamente (0 = no arrestado nuevamente; 1 = arrestado nuevamente) - categórico, nominal

Variables independientes (codificadas como variables ficticias)

  • Si el cliente fue juzgado o no por un segundo delito penal (1 = juzgado, 0 = no).
  • Gravedad de la primera infracción (1 = delito mayor frente a 0 = delito menor) -categórico, nominal
  • Graduado de secundaria vs.no (0 = no graduado; 1 = graduado) - categórico, nominal
  • Si el cliente completó o no un programa de rehabilitación después de la primera infracción, 0 = no se completó la rehabilitación; 1 = rehabilitación completada) -categórico, nominal
  • Situación laboral después de la primera infracción (0 = no empleado; 1 = empleado)

Nota: Las variables independientes continuas no se midieron en este escenario.

La hipótesis nula para el ajuste del modelo general: el modelo general no predice una nueva detención. O, las variables independientes como grupo no están relacionadas con ser arrestado nuevamente. (Y para las variables independientes: cualquiera de las variables independientes separadas no está relacionada con la probabilidad de un nuevo arresto).

La hipótesis alternativa para el ajuste general del modelo: el modelo general predice la probabilidad de un nuevo arresto. (El significado de variables independientes respectivamente: haber cometido un delito grave (frente a un delito menor), no haber completado la escuela secundaria, no haber completado un programa de rehabilitación y estar desempleado están relacionados con la probabilidad de ser arrestado nuevamente).

La regresión logística se aplicó a los datos en SPSS, ya que la variable dependiente es categórica (dicotómica) y el investigador examina la proporción impar de ser potencialmente re-arrestado vs. no se espera que vuelva a ser arrestado.

Pruebas ómnibus de coeficientes de modelo

Chi-cuadrado df Sig.
 Paso 1 Paso    41.155 4 .000
  Cuadra    41.155 4 .000
  Modelo    41.155 4 .000

La tabla anterior muestra la Prueba Ómnibus de Coeficientes del Modelo basada en la prueba de Chi-Cuadrado, que implica que el modelo general es predictivo de una nueva detención (nos preocupa la fila tres: "Modelo"): (4 grados de libertad) = 41.15, p <.001, y el nulo puede rechazarse. Probar el valor nulo de que el modelo, o el grupo de variables independientes que se toman en conjunto, no predice la probabilidad de volver a detenerse. Este resultado significa que el modelo de espera de una nueva detención es más adecuado para los datos.

Variables en la ecuación

B SE Wald df Sig. Exp (B)
Paso 1  delito grave    0,283     0,142     3.997     1     0,046     1.327  
  escuela secundaria     0.023     0,138     0,028   1     0,867     1.023  
  rehabilitación     -0,679     0,142     22.725   1   0.000     0,507  
  emplear     -0,513     0,142     13.031   1   .000     .599  
  Constante     1.035     0,154     45.381   1   .000     2.816  

Como se muestra en la tabla de "Variables en la ecuación" a continuación, también podemos rechazar el nulo de que los coeficientes B por haber cometido un delito grave, completar un programa de rehabilitación y estar empleado son iguales a cero; son estadísticamente significativos y predictores de reincidencia. -arrestar. Sin embargo, no se encontró que el nivel de educación fuera predictivo de un nuevo arresto. Controlando otras variables, haber cometido un delito mayor por la primera infracción aumenta las probabilidades de ser arrestado nuevamente en un 33% (p = .046), en comparación con haber cometido un delito menor. Completar un programa de rehabilitación y ser empleado después de la primera infracción disminuye las probabilidades de volver a ser arrestado, cada uno en más del 50% (p <.001). La última columna, Exp (B) (tomando el valor B mediante el cálculo del logaritmo natural inverso de B) indica la razón de probabilidades: la probabilidad de que ocurra un evento, dividida por la probabilidad de que el evento no ocurra. Un valor Exp (B) superior a 1.0 significa que la variable independiente aumenta las probabilidades de que ocurra la variable dependiente. Un Exp (B) por debajo de 1.0 significa que la variable independiente disminuye las probabilidades de que ocurra la variable dependiente, dependiendo de la decodificación que se mencionó en los detalles de las variables antes. Un coeficiente B negativo resultará en una Exp (B) menor que 1.0, y un coeficiente B positivo resultará en una Exp (B) mayor que 1.0. La significación estadística de cada B se prueba mediante la Chi-Cuadrada de Wald, probando el valor nulo de que el coeficiente B = 0 (la hipótesis alternativa es que no = 0). Los valores de p inferiores a alfa son significativos, lo que lleva al rechazo del valor nulo. Aquí, solo las variables independientes delito grave, rehabilitación, empleo, son significativas (valor de p <0.05. Examinar la razón de probabilidades de ser arrestado nuevamente versus no arrestado nuevamente, significa examinar la razón de probabilidades para la comparación de dos grupos (re -arrestado = 1 en el numerador y re-arrestado = 0 en el denominador) para el grupo de delitos graves, en comparación con el grupo de delitos menores de referencia. Exp (B) = 1.327 para "delitos graves" puede indicar que haber cometido un delito grave vs. aumenta las probabilidades de volver a ser arrestado en un 33%. Para la "rehabilitación", podemos decir que haber completado la rehabilitación reduce la probabilidad (o probabilidades) de ser nuevamente arrestado en casi un 51%.