Multicolinealidad - Multicollinearity

En estadística , la multicolinealidad (también colinealidad ) es un fenómeno en el que una variable predictora en un modelo de regresión múltiple puede predecirse linealmente a partir de las demás con un grado sustancial de precisión. En esta situación, las estimaciones de los coeficientes de la regresión múltiple pueden cambiar de manera errática en respuesta a pequeños cambios en el modelo o los datos. La multicolinealidad no reduce el poder predictivo o la confiabilidad del modelo en su conjunto, al menos dentro del conjunto de datos de muestra; solo afecta a los cálculos relacionados con predictores individuales . Es decir, un modelo de regresión multivariante con predictores colineales puede indicar qué tan bien todo el conjunto de predictores predice la variable de resultado , pero puede no dar resultados válidos sobre ningún predictor individual o sobre qué predictores son redundantes con respecto a otros.

Tenga en cuenta que en los enunciados de los supuestos subyacentes a los análisis de regresión, como los mínimos cuadrados ordinarios , la frase "sin multicolinealidad" generalmente se refiere a la ausencia de multicolinealidad perfecta , que es una relación lineal exacta (no estocástica) entre los predictores. En tal caso, la matriz de datos tiene menos del rango completo y, por lo tanto, la matriz de momentos no se puede invertir . En estas circunstancias, para un modelo lineal general , el estimador de mínimos cuadrados ordinarios no existe.

En cualquier caso, la multicolinealidad es una característica de la matriz de datos, no el modelo estadístico subyacente .

Definición

La colinealidad es una asociación lineal entre dos variables explicativas . Dos variables son perfectamente colineales si existe una relación lineal exacta entre ellas. Por ejemplo, y son perfectamente colineales si existen parámetros y tales que, para todas las observaciones i , tenemos

La multicolinealidad se refiere a una situación en la que más de dos variables explicativas en un modelo de regresión múltiple están altamente relacionadas linealmente. Tenemos una multicolinealidad perfecta si, por ejemplo, como en la ecuación anterior, la correlación entre dos variables independientes es igual a 1 o -1. En la práctica, rara vez nos enfrentamos a una multicolinealidad perfecta en un conjunto de datos. Más comúnmente, el problema de la multicolinealidad surge cuando existe una relación lineal aproximada entre dos o más variables independientes.

Una descripción de la multicolinealidad.

Matemáticamente, un conjunto de variables es perfectamente multicolineal si existen una o más relaciones lineales exactas entre algunas de las variables. Por ejemplo, podemos tener

teniendo para todas las observaciones i , donde son constantes y es la i- ésima observación sobre la k- ésima variable explicativa. Podemos explorar un problema causado por la multicolinealidad al examinar el proceso de intentar obtener estimaciones para los parámetros de la ecuación de regresión múltiple.

Las estimaciones de mínimos cuadrados ordinarios implican invertir la matriz

dónde

es una matriz N × ( k +1), donde N es el número de observaciones yk es el número de variables explicativas (donde se requiere que N sea ​​mayor o igual que k +1). Si existe una relación lineal exacta (multicolinealidad perfecta) entre las variables independientes, al menos una de las columnas de X es una combinación lineal de las otras, por lo que el rango de X (y por lo tanto de X T X) es menor que k +1, y la matriz X T X no será invertible.

La multicolinealidad perfecta es bastante común cuando se trabaja con conjuntos de datos sin procesar, que con frecuencia contienen información redundante. Sin embargo, una vez que se identifican y eliminan las redundancias, a menudo quedan variables casi multicolineales debido a las correlaciones inherentes al sistema que se está estudiando. En tal caso, en lugar de mantener la ecuación anterior, tenemos esa ecuación en forma modificada con un término de error :

En este caso, no existe una relación lineal exacta entre las variables, pero las variables son casi perfectamente multicolineales si la varianza de es pequeña para algún conjunto de valores de 's. En este caso, la matriz X T X tiene una inversa, pero está mal acondicionada, por lo que un algoritmo informático dado puede o no ser capaz de calcular una inversa aproximada, y si lo hace, la inversa calculada resultante puede ser muy sensible a ligeras variaciones en los datos (debido a los efectos ampliados del error de redondeo o ligeras variaciones en los puntos de datos muestreados) y, por lo tanto, pueden ser muy inexactos o muy dependientes de la muestra.

Detección

Los indicadores de que la multicolinealidad puede estar presente en un modelo incluyen los siguientes:

  1. Grandes cambios en los coeficientes de regresión estimados cuando se agrega o elimina una variable predictora
  2. Coeficientes de regresión insignificantes para las variables afectadas en la regresión múltiple, pero un rechazo de la hipótesis conjunta de que esos coeficientes son todos cero (usando una prueba F )
  3. Si una regresión multivariable encuentra un coeficiente insignificante de un explicador particular, sin embargo, una regresión lineal simple de la variable explicada en esta variable explicativa muestra que su coeficiente es significativamente diferente de cero, esta situación indica multicolinealidad en la regresión multivariable.
  4. Algunos autores han sugerido una tolerancia de detección formal o el factor de inflación de la varianza (VIF) para la multicolinealidad: donde es el coeficiente de determinación de una regresión del explicador j sobre todos los demás explicadores. Una tolerancia de menos de 0,20 o 0,10 y / o un VIF de 5 o 10 y más indica un problema de multicolinealidad.

  5. Prueba de Farrar-Glauber : si se determina que las variables son ortogonales, no hay multicolinealidad; si las variables no son ortogonales, entonces está presente al menos cierto grado de multicolinealidad. C. Robert Wichers ha argumentado que la prueba de correlación parcial de Farrar-Glauber es ineficaz porque una correlación parcial dada puede ser compatible con diferentes patrones de multicolinealidad. La prueba de Farrar-Glauber también ha sido criticada por otros investigadores.
  6. Prueba de número de condición : la medida estándar de mal acondicionamiento en una matriz es el índice de condición. Indicará que la inversión de la matriz es numéricamente inestable con números de precisión finita (computadora estándar flota y dobla ). Esto indica la sensibilidad potencial del inverso calculado a pequeños cambios en la matriz original. El número de condición se calcula hallando la raíz cuadrada del valor propio máximo dividido por el valor propio mínimo de la matriz de diseño . Si el número de condición es superior a 30, la regresión puede tener una multicolinealidad grave; Existe multicolinealidad si, además, dos o más de las variables relacionadas con el número de condición alto tienen altas proporciones de varianza explicada. Una ventaja de este método es que también muestra qué variables están causando el problema.
  7. Perturbar los datos . La multicolinealidad se puede detectar agregando ruido aleatorio a los datos y volviendo a ejecutar la regresión muchas veces y viendo cuánto cambian los coeficientes.
  8. La construcción de una matriz de correlación entre las variables explicativas arrojará indicaciones sobre la probabilidad de que cualquier pareja dada de variables del lado derecho esté creando problemas de multicolinealidad. Los valores de correlación (elementos fuera de la diagonal) de al menos 0,4 a veces se interpretan como indicativos de un problema de multicolinealidad. Sin embargo, este procedimiento es muy problemático y no se puede recomendar. Intuitivamente, la correlación describe una relación bivariada, mientras que la colinealidad es un fenómeno multivariado.

Consecuencias

Una consecuencia de un alto grado de multicolinealidad es que, incluso si la matriz es invertible, un algoritmo informático puede no tener éxito en la obtención de una inversa aproximada, y si la obtiene, puede ser numéricamente inexacta. Pero incluso en presencia de una matriz precisa , surgen las siguientes consecuencias.

En presencia de multicolinealidad, la estimación del impacto de una variable sobre la variable dependiente mientras se controlan las otras tiende a ser menos precisa que si los predictores no estuvieran correlacionados entre sí. La interpretación habitual de un coeficiente de regresión es que proporciona una estimación del efecto de un cambio de una unidad en una variable independiente , manteniendo las otras variables constantes. Si está altamente correlacionada con otra variable independiente , en el conjunto de datos dado, entonces tenemos un conjunto de observaciones para las cuales y tenemos una relación estocástica lineal particular. No tenemos un conjunto de observaciones para las cuales todos los cambios en son independientes de los cambios en , por lo que tenemos una estimación imprecisa del efecto de cambios independientes en .

En cierto sentido, las variables colineales contienen la misma información sobre la variable dependiente. Si medidas nominalmente "diferentes" realmente cuantifican el mismo fenómeno, entonces son redundantes. Alternativamente, si las variables reciben diferentes nombres y quizás emplean diferentes escalas de medición numérica pero están altamente correlacionadas entre sí, entonces sufren de redundancia.

Una de las características de la multicolinealidad es que los errores estándar de los coeficientes afectados tienden a ser grandes. En ese caso, la prueba de la hipótesis de que el coeficiente es igual a cero puede llevar a que no se rechace una hipótesis nula falsa de ningún efecto del explicador, un error de tipo II .

Otro problema con la multicolinealidad es que los pequeños cambios en los datos de entrada pueden dar lugar a grandes cambios en el modelo, incluso dando como resultado cambios en el signo de las estimaciones de los parámetros.

Un peligro principal de dicha redundancia de datos es el sobreajuste en los modelos de análisis de regresión . Los mejores modelos de regresión son aquellos en los que las variables predictoras tienen una alta correlación con la variable dependiente (resultado) pero se correlacionan, como mucho, sólo mínimamente entre sí. Este modelo a menudo se denomina "bajo nivel de ruido" y será estadísticamente robusto (es decir, predecirá de manera confiable a través de numerosas muestras de conjuntos de variables extraídas de la misma población estadística).

Siempre que la especificación subyacente sea correcta, la multicolinealidad en realidad no sesga los resultados; simplemente produce grandes errores estándar en las variables independientes relacionadas. Más importante aún, el uso habitual de la regresión es tomar coeficientes del modelo y luego aplicarlos a otros datos. Dado que la multicolinealidad provoca estimaciones imprecisas de los valores de los coeficientes, las predicciones resultantes fuera de la muestra también serán imprecisas. Y si el patrón de multicolinealidad en los nuevos datos difiere del de los datos que se ajustaron, tal extrapolación puede introducir grandes errores en las predicciones.

Remedios

  1. Asegúrese de no haber caído en la trampa de la variable ficticia ; incluir una variable ficticia para cada categoría (por ejemplo, verano, otoño, invierno y primavera) e incluir un término constante en la regresión juntos garantizan una multicolinealidad perfecta.
  2. Intente ver qué sucede si utiliza subconjuntos independientes de sus datos para la estimación y aplica esas estimaciones a todo el conjunto de datos. Teóricamente, debería obtener una varianza algo mayor de los conjuntos de datos más pequeños utilizados para la estimación, pero la expectativa de los valores de los coeficientes debería ser la misma. Naturalmente, los valores de los coeficientes observados variarán, pero observe cuánto varían.
  3. Deje el modelo como está, a pesar de la multicolinealidad. La presencia de multicolinealidad no afecta la eficiencia de extrapolar el modelo ajustado a nuevos datos siempre que las variables predictoras sigan el mismo patrón de multicolinealidad en los nuevos datos que en los datos en los que se basa el modelo de regresión.
  4. Suelta una de las variables. Se puede descartar una variable explicativa para producir un modelo con coeficientes significativos. Sin embargo, pierde información (porque ha eliminado una variable). La omisión de una variable relevante da como resultado estimaciones de coeficientes sesgadas para las variables explicativas restantes que están correlacionadas con la variable eliminada.
  5. Obtenga más datos, si es posible. Ésta es la solución preferida. Más datos pueden producir estimaciones de parámetros más precisas (con errores estándar más bajos), como se ve en la fórmula en el factor de inflación de la varianza para la varianza de la estimación de un coeficiente de regresión en términos del tamaño de la muestra y el grado de multicolinealidad.
  6. Centro medio de las variables predictoras. Generación de términos polinomiales (es decir, para , , , etc.) o los términos de interacción (es decir, , etc.) puede causar algo de multicolinealidad si la variable en cuestión tiene un alcance limitado (por ejemplo, [2,4]). El centrado medio eliminará este tipo especial de multicolinealidad. Sin embargo, en general, esto no tiene ningún efecto. Puede ser útil para superar los problemas que surgen del redondeo y otros pasos computacionales si no se utiliza un programa de computadora cuidadosamente diseñado.
  7. Estandariza tus variables independientes. Esto puede ayudar a reducir una señalización falsa de un índice de condición por encima de 30.
  8. También se ha sugerido que utilizando el valor de Shapley , una herramienta de teoría de juegos , el modelo podría explicar los efectos de la multicolinealidad. El valor de Shapley asigna un valor para cada predictor y evalúa todas las posibles combinaciones de importancia.
  9. Regresión de Ridge o regresión de componentes principales o regresión de mínimos cuadrados parcial pueden ser utilizados.
  10. Si los explicadores correlacionados son valores rezagados diferentes del mismo explicador subyacente, entonces se puede utilizar una técnica de rezago distribuido , imponiendo una estructura general sobre los valores relativos de los coeficientes a estimar.

Ocurrencia

Análisis de supervivencia

La multicolinealidad puede representar un problema grave en el análisis de supervivencia . El problema es que las covariables que varían en el tiempo pueden cambiar su valor a lo largo de la línea de tiempo del estudio. Se recomienda un procedimiento especial para evaluar el impacto de la multicolinealidad en los resultados.

Tasas de interés para diferentes plazos hasta el vencimiento

En diversas situaciones, podría plantearse la hipótesis de que múltiples tipos de interés de varios plazos hasta el vencimiento influyen en alguna decisión económica, como la cantidad de dinero o algún otro activo financiero a mantener, o la cantidad de gasto de inversión fija a realizar. En este caso , la inclusión de estas diversas tasas de interés creará en general un problema sustancial de multicolinealidad porque las tasas de interés tienden a moverse juntas. Si, de hecho, cada una de las tasas de interés tiene su propio efecto separado sobre la variable dependiente, puede ser extremadamente difícil separar sus efectos.

Extensión

El concepto de colinealidad lateral amplía la visión tradicional de multicolinealidad, y comprende también la colinealidad entre variables explicativas y de criterio (es decir, explicadas), en el sentido de que pueden medir casi lo mismo entre sí.

Ver también

Referencias

Otras lecturas

enlaces externos