Variación explicada - Explained variation

En estadística , la variación explicada mide la proporción en la que un modelo matemático explica la variación ( dispersión ) de un conjunto de datos dado. A menudo, la variación se cuantifica como varianza ; entonces, se puede utilizar el término más específico varianza explicada .

La parte complementaria de la variación total se denomina variación residual o inexplicable .

Definición en términos de ganancia de información

Ganancia de información mediante un mejor modelado

Siguiendo a Kent (1983), usamos la información de Fraser (Fraser 1965)

donde es la densidad de probabilidad de una variable aleatoria , y con ( ) son dos familias de modelos paramétricos. La familia de modelos 0 es la más simple, con un espacio de parámetros restringido .

Los parámetros se determinan mediante la estimación de máxima verosimilitud ,

La ganancia de información del modelo 1 sobre el modelo 0 se escribe como

donde se incluye un factor de 2 por conveniencia. Γ siempre es no negativo; mide hasta qué punto el mejor modelo de la familia 1 es mejor que el mejor modelo de la familia 0 para explicar g ( r ).

Ganancia de información mediante un modelo condicional

Suponga una variable aleatoria bidimensional donde X se considerará como una variable explicativa e Y como una variable dependiente. Los modelos de la familia 1 "explican" Y en términos de X ,

,

mientras que en la familia 0, se supone que X e Y son independientes. Definimos la aleatoriedad de Y por , y la aleatoriedad de Y , dado X , por . Entonces,

puede interpretarse como proporción de la dispersión de los datos que es "explicado" por X .

Casos especiales y uso generalizado

Regresión lineal

La fracción de varianza inexplicable es un concepto establecido en el contexto de la regresión lineal . La definición habitual del coeficiente de determinación se basa en el concepto fundamental de varianza explicada.

Coeficiente de correlación como medida de varianza explicada

Sea X un vector aleatorio e Y una variable aleatoria modelada por una distribución normal con centro . En este caso, la proporción de variación explicada derivada anteriormente es igual al coeficiente de correlación al cuadrado .

Tenga en cuenta los fuertes supuestos del modelo: el centro de la distribución Y debe ser una función lineal de X , y para cualquier x dada , la distribución Y debe ser normal. En otras situaciones, generalmente no se justifica interpretar como proporción de la varianza explicada.

En análisis de componentes principales

La varianza explicada se utiliza habitualmente en el análisis de componentes principales . La relación con la ganancia de información de Fraser-Kent queda por aclarar.

Crítica

Como la fracción de "varianza explicada" es igual al coeficiente de correlación al cuadrado , comparte todas las desventajas de este último: refleja no solo la calidad de la regresión, sino también la distribución de las variables independientes (condicionantes).

En palabras de un crítico: "Por lo tanto, da el 'porcentaje de varianza explicado' por la regresión, una expresión que, para la mayoría de los científicos sociales, tiene un significado dudoso pero un gran valor retórico. Si este número es grande, la regresión da un buen resultado. se ajustan, y no tiene mucho sentido buscar variables adicionales. Se dice que otras ecuaciones de regresión en diferentes conjuntos de datos son menos satisfactorias o menos poderosas si su valor es menor. Nada sobre apoya estas afirmaciones ". Y, después de construir un ejemplo donde se mejora simplemente considerando conjuntamente datos de dos poblaciones diferentes: "'Varianza explicada' no explica nada".

Ver también

Referencias

enlaces externos