Suma de cuadrados de falta de ajuste - Lack-of-fit sum of squares

En las estadísticas , una suma de cuadrados debido a la falta de ajuste , o más concisamente una suma falta de ajuste de cuadrados , es uno de los componentes de una partición de la suma de los cuadrados de los residuos en un análisis de la varianza , que se utiliza en el numerador en una prueba F de la hipótesis nula que dice que un modelo propuesto encaja bien. El otro componente es la suma de cuadrados del error puro .

La suma de cuadrados del error puro es la suma de las desviaciones cuadradas de cada valor de la variable dependiente del valor promedio sobre todas las observaciones que comparten sus valores de variable independiente . Estos son errores que nunca podrían evitarse mediante ninguna ecuación predictiva que asignara un valor predicho para la variable dependiente en función del valor o valores de la variable independiente. El resto de la suma de cuadrados residual se atribuye a la falta de ajuste del modelo, ya que sería matemáticamente posible eliminar estos errores por completo.

Bosquejo de la idea

Para que la suma de cuadrados de falta de ajuste difiera de la suma de cuadrados de los residuos , debe haber más de un valor de la variable de respuesta para al menos uno de los valores del conjunto de variables predictoras. Por ejemplo, considere ajustar una línea

por el método de mínimos cuadrados . Se toma como estimaciones de α y β los valores que minimizan la suma de los cuadrados de los residuos, es decir, la suma de los cuadrados de las diferencias entre la observada y -valor y el equipada y -valor. Para tener una suma de cuadrados de falta de ajuste que difiera de la suma de cuadrados residual, se debe observar más de un valor de y para cada uno de uno o más de los valores de x . Luego, se divide la "suma de cuadrados debido al error", es decir, la suma de cuadrados de los residuos, en dos componentes:

suma de cuadrados debido a error = (suma de cuadrados debido a error "puro") + (suma de cuadrados debido a falta de ajuste).

La suma de cuadrados debida al error "puro" es la suma de cuadrados de las diferencias entre cada valor de y observado y el promedio de todos los valores de y correspondientes al mismo valor de x .

La suma de cuadrados debido a la falta de ajuste es el ponderado suma de cuadrados de las diferencias entre cada promedio de Y -valores correspondientes a la misma x -valor y la correspondiente equipada y -valor, el peso en cada caso ser simplemente el número de observada valores de y para ese valor de x . Debido a que es una propiedad de la regresión de mínimos cuadrados que el vector cuyos componentes son "errores puros" y el vector de componentes de falta de ajuste son ortogonales entre sí, se cumple la siguiente igualdad:

Por tanto, la suma de cuadrados residual se ha descompuesto completamente en dos componentes.

Detalles matemáticos

Considere ajustar una línea con una variable predictora. Defina i como un índice de cada uno de los n valores de x distintos , j como un índice de las observaciones de la variable de respuesta para un valor de x dado , y n i como el número de valores de y asociados con el i- ésimo valor de x . El valor de cada observación variable de respuesta se puede representar mediante

Dejar

ser las estimaciones de mínimos cuadrados de los parámetros no observables α y β basados ​​en los valores observados de x i y Y i j .   

Dejar

ser los valores ajustados de la variable de respuesta. Luego

son los residuales , que son estimaciones observables de los valores no observables del término de error  ε ij . Debido a la naturaleza del método de mínimos cuadrados, todo el vector de residuos, con  

componentes escalares, necesariamente satisface las dos restricciones

Por lo tanto, está obligado a estar en un  subespacio ( N - 2) dimensional de R N , es decir, hay N  - 2 " grados de libertad de error".  

Ahora deja

ser el promedio de todos los valores Y asociados con el i- ésimo valor x .

Dividimos la suma de cuadrados debido al error en dos componentes:

Distribuciones de probabilidad

Sumas de cuadrados

Suponga que los términos de error ε i j son independientes y se distribuyen normalmente con el valor esperado  0 y la varianza σ 2 . Tratamos x i como constante en lugar de aleatorio. Entonces, las variables de respuesta Y i j son aleatorias solo porque los errores ε i j son aleatorios.      

Se puede demostrar que si el modelo de línea recta es correcto, entonces la suma de cuadrados debido al error dividida por la varianza del error,

tiene una distribución chi-cuadrado con N  - 2 grados de libertad.

Además, dado el número total de observaciones N , el número de niveles de la variable independiente n y el número de parámetros en el modelo p :

  • La suma de cuadrados debida al error puro, dividida por la varianza del error σ 2 , tiene una distribución chi-cuadrado con N  -  n grados de libertad;
  • La suma de cuadrados debido a la falta de ajuste, dividida por la varianza del error σ 2 , tiene una distribución chi-cuadrado con n  -  p grados de libertad (aquí p  = 2 ya que hay dos parámetros en el modelo de línea recta);
  • Las dos sumas de cuadrados son probabilísticamente independientes.

La estadística de prueba

Luego se deduce que la estadística

tiene una distribución F con el número correspondiente de grados de libertad en el numerador y el denominador, siempre que el modelo sea correcto. Si el modelo es incorrecto, entonces la distribución de probabilidad del denominador sigue siendo la indicada anteriormente, y el numerador y el denominador siguen siendo independientes. Pero el numerador tiene entonces una distribución chi-cuadrado no central y, en consecuencia, el cociente en su conjunto tiene una distribución F no central .

Se usa este estadístico F para probar la hipótesis nula de que el modelo lineal es correcto. Dado que la distribución F no central es estocásticamente más grande que la distribución F (central), se rechaza la hipótesis nula si el estadístico F es mayor que el valor F crítico. El valor crítico corresponde a la función de distribución acumulada de la distribución F con x igual al nivel de confianza deseado y grados de libertad d 1  = ( n  -  p ) yd 2  = ( N  -  n ).

Se puede demostrar que los supuestos de distribución normal de errores e independencia implican que esta prueba de falta de ajuste es la prueba de razón de verosimilitud de esta hipótesis nula.

Ver también

Notas