Partición de sumas de cuadrados - Partition of sums of squares

La partición de sumas de cuadrados es un concepto que impregna gran parte de la estadística inferencial y la estadística descriptiva . Más propiamente, es la partición de sumas de errores o desviaciones cuadradas . Matemáticamente, la suma de las desviaciones cuadradas es una medida de dispersión sin escala o sin ajustar (también llamada variabilidad ). Cuando se escala para el número de grados de libertad , estima la varianza o la dispersión de las observaciones sobre su valor medio. La partición de la suma de las desviaciones cuadradas en varios componentes permite que la variabilidad general en un conjunto de datos se atribuya a diferentes tipos o fuentes de variabilidad, y la importancia relativa de cada una se cuantifica por el tamaño de cada componente de la suma total de cuadrados.

Fondo

La distancia desde cualquier punto en una colección de datos, a la media de los datos, es la desviación. Esto se puede escribir como , donde es el i-ésimo punto de datos y es la estimación de la media. Si todas estas desviaciones se elevan al cuadrado, luego se suman, como en , esto da la "suma de cuadrados" para estos datos.

Cuando se agregan más datos a la colección, la suma de cuadrados aumentará, excepto en casos poco probables, como que los nuevos datos sean iguales a la media. Por lo general, la suma de cuadrados aumentará con el tamaño de la recopilación de datos. Esa es una manifestación del hecho de que no tiene escala.

En muchos casos, el número de grados de libertad es simplemente el número de datos de la colección, menos uno. Escribimos esto como n  - 1, donde n es el número de datos.

Escalar (también conocido como normalización) significa ajustar la suma de cuadrados para que no aumente a medida que aumenta el tamaño de la recopilación de datos. Esto es importante cuando queremos comparar muestras de diferentes tamaños, como una muestra de 100 personas en comparación con una muestra de 20 personas. Si la suma de cuadrados no estuviera normalizada, su valor siempre sería mayor para la muestra de 100 personas que para la muestra de 20 personas. Para escalar la suma de cuadrados, la dividimos por los grados de libertad, es decir, calculamos la suma de cuadrados por grado de libertad o varianza. La desviación estándar , a su vez, es la raíz cuadrada de la varianza.

Lo anterior describe cómo se usa la suma de cuadrados en estadística descriptiva; consulte el artículo sobre la suma total de cuadrados para ver una aplicación de este principio general a la estadística inferencial .

Partición de la suma de cuadrados en regresión lineal

Teorema. Dado un modelo de regresión lineal que incluye una constante , basado en una muestra que contiene n observaciones, la suma total de cuadrados se puede dividir de la siguiente manera en la suma de cuadrados explicada (ESS) y la suma de cuadrados residual (RSS):

donde esta ecuación es equivalente a cada una de las siguientes formas:

donde está el valor estimado por la línea de regresión teniendo , , ..., como los cerca de coeficientes .

Prueba

El requisito de que el modelo incluya una constante o, de manera equivalente, que la matriz de diseño contenga una columna de unos asegura que , es decir .

La prueba también se puede expresar en forma vectorial, de la siguiente manera:

La eliminación de términos en la última línea, utilizó el hecho de que

Más particiones

Tenga en cuenta que la suma de cuadrados residual se puede dividir aún más como la suma de cuadrados de falta de ajuste más la suma de cuadrados debido al error puro.

Ver también

Referencias

  • Bailey, RA (2008). Diseño de Experimentos Comparativos . Prensa de la Universidad de Cambridge. ISBN 978-0-521-68357-9. Los capítulos previos a la publicación están disponibles en línea.
  • Christensen, Ronald (2002). Respuestas planas a preguntas complejas: la teoría de los modelos lineales (tercera edición). Nueva York: Springer. ISBN 0-387-95361-2.
  • Whittle, Peter (1963). Predicción y Regulación . Prensa de Universidades Inglesas. ISBN 0-8166-1147-5.
    Reeditado como: Whittle, P. (1983). Predicción y regulación por métodos lineales de mínimos cuadrados . Prensa de la Universidad de Minnesota. ISBN 0-8166-1148-3.
  • Whittle, P. (20 de abril de 2000). Probabilidad a través de la expectativa (4ª ed.). Saltador. ISBN 0-387-98955-2.