Grados de libertad (estadísticas) - Degrees of freedom (statistics)

En estadística , el número de grados de libertad es el número de valores en el cálculo final de una estadística que pueden variar libremente.

El número de formas independientes por las que un sistema dinámico puede moverse, sin violar ninguna restricción impuesta, se denomina número de grados de libertad. En otras palabras, el número de grados de libertad se puede definir como el número mínimo de coordenadas independientes que pueden especificar el espacio de fase , es decir, las posiciones y el momento en la mecánica clásica , del sistema por completo.

Las estimaciones de los parámetros estadísticos pueden basarse en diferentes cantidades de información o datos. El número de piezas de información independientes que entran en la estimación de un parámetro se llama grados de libertad. En general, los grados de libertad de una estimación de un parámetro son iguales al número de puntuaciones independientes que entran en la estimación menos el número de parámetros utilizados como pasos intermedios en la estimación del parámetro en sí (la mayoría de las veces la varianza muestral tiene N  - 1 grados de libertad, ya que se calcula a partir de N puntuaciones aleatorias menos el único parámetro estimado como paso intermedio, que es la media de la muestra).

Matemáticamente, los grados de libertad son el número de dimensiones del dominio de un vector aleatorio , o esencialmente el número de componentes "libres" (cuántos componentes deben conocerse antes de que el vector esté completamente determinado).

El término se usa con mayor frecuencia en el contexto de modelos lineales ( regresión lineal , análisis de varianza ), donde ciertos vectores aleatorios están restringidos a estar en subespacios lineales , y el número de grados de libertad es la dimensión del subespacio . Los grados de libertad también se asocian comúnmente con las longitudes cuadradas (o "suma de cuadrados" de las coordenadas) de dichos vectores, y los parámetros de chi-cuadrado y otras distribuciones que surgen en problemas de prueba estadística asociados.

Si bien los libros de texto introductorios pueden introducir grados de libertad como parámetros de distribución o mediante pruebas de hipótesis, es la geometría subyacente la que define los grados de libertad y es fundamental para una comprensión adecuada del concepto.

Historia

Aunque el concepto básico de grados de libertad fue reconocido ya en 1821 en el trabajo del astrónomo y matemático alemán Carl Friedrich Gauss , su definición y uso moderno fue elaborado por primera vez por el estadístico inglés William Sealy Gosset en su artículo de 1908 sobre Biometrika "El error probable de a Mean ", publicado bajo el seudónimo" Student ". Si bien Gosset en realidad no usó el término "grados de libertad", explicó el concepto en el curso del desarrollo de lo que se conoció como distribución t de Student . El término en sí fue popularizado por el estadístico y biólogo inglés Ronald Fisher , comenzando con su trabajo de 1922 sobre los cuadrados chi.

Notación

En las ecuaciones, el símbolo típico de los grados de libertad es ν (letra griega minúscula nu ). En texto y tablas, la abreviatura "df" se usa comúnmente. RA Fisher usó n para simbolizar grados de libertad, pero el uso moderno normalmente reserva n para el tamaño de la muestra.

De vectores aleatorios

Geométricamente, los grados de libertad se pueden interpretar como la dimensión de ciertos subespacios vectoriales. Como punto de partida, suponga que tenemos una muestra de observaciones independientes distribuidas normalmente,

Esto se puede representar como un vector aleatorio n- dimensional :

Dado que este vector aleatorio puede encontrarse en cualquier lugar del espacio n -dimensional, tiene n grados de libertad.

Ahora, sea ​​la media muestral . El vector aleatorio se puede descomponer como la suma de la media muestral más un vector de residuos:

El primer vector del lado derecho está restringido a ser un múltiplo del vector de unos, y la única cantidad libre es . Por tanto, tiene 1 grado de libertad.

El segundo vector está limitado por la relación . Los primeros n  - 1 componentes de este vector pueden ser cualquier cosa. Sin embargo, una vez que conozca los primeros n  - 1 componentes, la restricción le indica el valor del n- ésimo componente. Por lo tanto, este vector tiene n  - 1 grados de libertad.

Matemáticamente, el primer vector es la proyección oblicua del vector de datos sobre el subespacio generado por el vector de unos. El 1 grado de libertad es la dimensión de este subespacio. El segundo vector residual es la proyección de mínimos cuadrados sobre el complemento ortogonal ( n  - 1) -dimensional de este subespacio, y tiene n  - 1 grados de libertad.

En las aplicaciones de pruebas estadísticas, a menudo uno no está directamente interesado en los vectores componentes, sino más bien en sus longitudes cuadradas. En el ejemplo anterior, la suma de cuadrados residual es

Si los puntos de datos se distribuyen normalmente con media 0 y varianza , entonces la suma de cuadrados residual tiene una distribución chi-cuadrado escalada (escalada por el factor ), con n  - 1 grados de libertad. Los grados de libertad, aquí un parámetro de la distribución, todavía se pueden interpretar como la dimensión de un subespacio vectorial subyacente.

Asimismo, el estadístico de la prueba t de una muestra ,

sigue una distribución t de Student con n  - 1 grados de libertad cuando la media hipotética es correcta. Nuevamente, los grados de libertad surgen del vector residual en el denominador.

En modelos de ecuaciones estructurales

Cuando se presentan los resultados de los modelos de ecuaciones estructurales (SEM), generalmente incluyen uno o más índices de ajuste general del modelo, el más común de los cuales es una estadística χ 2 . Esto forma la base para otros índices que se informan comúnmente. Aunque son estas otras estadísticas las que se interpretan con mayor frecuencia, los grados de libertad de χ 2 son esenciales para comprender el ajuste del modelo, así como la naturaleza del modelo en sí.

Los grados de libertad en SEM se calculan como una diferencia entre la cantidad de piezas únicas de información que se utilizan como entrada en el análisis, a veces llamadas conocidas, y la cantidad de parámetros que se estiman de forma única, a veces llamadas incógnitas. Por ejemplo, en un análisis factorial confirmatorio de un factor con 4 ítems, hay 10 conocidos (las seis covarianzas únicas entre los cuatro ítems y las varianzas de los cuatro ítems) y 8 incógnitas (4 cargas factoriales y 4 varianzas de error) para 2 grados de libertad. Los grados de libertad son importantes para la comprensión del ajuste del modelo si por la única razón de que, en igualdad de condiciones, cuantos menos grados de libertad, mejores índices como χ 2 serán.

Se ha demostrado que los lectores de artículos que contienen SEM pueden utilizar los grados de libertad para determinar si los autores de esos artículos de hecho informan las estadísticas de ajuste del modelo correctas. En las ciencias de la organización, por ejemplo, casi la mitad de los artículos publicados en las principales revistas informan grados de libertad que son inconsistentes con los modelos descritos en esos artículos, lo que hace que el lector se pregunte qué modelos se probaron realmente.

De residuos

Una forma común de pensar en los grados de libertad es como el número de piezas de información independientes disponibles para estimar otra pieza de información. Más concretamente, el número de grados de libertad es el número de observaciones independientes en una muestra de datos que están disponibles para estimar un parámetro de la población de la que se extrae esa muestra. Por ejemplo, si tenemos dos observaciones, al calcular la media tenemos dos observaciones independientes; sin embargo, al calcular la varianza, solo tenemos una observación independiente, ya que las dos observaciones están igualmente distantes de la media muestral.

Al ajustar los modelos estadísticos a los datos, los vectores de residuos están restringidos a estar en un espacio de menor dimensión que el número de componentes del vector. Esa dimensión más pequeña es el número de grados de libertad de error , también llamados grados de libertad residuales .

Ejemplo

Quizás el ejemplo más simple sea este. Suponer

son variables aleatorias cada una con un valor esperado μ , y sean

sea ​​la "media de la muestra". Entonces las cantidades

son residuos que pueden considerarse estimaciones de los errores X i  -  μ . La suma de los residuos (a diferencia de la suma de los errores) es necesariamente 0. Si se conocen los valores de cualquier n  - 1 de los residuos, se puede encontrar el último. Eso significa que están obligados a estar en un espacio de dimensión n  - 1. Se dice que hay n  - 1 grados de libertad para errores.

Un ejemplo que es solo un poco menos simple es el de la estimación por mínimos cuadrados de a y b en el modelo

donde se da x i , pero e i y, por lo tanto, Y i son aleatorios. Deje y ser los mínimos cuadrados estimaciones de una y b . Entonces los residuales

están restringidos a estar dentro del espacio definido por las dos ecuaciones

Se dice que hay n  - 2 grados de libertad de error.

La notación, la letra mayúscula Y se utiliza en la especificación del modelo, mientras que en minúscula y en la definición de los residuos; esto se debe a que las primeras son variables aleatorias hipotetizadas y las segundas son datos reales.

Podemos generalizar esto a una regresión múltiple que involucre p parámetros y covariables (por ejemplo, p  - 1 predictores y una media (= intersección en la regresión)), en cuyo caso el costo en grados de libertad del ajuste es p , dejando n - p grados de libertad para errores

En modelos lineales

La demostración de las distribuciones ty chi-cuadrado para los problemas de una muestra anterior es el ejemplo más simple donde surgen grados de libertad. Sin embargo, geometría similar y descomposiciones vectoriales subyacen en gran parte de la teoría de los modelos lineales , incluida la regresión lineal y el análisis de varianza . Aquí se presenta un ejemplo explícito basado en la comparación de tres medias; Christensen (2002) analiza con más detalle la geometría de los modelos lineales.

Suponga que se realizan observaciones independientes para tres poblaciones , y . La restricción a tres grupos y tamaños de muestra iguales simplifica la notación, pero las ideas se generalizan fácilmente.

Las observaciones se pueden descomponer como

donde son las medias de las muestras individuales y es la media de las 3 n observaciones. En notación vectorial, esta descomposición se puede escribir como

El vector de observación, en el lado izquierdo, tiene 3 n grados de libertad. En el lado derecho, el primer vector tiene un grado de libertad (o dimensión) para la media general. El segundo vector depende de tres variables aleatorias , y . Sin embargo, estos deben sumar 0 y, por lo tanto, están restringidos; por lo tanto, el vector debe estar en un subespacio bidimensional y tiene 2 grados de libertad. Los restantes 3 n  - 3 grados de libertad están en el vector residual (formado por n  - 1 grados de libertad dentro de cada una de las poblaciones).

En análisis de varianza (ANOVA)

En los problemas de pruebas estadísticas, uno generalmente no está interesado en los vectores componentes en sí, sino en sus longitudes cuadradas, o Suma de Cuadrados. Los grados de libertad asociados con una suma de cuadrados son los grados de libertad de los vectores componentes correspondientes.

El ejemplo de tres poblaciones anterior es un ejemplo de análisis de varianza unidireccional . El modelo, o tratamiento, suma de cuadrados es la longitud al cuadrado del segundo vector,

con 2 grados de libertad. La suma de cuadrados residual, o error, es

con 3 ( n −1) grados de libertad. Por supuesto, los libros introductorios sobre ANOVA generalmente establecen fórmulas sin mostrar los vectores, pero es esta geometría subyacente la que da lugar a las fórmulas SS y muestra cómo determinar sin ambigüedades los grados de libertad en cualquier situación dada.

Bajo la hipótesis nula de ninguna diferencia entre las medias poblacionales (y asumiendo que se satisfacen los supuestos de regularidad ANOVA estándar), las sumas de cuadrados tienen distribuciones chi-cuadrado escaladas, con los grados de libertad correspondientes. El estadístico de la prueba F es la razón, después de escalar por los grados de libertad. Si no hay diferencia entre las medias de población, esta relación sigue una distribución F con 2 y 3 n  - 3 grados de libertad.

En algunos entornos complicados, como los diseños de parcelas divididas no equilibradas , las sumas de cuadrados ya no tienen distribuciones chi-cuadrado escaladas. La comparación de suma de cuadrados con grados de libertad ya no es significativa y el software puede informar ciertos 'grados de libertad' fraccionarios en estos casos. Tales números no tienen una interpretación genuina de grados de libertad, sino que simplemente proporcionan una distribución chi-cuadrado aproximada para la suma de cuadrados correspondiente. Los detalles de tales aproximaciones están más allá del alcance de esta página.

En distribuciones de probabilidad

Varias distribuciones estadísticas que se encuentran comúnmente ( t de Student , chi-cuadrado , F ) tienen parámetros que se conocen comúnmente como grados de libertad . Esta terminología simplemente refleja que en muchas aplicaciones donde ocurren estas distribuciones, el parámetro corresponde a los grados de libertad de un vector aleatorio subyacente, como en el ejemplo ANOVA anterior. Otro ejemplo simple es: si son variables aleatorias normales independientes , el estadístico

sigue una distribución chi-cuadrado con n  - 1 grados de libertad. Aquí, los grados de libertad surgen de la suma de cuadrados residual en el numerador y, a su vez, los n  - 1 grados de libertad del vector residual subyacente .

En la aplicación de estas distribuciones a modelos lineales, los parámetros de grados de libertad solo pueden tomar valores enteros . Las familias de distribuciones subyacentes permiten valores fraccionarios para los parámetros de grados de libertad, que pueden surgir en usos más sofisticados. Un conjunto de ejemplos son los problemas en los que se utilizan aproximaciones de chi-cuadrado basadas en grados de libertad efectivos . En otras aplicaciones, como el modelado de datos de colas pesadas , la distribución at o F se puede utilizar como modelo empírico. En estos casos, no hay grados particulares de interpretación de libertad para los parámetros de distribución, aunque la terminología puede seguir utilizándose.

En regresión no estándar

Muchos métodos de regresión no estándar, incluidos mínimos cuadrados regularizados (por ejemplo, regresión de crestas ), suavizadores lineales , suavizado de splines y regresión semiparamétrica , no se basan en proyecciones de mínimos cuadrados ordinarios , sino en mínimos cuadrados regularizados ( generalizados y / o penalizados). , por lo que los grados de libertad definidos en términos de dimensionalidad generalmente no son útiles para estos procedimientos. Sin embargo, estos procedimientos siguen siendo lineales en las observaciones y los valores ajustados de la regresión se pueden expresar en la forma

donde es el vector de valores ajustados en cada uno de los valores de covariables originales del modelo ajustado, y es el vector original de respuestas y H es la matriz hat o, más generalmente, una matriz más suave.

Para la inferencia estadística, todavía se pueden formar sumas de cuadrados: la suma de cuadrados del modelo es ; la suma de cuadrados residual es . Sin embargo, debido a que H no corresponde a un ajuste de mínimos cuadrados ordinario (es decir, no es una proyección ortogonal), estas sumas de cuadrados ya no tienen distribuciones chi-cuadrado (escaladas, no centrales) ni grados de dimensión definidos dimensionalmente. -La libertad no sirve.

Los grados efectivos de libertad de ajuste se pueden definir de varias formas para implementar pruebas de bondad de ajuste , validación cruzada y otros procedimientos de inferencia estadística . Aquí se puede distinguir entre regresión grados de libertad efectivos y efectivo de grados de libertad residuales .

Grados de libertad efectivos de regresión

Para los grados de libertad efectivos de la regresión, las definiciones apropiadas pueden incluir la traza de la matriz hat, tr ( H ), la traza de la forma cuadrática de la matriz hat, tr ( H'H ), la forma tr (2 H - H H ' ), o la aproximación de Satterthwaite , tr ( H'H ) 2 / tr ( H'HH'H ) . En el caso de la regresión lineal, la matriz de sombrero H es X ( X  ' X ) −1 X' , y todas estas definiciones se reducen a los grados de libertad habituales. Darse cuenta de

los grados de libertad de regresión (no residuales) en modelos lineales son "la suma de las sensibilidades de los valores ajustados con respecto a los valores de respuesta observados", es decir, la suma de las puntuaciones de apalancamiento .

Una forma de ayudar a conceptualizar esto es considerar una matriz de suavizado simple como un desenfoque gaussiano , que se usa para mitigar el ruido de los datos. En contraste con un simple ajuste lineal o polinomial, calcular los grados de libertad efectivos de la función de suavizado no es sencillo. En estos casos, es importante estimar los grados de libertad permitidos por la matriz para que los grados de libertad residuales puedan usarse para estimar pruebas estadísticas como .

Grados de libertad efectivos residuales

Hay correspondientes definiciones de residual efectiva (REDF) grados de libertad, con H sustituye por I  -  H . Por ejemplo, si el objetivo es estimar la varianza del error, la redf se definiría como tr (( I  -  H ) '( I  -  H )), y la estimación insesgada es (con ),

o:

La última aproximación anterior reduce el costo computacional de O ( n 2 ) a solo O ( n ). En general, el numerador sería la función objetivo que se minimiza; por ejemplo, si la matriz de sombrero incluye una matriz de covarianza de observación, Σ, entonces se convierte en .

General

Tenga en cuenta que, a diferencia del caso original, se permiten grados de libertad que no sean enteros, aunque el valor normalmente debe estar restringido entre 0 y n .

Considere, como ejemplo, el k - vecino más cercano más suave, que es el promedio de los k valores medidos más cercanos al punto dado. Luego, en cada uno de los n puntos medidos, el peso del valor original en la combinación lineal que forma el valor predicho es solo 1 / k . Por tanto, la traza de la matriz del sombrero es n / k . Por tanto, la suavidad cuesta n / k grados de libertad efectivos.

Como otro ejemplo, considere la existencia de observaciones casi duplicadas. La aplicación ingenua de la fórmula clásica, n - p , conduciría a una sobreestimación del grado de libertad de los residuos, como si cada observación fuera independiente. Sin embargo, de manera más realista, la matriz de sombrero H = X ( X  'Σ −1 X ) −1 X' Σ −1 implicaría una matriz de covarianza de observación Σ que indica la correlación distinta de cero entre las observaciones.

La formulación más general del grado efectivo de libertad daría como resultado una estimación más realista para, por ejemplo, la varianza del error σ 2 , que a su vez escala la desviación estándar a posteriori de los parámetros desconocidos ; el grado de libertad también afectará el factor de expansión necesario para producir una elipse de error para un nivel de confianza dado .

Otras formulaciones

Conceptos similares son los grados de libertad equivalentes en la regresión no paramétrica , el grado de libertad de la señal en los estudios atmosféricos y el grado de libertad no entero en la geodesia.

La suma de cuadrados residual tiene una distribución chi-cuadrado generalizada , y la teoría asociada con esta distribución proporciona una ruta alternativa a las respuestas proporcionadas anteriormente.

Ver también

Referencias

Otras lecturas

enlaces externos