Corrección de Bessel - Bessel's correction

En estadística , la corrección de Bessel es el uso de n  - 1 en lugar de n en la fórmula para la varianza muestral y la desviación estándar muestral , donde n es el número de observaciones en una muestra . Este método corrige el sesgo en la estimación de la varianza poblacional. También corrige parcialmente el sesgo en la estimación de la desviación estándar de la población. Sin embargo, la corrección a menudo aumenta el error cuadrático medio en estas estimaciones. Esta técnica lleva el nombre de Friedrich Bessel .

Al estimar la varianza poblacional de una muestra cuando se desconoce la media poblacional, la varianza muestral no corregida es la media de los cuadrados de las desviaciones de los valores muestrales de la media muestral (es decir, utilizando un factor multiplicativo 1 / n ). En este caso, la varianza muestral es un estimador sesgado de la varianza poblacional.

Multiplicar la varianza muestral no corregida por el factor

da un estimador insesgado de la varianza de la población. En alguna literatura, el factor anterior se denomina corrección de Bessel .

Uno puede entender la corrección de Bessel como los grados de libertad en el residuales vectorial (residuos, no errores, ya que la media de la población es desconocida):

donde es la media muestral. Si bien hay n observaciones independientes en la muestra, solo hay n  - 1 residuales independientes, ya que suman 0. Para una explicación más intuitiva de la necesidad de la corrección de Bessel, consulte § Fuente de sesgo .

Generalmente, la corrección de Bessel es un enfoque para reducir el sesgo debido al tamaño de muestra finito. Esta corrección de sesgo de muestra finita también es necesaria para otras estimaciones como el sesgo y la curtosis , pero en estas las inexactitudes suelen ser significativamente mayores. Para eliminar completamente dicho sesgo, es necesario realizar una estimación multiparamétrica más compleja. Por ejemplo, una corrección correcta para la desviación estándar depende de la curtosis (4º momento central normalizado), pero esto nuevamente tiene un sesgo muestral finito y depende de la desviación estándar, es decir, ambas estimaciones deben fusionarse.

Advertencias

Hay tres advertencias a considerar con respecto a la corrección de Bessel:

  1. No produce un estimador insesgado de la desviación estándar .
  2. El estimador corregido a menudo tiene un error cuadrático medio (MSE) más alto que el estimador no corregido. Además, no existe una distribución de población para la que tenga el mínimo de MSE porque siempre se puede elegir un factor de escala diferente para minimizar el MSE.
  3. Solo es necesario cuando se desconoce la media de la población (y se estima como la media de la muestra). En la práctica, esto suele suceder.

En primer lugar, mientras que la varianza de la muestra (utilizando la corrección de Bessel) es un estimador insesgado de la varianza de la población, su raíz cuadrada , la desviación estándar de la muestra, es una estimación sesgada de la desviación estándar de la población; debido a que la raíz cuadrada es una función cóncava , el sesgo es hacia abajo, por la desigualdad de Jensen . No existe una fórmula general para un estimador insesgado de la desviación estándar de la población, aunque existen factores de corrección para distribuciones particulares, como la normal; consulte la estimación no sesgada de la desviación estándar para obtener más detalles. Se da una aproximación del factor de corrección exacto para la distribución normal usando n  - 1.5 en la fórmula: el sesgo decae cuadráticamente (en lugar de linealmente, como en la forma no corregida y la forma corregida de Bessel).

En segundo lugar, el estimador insesgado no minimiza el error cuadrático medio (MSE) y, en general, tiene un MSE peor que el estimador no corregido (esto varía con el exceso de curtosis ). El MSE se puede minimizar utilizando un factor diferente. El valor óptimo depende del exceso de curtosis, como se explica en el error cuadrático medio: varianza ; para la distribución normal, esto se optimiza dividiendo por n  + 1 (en lugar de n  - 1 o n ).

En tercer lugar, la corrección de Bessel sólo es necesario cuando la media de la población es desconocida, y uno es estimar tanto media de la población y la varianza de la población a partir de una muestra dada, utilizando el medio de la muestra para estimar la media poblacional. En ese caso, hay n grados de libertad en una muestra de n puntos, y la estimación simultánea de la media y la varianza significa que un grado de libertad va a la media de la muestra y los n  - 1 grados de libertad restantes (los residuos ) van a la muestra. diferencia. Sin embargo, si se conoce la media de la población, entonces las desviaciones de las observaciones de la media de la población tienen n grados de libertad (porque la media no se está estimando; las desviaciones no son residuales sino errores ) y la corrección de Bessel no es aplicable.

Fuente de sesgo

De manera más simple, para comprender el sesgo que debe corregirse, piense en un caso extremo. Suponga que la población es (0,0,0,1,2,9), que tiene una media poblacional de 2 y una varianza poblacional de 10 1/3. Se extrae una muestra de n = 1 y resulta ser. La mejor estimación de la media de la población es ¿Pero qué pasa si usamos la fórmula para estimar la varianza? La estimación de la varianza sería cero --- y la estimación sería cero para cualquier población y cualquier muestra de n = 1. El problema es que al estimar la media muestral, el proceso ya ha hecho nuestra estimación de la media cercana a el valor que muestreamos - idéntico, para n = 1. En el caso de n = 1, la varianza simplemente no se puede estimar, porque no hay variabilidad en la muestra.

Pero considere n = 2. Suponga que la muestra fuera (0, 2). Luego y , pero con la corrección de Bessel , que es una estimación insesgada (si se toman todas las muestras posibles de n = 2 y se utiliza este método, la estimación promedio será 12,4, igual que la varianza muestral con la corrección de Bessel).

Para ver esto con más detalle, considere el siguiente ejemplo. Suponga que la media de toda la población es 2050, pero el estadístico no lo sabe, y debe estimarlo con base en esta pequeña muestra elegida al azar de la población:

Se puede calcular el promedio de la muestra:

Esto puede servir como una estimación observable del promedio de la población no observable, que es 2050. Ahora nos enfrentamos al problema de estimar la varianza de la población. Ese es el promedio de los cuadrados de las desviaciones de 2050. Si supiéramos que el promedio de la población es 2050, podríamos proceder de la siguiente manera:

Pero nuestra estimación del promedio de la población es el promedio de la muestra, 2052. Se desconoce el promedio real, 2050. Por tanto, se debe utilizar el promedio de la muestra, 2052:

La varianza ahora es mucho menor. Como se demuestra a continuación, la varianza casi siempre será menor cuando se calcula usando la suma de distancias cuadradas a la media muestral, en comparación con usar la suma de distancias cuadradas a la media poblacional. La única excepción a esto es cuando la media de la muestra resulta ser igual a la media de la población, en cuyo caso la varianza también es igual.

Para ver por qué sucede esto, usamos una identidad simple en álgebra:

Con que representa la desviación de una muestra individual de la media de la muestra, y que representa la desviación de la media de la muestra a partir de la media de la población. Tenga en cuenta que simplemente hemos descompuesto la desviación real de una muestra individual de la media poblacional (desconocida) en dos componentes: la desviación de la muestra única de la media muestral, que podemos calcular, y la desviación adicional de la media muestral de la población significa, que no podemos. Ahora, aplicamos esta identidad a los cuadrados de desviaciones de la media poblacional:

Ahora aplique esto a las cinco observaciones y observe ciertos patrones:

La suma de las entradas en la columna del medio debe ser cero porque el término a se agregará en las 5 filas, que a su vez debe ser igual a cero. Esto se debe a que a contiene las 5 muestras individuales (lado izquierdo entre paréntesis) que, cuando se agregan, naturalmente tienen la misma suma que sumar 5 veces la media de la muestra de esos 5 números (2052). Esto significa que una resta de estas dos sumas debe ser igual a cero. El factor 2 y el término b en la columna del medio son iguales para todas las filas, lo que significa que la diferencia relativa en todas las filas de la columna del medio permanece igual y, por lo tanto, puede ignorarse. Las siguientes declaraciones explican el significado de las columnas restantes:

  • La suma de las entradas en la primera columna ( a 2 ) es la suma de los cuadrados de la distancia de la muestra a la media de la muestra;
  • La suma de las entradas en la última columna ( b 2 ) es la suma de las distancias al cuadrado entre la media muestral medida y la media poblacional correcta.
  • Cada hilera ahora consiste en pares de un 2 (con prioridad, porque se utiliza la media de la muestra) y b 2 (corrección de sesgo, ya que toma la diferencia entre la media "real" de la población y la media de la muestra inexacta en cuenta). Por lo tanto, la suma de todas las entradas de la primera y la última columna ahora representa la varianza correcta, lo que significa que ahora se usa la suma de la distancia al cuadrado entre las muestras y la media de la población.
  • La suma de la de un 2 -column y la b 2 -column debe ser más grande que la suma dentro de las instancias de la de un 2 -column, ya que todas las entradas dentro de la b 2 -column son positivos (excepto cuando la media de la población es la misma como media muestral, en cuyo caso todos los números de la última columna serán 0).

Por lo tanto:

  • La suma de los cuadrados de la distancia de las muestras a la media de la población siempre será mayor que la suma de los cuadrados de la distancia a la media de la muestra , excepto cuando la media de la muestra sea la misma que la media de la población, en cuyo caso las dos son iguales.

Es por eso que la suma de los cuadrados de las desviaciones de la media muestral es demasiado pequeña para dar una estimación insesgada de la varianza de la población cuando se encuentra el promedio de esos cuadrados. Cuanto menor sea el tamaño de la muestra, mayor será la diferencia entre la varianza de la muestra y la varianza de la población.

Terminología

Esta corrección es tan común que los términos "varianza muestral" y "desviación estándar muestral" se utilizan con frecuencia para referirse a los estimadores corregidos (variación muestral insesgada, desviación estándar muestral menos sesgada), utilizando n  - 1. Sin embargo, se necesita precaución: algunas calculadoras y los paquetes de software pueden proporcionar ambos o solo la formulación más inusual. Este artículo utiliza los siguientes símbolos y definiciones:

  • μ es la media de la población
  • es la media muestral
  • σ 2 es la varianza de la población
  • s n 2 es la varianza muestral sesgada (es decir, sin la corrección de Bessel)
  • s 2 es la varianza de la muestra insesgada (es decir, con la corrección de Bessel)

Las desviaciones estándar serán entonces las raíces cuadradas de las respectivas variaciones. Dado que la raíz cuadrada introduce sesgo, se prefiere la terminología "sin corregir" y "corregido" para los estimadores de desviación estándar:

  • s n es la desviación estándar de la muestra sin corregir (es decir, sin la corrección de Bessel)
  • s es la desviación estándar de la muestra corregida (es decir, con la corrección de Bessel), que está menos sesgada, pero sigue sesgada

Fórmula

La media muestral viene dada por

A continuación, se escribe la varianza muestral sesgada:

y la varianza de la muestra insesgada se escribe:

Prueba de corrección

Alternativa 1

Como hecho de fondo, utilizamos la identidad que se deriva de la definición de desviación estándar y linealidad de la expectativa .

Una observación muy útil es que para cualquier distribución, la varianza es igual a la mitad del valor esperado de cuando son una muestra independiente de esa distribución. Para probar esta observación usaremos eso (que se deriva del hecho de que son independientes) así como la linealidad de la expectativa:

Ahora que la observación está probada, basta con mostrar que la diferencia al cuadrado esperada de dos observaciones de la población de muestra es igual a la diferencia al cuadrado esperada de dos observaciones de la distribución original. Para ver esto, tenga en cuenta que cuando seleccionamos y a través de u , v son números enteros seleccionados de forma independiente y uniforme de 1 an , una fracción del tiempo tendremos u  =  v y, por lo tanto, la diferencia al cuadrado muestreada es cero independientemente de la distribución original. El resto del tiempo, el valor de es la diferencia al cuadrado esperada entre dos observaciones independientes de la distribución original. Por lo tanto, dividir la diferencia cuadrada esperada de la muestra por , o multiplicar de manera equivalente por, da una estimación insesgada de la diferencia cuadrada esperada original.

Alternativa 2

Reciclando una identidad por varianza ,

asi que

y por definición,

Tenga en cuenta que, dado que x 1x 2 ,…,  x n son una muestra aleatoria de una distribución con varianza σ 2 , se deduce que para cada i  = 1, 2,…,  n :

y también

Ésta es una propiedad de la varianza de variables no correlacionadas, que surge de la fórmula de Bienaymé . El resultado requerido se obtiene sustituyendo estas dos fórmulas:

Alternativa 3

La discrepancia esperada entre el estimador sesgado y la verdadera varianza es

Entonces, el valor esperado del estimador sesgado será

Entonces, un estimador insesgado debería estar dado por

Intuición

En el estimador sesgado, al utilizar la media muestral en lugar de la media verdadera, se subestima cada x i  -  µ por x  -  µ . Sabemos que la varianza de una suma es la suma de las varianzas (para variables no correlacionadas). Entonces, para encontrar la discrepancia entre el estimador sesgado y la varianza verdadera, solo necesitamos encontrar el valor esperado de ( x  -  µ ) 2 .

Esta es solo la varianza de la media muestral , que es σ 2 / n . Entonces, esperamos que el estimador sesgado subestime σ 2 por σ 2 / n , por lo que el estimador sesgado = (1 - 1 / n ) × el estimador insesgado = ( n  - 1) / n × el estimador insesgado.

Ver también

Notas

enlaces externos