Estimación imparcial de la desviación estándar - Unbiased estimation of standard deviation

En estadística y en particular teoría estadística , la estimación insesgada de una desviación estándar es el cálculo a partir de una muestra estadística de un valor estimado de la desviación estándar (una medida de dispersión estadística ) de una población de valores, de tal manera que el valor esperado del cálculo es igual al valor real. Excepto en algunas situaciones importantes, que se describen más adelante, la tarea tiene poca relevancia para las aplicaciones de la estadística, ya que se evita su necesidad mediante procedimientos estándar, como el uso de pruebas de significancia e intervalos de confianza , o mediante el uso del análisis bayesiano .

Sin embargo, para la teoría estadística, proporciona un problema ejemplar en el contexto de la teoría de la estimación que es simple de enunciar y para el cual no se pueden obtener resultados en forma cerrada. También proporciona un ejemplo en el que la imposición del requisito de una estimación no sesgada podría verse como un simple inconveniente, sin un beneficio real.

Fondo

En estadística , la desviación estándar de una población de números a menudo se estima a partir de una muestra aleatoria extraída de la población. Esta es la desviación estándar de la muestra, que se define por

donde es la muestra (formalmente, realizaciones de una variable aleatoria X ) y es la media de la muestra .

Una forma de ver que se trata de un estimador sesgado de la desviación estándar de la población es partir del resultado de que s 2 es un estimador insesgado de la varianza σ 2 de la población subyacente si esa varianza existe y los valores de la muestra se extraen de forma independiente. con reemplazo. La raíz cuadrada es una función no lineal, y solo las funciones lineales conmutan tomando la expectativa. Dado que la raíz cuadrada es una función estrictamente cóncava, de la desigualdad de Jensen se deduce que la raíz cuadrada de la varianza muestral es una subestimación.

El uso de n  - 1 en lugar de n en la fórmula para la varianza muestral se conoce como corrección de Bessel , que corrige el sesgo en la estimación de la varianza poblacional , y algunos, pero no todos los sesgos en la estimación del estándar poblacional . desviación.

No es posible encontrar una estimación de la desviación estándar que sea insesgada para todas las distribuciones de población, ya que el sesgo depende de la distribución particular. Gran parte de lo siguiente se relaciona con la estimación asumiendo una distribución normal .

Corrección de sesgo

Resultados de la distribución normal

Factor de corrección versus tamaño de muestra n .

Cuando la variable aleatoria se distribuye normalmente , existe una pequeña corrección para eliminar el sesgo. Para derivar la corrección, tenga en cuenta que para X distribuido normalmente , el teorema de Cochran implica que tiene una distribución chi cuadrado con grados de libertad y, por lo tanto, su raíz cuadrada tiene una distribución chi con grados de libertad. En consecuencia, calculando la expectativa de esta última expresión y reordenando las constantes,

donde el factor de corrección es la media escala de la distribución chi con grados de libertad, . Esto depende del tamaño de la muestra n, y se da de la siguiente manera:

donde Γ (·) es la función gamma . Se puede obtener un estimador insesgado de σ dividiendo por . A medida que crece, se acerca a 1, e incluso para valores más pequeños, la corrección es menor. La figura muestra una gráfica de versus tamaño de muestra. La siguiente tabla proporciona valores numéricos y expresiones algebraicas para algunos valores de ; En la mayoría de los libros de texto se pueden encontrar tablas más completas sobre control estadístico de la calidad .

Tamaño de la muestra Expresión de Valor numérico
2 0,7978845608
3 0.8862269255
4 0.9213177319
5 0,9399856030
6 0,9515328619
7 0,9593687891
8 0,9650304561
9 0,9693106998
10 0,9726592741
100 0,9974779761
1000 0,9997497811
10000 0,9999749978
2k
2k + 1

Es importante tener en cuenta que esta corrección solo produce un estimador insesgado para X distribuido normal e independientemente . Cuando se satisface esta condición, otro resultado de la participación de s es que el error estándar de s es , mientras que el error estándar del estimador insesgado es

Regla de oro para la distribución normal

Si el cálculo de la función c 4 ( n ) parece demasiado difícil, existe una regla práctica simple para tomar el estimador

La fórmula difiere de la expresión familiar para s 2 solo por tener n - 1.5 en lugar de n - 1 en el denominador. Esta expresión es solo aproximada; De hecho,

El sesgo es relativamente pequeño: digamos, porque es igual a 1.3%, y para el sesgo ya es 0.1%.

Otras distribuciones

En los casos en que los datos estadísticamente independientes se modelen mediante una familia paramétrica de distribuciones distintas de la distribución normal , la desviación estándar de la población será, si existe, una función de los parámetros del modelo. Un enfoque general para la estimación sería la máxima verosimilitud . Alternativamente, puede ser posible utilizar el teorema de Rao-Blackwell como una ruta para encontrar una buena estimación de la desviación estándar. En ninguno de los casos, las estimaciones obtenidas suelen ser insesgadas. Teóricamente, podrían obtenerse ajustes teóricos que conduzcan a estimaciones insesgadas pero, a diferencia de las de la distribución normal, estas dependerían típicamente de los parámetros estimados.

Si el requisito es simplemente reducir el sesgo de una desviación estándar estimada, en lugar de eliminarlo por completo, entonces hay dos enfoques prácticos disponibles, ambos dentro del contexto del remuestreo . Estos son jackknifing y bootstrapping . Ambos se pueden aplicar a estimaciones de la desviación estándar basadas en parámetros paramétricos o a la desviación estándar de la muestra.

Para distribuciones no normales, una fórmula aproximada (hasta O ( n −1 ) términos) para el estimador insesgado de la desviación estándar es

donde γ 2 denota el exceso de curtosis poblacional . El exceso de curtosis puede ser conocido de antemano para ciertas distribuciones o estimado a partir de los datos.

Efecto de la autocorrelación (correlación serial)

El material anterior, para enfatizar el punto nuevamente, se aplica solo a datos independientes. Sin embargo, los datos del mundo real a menudo no cumplen con este requisito; está autocorrelacionado (también conocido como correlación serial). Como ejemplo, las lecturas sucesivas de un instrumento de medición que incorpora alguna forma de proceso de "suavizado" (más correctamente, filtrado de paso bajo) estarán autocorrelacionadas, ya que cualquier valor particular se calcula a partir de alguna combinación de las lecturas anteriores y posteriores.

Las estimaciones de la varianza y la desviación estándar de los datos autocorrelacionados estarán sesgadas. El valor esperado de la varianza muestral es

donde n es el tamaño de la muestra (número de mediciones) y es la función de autocorrelación (ACF) de los datos. (Tenga en cuenta que la expresión entre paréntesis es simplemente uno menos la autocorrelación promedio esperada para las lecturas). Si el ACF consta de valores positivos, la estimación de la varianza (y su raíz cuadrada, la desviación estándar) tendrá un sesgo bajo. Es decir, la variabilidad real de los datos será mayor que la indicada por un cálculo de desviación estándar o varianza no corregida. Es esencial reconocer que, si esta expresión se va a utilizar para corregir el sesgo, al dividir la estimación por la cantidad entre paréntesis arriba, entonces el ACF debe conocerse analíticamente , no a través de la estimación de los datos. Esto se debe a que el ACF estimado estará en sí mismo sesgado.

Ejemplo de sesgo en la desviación estándar

Para ilustrar la magnitud del sesgo en la desviación estándar, considere un conjunto de datos que consiste en lecturas secuenciales de un instrumento que usa un filtro digital específico cuyo ACF se sabe que está dado por

donde α es el parámetro del filtro, y toma valores de cero a la unidad. Por tanto, el ACF es positivo y geométricamente decreciente.

Sesgo en la desviación estándar para datos autocorrelacionados.

La figura muestra la relación entre la desviación estándar estimada y su valor conocido (que se puede calcular analíticamente para este filtro digital), para varios ajustes de α en función del tamaño de muestra n . Cambiar α altera la relación de reducción de la varianza del filtro, que se sabe que es

de modo que los valores más pequeños de α dan como resultado una mayor reducción de la varianza o "suavizado". El sesgo se indica mediante valores en el eje vertical diferentes de la unidad; es decir, si no hubiera sesgo, la relación entre la desviación estándar estimada y la conocida sería la unidad. Claramente, para tamaños de muestra modestos puede haber un sesgo significativo (un factor de dos o más).

Varianza de la media

A menudo es de interés estimar la varianza o la desviación estándar de una media estimada en lugar de la varianza de una población. Cuando los datos están autocorrelacionados, esto tiene un efecto directo sobre la varianza teórica de la media muestral, que es

La varianza de la media muestral se puede estimar sustituyendo una estimación de σ 2 . Una de esas estimaciones se puede obtener de la ecuación para E [s 2 ] dada anteriormente. Primero defina las siguientes constantes, asumiendo, nuevamente, un ACF conocido :

así que eso

Esto dice que el valor esperado de la cantidad obtenida al dividir la varianza de la muestra observada por el factor de corrección da una estimación insesgada de la varianza. De manera similar, reescribiendo la expresión anterior para la varianza de la media,

y sustituyendo la estimación por da

que es un estimador insesgado de la varianza de la media en términos de varianza muestral observada y cantidades conocidas. Si las autocorrelaciones son idénticamente cero, esta expresión se reduce al resultado conocido para la varianza de la media para datos independientes. El efecto del operador de expectativa en estas expresiones es que la igualdad se mantiene en la media (es decir, en promedio).

Estimación de la desviación estándar de la población.

Teniendo las expresiones anteriores que involucran la varianza de la población, y de una estimación de la media de esa población, parecería lógico simplemente tomar la raíz cuadrada de estas expresiones para obtener estimaciones insesgadas de las respectivas desviaciones estándar. Sin embargo, es el caso que, dado que las expectativas son integrales,

En su lugar, suponga que existe una función θ tal que se pueda escribir un estimador insesgado de la desviación estándar

y θ depende del tamaño de la muestra ny del FCA. En el caso de datos NID (distribuidos normal e independientemente), el radicando es la unidad y θ es solo la función c 4 dada en la primera sección anterior. Al igual que con c 4 , θ se acerca a la unidad a medida que aumenta el tamaño de la muestra (al igual que γ 1 ).

Se puede demostrar a través del modelado de simulación que ignorando θ (es decir, tomando como unidad) y usando

elimina todo menos un pequeño porcentaje del sesgo causado por la autocorrelación, lo que lo convierte en un estimador de sesgos reducidos , en lugar de un estimador no sesgado. En situaciones prácticas de medición, esta reducción del sesgo puede ser significativa y útil, incluso si persiste un sesgo relativamente pequeño. La figura anterior, que muestra un ejemplo del sesgo en la desviación estándar frente al tamaño de la muestra, se basa en esta aproximación; el sesgo real sería algo mayor que el indicado en esos gráficos, ya que el sesgo de transformación θ no se incluye allí.

Estimación de la desviación estándar de la media muestral

La varianza insesgada de la media en términos de la varianza de la población y el ACF viene dada por

y dado que aquí no hay valores esperados, en este caso se puede sacar la raíz cuadrada, de modo que

Usando la expresión de estimación insesgada anterior para σ , se obtendrá una estimación de la desviación estándar de la media.

Si los datos son NID, de modo que el ACF desaparece, esto se reduce a

En presencia de un ACF distinto de cero, ignorar la función θ como antes conduce al estimador de sesgos reducidos

que nuevamente se puede demostrar que elimina una útil mayoría del sesgo.

Ver también

Referencias

  • Douglas C. Montgomery y George C. Runger, Estadística aplicada y probabilidad para ingenieros , 3ª edición, Wiley e hijos, 2003. (véanse las Secciones 7–2.2 y 16–5).

enlaces externos

Dominio publico Este artículo incorpora  material de dominio público del sitio web del Instituto Nacional de Estándares y Tecnología https://www.nist.gov .