Error estándar - Standard error

Para un valor que se muestrea con un error distribuido normalmente sin sesgo , lo anterior representa la proporción de muestras que caerían entre 0, 1, 2 y 3 desviaciones estándar por encima y por debajo del valor real.

El error estándar ( SE ) de una estadística (generalmente una estimación de un parámetro ) es la desviación estándar de su distribución muestral o una estimación de esa desviación estándar. Si el estadístico es la media muestral, se denomina error estándar de la media ( SEM ).

La distribución muestral de una media se genera mediante un muestreo repetido de la misma población y el registro de las medias muestrales obtenidas. Esto forma una distribución de diferentes medias, y esta distribución tiene su propia media y varianza . Matemáticamente, la varianza de la distribución muestral obtenida es igual a la varianza de la población dividida por el tamaño de la muestra. Esto se debe a que a medida que aumenta el tamaño de la muestra, las medias de la muestra se agrupan más estrechamente alrededor de la media de la población.

Por lo tanto, la relación entre el error estándar de la media y la desviación estándar es tal que, para un tamaño de muestra dado, el error estándar de la media es igual a la desviación estándar dividida por la raíz cuadrada del tamaño de la muestra. En otras palabras, el error estándar de la media es una medida de la dispersión de las medias muestrales alrededor de la media poblacional.

En el análisis de regresión , el término "error estándar" se refiere a la raíz cuadrada del estadístico chi cuadrado reducido o al error estándar para un coeficiente de regresión particular (como se usa en, digamos, intervalos de confianza ).

Error estandar de la media

Valor exacto

Si se toma una muestra de observaciones estadísticamente independiente de una población estadística con una desviación estándar de , entonces el valor medio calculado a partir de la muestra tendrá un error estándar asociado en la media dada por:

.

Prácticamente esto nos dice que cuando se trata de estimar el valor de una media poblacional, debido al factor , reducir el error en la estimación por un factor de dos requiere adquirir cuatro veces más observaciones en la muestra; reducirlo por un factor de diez requiere cien veces más observaciones.

Estimar

Rara vez se conoce la desviación estándar de la población muestreada. Por lo tanto, el error estándar de la media generalmente se estima reemplazando con la desviación estándar de la muestra en su lugar:

.

Como este es solo un estimador del verdadero "error estándar", es común ver aquí otras notaciones como:

o alternativamente .

Una fuente común de confusión ocurre cuando no se distingue claramente entre la desviación estándar de la población ( ), la desviación estándar de la muestra ( ), la desviación estándar de la propia media ( que es el error estándar) y el estimador de la desviación estándar de la media ( que es la cantidad calculada con más frecuencia y que también se denomina coloquialmente error estándar ).

Precisión del estimador

Cuando el tamaño de la muestra es pequeño, el uso de la desviación estándar de la muestra en lugar de la desviación estándar real de la población tenderá a subestimar sistemáticamente la desviación estándar de la población y, por lo tanto, también el error estándar. Con n = 2, la subestimación es de aproximadamente el 25%, pero para n = 6, la subestimación es solo del 5%. Gurland y Tripathi (1971) proporcionan una corrección y una ecuación para este efecto. Sokal y Rohlf (1981) dan una ecuación del factor de corrección para muestras pequeñas de n <20. Véase la estimación insesgada de la desviación estándar para una discusión más detallada.

Derivación

El error estándar de la media puede derivarse de la varianza de una suma de variables aleatorias independientes, dada la definición de varianza y algunas propiedades simples de la misma. Si son observaciones independientes de una población con media y desviación estándar , entonces podemos definir el total

que debido a la fórmula Bienaymé , tendrá varianza

La media de estas medidas viene dada simplemente por

.

La varianza de la media es entonces

El error estándar es, por definición, la desviación estándar del cual es simplemente la raíz cuadrada de la varianza:

.

Para las variables aleatorias correlacionadas, la varianza muestral debe calcularse de acuerdo con el teorema del límite central de la cadena de Markov .

Variables aleatorias independientes e idénticamente distribuidas con tamaño de muestra aleatorio

Hay casos en los que se toma una muestra sin saber de antemano cuántas observaciones serán aceptables según algún criterio. En tales casos, el tamaño de la muestra es una variable aleatoria cuya variación se suma a la variación de tal que,

Si tiene una distribución de Poisson , entonces con estimador . Por lo tanto, el estimador de se convierte en , lo que lleva a la siguiente fórmula para el error estándar:

(dado que la desviación estándar es la raíz cuadrada de la varianza)

Aproximación de estudiante cuando se desconoce el valor de σ

En muchas aplicaciones prácticas, se desconoce el verdadero valor de σ . Como resultado, necesitamos usar una distribución que tenga en cuenta esa extensión de posibles σ . Cuando se sabe que la verdadera distribución subyacente es gaussiana, aunque con una σ desconocida, la distribución estimada resultante sigue la distribución t de Student. El error estándar es la desviación estándar de la distribución t de Student. Las distribuciones T son ligeramente diferentes de las gaussianas y varían según el tamaño de la muestra. Es más probable que las muestras pequeñas subestimen la desviación estándar de la población y tengan una media que difiera de la media real de la población, y la distribución t de Student explica la probabilidad de estos eventos con colas algo más pesadas en comparación con una gaussiana. Para estimar el error estándar de una distribución t de Student es suficiente usar la desviación estándar muestral "s" en lugar de σ , y podríamos usar este valor para calcular los intervalos de confianza.

Nota: La distribución de probabilidad de Student se aproxima bien por la distribución gaussiana cuando el tamaño de la muestra es superior a 100. Para tales muestras, se puede utilizar la última distribución, que es mucho más simple.

Supuestos y uso

Un ejemplo de cómo se usa es hacer que los intervalos de confianza de la población desconocida sean la media. Si la distribución muestral tiene una distribución normal , la media muestral, el error estándar y los cuantiles de la distribución normal se pueden utilizar para calcular los intervalos de confianza para la media poblacional verdadera. Las siguientes expresiones se pueden utilizar para calcular los límites de confianza superior e inferior del 95%, donde es igual a la media de la muestra, es igual al error estándar para la media de la muestra y 1,96 es el valor aproximado del punto del percentil 97,5 de la normal. distribución :

Límite superior del 95% y
Límite inferior del 95%

En particular, el error estándar de una estadística muestral (como la media muestral ) es la desviación estándar real o estimada de la media muestral en el proceso mediante el cual se generó. En otras palabras, es la desviación estándar real o estimada de la distribución muestral del estadístico muestral. La notación para el error estándar puede ser cualquiera de SE, SEM (por error estándar de medición o media ), o S E .

Los errores estándar proporcionan medidas simples de incertidumbre en un valor y, a menudo, se utilizan porque:

Error estándar de la media frente a la desviación estándar

En la literatura científica y técnica, los datos experimentales a menudo se resumen utilizando la media y la desviación estándar de los datos de la muestra o la media con el error estándar. Esto a menudo genera confusión sobre su intercambiabilidad. Sin embargo, la media y la desviación estándar son estadísticas descriptivas , mientras que el error estándar de la media es descriptivo del proceso de muestreo aleatorio. La desviación estándar de los datos de la muestra es una descripción de la variación en las mediciones, mientras que el error estándar de la media es una declaración probabilística sobre cómo el tamaño de la muestra proporcionará un mejor límite en las estimaciones de la media de la población, a la luz del límite central. teorema.

En pocas palabras, el error estándar de la media de la muestra es una estimación de qué tan lejos es probable que esté la media de la muestra de la media de la población, mientras que la desviación estándar de la muestra es el grado en que los individuos dentro de la muestra difieren de la media de la muestra. Si la desviación estándar de la población es finita, el error estándar de la media de la muestra tenderá a cero al aumentar el tamaño de la muestra, porque la estimación de la media de la población mejorará, mientras que la desviación estándar de la muestra tenderá a aproximarse al estándar de la población. desviación a medida que aumenta el tamaño de la muestra.

Extensiones

Corrección de población finita (FPC)

La fórmula dada anteriormente para el error estándar asume que el tamaño de la muestra es mucho más pequeño que el tamaño de la población, por lo que la población puede considerarse efectivamente infinita en tamaño. Este suele ser el caso incluso con poblaciones finitas, porque la mayoría de las veces, las personas están interesadas principalmente en gestionar los procesos que crearon la población finita existente; esto se llama un estudio analítico , siguiendo a W. Edwards Deming . Si las personas están interesadas en administrar una población finita existente que no cambiará con el tiempo, entonces es necesario hacer ajustes al tamaño de la población; esto se llama estudio enumerativo .

Cuando la fracción de muestreo (a menudo denominada f ) es grande (aproximadamente al 5% o más) en un estudio enumerativo , la estimación del error estándar debe corregirse multiplicando por una `` corrección de población finita '' (también conocida como fpc ):

que, para N grande :

para tener en cuenta la precisión adicional obtenida mediante el muestreo cercano a un porcentaje mayor de la población. El efecto de la FPC es que el error se hace cero cuando el tamaño de la muestra n es igual al tamaño de la población N .

Esto sucede en la metodología de la encuesta cuando se realiza un muestreo sin reemplazo . Si se toma una muestra con reemplazo, entonces FPC no entra en juego.

Corrección por correlación en la muestra

Error esperado en la media de A para una muestra de n puntos de datos con coeficiente de sesgo de muestra  ρ . El error estándar insesgado se representa como la  línea diagonal ρ = 0 con pendiente log-log −½.

Si los valores de la cantidad medida A no son estadísticamente independientes, pero se han obtenido de ubicaciones conocidas en el espacio de parámetros  x , se puede obtener una estimación insesgada del verdadero error estándar de la media (en realidad, una corrección en la parte de la desviación estándar) multiplicando la error estándar calculado de la muestra por el factor  f :

donde el coeficiente de sesgo de la muestra ρ es la estimación ampliamente utilizada de Prais-Winsten del coeficiente de autocorrelación (una cantidad entre -1 y +1) para todos los pares de puntos muestrales. Esta fórmula aproximada es para tamaños de muestra de moderados a grandes; la referencia proporciona las fórmulas exactas para cualquier tamaño de muestra y se puede aplicar a series de tiempo muy autocorrelacionadas como las cotizaciones de acciones de Wall Street. Además, esta fórmula funciona tanto para ρ positiva como negativa. Consulte también la estimación no sesgada de la desviación estándar para obtener más información.

Ver también

Referencias