Media muestral y covarianza - Sample mean and covariance

La media muestral (o "media empírica") y la covarianza muestral son estadísticas calculadas a partir de una muestra de datos sobre una o más variables aleatorias .

La media de la muestra es el valor promedio (o valor medio ) de una muestra de números tomados de una población de números más grande , donde "población" indica no el número de personas sino la totalidad de los datos relevantes, ya sean recopilados o no. Una muestra de las ventas de 40 empresas de la lista Fortune 500 podría usarse por conveniencia en lugar de considerar la población, las ventas de las 500 empresas. La media muestral se utiliza como estimador de la media poblacional, el valor promedio en toda la población, donde la estimación está más cerca de la media poblacional si la muestra es grande y representativa. La confiabilidad de la media muestral se estima usando el error estándar , que a su vez se calcula usando la varianza de la muestra. Si la muestra es aleatoria, el error estándar cae con el tamaño de la muestra y la distribución de la media de la muestra se acerca a la distribución normal a medida que aumenta el tamaño de la muestra.

El término "media de la muestra" también se puede usar para referirse a un vector de valores promedio cuando el estadístico está mirando los valores de varias variables en la muestra, por ejemplo, las ventas, las ganancias y los empleados de una muestra de compañías Fortune 500. En este caso, no hay solo una varianza muestral para cada variable, sino una matriz muestral de varianza-covarianza (o simplemente una matriz de covarianza ) que muestra también la relación entre cada par de variables. Esta sería una matriz de 3x3 cuando se consideran 3 variables. La covarianza de la muestra es útil para juzgar la confiabilidad de las medias de la muestra como estimadores y también es útil como una estimación de la matriz de covarianza de la población.

Debido a su facilidad de cálculo y otras características deseables, la media muestral y la covarianza muestral se utilizan ampliamente en estadística para representar la ubicación y dispersión de la distribución de valores en la muestra y para estimar los valores de la población.

Definición de la media muestral

La media de la muestra es el promedio de los valores de una variable en una muestra, que es la suma de esos valores dividida por el número de valores. Usando notación matemática, si se toma una muestra de N observaciones sobre la variable X de la población, la media de la muestra es:

Según esta definición, si la muestra (1, 4, 1) se toma de la población (1,1,3,4,0,2,1,0), entonces la media de la muestra es (1 + 4 + 1) * 1/3 = 2, en comparación con la media poblacional de (1 + 1 + 3 + 4 + 0 + 2 + 1 + 0) * 1/8 = 12/8 = 1,5. Incluso si una muestra es aleatoria, rara vez es perfectamente representativa, y otras muestras tendrían otras medias muestrales incluso si las muestras fueran todas de la misma población. La muestra (2, 1, 0), por ejemplo, tendría una media muestral de 1.

Si el estadístico está interesado en K variables en lugar de una, y cada observación tiene un valor para cada una de esas K variables, la media muestral general consta de K medias muestrales para variables individuales. Sea la i- ésima observación extraída independientemente ( i = 1, ..., N ) sobre la j- ésima variable aleatoria ( j = 1, ..., K ). Estas observaciones se pueden organizar en N vectores de columna, cada uno con K entradas, con el vector de columna K × 1 que da las i- ésimas observaciones de todas las variables denotadas ( i = 1, ..., N ).

El vector de media muestral es un vector de columna cuyo j- ésimo elemento es el valor promedio de las N observaciones de la j- ésima variable:

Por lo tanto, el vector de media muestral contiene el promedio de las observaciones para cada variable y se escribe

Definición de covarianza muestral

La muestra de matriz de covarianza es un K -by- K matriz con entradas

donde es una estimación de la covarianza entre la j- ésima variable y la k- ésima variable de la población subyacente a los datos. En términos de los vectores de observación, la covarianza muestral es

Alternativamente, organizando los vectores de observación como las columnas de una matriz, de modo que

,

que es una matriz de K filas y N columnas. Aquí, la matriz de covarianza de muestra se puede calcular como

,

donde es un vector N por 1 de unos. Si las observaciones están organizadas como filas en lugar de columnas, entonces ahora es un vector de fila 1 × K y es una matriz N × K cuya columna j es el vector de N observaciones en la variable j , entonces la aplicación de transposiciones en los lugares apropiados produce

Al igual que las matrices de covarianza para vectores aleatorios , las matrices de covarianza de muestra son semidefinidas positivas . Para demostrarlo, tenga en cuenta que para cualquier matriz la matriz es positiva semidefinida. Además, una matriz de covarianza es definida positiva si y solo si el rango de los vectores es K.

Imparcialidad

La media muestral y la matriz de covarianza muestral son estimaciones insesgadas de la media y la matriz de covarianza del vector aleatorio , un vector de fila cuyo j- ésimo elemento ( j = 1, ..., K ) es una de las variables aleatorias. La matriz de covarianza de la muestra tiene en el denominador en lugar de una variante de la corrección de Bessel : En resumen, la covarianza de la muestra se basa en la diferencia entre cada observación y la media de la muestra, pero la media de la muestra está ligeramente correlacionada con cada observación, ya que está definida. en términos de todas las observaciones. Si se conoce la media de la población , la estimación análoga insesgada

usando la media poblacional, tiene en el denominador. Este es un ejemplo de por qué en probabilidad y estadística es esencial distinguir entre variables aleatorias (letras mayúsculas) y realizaciones de las variables aleatorias (letras minúsculas).

La estimación de máxima verosimilitud de la covarianza

para el caso de la distribución gaussiana también tiene N en el denominador. La razón de 1 / N a 1 / ( N  - 1) se acerca a 1 para N grande  , por lo que la estimación de máxima verosimilitud es aproximadamente igual a la estimación insesgada cuando la muestra es grande.

Distribución de la media muestral

Para cada variable aleatoria, la media muestral es un buen estimador de la media poblacional, donde un estimador "bueno" se define como eficiente e insesgado. Por supuesto, es probable que el estimador no sea el valor real de la media poblacional, ya que diferentes muestras extraídas de la misma distribución darán diferentes medias muestrales y, por lo tanto, diferentes estimaciones de la media verdadera. Por tanto, la media muestral es una variable aleatoria , no una constante, y por tanto tiene su propia distribución. Para una muestra aleatoria de N observaciones sobre la j- ésima variable aleatoria, la distribución de la media de la muestra en sí tiene una media igual a la media de la población y la varianza es igual a , donde es la varianza de la población.

La media aritmética de una población , o media poblacional, a menudo se denota μ . La media de la muestra (la media aritmética de una muestra de valores extraídos de la población) es un buen estimador de la media de la población, ya que su valor esperado es igual a la media de la población (es decir, es un estimador insesgado ). La media muestral es una variable aleatoria , no una constante, ya que su valor calculado diferirá aleatoriamente dependiendo de qué miembros de la población sean muestreados y, en consecuencia, tendrá su propia distribución. Para una muestra aleatoria de n observaciones independientes , el valor esperado de la media muestral es

y la varianza de la media muestral es

Si la población tiene una distribución normal , la media muestral se distribuye normalmente de la siguiente manera:

Si la población no tiene una distribución normal, la media muestral se distribuye aproximadamente normalmente si n es grande y  σ 2 / n  <+ ∞. Ésta es una consecuencia del teorema del límite central .

Muestras ponderadas

En una muestra ponderada, a cada vector (cada conjunto de observaciones individuales en cada una de las K variables aleatorias) se le asigna un peso . Sin pérdida de generalidad, suponga que los pesos están normalizados :

(Si no es así, divida los pesos por su suma). Entonces el vector de media ponderada viene dado por

y los elementos de la matriz de covarianza ponderada son

Si todas las ponderaciones son iguales, la media ponderada y la covarianza se reducen a la media muestral (sesgada) y la covarianza mencionadas anteriormente.

Crítica

La media muestral y la covarianza muestral no son estadísticas robustas , lo que significa que son sensibles a valores atípicos . Como la robustez es a menudo un rasgo deseado, particularmente en aplicaciones del mundo real, las alternativas robustas pueden resultar deseables, en particular las estadísticas basadas en cuantiles , como la mediana de la muestra para la ubicación y el rango intercuartílico (IQR) para la dispersión. Otras alternativas incluyen el recorte y la Winsorización , como en la media recortada y la media Winsorizada .

Ver también

Referencias