Sesgo de un estimador - Bias of an estimator

En estadística , el sesgo (o función de sesgo ) de un estimador es la diferencia entre el valor esperado de este estimador y el valor real del parámetro que se está estimando. Un estimador o regla de decisión con sesgo cero se llama insesgado . En estadística, el "sesgo" es una propiedad objetiva de un estimador. Bias también se puede medir con respecto a la mediana , en lugar de la (valor esperado) media, en cuyo caso se distingue mediana -unbiased de la habitual media propiedad -unbiasedness. El sesgo es un concepto distinto de la coherencia . Los estimadores consistentes convergen en probabilidad con el valor real del parámetro, pero pueden estar sesgados o no sesgados; vea sesgo versus consistencia para más.

En igualdad de condiciones, un estimador insesgado es preferible a un estimador sesgado, aunque en la práctica se utilizan con frecuencia estimadores sesgados (con un sesgo generalmente pequeño). Cuando se utiliza un estimador sesgado, se calculan los límites del sesgo. Un estimador sesgado puede usarse por varias razones: porque no existe un estimador insesgado sin más supuestos sobre una población; porque un estimador es difícil de calcular (como en la estimación insesgada de la desviación estándar ); porque un estimador es insesgado en la mediana pero no insesgado en la media (o al revés); porque un estimador sesgado da un valor más bajo de alguna función de pérdida (particularmente el error cuadrático medio ) en comparación con los estimadores insesgados (especialmente en los estimadores de contracción ); o porque en algunos casos ser insesgado es una condición demasiado fuerte y los únicos estimadores insesgados no son útiles.

Además, el sesgo medio no se conserva en las transformaciones no lineales, aunque sí el sesgo medio (véase § Efecto de las transformaciones ); por ejemplo, la varianza de la muestra es un estimador sesgado de la varianza de la población. Todos estos se ilustran a continuación.

Definición

Supongamos que tenemos un modelo estadístico , parametrizado por un número real θ , que da lugar a una distribución de probabilidad para los datos observados , y un estadístico que sirve como estimador de θ basado en cualquier dato observado . Es decir, asumimos que nuestros datos siguen una distribución desconocida (donde θ es una constante desconocida fija que es parte de esta distribución), y luego construimos un estimador que mapea los datos observados a valores que esperamos estén cerca de θ . El sesgo de relativo a se define como

donde denota el valor esperado sobre la distribución (es decir, el promedio de todas las observaciones posibles ). La segunda ecuación sigue ya que θ es medible con respecto a la distribución condicional .

Se dice que un estimador es insesgado si su sesgo es igual a cero para todos los valores del parámetro θ , o de manera equivalente, si el valor esperado del estimador coincide con el del parámetro.

En un experimento de simulación sobre las propiedades de un estimador, el sesgo del estimador puede evaluarse utilizando la diferencia media con signo .

Ejemplos de

Varianza de la muestra

La varianza muestral de una variable aleatoria demuestra dos aspectos del sesgo del estimador: en primer lugar, el estimador ingenuo está sesgado, lo que puede corregirse mediante un factor de escala; en segundo lugar, el estimador insesgado no es óptimo en términos de error cuadrático medio (MSE), que puede minimizarse utilizando un factor de escala diferente, lo que da como resultado un estimador sesgado con un MSE más bajo que el estimador insesgado. Concretamente, el estimador ingenuo suma las desviaciones al cuadrado y divide por n, que está sesgado. En cambio, dividir por n  - 1 produce un estimador insesgado. Por el contrario, el MSE se puede minimizar dividiendo por un número diferente (según la distribución), pero esto da como resultado un estimador sesgado. Este número es siempre mayor que n  - 1, por lo que se conoce como estimador de contracción , ya que "reduce" el estimador insesgado hacia cero; para la distribución normal, el valor óptimo es n  + 1.

Suponga que X 1 , ..., X n son variables aleatorias independientes e idénticamente distribuidas (iid) con expectativa μ y varianza σ 2 . Si la media muestral y la varianza muestral no corregida se definen como

entonces S 2 es un estimador sesgado de σ 2 , porque

Para continuar, notamos que al restar de ambos lados de , obtenemos

Significado, (por multiplicación cruzada) . Entonces, lo anterior se convierte en:

Esto se puede ver observando la siguiente fórmula, que se deduce de la fórmula Bienaymé , por el término en la desigualdad para la expectativa de la varianza de la muestra sin corregir arriba: .

En otras palabras, el valor esperado de la varianza muestral sin corregir no es igual a la varianza poblacional σ 2 , a menos que se multiplique por un factor de normalización. La media muestral, por otro lado, es un estimador insesgado de la media poblacional  μ .

Tenga en cuenta que la definición habitual de varianza muestral es , y este es un estimador insesgado de la varianza poblacional.

Hablando algebraicamente, es imparcial porque:

donde la transición a la segunda línea utiliza el resultado derivado anteriormente para el estimador sesgado. Por tanto , y por tanto es un estimador insesgado de la varianza poblacional, σ 2 . La relación entre las estimaciones sesgadas (no corregidas) e insesgadas de la varianza se conoce como corrección de Bessel .

La razón por la que una varianza muestral no corregida, S 2 , está sesgada se debe al hecho de que la media muestral es un estimador de mínimos cuadrados ordinarios (MCO) para μ : es el número que hace que la suma sea lo más pequeña posible. Es decir, cuando se inserta cualquier otro número en esta suma, la suma solo puede aumentar. En particular, la elección da,

y entonces

La discusión anterior se puede entender en términos geométricos: el vector se puede descomponer en la "parte media" y la "parte de la varianza" proyectando en la dirección y en el hiperplano del complemento ortogonal de esa dirección. Se obtiene por la parte a lo largo y por la parte complementaria. Dado que esta es una descomposición ortogonal, dice el teorema de Pitágoras , y tomando las expectativas obtenemos , como arriba (pero tiempos ). Si la distribución de es rotacionalmente simétrica, como en el caso en que se muestrean de un gaussiano, entonces, en promedio, la dimensión a lo largo contribuye a igual que las direcciones perpendiculares a , de modo que y . De hecho, esto es cierto en general, como se explicó anteriormente.

Estimando una probabilidad de Poisson

Un caso mucho más extremo de un estimador sesgado que es mejor que cualquier estimador insesgado surge de la distribución de Poisson . Suponga que X tiene una distribución de Poisson con expectativa  λ . Suponga que se desea estimar

con una muestra de tamaño 1. (Por ejemplo, cuando las llamadas entrantes en una centralita telefónica se modelan como un proceso de Poisson, y λ es el número promedio de llamadas por minuto, entonces e −2 λ es la probabilidad de que no lleguen llamadas en el los próximos dos minutos.)

Dado que la expectativa de un estimador insesgado δ ( X ) es igual al estimador, es decir

la única función de los datos que constituyen un estimador insesgado es

Para ver esto, tenga en cuenta que al descomponer e - λ de la expresión anterior para la expectativa, la suma que queda es una expansión de la serie de Taylor de e - λ también, lo que da como resultado e - λ e - λ  = e −2 λ (ver Caracterizaciones de la función exponencial ).

Si el valor observado de X es 100, entonces la estimación es 1, aunque es muy probable que el valor real de la cantidad que se estima esté cerca de 0, que es el extremo opuesto. Y, si se observa que X es 101, entonces la estimación es aún más absurda: es -1, aunque la cantidad que se estima debe ser positiva.

El estimador de máxima verosimilitud (sesgado)

es mucho mejor que este estimador insesgado. No solo su valor es siempre positivo, sino que también es más preciso en el sentido de que su error cuadrático medio

es más pequeño; comparar el MSE del estimador insesgado de

Las MPE son funciones del valor real  λ . El sesgo del estimador de máxima verosimilitud es:

Máximo de una distribución uniforme discreta

El sesgo de los estimadores de máxima verosimilitud puede ser sustancial. Consideremos un caso en el que n entradas numeradas de 1 hasta n se colocan en una caja y uno se selecciona al azar, dando un valor X . Si n es desconocido, entonces el estimador de máxima verosimilitud de n es X , aunque la expectativa de X dado n es solo ( n  + 1) / 2; sólo podemos estar seguros de que n es al menos X y probablemente más. En este caso, el estimador insesgado natural es 2 X  - 1.

Estimadores de mediana insesgada

La teoría de los estimadores no sesgados de la mediana fue revivida por George W. Brown en 1947:

Una estimación de un parámetro unidimensional θ se considerará insesgada en la mediana si, para θ fijo, la mediana de la distribución de la estimación está en el valor θ; es decir, la estimación subestima tan a menudo como sobreestima. Para la mayoría de los propósitos, este requisito parece cumplir tanto como el requisito de media insesgada y tiene la propiedad adicional de que es invariante bajo la transformación uno a uno.

Lehmann, Birnbaum, van der Vaart y Pfanzagl han observado otras propiedades de los estimadores de mediana insesgada. En particular, existen estimadores de mediana insesgada en los casos en que no existen estimadores de media insesgada y de máxima verosimilitud . Son invariantes bajo transformaciones uno a uno .

Existen métodos de construcción de estimadores de mediana insesgada para distribuciones de probabilidad que tienen funciones de verosimilitud monótonas , como familias exponenciales de un parámetro, para garantizar que sean óptimas (en un sentido análogo a la propiedad de varianza mínima considerada para estimadores de media insesgada) . Uno de estos procedimientos es análogo al procedimiento de Rao-Blackwell para estimadores de media insesgada: el procedimiento es válido para una clase más pequeña de distribuciones de probabilidad que el procedimiento de Rao-Blackwell para la estimación de media insesgada, pero para una clase más grande de funciones de pérdida.

Sesgo con respecto a otras funciones de pérdida

Cualquier estimador no sesgado de media de varianza mínima minimiza el riesgo ( pérdida esperada ) con respecto a la función de pérdida de error al cuadrado (entre los estimadores de media insesgada), según lo observado por Gauss . Un estimador no sesgado de la mediana de la desviación absoluta media mínima minimiza el riesgo con respecto a la función de pérdida absoluta (entre los estimadores de la mediana no sesgada), como lo observó Laplace . Otras funciones de pérdida se utilizan en estadísticas, particularmente en estadísticas sólidas .

Efecto de las transformaciones

Como se indicó anteriormente, para los parámetros univariados, los estimadores de mediana insesgada permanecen insesgados de mediana bajo transformaciones que preservan el orden (o el orden inverso).

Tenga en cuenta que, cuando se aplica una transformación a un estimador sin sesgo de la media, no es necesario que el resultado sea un estimador sin sesgo de la media de su correspondiente estadístico de población. Según la desigualdad de Jensen , una función convexa como transformación introducirá un sesgo positivo, mientras que una función cóncava introducirá un sesgo negativo, y una función de convexidad mixta puede introducir un sesgo en cualquier dirección, dependiendo de la función y distribución específicas. Es decir, para una función no lineal f y un estimador medio insesgado U de un parámetro p , el estimador compuesto f ( U ) no necesita ser un estimador medio insesgado de f ( p ). Por ejemplo, la raíz cuadrada del estimador insesgado de la varianza de la población no es un estimador sin sesgo medio de la desviación estándar de la población : la raíz cuadrada de la varianza de la muestra insesgada , la desviación estándar de la muestra corregida , está sesgada. El sesgo depende tanto de la distribución de muestreo del estimador como de la transformada, y puede ser bastante complicado calcularlo; consulte la estimación no sesgada de la desviación estándar para una discusión en este caso.

Sesgo, varianza y error cuadrático medio

Distribuciones muestrales de dos estimadores alternativos para un parámetro β 0 . Aunque β 1 ^ no tiene sesgo, es claramente inferior al β 2 ^ sesgado .

La regresión de crestas es un ejemplo de una técnica en la que permitir un pequeño sesgo puede conducir a una reducción considerable en la varianza y estimaciones más confiables en general.

Si bien el sesgo cuantifica la diferencia promedio que se espera entre un estimador y un parámetro subyacente, también se puede esperar que un estimador basado en una muestra finita difiera del parámetro debido a la aleatoriedad de la muestra.

Una medida que se usa para tratar de reflejar ambos tipos de diferencia es el error cuadrático medio ,

Se puede demostrar que esto es igual al cuadrado del sesgo, más la varianza:

Cuando el parámetro es un vector, se aplica una descomposición análoga:

dónde

es la traza de la matriz de covarianza del estimador.

Un estimador que minimiza el sesgo no necesariamente minimizará el error cuadrático medio.

Ejemplo: estimación de la varianza de la población

Por ejemplo, suponga un estimador de la forma

Se busca la varianza de la población como se indicó anteriormente, pero esta vez para minimizar el MSE:

Si las variables X 1 ... X n siguen una distribución normal, entonces nS 2 / σ 2 tiene una distribución chi-cuadrado con n  - 1 grados de libertad, dando:

y entonces

Con un poco de álgebra se puede confirmar que es c = 1 / ( n  + 1) lo que minimiza esta función de pérdida combinada, en lugar de c = 1 / ( n  - 1) que minimiza solo el término de sesgo.

De manera más general, sólo en clases restringidas de problemas habrá un estimador que minimice el MSE independientemente de los valores de los parámetros.

Sin embargo, es muy común que se perciba que existe una compensación entre sesgo y varianza , de modo que un pequeño aumento en el sesgo puede intercambiarse por una mayor disminución en la varianza, lo que resulta en un estimador más deseable en general.

Vista bayesiana

La mayoría de los bayesianos no se preocupan por la imparcialidad (al menos en el sentido formal de la teoría del muestreo anterior) de sus estimaciones. Por ejemplo, Gelman y coautores (1995) escriben: "Desde una perspectiva bayesiana, el principio de imparcialidad es razonable en el límite de muestras grandes, pero por lo demás es potencialmente engañoso".

Fundamentalmente, la diferencia entre el enfoque bayesiano y el enfoque de la teoría del muestreo anterior es que en el enfoque de la teoría del muestreo el parámetro se toma como fijo, y luego se consideran las distribuciones de probabilidad de una estadística, basándose en la distribución muestral predicha de los datos. Para un bayesiano, sin embargo, son los datos los que son conocidos y fijos, y es el parámetro desconocido para el que se intenta construir una distribución de probabilidad, utilizando el teorema de Bayes :

Aquí el segundo término, la probabilidad de los datos dado el valor del parámetro desconocido θ, depende solo de los datos obtenidos y del modelado del proceso de generación de datos. Sin embargo, un cálculo bayesiano también incluye el primer término, la probabilidad previa para θ, que tiene en cuenta todo lo que el analista puede saber o sospechar θ antes de que lleguen los datos. Esta información no juega ningún papel en el enfoque de la teoría del muestreo; de hecho, cualquier intento de incluirlo se consideraría un "sesgo" que se aparta de lo señalado únicamente por los datos. En la medida en que los cálculos bayesianos incluyan información previa, es esencialmente inevitable que sus resultados no sean "insesgados" en términos de la teoría del muestreo.

Pero los resultados de un enfoque bayesiano pueden diferir del enfoque de la teoría del muestreo, incluso si el bayesiano intenta adoptar un a priori "no informativo".

Por ejemplo, considere nuevamente la estimación de una varianza poblacional desconocida σ 2 de una distribución Normal con media desconocida, donde se desea optimizar c en la función de pérdida esperada

Una opción estándar de poco informativa previa para este problema es la Jeffreys antes , que es equivalente a la adopción de un cambio de escala invariante plana previa para ln (σ 2 ) .

Una consecuencia de adoptar esta prioridad es que S 2 / σ 2 sigue siendo una cantidad fundamental , es decir, la distribución de probabilidad de S 2 / σ 2 depende solo de S 2 / σ 2 , independientemente del valor de S 2 o σ 2 :

Sin embargo, mientras

a diferencia de

- cuando se toma la expectativa sobre la distribución de probabilidad de σ 2 dado S 2 , como ocurre en el caso bayesiano, en lugar de S 2 dado σ 2 , ya no se puede tomar σ 4 como constante y factorizarlo. La consecuencia de esto es que, en comparación con el cálculo de la teoría de muestreo, el cálculo bayesiano pone más peso en valores más grandes de σ 2 , teniendo en cuenta adecuadamente (como el cálculo de la teoría de muestreo no puede) que bajo esta función de pérdida al cuadrado la consecuencia de subestimar valores grandes de σ 2 es más costoso en términos de pérdida al cuadrado que el de sobreestimar valores pequeños de σ 2 .

El cálculo bayesiano elaborado da una distribución chi-cuadrado inversa escalada con n  - 1 grados de libertad para la distribución de probabilidad posterior de σ 2 . La pérdida esperada se minimiza cuando cnS 2  = <σ 2 >; esto ocurre cuando c  = 1 / ( n  - 3).

Incluso con un previo no informativo, por lo tanto, un cálculo bayesiano puede no dar el mismo resultado de minimización de pérdidas esperadas que el cálculo correspondiente de la teoría de muestreo.

Ver también

Notas

Referencias

  • Brown, George W. "Sobre estimación de muestras pequeñas". The Annals of Mathematical Statistics , vol. 18, no. 4 (diciembre de 1947), págs. 582–585. JSTOR   2236236 .
  • Lehmann, EL "Un concepto general de imparcialidad" The Annals of Mathematical Statistics , vol. 22, no. 4 (diciembre de 1951), págs. 587–592. JSTOR   2236928 .
  • Allan Birnbaum , 1961. "Una teoría unificada de la estimación, I", The Annals of Mathematical Statistics , vol. 32, no. 1 (marzo de 1961), págs. 112-135.
  • Van der Vaart, HR, 1961. " Algunas extensiones de la idea de sesgo " The Annals of Mathematical Statistics , vol. 32, no. 2 (junio de 1961), págs. 436–447.
  • Pfanzagl, Johann. 1994. Teoría estadística paramétrica . Walter de Gruyter.
  • Stuart, Alan; Ord, Keith; Arnold, Steven [F.] (2010). Inferencia clásica y modelo lineal . Teoría avanzada de estadística de Kendall. 2A . Wiley. ISBN   0-4706-8924-2 . .
  • Voinov, Vassily [G.]; Nikulin, Mikhail [S.] (1993). Estimadores imparciales y sus aplicaciones . 1: caso univariado. Dordrect: Kluwer Academic Publishers. ISBN   0-7923-2382-3 .
  • Voinov, Vassily [G.]; Nikulin, Mikhail [S.] (1996). Estimadores imparciales y sus aplicaciones . 2: Caso multivariado. Dordrect: Kluwer Academic Publishers. ISBN   0-7923-3939-8 .
  • Klebanov, Lev [B.]; Rachev, Svetlozar [T.]; Fabozzi, Frank [J.] (2009). Modelos robustos y no robustos en estadística . Nueva York: Nova Scientific Publishers. ISBN   978-1-60741-768-2 .

enlaces externos