Intervalos de confianza sólidos - Robust confidence intervals

En estadística, un intervalo de confianza robusto es una modificación robusta de los intervalos de confianza , lo que significa que uno modifica los cálculos no robustos del intervalo de confianza para que no se vean gravemente afectados por observaciones atípicas o aberrantes en un conjunto de datos.

Ejemplo

En el proceso de pesar 1000 objetos, en condiciones prácticas, es fácil creer que el operador podría cometer un error en el procedimiento y, por lo tanto, informar una masa incorrecta (cometiendo así un tipo de error sistemático ). Suponga que hay 100 objetos y el operador los pesa todos, uno a la vez, y repite todo el proceso diez veces. Luego, el operador puede calcular una desviación estándar de muestra para cada objeto y buscar valores atípicos . Cualquier objeto con una desviación estándar inusualmente grande probablemente tenga un valor atípico en sus datos. Estos pueden eliminarse mediante diversas técnicas no paramétricas. Si el operador repitiera el proceso solo tres veces, simplemente tomando la mediana de las tres medidas y usando σ se obtendría un intervalo de confianza. Los 200 pesajes adicionales solo sirvieron para detectar y corregir errores del operador y no hicieron nada para mejorar el intervalo de confianza. Con más repeticiones, se podría usar una media truncada , descartando los valores más grandes y más pequeños y promediando el resto. Se podría utilizar un cálculo bootstrap para determinar un intervalo de confianza más estrecho que el calculado a partir de σ, y así obtener algún beneficio de una gran cantidad de trabajo adicional.

Estos procedimientos son robustos frente a errores de procedimiento que no se modelan asumiendo que la balanza tiene una desviación estándar conocida fija σ. En aplicaciones prácticas donde puede ocurrir un error ocasional del operador, o la balanza puede funcionar mal, las suposiciones detrás de cálculos estadísticos simples no pueden darse por sentadas. Antes de confiar en los resultados de 100 objetos pesados ​​solo tres veces cada uno para tener intervalos de confianza calculados a partir de σ, es necesario probar y eliminar un número razonable de valores atípicos (probar la suposición de que el operador es cuidadoso y corregir el hecho de que es no perfecto) y para probar el supuesto de que los datos realmente tienen una distribución normal con desviación estándar σ.

Simulación por ordenador

El análisis teórico de tal experimento es complicado, pero es fácil configurar una hoja de cálculo que extraiga números aleatorios de una distribución normal con desviación estándar σ para simular la situación; esto se puede hacer en Microsoft Excel usando =NORMINV(RAND(),0,σ)), como se discutió en y las mismas técnicas se pueden usar en otros programas de hoja de cálculo como en OpenOffice.org Calc y gnumeric .

Después de eliminar los valores atípicos obvios, se podría restar la mediana de los otros dos valores para cada objeto y examinar la distribución de los 200 números resultantes. Debería ser normal con una media cercana a cero y una desviación estándar un poco mayor que σ. Un simple cálculo de hoja de cálculo Monte Carlo revelaría valores típicos para la desviación estándar (alrededor del 105 al 115% de σ). O bien, se podría restar la media de cada triplete de los valores y examinar la distribución de 300 valores. La media es idénticamente cero, pero la desviación estándar debería ser algo menor (alrededor del 75 al 85% de σ).

Ver también

Referencias