Winsorización - Winsorizing

Winsorizing o winsorization es la transformación de estadísticas limitando los valores extremos en los datos estadísticos para reducir el efecto de valores atípicos posiblemente falsos . Lleva el nombre del ingeniero convertido en bioestadístico Charles P. Winsor (1895-1951). El efecto es el mismo que el del recorte en el procesamiento de señales.

La distribución de muchas estadísticas puede verse fuertemente influenciada por valores atípicos. Una estrategia típica es establecer todos los valores atípicos en un percentil específico de los datos; por ejemplo, una winorización del 90% vería todos los datos por debajo del percentil 5 en el percentil 5, y los datos por encima del percentil 95 en el percentil 95. Los estimadores Winsorizados suelen ser más robustos a los valores atípicos que sus formas más estándar, aunque existen alternativas, como el recorte , que lograrán un efecto similar.

Ejemplo

Considere el conjunto de datos que consta de:

{92, 19, 101 , 58, 1053 , 91, 26, 78, 10, 13, −40 , 101 , 86, 85, 15, 89, 89, 28, −5 , 41} (N = 20, media = 101,5)

Los datos por debajo del percentil 5 se encuentran entre -40 y -5, mientras que los datos por encima del percentil 95 se encuentran entre 101 y 1053. (Los valores se muestran en negrita). Entonces, una winorización del 90% daría como resultado lo siguiente:

{92, 19, 101 , 58, 101 , 91, 26, 78, 10, 13, −5 , 101 , 86, 85, 15, 89, 89, 28, −5 , 41} (N = 20, media = 55,65)

Python puede ganar datos usando la biblioteca SciPy :

from scipy.stats.mstats import winsorize
winsorize([92, 19, 101, 58, 1053, 91, 26, 78, 10, 13, -40, 101, 86, 85, 15, 89, 89, 28, -5, 41], limits=[0.05, 0.05])

R puede ganar datos usando el paquete DescTools:

library(DescTools)
a<-c(92, 19, 101, 58, 1053, 91, 26, 78, 10, 13, -40, 101, 86, 85, 15, 89, 89, 28, -5, 41)
DescTools::Winsorize(a, probs = c(0.05, 0.95))

Distinción del recorte

Tenga en cuenta que la obtención de contenido no es equivalente a simplemente excluir datos, que es un procedimiento más simple, llamado recorte o truncamiento , sino que es un método de censura de datos.

En un estimador recortado, los valores extremos se descartan; en un estimador optimizado, los valores extremos son reemplazados por ciertos percentiles (el mínimo y el máximo recortados).

Por lo tanto, una media winorizada no es lo mismo que una media truncada . Por ejemplo, la media recortada del 10% es el promedio del percentil 5 al 95 de los datos, mientras que la media ganada al 90% establece el 5% inferior en el percentil 5, el 5% superior en el percentil 95 y luego promedia el datos. En el ejemplo anterior, la media recortada se obtendría del conjunto más pequeño:

{92, 19, 101 , 58, 91, 26, 78, 10, 13,       101 , 86, 85, 15, 89, 89, 28, −5 , 41} (N = 18, media = 56,5)

En este caso, la media winsorizada se puede expresar de manera equivalente como un promedio ponderado de la media truncada y los percentiles 5 y 95 (para la media 10% winsorizada, 0,05 veces el percentil 5, 0,9 veces la media recortada del 10% y 0,05 veces percentil 95) aunque, en general, no es necesario que las estadísticas ganadas no se puedan expresar en términos de la estadística recortada correspondiente.

Más formalmente, son distintos porque las estadísticas de orden no son independientes.

Usos

La Winsorización se utiliza en el contexto de la metodología de la encuesta para "recortar" las ponderaciones extremas de no respuesta de la encuesta.

Ver también

Referencias

  • Hastings, Jr., Cecil; Mosteller, Frederick; Tukey, John W .; Winsor, Charles P. (1947). "Momentos bajos para muestras pequeñas: un estudio comparativo de estadísticas de pedidos" . Anales de estadística matemática . 18 (3): 413–426. doi : 10.1214 / aoms / 1177730388 .
  • Dixon, WJ (1960). "Estimación simplificada a partir de muestras normales censuradas" . Anales de estadística matemática . 31 (2): 385–391. doi : 10.1214 / aoms / 1177705900 .
  • Tukey, JW (1962). "El futuro del análisis de datos" . Anales de estadística matemática . 33 (1): 1-67 [pág. 18]. doi : 10.1214 / aoms / 1177704711 . JSTOR  2237638 .

enlaces externos