Media truncada - Truncated mean

Una media truncada o una media recortada es una medida estadística de tendencia central , muy parecida a la media y la mediana . Implica el cálculo de la media después de descartar partes dadas de una distribución de probabilidad o muestra en el extremo alto y bajo, y normalmente descartando una cantidad igual de ambos. Este número de puntos a descartar se suele dar como un porcentaje del número total de puntos, pero también se puede dar como un número fijo de puntos.

Para la mayoría de las aplicaciones estadísticas, se descartan del 5 al 25 por ciento de los extremos. Por ejemplo, dado un conjunto de 8 puntos, recortar en un 12,5% descartaría el valor mínimo y máximo en la muestra: los valores más pequeño y más grande, y calcularía la media de los 6 puntos restantes. La media recortada del 25% (cuando se descartan el 25% más bajo y el 25% más alto) se conoce como media intercuartil .

La mediana puede considerarse como una media completamente truncada y es la más robusta. Al igual que con otros estimadores recortados , la principal ventaja de la media recortada es la robustez y mayor eficiencia para distribuciones mixtas y distribución de cola pesada (como la distribución de Cauchy ), a costa de una menor eficiencia para algunas otras distribuciones de cola menos pesada (como la distribución normal). Para distribuciones intermedias, las diferencias entre la eficiencia de la media y la mediana no son muy grandes, por ejemplo, para la distribución t de student con 2 grados de libertad, las varianzas de la media y la mediana son casi iguales.

Terminología

En algunas regiones de Europa Central también se conoce como una media de Windsor , pero este nombre no debe confundirse con la media Winsorizada : en esta última, las observaciones que la media recortada descartaría son reemplazadas por la más grande / más pequeña de las restantes. valores.

Descartar solo el máximo y el mínimo se conoce como la media modificada , particularmente en las estadísticas de gestión. Esto también se conoce como el promedio olímpico (por ejemplo, en la agricultura de EE. UU., Como la elección de ingresos medios de cultivos ), debido a su uso en eventos olímpicos, como el sistema de evaluación ISU en patinaje artístico , para hacer que la puntuación sea robusta a un solo valor atípico juez.

Interpolación

Cuando el porcentaje de puntos a descartar no arroja un número entero, la media recortada puede definirse por interpolación, generalmente interpolación lineal, entre los números enteros más cercanos. Por ejemplo, si necesita calcular la media recortada del 15% de una muestra que contiene 10 entradas, estrictamente esto significaría descartar 1 punto de cada extremo (equivalente a la media recortada del 10%). Si se interpola, se calcularía en su lugar la media recortada del 10% (descartando 1 punto de cada extremo) y la media recortada del 20% (descartando 2 puntos de cada extremo) y luego interpolando, en este caso promediando estos dos valores. De manera similar, si se interpola la media recortada del 12%, se tomaría el promedio ponderado : ponderar la media recortada del 10% por 0,8 y la media recortada del 20% por 0,2.

Ventajas

La media truncada es un estimador útil porque es menos sensible a los valores atípicos que la media, pero todavía dará una estimación razonable de la tendencia central o media para muchos modelos estadísticos. En este sentido, se lo denomina estimador robusto . Por ejemplo, en su uso en la evaluación olímpica, truncar el máximo y el mínimo evita que un solo juez aumente o disminuya la puntuación general al otorgar una puntuación excepcionalmente alta o baja.

Una situación en la que puede ser ventajoso utilizar una media truncada es cuando se estima el parámetro de ubicación de una distribución de Cauchy , una distribución de probabilidad en forma de campana con colas (mucho) más gruesas que una distribución normal . Se puede demostrar que la media truncada de las estadísticas del orden de muestra del 24% del medio (es decir, truncar la muestra en un 38% en cada extremo) produce una estimación del parámetro de ubicación de la población que es más eficiente que usar la mediana de la muestra o el valor completo. muestra promedio. Sin embargo, debido a las colas gruesas de la distribución de Cauchy, la eficiencia del estimador disminuye a medida que se usa más muestra en la estimación. Tenga en cuenta que para la distribución de Cauchy, ni la media truncada, la media muestral completa ni la mediana muestral representan un estimador de máxima verosimilitud , ni tampoco son tan asintóticamente eficientes como el estimador de máxima verosimilitud; sin embargo, la estimación de máxima verosimilitud es más difícil de calcular, dejando la media truncada como una alternativa útil.

Inconvenientes

La media truncada utiliza más información de la distribución o muestra que la mediana , pero a menos que la distribución subyacente sea simétrica , es poco probable que la media truncada de una muestra produzca un estimador insesgado para la media o la mediana.

Pruebas estadísticas

Es posible realizar una prueba t de Student basado en la media truncada, que se llama la prueba t de Yuen, que también tiene varias implementaciones en R .

Ejemplos

El método de puntuación utilizado en muchos deportes que son evaluados por un panel de jueces es una media truncada: descartar las puntuaciones más bajas y más altas; Calcule el valor medio de las puntuaciones restantes .

La tasa de interés de referencia Libor se calcula como una media recortada: dadas 18 respuestas, los 4 primeros y los 4 últimos se descartan y los 10 restantes se promedian (factor de recorte de rendimiento de 4/18 ≈ 22%).

Considere el conjunto de datos que consta de:

{92, 19, 101 , 58, 1053 , 91, 26, 78, 10, 13, −40 , 101 , 86, 85, 15, 89, 89, 28, −5 , 41} (N = 20, media = 101,5)

El percentil 5 (−6,75) se encuentra entre −40 y −5, mientras que el percentil 95 (148,6) se sitúa entre 101 y 1053 (valores mostrados en negrita). Entonces, una media recortada del 5% resultaría en lo siguiente:

{92, 19, 101, 58, 91, 26, 78, 10, 13, 101, 86, 85, 15, 89, 89, 28, −5, 41} (N = 18, media = 56,5)

Este ejemplo se puede comparar con el que utiliza el procedimiento Winsorising .

Ver también

Referencias