Desviación no paramétrica - Nonparametric skew

En estadística y teoría de la probabilidad , el sesgo no paramétrico es una estadística que se usa ocasionalmente con variables aleatorias que toman valores reales . Es una medida de la asimetría de la distribución de una variable aleatoria , es decir, la tendencia de la distribución a "inclinarse" hacia un lado u otro de la media . Su cálculo no requiere ningún conocimiento de la forma de la distribución subyacente, de ahí el nombre no paramétrico . Tiene algunas propiedades deseables: es cero para cualquier distribución simétrica ; no se ve afectado por un cambio de escala ; y revela igualmente bien la asimetría hacia la izquierda o hacia la derecha. En algunas muestras estadísticas se ha demostrado ser menos potente que las medidas habituales de asimetría en la detección de desviaciones de la población de la normalidad .

Propiedades

Definición

El sesgo no paramétrico se define como

donde la media ( µ ), mediana ( ν ) y la desviación estándar ( σ ) de la población tienen sus significados habituales.

Propiedades

La asimetría no paramétrica es un tercio del coeficiente de asimetría de Pearson 2 y se encuentra entre -1 y +1 para cualquier distribución. Este rango está implícito en el hecho de que la media se encuentra dentro de una desviación estándar de cualquier mediana.

Bajo una transformación afín de la variable ( X ), el valor de S no cambia excepto por un posible cambio de signo. En simbolos

donde un  ≠ 0 y b son constantes y S ( X ) es el no paramétrico de inclinación de la variable X .

Límites más definidos

Los límites de esta estadística (± 1) fueron definidos por Majindar, quien mostró que su valor absoluto está limitado por

con

y

donde X es una variable aleatoria con varianza finita , E () es el operador de expectativa y Pr () es la probabilidad de que ocurra el evento.

Cuando p = q = 0.5 el valor absoluto de esta estadística está acotado por 1. Con p = 0.1 yp = 0.01, el valor absoluto de la estadística está acotado por 0.6 y 0.199 respectivamente.

Extensiones

También se sabe que

donde ν 0 es cualquier mediana y E (.) es el operador de expectativa .

Se ha demostrado que

donde x q es el q- ésimo cuantil . Los cuantiles se encuentran entre 0 y 1: la mediana (el cuantil 0,5) tiene q = 0,5. Esta desigualdad también se ha utilizado para definir una medida de asimetría.

Esta última desigualdad se ha agudizado aún más.

Se ha publicado otra extensión para una distribución con media finita:

Los límites en este último par de desigualdades se alcanzan cuando y para números fijos a < b .

Muestras finitas

Para una muestra finito con tamaño de la muestra n ≥ 2 con x r es el r º estadísticos de orden , m la muestra media y s la desviación estándar de la muestra corregida para grados de libertad,

Reemplazar r con n / 2 da el resultado apropiado para la mediana de la muestra:

donde a es la mediana muestral.

Pruebas estadísticas

Hotelling y Solomons consideraron la distribución del estadístico de prueba

donde n es el tamaño de la muestra, m es la media de la muestra, a es la mediana de la muestra y s es la desviación estándar de la muestra.

Las pruebas estadísticas de D han supuesto que la hipótesis nula que se está probando es que la distribución es simétrica.

Gastwirth estimó el asintótica varianza de n -1/2 D . Si la distribución es unimodal y simétrica alrededor de 0, la varianza asintótica se encuentra entre 1/4 y 1. Asumir una estimación conservadora (poner la varianza igual a 1) puede conducir a un verdadero nivel de significancia muy por debajo del nivel nominal.

Suponiendo que la distribución subyacente es simétrica, Cabilio y Masaro han demostrado que la distribución de S es asintóticamente normal. La varianza asintótica depende de la distribución subyacente: para la distribución normal, la varianza asintótica de S n es 0.5708 ...

Suponiendo que la distribución subyacente es simétrica, al considerar la distribución de valores por encima y por debajo de la mediana, Zheng y Gastwirth han argumentado que

donde n es el tamaño de la muestra, se distribuye como una distribución t .

Estadísticas relacionadas

Mira estudió la distribución de la diferencia entre la media y la mediana.

donde m es la media muestral y a es la mediana. Si la distribución subyacente es simétrica, γ 1 en sí mismo es asintóticamente normal. Esta estadística había sido sugerida anteriormente por Bonferroni.

Asumiendo una distribución subyacente simétrica, Miao, Gel y Gastwirth estudiaron una modificación de S , quienes modificaron la desviación estándar para crear su estadística.

donde X i son los valores de muestra, || es el valor absoluto y la suma se toma sobre todos los n valores de muestra.

La estadística de prueba fue

El estadístico escalado T n es asintóticamente normal con una media de cero para una distribución simétrica. Su varianza asintótica depende de la distribución subyacente: los valores límite son, para la distribución normal var ( T n ) = 0.5708 ... y, para la distribución t con tres grados de libertad , var ( T n ) = 0.9689. ..

Valores para distribuciones individuales

Distribuciones simétricas

Para distribuciones de probabilidad simétricas, el valor del sesgo no paramétrico es 0.

Distribuciones asimétricas

Es positivo para distribuciones sesgadas a la derecha y negativo para distribuciones sesgadas a la izquierda. Los valores absolutos ≥ 0,2 indican una marcada asimetría.

Puede ser difícil determinar S para algunas distribuciones. Esto generalmente se debe a que no se conoce una forma cerrada para la mediana: ejemplos de tales distribuciones incluyen la distribución gamma , la distribución inversa de chi cuadrado , la distribución inversa de gamma y la distribución inversa de escala chi cuadrado .

Se conocen los siguientes valores de S :

  • Distribución beta : 1 < α < β donde α y β son los parámetros de la distribución, luego con una buena aproximación
Si 1 < β < α, entonces las posiciones de α y β se invierten en la fórmula. S siempre es <0.
donde α es el parámetro de forma y β es el parámetro de ubicación.
Aquí S es siempre> 0.
  • Distribución gamma : la mediana solo se puede determinar aproximadamente para esta distribución. Si el parámetro de forma α es ≥ 1 entonces
donde β > 0 es el parámetro de tasa. Aquí S es siempre> 0.
S siempre es <0.
donde γ es la constante de Euler .
La desviación estándar no existe para valores de b > 4.932 (aproximadamente). Para los valores para los que se define la desviación estándar, S es> 0.
y S es siempre> 0.
donde λ es el parámetro de la distribución.
donde k es el parámetro de forma de la distribución. Aquí S es siempre> 0.

Historia

En 1895 Pearson sugirió por primera vez medir la asimetría estandarizando la diferencia entre la media y la moda , dando

donde μ , θ y σ son la media, la moda y la desviación estándar de la distribución, respectivamente. Las estimaciones de la moda de la población a partir de los datos de la muestra pueden ser difíciles, pero la diferencia entre la media y la moda para muchas distribuciones es aproximadamente tres veces la diferencia entre la media y la mediana, lo que le sugirió a Pearson un segundo coeficiente de asimetría:

donde ν es la mediana de la distribución. Bowley eliminó el factor 3 de esta fórmula en 1901, lo que dio lugar a la estadística de sesgo no paramétrico.

La relación entre la mediana, la media y la moda fue notada por primera vez por Pearson cuando estaba investigando sus distribuciones de tipo III.

Relaciones entre la media, la mediana y la moda

Para una distribución arbitraria, la moda, la mediana y la media pueden aparecer en cualquier orden.

Se han realizado análisis de algunas de las relaciones entre la media, la mediana, la moda y la desviación estándar. y estas relaciones imponen algunas restricciones sobre el signo y la magnitud del sesgo no paramétrico.

Un ejemplo simple que ilustra estas relaciones es la distribución binomial con n = 10 yp = 0.09. Esta distribución cuando se traza tiene una cola larga a la derecha. La media (0,9) está a la izquierda de la mediana (1) pero la desviación (0,906) definida por el tercer momento estandarizado es positiva. En contraste, el sesgo no paramétrico es -0,110.

Regla de Pearson

La regla de que para algunas distribuciones la diferencia entre la media y la moda es tres veces mayor que entre la media y la mediana se debe a Pearson, quien la descubrió mientras investigaba sus distribuciones de Tipo 3. A menudo se aplica a distribuciones ligeramente asimétricas que se asemejan a una distribución normal, pero no siempre es cierto.

En 1895 Pearson señaló que para lo que ahora se conoce como distribución gamma, la relación

donde θ , ν y µ son la moda, la mediana y la media de la distribución, respectivamente, fue aproximadamente cierto para distribuciones con un parámetro de forma grande.

Doodson en 1917 demostró que la mediana se encuentra entre la moda y la media para distribuciones moderadamente sesgadas con cuartos momentos finitos. Esta relación es válida para todas las distribuciones de Pearson y todas estas distribuciones tienen un sesgo no paramétrico positivo.

Doodson también señaló que para esta familia de distribuciones con una buena aproximación,

donde θ , ν y µ son la moda, la mediana y la media de la distribución, respectivamente. Aproximación de Doodson se procedió a investigar y confirmado por Haldane . Haldane observó que las muestras con variantes idénticas e independientes con un tercer acumulante tenían medias muestrales que obedecían a la relación de Pearson para tamaños de muestra grandes. Haldane requería una serie de condiciones para que esta relación se mantuviera, incluida la existencia de una expansión de Edgeworth y la singularidad tanto de la mediana como de la moda. En estas condiciones, encontró que la moda y la mediana convergían a 1/2 y 1/6 del tercer momento, respectivamente. Hall confirmó este resultado en condiciones más débiles utilizando funciones características .

La relación de Doodson fue estudiada por Kendall y Stuart en la distribución log-normal para la que encontraron una relación exacta cercana a ella.

Hall también mostró que para una distribución con colas y exponente α que varían regularmente,

Distribuciones unimodales

Gauss demostró en 1823 que para una distribución unimodal

y

donde ω es la desviación cuadrática media de la moda.

Para una gran clase de distribuciones unimodales que están sesgadas positivamente, la moda, la mediana y la media caen en ese orden. A la inversa, para una gran clase de distribuciones unimodales que están sesgadas negativamente, la media es menor que la mediana, que a su vez es menor que la moda. En símbolos de estas distribuciones unimodales sesgadas positivamente

y para estas distribuciones unimodales sesgadas negativamente

Esta clase incluye las distribuciones importantes F, beta y gamma.

Esta regla no se aplica a la distribución unimodal de Weibull.

Para una distribución unimodal, se conocen los siguientes límites y son nítidos:

donde μ , ν y θ son la media, la mediana y la moda respectivamente.

El límite medio limita el sesgo no paramétrico de una distribución unimodal a aproximadamente ± 0,775.

condición van Zwet

La siguiente desigualdad,

donde θ , ν y µ es la moda, la mediana y la media de la distribución respectivamente, se cumple si

donde F es la función de distribución acumulativa de la distribución. Desde entonces, estas condiciones se han generalizado y extendido a distribuciones discretas. Cualquier distribución para la que esto sea válido tiene un sesgo no paramétrico positivo o cero.

Notas

Orden de asimetría

En 1964, van Zwet propuso una serie de axiomas para ordenar las medidas de asimetría. El sesgo no paramétrico no satisface estos axiomas.

Ley de Benford

La ley de Benford es una ley empírica sobre la distribución de dígitos en una lista de números. Se ha sugerido que las variaciones aleatorias de distribuciones con un sesgo no paramétrico positivo obedecerán esta ley.

Relación con el coeficiente de Bowley

Esta estadística es muy similar al coeficiente de asimetría de Bowley

donde Q i es el i-ésimo cuartil de la distribución.

Hinkley generalizó esto

donde se encuentra entre 0 y 0,5. El coeficiente de Bowley es un caso especial con igual a 0,25.

Groeneveld y Meeden eliminaron la dependencia de ??? (¿esto es \ alpha? Necesita ser arreglado) ??? integrando sobre él.

El denominador es una medida de dispersión. Reemplazando el denominador con la desviación estándar obtenemos el sesgo no paramétrico.

Referencias