Estimador M - M-estimator

En estadística , los estimadores M son una clase amplia de estimadores extremos para los cuales la función objetivo es un promedio muestral. Tanto los mínimos cuadrados no lineales como la estimación de máxima verosimilitud son casos especiales de estimadores M. La definición de estimadores M fue motivada por estadísticas robustas , que aportaron nuevos tipos de estimadores M. El procedimiento estadístico de la evaluación de un M-estimador en un conjunto de datos se denomina M-estimación . En un estudio de revisión reciente se pueden encontrar 48 muestras de estimadores M robustos.

De manera más general, un estimador M puede definirse como un cero de una función de estimación . Esta función de estimación es a menudo la derivada de otra función estadística. Por ejemplo, una estimación de máxima verosimilitud es el punto donde la derivada de la función de verosimilitud con respecto al parámetro es cero; por tanto, un estimador de máxima verosimilitud es un punto crítico de la función de puntuación . En muchas aplicaciones, estos estimadores M pueden considerarse como características de estimación de la población.

Motivación histórica

El método de mínimos cuadrados es un estimador M prototípico, ya que el estimador se define como un mínimo de la suma de cuadrados de los residuos.

Otro estimador M popular es la estimación de máxima verosimilitud. Para una familia de funciones de densidad de probabilidad f parametrizadas por θ , se calcula un estimador de máxima verosimilitud de θ para cada conjunto de datos maximizando la función de verosimilitud sobre el espacio de parámetros {  θ  }. Cuando las observaciones son independientes e idénticamente distribuidas, una estimación de ML satisface

o equivalente,

Los estimadores de máxima verosimilitud tienen propiedades óptimas en el límite de un número infinito de observaciones en condiciones bastante generales, pero pueden estar sesgados y no ser los estimadores más eficientes para muestras finitas.

Definición

En 1964, Peter J. Huber propuso generalizar la estimación de máxima verosimilitud a la minimización de

donde ρ es una función con ciertas propiedades (ver más abajo). Las soluciones

se denominan estimadores M ("M" para "tipo de máxima verosimilitud" (Huber, 1981, página 43)); otros tipos de estimadores robustos incluyen L-estimadores , R estimadores y S-estimadores . Los estimadores de máxima verosimilitud (MLE) son, por tanto, un caso especial de estimadores M. Con un ajuste de escala adecuado, los estimadores M son casos especiales de estimadores extremos (en los que se pueden utilizar funciones más generales de las observaciones).

La función ρ, o su derivada, ψ, puede elegirse de tal manera que proporcione las propiedades deseables del estimador (en términos de sesgo y eficiencia) cuando los datos son realmente de la distribución supuesta, y un comportamiento 'no malo' cuando los datos se generan a partir de un modelo que, en cierto sentido, se acerca a la distribución supuesta.

Tipos

Los estimadores M son soluciones, θ , que minimizan

Esta minimización siempre se puede hacer directamente. A menudo, es más sencillo diferenciar con respecto a θ y resolver la raíz de la derivada. Cuando esta diferenciación es posible, se dice que el estimador M es de tipo ψ . De lo contrario, se dice que el estimador M es de tipo ρ .

En la mayoría de los casos prácticos, los estimadores M son de tipo ψ.

tipo ρ

Para un entero positivo r , sean y midan espacios. es un vector de parámetros. Un estimador M de tipo ρ se define mediante una función medible . Al trazar una distribución de probabilidad de que el valor (si existe) que reduce al mínimo :

Por ejemplo, para el estimador de máxima verosimilitud , donde .

tipo ψ

Si es diferenciable con respecto a , el cálculo de suele ser mucho más fácil. Un estimador M de tipo ψ T se define mediante una función medible . Se asigna una distribución de probabilidad F en al valor (si existe) que resuelve la ecuación vectorial:

Por ejemplo, para el estimador de máxima verosimilitud , donde denota la transposición del vector u y .

Tal estimador no es necesariamente un estimador M de tipo ρ, pero si ρ tiene una primera derivada continua con respecto a , entonces una condición necesaria para que un estimador M de tipo ψ sea un estimador M de tipo ρ es . Las definiciones anteriores se pueden ampliar fácilmente a muestras finitas.

Si la función ψ disminuye a cero como , el estimador se llama redescender . Dichos estimadores tienen algunas propiedades deseables adicionales, como el rechazo completo de valores atípicos brutos.

Cálculo

Para muchas opciones de ρ o ψ, no existe una solución de forma cerrada y se requiere un enfoque iterativo para el cálculo. Es posible utilizar algoritmos de optimización de funciones estándar, como Newton-Raphson . Sin embargo, en la mayoría de los casos se puede realizar un algoritmo de ajuste por mínimos cuadrados reponderados iterativamente ; este es típicamente el método preferido.

Para algunas opciones de ψ, específicamente, funciones de redescendente , la solución puede no ser única. El tema es particularmente relevante en problemas multivariados y de regresión. Por lo tanto, se necesita cierto cuidado para garantizar que se elijan buenos puntos de partida. Son comunes los puntos de partida sólidos , como la mediana como una estimación de la ubicación y la desviación absoluta de la mediana como una estimación univariante de escala.

Concentración de parámetros

En el cálculo de estimadores M, a veces es útil reescribir la función objetivo para reducir la dimensión de los parámetros. El procedimiento se denomina "concentración" o "elaboración de perfiles". Los ejemplos en los que la concentración de parámetros aumenta la velocidad de cálculo incluyen modelos de regresiones aparentemente no relacionadas (SUR). Considere el siguiente problema de estimación M:

Suponiendo la diferenciabilidad de la función q , el estimador M resuelve las condiciones de primer orden:

Ahora, si podemos resolver la segunda ecuación para γ en términos de y , la segunda ecuación se convierte en:

donde g es, hay alguna función por encontrar. Ahora, podemos reescribir la función objetivo original únicamente en términos de β insertando la función g en el lugar de . Como resultado, hay una reducción en el número de parámetros.

La posibilidad de realizar este procedimiento depende de los problemas particulares que se presenten. Sin embargo, cuando es posible, la concentración de parámetros puede facilitar el cálculo en gran medida. Por ejemplo, al estimar el modelo SUR de 6 ecuaciones con 5 variables explicativas en cada ecuación por Máxima verosimilitud, el número de parámetros disminuye de 51 a 30.

A pesar de su característica atractiva en el cálculo, la concentración de parámetros tiene un uso limitado para derivar propiedades asintóticas del estimador M. La presencia de W en cada sumando de la función objetivo dificulta la aplicación de la ley de los grandes números y el teorema del límite central .

Propiedades

Distribución

Se puede demostrar que los estimadores M tienen una distribución asintóticamente normal. Como tal, se pueden utilizar enfoques de tipo Wald para construir intervalos de confianza y pruebas de hipótesis. Sin embargo, dado que la teoría es asintótica, con frecuencia será sensato verificar la distribución, quizás examinando la distribución de permutación o bootstrap .

Función de influencia

La función de influencia de un estimador M de tipo-es proporcional a su función definitoria .

Sea T un estimador M de tipo ψ y G una distribución de probabilidad para la que se define. Su función de influencia SI es

asumiendo que existe la función de densidad . Una prueba de esta propiedad de los estimadores M se puede encontrar en Huber (1981, Sección 3.2).

Aplicaciones

Los estimadores M se pueden construir para parámetros de ubicación y parámetros de escala en configuraciones univariadas y multivariadas, así como también se pueden usar en regresiones robustas.

Ejemplos

Significar

Sea ( X 1 , ..., X n ) ser un conjunto de independientes, idénticamente distribuidas variables aleatorias, con una distribución F .

Si definimos

observamos que esto se minimiza cuando θ es la media de X s. Por tanto, la media es un estimador M de tipo ρ, con esta función ρ.

Como esta función ρ es continuamente diferenciable en θ , la media es también un estimador M de tipo ψ para ψ ( x , θ ) = θ  -  x .

Mediana

Para la estimación mediana de ( X 1 , ..., X n ), en cambio podemos definir la función ρ como

y de manera similar, la función ρ se minimiza cuando θ es la mediana de X s.

Si bien esta función ρ no es diferenciable en θ , el estimador M de tipo ψ, que es el subgradiente de la función ρ, se puede expresar como

y

Ver también

Referencias

Otras lecturas

  • Andersen, Robert (2008). Métodos modernos para regresión robusta . Aplicaciones cuantitativas en las ciencias sociales. 152 . Los Ángeles, CA: Sage Publications. ISBN   978-1-4129-4072-6 .
  • Godambe, vicepresidente (1991). Estimación de funciones . Serie de ciencia estadística de Oxford. 7 . Nueva York: Clarendon Press. ISBN   978-0-19-852228-7 .
  • Heyde, Christopher C. (1997). Cuasi-verosimilitud y su aplicación: un enfoque general para la estimación de parámetros óptimos . Springer Series en Estadística. Nueva York: Springer. doi : 10.1007 / b98823 . ISBN   978-0-387-98225-0 .
  • Huber, Peter J. (2009). Estadísticas robustas (2ª ed.). Hoboken, Nueva Jersey: John Wiley & Sons Inc. ISBN   978-0-470-12990-6 .
  • Hoaglin, David C .; Frederick Mosteller; John W. Tukey (1983). Comprensión del análisis de datos robusto y exploratorio . Hoboken, Nueva Jersey: John Wiley & Sons Inc. ISBN   0-471-09777-2 .
  • McLeish, DL; Christopher G. Small (1989). La teoría y aplicaciones de las funciones de inferencia estadística . Apuntes de conferencias en estadística. 44 . Nueva York: Springer. ISBN   978-0-387-96720-2 .
  • Mukhopadhyay, Parimal (2004). Introducción a la estimación de funciones . Harrow, Reino Unido: Alpha Science International, Ltd. ISBN   978-1-84265-163-6 .
  • Presione, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007), "Sección 15.7. Estimación robusta" , Recetas numéricas: El arte de la informática científica (3ª ed.), Nueva York: Cambridge University Press, ISBN   978-0-521-88068-8
  • Serfling, Robert J. (2002). Teoremas de aproximación de la estadística matemática . Serie de Wiley en Probabilidad y Estadística Matemática. Hoboken, Nueva Jersey: John Wiley & Sons Inc. ISBN   978-0-471-21927-9 .
  • Shapiro, Alexander (2000). "Sobre la asintótica de estimadores M locales restringidos". Annals of Statistics . 28 (3): 948–960. CiteSeerX   10.1.1.69.2288 . doi : 10.1214 / aos / 1015952006 . JSTOR   2674061 . Señor   1792795 .
  • Pequeño, Christopher G .; Jinfang Wang (2003). Métodos numéricos para ecuaciones de estimación no lineales . Serie de ciencia estadística de Oxford. 29 . Nueva York: Oxford University Press. ISBN   978-0-19-850688-1 .
  • van de Geer, Sara A. (2000). Procesos empíricos en estimación M: aplicaciones de la teoría de procesos empíricos . Cambridge Series in Statistical and Probabilistic Mathematics. 6 . Cambridge, Reino Unido: Cambridge University Press. doi : 10.2277 / 052165002X . ISBN   978-0-521-65002-1 .
  • Wilcox, RR (2003). Aplicar técnicas estadísticas contemporáneas . San Diego, CA: Academic Press. págs. 55–79.
  • Wilcox, RR (2012). Introducción a la estimación robusta y la prueba de hipótesis, 3ª ed . San Diego, CA: Academic Press.

enlaces externos