Estadísticas sólidas - Robust statistics

Las estadísticas sólidas son estadísticas con buen rendimiento para datos extraídos de una amplia gama de distribuciones de probabilidad , especialmente para distribuciones que no son normales . Se han desarrollado métodos estadísticos sólidos para muchos problemas comunes, como estimar la ubicación , la escala y los parámetros de regresión . Una motivación es producir métodos estadísticos que no se vean afectados indebidamente por valores atípicos . Otra motivación es proporcionar métodos con buen rendimiento cuando hay pequeñas desviaciones de la distribución paramétrica . Por ejemplo, los métodos robustos funcionan bien para mezclas de dos distribuciones normales con diferentes desviaciones estándar ; bajo este modelo, los métodos no robustos como una prueba t funcionan mal.

Introducción

Las estadísticas sólidas buscan proporcionar métodos que emulen los métodos estadísticos populares, pero que no se vean afectados indebidamente por valores atípicos u otras pequeñas desviaciones de los supuestos del modelo . En estadística, los métodos clásicos de estimación se basan en gran medida en supuestos que a menudo no se cumplen en la práctica. En particular, a menudo se supone que los errores de datos están distribuidos normalmente, al menos aproximadamente, o que se puede confiar en el teorema del límite central para producir estimaciones distribuidas normalmente. Desafortunadamente, cuando hay valores atípicos en los datos, los estimadores clásicos a menudo tienen un desempeño muy deficiente, cuando se juzgan utilizando el punto de ruptura y la función de influencia , que se describen a continuación.

El efecto práctico de los problemas observados en la función de influencia se puede estudiar empíricamente examinando la distribución muestral de los estimadores propuestos bajo un modelo de mezcla , donde uno mezcla una pequeña cantidad (1–5% es a menudo suficiente) de contaminación. Por ejemplo, se puede usar una mezcla del 95% de una distribución normal y del 5% de una distribución normal con la misma media pero una desviación estándar significativamente mayor (que representa valores atípicos).

Las estadísticas paramétricas sólidas pueden proceder de dos formas:

  • diseñando estimadores para que se logre un comportamiento preseleccionado de la función de influencia
  • reemplazando los estimadores que son óptimos bajo el supuesto de una distribución normal con estimadores que son óptimos para, o al menos derivados para, otras distribuciones: por ejemplo, usando la distribución t con bajos grados de libertad (alta curtosis; grados de libertad entre 4 y 6 se han encontrado a menudo útiles en la práctica) o con una mezcla de dos o más distribuciones.

Se han estudiado estimaciones sólidas para los siguientes problemas:

Definición

Hay varias definiciones de " estadística sólida ". Estrictamente hablando, una estadística robusta es resistente a errores en los resultados, producidos por desviaciones de los supuestos (por ejemplo, de normalidad). Esto significa que si los supuestos solo se cumplen aproximadamente, el estimador robusto seguirá teniendo una eficiencia razonable y un sesgo razonablemente pequeño , además de ser asintóticamente insesgado , lo que significa que tendrá un sesgo que tiende hacia 0 ya que el tamaño de la muestra tiende hacia el infinito.

Por lo general, el caso más importante es la solidez distributiva : solidez para romper los supuestos sobre la distribución subyacente de los datos. Los procedimientos estadísticos clásicos suelen ser sensibles a la "longitud de cola" (por ejemplo, cuando la distribución de los datos tiene colas más largas que la distribución normal supuesta). Esto implica que se verán fuertemente afectados por la presencia de valores atípicos en los datos, y las estimaciones que producen pueden estar muy distorsionadas si hay valores atípicos extremos en los datos, en comparación con lo que serían si los valores atípicos no estuvieran incluidos en los datos. .

Por el contrario, los estimadores más robustos que no son tan sensibles a las distorsiones distributivas como la longtailedness también son resistentes a la presencia de valores atípicos. Por lo tanto, en el contexto de estadísticas robustas, distribucionalmente robusto y resistente a valores atípicos son efectivamente sinónimos. Para obtener una perspectiva sobre la investigación en estadísticas sólidas hasta 2000, véase Portnoy y He (2000) .

Algunos expertos prefieren el término estadísticas resistentes para la robustez distributiva, y reservan 'robustez' para la robustez no distributiva, por ejemplo, robustez a la violación de supuestos sobre el modelo de probabilidad o estimador, pero este es un uso minoritario. Es común que la simple "robustez" signifique "robustez distributiva".

Al considerar qué tan robusto es un estimador ante la presencia de valores atípicos, es útil probar qué sucede cuando se agrega un valor atípico extremo al conjunto de datos y probar qué sucede cuando un valor atípico extremo reemplaza uno de los puntos de datos existentes, y luego considerar el efecto de múltiples adiciones o reemplazos.

Ejemplos de

La media no es una medida sólida de tendencia central . Si el conjunto de datos es, por ejemplo, los valores {2,3,5,6,9}, entonces si agregamos otro punto de datos con valor -1000 o +1000 a los datos, la media resultante será muy diferente a la media de los datos originales. . De manera similar, si reemplazamos uno de los valores con un punto de datos de valor -1000 o +1000, la media resultante será muy diferente a la media de los datos originales.

La mediana es una medida sólida de tendencia central . Tomando el mismo conjunto de datos {2,3,5,6,9}, si agregamos otro punto de datos con valor -1000 o +1000, la mediana cambiará ligeramente, pero seguirá siendo similar a la mediana de los datos originales. Si reemplazamos uno de los valores con un punto de datos de valor -1000 o +1000, la mediana resultante seguirá siendo similar a la mediana de los datos originales.

Descrito en términos de puntos de ruptura , la mediana tiene un punto de ruptura del 50%, lo que significa que la mitad de los puntos deben ser valores atípicos antes de que la mediana se pueda mover fuera del rango de los valores no atípicos, mientras que la media tiene un punto de ruptura de 0, ya que una sola gran observación puede desecharlo.

La desviación absoluta mediana y el rango intercuartílico son medidas sólidas de dispersión estadística , mientras que la desviación estándar y el rango no lo son.

Los estimadores recortados y los estimadores Winsorizados son métodos generales para hacer que las estadísticas sean más robustas. Los estimadores L son una clase general de estadísticas simples, a menudo robustas, mientras que los estimadores M son una clase general de estadísticas robustas y ahora son la solución preferida, aunque pueden ser bastante complicados de calcular.

Ejemplo: datos de la velocidad de la luz

Gelman y col. en Bayesian Data Analysis (2004) considera un conjunto de datos relacionados con las mediciones de la velocidad de la luz realizadas por Simon Newcomb . Los conjuntos de datos para ese libro se pueden encontrar a través de la página de conjuntos de datos clásicos , y el sitio web del libro contiene más información sobre los datos.

Aunque la mayor parte de los datos parecen estar distribuidos más o menos normalmente, hay dos valores atípicos obvios. Estos valores atípicos tienen un gran efecto en la media, arrastrándola hacia ellos y alejándola del centro de la mayor parte de los datos. Por tanto, si se pretende que la media sea una medida de la ubicación del centro de los datos, en cierto sentido está sesgada cuando existen valores atípicos.

Además, se sabe que la distribución de la media es asintóticamente normal debido al teorema del límite central. Sin embargo, los valores atípicos pueden hacer que la distribución de la media sea anormal incluso para conjuntos de datos bastante grandes. Además de esta no normalidad, la media también es ineficiente en presencia de valores atípicos y se dispone de medidas de ubicación menos variables.

Estimación de ubicación

El siguiente gráfico muestra un gráfico de densidad de los datos de la velocidad de la luz, junto con un gráfico de alfombra (panel (a)). También se muestra una gráfica Q – Q normal (panel (b)). Los valores atípicos son claramente visibles en estos gráficos.

Los paneles (c) y (d) del gráfico muestran la distribución bootstrap de la media (c) y la media recortada al 10% (d). La media recortada es un estimador de ubicación simple y robusto que elimina un cierto porcentaje de observaciones (10% aquí) de cada extremo de los datos y luego calcula la media de la forma habitual. El análisis se realizó en R y se utilizaron 10.000 muestras bootstrap para cada una de las medias sin procesar y recortada.

La distribución de la media es claramente mucho más amplia que la de la media recortada al 10% (las gráficas están en la misma escala). Además, mientras que la distribución de la media recortada parece estar cerca de la normal, la distribución de la media bruta está bastante sesgada hacia la izquierda. Entonces, en esta muestra de 66 observaciones, solo 2 valores atípicos hacen que el teorema del límite central sea inaplicable.

SpeedOfLight.png

Los métodos estadísticos robustos, de los cuales la media recortada es un ejemplo simple, buscan superar a los métodos estadísticos clásicos en presencia de valores atípicos o, de manera más general, cuando los supuestos paramétricos subyacentes no son del todo correctos.

Si bien la media recortada se comporta bien en relación con la media de este ejemplo, se encuentran disponibles estimaciones más sólidas. De hecho, la media, la mediana y la media recortada son todos los casos especiales de M-estimadores . Los detalles aparecen en las secciones siguientes.

Estimación de escala

Los valores atípicos en los datos de la velocidad de la luz tienen más que un efecto adverso sobre la media; la estimación habitual de la escala es la desviación estándar, y esta cantidad se ve aún más afectada por los valores atípicos porque los cuadrados de las desviaciones de la media entran en el cálculo, por lo que los efectos de los valores atípicos se exacerban.

Las gráficas siguientes muestran las distribuciones bootstrap de la desviación estándar, la desviación absoluta mediana (MAD) y el estimador de escala de Rousseeuw-Croux (Qn) . Las gráficas se basan en 10,000 muestras de bootstrap para cada estimador, con algo de ruido gaussiano agregado a los datos remuestreados ( bootstrap suavizado ). El panel (a) muestra la distribución de la desviación estándar, (b) de la MAD y (c) de Qn.

SpeedOfLightScale.png

La distribución de la desviación estándar es errática y amplia, como resultado de los valores atípicos. El MAD se comporta mejor y Qn es un poco más eficiente que MAD. Este simple ejemplo demuestra que cuando existen valores atípicos, la desviación estándar no se puede recomendar como una estimación de escala.

Detección manual de valores atípicos

Tradicionalmente, los estadísticos filtraban manualmente los datos en busca de valores atípicos y los eliminaban, generalmente verificando la fuente de los datos para ver si los valores atípicos se registraron erróneamente. De hecho, en el ejemplo anterior de la velocidad de la luz, es fácil ver y eliminar los dos valores atípicos antes de continuar con cualquier análisis adicional. Sin embargo, en los tiempos modernos, los conjuntos de datos a menudo consisten en un gran número de variables que se miden en un gran número de unidades experimentales. Por lo tanto, la detección manual de valores atípicos a menudo no es práctica.

Los valores atípicos a menudo pueden interactuar de tal manera que se enmascaran entre sí. Como ejemplo simple, considere un pequeño conjunto de datos univariados que contiene un valor atípico modesto y uno grande. La desviación estándar estimada se inflará enormemente por el valor atípico grande. El resultado es que el valor atípico modesto parece relativamente normal. Tan pronto como se elimina el valor atípico grande, la desviación estándar estimada se reduce y el valor atípico modesto ahora parece inusual.

Este problema de enmascaramiento empeora a medida que aumenta la complejidad de los datos. Por ejemplo, en los problemas de regresión , las gráficas de diagnóstico se utilizan para identificar valores atípicos. Sin embargo, es común que una vez que se hayan eliminado algunos valores atípicos, otros se hagan visibles. El problema es aún peor en dimensiones superiores.

Los métodos robustos proporcionan formas automáticas de detectar, reducir (o eliminar) y marcar valores atípicos, eliminando en gran medida la necesidad de un cribado manual. Se debe tener cuidado; Los datos iniciales que muestran el agujero de ozono que apareció por primera vez sobre la Antártida fueron rechazados como valores atípicos por la detección no humana.

Variedad de aplicaciones

Aunque este artículo trata sobre los principios generales para los métodos estadísticos univariados, también existen métodos robustos para problemas de regresión, modelos lineales generalizados y estimación de parámetros de varias distribuciones.

Medidas de robustez

Las herramientas básicas utilizadas para describir y medir la robustez son, el punto de ruptura , la función de influencia y la curva de sensibilidad .

Punto de avería

Intuitivamente, el punto de ruptura de un estimador es la proporción de observaciones incorrectas (por ejemplo, observaciones arbitrariamente grandes) que un estimador puede manejar antes de dar un resultado incorrecto (por ejemplo, arbitrariamente grande). Por lo general, el límite asintótico (muestra infinita) se cita como el punto de ruptura, aunque el punto de ruptura de la muestra finita puede ser más útil. Por ejemplo, dadas las variables aleatorias independientes y las realizaciones correspondientes , podemos usar para estimar la media. Dicho estimador tiene un punto de ruptura de 0 (o un punto de ruptura de muestra finita de ) porque podemos hacer que sea arbitrariamente grande simplemente cambiando cualquiera de .

Cuanto más alto sea el punto de ruptura de un estimador, más robusto es. Intuitivamente, podemos entender que un punto de ruptura no puede exceder el 50% porque si más de la mitad de las observaciones están contaminadas, no es posible distinguir entre la distribución subyacente y la distribución contaminante Rousseeuw & Leroy (1986) . Por lo tanto, el punto de ruptura máximo es 0.5 y hay estimadores que logran tal punto de ruptura. Por ejemplo, la mediana tiene un punto de ruptura de 0,5. La media recortada del X% tiene un punto de ruptura del X%, para el nivel elegido de X. Huber (1981) y Maronna, Martin y Yohai (2006) contienen más detalles. El nivel y los puntos de ruptura de potencia de las pruebas se investigan en He, Simpson y Portnoy (1990) .

Las estadísticas con altos puntos de ruptura a veces se denominan estadísticas resistentes.

Ejemplo: datos de la velocidad de la luz

En el ejemplo de la velocidad de la luz, la eliminación de las dos observaciones más bajas hace que la media cambie de 26,2 a 27,75, un cambio de 1,55. La estimación de escala producida por el método Qn es 6.3. Podemos dividir esto por la raíz cuadrada del tamaño de la muestra para obtener un error estándar robusto, y encontramos que esta cantidad es 0,78. Por lo tanto, el cambio en la media resultante de eliminar dos valores atípicos es aproximadamente el doble del error estándar robusto.

La media recortada del 10% para los datos de la velocidad de la luz es 27,43. Si se eliminan las dos observaciones más bajas y se vuelve a calcular, se obtiene 27,67. Claramente, la media recortada se ve menos afectada por los valores atípicos y tiene un punto de ruptura más alto.

Si reemplazamos la observación más baja, −44, por −1000, la media se convierte en 11,73, mientras que la media recortada al 10% sigue siendo 27,43. En muchas áreas de las estadísticas aplicadas, es común que los datos se transformen logarítmicamente para hacerlos casi simétricos. Los valores muy pequeños se vuelven grandes negativos cuando se transforman logarítmicamente y los ceros se vuelven negativamente infinitos. Por tanto, este ejemplo es de interés práctico.

Función de influencia empírica

Función de peso doble de Tukey

La función de influencia empírica es una medida de la dependencia del estimador del valor de cualquiera de los puntos de la muestra. Es una medida sin modelo en el sentido de que simplemente se basa en volver a calcular el estimador con una muestra diferente. A la derecha está la función bipeso de Tukey, que, como veremos más adelante, es un ejemplo de cómo debería ser una función de influencia empírica "buena" (en un sentido definido más adelante).

En términos matemáticos, una función de influencia se define como un vector en el espacio del estimador, que a su vez se define para una muestra que es un subconjunto de la población:

  1. es un espacio de probabilidad,
  2. es un espacio medible (espacio de estado),
  3. es un espacio de parámetros de dimensión ,
  4. es un espacio medible,

Por ejemplo,

  1. es cualquier espacio de probabilidad,
  2. ,
  3. ,

La definición de una función de influencia empírica es: Sean y son iid y es una muestra de estas variables. es un estimador. Deja . La función de influencia empírica en la observación se define por:

Lo que esto realmente significa es que estamos reemplazando el i -ésimo valor en la muestra por un valor arbitrario y mirando la salida del estimador. Alternativamente, el EIF se define como el efecto (escalado por n + 1 en lugar de n) sobre el estimador de agregar el punto a la muestra.

Función de influencia y curva de sensibilidad

En lugar de depender únicamente de los datos, podríamos usar la distribución de las variables aleatorias. El enfoque es bastante diferente al del párrafo anterior. Lo que estamos tratando de hacer ahora es ver qué le sucede a un estimador cuando cambiamos ligeramente la distribución de los datos: asume una distribución y mide la sensibilidad al cambio en esta distribución. Por el contrario, la influencia empírica asume un conjunto de muestras y mide la sensibilidad al cambio en las muestras.

Sea un subconjunto convexo del conjunto de todas las medidas finitas con signo . Queremos estimar el parámetro de una distribución en . Sea el funcional el valor asintótico de alguna secuencia de estimadores . Supondremos que esta funcional es consistente con Fisher , es decir . Esto significa que en el modelo , la secuencia del estimador mide asintóticamente la cantidad correcta.

Sea alguna distribución en . ¿Qué sucede cuando los datos no siguen exactamente el modelo sino otro, ligeramente diferente, "yendo hacia" ?

Estamos pensando en: ,

que es la derivada unilateral de Gateaux de at , en la dirección de .

Deja . es la medida de probabilidad que da masa 1 a . Elegimos . La función de influencia se define entonces por:

Describe el efecto de una contaminación infinitesimal en el punto de la estimación que buscamos, estandarizado por la masa de la contaminación (el sesgo asintótico causado por la contaminación en las observaciones). Para un estimador robusto, queremos una función de influencia acotada, es decir, una que no vaya al infinito cuando x se vuelve arbitrariamente grande.

Propiedades deseables

Las propiedades de una función de influencia que le confieren un desempeño deseable son:

  1. Punto de rechazo finito ,
  2. Pequeña sensibilidad a errores graves ,
  3. Sensibilidad de desplazamiento local pequeña .

Punto de rechazo

Sensibilidad al error bruto

Sensibilidad al cambio local

Este valor, que se parece mucho a una constante de Lipschitz , representa el efecto de desplazar una observación ligeramente desde un punto vecino , es decir, agregar una observación en y eliminar una en .

Estimadores M

(El contexto matemático de este párrafo se da en la sección sobre funciones de influencia empírica).

Históricamente, se han propuesto varios enfoques para la estimación robusta, incluyendo estimadores R y L-estimadores . Sin embargo, los estimadores M parecen ahora dominar el campo como resultado de su generalidad, alto punto de ruptura y eficiencia. Ver Huber (1981) .

Los estimadores M son una generalización de los estimadores de máxima verosimilitud (MLE). Lo que intentamos hacer con los MLE es maximizar o, de manera equivalente, minimizar . En 1964, Huber propuso generalizar esto a la minimización de , donde hay alguna función. Por lo tanto MLE son un caso especial de M-estimadores (de ahí el nombre: " M estimadores de tipo Aximum probabilidad").

La minimización a menudo se puede hacer diferenciando y resolviendo dónde (si tiene una derivada).

Se han propuesto varias opciones de y . Las dos figuras siguientes muestran cuatro funciones y sus funciones correspondientes .

RhoFunctions.png

Para errores cuadrados, aumenta a una tasa acelerada, mientras que para errores absolutos, aumenta a una tasa constante. Cuando se utiliza Winsorizing, se introduce una mezcla de estos dos efectos: para valores pequeños de x, aumenta al cuadrado, pero una vez que se alcanza el umbral elegido (1,5 en este ejemplo), la tasa de aumento se vuelve constante. Este estimador Winsorizado también se conoce como función de pérdida de Huber .

La función bipeso de Tukey (también conocida como biscuadrada) se comporta de manera similar a la función de error al cuadrado al principio, pero para errores más grandes, la función disminuye gradualmente.

PsiFunctions.png

Propiedades de los estimadores M

Los estimadores M no se relacionan necesariamente con una función de densidad de probabilidad. Por lo tanto, los enfoques estándar para la inferencia que surgen de la teoría de la verosimilitud, en general, no pueden utilizarse.

Se puede demostrar que los estimadores M tienen una distribución asintóticamente normal, de modo que siempre que se puedan calcular sus errores estándar, se dispone de un enfoque aproximado para la inferencia.

Dado que los estimadores M son normales solo asintóticamente, para tamaños de muestra pequeños podría ser apropiado utilizar un enfoque alternativo para la inferencia, como el bootstrap. Sin embargo, las estimaciones M no son necesariamente únicas (es decir, puede haber más de una solución que satisfaga las ecuaciones). Además, es posible que cualquier muestra de arranque en particular pueda contener más valores atípicos que el punto de ruptura del estimador. Por lo tanto, es necesario tener cuidado al diseñar esquemas de arranque.

Por supuesto, como vimos con el ejemplo de la velocidad de la luz, la media solo se distribuye normalmente de forma asintótica y cuando hay valores atípicos, la aproximación puede ser muy pobre incluso para muestras bastante grandes. Sin embargo, las pruebas estadísticas clásicas, incluidas las basadas en la media, suelen estar limitadas por encima del tamaño nominal de la prueba. No ocurre lo mismo con los estimadores M y la tasa de error de tipo I puede estar sustancialmente por encima del nivel nominal.

Estas consideraciones no "invalidan" la estimación M de ninguna manera. Simplemente aclaran que se necesita cierto cuidado en su uso, como ocurre con cualquier otro método de estimación.

Función de influencia de un estimador M

Se puede demostrar que la función de influencia de un estimador M es proporcional a , lo que significa que podemos derivar las propiedades de dicho estimador (como su punto de rechazo, sensibilidad al error bruto o sensibilidad al desplazamiento local) cuando conocemos su función. .

con lo dado por:

Elección de ψ y ρ

En muchas situaciones prácticas, la elección de la función no es fundamental para obtener una buena estimación robusta, y muchas opciones darán resultados similares que ofrecen grandes mejoras, en términos de eficiencia y sesgo, sobre las estimaciones clásicas en presencia de valores atípicos.

Teóricamente, se prefieren las funciones, y la función de peso doble (también conocida como biscuadrada) de Tukey es una opción popular. Maronna, Martin y Yohai (2006) recomiendan la función de peso doble con una eficiencia en la configuración normal del 85%.

Enfoques paramétricos robustos

Los estimadores M no se relacionan necesariamente con una función de densidad y, por lo tanto, no son completamente paramétricos. Los enfoques completamente paramétricos para el modelado robusto y la inferencia, tanto los enfoques bayesianos como los de probabilidad, generalmente tratan con distribuciones de colas pesadas como la distribución t de Student.

Para la distribución t con grados de libertad, se puede demostrar que

Porque , la distribución t es equivalente a la distribución de Cauchy. Los grados de libertad a veces se conocen como parámetro de curtosis . Es el parámetro que controla el peso de las colas. En principio, se puede estimar a partir de los datos de la misma forma que cualquier otro parámetro. En la práctica, es común que haya múltiples máximos locales cuando se permite variar. Como tal, es común fijar un valor alrededor de 4 o 6. La siguiente figura muestra la función-para 4 valores diferentes de .

TDistPsi.png

Ejemplo: datos de la velocidad de la luz

Para los datos de velocidad de la luz, permitiendo que el parámetro de curtosis varíe y maximizando la probabilidad, obtenemos

Fijar y maximizar la probabilidad da

Conceptos relacionados

Una cantidad fundamental es una función de los datos, cuya distribución de población subyacente es un miembro de una familia paramétrica, que no depende de los valores de los parámetros. Una estadística auxiliar es una función que también es una estadística, lo que significa que se calcula solo en términos de los datos. Tales funciones son robustas a los parámetros en el sentido de que son independientes de los valores de los parámetros, pero no robustas al modelo en el sentido de que asumen un modelo subyacente (familia paramétrica) y, de hecho, tales funciones son a menudo muy sensibles a violaciones de los supuestos del modelo. Por lo tanto , las estadísticas de prueba , frecuentemente construidas en términos de estas para no ser sensibles a los supuestos sobre los parámetros, siguen siendo muy sensibles a los supuestos del modelo.

Reemplazo de valores atípicos y perdidos

Reemplazar los datos faltantes se llama imputación . Si hay relativamente pocos puntos faltantes, existen algunos modelos que pueden usarse para estimar valores para completar la serie, como reemplazar los valores faltantes con la media o mediana de los datos. La regresión lineal simple también se puede utilizar para estimar los valores perdidos. Además, los valores atípicos a veces se pueden acomodar en los datos mediante el uso de medias recortadas, otros estimadores de escala además de la desviación estándar (p. Ej., MAD) y Winsorización. En los cálculos de una media recortada, se elimina un porcentaje fijo de datos de cada extremo de un dato ordenado, eliminando así los valores atípicos. A continuación, se calcula la media utilizando los datos restantes. Winsorizar implica acomodar un valor atípico reemplazándolo con el siguiente valor más alto o el siguiente valor más pequeño, según corresponda.

Sin embargo, el uso de este tipo de modelos para predecir valores perdidos o valores atípicos en una serie de tiempo prolongada es difícil y, a menudo, poco confiable, especialmente si el número de valores que se deben completar es relativamente alto en comparación con la longitud total del registro. La precisión de la estimación depende de qué tan bueno y representativo sea el modelo y cuánto se extienda el período de valores perdidos. En el caso de un proceso dinámico, por lo que cualquier variable depende, no solo de la serie histórica de tiempo de la misma variable, sino también de varias otras variables o parámetros del proceso. En otras palabras, el problema es un ejercicio de análisis multivariado en lugar del enfoque univariado de la mayoría de los métodos tradicionales de estimación de valores perdidos y valores atípicos; por tanto, un modelo multivariado será más representativo que uno univariado para predecir valores perdidos. El mapa autoorganizado de Kohonen (KSOM) ofrece un modelo multivariante simple y robusto para el análisis de datos, lo que brinda buenas posibilidades para estimar los valores faltantes, teniendo en cuenta su relación o correlación con otras variables pertinentes en el registro de datos.

Los filtros estándar de Kalman no son resistentes a valores atípicos. Con este fin , Ting, Theodorou y Schaal (2007) han demostrado recientemente que una modificación del teorema de Masreliez puede hacer frente a valores atípicos.

Un enfoque común para manejar valores atípicos en el análisis de datos es realizar primero la detección de valores atípicos, seguida de un método de estimación eficiente (por ejemplo, los mínimos cuadrados). Si bien este enfoque suele ser útil, se deben tener en cuenta dos desafíos. Primero, un método de detección de valores atípicos que se basa en un ajuste inicial no robusto puede sufrir el efecto de enmascaramiento, es decir, un grupo de valores atípicos puede enmascararse entre sí y escapar a la detección. En segundo lugar, si se utiliza un ajuste inicial de alto desglose para la detección de valores atípicos, el análisis de seguimiento podría heredar algunas de las ineficiencias del estimador inicial.

Ver también

Notas

Referencias

enlaces externos