Imputación (estadísticas) - Imputation (statistics)

En estadística , la imputación es el proceso de reemplazar los datos faltantes con valores sustituidos. Cuando se sustituye por un punto de datos, se conoce como " imputación unitaria "; cuando se sustituye un componente de un punto de datos, se conoce como " imputación de artículo ". Hay tres problemas principales que causan los datos faltantes: los datos faltantes pueden introducir una cantidad sustancial de sesgo , hacer que el manejo y análisis de los datos sea más arduo y crear reducciones en la eficiencia . Debido a que los datos faltantes pueden crear problemas para analizar los datos, la imputación se considera una forma de evitar los errores relacionados con la eliminación por lista de casos que tienen valores perdidos. Es decir, cuando faltan uno o más valores para un caso, la mayoría de los paquetes estadísticos descartan por defecto cualquier caso que tenga un valor faltante, lo que puede introducir sesgos o afectar la representatividad de los resultados. La imputación preserva todos los casos al reemplazar los datos faltantes con un valor estimado basado en otra información disponible. Una vez que se han imputado todos los valores faltantes, el conjunto de datos se puede analizar utilizando técnicas estándar para obtener datos completos. Los científicos han adoptado muchas teorías para explicar los datos faltantes, pero la mayoría de ellas introducen sesgos. Algunos de los intentos bien conocidos de tratar los datos faltantes incluyen: imputación de cubierta caliente y cubierta fría; eliminación por lista y por parejas; imputación media; factorización matricial no negativa; imputación de regresión; última observación llevada a cabo; imputación estocástica; e imputación múltiple.

Eliminación listwise (caso completo)

Con mucho, el medio más común de tratar los datos faltantes es la eliminación por lista (también conocida como caso completo), que es cuando se eliminan todos los casos con un valor perdido. Si los datos faltan por completo al azar , entonces la eliminación por lista no agrega ningún sesgo, pero disminuye el poder del análisis al disminuir el tamaño efectivo de la muestra. Por ejemplo, si se recopilan 1000 casos pero 80 tienen valores faltantes, el tamaño de muestra efectivo después de la eliminación por lista es 920. Si los casos no faltan completamente al azar, la eliminación por lista introducirá sesgo porque la submuestra de casos representada por el los datos faltantes no son representativos de la muestra original (y si la muestra original era en sí misma una muestra representativa de una población, los casos completos tampoco son representativos de esa población). Si bien la eliminación por listas es imparcial cuando los datos faltantes faltan completamente al azar, en la actualidad esto rara vez es el caso.

La eliminación por pares (o "análisis de casos disponibles") implica eliminar un caso cuando falta una variable requerida para un análisis en particular, pero incluir ese caso en análisis para los que están presentes todas las variables requeridas. Cuando se utiliza la eliminación por pares, el N total para el análisis no será coherente entre las estimaciones de los parámetros. Debido a los valores de N incompletos en algunos puntos en el tiempo, mientras se mantiene la comparación de casos completa para otros parámetros, la eliminación por pares puede introducir situaciones matemáticas imposibles, como correlaciones superiores al 100%.

La única ventaja que tiene la eliminación completa de casos sobre otros métodos es que es sencilla y fácil de implementar. Esta es una gran razón por la que el caso completo es el método más popular para manejar los datos faltantes a pesar de las muchas desventajas que tiene.

Imputación única

Cubierta caliente

Un método de imputación que alguna vez fue común fue la imputación en caliente, en la que se imputaba un valor faltante de un registro similar seleccionado al azar. El término "mazo caliente" se remonta al almacenamiento de datos en tarjetas perforadas e indica que los donantes de información provienen del mismo conjunto de datos que los destinatarios. La pila de tarjetas estaba "caliente" porque se estaba procesando.

Una forma de imputación de plataforma caliente se llama "última observación llevada adelante" (o LOCF para abreviar), que implica ordenar un conjunto de datos de acuerdo con cualquiera de una serie de variables, creando así un conjunto de datos ordenado. Luego, la técnica encuentra el primer valor faltante y utiliza el valor de la celda inmediatamente anterior a los datos que faltan para imputar el valor faltante. El proceso se repite para la siguiente celda con un valor faltante hasta que se hayan imputado todos los valores perdidos. En el escenario común en el que los casos son mediciones repetidas de una variable para una persona u otra entidad, esto representa la creencia de que si falta una medición, la mejor suposición es que no ha cambiado desde la última vez que se midió. Se sabe que este método aumenta el riesgo de sesgos crecientes y conclusiones potencialmente falsas. Por esta razón, no se recomienda el uso de LOCF.

Cubierta fría

La imputación de cubierta fría, por el contrario, selecciona donantes de otro conjunto de datos. Debido a los avances en el poder de las computadoras, los métodos de imputación más sofisticados generalmente han reemplazado a las técnicas originales de imputación aleatoria y clasificada. Es un método para reemplazar con valores de respuesta de elementos similares en encuestas anteriores. Está disponible en encuestas que miden intervalos de tiempo.

Sustitución media

Otra técnica de imputación implica reemplazar cualquier valor faltante con la media de esa variable para todos los demás casos, lo que tiene la ventaja de no cambiar la media de la muestra para esa variable. Sin embargo, la imputación media atenúa cualquier correlación que involucre las variables imputadas. Esto se debe a que, en los casos con imputación, se garantiza que no existe relación entre la variable imputada y cualquier otra variable medida. Por lo tanto, la imputación media tiene algunas propiedades atractivas para el análisis univariante, pero se vuelve problemática para el análisis multivariado.

La imputación media se puede realizar dentro de las clases (es decir, categorías como el género) y se puede expresar como dónde es el valor imputado para el registro y es la media muestral de los datos de los encuestados dentro de alguna clase . Este es un caso especial de imputación de regresión generalizada:

Aquí, los valores se estiman a partir de la regresión en datos no imputados, es una variable ficticia para la pertenencia a una clase y los datos se dividen en respondiente ( ) y faltante ( ).

Factorización matricial no negativa

La factorización matricial no negativa (NMF) puede tomar los datos faltantes mientras minimiza su función de costo, en lugar de tratar estos datos faltantes como ceros que podrían introducir sesgos. Esto lo convierte en un método matemáticamente probado para la imputación de datos. NMF puede ignorar los datos faltantes en la función de costos, y el impacto de los datos faltantes puede ser tan pequeño como un efecto de segundo orden.

Regresión

La imputación por regresión tiene el problema opuesto de la imputación media. Se estima un modelo de regresión para predecir los valores observados de una variable en función de otras variables, y ese modelo se utiliza para imputar valores en los casos en que falta el valor de esa variable. En otras palabras, la información disponible para casos completos e incompletos se utiliza para predecir el valor de una variable específica. Los valores ajustados del modelo de regresión se utilizan luego para imputar los valores faltantes. El problema es que los datos imputados no tienen un término de error incluido en su estimación, por lo que las estimaciones se ajustan perfectamente a lo largo de la línea de regresión sin ninguna varianza residual. Esto hace que las relaciones se sobreidentifiquen y sugieran una mayor precisión en los valores imputados de lo que se justifica. El modelo de regresión predice el valor más probable de los datos faltantes, pero no proporciona incertidumbre sobre ese valor.

La regresión estocástica fue un intento bastante exitoso de corregir la falta de un término de error en la imputación de regresión agregando la varianza de regresión promedio a las imputaciones de regresión para introducir error. La regresión estocástica muestra un sesgo mucho menor que las técnicas mencionadas anteriormente, pero aun así omitió una cosa: si los datos se imputan, intuitivamente uno pensaría que se debería introducir más ruido en el problema que la simple varianza residual.

Imputación múltiple

Para abordar el problema del aumento del ruido debido a la imputación, Rubin (1987) desarrolló un método para promediar los resultados a través de múltiples conjuntos de datos imputados para dar cuenta de esto. Todos los métodos de imputación múltiple siguen tres pasos.

  1. Imputación: similar a la imputación única, los valores perdidos se imputan. Sin embargo, los valores imputados se extraen m veces de una distribución en lugar de una sola vez. Al final de este paso, debe haber m conjuntos de datos completos.
  2. Análisis: se analiza cada uno de los m conjuntos de datos. Al final de este paso debería haber m análisis.
  3. Combinación: los m resultados se consolidan en un resultado calculando la media, la varianza y el intervalo de confianza de la variable de interés o combinando simulaciones de cada modelo por separado.

Así como existen múltiples métodos de imputación única, también existen múltiples métodos de imputación múltiple. Una ventaja que tiene la imputación múltiple sobre la imputación única y los métodos de caso completo es que la imputación múltiple es flexible y se puede utilizar en una amplia variedad de escenarios. La imputación múltiple se puede utilizar en los casos en que los datos falten completamente al azar , falten al azar e incluso cuando los datos falten no al azar . Un enfoque popular es la imputación múltiple por ecuaciones encadenadas (MICE), también conocida como "especificación totalmente condicional" e "imputación múltiple de regresión secuencial". MICE está diseñado para datos que faltan al azar, aunque hay evidencia de simulación que sugiere que con un número suficiente de variables auxiliares también puede trabajar con datos que faltan, no al azar. Sin embargo, MICE puede sufrir problemas de rendimiento cuando el número de observaciones es grande y los datos tienen características complejas, como no linealidades y alta dimensionalidad.

Los enfoques más recientes de imputación múltiple utilizan técnicas de aprendizaje automático para mejorar su rendimiento. MIDAS (Imputación múltiple con codificadores automáticos de eliminación de ruido), por ejemplo, utiliza codificadores automáticos de eliminación de ruido, un tipo de red neuronal no supervisada, para aprender representaciones latentes detalladas de los datos observados. Se ha demostrado que MIDAS proporciona ventajas de precisión y eficiencia sobre las estrategias tradicionales de imputación múltiple.

Como se mencionó en la sección anterior, la imputación única no tiene en cuenta la incertidumbre en las imputaciones. Después de la imputación, los datos se tratan como si fueran los valores reales reales en una sola imputación. La negligencia de la incertidumbre en la imputación puede conducir y conducirá a resultados demasiado precisos y errores en las conclusiones extraídas. Al imputar varias veces, la imputación múltiple da cuenta de la incertidumbre y el rango de valores que podría haber tomado el valor real. Como era de esperar, la combinación de la estimación de la incertidumbre y el aprendizaje profundo para la imputación se encuentra entre las mejores estrategias y se ha utilizado para modelar datos heterogéneos de descubrimiento de fármacos.

Además, si bien es cierto que la imputación única y el caso completo son más fáciles de implementar, la imputación múltiple no es muy difícil de implementar. Existe una amplia gama de paquetes estadísticos diferentes en diferentes software estadísticos que permiten fácilmente a alguien realizar una imputación múltiple. Por ejemplo, el paquete MICE permite a los usuarios de R realizar una imputación múltiple utilizando el método MICE. MIDAS se puede implementar en R con el paquete rMIDAS y en Python con el paquete MIDASpy.

Ver también

Referencias

enlaces externos