Factorización matricial no negativa - Non-negative matrix factorization

Ilustración de la matriz de factorización no negativa aproximada: la matriz V está representada por las dos matrices más pequeñas W y H , el cual, cuando se multiplica, aproximadamente reconstruct V .

La factorización de matrices no negativas ( NMF o NNMF ), también la aproximación de matrices no negativas, es un grupo de algoritmos en análisis multivariante y álgebra lineal donde una matriz V se factoriza en (generalmente) dos matrices W y H , con la propiedad de que las tres las matrices no tienen elementos negativos. Esta no negatividad hace que las matrices resultantes sean más fáciles de inspeccionar. Además, en aplicaciones como el procesamiento de espectrogramas de audio o la actividad muscular, la no negatividad es inherente a los datos que se están considerando. Dado que el problema no se puede resolver exactamente en general, comúnmente se aproxima numéricamente.

NMF encuentra aplicaciones en campos como la astronomía , la visión por computadora , la agrupación de documentos , la imputación de datos faltantes , la quimiometría , el procesamiento de señales de audio , los sistemas de recomendación y la bioinformática .

Historia

En quimiometría , la factorización de matrices no negativas tiene una larga historia bajo el nombre de "resolución de curva de auto modelado". En este marco, los vectores de la matriz de la derecha son curvas continuas en lugar de vectores discretos. También un grupo de investigadores finlandeses realizó en la década de 1990 un trabajo temprano sobre factorizaciones matriciales no negativas bajo el nombre de factorización matricial positiva . Se hizo más conocido como factorización de matrices no negativas después de que Lee y Seung investigaron las propiedades del algoritmo y publicaron algunos algoritmos simples y útiles para dos tipos de factorizaciones.

Fondo

Sea la matriz V el producto de las matrices W y H ,

La multiplicación de matrices se puede implementar como el cálculo de los vectores columna de V como combinaciones lineales de los vectores columna en W utilizando coeficientes suministrados por columnas de H . Es decir, cada columna de V se puede calcular de la siguiente manera:

donde v i es el i vector columna -ésimo de la matriz del producto V y h i es el i -ésimo vector columna de la matriz H .

Al multiplicar matrices, las dimensiones de las matrices de factores pueden ser significativamente menores que las de la matriz de productos y es esta propiedad la que forma la base de NMF. NMF genera factores con dimensiones significativamente reducidas en comparación con la matriz original. Por ejemplo, si V es un m × n matriz, W es un m × p matriz, y H es un p × n matriz entonces p puede ser significativamente menor que ambos m y n .

A continuación, se muestra un ejemplo basado en una aplicación de minería de texto:

  • Deje que la matriz de entrada (la matriz a factorizar) sea V con 10000 filas y 500 columnas donde las palabras están en filas y los documentos en columnas. Es decir, tenemos 500 documentos indexados por 10000 palabras. De ello se deduce que un vector de columna v en V representa un documento.
  • Supongamos que le pedimos al algoritmo que encuentre 10 características para generar una matriz de características W con 10000 filas y 10 columnas y una matriz de coeficientes H con 10 filas y 500 columnas.
  • El producto de W y H es una matriz con 10000 filas y 500 columnas, la misma forma que la matriz de entrada V y, si la factorización trabajó, es una aproximación razonable a la matriz de entrada V .
  • Desde el tratamiento de la multiplicación de la matriz por encima de ella se deduce que cada columna de la matriz del producto WH es una combinación lineal de los vectores de la columna 10 en las características de la matriz W con coeficientes suministrados por los coeficientes de la matriz H .

Este último punto es la base de NMF porque podemos considerar cada documento original en nuestro ejemplo como construido a partir de un pequeño conjunto de características ocultas. NMF genera estas características.

Es útil pensar en cada característica (vector de columna) en la matriz de características W como un arquetipo de documento que comprende un conjunto de palabras donde el valor de celda de cada palabra define el rango de la palabra en la característica: Cuanto mayor sea el valor de celda de una palabra, mayor será el rango de la palabra en la función. Una columna en la matriz de coeficientes H representa un documento original con un valor de celda que define el rango del documento para una característica. Ahora podemos reconstruir un documento (vector de columna) de nuestra matriz de entrada por una combinación lineal de nuestras características (vectores de columna en W ), donde cada característica se pondera por el valor de la celda de la función de la columna del documento en H .

Propiedad de agrupación

NMF tiene una propiedad de agrupamiento inherente, es decir, agrupa automáticamente las columnas de datos de entrada .

Más específicamente, la aproximación de por se logra encontrando y que minimizan la función de error

sujeto a

Si además imponemos una restricción de ortogonalidad , es decir , entonces la minimización anterior es matemáticamente equivalente a la minimización de la agrupación de K-medias .

Además, el cálculo da la pertenencia al grupo, es decir, si para todo ik , esto sugiere que los datos de entrada pertenecen al grupo -th. El calculado da los centroides del grupo, es decir, la -ésima columna da el centroide del grupo -ésimo grupo. La representación de este centroide se puede mejorar significativamente mediante NMF convexo.

Cuando la restricción de ortogonalidad no se impone explícitamente, la ortogonalidad se mantiene en gran medida y la propiedad de agrupamiento también se mantiene. La agrupación en clústeres es el objetivo principal de la mayoría de las aplicaciones de minería de datos de NMF.

Cuando la función de error que se va a utilizar es la divergencia Kullback-Leibler , NMF es idéntico al análisis semántico latente probabilístico , un método popular de agrupamiento de documentos.

Tipos

Factorización matricial aproximada no negativa

Por lo general, el número de columnas de W y el número de filas de H en NMF se seleccionan de modo que el producto WH se convertirá en una aproximación a V . La descomposición completa de V asciende entonces a las dos matrices no negativos W y H , así como un residual U , tal que: V = WH + U . Los elementos de la matriz residual pueden ser negativos o positivos.

Cuando W y H son más pequeños que V, se vuelven más fáciles de almacenar y manipular. Otra razón para factorizar V en matrices más pequeñas W y H es que si uno es capaz de representar aproximadamente los elementos de V con significativamente menos datos, entonces uno tiene que inferir alguna estructura latente en los datos.

Factorización matricial convexa no negativa

En NMF estándar, el factor de matriz WR + m × k, es decir, W puede ser cualquier cosa en ese espacio. Convex NMF restringe las columnas de W a combinaciones convexas de los vectores de datos de entrada . Esto mejora considerablemente la calidad de representación de datos de W . Además, el factor de matriz resultante H se vuelve más escaso y ortogonal.

Factorización de rango no negativo

En caso de que el rango no negativo de V sea ​​igual a su rango real, V = WH se denomina factorización de rango no negativo (NRF). Se sabe que el problema de encontrar el NRF de V , si existe, es NP-difícil.

Diferentes funciones de costes y regularizaciones.

Existen diferentes tipos de factorizaciones matriciales no negativas. Los diferentes tipos surgen del uso de diferentes funciones de costos para medir la divergencia entre V y WH y posiblemente de la regularización de las matrices W y / o H.

Dos funciones de divergencia simples estudiadas por Lee y Seung son el error al cuadrado (o norma de Frobenius ) y una extensión de la divergencia de Kullback-Leibler a matrices positivas (la divergencia de Kullback-Leibler original se define en distribuciones de probabilidad). Cada divergencia conduce a un algoritmo NMF diferente, por lo general minimizando la divergencia utilizando reglas de actualización iterativas.

El problema de factorización en la versión de error al cuadrado de NMF puede expresarse como: Dada una matriz, encuentre matrices no negativas W y H que minimicen la función

Otro tipo de NMF para imágenes se basa en la norma de variación total .

Cuando la regularización L1 (similar a Lasso ) se agrega a NMF con la función de costo de error cuadrático medio, el problema resultante puede denominarse codificación dispersa no negativa debido a la similitud con el problema de codificación dispersa , aunque también puede denominarse NMF.

NMF en línea

Muchos algoritmos NMF estándar analizan todos los datos juntos; es decir, la matriz completa está disponible desde el principio. Esto puede ser insatisfactorio en aplicaciones donde hay demasiados datos para caber en la memoria o donde los datos se proporcionan en forma de transmisión . Uno de esos usos es el filtrado colaborativo en los sistemas de recomendación , donde puede haber muchos usuarios y muchos elementos para recomendar, y sería ineficaz recalcular todo cuando se agrega un usuario o un elemento al sistema. La función de costo para la optimización en estos casos puede o no ser la misma que para el NMF estándar, pero los algoritmos deben ser bastante diferentes.

Algoritmos

Hay varias formas en las que se pueden encontrar W y H : la regla de actualización multiplicativa de Lee y Seung ha sido un método popular debido a la simplicidad de implementación. Este algoritmo es:

inicializar: W y H no negativos.
Luego actualice los valores en W y H calculando lo siguiente, con como índice de la iteración.
y
Hasta que W y H sean estables.

Tenga en cuenta que las actualizaciones se realizan elemento por elemento, no multiplicación de matrices.

Observamos que los factores multiplicativos para W y H , es decir, los términos y , son matrices de unos cuando .

Más recientemente se han desarrollado otros algoritmos. Algunos enfoques se basan en la alternancia de mínimos cuadrados no negativos : en cada paso de dicho algoritmo, primero H es fijo y W se encuentra mediante un solucionador de mínimos cuadrados no negativos, luego W es fijo y H se encuentra de forma análoga. Los procedimientos utilizados para resolver para W y H pueden ser iguales o diferentes, como algunos NMF variantes de uno regularize de W y H . Los enfoques específicos incluyen los métodos de descenso de gradiente proyectado , el método de conjunto activo , el método de gradiente óptimo y el método de pivote principal de bloque, entre varios otros.

Los algoritmos actuales son subóptimos en el sentido de que solo garantizan la búsqueda de un mínimo local, en lugar de un mínimo global de la función de costo. Un algoritmo demostrablemente óptimo es poco probable en el futuro cercano, ya que se ha demostrado que el problema generaliza el problema de agrupamiento de k-medias que se sabe que es NP-completo . Sin embargo, como en muchas otras aplicaciones de minería de datos, un mínimo local puede resultar útil.

Gráficos de varianza residual fraccional (FRV) para PCA y NMF secuencial; para PCA, los valores teóricos son la contribución de los valores propios residuales. En comparación, las curvas FRV para PCA alcanzan una meseta plana donde ninguna señal se captura de manera efectiva; mientras que las curvas NMF FRV están disminuyendo continuamente, lo que indica una mejor capacidad para capturar la señal. Las curvas de FRV para NMF también convergen a niveles más altos que PCA, lo que indica la propiedad de NMF de menos sobreajuste.

NMF secuencial

La construcción secuencial de componentes NMF ( W y H ) se utilizó en primer lugar para relacionar NMF con el análisis de componentes principales (PCA) en astronomía. La contribución de los componentes de PCA se clasifica por la magnitud de sus valores propios correspondientes; para NMF, sus componentes se pueden clasificar empíricamente cuando se construyen uno por uno (secuencialmente), es decir, aprender el componente -ésimo con los primeros componentes construidos.

La contribución de los componentes secuenciales de NMF se puede comparar con el teorema de Karhunen-Loève , una aplicación de PCA, utilizando la gráfica de valores propios. Una elección típica del número de componentes con PCA se basa en el punto de "codo", entonces la existencia de la meseta plana indica que PCA no está capturando los datos de manera eficiente y, por último, existe una caída repentina que refleja la captura de datos aleatorios. ruido y cae en el régimen de sobreajuste. Para NMF secuencial, el gráfico de valores propios se aproxima mediante el gráfico de las curvas de varianza residual fraccionaria, donde las curvas disminuyen continuamente y convergen a un nivel más alto que el PCA, que es la indicación de menos sobreajuste de NMF secuencial.

NMF exacto

Soluciones exactas para las variantes de NMF se puede esperar (en tiempo polinómico) cuando las restricciones adicionales se mantienen para la matriz V . Campbell y Poole en 1981 dieron un algoritmo de tiempo polinomial para resolver la factorización de rango no negativo si V contiene una submatriz monomial de rango igual a su rango. Kalofolias y Gallopoulos (2012) resolvieron la contraparte simétrica de este problema, donde V es simétrico y contiene una submatriz principal diagonal de rango r. Su algoritmo se ejecuta en tiempo O (rm 2 ) en el caso denso. Arora, Ge, Halpern, Mimno, Moitra, Sontag, Wu y Zhu (2013) dan un algoritmo de tiempo polinomial para NMF exacto que funciona para el caso donde uno de los factores W satisface una condición de separabilidad.

Relación con otras técnicas

En Aprendizaje de las partes de los objetos mediante factorización matricial no negativa, Lee y Seung propusieron NMF principalmente para la descomposición de imágenes basada en partes. Compara el NMF con la cuantificación vectorial y el análisis de componentes principales , y muestra que, aunque las tres técnicas pueden escribirse como factorizaciones, implementan restricciones diferentes y, por lo tanto, producen resultados diferentes.

NMF como modelo gráfico probabilístico: las unidades visibles ( V ) se conectan a las unidades ocultas ( H ) a través de pesos W , de modo que V se genera a partir de una distribución de probabilidad con media .

Más tarde se demostró que algunos tipos de NMF son una instancia de un modelo probabilístico más general llamado "PCA multinomial". Cuando la NMF se obtiene minimizando la divergencia de Kullback-Leibler , de hecho es equivalente a otra instancia de PCA multinomial, el análisis semántico latente probabilístico , entrenado por la estimación de máxima verosimilitud . Ese método se usa comúnmente para analizar y agrupar datos textuales y también está relacionado con el modelo de clases latentes .

NMF con el objetivo de mínimos cuadrados es equivalente a una forma relajada de agrupamiento de K-medias : el factor de matriz W contiene centroides de grupo y H contiene indicadores de pertenencia a grupo. Esto proporciona una base teórica para usar NMF para la agrupación de datos. Sin embargo, k-means no impone la no negatividad en sus centroides, por lo que la analogía más cercana es de hecho con "semi-NMF".

NMF puede verse como un modelo gráfico dirigido de dos capas con una capa de variables aleatorias observadas y una capa de variables aleatorias ocultas.

NMF se extiende más allá de las matrices a tensores de orden arbitrario. Esta extensión puede verse como una contraparte no negativa de, por ejemplo, el modelo PARAFAC .

Otras extensiones de NMF incluyen la factorización conjunta de varias matrices de datos y tensores donde se comparten algunos factores. Estos modelos son útiles para la fusión de sensores y el aprendizaje relacional.

NMF es una instancia de programación cuadrática no negativa ( NQP ), al igual que la máquina de vectores de soporte (SVM). Sin embargo, SVM y NMF están relacionados a un nivel más íntimo que el de NQP, lo que permite la aplicación directa de los algoritmos de solución desarrollados para cualquiera de los dos métodos a problemas en ambos dominios.

Unicidad

La factorización no es única: una matriz y su inversa se pueden utilizar para transformar las dos matrices de factorización por, por ejemplo,

Si las dos nuevas matrices y no son negativas , forman otra parametrización de la factorización.

La no negatividad de y se aplica al menos si B es una matriz monomial no negativa . En este caso simple, solo corresponderá a una escala y una permutación .

Se obtiene más control sobre la no unicidad de NMF con restricciones de escasez.

Aplicaciones

Astronomía

En astronomía, NMF es un método prometedor para la reducción de dimensiones en el sentido de que las señales astrofísicas no son negativas. El NMF se ha aplicado a las observaciones espectroscópicas y las observaciones de imágenes directas como un método para estudiar las propiedades comunes de los objetos astronómicos y postprocesar las observaciones astronómicas. Los avances en las observaciones espectroscópicas de Blanton & Roweis (2007) tienen en cuenta las incertidumbres de las observaciones astronómicas, lo que posteriormente es mejorado por Zhu (2016) donde también se consideran los datos faltantes y se habilita la computación paralela . Luego, su método es adoptado por Ren et al. (2018) al campo de imágenes directas como uno de los métodos de detección de exoplanetas , especialmente para la obtención de imágenes directas de discos circunestelares .

Ren y col. (2018) son capaces de demostrar la estabilidad de los componentes NMF cuando se construyen secuencialmente (es decir, uno por uno), lo que permite la linealidad del proceso de modelado NMF; la propiedad de linealidad se utiliza para separar la luz estelar y la luz dispersada de los exoplanetas y discos circunestelares .

En imágenes directas, para revelar los exoplanetas débiles y los discos circunestelares de las brillantes luces estelares circundantes, que tiene un contraste típico de 10⁵ a 10¹⁰, se han adoptado varios métodos estadísticos, sin embargo, la luz de los exoplanetas o discos circunestelares suele estar sobreajustada. , donde se debe adoptar un modelo de avance para recuperar el flujo real. El modelado hacia adelante está actualmente optimizado para fuentes puntuales, pero no para fuentes extendidas, especialmente para estructuras de forma irregular como discos circunestelares. En esta situación, NMF ha sido un método excelente, siendo menos sobreajustado en el sentido de la no negatividad y escasez de los coeficientes de modelado NMF, por lo tanto, el modelado directo se puede realizar con unos pocos factores de escala, en lugar de datos computacionalmente intensivos. re-reducción en modelos generados.

Imputación de datos

Para imputar los datos faltantes en las estadísticas, NMF puede tomar los datos faltantes minimizando su función de costo, en lugar de tratar estos datos faltantes como ceros. Esto lo convierte en un método matemáticamente probado para la imputación de datos en estadística. Al probar primero que los datos faltantes se ignoran en la función de costos y luego demostrar que el impacto de los datos faltantes puede ser tan pequeño como un efecto de segundo orden, Ren et al. (2020) estudió y aplicó un enfoque de este tipo para el campo de la astronomía. Su trabajo se centra en matrices bidimensionales, específicamente, incluye derivación matemática, imputación de datos simulados y aplicación a datos en el cielo.

El procedimiento de imputación de datos con NMF puede constar de dos pasos. Primero, cuando se conocen los componentes de NMF, Ren et al. (2020) demostraron que el impacto de los datos faltantes durante la imputación de datos ("modelado de objetivos" en su estudio) es un efecto de segundo orden. En segundo lugar, cuando se desconocen los componentes del NMF, los autores demostraron que el impacto de los datos faltantes durante la construcción del componente es un efecto de primer a segundo orden.

Dependiendo de la forma en que se obtengan los componentes de NMF, el primer paso anterior puede ser independiente o dependiente del último. Además, la calidad de la imputación se puede aumentar cuando se utilizan más componentes de NMF, consulte la Figura 4 de Ren et al. (2020) para su ilustración.

Extracción de textos

NMF se puede utilizar para aplicaciones de minería de texto . En este proceso, se construye una matriz documento-término con las ponderaciones de varios términos (normalmente información de frecuencia de palabras ponderada) de un conjunto de documentos. Esta matriz se factoriza en una matriz término-característica y una matriz característica-documento . Las características se derivan del contenido de los documentos, y la matriz de características y documentos describe grupos de datos de documentos relacionados.

Una aplicación específica utilizó NMF jerárquico en un pequeño subconjunto de resúmenes científicos de PubMed . Otro grupo de investigación agrupó partes del conjunto de datos de correo electrónico de Enron con 65.033 mensajes y 91.133 términos en 50 grupos. NMF también se ha aplicado a datos de citas, con un ejemplo que agrupa artículos de Wikipedia en inglés y revistas científicas basadas en las citas científicas salientes en Wikipedia en inglés.

Arora, Ge, Halpern, Mimno, Moitra, Sontag, Wu y Zhu (2013) han proporcionado algoritmos de tiempo polinomial para aprender modelos de temas utilizando NMF. El algoritmo asume que la matriz de temas satisface una condición de separabilidad que a menudo se cumple en estos entornos.

Hassani, Iranmanesh y Mansouri (2019) propusieron un método de aglomeración de características para matrices de documentos a término que opera utilizando NMF. El algoritmo reduce la matriz término-documento a una matriz más pequeña más adecuada para la agrupación de texto.

Análisis de datos espectrales

El NMF también se usa para analizar datos espectrales; uno de esos usos es la clasificación de objetos espaciales y desechos.

Predicción de distancia de Internet escalable

NMF se aplica en la predicción escalable de distancia de Internet (tiempo de ida y vuelta). Para una red con hosts, con la ayuda de NMF, las distancias de todos los enlaces de extremo a extremo se pueden predecir después de realizar solo mediciones. Este tipo de método se introdujo por primera vez en Internet Distance Estimation Service (IDES). Posteriormente, como un enfoque totalmente descentralizado, se propone el sistema de coordenadas de la red Phoenix. Logra una mejor precisión de predicción general al introducir el concepto de peso.

Eliminación de ruido de voz no estacionaria

La eliminación de ruidos ha sido un problema duradero en el procesamiento de señales de audio . Existen muchos algoritmos para eliminar el ruido si el ruido es estacionario. Por ejemplo, el filtro Wiener es adecuado para ruido gaussiano aditivo . Sin embargo, si el ruido no es estacionario, los algoritmos de eliminación de ruido clásicos suelen tener un rendimiento deficiente porque la información estadística del ruido no estacionario es difícil de estimar. Schmidt y col. utilizar NMF para eliminar el ruido del habla con ruido no estacionario, que es completamente diferente de los enfoques estadísticos clásicos. La idea clave es que la señal de voz limpia se puede representar escasamente mediante un diccionario de voz, pero el ruido no estacionario no. De manera similar, el ruido no estacionario también se puede representar escasamente mediante un diccionario de ruido, pero el habla no.

El algoritmo para la eliminación de ruido NMF es el siguiente. Es necesario entrenar sin conexión dos diccionarios, uno para el habla y otro para el ruido. Una vez que se da un discurso ruidoso, primero calculamos la magnitud de la Transformada de Fourier de Corto Tiempo. En segundo lugar, sepárelo en dos partes a través de NMF, una se puede representar escasamente con el diccionario de voz y la otra parte se puede representar escasamente con el diccionario de ruido. En tercer lugar, la parte que está representada por el diccionario de habla será el habla limpia estimada.

Genética de poblaciones

El NMF disperso se utiliza en genética de poblaciones para estimar coeficientes de mezcla individuales, detectar grupos genéticos de individuos en una muestra de población o evaluar la mezcla genética en genomas muestreados. En la agrupación genética humana, los algoritmos NMF proporcionan estimaciones similares a las del programa de computadora STRUCTURE, pero los algoritmos son más eficientes computacionalmente y permiten el análisis de grandes conjuntos de datos genómicos de poblaciones.

Bioinformática

El NMF se ha aplicado con éxito en bioinformática para agrupar la expresión génica y los datos de metilación del ADN y encontrar los genes más representativos de los grupos. En el análisis de mutaciones del cáncer se ha utilizado para identificar patrones comunes de mutaciones que ocurren en muchos cánceres y que probablemente tienen causas distintas. Las técnicas de NMF pueden identificar fuentes de variación tales como tipos de células, subtipos de enfermedades, estratificación de la población, composición de tejidos y clonalidad de tumores.

Imágenes nucleares

El NMF, también denominado en este campo análisis factorial, se ha utilizado desde la década de 1980 para analizar secuencias de imágenes en imágenes médicas dinámicas SPECT y PET . La no unicidad de NMF se abordó utilizando restricciones de escasez.

La investigación actual

La investigación actual (desde 2010) en factorización de matrices no negativas incluye, pero no se limita a,

  1. Algorítmica: búsqueda de mínimos globales de los factores e inicialización de factores.
  2. Escalabilidad: cómo factorizar matrices de millones por billones, que son comunes en la minería de datos a escala web, por ejemplo, consulte Factorización de matrices no negativas distribuidas (DNMF), Factorización de matrices no negativas escalables (NMF escalables), Descomposición de valores singulares estocásticos distribuidos.
  3. En línea: cómo actualizar la factorización cuando ingresan nuevos datos sin volver a calcular desde cero, por ejemplo, consulte CNSC en línea
  4. Factorización colectiva (conjunta): factorización de múltiples matrices interrelacionadas para el aprendizaje de múltiples vistas, por ejemplo, agrupación de múltiples vistas, consulte CoNMF y MultiNMF
  5. Problema de Cohen y Rothblum 1993: si una matriz racional siempre tiene un NMF de dimensión interna mínima cuyos factores también son racionales. Recientemente, este problema ha recibido una respuesta negativa.

Ver también

Fuentes y enlaces externos

Notas

Otros