Modelo de mezcla - Mixture model

En estadística , un modelo mixto es un modelo probabilístico para representar la presencia de subpoblaciones dentro de una población general, sin requerir que un conjunto de datos observados identifique la subpoblación a la que pertenece una observación individual. Formalmente, un modelo de mezcla corresponde a la distribución de mezcla que representa la distribución de probabilidad de las observaciones en la población general. Sin embargo, mientras que los problemas asociados con las "distribuciones de mezcla" se relacionan con la derivación de las propiedades de la población general a partir de las de las subpoblaciones, los "modelos de mezcla" se utilizan para hacer inferencias estadísticas sobre las propiedades de las subpoblaciones dadas solo observaciones sobre el población agrupada, sin información de identidad de subpoblación.

Los modelos de mezcla no deben confundirse con modelos para datos de composición , es decir, datos cuyos componentes están restringidos a sumar un valor constante (1, 100%, etc.). Sin embargo, los modelos de composición se pueden considerar como modelos mixtos, en los que los miembros de la población se muestrean al azar. Por el contrario, los modelos de mezcla se pueden considerar como modelos de composición, donde el tamaño total de la población de lectura se ha normalizado a 1.

Estructura

Modelo de mezcla general

Un modelo típico de mezcla de dimensiones finitas es un modelo jerárquico que consta de los siguientes componentes:

  • N variables aleatorias que se observan, cada una distribuida según una mezcla de K componentes, con los componentes pertenecientes a la misma familia paramétrica de distribuciones (por ejemplo, todas normales , todas Zipfian , etc.) pero con diferentes parámetros
  • N variables latentes aleatorias que especifican la identidad del componente de mezcla de cada observación, cada una distribuida según una distribución categórica K -dimensional
  • Un conjunto de K pesos de mezcla, que son probabilidades que suman 1.
  • Un conjunto de K parámetros, cada uno de los cuales especifica el parámetro del componente de mezcla correspondiente. En muchos casos, cada "parámetro" es en realidad un conjunto de parámetros. Por ejemplo, si los componentes de la mezcla son distribuciones gaussianas , habrá una media y una varianza para cada componente. Si los componentes de la mezcla son distribuciones categóricas (por ejemplo, cuando cada observación es una ficha de un alfabeto finito de tamaño V ), habrá un vector de probabilidades V sumando 1.

Además, en un entorno bayesiano , los pesos y parámetros de la mezcla serán variables aleatorias, y las distribuciones previas se colocarán sobre las variables. En tal caso, los pesos se ven típicamente como un vector aleatorio K -dimensional extraído de una distribución de Dirichlet (el previo conjugado de la distribución categórica), y los parámetros se distribuirán de acuerdo con sus respectivos anteriores conjugados.

Matemáticamente, un modelo de mezcla paramétrico básico se puede describir de la siguiente manera:

En una configuración bayesiana, todos los parámetros están asociados con variables aleatorias, como se indica a continuación:

Esta caracterización utiliza F y H para describir distribuciones arbitrarias sobre observaciones y parámetros, respectivamente. Típicamente H será el conjugado antes de F . Las dos opciones más comunes de F son gaussiana, también conocida como " normal " (para observaciones de valor real) y categórica (para observaciones discretas). Otras posibilidades comunes para la distribución de los componentes de la mezcla son:

  • Distribución binomial , para el número de "ocurrencias positivas" (p. Ej., Éxitos, votos a favor, etc.) dado un número fijo de ocurrencias totales
  • Distribución multinomial , similar a la distribución binomial, pero para recuentos de ocurrencias de múltiples vías (p. Ej., Sí / no / tal vez en una encuesta)
  • Distribución binomial negativa , para observaciones de tipo binomial, pero donde la cantidad de interés es el número de fracasos antes de que ocurra un número determinado de éxitos.
  • Distribución de Poisson , para el número de ocurrencias de un evento en un período de tiempo dado, para un evento que se caracteriza por una tasa fija de ocurrencia
  • Distribución exponencial , para el tiempo antes de que ocurra el próximo evento, para un evento que se caracteriza por una tasa fija de ocurrencia.
  • Distribución logarítmica normal , para números reales positivos que se supone que crecen exponencialmente, como ingresos o precios.
  • Distribución normal multivariante (también conocida como distribución gaussiana multivariada), para vectores de resultados correlacionados que se distribuyen individualmente en Gauss
  • Multivariado de Student t -distribución , para los vectores de heavy-cola correlacionada resultados
  • Un vector de valores distribuidos por Bernoulli , correspondiente, por ejemplo, a una imagen en blanco y negro, donde cada valor representa un píxel; vea el ejemplo de reconocimiento de escritura a mano a continuación

Ejemplos específicos

Modelo de mezcla gaussiana

Modelo de mezcla gaussiana no bayesiana utilizando notación de placa . Los cuadrados más pequeños indican parámetros fijos; los círculos más grandes indican variables aleatorias. Las formas rellenas indican valores conocidos. La indicación [K] significa un vector de tamaño K .

Un modelo típico de mezcla gaussiana no bayesiana se ve así:

Modelo de mezcla bayesiana gaussiana mediante notación de placas . Los cuadrados más pequeños indican parámetros fijos; los círculos más grandes indican variables aleatorias. Las formas rellenas indican valores conocidos. La indicación [K] significa un vector de tamaño K .

Una versión bayesiana de un modelo de mezcla gaussiana es la siguiente:

Animación del proceso de agrupamiento para datos unidimensionales utilizando un modelo de mezcla Bayesiano Gaussiano donde las distribuciones normales se extraen de un proceso de Dirichlet . Los histogramas de los grupos se muestran en diferentes colores. Durante el proceso de estimación de parámetros, se crean nuevos clústeres y crecen con los datos. La leyenda muestra los colores del grupo y el número de puntos de datos asignados a cada grupo.

Modelo de mezcla gaussiana multivariante

Un modelo de mezcla bayesiana gaussiana se suele extender para ajustarse a un vector de parámetros desconocidos (indicados en negrita) o distribuciones normales multivariadas. En una distribución multivariante (es decir, una que modela un vector con N variables aleatorias), se puede modelar un vector de parámetros (como varias observaciones de una señal o parches dentro de una imagen) usando un modelo de mezcla gaussiana distribución previa en el vector de estimaciones dado por

donde el i- ésimo componente del vector se caracteriza por distribuciones normales con pesos , medias y matrices de covarianza . Para incorporar esta previa en una estimación bayesiana, la previa se multiplica por la distribución conocida de los datos condicionada a los parámetros a estimar. Con esta formulación, la distribución posterior es también un modelo mixto gaussiano de la forma

con nuevos parámetros y que se actualizan mediante el algoritmo EM . Aunque las actualizaciones de parámetros basadas en EM están bien establecidas, proporcionar las estimaciones iniciales para estos parámetros es actualmente un área de investigación activa. Tenga en cuenta que esta formulación produce una solución de forma cerrada para la distribución posterior completa. Las estimaciones de la variable aleatoria se pueden obtener mediante uno de varios estimadores, como la media o el máximo de la distribución posterior.

Tales distribuciones son útiles para asumir formas de imágenes y grupos, por ejemplo. En el caso de la representación de imágenes, cada gaussiano puede inclinarse, expandirse y deformarse de acuerdo con las matrices de covarianza . Una distribución gaussiana del conjunto se ajusta a cada parche (generalmente de tamaño 8x8 píxeles) en la imagen. En particular, cualquier distribución de puntos alrededor de un grupo (ver k -medias ) puede recibir con precisión suficientes componentes gaussianos, pero apenas se necesitan más de K = 20 componentes para modelar con precisión una distribución de imágenes o un grupo de datos dados.

Modelo de mezcla categórica

Modelo de mezcla categórica no bayesiano utilizando notación de placa . Los cuadrados más pequeños indican parámetros fijos; los círculos más grandes indican variables aleatorias. Las formas rellenas indican valores conocidos. La indicación [K] significa un vector de tamaño K ; lo mismo ocurre con [V].

Un modelo típico de mezcla no bayesiano con observaciones categóricas se ve así:

  • como anteriormente
  • como anteriormente
  • como anteriormente
  • dimensión de observaciones categóricas, por ejemplo, tamaño del vocabulario de palabras
  • probabilidad para el componente de observación del elemento
  • vector de dimensión compuesto por debe sumar 1

Las variables aleatorias:


Modelo de mezcla categórica bayesiano utilizando notación de placa . Los cuadrados más pequeños indican parámetros fijos; los círculos más grandes indican variables aleatorias. Las formas rellenas indican valores conocidos. La indicación [K] significa un vector de tamaño K ; lo mismo ocurre con [V].

Un modelo típico de mezcla bayesiana con observaciones categóricas se ve así:

  • como anteriormente
  • como anteriormente
  • como anteriormente
  • dimensión de observaciones categóricas, por ejemplo, tamaño del vocabulario de palabras
  • probabilidad para el componente de observación del elemento
  • vector de dimensión compuesto por debe sumar 1
  • hiperparámetro de concentración compartida de para cada componente
  • hiperparámetro de concentración de

Las variables aleatorias:


Ejemplos de

Un modelo financiero

La distribución normal se traza utilizando diferentes medias y varianzas.

Los rendimientos financieros a menudo se comportan de manera diferente en situaciones normales y durante tiempos de crisis. Un modelo mixto para los datos de retorno parece razonable. A veces, el modelo utilizado es un modelo de difusión por salto o como una mezcla de dos distribuciones normales. Consulte Economía financiera # Desafíos y críticas para obtener más contexto.

Precios de la vivienda

Suponga que observamos los precios de N casas diferentes. Los diferentes tipos de casas en diferentes vecindarios tendrán precios muy diferentes, pero el precio de un tipo particular de casa en un vecindario particular (por ejemplo, una casa de tres dormitorios en un vecindario moderadamente exclusivo) tenderá a agruparse bastante cerca de la media. Un modelo posible de tales precios sería suponer que los precios se describen con precisión mediante un modelo mixto con K componentes diferentes, cada uno distribuido como una distribución normal con media y varianza desconocidas, con cada componente especificando una combinación particular de tipo de casa / vecindario. Ajustar este modelo a los precios observados, por ejemplo, utilizando el algoritmo de maximización de expectativas , tendería a agrupar los precios según el tipo de casa / vecindario y revelaría la distribución de precios en cada tipo / vecindario. (Tenga en cuenta que para valores como los precios o los ingresos que están garantizados como positivos y que tienden a crecer exponencialmente , una distribución logarítmica normal podría ser un modelo mejor que una distribución normal).

Temas en un documento

Suponga que un documento se compone de N palabras diferentes de un vocabulario total de tamaño V , donde cada palabra corresponde a uno de los K temas posibles. La distribución de tales palabras podría modelarse como una mezcla de K distribuciones categóricas V -dimensionales diferentes . Un modelo de este tipo se denomina comúnmente modelo temático . Tenga en cuenta que la maximización de expectativas aplicada a dicho modelo normalmente no producirá resultados realistas, debido (entre otras cosas) al número excesivo de parámetros . Por lo general, se necesitan algunos tipos de suposiciones adicionales para obtener buenos resultados. Por lo general, se agregan dos tipos de componentes adicionales al modelo:

  1. Se coloca una distribución previa sobre los parámetros que describen las distribuciones de temas, utilizando una distribución de Dirichlet con un parámetro de concentración que se establece significativamente por debajo de 1, para fomentar distribuciones escasas (donde solo un pequeño número de palabras tienen probabilidades significativamente distintas de cero).
  2. Se coloca algún tipo de restricción adicional sobre las identidades temáticas de las palabras, para aprovechar la agrupación natural.
  • Por ejemplo, se podría colocar una cadena de Markov en las identidades de los temas (es decir, las variables latentes que especifican el componente de mezcla de cada observación), correspondiente al hecho de que las palabras cercanas pertenecen a temas similares. (Esto da como resultado un modelo de Markov oculto , específicamente uno en el que se coloca una distribución previa sobre las transiciones de estado que favorece las transiciones que permanecen en el mismo estado).
  • Otra posibilidad es el modelo de asignación de Dirichlet latente , que divide las palabras en D documentos diferentes y asume que en cada documento solo un pequeño número de temas ocurren con alguna frecuencia.

Reconocimiento de escritura a mano

El siguiente ejemplo se basa en un ejemplo de Christopher M. Bishop , Reconocimiento de patrones y aprendizaje automático .

Imagine que se nos da una imagen en blanco y negro N × N que se sabe que es un escaneo de un dígito escrito a mano entre 0 y 9, pero no sabemos qué dígito está escrito. Podemos crear un modelo de mezcla con diferentes componentes, donde cada componente es un vector de tamaño de distribuciones de Bernoulli (una por píxel). Dicho modelo se puede entrenar con el algoritmo de maximización de expectativas en un conjunto de dígitos escritos a mano sin etiquetar, y agrupará de manera efectiva las imágenes de acuerdo con el dígito que se está escribiendo. El mismo modelo podría usarse para reconocer el dígito de otra imagen simplemente manteniendo los parámetros constantes, calculando la probabilidad de la nueva imagen para cada dígito posible (un cálculo trivial) y devolviendo el dígito que generó la mayor probabilidad.

Evaluación de la precisión del proyectil (también conocido como error circular probable, CEP)

Los modelos de mezcla se aplican al problema de dirigir múltiples proyectiles hacia un objetivo (como en aplicaciones de defensa aérea, terrestre o marítima), donde las características físicas y / o estadísticas de los proyectiles difieren dentro de los múltiples proyectiles. Un ejemplo podría ser disparos de múltiples tipos de municiones o disparos desde múltiples ubicaciones dirigidos a un objetivo. La combinación de tipos de proyectiles puede caracterizarse como un modelo mixto gaussiano. Además, una medida bien conocida de precisión para un grupo de proyectiles es el error circular probable (CEP), que es el número R tal que, en promedio, la mitad del grupo de proyectiles cae dentro del círculo de radio R alrededor del objetivo. punto. El modelo de mezcla se puede utilizar para determinar (o estimar) el valor R . El modelo de mezcla captura adecuadamente los diferentes tipos de proyectiles.

Aplicaciones directas e indirectas

El ejemplo financiero anterior es una aplicación directa del modelo mixto, una situación en la que asumimos un mecanismo subyacente de modo que cada observación pertenece a una de varias fuentes o categorías diferentes. Sin embargo, este mecanismo subyacente puede ser observable o no. En esta forma de mezcla, cada una de las fuentes se describe mediante una función de densidad de probabilidad del componente, y su peso de mezcla es la probabilidad de que una observación provenga de este componente.

En una aplicación indirecta del modelo de mezcla no asumimos tal mecanismo. El modelo mixto se utiliza simplemente por sus flexibilidades matemáticas. Por ejemplo, una mezcla de dos distribuciones normales con diferentes medias puede resultar en una densidad con dos modos , que no está modelada por distribuciones paramétricas estándar. Otro ejemplo lo da la posibilidad de distribuciones mixtas para modelar colas más gruesas que las gaussianas básicas, de modo que sea un candidato para modelar eventos más extremos. Cuando se combina con la coherencia dinámica , este enfoque se ha aplicado a la valoración de derivados financieros en presencia de la sonrisa de volatilidad en el contexto de los modelos de volatilidad locales . Esto define nuestra aplicación.

Mantenimiento predictivo

El agrupamiento basado en modelos de mezcla también se utiliza principalmente para identificar el estado de la máquina en el mantenimiento predictivo . Los gráficos de densidad se utilizan para analizar la densidad de características de alta dimensión. Si se observan densidades de múltiples modelos, se supone que un conjunto finito de densidades está formado por un conjunto finito de mezclas normales. Se utiliza un modelo de mezcla gaussiana multivariante para agrupar los datos de características en un número k de grupos donde k representa cada estado de la máquina. El estado de la máquina puede ser un estado normal, un estado apagado o un estado defectuoso. Cada grupo formado se puede diagnosticar utilizando técnicas como el análisis espectral. En los últimos años, esto también se ha utilizado ampliamente en otras áreas, como la detección temprana de fallas.

Segmentación de imágenes difusas

Un ejemplo de mezcla gaussiana en la segmentación de imágenes con histograma gris

En el procesamiento de imágenes y la visión por computadora, los modelos tradicionales de segmentación de imágenes a menudo asignan a un píxel solo un patrón exclusivo. En la segmentación difusa o suave, cualquier patrón puede tener cierta "propiedad" sobre cualquier píxel. Si los patrones son gaussianos, la segmentación difusa naturalmente da como resultado mezclas gaussianas. Combinados con otras herramientas analíticas o geométricas (por ejemplo, transiciones de fase sobre límites difusivos), tales modelos de mezcla espacialmente regularizados podrían conducir a métodos de segmentación más realistas y computacionalmente eficientes.

Registro de conjuntos de puntos

Los modelos probabilísticos de mezcla, como los modelos de mezcla gaussiana (GMM), se utilizan para resolver problemas de registro de conjuntos de puntos en los campos de procesamiento de imágenes y visión por computadora. Para el registro de conjuntos de puntos por pares , un conjunto de puntos se considera como los centroides de los modelos de mezcla y el otro conjunto de puntos se considera como puntos de datos (observaciones). Los métodos más avanzados son, por ejemplo, la deriva de punto coherente (CPD) y los modelos de mezcla de distribución t de Student (TMM). El resultado de una investigación reciente demuestra la superioridad de los modelos de mezcla híbrida (por ejemplo, la combinación de distribución t de Student y distribución de Watson / distribución de Bingham para modelar posiciones espaciales y orientaciones de ejes por separado) en comparación con CPD y TMM, en términos de robustez inherente, precisión y capacidad discriminativa. .

Identificabilidad

La identificabilidad se refiere a la existencia de una caracterización única para cualquiera de los modelos de la clase (familia) que se está considerando. Los procedimientos de estimación pueden no estar bien definidos y la teoría asintótica puede no ser válida si un modelo no es identificable.

Ejemplo

Sea J la clase de todas las distribuciones binomiales con n = 2 . Entonces una mezcla de dos miembros de J habría

y p 2 = 1 - p 0 - p 1 . Claramente, dados p 0 y p 1 , no es posible determinar el modelo de mezcla anterior de manera única, ya que hay tres parámetros ( π , θ 1 , θ 2 ) por determinar.

Definición

Considere una mezcla de distribuciones paramétricas de la misma clase. Dejar

ser la clase de todas las distribuciones de componentes. Entonces, el casco convexo K de J define la clase de toda mezcla finita de distribuciones en J :

Se dice que K es identificable si todos sus miembros son únicos, es decir, dados dos miembros p y p ′ en K , que son mezclas de k distribuciones y k ′ distribuciones respectivamente en J , tenemos p = p ′ si y solo si, en primer lugar, k = k ′ y, en segundo lugar, podemos reordenar las sumas de modo que a i = a i y ƒ i = ƒ i para todo i .

Estimación de parámetros e identificación del sistema

Modelos de mezcla paramétricos se utilizan a menudo cuando sabemos la distribución Y y podemos probar de X , pero nos gustaría para determinar la una i y theta i valores. Tales situaciones pueden surgir en estudios en los que tomamos muestras de una población que se compone de varias subpoblaciones distintas.

Es común pensar en el modelado de mezclas de probabilidad como un problema de datos faltantes. Una forma de entender esto es asumir que los puntos de datos en consideración tienen "membresía" en una de las distribuciones que estamos usando para modelar los datos. Cuando comenzamos, esta membresía es desconocida o no existe. El trabajo de la estimación es diseñar los parámetros apropiados para las funciones del modelo que elegimos, con la conexión a los puntos de datos representados como su pertenencia a las distribuciones individuales del modelo.

Se han propuesto una variedad de enfoques al problema de la descomposición de mezclas, muchos de los cuales se centran en métodos de máxima verosimilitud, como la maximización de expectativas (EM) o la estimación máxima a posteriori (MAP). Generalmente, estos métodos consideran por separado las cuestiones de identificación del sistema y estimación de parámetros; los métodos para determinar el número y la forma funcional de los componentes dentro de una mezcla se distinguen de los métodos para estimar los valores de los parámetros correspondientes. Algunas desviaciones notables son los métodos gráficos descritos en Tarter y Lock y, más recientemente, técnicas de longitud mínima del mensaje (MML) como Figueiredo y Jain y, hasta cierto punto, las rutinas de análisis de patrones de coincidencia de momentos sugeridas por McWilliam y Loh (2009).

Maximización de expectativas (EM)

La maximización de expectativas (EM) es aparentemente la técnica más popular utilizada para determinar los parámetros de una mezcla con un número determinado de componentes a priori . Esta es una forma particular de implementar la estimación de máxima verosimilitud para este problema. EM es de particular atractivo para mezclas normales finitas donde las expresiones de forma cerrada son posibles, como en el siguiente algoritmo iterativo de Dempster et al. (1977)

con las probabilidades posteriores

Así, sobre la base de la estimación actual de los parámetros, la probabilidad condicional para una observación dada x ( t ) generada a partir del estado s se determina para cada t = 1,…, N  ; Siendo N el tamaño de la muestra. Luego, los parámetros se actualizan de manera que los nuevos pesos de los componentes correspondan a la probabilidad condicional promedio y la media y covarianza de cada componente sea el promedio ponderado específico del componente de la media y la covarianza de toda la muestra.

Dempster también mostró que cada iteración sucesiva de EM no disminuirá la probabilidad, una propiedad que no comparten otras técnicas de maximización basadas en gradientes. Además, EM incorpora naturalmente restricciones en el vector de probabilidad y, para tamaños de muestra suficientemente grandes, se repite la definición positiva de la covarianza. Esta es una ventaja clave, ya que los métodos explícitamente restringidos incurren en costos computacionales adicionales para verificar y mantener los valores apropiados. En teoría, EM es un algoritmo de primer orden y, como tal, converge lentamente hacia una solución de punto fijo. Redner y Walker (1984) plantean este punto argumentando a favor de los métodos de Newton y cuasi-Newton superlineales y de segundo orden y reportan una convergencia lenta en EM sobre la base de sus pruebas empíricas. Admiten que la convergencia en la probabilidad fue rápida incluso si la convergencia en los valores de los parámetros en sí no lo fue. Los méritos relativos de EM y otros algoritmos con respecto a la convergencia se han discutido en otra literatura.

Otras objeciones comunes al uso de EM son que tiene una propensión a identificar de manera falsa los máximos locales, así como a mostrar sensibilidad a los valores iniciales. Uno puede abordar estos problemas evaluando EM en varios puntos iniciales en el espacio de parámetros, pero esto es computacionalmente costoso y otros enfoques, como el método de recocido EM de Udea y Nakano (1998) (en el que los componentes iniciales se ven obligados esencialmente a superponerse, proporcionando una base menos heterogénea para las conjeturas iniciales), puede ser preferible.

Figueiredo y Jain señalan que la convergencia a valores de parámetros "sin sentido" obtenidos en el límite (donde se rompen las condiciones de regularidad, por ejemplo, Ghosh y Sen (1985)) se observa con frecuencia cuando el número de componentes del modelo excede el óptimo / verdadero. Sobre esta base, sugieren un enfoque unificado para la estimación y la identificación en el que se elige la n inicial para superar en gran medida el valor óptimo esperado. Su rutina de optimización se construye a través de un criterio de longitud mínima de mensaje (MML) que elimina efectivamente un componente candidato si no hay información suficiente para respaldarlo. De esta forma es posible sistematizar reducciones en ny considerar estimación e identificación de manera conjunta.

El algoritmo de maximización de expectativas se puede utilizar para calcular los parámetros de una distribución de modelo de mezcla paramétrica (el a i y θ i ). Es un algoritmo iterativo con dos pasos: un paso de expectativa y un paso de maximización . En las demostraciones de SOCR se incluyen ejemplos prácticos de EM y modelado de mezclas .

El paso de la expectativa

Con estimaciones iniciales de los parámetros de nuestro modelo de mezcla, la "pertenencia parcial" de cada punto de datos en cada distribución constituyente se calcula calculando los valores esperados para las variables de pertenencia de cada punto de datos. Es decir, para cada punto de datos x j y distribución Y i , el valor de pertenencia y i , j es:

El paso de maximización

Con los valores esperados disponibles para la pertenencia al grupo, las estimaciones de los complementos se vuelven a calcular para los parámetros de distribución.

Los coeficientes de mezcla a i son las medias de los valores de pertenencia sobre los N puntos de datos.

Los parámetros del modelo de componentes θ i también se calculan mediante la maximización de expectativas utilizando puntos de datos x j que se han ponderado utilizando los valores de pertenencia. Por ejemplo, si θ es una media μ

Con las nuevas estimaciones para un i y el θ i ' s, el paso de la expectativa se repite para volver a calcular los nuevos valores de pertenencia. Todo el procedimiento se repite hasta que los parámetros del modelo convergen.

Cadena de Markov Monte Carlo

Como alternativa al algoritmo EM, los parámetros del modelo de mezcla se pueden deducir utilizando un muestreo posterior como lo indica el teorema de Bayes . Esto todavía se considera un problema de datos incompletos en el que la pertenencia a puntos de datos son los datos faltantes. Se puede utilizar un procedimiento iterativo de dos pasos conocido como muestreo de Gibbs .

El ejemplo anterior de una mezcla de dos distribuciones gaussianas puede demostrar cómo funciona el método. Como antes, se realizan estimaciones iniciales de los parámetros para el modelo de mezcla. En lugar de calcular membresías parciales para cada distribución elemental, se extrae un valor de membresía para cada punto de datos de una distribución de Bernoulli (es decir, se asignará al primero o al segundo gaussiano). El parámetro de Bernoulli θ se determina para cada punto de datos sobre la base de una de las distribuciones constituyentes. Los extractos de la distribución generan asociaciones de miembros para cada punto de datos. Los estimadores enchufables se pueden utilizar como en el paso M de EM para generar un nuevo conjunto de parámetros del modelo de mezcla, y se repite el paso de extracción binomial.

Coincidencia de momento

El método de emparejamiento de momentos es una de las técnicas más antiguas para determinar los parámetros de la mezcla que se remonta al trabajo seminal de Karl Pearson de 1894. En este enfoque, los parámetros de la mezcla se determinan de manera que la distribución compuesta tenga momentos que coincidan con algún valor dado. En muchos casos, la extracción de soluciones a las ecuaciones de momento puede presentar problemas algebraicos o computacionales no triviales. Además, el análisis numérico por día ha indicado que tales métodos pueden ser ineficaces en comparación con EM. No obstante, ha habido un interés renovado en este método, por ejemplo, Craigmile y Titterington (1998) y Wang.

McWilliam y Loh (2009) consideran la caracterización de una cópula de mezcla normal hiper-cuboide en sistemas dimensionales grandes para los cuales EM sería computacionalmente prohibitivo. Aquí se usa una rutina de análisis de patrones para generar dependencias de cola multivariadas consistentes con un conjunto de momentos univariados y (en cierto sentido) bivariados. A continuación, se evalúa el rendimiento de este método utilizando datos logarítmicos de rentabilidad de la equidad con las estadísticas de la prueba de Kolmogorov-Smirnov que sugieren un buen ajuste descriptivo.

Método espectral

Algunos problemas en la estimación de modelos de mezcla se pueden resolver utilizando métodos espectrales . En particular, resulta útil si los puntos de datos x i son puntos en el espacio real de alta dimensión , y se sabe que las distribuciones ocultas son log-cóncavas (como la distribución gaussiana o la distribución exponencial ).

Los métodos espectrales de aprendizaje de modelos de mezcla se basan en el uso de la descomposición de valores singulares de una matriz que contiene puntos de datos. La idea es considerar los primeros k vectores singulares, donde k es el número de distribuciones que se deben aprender. La proyección de cada punto de datos a un subespacio lineal atravesado por esos vectores agrupa los puntos que se originan en la misma distribución muy juntos, mientras que los puntos de diferentes distribuciones permanecen muy separados.

Una característica distintiva del método espectral es que nos permite probar que si las distribuciones satisfacen ciertas condiciones de separación (por ejemplo, no demasiado cercanas), entonces la mezcla estimada será muy cercana a la verdadera con alta probabilidad.

Métodos gráficos

Tarter y Lock describen un enfoque gráfico para la identificación de mezclas en el que se aplica una función del núcleo a una gráfica de frecuencia empírica para reducir la varianza intracomponente. De esta manera, se pueden identificar más fácilmente los componentes que tienen diferentes medios. Si bien este método λ no requiere un conocimiento previo del número o forma funcional de los componentes, su éxito depende de la elección de los parámetros del kernel que, hasta cierto punto, incorporan implícitamente suposiciones sobre la estructura del componente.

Otros metodos

Es probable que algunos de ellos incluso puedan aprender mezclas de distribuciones de colas pesadas, incluidas aquellas con varianza infinita (consulte los enlaces a los artículos a continuación). En este contexto, los métodos basados ​​en EM no funcionarían, ya que el paso Expectativa divergiría debido a la presencia de valores atípicos .

Una simulación

Para simular una muestra de tamaño N que proviene de una mezcla de distribuciones F i , i = 1 an , con probabilidades p i (suma =  p i  = 1):

  1. Genere N números aleatorios a partir de una distribución categórica de tamaño n y probabilidades p i para i = 1 =  an . Estos le dicen de cuál de los F i procederá cada uno de los valores de N. Denote con m i la cantidad de números aleatorios asignados a la i- ésima categoría.
  2. Para cada i , genere m i números aleatorios a partir de la distribución F i .

Extensiones

En un entorno bayesiano , se pueden agregar niveles adicionales al modelo gráfico que define el modelo de mezcla. Por ejemplo, en el modelo de tema de asignación de Dirichlet latente común , las observaciones son conjuntos de palabras extraídas de D documentos diferentes y los componentes de la mezcla K representan temas que se comparten entre documentos. Cada documento tiene un conjunto diferente de pesos de mezcla, que especifican los temas predominantes en ese documento. Todos los conjuntos de pesos de mezcla comparten hiperparámetros comunes .

Una extensión muy común es conectar las variables latentes que definen las identidades de los componentes de la mezcla en una cadena de Markov , en lugar de asumir que son variables aleatorias independientes distribuidas de manera idéntica . El modelo resultante se denomina modelo de Markov oculto y es uno de los modelos jerárquicos secuenciales más comunes. Se han desarrollado numerosas extensiones de modelos ocultos de Markov; consulte el artículo resultante para obtener más información.

Historia

Las distribuciones de la mezcla y el problema de la descomposición de la mezcla, es decir, la identificación de sus componentes constituyentes y sus parámetros, se han citado en la literatura desde 1846 (Quetelet en McLachlan, 2000), aunque se hace referencia común al trabajo de Karl. Pearson (1894) como el primer autor en abordar explícitamente el problema de la descomposición al caracterizar los atributos no normales de las proporciones de la frente a la longitud del cuerpo en las poblaciones de cangrejos costeros hembras. La motivación para este trabajo fue proporcionada por el zoólogo Walter Frank Raphael Weldon, quien había especulado en 1893 (en Tarter y Lock) que la asimetría en el histograma de estas proporciones podría indicar una divergencia evolutiva. El enfoque de Pearson fue ajustar una mezcla univariante de dos normales a los datos eligiendo los cinco parámetros de la mezcla de manera que los momentos empíricos coincidieran con los del modelo.

Si bien su trabajo logró identificar dos subpoblaciones potencialmente distintas y demostrar la flexibilidad de las mezclas como herramienta de coincidencia de momentos, la formulación requirió la solución de un polinomio de noveno grado (nonic) que en ese momento planteaba un importante desafío computacional.

Los trabajos posteriores se centraron en abordar estos problemas, pero no fue hasta el advenimiento de la computadora moderna y la popularización de las técnicas de parametrización de máxima verosimilitud (MLE) que la investigación realmente despegó. Desde entonces ha habido un vasto cuerpo de investigación sobre el tema que abarca áreas como investigación pesquera , agricultura , botánica , economía , medicina , genética , psicología , paleontología , electroforesis , finanzas , geología y zoología .

Ver también

Mezcla

Modelos jerárquicos

Detección de valores atípicos

Referencias

Otras lecturas

Libros sobre modelos de mezcla

Aplicación de modelos de mezcla gaussiana

  1. Reynolds, DA; Rose, RC (enero de 1995). "Identificación robusta de locutor independiente del texto usando modelos de locutor de mezcla gaussiana". Transacciones IEEE sobre procesamiento de voz y audio . 3 (1): 72–83. doi : 10.1109 / 89.365379 .
  2. Permuter, H .; Francos, J .; Jermyn, IH (2003). Modelos de mezcla gaussiana de textura y color para la recuperación de la base de datos de imágenes . Conferencia internacional IEEE sobre acústica, habla y procesamiento de señales , 2003. Actas (ICASSP '03). doi : 10.1109 / ICASSP.2003.1199538 .
  3. Lemke, Wolfgang (2005). Modelado y estimación de la estructura temporal en un marco de espacio de estados . Springer Verlag. ISBN 978-3-540-28342-3.
  4. Brigo, Damiano ; Mercurio, Fabio (2001). Difusiones desplazadas y de mezcla para modelos de sonrisa tratables analíticamente . Finanzas Matemáticas - Congreso de Licenciatura 2000. Actas. Springer Verlag.
  5. Brigo, Damiano; Mercurio, Fabio (junio de 2002). "Sonrisas de dinámica de mezcla lognormal y calibración a la volatilidad del mercado". Revista Internacional de Finanzas Teóricas y Aplicadas . 5 (4): 427. CiteSeerX  10.1.1.210.4165 . doi : 10.1142 / S0219024902001511 .
  6. Spall, JC; Maryak, JL (1992). "Un estimador bayesiano factible de cuantiles para precisión de proyectiles a partir de datos no iid". Revista de la Asociación Estadounidense de Estadística . 87 (419): 676–681. doi : 10.1080 / 01621459.1992.10475269 . JSTOR  2290205 .
  7. Alexander, Carol (diciembre de 2004). "Difusión de mezcla normal con volatilidad incierta: modelado de efectos de sonrisa a corto y largo plazo" (PDF) . Revista de Banca y Finanzas . 28 (12): 2957–80. doi : 10.1016 / j.jbankfin.2003.10.017 .
  8. Stylianou, Yannis; Pantazis, Yannis; Calderero, Felipe; Larroy, Pedro; Severin, Francois; Schimke, Sascha; Bonal, Rolando; Matta, Federico; Valsamakis, Athanasios (2005). Verificación biométrica multimodal basada en GMM (PDF) .
  9. Chen, J .; Adebomi, 0.E .; Olusayo, OS; Kulesza, W. (2010). La evaluación del enfoque de densidad de hipótesis de probabilidad de mezcla gaussiana para el seguimiento de múltiples objetivos . Conferencia internacional IEEE sobre sistemas y técnicas de imágenes , 2010. doi : 10.1109 / IST.2010.5548541 .

enlaces externos