ANOVA (análisis de componentes simultáneos) ANOVA–simultaneous component analysis

Análisis de varianza: el análisis de componentes simultáneos ( ASCA o ANOVA-SCA ) es un método que divide la variación y permite la interpretación de estas particiones por SCA, un método que es similar al análisis de componentes principales (PCA) . Este método es una extensión multivariante o incluso megavariable del análisis de varianza (ANOVA) . La partición de variación es similar a ANOVA. Cada partición coincide con todas las variaciones inducidas por un efecto o factor , generalmente un régimen de tratamiento o una condición experimental. Las particiones de efectos calculadas se denominan estimaciones de efectos. Debido a que incluso las estimaciones de efectos son multivariadas, la interpretación de estas estimaciones de efectos no es intuitiva. Al aplicar SCA en las estimaciones del efecto, se obtiene un resultado interpretable simple. En caso de más de un efecto, este método estima los efectos de tal manera que los diferentes efectos no estén correlacionados.

Detalles

Muchas áreas de investigación ven un número cada vez mayor de variables en solo unas pocas muestras . La baja proporción de muestra a variable crea problemas conocidos como multicolinealidad y singularidad . Debido a esto, la mayoría de los métodos estadísticos multivariados tradicionales no se pueden aplicar.

Algoritmo ASCA

Esta sección detalla cómo calcular el modelo ASCA en un caso de dos efectos principales con un efecto de interacción. Es fácil extender la justificación declarada a más efectos principales y más efectos de interacción. Si el primer efecto es el tiempo y el segundo efecto es la dosis, solo existe la interacción entre el tiempo y la dosis. Suponemos que hay cuatro puntos temporales y tres niveles de dosificación.

Sea X una matriz que contiene los datos. X está centrada en la media, por lo que tiene columnas de media cero . Sean A y B los efectos principales y AB la interacción de estos efectos. Dos efectos principales en un experimento biológico pueden ser el tiempo (A) y el pH (B), y estos dos efectos pueden interactuar. Al diseñar tales experimentos, uno controla los efectos principales a varios (al menos dos) niveles. Los diferentes niveles de un efecto se pueden denominar A1, A2, A3 y A4, lo que representa 2, 3, 4, 5 horas desde el inicio del experimento. Lo mismo vale para el efecto B, por ejemplo, pH 6, pH 7 y pH 8 pueden considerarse niveles de efecto.

Se requiere que A y B estén equilibrados si las estimaciones del efecto deben ser ortogonales y la partición única. La matriz E contiene la información que no está asignada a ningún efecto. La partición da la siguiente notación:

Cálculo de la estimación del efecto principal A (o B)

Encuentre todas las filas que correspondan al efecto A nivel 1 y promedie estas filas. El resultado es un vector . Repita esto para los otros niveles de efectos. Haga una nueva matriz del mismo tamaño de X y coloque los promedios calculados en las filas correspondientes. Es decir, asigne a todas las filas que coincidan con el efecto (es decir) A nivel 1 el promedio del efecto A nivel 1. Después de completar las estimaciones de nivel para el efecto, realice un SCA. Los puntajes de este SCA son las desviaciones muestrales del efecto, las variables importantes de este efecto están en los pesos del vector de carga del SCA.

Cálculo de la estimación del efecto de interacción AB

Estimar el efecto de interacción es similar a estimar los efectos principales. La diferencia es que para las estimaciones de interacción, las filas que coinciden con el nivel 1 del efecto A se combinan con el nivel 1 del efecto B y todas las combinaciones de efectos y niveles se repiten. En nuestra configuración de ejemplo, con cuatro puntos de tiempo y tres niveles de dosificación, hay 12 conjuntos de interacción {A1-B1, A1B2, A2B1, A2B2, etc.}. Es importante desinflar (eliminar) los efectos principales antes de estimar el efecto de interacción.

SCA en las particiones A, B y AB

El análisis de componentes simultáneos es matemáticamente idéntico al PCA, pero es semánticamente diferente en el sentido de que modela diferentes objetos o sujetos al mismo tiempo. La notación estándar para un modelo SCA y PCA es:

donde X son los datos, T son las puntuaciones de los componentes y P son las cargas de los componentes. E es la matriz residual o de error . Debido a que ASCA modela las particiones de variación por SCA, el modelo para estimaciones de efectos se ve así:

Tenga en cuenta que cada partición tiene su propia matriz de errores. Sin embargo, el álgebra dicta que en un conjunto de datos centrados en la media balanceada, cada sistema de dos niveles es de rango 1. Esto da como resultado cero errores, ya que cualquier matriz de rango 1 puede escribirse como el producto de una puntuación de un solo componente y un vector de carga.

El modelo ASCA completo con dos efectos e interacción, incluido el SCA, se ve así:

Descomposición:

El tiempo como efecto

Debido a que el 'tiempo' se trata como un factor cualitativo en la descomposición ANOVA que precede a ASCA, se puede modelar una trayectoria de tiempo multivariante no lineal. Un ejemplo de esto se muestra en la Figura 10 de esta referencia.

Referencias