Matriz de diseño - Design matrix

En estadística y en particular en análisis de regresión , una matriz de diseño , también conocida como matriz modelo o matriz regresiva y a menudo denotada por X , es una matriz de valores de variables explicativas de un conjunto de objetos. Cada fila representa un objeto individual, con las columnas sucesivas correspondientes a las variables y sus valores específicos para ese objeto. La matriz de diseño se utiliza en ciertos modelos estadísticos , por ejemplo, el modelo lineal general . Puede contener variables indicadoras (unos y ceros) que indican la pertenencia a un grupo en un ANOVA , o puede contener valores de variables continuas .

La matriz de diseño contiene datos sobre las variables independientes (también llamadas variables explicativas) en modelos estadísticos que intentan explicar los datos observados sobre una variable de respuesta (a menudo llamada variable dependiente ) en términos de las variables explicativas. La teoría relacionada con tales modelos hace un uso sustancial de manipulaciones matriciales que involucran la matriz de diseño: ver, por ejemplo, regresión lineal . Una característica notable del concepto de matriz de diseño es que puede representar varios diseños experimentales y modelos estadísticos diferentes, por ejemplo, ANOVA , ANCOVA y regresión lineal.

Definición

La matriz de diseño se define como una matriz tal que (la j- ésima columna de la i- ésima fila de ) representa el valor de la j- ésima variable asociada con el i- ésimo objeto.

Por lo tanto, un modelo de regresión que es una combinación lineal de las variables explicativas puede representarse mediante la multiplicación de matrices como

donde X es la matriz de diseño, es un vector de los coeficientes del modelo (uno para cada variable) e y es el vector de resultados predichos para cada objeto.

Tamaño

La matriz de datos tiene dimensión n- por- p , donde n es el número de muestras observadas y p es el número de variables ( características ) medidas en todas las muestras.

En esta representación, diferentes filas representan típicamente diferentes repeticiones de un experimento, mientras que las columnas representan diferentes tipos de datos (digamos, los resultados de sondeos particulares). Por ejemplo, suponga que se realiza un experimento en el que se saca de la calle a 10 personas y se les hacen cuatro preguntas. La matriz de datos M sería una matriz de 10 × 4 (es decir, 10 filas y 4 columnas). El dato en la fila i y la columna j de esta matriz sería la respuesta de la i- ésima persona a la j- ésima pregunta.

Ejemplos de

Significado aritmetico

La matriz de diseño para una media aritmética es un vector columna de unos .

Regresión lineal simple

Esta sección ofrece un ejemplo de regresión lineal simple , es decir, regresión con una sola variable explicativa, con siete observaciones. Los siete puntos de datos son { y i , x i }, para i  = 1, 2,…, 7. El modelo de regresión lineal simple es

donde es la y intercepción y es la pendiente de la línea de regresión. Este modelo se puede representar en forma de matriz como

donde la primera columna de 1 en la matriz de diseño permite la estimación de la intersección y, mientras que la segunda columna contiene los valores x asociados con los valores y correspondientes .

Regresión múltiple

Esta sección contiene un ejemplo de regresión múltiple con dos covariables (variables explicativas): w y x . Nuevamente, suponga que los datos constan de siete observaciones, y que para cada valor observado que se va a predecir ( ), también se observan los valores w i y x i de las dos covariables. El modelo a considerar es

Este modelo se puede escribir en términos matriciales como

Aquí, la matriz de 7 × 3 del lado derecho es la matriz de diseño.

ANOVA unidireccional (modelo de medias de celda)

Esta sección contiene un ejemplo con un análisis de varianza unidireccional ( ANOVA ) con tres grupos y siete observaciones. El conjunto de datos dado tiene las primeras tres observaciones que pertenecen al primer grupo, las siguientes dos observaciones que pertenecen al segundo grupo y las dos últimas observaciones que pertenecen al tercer grupo. Si el modelo que se va a ajustar es solo la media de cada grupo, entonces el modelo es

que se puede escribir

En este modelo representa la media del grupo.

ANOVA unidireccional (desplazamiento del grupo de referencia)

El modelo ANOVA podría escribirse de forma equivalente, ya que cada parámetro de grupo es un desplazamiento de alguna referencia general. Normalmente, se considera que este punto de referencia es uno de los grupos considerados. Esto tiene sentido en el contexto de comparar múltiples grupos de tratamiento con un grupo de control y el grupo de control se considera la "referencia". En este ejemplo, se eligió el grupo 1 como grupo de referencia. Como tal, el modelo que se va a ajustar es

con la restricción que es cero.

En este modelo es la media del grupo de referencia y es la diferencia entre el grupo y el grupo de referencia. no se incluye en la matriz porque su diferencia con el grupo de referencia (él mismo) es necesariamente cero.

Ver también

Referencias

Otras lecturas

  • Verbeek, Albert (1984). "La geometría de la selección del modelo en regresión". En Dijkstra, Theo K. (ed.). Análisis de especificación errónea . Nueva York: Springer. págs. 20–36. ISBN 0-387-13893-5.