Interacción (estadísticas) - Interaction (statistics)

Efecto de la interacción de la educación y la ideología sobre la preocupación por el aumento del nivel del mar

En estadística , puede surgir una interacción al considerar la relación entre tres o más variables, y describe una situación en la que el efecto de una variable causal sobre un resultado depende del estado de una segunda variable causal (es decir, cuando los efectos de las dos las causas no son aditivas ). Aunque comúnmente se piensa en términos de relaciones causales, el concepto de interacción también puede describir asociaciones no causales. Las interacciones a menudo se consideran en el contexto de análisis de regresión o experimentos factoriales .

La presencia de interacciones puede tener implicaciones importantes para la interpretación de modelos estadísticos. Si interactúan dos variables de interés, la relación entre cada una de las variables que interactúan y una tercera "variable dependiente" depende del valor de la otra variable que interactúa. En la práctica, esto hace que sea más difícil predecir las consecuencias de cambiar el valor de una variable, especialmente si las variables con las que interactúa son difíciles de medir o de controlar.

La noción de "interacción" está estrechamente relacionada con la de moderación que es común en la investigación en ciencias sociales y de la salud: la interacción entre una variable explicativa y una variable ambiental sugiere que el efecto de la variable explicativa ha sido moderado o modificado por la variable ambiental .

Introducción

Una variable de interacción o característica de interacción es una variable construida a partir de un conjunto original de variables para tratar de representar toda la interacción presente o una parte de ella. En los análisis estadísticos exploratorios es común utilizar productos de variables originales como base para probar si existe interacción con la posibilidad de sustituir otras variables de interacción más realistas en una etapa posterior. Cuando hay más de dos variables explicativas, se construyen varias variables de interacción, con productos por pares que representan interacciones por pares y productos de orden superior que representan interacciones de orden superior.

El factor binario A y la variable cuantitativa X interactúan (son no aditiva) cuando se analizó con respecto a la variable de resultado Y .

Así, para una respuesta Y y dos variables x 1 y x 2 un modelo aditivo sería:

En contraste con esto,

es un ejemplo de un modelo con una interacción entre las variables x 1 y x 2 ("error" se refiere a la variable aleatoria cuyo valor es aquel en el que Y difiere del valor esperado de Y ; ver errores y residuales en estadísticas ). A menudo, los modelos se presentan sin el término de interacción , pero esto confunde el efecto principal y el efecto de interacción (es decir, sin especificar el término de interacción, es posible que cualquier efecto principal encontrado se deba realmente a una interacción).

En modelado

En ANOVA

Un escenario simple en el que pueden surgir interacciones es un experimento de dos factores analizado mediante Análisis de varianza (ANOVA). Supongamos que tenemos dos factores binarios A y B . Por ejemplo, estos factores podrían indicar si se administraron dos tratamientos a un paciente, con los tratamientos aplicados individualmente o en combinación. Entonces podemos considerar la respuesta al tratamiento promedio (por ejemplo, los niveles de síntomas después del tratamiento) para cada paciente, en función de la combinación de tratamiento que se administró. La siguiente tabla muestra una posible situación:

B  = 0 B  = 1
A  = 0 6 7
A  = 1 4 5

En este ejemplo, no hay interacción entre los dos tratamientos, sus efectos son aditivos. La razón de esto es que la diferencia en la respuesta media entre los sujetos que reciben el tratamiento A y los que no reciben el tratamiento A es −2 independientemente de si se administra el tratamiento B (−2 = 4 - 6) o no (−2 = 5 - 7 ). Tenga en cuenta que se deduce automáticamente que la diferencia en la respuesta media entre los sujetos que reciben el tratamiento B y los que no reciben el tratamiento B es la misma independientemente de si se administra el tratamiento A (7 - 6 = 5 - 4).

Por el contrario, si se observan las siguientes respuestas promedio

B  = 0 B  = 1
A  = 0 1 4
A  = 1 7 6

luego hay una interacción entre los tratamientos, sus efectos no son aditivos. Suponiendo que mayores números corresponden a una mejor respuesta, en este tratamiento situación B es útil en promedio si el sujeto no está también recibiendo tratamiento A , pero es perjudicial en promedio si se administra en combinación con el tratamiento A . El tratamiento A es útil en promedio, independientemente de si el tratamiento B se administra también, pero es más útil en términos tanto absolutos como relativos si se administra sola, en lugar de en combinación con el tratamiento B . Se hacen observaciones similares para este ejemplo en particular en la siguiente sección.

Interacciones cualitativas y cuantitativas

En muchas aplicaciones es útil distinguir entre interacciones cualitativas y cuantitativas. Una interacción cuantitativa entre A y B es una situación en la que la magnitud del efecto de B depende del valor de A , pero la dirección del efecto de B es constante para todos A . Una interacción cualitativa entre A y B se refiere a una situación en la que tanto la magnitud como la dirección del efecto de cada variable pueden depender del valor de la otra variable.

La tabla de los medios a la izquierda, a continuación, muestra una interacción cuantitativa - tratamiento A es beneficioso tanto cuando B es dado, y cuando B no se da, pero el beneficio es mayor cuando B no se da (es decir, cuando A se da solo) . La tabla de medias de la derecha muestra una interacción cualitativa. A es perjudicial cuando se administra B , pero es beneficioso cuando no se administra B. Tenga en cuenta que la misma interpretación sería válida si consideramos el beneficio de B en función de si se da A.

B  = 0 B  = 1 B  = 0 B  = 1
A  = 0 2 1 A  = 0 2 6
A  = 1 5 3 A  = 1 5 3

La distinción entre interacciones cualitativas y cuantitativas depende del orden en que se consideren las variables (por el contrario, la propiedad de la aditividad es invariante con el orden de las variables). En la siguiente tabla, si nos centramos en el efecto del tratamiento A , hay una interacción cuantitativa: administrar el tratamiento A mejorará el resultado en promedio independientemente de si el tratamiento B ya se está administrando o no (aunque el beneficio es mayor si el tratamiento A se da solo). Sin embargo, si nos centramos en el efecto del tratamiento B , hay una interacción cualitativa: administrar el tratamiento B a un sujeto que ya está recibiendo el tratamiento A empeorará (en promedio) las cosas, mientras que administrar el tratamiento B a un sujeto que no está recibiendo el tratamiento A mejorará el resultado en promedio.

B  = 0 B  = 1
A  = 0 1 4
A  = 1 7 6

Aditividad del tratamiento unitario

En su forma más simple, el supuesto de aditividad de la unidad de tratamiento establece que la respuesta observada y ij de la unidad experimental i cuando se recibe el tratamiento j se puede escribir como la suma y ij  =  y i  +  t j . La suposición de la aditividad del tratamiento unitario implica que cada tratamiento tiene exactamente el mismo efecto aditivo en cada unidad experimental. Dado que cualquier unidad experimental dada solo puede someterse a uno de los tratamientos, la suposición de la aditividad del tratamiento unitario es una hipótesis que no es directamente falsable, según Cox y Kempthorne.

Sin embargo, muchas consecuencias de la aditividad de la unidad de tratamiento pueden falsificarse. Para un experimento aleatorio, la suposición de la aditividad del tratamiento implica que la varianza es constante para todos los tratamientos. Por lo tanto, por contraposición, una condición necesaria para la aditividad del tratamiento unitario es que la varianza sea constante.

La propiedad de la aditividad del tratamiento unitario no es invariante bajo un cambio de escala, por lo que los estadísticos a menudo usan transformaciones para lograr la aditividad del tratamiento unitario. Si se espera que la variable de respuesta siga una familia paramétrica de distribuciones de probabilidad, entonces el estadístico puede especificar (en el protocolo del experimento o estudio observacional) que las respuestas se transformen para estabilizar la varianza. En muchos casos, un estadístico puede especificar que se apliquen transformaciones logarítmicas a las respuestas, que se cree que siguen un modelo multiplicativo.

El supuesto de aditividad del tratamiento unitario fue enunciado en el diseño experimental por Kempthorne y Cox. El uso de Kempthorne de la aditividad y la aleatorización del tratamiento unitario es similar al análisis basado en el diseño del muestreo de encuestas de población finita.

En los últimos años, se ha vuelto común utilizar la terminología de Donald Rubin, que utiliza contrafactuales. Supongamos que comparamos dos grupos de personas con respecto a algún atributo y . Por ejemplo, el primer grupo puede consistir en personas que reciben un tratamiento estándar para una afección médica, y el segundo grupo consiste en personas que reciben un nuevo tratamiento con efecto desconocido. Tomando una perspectiva "contrafactual", podemos considerar a un individuo cuyo atributo tiene valor y si ese individuo pertenece al primer grupo, y cuyo atributo tiene valor τ ( y ) si el individuo pertenece al segundo grupo. El supuesto de "aditividad de tratamiento unitario" es que τ ( y ) =  τ , es decir, el "efecto del tratamiento" no depende de y . Dado que no podemos observar tanto y como τ ( y ) para un individuo dado, esto no es comprobable a nivel individual. Sin embargo, la aditividad del tratamiento unitario implica que las funciones de distribución acumulada F 1 y F 2 para los dos grupos satisfacen F 2 ( y ) =  F 1 ( y - τ ), siempre que la asignación de individuos a los grupos 1 y 2 sea independiente de todos los demás factores que influyen en y (es decir, no hay factores de confusión ). La falta de aditividad de tratamiento unitario puede verse como una forma de interacción entre la asignación de tratamiento (por ejemplo, a los grupos 1 o 2) y el valor de referencia o no tratado de y .

Variables categóricas

A veces, las variables que interactúan son variables categóricas en lugar de números reales y el estudio podría entonces tratarse como un problema de análisis de varianza . Por ejemplo, los miembros de una población pueden clasificarse por religión y ocupación. Si se desea predecir la altura de una persona basándose únicamente en la religión y la ocupación de la persona, un modelo aditivo simple , es decir, un modelo sin interacción, agregaría a la altura promedio general un ajuste para una religión en particular y otro para una ocupación en particular. Un modelo con interacción, a diferencia de un modelo aditivo , podría agregar un ajuste adicional para la "interacción" entre esa religión y esa ocupación. Este ejemplo puede hacer que uno sospeche que la palabra interacción es un nombre inapropiado.

Estadísticamente, la presencia de una interacción entre variables categóricas generalmente se prueba usando una forma de análisis de varianza (ANOVA). Sin embargo, si una o más de las variables es de naturaleza continua, normalmente se probaría mediante regresión múltiple moderada. Esto se llama así porque un moderador es una variable que afecta la fuerza de una relación entre otras dos variables.

Experimentos diseñados

Genichi Taguchi sostuvo que las interacciones podrían eliminarse de un sistema mediante la elección adecuada de la variable de respuesta y la transformación. Sin embargo, George Box y otros han argumentado que este no es el caso en general.

Tamaño del modelo

Dados n predictores, el número de términos en un modelo lineal que incluye una constante, todos los predictores y todas las interacciones posibles es . Dado que esta cantidad crece exponencialmente, fácilmente se vuelve imprácticamente grande. Un método para limitar el tamaño del modelo es limitar el orden de las interacciones. Por ejemplo, si solo se permiten interacciones bidireccionales, el número de términos se convierte en . La siguiente tabla muestra el número de términos para cada número de predictores y el orden máximo de interacción.

Numero de terminos
Predictores Incluyendo interacciones de hasta m
2 3 4 5
1 2 2 2 2 2
2 4 4 4 4 4
3 7 8 8 8 8
4 11 15 dieciséis dieciséis dieciséis
5 dieciséis 26 31 32 32
6 22 42 57 63 64
7 29 64 99 120 128
8 37 93 163 219 256
9 46 130 256 382 512
10 56 176 386 638 1.024
11 67 232 562 1.024 2.048
12 79 299 794 1,586 4.096
13 92 378 1.093 2,380 8.192
14 106 470 1,471 3.473 16,384
15 121 576 1,941 4.944 32,768
20 211 1,351 6.196 21,700 1.048.576
25 326 2.626 15.276 68,406 33,554,432
50 1,276 20,876 251,176 2,369,936 10 15
100 5.051 166,751 4.087.976 79,375,496 10 30
1.000 500,501 166,667,501 10 10 10 12 10 300

En regresión

El enfoque más general para modelar los efectos de interacción implica la regresión, comenzando por la versión elemental dada anteriormente:

donde el término de interacción podría formarse explícitamente multiplicando dos (o más) variables, o usando implícitamente la notación factorial en paquetes estadísticos modernos como Stata . Los componentes x 1 y x 2 pueden ser medidas o {0,1} variables ficticias en cualquier combinación. Las interacciones que involucran una variable ficticia multiplicada por una variable de medición se denominan variables ficticias de pendiente , porque estiman y prueban la diferencia de pendientes entre los grupos 0 y 1.

Cuando se emplean variables de medición en interacciones, a menudo es deseable trabajar con versiones centradas, donde la media de la variable (o algún otro valor razonablemente central) se establece en cero. El centrado puede hacer que los efectos principales en los modelos de interacción sean más interpretables, ya que reduce la multicolinealidad entre el término de interacción y los efectos principales. El coeficiente a en la ecuación anterior, por ejemplo, representa el efecto de x 1 cuando x 2 es igual a cero.

Interacción de la educación y los partidos políticos que afectan las creencias sobre el cambio climático

Los enfoques de regresión para el modelado de interacciones son muy generales porque pueden acomodar predictores adicionales y muchas especificaciones alternativas o estrategias de estimación más allá de los mínimos cuadrados ordinarios . Los modelos robustos , cuantílicos y de efectos mixtos ( multinivel ) se encuentran entre las posibilidades, al igual que el modelado lineal generalizado que abarca una amplia gama de variables dependientes categóricas, ordenadas, contadas o limitadas. El gráfico muestra una interacción educación * política, a partir de un análisis de regresión logit ponderado por probabilidad de los datos de la encuesta.

Gráficos de interacción

Los gráficos de interacción muestran posibles interacciones entre variables.

Ejemplo: interacción de las especies y la temperatura del aire y su efecto sobre la temperatura corporal

Considere un estudio de la temperatura corporal de diferentes especies a diferentes temperaturas del aire, en grados Fahrenheit. Los datos se muestran en la siguiente tabla.

Datos de especies de temperatura corporal

La gráfica de interacción puede usar la temperatura del aire o la especie como eje x. El segundo factor está representado por líneas en la gráfica de interacción.

temperatura del cuerpo de la trama de interacción

temperatura del cuerpo de la trama de interacción 2

Existe una interacción entre los dos factores (temperatura del aire y especie) en su efecto sobre la respuesta (temperatura corporal), porque el efecto de la temperatura del aire depende de la especie. La interacción se indica en el gráfico porque las líneas no son paralelas.

Ejemplo: efecto de la gravedad y el tratamiento del accidente cerebrovascular en la recuperación

Como segundo ejemplo, considere un ensayo clínico sobre la interacción entre la gravedad del accidente cerebrovascular y la eficacia de un fármaco en la supervivencia del paciente. Los datos se muestran en la siguiente tabla.

datos de supervivencia de accidentes cerebrovasculares de interacción

gráfico de interacción supervivencia al accidente cerebrovascular

En la gráfica de interacción, las líneas para los grupos de ictus leve y moderado son paralelas, lo que indica que el fármaco tiene el mismo efecto en ambos grupos, por lo que no hay interacción. La línea para el grupo de accidente cerebrovascular severo no es paralela a las otras líneas, lo que indica que existe una interacción entre la gravedad del accidente cerebrovascular y el efecto del fármaco en la supervivencia. La línea para el grupo de accidente cerebrovascular severo es plana, lo que indica que, entre estos pacientes, no hay diferencia en la supervivencia entre el fármaco y los tratamientos con placebo. Por el contrario, las líneas para los grupos de ictus leve y moderado se inclinan hacia la derecha, lo que indica que, entre estos pacientes, el grupo de placebo tiene una supervivencia más baja que el grupo tratado con el fármaco.

Pruebas de hipótesis para interacciones

El análisis de varianza y el análisis de regresión se utilizan para probar interacciones significativas.

Ejemplo: interacción de la temperatura y el tiempo en la cocción de galletas

¿El rendimiento de las buenas galletas se ve afectado por la temperatura de cocción y el tiempo en el horno? La tabla muestra datos para 8 lotes de cookies.

datos de rendimiento de cookies de interacción

parcela de interacción para hornear galletas

Los datos muestran que el rendimiento de buenas galletas es mejor cuando (i) la temperatura es alta y el tiempo en el horno es corto, o (ii) la temperatura es baja y el tiempo en el horno es largo. Si las galletas se dejan en el horno durante mucho tiempo a alta temperatura, hay galletas quemadas y el rendimiento es bajo.

A partir del gráfico y los datos, queda claro que las líneas no son paralelas, lo que indica que hay una interacción. Esto se puede probar mediante análisis de varianza (ANOVA). El primer modelo ANOVA no incluirá el término de interacción. Es decir, el primer modelo ANOVA ignora la posible interacción. El segundo modelo ANOVA incluirá el término de interacción. Es decir, el segundo modelo ANOVA realiza explícitamente una prueba de hipótesis para la interacción.

Modelo ANOVA 1: sin término de interacción; rendimiento ~ temperatura + tiempo

galleta anova modelo 1

En el modelo ANOVA que ignora la interacción, ni la temperatura ni el tiempo tienen un efecto significativo sobre el rendimiento (p = 0,91), lo que claramente es la conclusión incorrecta. El modelo ANOVA más apropiado debe probar la posible interacción.

Modelo ANOVA 2: incluye término de interacción; rendimiento ~ temperatura * tiempo

Cookie anova modelo 2

El término de interacción temperatura: tiempo es significativo (p = 0,000180). Según la prueba de interacción y la gráfica de interacción, parece que el efecto del tiempo sobre el rendimiento depende de la temperatura y viceversa.

Ejemplos de

Los ejemplos de interacción del mundo real incluyen:

  • Interacción entre agregar azúcar al café y revolver el café. Ninguna de las dos variables individuales tiene mucho efecto sobre la dulzura, pero una combinación de las dos sí.
  • Interacción entre la adición de carbono al acero y el temple . Ninguno de los dos individualmente tiene mucho efecto sobre la fuerza, pero una combinación de los dos tiene un efecto dramático.
  • Interacción entre fumar e inhalar fibras de asbesto : ambos aumentan el riesgo de carcinoma de pulmón, pero la exposición al asbesto multiplica el riesgo de cáncer en fumadores y no fumadores. Aquí, el efecto conjunto de inhalar amianto y fumar es mayor que la suma de ambos efectos.
  • Interacción entre los factores de riesgo genéticos para la diabetes tipo 2 y la dieta (específicamente, un patrón dietético "occidental"). Se demostró que el patrón dietético occidental aumenta el riesgo de diabetes para los sujetos con una alta "puntuación de riesgo genético", pero no para otros sujetos.
  • Interacción entre educación y orientación política, que afecta las percepciones del público en general sobre el cambio climático. Por ejemplo, las encuestas estadounidenses a menudo encuentran que la aceptación de la realidad del cambio climático antropogénico aumenta con la educación entre los encuestados moderados o liberales, pero disminuye con la educación entre los más conservadores. Se ha observado que interacciones similares afectan algunas percepciones ambientales o científicas no relacionadas con el clima, y ​​que operan con la alfabetización científica u otros indicadores de conocimiento en lugar de la educación.

Ver también

Referencias

Otras lecturas

enlaces externos