Análisis de varianza de una sola vía - One-way analysis of variance

En estadísticas , de una vía de análisis de varianza (abreviadamente ANOVA de una vía ) es una técnica que se puede utilizar para comparar si dos medios muestras son significativamente diferentes o no (usando la distribución F ). Esta técnica se puede utilizar solo para datos de respuesta numérica, la "Y", generalmente una variable, y datos de entrada numéricos o (generalmente) categóricos, la "X", siempre una variable, por lo tanto, "unidireccional".

El ANOVA prueba la hipótesis nula , que establece que las muestras de todos los grupos se extraen de poblaciones con los mismos valores medios. Para ello, se realizan dos estimaciones de la varianza de la población. Estas estimaciones se basan en varios supuestos ( ver más abajo ). El ANOVA produce un estadístico F, la relación entre la varianza calculada entre las medias y la varianza dentro de las muestras. Si las medias del grupo se extraen de poblaciones con los mismos valores medios, la varianza entre las medias del grupo debe ser menor que la varianza de las muestras, siguiendo el teorema del límite central . Por tanto, una relación más alta implica que las muestras se extrajeron de poblaciones con valores medios diferentes.

Sin embargo, típicamente, el ANOVA de una vía se usa para probar las diferencias entre al menos tres grupos, ya que el caso de dos grupos puede ser cubierto por una prueba t (Gosset, 1908). Cuando sólo hay dos medios para comparar, el t-test y la prueba F son equivalentes; la relación entre ANOVA y t está dada por F  =  t 2 . Una extensión del ANOVA de una vía es un análisis de varianza de dos vías que examina la influencia de dos variables independientes categóricas diferentes en una variable dependiente.

Supuestos

Los resultados de un ANOVA unidireccional pueden considerarse fiables siempre que se cumplan los siguientes supuestos:

Si los datos son ordinales , se debe utilizar una alternativa no paramétrica a esta prueba, como el análisis de varianza unidireccional de Kruskal-Wallis . Si no se sabe que las varianzas sean iguales, se puede utilizar una generalización de la prueba t de Welch de 2 muestras .

Desviaciones de la normalidad poblacional

ANOVA es un procedimiento relativamente sólido con respecto a las violaciones del supuesto de normalidad.

El ANOVA unidireccional se puede generalizar a los diseños factorial y multivariante, así como al análisis de covarianza.

A menudo se afirma en la literatura popular que ninguna de estas pruebas F es sólida cuando hay violaciones graves del supuesto de que cada población sigue la distribución normal , particularmente para niveles alfa pequeños y diseños desequilibrados. Además, también se afirma que si se viola el supuesto subyacente de homocedasticidad , las propiedades de error de Tipo I degeneran mucho más severamente.

Sin embargo, este es un concepto erróneo, basado en el trabajo realizado en la década de 1950 y antes. La primera investigación exhaustiva del problema mediante la simulación de Montecarlo fue Donaldson (1966). Mostró que bajo las desviaciones habituales (sesgo positivo, varianzas desiguales) "la prueba F es conservadora", por lo que es menos probable de lo que debería ser encontrar que una variable es significativa. Sin embargo, a medida que aumenta el tamaño de la muestra o el número de celdas, "las curvas de potencia parecen converger a las basadas en la distribución normal". Tiku (1971) descubrió que "la potencia de la teoría no normal de F difiere de la potencia de la teoría normal por un término de corrección que disminuye bruscamente al aumentar el tamaño de la muestra". El problema de la no normalidad, especialmente en muestras grandes, es mucho menos grave de lo que sugieren los artículos populares.

La opinión actual es que "los estudios de Montecarlo se utilizaron ampliamente con pruebas basadas en la distribución normal para determinar qué tan sensibles son a las violaciones del supuesto de distribución normal de las variables analizadas en la población. La conclusión general de estos estudios es que el las consecuencias de tales violaciones son menos graves de lo que se pensaba anteriormente. Aunque estas conclusiones no deberían disuadir por completo a nadie de preocuparse por el supuesto de normalidad, han aumentado la popularidad general de las pruebas estadísticas dependientes de la distribución en todas las áreas de investigación ".

Para alternativas no paramétricas en el diseño factorial, consulte Sawilowsky. Para obtener más información, consulte ANOVA sobre rangos .

El caso de efectos fijos, experimento completamente aleatorizado, datos desequilibrados

El modelo

El modelo lineal normal describe grupos de tratamiento con distribuciones de probabilidad que son curvas idénticas en forma de campana (normales) con diferentes medias. Por lo tanto, el ajuste de los modelos requiere solo las medias de cada grupo de tratamiento y un cálculo de la varianza (se utiliza una varianza promedio dentro de los grupos de tratamiento). Los cálculos de las medias y la varianza se realizan como parte de la prueba de hipótesis.

Los modelos lineales normales de uso común para un experimento completamente aleatorio son:

(el modelo de medios)

o

(el modelo de efectos)

dónde

es un índice sobre unidades experimentales
es un índice sobre los grupos de tratamiento
es el número de unidades experimentales en el j-ésimo grupo de tratamiento
es el número total de unidades experimentales
son observaciones
es la media de las observaciones para el j-ésimo grupo de tratamiento
es la gran media de las observaciones
es el j-ésimo efecto del tratamiento, una desviación de la gran media
, son errores aleatorios de media cero distribuidos normalmente.

El índice sobre las unidades experimentales se puede interpretar de varias formas. En algunos experimentos, la misma unidad experimental se somete a una variedad de tratamientos; puede apuntar a una unidad en particular. En otros, cada grupo de tratamiento tiene un conjunto distinto de unidades experimentales; puede ser simplemente un índice en la -ésima lista.

Los datos y resúmenes estadísticos de los datos.

Una forma de organizar las observaciones experimentales es con grupos en columnas:

Organización de datos ANOVA, desequilibrada, factor único
Listas de observaciones grupales
1
2
3
Estadísticas de resumen de grupo Estadísticas de gran resumen
# Observados # Observados
Suma Suma
Suma Sq Suma Sq
Significar Significar
Diferencia Diferencia

Comparación del modelo con resúmenes: y . La gran media y la gran varianza se calculan a partir de las grandes sumas, no de las medias y varianzas de grupo.

La prueba de hipótesis

Dadas las estadísticas de resumen, los cálculos de la prueba de hipótesis se muestran en forma de tabla. Si bien se muestran dos columnas de SS por su valor explicativo, solo se requiere una columna para mostrar los resultados.

Tabla ANOVA para modelo fijo, factor único, experimento completamente aleatorizado
Fuente de variación Sumas de cuadrados Sumas de cuadrados Grados de libertad Cuadrado medio F
SS explicativo SS computacional DF SRA
Tratos
Error
Total

es la estimación de la varianza correspondiente al modelo.

Resumen de análisis

El análisis ANOVA básico consta de una serie de cálculos. Los datos se recopilan en forma de tabla. Luego

  • Cada grupo de tratamiento se resume por el número de unidades experimentales, dos sumas, una media y una varianza. Los resúmenes de los grupos de tratamiento se combinan para proporcionar totales para el número de unidades y las sumas. La gran media y la gran varianza se calculan a partir de las grandes sumas. El tratamiento y los grandes medios se utilizan en el modelo.
  • Los tres DF y SS se calculan a partir de los resúmenes. Luego se calculan los MS y una relación determina F.
  • Una computadora generalmente determina un valor p de F que determina si los tratamientos producen resultados significativamente diferentes. Si el resultado es significativo, entonces el modelo tiene validez provisional.

Si el experimento está equilibrado, todos los términos son iguales, por lo que las ecuaciones SS se simplifican.

En un experimento más complejo, donde las unidades experimentales (o los efectos ambientales) no son homogéneas, también se utilizan estadísticas de fila en el análisis. El modelo incluye términos dependientes de . La determinación de los términos adicionales reduce el número de grados de libertad disponibles.

Ejemplo

Considere un experimento para estudiar el efecto de tres niveles diferentes de un factor en una respuesta (por ejemplo, tres niveles de un fertilizante en el crecimiento de las plantas). Si tuviéramos 6 observaciones para cada nivel, podríamos escribir el resultado del experimento en una tabla como esta, donde un 1 , un 2 y un 3 son los tres niveles del factor que se está estudiando.

un 1 un 2 a 3
6 8 13
8 12 9
4 9 11
5 11 8
3 6 7
4 8 12

La hipótesis nula, denotada H 0 , para la prueba F general para este experimento sería que los tres niveles del factor producen la misma respuesta, en promedio. Para calcular la relación F :

Paso 1: Calcule la media dentro de cada grupo:

Paso 2: Calcule la media general:

donde a es el número de grupos.

Paso 3: Calcule la suma de diferencias cuadradas "entre grupos":

donde n es el número de valores de datos por grupo.

Los grados de libertad entre grupos es uno menos que el número de grupos

por lo que el valor cuadrático medio entre grupos es

Paso 4: Calcule la suma de cuadrados "dentro del grupo". Empiece por centrar los datos en cada grupo

un 1 un 2 a 3
6−5 = 1 8−9 = −1 13−10 = 3
8−5 = 3 12−9 = 3 9−10 = −1
4−5 = −1 9−9 = 0 11−10 = 1
5−5 = 0 11−9 = 2 8−10 = −2
3−5 = −2 6−9 = −3 7−10 = −3
4−5 = −1 8−9 = −1 12−10 = 2

La suma de cuadrados dentro del grupo es la suma de cuadrados de los 18 valores de esta tabla.

Los grados de libertad dentro del grupo son

F-dens-2-15df.svg

Por tanto, el valor cuadrático medio dentro del grupo es

Paso 5: La relación F es

El valor crítico es el número que debe superar la estadística de prueba para rechazar la prueba. En este caso, F crit (2,15) = 3.68 en α = 0.05. Dado que F = 9.3> 3.68, los resultados son significativos al nivel de significancia del 5%. Uno rechazaría la hipótesis nula, concluyendo que existe una fuerte evidencia de que los valores esperados en los tres grupos difieren. El valor p para esta prueba es 0,002.

Después de realizar la prueba F , es común realizar algún análisis "post-hoc" de las medias del grupo. En este caso, las medias de los dos primeros grupos difieren en 4 unidades, las medias del primer y tercer grupo difieren en 5 unidades, y las medias del segundo y tercer grupo difieren solo en 1 unidad. El error estándar de cada una de estas diferencias es . Por lo tanto, el primer grupo es muy diferente de los otros grupos, ya que la diferencia de medias es más veces el error estándar, por lo que podemos estar muy seguros de que la media de la población del primer grupo difiere de la media de la población de los otros grupos. Sin embargo, no hay evidencia de que el segundo y tercer grupo tengan medias poblacionales diferentes entre sí, ya que su diferencia media de una unidad es comparable al error estándar.

Nota F ( xy ) indica un F -Distribución función de distribución acumulativa con x grados de libertad en el numerador y Y grados de libertad en el denominador.

Ver también

Notas

Otras lecturas