Análisis de variación - Analysis of variance


De Wikipedia, la enciclopedia libre

Análisis de la varianza ( ANOVA ) es una colección de modelos estadísticos y sus procedimientos de estimación asociadas (tales como la "variación" entre y entre los grupos) que se utiliza para analizar las diferencias entre las medias de grupo en una muestra . ANOVA fue desarrollado por el estadístico y el biólogo evolucionista Ronald Fisher . En el ajuste de ANOVA, el observado varianza en una variable particular, se divide en componentes atribuibles a diferentes fuentes de variación. En su forma más simple, ANOVA proporciona una prueba estadística de si la población significa de varios grupos son iguales, y por lo tanto generaliza el t -test a más de dos grupos. ANOVA es útil para comparar (pruebas) tres o más grupo significa para la significación estadística . Es conceptualmente similar a múltiples de dos pruebas t de muestras , pero es más conservadora, lo que resulta en menos de tipo I errores , y por lo tanto es adecuado para una amplia gama de problemas prácticos.

Historia

Mientras que el análisis de la varianza llegó a buen término en el siglo 20, se extienden antecedentes siglos en el pasado, de acuerdo con Stigler. Estas incluyen la prueba de hipótesis, la división de sumas de cuadrados, técnicas experimentales y el modelo aditivo. Laplace estaba llevando a cabo la prueba de hipótesis en la década de 1770. El desarrollo de métodos de mínimos cuadrados de Laplace y Gauss circa 1800 proporciona un método mejorado de la combinación de observaciones (más de las prácticas existentes entonces utilizados en astronomía y geodesia). También inició mucho estudio de las contribuciones a las sumas de cuadrados. Laplace sabía cómo estimar una varianza de una suma de cuadrados residual (un total en lugar de). Por 1827, Laplace estaba usando mínimos cuadrados métodos para abordar los problemas de ANOVA con respecto a las mediciones de mareas atmosféricas. Antes de 1800, los astrónomos habían aislado errores de observación resultantes de los tiempos de reacción (la " ecuación personal ") y habían desarrollado métodos para reducir los errores. Los métodos experimentales utilizados en el estudio de la ecuación personal fueron posteriormente aceptadas por el campo emergente de la psicología que se desarrolló fuerte (factorial completo) métodos experimentales a las cuales la asignación al azar y el cegamiento fueron añadidos pronto. Una explicación no matemática elocuente del modelo de efectos aditivos estaba disponible en 1885.

Ronald Fisher introdujo el término varianza y propuso su análisis formal en un artículo de 1918 La correlación entre parientes en la suposición de herencia mendeliana . Su primera aplicación del análisis de la varianza fue publicado en 1921. El análisis de varianza se sabía extensamente después de haber sido incluida en 1925 el libro de Fisher Métodos Estadísticos para los investigadores .

Modelos de asignación al azar fueron desarrolladas por varios investigadores. El primero se publicó en polaco por Jerzy Neyman en 1923.

Uno de los atributos de ANOVA que aseguraron su popularidad inicial era la elegancia computacional. La estructura del modelo aditivo permite solución para los coeficientes de aditivos por álgebra simple en lugar de por cálculos de la matriz. En la era de las calculadoras mecánicas esta simplicidad era crítica. La determinación de la significación estadística también requiere el acceso a las tablas de la función F, que han sido facilitadas por los textos de estadística tempranas.

ejemplo motivador

No entra.
en forma justa
Muy buen ajuste

El análisis de varianza se puede utilizar como una herramienta de exploración para explicar las observaciones. Una exposición canina es un ejemplo. Un espectáculo de perro no es un muestreo aleatorio de la raza: por lo general se limita a los perros que son adultos, pura y ejemplar. Un histograma de pesos perro de un espectáculo podría plausiblemente ser bastante complejos, como la distribución de color amarillo-naranja se muestra en las ilustraciones. Supongamos que queremos predecir el peso de un perro sobre la base de un determinado conjunto de características de cada perro. Una forma de hacerlo es explicar la distribución de pesos dividiendo la población de perros en grupos basados en esas características. Una agrupación éxito se dividirá perros tal que (a) cada grupo tiene una baja variación de los pesos de perros (que significa que el grupo es relativamente homogéneo) y (b) la media de cada grupo es distinto (si dos grupos tienen la misma media, entonces no es razonable concluir que los grupos son, de hecho, separar de una manera significativa).

En las ilustraciones a la derecha, los grupos se identifican como X 1 , X 2 , etc. en la primera ilustración, los perros se dividen según el producto (interacción) de dos agrupaciones binarios: jóvenes vs de edad, y de pelo corto vs largo -haired (por ejemplo, grupo 1 es joven, perros de pelo corto, grupo 2 es joven, perros de pelo largo, etc.). Puesto que las distribuciones de peso perro dentro de cada uno de los grupos (mostrado en azul) tiene una relativamente gran variación, y puesto que los medios son muy similares en todos los grupos, la agrupación de los perros por estas características no produce una forma efectiva para explicar la variación en los pesos de perro : saber a qué grupo se encuentra en un perro no nos permite predecir su peso mucho mejor que el simple hecho de saber que el perro está en una exposición canina. Por lo tanto, esta agrupación no explica la variación en la distribución general (amarillo-naranja).

Un intento de explicar la distribución del peso mediante la agrupación de perros como mascotas vs raza de trabajo y menos atléticos vs más atlético , probablemente sería un poco más éxito (en forma justa). El espectáculo más pesados perros tienden a ser grandes razas de trabajo fuertes, mientras que las razas mantenidos como mascotas tienden a ser más pequeños y por lo tanto más ligero. Como se muestra por la segunda ilustración, las distribuciones tienen variaciones que son considerablemente más pequeños que en el primer caso, y los medios son más distinguibles. Sin embargo, el solapamiento significativo de las distribuciones, por ejemplo, significa que no podemos distinguir X 1 y X 2 fiable. La agrupación de perros de acuerdo con una moneda al aire podría producir distribuciones que parecen similares.

Un intento de explicar el peso de raza es probable que produzca un ajuste muy bueno. Todos los chihuahuas son la luz y todos los San Bernardos son pesados. La diferencia de pesos entre Incubadoras y punteros no justifica razas separadas. El análisis de la varianza proporciona las herramientas formales para justificar estos juicios intuitivos. Un uso común del método es el análisis de datos experimentales o el desarrollo de modelos. El método tiene algunas ventajas sobre correlación: no todos los datos debe ser numérico y un resultado del método es un juicio en la confianza en una relación explicativa.

Antecedentes y terminología

ANOVA es una forma de la prueba de hipótesis estadística muy utilizado en el análisis de datos experimentales. Un resultado de la prueba (calculado a partir de la hipótesis nula y la muestra) se llama estadísticamente significativa si se considera improbable que haya ocurrido por casualidad, asumiendo la verdad de la hipótesis nula . Un resultado estadísticamente significativo, cuando un probabilidad ( valor p ) es inferior a un (nivel de significación) umbral pre-especificada, justifica el rechazo de la hipótesis nula , pero sólo si la probabilidad a priori de la hipótesis nula no es alto.

En la aplicación típica de ANOVA, la hipótesis nula es que todos los grupos son muestras aleatorias de la misma población. Por ejemplo, al estudiar el efecto de diferentes tratamientos en muestras similares de los pacientes, la hipótesis nula sería que todos los tratamientos tienen el mismo efecto (tal vez ninguno). Rechazar la hipótesis nula se entiende que las diferencias en los efectos observados entre los grupos de tratamiento son poco probable que sea debido al azar.

Por construcción, pruebas de hipótesis limita la tasa de errores de Tipo I (falsos positivos) a un nivel de significación. Los experimentadores también desean limitar errores de Tipo II (falsos negativos). La tasa de errores de tipo II depende en gran medida del tamaño de la muestra (la tasa es mayor para las muestras más pequeñas), nivel de significación (cuando el nivel de la prueba es alta, las probabilidades de pasar por alto un descubrimiento también son de altura) y el tamaño del efecto (un tamaño menor efecto es más propenso a error tipo II).

La terminología de ANOVA es en gran parte de la estadística diseño de experimentos . El experimentador ajusta factores y mide las respuestas en un intento de determinar un efecto. Factores se asignan a las unidades experimentales por una combinación de azar y bloqueo para asegurar la validez de los resultados. Cegamiento mantiene la imparcialidad de pesaje. Respuestas muestran una variabilidad que es parcialmente el resultado del efecto y es parcialmente error aleatorio.

ANOVA es la síntesis de varias ideas y se utiliza para múltiples propósitos. Como consecuencia, es difícil de definir de manera concisa y precisa.

"Clásica" ANOVA para datos equilibrada hace tres cosas a la vez:

  1. Como análisis exploratorio de datos , un ANOVA emplea una descomposición datos aditivo, y sus sumas de cuadrados indican la varianza de cada componente de la descomposición (o, equivalentemente, cada conjunto de términos de un modelo lineal).
  2. Las comparaciones de los cuadrados medios, junto con un F -test  ... permiten realizar pruebas de una secuencia anidada de modelos.
  3. Estrechamente relacionado con el ANOVA es un modelo de ajuste lineal con coeficientes estimados y los errores estándar.

En resumen, el ANOVA es una herramienta estadística utilizada en varias formas para desarrollar y confirmar una explicación de los datos observados.

Adicionalmente:

  1. Es computacionalmente elegante y relativamente robusto frente a violaciónes de sus supuestos.
  2. ANOVA proporciona análisis estadístico fuerte (comparación múltiple de la muestra).
  3. Se ha adaptado al análisis de una variedad de diseños experimentales.

Como resultado: ANOVA "siempre ha gozado de la condición de ser el más utilizado (algunos dirían abusado) técnica estadística en la investigación psicológica." ANOVA "es probablemente el más útil técnica en el campo de la inferencia estadística."

ANOVA es difícil de enseñar, particularmente para experimentos complejos, con parcela dividida diseños siendo notorio. En algunos casos la correcta aplicación del método se determina mejor reconocimiento de patrones problema seguido de la consulta de una prueba autorizada clásico.

términos de diseño-de-experimentos

(Condensado del "Manual NIST Estadísticas de ingeniería":. Sección 5.7 Glosario de Terminología DOE).

El diseño equilibrado
Un diseño experimental donde todas las células (es decir, combinaciones de tratamiento) tienen el mismo número de observaciones.
El bloqueo
Un horario para la realización de combinaciones de tratamiento en un estudio experimental de tal manera que cualquier efecto sobre los resultados experimentales debido a un cambio conocido en materias primas, operadores, máquinas, etc., se concentran en los niveles de la variable de bloqueo. La razón para el bloqueo es aislar un efecto sistemático y evitar que se oscurece los efectos principales. El bloqueo se consigue mediante la restricción de la aleatorización.
Diseño
Un conjunto de pruebas experimentales que permite el ajuste de un modelo particular, y la estimación de los efectos.
GAMA
Diseño de experimentos. Una aproximación a la resolución de problemas que impliquen la recolección de los datos que apoyará conclusiones válidas, defendibles, y fundamentadas.
Efecto
Cómo cambiar la configuración de un factor que cambia la respuesta. El efecto de un solo factor también se llama un efecto principal.
Error
variación no explicada en una colección de observaciones. DOE normalmente requieren comprensión tanto de los errores aleatorios y la falta de ajuste de error.
equipo de ensayo
La entidad a la que se aplica una combinación específica de tratamiento.
factores
Las entradas del proceso que manipula un investigador para provocar un cambio en la salida.
De ajuste Falta error
Error que se produce cuando el análisis omite uno o más importantes términos o factores del modelo de proceso. Incluyendo la replicación en un DOE permite la separación de error experimental en sus componentes: la falta de ajuste y error aleatorio (puro).
Modelo
relación matemática que relaciona los cambios en una respuesta dada a los cambios en uno o más factores.
Error al azar
Error que se produce debido a la variación natural en el proceso. El error aleatorio típicamente se supone que se distribuye normalmente con media cero y una varianza constante. El error aleatorio es también llamado error experimental.
La aleatorización
Un horario para la asignación de material de tratamiento y para la realización de combinaciones de tratamientos en un DOE tal que las condiciones en una carrera ni dependen de las condiciones de la ejecución anterior ni predicen las condiciones en las ejecuciones posteriores.
Replicación
Realización de la misma combinación de tratamiento más de una vez. Incluyendo la replicación permite una estimación del error aleatorio independiente de cualquier error de falta de ajuste.
respuestas
La salida (s) de un proceso. A veces se llama variable dependiente (s).
Tratamiento
Un tratamiento es una combinación específica de los niveles de factor cuyo efecto es para ser comparado con otros tratamientos.

tabla de ANOVA

ANOVA de una vía
Fuentes df SS MSS F -ratio
entre el tratamiento k-1 SST MST (SST / (k-1)) MST / MSE
Error N-k SSE MSE (SSE / (N-k))
Total N-1
  • SSE - Suma de la plaza debido a un error
  • SST - Suma de la plaza de Tratamiento
  • MST - Mean Suma de cuadrados Tratamiento
  • MSE - Mean Suma de cuadrados de error
  • df - Grados de libertad
ANOVA de dos vías
Fuente df SS MSS F -ratio
entre el tratamiento k-1 SSR MST (SSR / (k-1)) MST / MSE ( F fila -ratio)
entre el bloque h-1 SSC MSV (SSC / (h-1)) MSV / MSE ( F columna -ratio)
Error (H-1) (k-1) SSE MSE (SSE / ((h-1) (k-1)))
Total N-1
  • SSR - Suma de Cuadrado de tratamiento en filas (SST)
  • SSC - Suma de cuadrados entre la columna
  • MSV - Mean Suma de Varianza

Clases de modelos

Hay tres clases de modelos utilizados en el análisis de la varianza, y éstos se describen aquí.

Los modelos de efectos fijos

El modelo de efectos fijos (clase I) de análisis de la varianza se aplica a situaciones en las que el experimentador aplica uno o más tratamientos para los sujetos del experimento para ver si las variables de respuesta valores cambian. Esto permite que el experimentador para estimar los intervalos de valores de las variables de respuesta que el tratamiento sería generar en la población como un todo.

modelos de efectos aleatorios

Modelo de efectos aleatorios (clase II) se utiliza cuando los tratamientos no son fijos. Esto ocurre cuando los distintos niveles de los factores se toman muestras de una población mayor. Debido a que los propios niveles son variables aleatorias , algunas suposiciones y el método de contraste de los tratamientos (una generalización de múltiples variables de diferencias simples) diferir del modelo de efectos fijos.

Los modelos de efectos mixtos

Un modelo de efectos mixtos (clase III) contiene factores experimentales de ambos tipos fijos y de efectos aleatorios, con apropiadamente diferentes interpretaciones y análisis de los dos tipos.

Ejemplo: los experimentos de enseñanza podrían ser realizadas por un departamento de colegio o universidad para encontrar un buen libro de texto introductorio, con cada texto considera un tratamiento. El modelo de efectos fijos compararía una lista de textos candidatos. El modelo de efectos aleatorios determinar si existen diferencias importantes entre una lista de textos seleccionados al azar. El modelo de efectos mixtos compararía los textos (fijo) que incumben a seleccionados al azar alternativas.

Definición de efectos fijos y aleatorios ha sido difícil de lograr, con las definiciones de la competencia podría decirse que conduce hacia un pantano lingüístico.

supuestos

El análisis de varianza se ha estudiado desde varios enfoques, la más común de las cuales utiliza un modelo lineal que relaciona la respuesta a los tratamientos y bloques. Tenga en cuenta que el modelo es lineal en los parámetros, pero puede ser no lineal a través de los niveles del factor. La interpretación es fácil cuando los datos se equilibró entre factores, pero es necesaria la comprensión mucho más profunda de desequilibrio de datos.

análisis de libros de texto utilizando una distribución normal

El análisis de varianza se puede presentar en términos de un modelo lineal , que hace las siguientes suposiciones acerca de la distribución de probabilidad de las respuestas:

  • Independencia de observaciones - esta es una suposición del modelo que simplifica el análisis estadístico.
  • La normalidad - la distribución de los residuos son normales .
  • La igualdad (o la "homogeneidad") de las varianzas, llamados homocedasticidad - la varianza de los datos en grupos debe ser el mismo.

Los supuestos separadas del modelo de libro de texto implican que los errores son independientemente, de forma idéntica, y distribuyen normalmente para modelos de efectos fijos, es decir, que los errores ( ) son independientes y

análisis basado en la aleatorización

En un experimento controlado aleatorizado , los tratamientos se asignaron aleatoriamente a las unidades experimentales, siguiendo el protocolo experimental. Esta aleatorización es objetivo y declaró antes del experimento se lleva a cabo. El aleatorio de asignación objetivo se utiliza para probar la significación de la hipótesis nula, siguiendo las ideas de CS Peirce y Ronald Fisher . Este análisis basado en el diseño fue discutido y desarrollado por Francis J. Anscombe en la Estación Experimental de Rothamsted y por Oscar Kempthorne en la Universidad Estatal de Iowa . Kempthorne y sus estudiantes hacen un supuesto de aditividad unidad de tratamiento , que se describe en los libros de Kempthorne y David R. Cox .

aditividad tratos Unidad

En su forma más simple, la suposición de aditividad-tratamiento unidad indica que la respuesta observada de la unidad experimental cuando se recibe tratamiento puede escribirse como la suma de la respuesta de la unidad y el tratamiento de efectos , que es

La suposición de aditividad tratos unidad implica que, para cada tratamiento , el tratamiento XX tiene exactamente el mismo efecto en cada unidad experimento.

La suposición de aditividad tratamiento unidad por lo general no puede ser directamente falsificado , según Cox y Kempthorne. Sin embargo, muchas consecuencias del tratamiento unidad aditividad se pueden falsificar. Para un experimento aleatorio, la suposición de aditividad tratos unidad implica que la varianza es constante para todos los tratamientos. Por lo tanto, por contraposición , una condición necesaria para la aditividad-tratamiento unidad es que la varianza es constante.

El uso de aditividad tratamiento unidad y la aleatorización es similar a la inferencia basada en el diseño que es estándar en finito-población muestreo de la encuesta .

modelo lineal Derivado

Kempthorne utiliza la aleatorización-distribución y la asunción de aditividad tratamiento unidad para producir un modelo lineal derivado , muy similar al modelo de libro de texto discutido previamente. Las estadísticas de prueba de este modelo lineal derivada están estrechamente aproximadas por las estadísticas de prueba de un modelo lineal normal, apropiado, de acuerdo con los teoremas de aproximación y estudios de simulación. Sin embargo, hay diferencias. Por ejemplo, los resultados del análisis a base de aleatorización en una pequeña correlación negativa pero (estrictamente) entre las observaciones. En el análisis basado en la asignación al azar, no hay ningún supuesto de una normal de distribución y ciertamente ningún supuesto de independencia . Por el contrario, las observaciones dependen !

El análisis basado en la asignación al azar tiene la desventaja de que su exposición implica álgebra tedioso y tiempo extenso. Dado que el análisis basado en la aleatorización es complicado y está estrechamente aproximarse por el enfoque utilizando un modelo lineal normal, la mayoría de los profesores hacen hincapié en el enfoque del modelo lineal normal. Pocos estadísticos se oponen a análisis basado en modelos de experimentos aleatorios equilibradas.

Modelos estadísticos para los datos de observación

Sin embargo, cuando se aplica a datos de los experimentos no aleatorios o estudios de observación , análisis basado en el modelo carece de la orden de asignación al azar. Para los datos de observación, la derivación de los intervalos de confianza debe utilizar subjetivos modelos, como se destacó por Ronald Fisher y sus seguidores. En la práctica, las estimaciones de tratamiento de los efectos de los estudios observacionales generalmente son a menudo incompatibles. En la práctica, "modelos estadísticos" y de observación son útiles para sugerir hipótesis que deben ser tratadas con mucha cautela por el público.

Resumen de los supuestos

El modelo normal basado análisis ANOVA asume la independencia, la normalidad y la homogeneidad de las varianzas de los residuos. El análisis basado en la aleatorización asume solamente la homogeneidad de las varianzas de los residuos (como consecuencia de aditividad-tratamiento unidad) y utiliza el procedimiento de aleatorización del experimento. Tanto estos análisis requieren homocedasticidad , como una suposición para el análisis-modelo normal y, como consecuencia de la asignación al azar y aditividad para el análisis basado en la aleatorización.

Sin embargo, los estudios de procesos que cambian las variaciones en lugar de medios (llamados efectos de dispersión) se han realizado con éxito utilizando ANOVA. Hay no hay supuestos necesarios para ANOVA en toda su generalidad, pero el F -test utilizado para la prueba de ANOVA hipótesis tiene supuestos y limitaciones prácticas que son de interés de continuar.

Problemas que no cumplen los supuestos del ANOVA menudo pueden transformarse para satisfacer las suposiciones. La propiedad de aditividad tratos unidad no es invariante bajo un "cambio de escala", por lo que los estadísticos suelen utilizar transformaciones para lograr la aditividad tratos unidad. Si se espera que la variable de respuesta para seguir una familia paramétrica de distribuciones de probabilidad, entonces el estadístico puede especificar (en el protocolo para el experimento o estudio observacional) que las respuestas pueden transformar para estabilizar la varianza. Además, un estadístico puede especificar que las transformaciones logarítmicas pueden aplicar a las respuestas, que se cree que seguir un modelo multiplicativo. De acuerdo con de Cauchy ecuación funcional teorema, el logaritmo es la única transformación continua que transforma la multiplicación real para adición.

características

ANOVA se utiliza en el análisis de experimentos comparativos, aquellos en los que sólo la diferencia en los resultados es de interés. La significación estadística del experimento se determina por una relación de dos varianzas. Esta relación es independiente de varias modificaciones posibles a las observaciones experimentales: adición de una constante para todas las observaciones no altera importancia. Multiplicando todas las observaciones por una constante no altera importancia. Así estadístico ANOVA resultado importancia es independiente de constantes errores de sesgo y de escala, así como las unidades utilizadas para expresar observaciones. En la era de cálculo mecánico era común para restar una constante de todas las observaciones (cuando equivalente a dejar caer cifras iniciales) para simplificar la entrada de datos. Este es un ejemplo de los datos de codificación .

Lógica

Los cálculos de ANOVA se pueden caracterizar como el cálculo de un número de medias y varianzas, dividiendo dos varianzas y la comparación de la relación a un valor manual para determinar la significación estadística. Cálculo de un efecto del tratamiento es entonces trivial "el efecto de cualquier tratamiento se estima tomando la diferencia entre la media de las observaciones que reciben el tratamiento y la media general".

Partición de la suma de los cuadrados

ANOVA utiliza una terminología estandarizada tradicional. La ecuación de definición de la varianza de la muestra es , donde el divisor se llama los grados de libertad (DF), la suma se llama la suma de cuadrados (SS), el resultado se llama el cuadrado medio (EM) y los términos cuadráticos son desviaciones de la media de la muestra. ANOVA estima 3 varianzas de las muestras: una varianza total basado en todas las desviaciones de observación de la gran media, una varianza de error basado en todas las desviaciones de observación de sus medios de tratamiento adecuados, y una varianza tratamiento. La varianza tratamiento se basa en las desviaciones de medios de tratamiento de la media general, el resultado se multiplica por el número de observaciones en cada tratamiento para dar cuenta de la diferencia entre la varianza de las observaciones y la varianza de los medios.

La técnica fundamental es una partición del total suma de cuadrados SS en componentes relacionados con los efectos usados en el modelo. Por ejemplo, el modelo para un ANOVA simplificado con un tipo de tratamiento en diferentes niveles.

El número de grados de libertad DF se puede dividir de una manera similar: uno de estos componentes (que por error) especifica una distribución chi cuadrado que describe la suma asociada de cuadrados, mientras que el mismo es cierto para "tratamientos" si hay ningún efecto del tratamiento.

Ver también carecen de ajuste suma de los cuadrados .

El F -test

El F -test se utiliza para la comparación de los factores de la desviación total. Por ejemplo, en un solo sentido, o de un solo factor de ANOVA, la significación estadística se prueba para mediante la comparación de la estadística de prueba F

donde MS es cuadrado medio, = número de tratamientos y = número total de casos

a la F -distribución con , grados de libertad. Usando el F distribución t es un candidato natural porque la estadística de prueba es la relación de dos sumas a escala de cuadrados cada uno de los cuales sigue un escalado distribución chi cuadrado .

El valor esperado de F es (donde n es el tamaño de la muestra de tratamiento) que es 1 para ningún efecto del tratamiento. Como valores de F aumento por encima de 1, la evidencia es cada vez más incompatible con la hipótesis nula. Dos métodos experimentales aparentes de aumento de F están aumentando el tamaño de la muestra y la reducción de la varianza del error por controles experimentales ajustados.

Hay dos métodos para la conclusión de la prueba de hipótesis de ANOVA, las cuales producen el mismo resultado:

  • El método de libros de texto es comparar el valor observado de F con el valor crítico de F determinado a partir de las tablas. El valor crítico de F es una función de los grados de libertad del numerador y el denominador y el nivel de significación (α). Si F ≥ F crítico , se rechaza la hipótesis nula.
  • El método de ordenador calcula la probabilidad (valor p) de un valor de F mayor que o igual que el valor observado. La hipótesis nula se rechaza si esta probabilidad es menor que o igual que el nivel de significación (α).

El ANOVA F -test se sabe que es casi óptimo en el sentido de reducir al mínimo los errores falsos negativos para una tasa fija de errores falsos positivos (es decir, la maximización de potencia para un nivel de significación fija). Por ejemplo, para probar la hipótesis de que diversos tratamientos médicos tienen exactamente el mismo efecto, la F -test 's p -valores se aproximan mucho a los de la prueba de permutación ' s valores de p : La aproximación es especialmente estrecha cuando el diseño es equilibrada. Tales pruebas de permutación caracterizan pruebas con potencia máxima contra todas las hipótesis alternativas , como se observa por Rosenbaum. El ANOVA F -test (de la hipótesis nula de que todos los tratamientos tienen exactamente el mismo efecto) se recomienda como una prueba práctica, debido a su robustez frente a muchas distribuciones alternativas.

lógica extendida

ANOVA consta de partes separables; fuentes de partición de la varianza y la prueba de hipótesis se pueden usar de forma individual. ANOVA se utiliza para apoyar otras herramientas estadísticas. Regresión se utiliza primero para adaptarse a modelos más complejos a los datos, a continuación, ANOVA se utiliza para comparar los modelos con el objetivo de seleccionar modelos simples (r) que describen adecuadamente los datos. "Tales modelos podrían estar en forma sin ninguna referencia a ANOVA, pero las herramientas ANOVA podría ser utilizado para hacer algún sentido de los modelos ajustados, y para poner a prueba hipótesis sobre lotes de coeficientes." "[W] e pensar en el análisis de la varianza como una forma de comprensión y estructuración de modelos multinivel, no como una alternativa a la regresión sino como una herramienta para resumir las inferencias de alta dimensión complejos ..."

Para un solo factor

El experimento más simple adecuada para el análisis ANOVA es el experimento completamente al azar con un único factor. Experimentos más complejos con un solo factor implican restricciones sobre la aleatorización e incluyen bloques completos al azar y cuadrados latinos (y variantes: cuadrados grecolatinos, etc.). Los experimentos más complejos comparten muchas de las complejidades de múltiples factores. Una discusión relativamente completa del análisis (modelos, resúmenes de datos, tabla de ANOVA) del experimento completamente aleatorizado es disponible .

Para múltiples factores

ANOVA se generaliza en el estudio de los efectos de múltiples factores. Cuando el experimento incluye observaciones en todas las combinaciones de niveles de cada factor, se denomina factorial . Experimentos factoriales son más eficientes que una serie de experimentos de factores individuales y la eficiencia crece en la medida que el número de factores aumenta. En consecuencia, los diseños factoriales se utilizan en gran medida.

El uso de ANOVA para estudiar los efectos de múltiples factores tiene una complicación. En un ANOVA de 3 vías con los factores X, Y y Z, el modelo ANOVA incluye términos para los efectos principales (x, y, z) y los términos para las interacciones (xy, xz, yz, XYZ). Todos los términos requieren pruebas de hipótesis. La proliferación de los términos de interacción aumenta el riesgo de que algunos prueba de hipótesis producirá un falso positivo por casualidad. Afortunadamente, la experiencia dice que las interacciones de orden superior son raros. La capacidad para detectar interacciones es una de las principales ventajas del factor múltiple ANOVA. Probando un factor a la vez esconde interacciones, pero produce resultados experimentales aparentemente inconsistentes.

Se recomienda precaución cuando se enfrentan a las interacciones; términos de interacción de prueba primero y ampliar el análisis más allá ANOVA si se encuentran interacciones. Textos varían en sus recomendaciones relativas a la continuación del procedimiento ANOVA después de encontrarse con una interacción. Interacciones complican la interpretación de los datos experimentales. Ni los cálculos de importancia ni los efectos estimados del tratamiento pueden ser tomados a su valor nominal. "Una interacción significativa a menudo enmascarar la importancia de los efectos principales." Se recomiendan los métodos gráficos para mejorar la comprensión. La regresión es a menudo útil. Una larga discusión de las interacciones está disponible en Cox (1958). Algunas reacciones pueden eliminarse (por transformaciones), mientras que otros no pueden.

Una variedad de técnicas se utilizan con el factor múltiple ANOVA para reducir el gasto. Una técnica usada en diseños factoriales es para minimizar la replicación (posiblemente no la replicación con el apoyo de engaño analítica ) y para combinar grupos cuando se encuentran efectos estadísticamente (o prácticamente) insignificante. Un experimento con muchos factores insignificantes puede colapsar en un solo con unos pocos factores apoyados por muchos repeticiones.

ejemplos numéricos trabajadas

Varios ejemplos numéricos totalmente trabajado están disponibles. Un caso sencillo utiliza unidireccional (un solo factor) análisis. Un caso más complejo utiliza bidireccional (de dos factores) análisis.

El análisis asociado

Se requiere algún análisis en apoyo de la diseño del experimento mientras que se lleva a cabo otro análisis después de cambios en los factores se encuentran formalmente para producir cambios estadísticamente significativos en las respuestas. Debido a que la experimentación es iterativo, los resultados de un experimento alteran planes para siguientes experimentos.

análisis preparatorio

El número de unidades experimentales

En el diseño de un experimento, el número de unidades experimentales está previsto para satisfacer los objetivos del experimento. La experimentación es a menudo secuencial.

Los primeros experimentos son a menudo diseñados para proporcionar estimaciones media-imparciales de los efectos del tratamiento y del error experimental. Experimentos posteriores son a menudo diseñados para poner a prueba la hipótesis de que un efecto del tratamiento tiene una magnitud importante; en este caso, se elige el número de unidades experimentales de modo que el experimento está dentro del presupuesto y tiene una potencia adecuada, entre otros objetivos.

Informes análisis de tamaño de muestra se requiere generalmente en la psicología. "Proporcionar información sobre el tamaño de la muestra y el proceso que condujo a la muestra de tamaño de decisiones." El análisis, que está escrito en el protocolo experimental antes de que se llevó a cabo el experimento, se examina en las solicitudes de subvención y las juntas de revisión administrativos.

Además del análisis de potencia, hay métodos menos formales para la selección del número de unidades experimentales. Estos incluyen métodos gráficos basados ​​en limitar la probabilidad de errores falsos negativos, métodos gráficos basan en un aumento variación esperada (por encima de los residuos) y métodos basados ​​en el logro de un intervalo de confianza deseado.

El análisis del poder

El análisis del poder se aplica a menudo en el contexto de ANOVA con el fin de evaluar la probabilidad de rechazar la hipótesis nula con éxito si asumimos un determinado diseño de ANOVA, el tamaño del efecto en el nivel de la población, tamaño de la muestra y significado. El análisis del poder puede ayudar en el diseño del estudio mediante la determinación de qué tamaño de muestra sería necesaria con el fin de tener una posibilidad razonable de rechazar la hipótesis nula cuando la hipótesis alternativa es verdadera.

Tamaño del efecto

Se han propuesto varias medidas estandarizadas de efecto de ANOVA para resumir la fuerza de la asociación entre un predictor (s) y la variable dependiente o la diferencia estandarizada general del modelo completo. las estimaciones del tamaño del efecto estandarizados facilitan la comparación de los resultados entre los estudios y disciplinas. Sin embargo, mientras que los tamaños del efecto estandarizados se utilizan comúnmente en la mayor parte de la literatura profesional, una medida no estandarizada del tamaño del efecto que tiene inmediatamente unidades "significativas" puede ser preferible para los informes.

El análisis de seguimiento

Siempre es apropiado considerar cuidadosamente los valores atípicos. Ellos tienen un impacto desproporcionado en las conclusiones estadísticas y son a menudo el resultado de errores.

modelo de confirmación

Es prudente para verificar que se cumplen los supuestos del ANOVA. Los residuos se examinan o analizan para confirmar homocedasticidad y normalidad bruto. Los residuos deben tener la apariencia de ruido (distribución normal de media cero) cuando se representa como una función de cualquier cosa, incluyendo los valores de datos modelados tiempo y. Las tendencias apuntan a las interacciones entre los factores o entre observaciones. Una regla de oro: "Si la desviación estándar más grande es inferior a dos veces la desviación estándar más pequeña, podemos utilizar métodos basados en el supuesto de desviaciones estándar iguales y nuestros resultados todavía será aproximadamente correcto"

Pruebas de seguimiento

Un efecto estadísticamente significativo en ANOVA es seguido a menudo con uno o más diferentes pruebas de seguimiento. Esto se puede hacer con el fin de evaluar qué grupos son diferentes de la que otros grupos o para probar varias otras hipótesis enfocadas. Las pruebas de seguimiento a menudo se distinguen en términos de si se han previsto ( a priori ) o post hoc . Pruebas previstas se determinan antes de mirar los datos y las pruebas post hoc se realizan después de buscar en los datos.

A menudo, uno de los "tratamientos" no es ninguna, por lo que el grupo de tratamiento puede actuar como un control. La prueba de Dunnett (una modificación de la t-test) comprueba si cada uno de los otros grupos de tratamiento tiene la misma media como el control.

Las pruebas post hoc tales como la prueba de rangos de Tukey comparan con mayor frecuencia cada media del grupo con cualquier otro medio de grupo y suelen incorporar algún método de control de errores de tipo I. Las comparaciones, que son más comúnmente previstas, pueden ser ya sea simple o compuesta. La simple comparación comparan un grupo significa con otra media del grupo. Comparaciones compuestos comparan típicamente dos conjuntos de grupos de medios donde un conjunto tiene dos o más grupos (por ejemplo, comparar grupo promedio medio de grupo A, B y C con el grupo D). Las comparaciones también pueden mirar en las pruebas de tendencia, tales como relaciones lineales y cuadráticas, cuando la variable independiente implica niveles ordenados.

Después de ANOVA con pruebas de comparación múltiple por pares ha sido criticado por varios motivos. Hay muchas de estas pruebas (10) en una mesa y recomendaciones con respecto a su uso son vagos o contradictorios.

diseños de los estudios

Hay varios tipos de ANOVA. Muchos estadísticos basan ANOVA en el diseño del experimento , especialmente en el protocolo que especifica la asignación aleatoria de los tratamientos a los sujetos; Descripción del protocolo del mecanismo de asignación debe incluir una especificación de la estructura de los tratamientos y de cualquier bloqueo . También es común aplicar ANOVA para los datos de observación utilizando un modelo estadístico apropiado.

Algunos diseños populares utilizan los siguientes tipos de ANOVA:

  • ANOVA de una vía se utiliza para probar las diferencias entre dos o más independientes grupos (medios), por ejemplo diferentes niveles de aplicación de urea en un cultivo, o diferentes niveles de acción antibiótica en varias especies bacterianas diferentes, o diferentes niveles de efecto de algunos medicamentos en los grupos de pacientes. Sin embargo, deben estos grupos no sean independientes, y no hay un orden en los grupos (tales como la enfermedad leve, moderada y grave), o en la dosis de un fármaco (tal como 5 mg / ml, 10 mg / ml, 20 mg / ml) dado al mismo grupo de pacientes, entonces una estimación de tendencia lineal debe ser utilizado. Típicamente, sin embargo, el ANOVA de una vía se utiliza para probar las diferencias entre al menos tres grupos, ya que el caso de dos grupos puede ser cubierta por una prueba t . Cuando sólo hay dos medios para comparar, el t-test y el ANOVA F -test son equivalentes; la relación entre ANOVA y t está dada por F  =  t 2 .
  • Factorial ANOVA se utiliza cuando el experimentador quiere estudiar los efectos de la interacción entre los tratamientos.
  • Las medidas repetidas ANOVA se utiliza cuando se utilizan los mismos sujetos para cada tratamiento (por ejemplo, en un estudio longitudinal ).
  • El análisis multivariado de varianza (MANOVA) se utiliza cuando hay más de una variable de respuesta .

precauciones

Experimentos equilibradas (aquellos con un tamaño de muestra igual para cada tratamiento) son relativamente fáciles de interpretar; Desequilibradas experimentos ofrecen una mayor complejidad. Para-solo factor (unidireccional) ANOVA, el ajuste para los datos desequilibrada es fácil, pero el análisis desequilibrada carece tanto de robustez y potencia. Para los diseños más complejos de la falta de equilibrio conduce a otras complicaciones. "La propiedad de ortogonalidad de los efectos principales y las interacciones presentes en datos balanceados no se transfiere al caso desequilibrada. Esto significa que el análisis habitual de las técnicas de varianza no se aplican. En consecuencia, el análisis de factoriales desequilibradas es mucho más difícil que la de equilibrado diseños ". En el caso general, "El análisis de varianza también se puede aplicar a los datos desequilibrada, pero entonces las sumas de cuadrados, cuadrados medios, y F -ratios dependerá de la orden en el que se consideran las fuentes de variación." Las técnicas más simples para el manejo de datos desbalanceados restablecer el equilibrio ya sea por tirar de datos o mediante la síntesis de los datos que faltan. Técnicas más complejas utilizan regresión.

ANOVA es (en parte) una prueba de significación. La American Psychological Association sostiene la opinión de que la significación simplemente informar es insuficiente y que la presentación de informes límites de confianza se prefiere.

Mientras ANOVA es conservador (en el mantenimiento de un nivel de significación) en contra de comparaciones múltiples en una sola dimensión, no es conservadora contra las comparaciones en múltiples dimensiones.

generalizaciones

ANOVA se considera que es un caso especial de regresión lineal que a su vez es un caso especial de la modelo lineal general . Todos consideran las observaciones a ser la suma de un modelo (FIT) y una residual (error) a ser minimizado.

La prueba de Kruskal-Wallis y el test de Friedman son no paramétricos pruebas, que no se basan en la suposición de normalidad.

Conexión a la regresión lineal

A continuación dejar clara la conexión entre varias vías ANOVA y regresión lineal. Linealmente reordenar los datos de manera que la observación se asocia con una respuesta y los factores donde denota los diferentes factores y es el número total de factores. En ANOVA de una vía y en ANOVA de dos vías . Además, suponemos que el factor tiene niveles, a saber . Ahora, podemos sola caliente codificar los factores en el vector unidimensional .

La función de un solo caliente de codificación se define de tal manera que la entrada de es

El vector es la concatenación de todos los vectores anteriores para todos . Por lo tanto, . Con el fin de obtener un totalmente general ANOVA interacción -way también debemos concatenar cada término de interacción adicional en el vector y luego añadir un término de intersección. Deje que sea ese vector .

Con esta notación en su lugar, ahora tenemos la conexión exacta con la regresión lineal. Simplemente una regresión de la respuesta contra el vector . Sin embargo, existe una preocupación por identificabilidad. Con el fin de superar tales problemas se supone que la suma de los parámetros dentro de cada conjunto de interacciones es igual a cero. Desde aquí, se puede utilizar F -estadísticas u otros métodos para determinar la pertinencia de los factores individuales.

Ejemplo

Podemos considerar el ejemplo de la interacción de 2 vías, donde suponemos que el primer factor tiene 2 niveles y el segundo factor tiene 3 niveles.

Definir si y si , es decir, es la codificación de una sola caliente del primer factor y es la codificación de una sola caliente del segundo factor.

Con ese,

donde el último término es un término de intersección. Para un ejemplo más concreto suponer que
Entonces,

Ver también

Notas al pie

notas

referencias

Otras lecturas

enlaces externos