Diseño de experimentos - Design of experiments

Diseño de experimentos con diseño factorial completo (izquierda), superficie de respuesta con polinomio de segundo grado (derecha)

El diseño de experimentos ( DOE , DOX o diseño experimental ) es el diseño de cualquier tarea que tenga como objetivo describir y explicar la variación de la información en condiciones que se hipotetizan para reflejar la variación. El término generalmente se asocia con experimentos en los que el diseño introduce condiciones que afectan directamente la variación, pero también puede referirse al diseño de cuasi-experimentos , en los que las condiciones naturales que influyen en la variación se seleccionan para su observación.

En su forma más simple, un experimento tiene como objetivo predecir el resultado mediante la introducción de un cambio de las condiciones previas, que está representado por una o más variables independientes , también denominadas "variables de entrada" o "variables predictoras". Generalmente se plantea la hipótesis de que el cambio en una o más variables independientes da como resultado un cambio en una o más variables dependientes , también conocidas como "variables de salida" o "variables de respuesta". El diseño experimental también puede identificar variables de control que deben mantenerse constantes para evitar que factores externos afecten los resultados. El diseño experimental implica no solo la selección de variables independientes, dependientes y de control adecuadas, sino también la planificación de la realización del experimento en condiciones estadísticamente óptimas dadas las limitaciones de los recursos disponibles. Existen múltiples enfoques para determinar el conjunto de puntos de diseño (combinaciones únicas de la configuración de las variables independientes) que se utilizarán en el experimento.

Las principales preocupaciones en el diseño experimental incluyen el establecimiento de validez , confiabilidad y replicabilidad . Por ejemplo, estas preocupaciones se pueden abordar parcialmente eligiendo cuidadosamente la variable independiente, reduciendo el riesgo de error de medición y asegurando que la documentación del método sea lo suficientemente detallada. Las preocupaciones relacionadas incluyen lograr niveles apropiados de poder estadístico y sensibilidad .

Los experimentos correctamente diseñados promueven el conocimiento en las ciencias naturales y sociales y la ingeniería. Otras aplicaciones incluyen marketing y formulación de políticas. El estudio del diseño de experimentos es un tema importante en la metaciencia .

Historia

Experimentos estadísticos, siguiendo a Charles S. Peirce

Charles S. Peirce desarrolló una teoría de la inferencia estadística en " Illustrations of the Logic of Science " (1877-1878) y " A Theory of Probable Inference " (1883), dos publicaciones que enfatizaban la importancia de la inferencia basada en la aleatorización en Estadísticas.

Experimentos aleatorizados

Charles S. Peirce asignó al azar a los voluntarios a un ciego , el diseño de medidas repetidas para evaluar su capacidad para discriminar pesos. El experimento de Peirce inspiró a otros investigadores en psicología y educación, que desarrollaron una tradición de investigación de experimentos aleatorios en laboratorios y libros de texto especializados en el siglo XIX.

Diseños óptimos para modelos de regresión

Charles S. Peirce también contribuyó con la primera publicación en inglés sobre un diseño óptimo para modelos de regresión en 1876. Gergonne sugirió un diseño óptimo pionero para la regresión polinomial en 1815. En 1918, Kirstine Smith publicó diseños óptimos para polinomios de grado seis ( y menos).

Secuencias de experimentos

El uso de una secuencia de experimentos, donde el diseño de cada uno puede depender de los resultados de experimentos previos, incluida la posible decisión de dejar de experimentar, está dentro del alcance del análisis secuencial , un campo en el que fue pionero Abraham Wald en el contexto de pruebas secuenciales de hipótesis estadísticas. Herman Chernoff escribió una descripción general de los diseños secuenciales óptimos, mientras que S. Zacks examinó los diseños adaptativos . Un tipo específico de diseño secuencial es el "bandido de dos brazos", generalizado al bandido de múltiples brazos , en el que Herbert Robbins realizó los primeros trabajos en 1952.

Principios de Fisher

Ronald Fisher propuso una metodología para diseñar experimentos en sus libros innovadores: The Arrangement of Field Experiments (1926) y The Design of Experiments (1935). Gran parte de su trabajo pionero se ocupó de las aplicaciones agrícolas de los métodos estadísticos. Como ejemplo mundano, describió cómo probar la hipótesis de la dama probando el té , que cierta dama podía distinguir solo por el sabor si la leche o el té se colocaban primero en la taza. Estos métodos se han adaptado ampliamente a la investigación biológica, psicológica y agrícola.

Comparación
En algunos campos de estudio, no es posible tener mediciones independientes para un estándar de metrología rastreable . Las comparaciones entre tratamientos son mucho más valiosas y, por lo general, son preferibles y, a menudo, se comparan con un control científico o un tratamiento tradicional que actúa como línea de base.
Aleatorización
La asignación aleatoria es el proceso de asignar individuos al azar a grupos o a diferentes grupos en un experimento, de modo que cada individuo de la población tenga las mismas posibilidades de participar en el estudio. La asignación aleatoria de individuos a grupos (o condiciones dentro de un grupo) distingue un experimento riguroso y "verdadero" de un estudio observacional o "cuasi-experimento". Existe un extenso cuerpo de teoría matemática que explora las consecuencias de realizar la asignación de unidades a tratamientos mediante algún mecanismo aleatorio (como tablas de números aleatorios, o el uso de dispositivos de aleatorización como naipes o dados). La asignación de unidades a los tratamientos al azar tiende a mitigar la confusión , lo que hace que los efectos debidos a factores distintos al tratamiento parezcan resultar del tratamiento.
Los riesgos asociados con la asignación aleatoria (como tener un desequilibrio grave en una característica clave entre un grupo de tratamiento y un grupo de control) son calculables y, por lo tanto, pueden gestionarse hasta un nivel aceptable utilizando suficientes unidades experimentales. Sin embargo, si la población se divide en varias subpoblaciones que de alguna manera difieren, y la investigación requiere que cada subpoblación tenga el mismo tamaño, se puede utilizar un muestreo estratificado. De esa manera, las unidades de cada subpoblación se aleatorizan, pero no la muestra completa. Los resultados de un experimento se pueden generalizar de manera confiable de las unidades experimentales a una población estadística más grande de unidades solo si las unidades experimentales son una muestra aleatoria de la población más grande; el probable error de tal extrapolación depende del tamaño de la muestra, entre otras cosas.
Replicación estadística
Las mediciones suelen estar sujetas a variaciones e incertidumbres de medición ; por lo tanto, se repiten y se replican los experimentos completos para ayudar a identificar las fuentes de variación, para estimar mejor los efectos reales de los tratamientos, para fortalecer aún más la confiabilidad y validez del experimento y para agregar al conocimiento existente sobre el tema. Sin embargo, se deben cumplir ciertas condiciones antes de que se inicie la replicación del experimento: la pregunta de investigación original se ha publicado en una revista revisada por pares o se ha citado ampliamente, el investigador es independiente del experimento original, el investigador debe primero intentar replicar el hallazgos originales utilizando los datos originales, y la redacción debe indicar que el estudio realizado es un estudio de replicación que trató de seguir el estudio original de la manera más estricta posible.
Bloqueo
El bloqueo es la disposición no aleatoria de unidades experimentales en grupos (bloques) que consisten en unidades que son similares entre sí. El bloqueo reduce las fuentes de variación conocidas pero irrelevantes entre unidades y, por lo tanto, permite una mayor precisión en la estimación de la fuente de variación en estudio.
Ortogonalidad
Ejemplo de diseño factorial ortogonal
La ortogonalidad se refiere a las formas de comparación (contrastes) que pueden llevarse a cabo de manera legítima y eficiente. Los contrastes se pueden representar mediante vectores y los conjuntos de contrastes ortogonales no están correlacionados y se distribuyen de forma independiente si los datos son normales. Debido a esta independencia, cada tratamiento ortogonal proporciona información diferente a los demás. Si hay tratamientos T y contrastes ortogonales T - 1, toda la información que se puede capturar del experimento se puede obtener del conjunto de contrastes.
Experimentos factoriales
Uso de experimentos factoriales en lugar del método de un factor a la vez. Estos son eficientes para evaluar los efectos y las posibles interacciones de varios factores (variables independientes). El análisis del diseño de experimentos se basa en el análisis de varianza , una colección de modelos que dividen la varianza observada en componentes, de acuerdo con los factores que el experimento debe estimar o probar.

Ejemplo

Balance à tabac 1850.JPG

Este ejemplo de experimentos de diseño se atribuye a Harold Hotelling , basado en ejemplos de Frank Yates . Los experimentos diseñados en este ejemplo involucran diseños combinatorios .

Los pesos de ocho objetos se miden utilizando una balanza de plato y un conjunto de pesos estándar. Cada pesaje mide la diferencia de peso entre los objetos del plato izquierdo y cualquier objeto del plato derecho agregando pesos calibrados al plato más ligero hasta que la balanza esté en equilibrio. Cada medida tiene un error aleatorio . El error medio es cero; las desviaciones estándar de la distribución de probabilidad de los errores es el mismo número σ en diferentes ponderaciones; los errores en diferentes pesajes son independientes . Denote los pesos verdaderos por

Consideramos dos experimentos diferentes:

  1. Pese cada objeto en un recipiente, con el otro recipiente vacío. Sea X i el peso medido del objeto, para i = 1, ..., 8.
  2. Realice los ocho pesajes de acuerdo con el siguiente programa y sea Y i la diferencia medida para i = 1, ..., 8:
Entonces el valor estimado del peso θ 1 es
Se pueden encontrar estimaciones similares para las ponderaciones de los otros elementos. Por ejemplo

La cuestión del diseño de experimentos es: ¿qué experimento es mejor?

La varianza de la estimación X 1 de θ 1 es σ 2 si usamos el primer experimento. Pero si usamos el segundo experimento, la varianza de la estimación dada anteriormente es σ 2 /8. Así, el segundo experimento nos da 8 veces más precisión para la estimación de un solo elemento y estima todos los elementos simultáneamente, con la misma precisión. Lo que logra el segundo experimento con ocho requeriría 64 pesajes si los artículos se pesan por separado. Sin embargo, tenga en cuenta que las estimaciones de los elementos obtenidos en el segundo experimento tienen errores que se correlacionan entre sí.

Muchos problemas del diseño de experimentos involucran diseños combinatorios , como en este ejemplo y otros.

Evitando falsos positivos

Las conclusiones positivas falsas , que a menudo resultan de la presión para publicar o del sesgo de confirmación del propio autor , son un peligro inherente en muchos campos. Una buena forma de prevenir los sesgos que potencialmente conducen a falsos positivos en la fase de recopilación de datos es utilizar un diseño de doble ciego. Cuando se utiliza un diseño de doble ciego, los participantes se asignan al azar a grupos experimentales, pero el investigador no sabe qué participantes pertenecen a qué grupo. Por tanto, el investigador no puede afectar la respuesta de los participantes a la intervención. Los diseños experimentales con grados de libertad no revelados son un problema. Esto puede llevar a un " p-hacking " consciente o inconsciente : probar varias cosas hasta obtener el resultado deseado. Por lo general, implica la manipulación, tal vez inconscientemente, del proceso de análisis estadístico y los grados de libertad hasta que devuelven una cifra por debajo del nivel p <.05 de significación estadística. Por lo tanto, el diseño del experimento debe incluir una declaración clara que proponga los análisis que se realizarán. La piratería P se puede prevenir registrando previamente las investigaciones, en las que los investigadores tienen que enviar su plan de análisis de datos a la revista en la que desean publicar su artículo antes de comenzar la recopilación de datos, por lo que no es posible la manipulación de datos ( https: // osf .io ). Otra forma de evitar esto es llevar el diseño de doble ciego a la fase de análisis de datos, donde los datos se envían a un analista de datos no relacionado con la investigación que codifica los datos para que no haya forma de saber a qué participantes pertenecen antes. potencialmente se eliminan como valores atípicos.

La documentación clara y completa de la metodología experimental también es importante para respaldar la reproducción de los resultados.

Temas de discusión al configurar un diseño experimental

Un diseño experimental o un ensayo clínico aleatorizado requiere una consideración cuidadosa de varios factores antes de realizar el experimento. Un diseño experimental es el diseño de un plan experimental detallado antes de realizar el experimento. Algunos de los siguientes temas ya se han discutido en la sección de principios del diseño experimental:

  1. ¿Cuántos factores tiene el diseño y los niveles de estos factores son fijos o aleatorios?
  2. ¿Se necesitan condiciones de control y cuáles deberían ser?
  3. Controles de manipulación; ¿Funcionó realmente la manipulación?
  4. ¿Cuáles son las variables de fondo?
  5. ¿Cuál es el tamaño de la muestra? ¿Cuántas unidades deben recopilarse para que el experimento sea generalizable y tenga suficiente potencia ?
  6. ¿Cuál es la relevancia de las interacciones entre factores?
  7. ¿Cuál es la influencia de los efectos retardados de los factores sustantivos en los resultados?
  8. ¿Cómo afectan los cambios de respuesta a las medidas de autoinforme?
  9. ¿Qué tan factible es la administración repetida de los mismos instrumentos de medición a las mismas unidades en diferentes ocasiones, con una prueba posterior y pruebas de seguimiento?
  10. ¿Qué pasa con el uso de una prueba previa de proxy?
  11. ¿Hay variables al acecho?
  12. ¿Debería el cliente / paciente, el investigador o incluso el analista de los datos estar ciegos a las condiciones?
  13. ¿Cuál es la viabilidad de la aplicación posterior de diferentes condiciones a las mismas unidades?
  14. ¿Cuántos de cada uno de los factores de control y ruido deben tenerse en cuenta?

La variable independiente de un estudio a menudo tiene muchos niveles o grupos diferentes. En un verdadero experimento, los investigadores pueden tener un grupo experimental, que es donde se implementa su intervención probando la hipótesis, y un grupo de control, que tiene todos el mismo elemento que el grupo experimental, sin el elemento intervencionista. Por lo tanto, cuando todo lo demás, excepto una intervención, se mantiene constante, los investigadores pueden certificar con cierta certeza que este elemento es el que causó el cambio observado. En algunos casos, tener un grupo de control no es ético. Esto a veces se resuelve usando dos grupos experimentales diferentes. En algunos casos, las variables independientes no se pueden manipular, por ejemplo, al probar la diferencia entre dos grupos que tienen una enfermedad diferente, o al probar la diferencia entre géneros (obviamente, variables a las que sería difícil o poco ético asignar participantes). En estos casos, se puede utilizar un diseño cuasi-experimental.

Atribuciones causales

En el diseño experimental puro, el investigador manipula la variable independiente (predictora), es decir, cada participante de la investigación se elige al azar de la población, y cada participante elegido se asigna al azar a las condiciones de la variable independiente. Solo cuando se hace esto es posible certificar con alta probabilidad que la razón de las diferencias en las variables de resultado se debe a las diferentes condiciones. Por lo tanto, los investigadores deben elegir el diseño experimental sobre otros tipos de diseño siempre que sea posible. Sin embargo, la naturaleza de la variable independiente no siempre permite la manipulación. En esos casos, los investigadores deben ser conscientes de no certificar la atribución causal cuando su diseño no lo permite. Por ejemplo, en los diseños observacionales, los participantes no se asignan aleatoriamente a las condiciones, por lo que si se encuentran diferencias en las variables de resultado entre las condiciones, es probable que haya algo más que las diferencias entre las condiciones que causan las diferencias en los resultados, que es - una tercera variable. Lo mismo ocurre con los estudios con diseño correlacional. (Adér y Mellenbergh, 2008).

Control estadístico

Es mejor que un proceso esté en un control estadístico razonable antes de realizar los experimentos diseñados. Cuando esto no es posible, el bloqueo, la replicación y la aleatorización adecuados permiten la realización cuidadosa de los experimentos diseñados. Para controlar las variables molestas, los investigadores instituyen controles de control como medidas adicionales. Los investigadores deben asegurarse de que las influencias incontroladas (por ejemplo, la percepción de la credibilidad de la fuente) no desvíen los resultados del estudio. Una verificación de manipulación es un ejemplo de verificación de control. Los controles de manipulación permiten a los investigadores aislar las principales variables para fortalecer el respaldo de que estas variables están operando según lo planeado.

Uno de los requisitos más importantes de los diseños de investigación experimental es la necesidad de eliminar los efectos de las variables espurias , intervinientes y antecedentes . En el modelo más básico, la causa (X) conduce al efecto (Y). Pero podría haber una tercera variable (Z) que influya en (Y), y X podría no ser la verdadera causa en absoluto. Se dice que Z es una variable falsa y debe controlarse. Lo mismo es cierto para las variables intervinientes (una variable entre la supuesta causa (X) y el efecto (Y)), y las variables anteriores (una variable anterior a la supuesta causa (X) que es la verdadera causa). Cuando una tercera variable está involucrada y no se ha controlado, se dice que la relación es una relación de orden cero . En la mayoría de las aplicaciones prácticas de los diseños de investigación experimental hay varias causas (X1, X2, X3). En la mayoría de los diseños, solo se manipula una de estas causas a la vez.

Diseños experimentales después de Fisher

Raj Chandra Bose y K. Kishen encontraron algunos diseños eficientes para estimar varios efectos principales de forma independiente y casi sucesivamente en 1940 en el Instituto de Estadística de la India , pero siguieron siendo poco conocidos hasta que los diseños de Plackett-Burman se publicaron en Biometrika en 1946. Acerca de la Al mismo tiempo, CR Rao introdujo los conceptos de matrices ortogonales como diseños experimentales. Este concepto jugó un papel central en el desarrollo de los métodos Taguchi por Genichi Taguchi , que tuvo lugar durante su visita al Instituto de Estadística de la India a principios de la década de 1950. Sus métodos fueron aplicados y adoptados con éxito por las industrias japonesa e india y, posteriormente, también fueron adoptados por la industria estadounidense, aunque con algunas reservas.

En 1950, Gertrude Mary Cox y William Gemmell Cochran publicaron el libro Experimental Designs, que se convirtió en la principal obra de referencia sobre el diseño de experimentos para estadísticos durante años.

Los desarrollos de la teoría de modelos lineales han abarcado y superado los casos que preocupaban a los primeros escritores. Hoy, la teoría se basa en temas avanzados en álgebra lineal , álgebra y combinatoria .

Al igual que con otras ramas de la estadística, el diseño experimental se persigue utilizando enfoques tanto frecuentistas como bayesianos : al evaluar procedimientos estadísticos como los diseños experimentales, la estadística frecuentista estudia la distribución muestral, mientras que la estadística bayesiana actualiza una distribución de probabilidad en el espacio de parámetros.

Algunos contribuyentes importantes en el campo de los diseños experimentales son CS Peirce , RA Fisher , F. Yates , RC Bose , AC Atkinson , RA Bailey , DR Cox , GEP Box , WG Cochran , WT Federer , VV Fedorov , AS Hedayat , J. Kiefer , O. Kempthorne , JA Nelder , Andrej Pázman , Friedrich Pukelsheim , D. Raghavarao , CR Rao , Shrikhande SS , JN Srivastava , William J. Studden , G. Taguchi y HP Wynn .

Los libros de texto de D. Montgomery, R. Myers y G. Box / W. Hunter / JS Hunter han llegado a generaciones de estudiantes y practicantes.

Algunos discusión del diseño experimental en el contexto de la identificación del sistema (la construcción de modelo para estática o modelos dinámicos) se da en y

Limitaciones de los participantes humanos

Las leyes y las consideraciones éticas excluyen algunos experimentos cuidadosamente diseñados con sujetos humanos. Las restricciones legales dependen de la jurisdicción . Las restricciones pueden involucrar juntas de revisión institucionales , consentimiento informado y confidencialidad que afecten tanto a los ensayos clínicos (médicos) como a los experimentos de ciencias sociales y del comportamiento. En el campo de la toxicología, por ejemplo, la experimentación se realiza en animales de laboratorio con el objetivo de definir límites de exposición seguros para los seres humanos . Equilibrando las limitaciones están las opiniones del campo médico. En cuanto a la aleatorización de los pacientes, "... si nadie sabe qué terapia es mejor, no existe un imperativo ético para utilizar una terapia u otra". (p. 380) Con respecto al diseño experimental, "... claramente no es ético colocar a los sujetos en riesgo para recopilar datos en un estudio mal diseñado cuando esta situación se puede evitar fácilmente ...". (pág 393)

Ver también

Referencias

Fuentes

  • Peirce, CS (1877–1878), "Ilustraciones de la lógica de la ciencia" (serie), Popular Science Monthly , vols. 12-13. Artículos individuales relevantes:
    • (1878 Marzo), "La doctrina de posibilidades", Popular Science Monthly , v. 12, edición de marzo, pp. 604 -615. Archivo de Internet Eprint .
    • (Abril de 1878), "La probabilidad de la inducción", Popular Science Monthly , v. 12, pp. 705 - 718. Archivo de Internet Eprint .
    • (Junio ​​de 1878), "El orden de la naturaleza", Popular Science Monthly , v. 13, págs. 203 –217. Archivo de Internet Eprint .
    • (1878 agosto), "Deducción, inducción, y Hipótesis", Popular Science Monthly , v. 13, pp. 470 -482. Archivo de Internet Eprint .
    • (1883), "A Theory of Probable Inference", Studies in Logic , págs. 126-181 , Little, Brown y Company. (Reimpreso en 1983, John Benjamins Publishing Company, ISBN  90-272-3271-7 )

enlaces externos