Prueba de hipótesis estadística - Statistical hypothesis testing

Una hipótesis estadística es una hipótesis que se puede probar sobre la base de datos observados modelados como los valores realizados tomados por una colección de variables aleatorias . Un conjunto de datos se modela como valores realizados de una colección de variables aleatorias que tienen una distribución de probabilidad conjunta en algún conjunto de posibles distribuciones conjuntas. La hipótesis que se está probando es exactamente ese conjunto de posibles distribuciones de probabilidad. Una prueba de hipótesis estadística es un método de inferencia estadística . Se propone una hipótesis alternativa para la distribución de probabilidad de los datos, ya sea de manera explícita o solo de manera informal. La comparación de los dos modelos se considera estadísticamente significativa si, de acuerdo con un umbral de probabilidad (el nivel de significancia), es poco probable que los datos se produzcan si la hipótesis nula fuera cierta. Una prueba de hipótesis especifica qué resultados de un estudio pueden llevar a un rechazo de la hipótesis nula en un nivel preespecificado de significancia, mientras se usa una medida de desviación preseleccionada de esa hipótesis (el estadístico de prueba o bondad de ajuste la medida). El nivel de significancia preseleccionado es la "tasa de falsos positivos" máxima permitida. Se quiere controlar el riesgo de rechazar incorrectamente una verdadera hipótesis nula.

El proceso de distinguir entre la hipótesis nula y la hipótesis alternativa se ve facilitado por la consideración de dos tipos de errores. Se produce un error de tipo I cuando se rechaza una hipótesis nula verdadera. Se produce un error de tipo II cuando no se rechaza una hipótesis nula falsa.

Las pruebas de hipótesis basadas en la significación estadística son otra forma de expresar los intervalos de confianza (más precisamente, conjuntos de confianza). En otras palabras, cada prueba de hipótesis basada en la significancia se puede obtener mediante un intervalo de confianza, y cada intervalo de confianza se puede obtener mediante una prueba de hipótesis basada en la significancia.

La prueba de hipótesis basada en significancia es el marco más común para la prueba de hipótesis estadística. Un marco alternativo para la prueba de hipótesis estadísticas es especificar un conjunto de modelos estadísticos , uno para cada hipótesis candidata, y luego usar técnicas de selección de modelos para elegir el modelo más apropiado. Las técnicas de selección más comunes se basan en el criterio de información de Akaike (= AIC) o en el criterio de información bayesiano (= BIC).

El proceso de prueba

En la literatura estadística, la prueba de hipótesis estadísticas juega un papel fundamental. Hay dos procesos matemáticamente equivalentes que se pueden utilizar.

La línea habitual de razonamiento es la siguiente:

  1. Existe una hipótesis de investigación inicial de la que se desconoce la verdad.
  2. El primer paso es establecer las hipótesis nula y alternativa pertinentes . Esto es importante, ya que una afirmación errónea de las hipótesis enturbiará el resto del proceso.
  3. El segundo paso es considerar los supuestos estadísticos que se hacen sobre la muestra al realizar la prueba; por ejemplo, supuestos sobre la independencia estadística o sobre la forma de las distribuciones de las observaciones. Esto es igualmente importante ya que las suposiciones inválidas significarán que los resultados de la prueba no serán válidos.
  4. Decida qué prueba es apropiada e indique el estadístico de prueba T relevante .
  5. Derive la distribución del estadístico de prueba bajo la hipótesis nula a partir de los supuestos. En casos estándar, este será un resultado bien conocido. Por ejemplo, el estadístico de prueba podría seguir una distribución t de Student con grados de libertad conocidos, o una distribución normal con media y varianza conocidas. Si la distribución del estadístico de prueba está completamente fijada por la hipótesis nula, llamamos a la hipótesis simple; de ​​lo contrario, se llama compuesta.
  6. Seleccione un nivel de significancia ( α ), un umbral de probabilidad por debajo del cual se rechazará la hipótesis nula. Los valores comunes son 5% y 1%.
  7. La distribución del estadístico de prueba bajo la hipótesis nula divide los posibles valores de T en aquellos para los que se rechaza la hipótesis nula (la llamada región crítica) y aquellos para los que no lo es. La probabilidad de la región crítica es α . En el caso de una hipótesis nula compuesta, la probabilidad máxima de la región crítica es α .
  8. Calcular a partir de las observaciones de los observados valor t obs de la estadística de prueba T .
  9. Decidir rechazar la hipótesis nula a favor de la alternativa o no rechazarla. La regla de decisión es rechazar la hipótesis nula H 0 si el valor observado t obs está en la región crítica, y no rechazar la hipótesis nula en caso contrario.

Una formulación alternativa común de este proceso es la siguiente:

  1. Calcular a partir de las observaciones de los observados valor t obs de la estadística de prueba T .
  2. Calcule el valor p . Esta es la probabilidad, bajo la hipótesis nula, de muestrear un estadístico de prueba al menos tan extremo como el observado (la probabilidad máxima de ese evento, si la hipótesis es compuesta).
  3. Rechace la hipótesis nula, a favor de la hipótesis alternativa, si y solo si el valor p es menor que (o igual a) el nivel de significancia (la probabilidad seleccionada) umbral ( α ), por ejemplo 0.05 o 0.01.

El primer proceso resultó ventajoso en el pasado cuando solo se disponía de tablas de estadísticas de prueba con umbrales de probabilidad comunes. Permitió tomar una decisión sin el cálculo de una probabilidad. Era adecuado para el trabajo en clase y para uso operativo, pero era deficiente para informar los resultados. El último proceso se basó en tablas extensas o en soporte computacional no siempre disponible. El cálculo explícito de una probabilidad es útil para informar. Los cálculos ahora se realizan trivialmente con el software apropiado.

La diferencia en los dos procesos aplicados al ejemplo de la maleta radiactiva (abajo):

  • "La lectura del contador Geiger es 10. El límite es 9. Revise la maleta".
  • "La lectura del contador Geiger es alta; el 97% de las maletas seguras tienen lecturas más bajas. El límite es del 95%. Revise la maleta".

El primer informe es adecuado, el segundo da una explicación más detallada de los datos y el motivo por el que se revisa la maleta.

No rechazar la hipótesis nula no significa que la hipótesis nula sea "aceptada" (consulte la sección Interpretación ).

Los procesos descritos aquí son perfectamente adecuados para el cálculo. Descuidan seriamente las consideraciones de diseño de experimentos .

Es particularmente crítico que se estimen los tamaños de muestra apropiados antes de realizar el experimento.

La frase "prueba de significancia" fue acuñada por el estadístico Ronald Fisher .

Interpretación

El valor p es la probabilidad de que se produzca un resultado dado (o un resultado más significativo) bajo la hipótesis nula. A un nivel de significancia de 0.05, se esperaría que la moneda justa rechazara (incorrectamente) la hipótesis nula en aproximadamente 1 de cada 20 pruebas. El valor p no proporciona la probabilidad de que alguna de las hipótesis sea correcta (una fuente común de confusión).

Si el valor p es menor que el umbral de significancia elegido (de manera equivalente, si el estadístico de prueba observado está en la región crítica), entonces decimos que la hipótesis nula se rechaza en el nivel de significancia elegido. Si el valor p no es menor que el umbral de significancia elegido (de manera equivalente, si el estadístico de prueba observado está fuera de la región crítica), entonces la hipótesis nula no se rechaza.

En el ejemplo de Lady probando té (a continuación), Fisher requirió que Lady clasificara correctamente todas las tazas de té para justificar la conclusión de que era poco probable que el resultado fuera una casualidad. Su prueba reveló que si la dama efectivamente estaba adivinando al azar (la hipótesis nula), había un 1,4% de posibilidades de que se produjeran los resultados observados (té perfectamente ordenado).

Rechazar la hipótesis de que una gran huella se originó en un oso no prueba de inmediato la existencia de Bigfoot . La prueba de hipótesis enfatiza el rechazo, que se basa en una probabilidad, más que en la aceptación.

"La probabilidad de rechazar la hipótesis nula es una función de cinco factores: si la prueba es de una o dos colas, el nivel de significancia, la desviación estándar, la cantidad de desviación de la hipótesis nula y el número de observaciones. "

Uso e importancia

Las estadísticas son útiles para analizar la mayoría de las colecciones de datos. Esto es igualmente cierto para las pruebas de hipótesis que pueden justificar conclusiones incluso cuando no existe una teoría científica. En el ejemplo de Lady probando té, era "obvio" que no existía ninguna diferencia entre (leche vertida en té) y (té vertido en leche). Los datos contradecían lo "obvio".

Las aplicaciones de la prueba de hipótesis en el mundo real incluyen:

  • Probando si más hombres que mujeres sufren pesadillas
  • Establecimiento de la autoría de los documentos
  • Evaluar el efecto de la luna llena en el comportamiento
  • Determinar el rango en el que un murciélago puede detectar un insecto por eco
  • Decidir si las alfombras de los hospitales provocan más infecciones
  • Seleccionar los mejores medios para dejar de fumar
  • Comprobación de si las pegatinas de parachoques reflejan el comportamiento del propietario del automóvil
  • Probando las afirmaciones de los analistas de escritura a mano

La prueba de hipótesis estadísticas juega un papel importante en el conjunto de las estadísticas y en la inferencia estadística . Por ejemplo, Lehmann (1992) en una revisión del artículo fundamental de Neyman y Pearson (1933) dice: "Sin embargo, a pesar de sus deficiencias, el nuevo paradigma formulado en el artículo de 1933 y los muchos desarrollos llevados a cabo en su marco continúan desempeñan un papel central tanto en la teoría como en la práctica de la estadística y cabe esperar que lo hagan en un futuro previsible ".

La prueba de significación ha sido la herramienta estadística preferida en algunas ciencias sociales experimentales (más del 90% de los artículos en el Journal of Applied Psychology durante principios de la década de 1990). Otros campos han favorecido la estimación de parámetros (por ejemplo , tamaño del efecto ). La prueba de significación se utiliza como sustituto de la comparación tradicional del valor predicho y el resultado experimental en el núcleo del método científico . Cuando la teoría solo es capaz de predecir el signo de una relación, se puede configurar una prueba de hipótesis direccional (unilateral) de modo que solo un resultado estadísticamente significativo respalde la teoría. Esta forma de evaluación de la teoría es la aplicación de prueba de hipótesis más criticada.

Precauciones

"Si el gobierno exigiera que los procedimientos estadísticos llevaran etiquetas de advertencia como las de los medicamentos, la mayoría de los métodos de inferencia tendrían etiquetas largas". Esta precaución se aplica a las pruebas de hipótesis y sus alternativas.

La prueba de hipótesis exitosa se asocia con una probabilidad y una tasa de error de tipo I. La conclusión puede estar equivocada.

La conclusión de la prueba es tan sólida como la muestra en la que se basa. El diseño del experimento es fundamental. Se han observado varios efectos inesperados que incluyen:

  • El ingenioso efecto Hans . Un caballo parecía ser capaz de hacer aritmética simple.
  • El efecto Hawthorne . Los trabajadores industriales eran más productivos en mejor iluminación y más productivos en peor.
  • El efecto placebo . Las píldoras sin ingredientes médicamente activos fueron notablemente efectivas.

Un análisis estadístico de datos engañosos produce conclusiones engañosas. El problema de la calidad de los datos puede ser más sutil. En la previsión, por ejemplo, no hay acuerdo sobre una medida de precisión de la previsión. En ausencia de una medición de consenso, ninguna decisión basada en mediciones estará libre de controversias.

El libro How to Lie with Statistics es el libro sobre estadísticas más popular jamás publicado. No considera mucho la prueba de hipótesis, pero sus precauciones son aplicables, que incluyen: Muchas afirmaciones se hacen sobre la base de muestras demasiado pequeñas para convencer. Si un informe no menciona el tamaño de la muestra, tenga dudas.

La prueba de hipótesis actúa como un filtro de conclusiones estadísticas; solo se pueden publicar aquellos resultados que cumplan con un umbral de probabilidad. La economía también actúa como filtro de publicación; sólo se podrán enviar para su publicación aquellos resultados favorables al autor y la fuente de financiación. El impacto del filtrado en la publicación se denomina sesgo de publicación . Un problema relacionado es el de las pruebas múltiples (a veces vinculadas a la minería de datos ), en las que se aplican una variedad de pruebas para una variedad de efectos posibles a un solo conjunto de datos y solo se informan aquellas que arrojan un resultado significativo. Estos a menudo se tratan mediante el uso de procedimientos de corrección de multiplicidad que controlan la tasa de error familiar (FWER) o la tasa de descubrimiento falso (FDR).

Aquellos que toman decisiones críticas basadas en los resultados de una prueba de hipótesis son prudentes en mirar los detalles en lugar de solo la conclusión. En las ciencias físicas, la mayoría de los resultados se aceptan por completo solo cuando se confirman de forma independiente. El consejo general con respecto a las estadísticas es: "Las cifras nunca mienten, pero los mentirosos sí" (anónimo).

Ejemplos de

Proporción de sexos humanos

El uso más temprano de la prueba de hipótesis estadísticas generalmente se atribuye a la cuestión de si los nacimientos masculinos y femeninos son igualmente probables (hipótesis nula), que fue abordado en el 1700 por John Arbuthnot (1710), y más tarde por Pierre-Simon Laplace (1770). .

Arbuthnot examinó los registros de nacimiento en Londres para cada uno de los 82 años desde 1629 a 1710, y aplicó la prueba de signos , una prueba no paramétrica simple . En todos los años, el número de hombres nacidos en Londres superó el número de mujeres. Considerando igualmente probables más nacimientos masculinos o femeninos, la probabilidad del resultado observado es 0.5 82 , o aproximadamente 1 en 4,8360,0000,0000,0000,0000,0000; en términos modernos, este es el valor p . Arbuthnot llegó a la conclusión de que esto es demasiado pequeño para deberse al azar y debe, en cambio, deberse a la providencia divina: "De donde se sigue que es el arte, no el azar, el que gobierna". En términos modernos, rechazó la hipótesis nula de nacimientos masculinos y femeninos igualmente probables en el nivel de significancia p  = 1/2 82 .

Laplace consideró las estadísticas de casi medio millón de nacimientos. Las estadísticas mostraron un exceso de niños en comparación con las niñas. Con el cálculo de un valor p, concluyó que el exceso era un efecto real, pero inexplicable.

Dama degustación de té

En un ejemplo famoso de prueba de hipótesis, conocido como el té de degustación Lady , la Dra. Muriel Bristol , un colega de Fisher afirmó poder decir si el té o la leche se agregaron primero a una taza. Fisher propuso darle ocho tazas, cuatro de cada variedad, en orden aleatorio. Entonces, uno podría preguntar cuál era la probabilidad de que ella obtuviera el número que acertó, pero solo por casualidad. La hipótesis nula era que la Dama no tenía tal habilidad. La estadística de prueba fue un simple recuento del número de éxitos en la selección de las 4 tazas. La región crítica fue el caso único de 4 éxitos de 4 posibles basados ​​en un criterio de probabilidad convencional (<5%). Un patrón de 4 éxitos corresponde a 1 de 70 combinaciones posibles (p≈ 1,4%). Fisher afirmó que no se requería (nunca) ninguna hipótesis alternativa. La dama identificó correctamente cada taza, lo que se consideraría un resultado estadísticamente significativo.

Juicio en la sala de audiencias

Un procedimiento de prueba estadística es comparable a un juicio penal ; un acusado se considera no culpable mientras no se pruebe su culpabilidad. El fiscal intenta probar la culpabilidad del acusado. Solo cuando hay pruebas suficientes para la acusación se declara culpable al acusado.

Al inicio del procedimiento, hay dos hipótesis : "el imputado no es culpable" y : "el imputado es culpable". La primera , se llama hipótesis nula . La segunda , se llama hipótesis alternativa . Es la hipótesis alternativa que se espera apoyar.

La hipótesis de la inocencia se rechaza solo cuando un error es muy poco probable, porque no se quiere condenar a un acusado inocente. Tal error se llama error del primer tipo (es decir, la condena de una persona inocente), y se controla que la ocurrencia de este error sea rara. Como consecuencia de este comportamiento asimétrico , es más común un error de segundo tipo (absolver a la persona que cometió el delito).

H 0 es cierto
Verdaderamente no culpable
H 1 es verdadero
Verdaderamente culpable
No rechace la hipótesis nula
Absolución
Decisión correcta
Error de tipo II de decisión incorrecta
Rechazar hipótesis nula
Convicción

Error de tipo I de decisión incorrecta
Decisión correcta

Un juicio penal puede considerarse como uno o ambos procesos de decisión: culpable versus no culpable o evidencia versus un umbral ("más allá de una duda razonable"). Según un punto de vista, se juzga al acusado; en el otro punto de vista, se juzga la actuación de la acusación (que soporta la carga de la prueba). Una prueba de hipótesis puede considerarse como un juicio de una hipótesis o como un juicio de evidencia.

Frijoles del filósofo

El siguiente ejemplo fue elaborado por un filósofo que describe métodos científicos generaciones antes de que se formalizara y popularizara la prueba de hipótesis.

Pocos frijoles de este puñado son blancos.
La mayoría de los frijoles de esta bolsa son blancos.
Por lo tanto: Probablemente, estos frijoles fueron sacados de otra bolsa.
Ésta es una inferencia hipotética.

Los frijoles en la bolsa son la población. El puñado son la muestra. La hipótesis nula es que la muestra se originó en la población. El criterio para rechazar la hipótesis nula es la diferencia "obvia" en apariencia (una diferencia informal en la media). El resultado interesante es que la consideración de una población real y una muestra real produjo una bolsa imaginaria. El filósofo estaba considerando la lógica más que la probabilidad. Para ser una prueba de hipótesis estadística real, este ejemplo requiere las formalidades de un cálculo de probabilidad y una comparación de esa probabilidad con un estándar.

Una simple generalización del ejemplo considera una mezcla de frijoles y un puñado que contiene muy pocos o muchos frijoles blancos. La generalización considera ambos extremos. Se requieren más cálculos y más comparaciones para llegar a una respuesta formal, pero la filosofía central no ha cambiado; Si la composición del puñado es muy diferente a la de la bolsa, entonces la muestra probablemente se originó en otra bolsa. El ejemplo original se denomina prueba unilateral o de una cola, mientras que la generalización se denomina prueba de dos o dos colas.

La declaración también se basa en la inferencia de que el muestreo fue aleatorio. Si alguien hubiera estado hurgando en la bolsa para encontrar frijoles blancos, entonces explicaría por qué el puñado tenía tantos frijoles blancos y también explicaría por qué se agotó la cantidad de frijoles blancos en la bolsa (aunque probablemente se supone que la bolsa se supone mucho más grande que la mano).

Juego de cartas clarividente

Se prueba la clarividencia de una persona (el sujeto) . Se les muestra el reverso de un naipe elegido al azar 25 veces y se les pregunta a cuál de los cuatro palos pertenece. El número de visitas, o las respuestas correctas, se llama X .

Mientras tratamos de encontrar evidencia de su clarividencia, por el momento la hipótesis nula es que la persona no es clarividente. La alternativa es: la persona es (más o menos) clarividente.

Si la hipótesis nula es válida, lo único que puede hacer la persona de prueba es adivinar. Para cada carta, la probabilidad (frecuencia relativa) de que aparezca un solo palo es 1/4. Si la alternativa es válida, el sujeto de prueba predecirá el traje correctamente con una probabilidad mayor que 1/4. A la probabilidad de adivinar correctamente la llamaremos p . Las hipótesis, entonces, son:

  • hipótesis nula     (solo adivinando)

y

  • hipótesis alternativa    (verdadero clarividente).

Cuando el sujeto de prueba predice correctamente las 25 cartas, las consideraremos clarividentes y rechazaremos la hipótesis nula. Así también con 24 o 23 aciertos. Con solo 5 o 6 aciertos, en cambio, no hay motivo para considerarlos así. Pero, ¿qué pasa con 12 hits o 17 hits? ¿Cuál es el número crítico, c , de aciertos, en qué punto consideramos que el sujeto es clarividente? ¿Cómo determinamos el valor crítico c ? Con la opción c = 25 (es decir, solo aceptamos la clarividencia cuando todas las cartas se predicen correctamente) somos más críticos que con c = 10. En el primer caso, casi ningún sujeto de prueba será reconocido como clarividente, en el segundo caso, un cierto número pasará la prueba. En la práctica, uno decide qué tan crítico será uno. Es decir, uno decide con qué frecuencia acepta un error del primer tipo: un falso positivo o error de Tipo I. Con c = 25, la probabilidad de tal error es:

y por tanto, muy pequeño. La probabilidad de un falso positivo es la probabilidad de adivinar correctamente al azar las 25 veces.

Siendo menos crítico, con c = 10, da:

Por lo tanto, c = 10 produce una probabilidad mucho mayor de falso positivo.

Antes de que se realice realmente la prueba, se determina la probabilidad máxima aceptable de un error de Tipo I ( α ). Normalmente, se seleccionan valores en el rango de 1% a 5%. (Si la tasa de error máxima aceptable es cero, se requiere un número infinito de conjeturas correctas). Dependiendo de esta tasa de error de Tipo 1, se calcula el valor crítico c . Por ejemplo, si seleccionamos una tasa de error del 1%, c se calcula así:

De todos los números c, con esta propiedad, elegimos el más pequeño, con el fin de minimizar la probabilidad de un error Tipo II, un falso negativo . Para el ejemplo anterior, seleccionamos: .

Maleta radiactiva

Como ejemplo, considere determinar si una maleta contiene algún material radiactivo. Colocado debajo de un contador Geiger , produce 10 conteos por minuto. La hipótesis nula es que no hay material radiactivo en la maleta y que todos los recuentos medidos se deben a la radiactividad ambiental típica del aire circundante y los objetos inofensivos. Luego, podemos calcular la probabilidad de que observemos 10 conteos por minuto si la hipótesis nula fuera cierta. Si la hipótesis nula predice (digamos) un promedio de 9 recuentos por minuto, entonces, de acuerdo con la distribución de Poisson típica de la desintegración radiactiva, hay aproximadamente un 41% de posibilidades de registrar 10 o más recuentos. Así podemos decir que la maleta es compatible con la hipótesis nula (esto no garantiza que no haya material radiactivo, solo que no tenemos suficiente evidencia para sugerir que sí). Por otro lado, si la hipótesis nula predice 3 recuentos por minuto (para los cuales la distribución de Poisson predice solo un 0,1% de probabilidad de registrar 10 o más recuentos), entonces la maleta no es compatible con la hipótesis nula, y es probable que existan otros factores responsables. para producir las medidas.

La prueba no afirma directamente la presencia de material radiactivo. Una prueba exitosa afirma que la afirmación de que no hay material radiactivo presente es poco probable dada la lectura (y por lo tanto ...). El doble negativo (refutar la hipótesis nula) del método es confuso, pero usar un contraejemplo para refutar es una práctica matemática estándar. El atractivo del método es su practicidad. Conocemos (por experiencia) el rango esperado de conteos con solo la radiactividad ambiental presente, por lo que podemos decir que una medición es inusualmente grande. La estadística solo formaliza lo intuitivo mediante el uso de números en lugar de adjetivos. Probablemente desconozcamos las características de las maletas radiactivas; Simplemente asumimos que producen lecturas más grandes.

Para formalizar ligeramente la intuición: se sospecha de radiactividad si el recuento Geiger con la maleta se encuentra entre o excede el mayor (5% o 1%) de los recuentos Geiger hechos con radiación ambiental solamente. Esto no hace suposiciones sobre la distribución de recuentos. Se requieren muchas observaciones de radiación ambiental para obtener buenas estimaciones de probabilidad de eventos raros.

La prueba descrita aquí es más completamente la prueba de significación estadística de hipótesis nula. La hipótesis nula representa lo que creeríamos por defecto, antes de ver ninguna evidencia. La significancia estadística es un posible hallazgo de la prueba, declarado cuando es poco probable que la muestra observada haya ocurrido por casualidad si la hipótesis nula fuera cierta. El nombre de la prueba describe su formulación y su posible resultado. Una característica de la prueba es su tajante decisión: rechazar o no rechazar la hipótesis nula. Un valor calculado se compara con un umbral, que se determina a partir del riesgo tolerable de error.

Definición de términos

Las siguientes definiciones se basan principalmente en la exposición del libro de Lehmann y Romano:

Hipótesis estadística
Una declaración sobre los parámetros que describen una población (no una muestra ).
Estadística
Un valor calculado a partir de una muestra sin parámetros desconocidos, a menudo para resumir la muestra con fines de comparación.
Hipótesis simple
Cualquier hipótesis que especifique completamente la distribución de la población.
Hipótesis compuesta
Cualquier hipótesis que no especifique completamente la distribución de la población.
Hipótesis nula (H 0 )
Una hipótesis asociada con una contradicción a una teoría que uno quisiera probar.
Datos positivos
Datos que permiten al investigador rechazar una hipótesis nula.
Hipótesis alternativa (H 1 )
Una hipótesis (a menudo compuesta) asociada con una teoría que le gustaría probar.
Prueba estadística
Un procedimiento cuyas entradas son muestras y cuyo resultado es una hipótesis.
Región de rechazo / Región crítica
El conjunto de valores del estadístico de prueba para el que se rechaza la hipótesis nula.
Valor crítico
El valor umbral del estadístico de prueba para rechazar la hipótesis nula.
Poder de una prueba (1 -  β )
Probabilidad de la prueba de rechazar correctamente la hipótesis nula cuando la hipótesis alternativa es verdadera. El complemento de la tasa de falsos negativos , β . El poder se denomina sensibilidad en bioestadística . ("Esta es una prueba sensible. Debido a que el resultado es negativo, podemos decir con seguridad que el paciente no tiene la afección"). Consulte la sensibilidad y especificidad y los errores de tipo I y tipo II para obtener definiciones exhaustivas.
Tamaño
Para hipótesis simples, esta es la probabilidad de que la prueba rechace incorrectamente la hipótesis nula. La tasa de falsos positivos . Para las hipótesis compuestas, este es el supremo de la probabilidad de rechazar la hipótesis nula en todos los casos cubiertos por la hipótesis nula. El complemento de la tasa de falsos positivos se denomina especificidad en bioestadística . ("Esta es una prueba específica. Debido a que el resultado es positivo, podemos decir con seguridad que el paciente tiene la afección"). Consulte la sensibilidad y especificidad y los errores de tipo I y tipo II para obtener definiciones exhaustivas.
Nivel de significancia de una prueba ( α )
Es el límite superior impuesto al tamaño de una prueba. Su valor es elegido por el estadístico antes de mirar los datos o elegir cualquier prueba en particular que se utilizará. Es la máxima exposición al rechazo erróneo de H 0 lo que están dispuestos a aceptar. Probar H 0 al nivel de significancia α significa probar H 0 con una prueba cuyo tamaño no exceda α . En la mayoría de los casos, se utilizan pruebas cuyo tamaño es igual al nivel de significancia.
p -valor
Cuál sería la probabilidad de observar un estadístico de prueba al menos tan extremo como el realmente observado si la hipótesis nula fuera cierta.
Prueba de significancia estadística
Un predecesor de la prueba de hipótesis estadística (consulte la sección Orígenes). Se dijo que un resultado experimental era estadísticamente significativo si una muestra era suficientemente inconsistente con la hipótesis (nula). Esto se consideró de diversas maneras como sentido común, una heurística pragmática para identificar resultados experimentales significativos, una convención que establece un umbral de evidencia estadística o un método para sacar conclusiones a partir de los datos. La prueba de hipótesis estadística añadió rigor matemático y consistencia filosófica al concepto al hacer explícita la hipótesis alternativa. El término se usa libremente para la versión moderna que ahora es parte de la prueba de hipótesis estadísticas.
Prueba conservadora
Una prueba es conservadora si, cuando se construye para un nivel de significancia nominal dado, la probabilidad real de rechazar incorrectamente la hipótesis nula nunca es mayor que el nivel nominal.
Prueba exacta
Una prueba en la que el nivel de significancia o el valor crítico se puede calcular con exactitud, es decir, sin ninguna aproximación. En algunos contextos, este término se restringe a las pruebas aplicadas a datos categóricos y a las pruebas de permutación , en las que los cálculos se llevan a cabo mediante la enumeración completa de todos los resultados posibles y sus probabilidades.

Una prueba de hipótesis estadística compara una estadística de prueba ( z o t para los ejemplos) con un umbral. La estadística de prueba (la fórmula que se encuentra en la tabla a continuación) se basa en la optimización. Para un nivel fijo de tasa de error de Tipo I, el uso de estas estadísticas minimiza las tasas de error de Tipo II (equivalente a maximizar la potencia). Los siguientes términos describen las pruebas en términos de dicha optimización:

Prueba más poderosa
Para un tamaño o nivel de significancia dado , la prueba con la mayor potencia (probabilidad de rechazo) para un valor dado de los parámetros que se están probando, contenidos en la hipótesis alternativa.
Prueba uniformemente más potente (UMP)
Una prueba con la mayor potencia para todos los valores de los parámetros que se están probando, contenidos en la hipótesis alternativa.

Estadísticas de prueba comunes

Variaciones y subclases

La prueba de hipótesis estadística es una técnica clave tanto de la inferencia frecuentista como de la inferencia bayesiana , aunque los dos tipos de inferencia tienen diferencias notables. Las pruebas de hipótesis estadísticas definen un procedimiento que controla (corrige) la probabilidad de decidir incorrectamente que una posición predeterminada ( hipótesis nula ) es incorrecta. El procedimiento se basa en la probabilidad de que ocurra un conjunto de observaciones si la hipótesis nula fuera cierta. Tenga en cuenta que esta probabilidad de tomar una decisión incorrecta no es la probabilidad de que la hipótesis nula sea verdadera, ni de si alguna hipótesis alternativa específica es verdadera. Esto contrasta con otras posibles técnicas de la teoría de la decisión en las que las hipótesis nula y alternativa se tratan de manera más equitativa.

Un enfoque bayesiano ingenuo para la prueba de hipótesis es basar las decisiones en la probabilidad posterior , pero esto falla cuando se comparan hipótesis puntuales y continuas. Otros enfoques para la toma de decisiones, como la teoría de decisiones bayesiana , intentan equilibrar las consecuencias de decisiones incorrectas en todas las posibilidades, en lugar de concentrarse en una única hipótesis nula. Existen otros enfoques para tomar una decisión basada en datos a través de la teoría de la decisión y las decisiones óptimas , algunas de las cuales tienen propiedades deseables. Sin embargo, la prueba de hipótesis es un enfoque dominante para el análisis de datos en muchos campos de la ciencia. Las extensiones de la teoría de la prueba de hipótesis incluyen el estudio del poder de las pruebas, es decir, la probabilidad de rechazar correctamente la hipótesis nula dado que es falsa. Estas consideraciones se pueden utilizar para determinar el tamaño de la muestra antes de la recopilación de datos.

Historia

Uso temprano

Si bien la prueba de hipótesis se popularizó a principios del siglo XX, las primeras formas se utilizaron en el siglo XVIII. El primer uso se le atribuye a John Arbuthnot (1710), seguido por Pierre-Simon Laplace (1770), en el análisis de la proporción de sexos humanos al nacer; ver § Proporción de sexos humanos .

Orígenes modernos y controversia temprana

Las pruebas de significación modernas son en gran parte el producto de Karl Pearson ( valor p , prueba de chi-cuadrado de Pearson ), William Sealy Gosset ( distribución t de Student ) y Ronald Fisher (" hipótesis nula ", análisis de varianza , " prueba de significación ") , mientras que la prueba de hipótesis fue desarrollada por Jerzy Neyman y Egon Pearson (hijo de Karl). Ronald Fisher comenzó su vida en estadística como un bayesiano (Zabell 1992), pero Fisher pronto se desencantó con la subjetividad involucrada (es decir, el uso del principio de indiferencia al determinar probabilidades previas), y buscó proporcionar un enfoque más "objetivo" de la inductiva. inferencia.

Fisher fue un estadístico agrícola que enfatizó el diseño y métodos experimentales rigurosos para extraer un resultado de pocas muestras asumiendo distribuciones gaussianas. Neyman (que se asoció con el joven Pearson) enfatizó el rigor matemático y los métodos para obtener más resultados de muchas muestras y una gama más amplia de distribuciones. La prueba de hipótesis moderna es un híbrido inconsistente de la formulación, los métodos y la terminología de Fisher vs Neyman / Pearson desarrollados a principios del siglo XX.

Fisher popularizó la "prueba de significación". Requería una hipótesis nula (correspondiente a una distribución de frecuencia poblacional) y una muestra. Sus cálculos (ahora familiares) determinaron si rechazar la hipótesis nula o no. La prueba de significancia no utilizó una hipótesis alternativa, por lo que no hubo concepto de error de Tipo II.

El valor p se diseñó como un índice informal, pero objetivo, destinado a ayudar al investigador a determinar (basándose en otros conocimientos) si modificar experimentos futuros o fortalecer la fe en la hipótesis nula. La prueba de hipótesis (y los errores de Tipo I / II) fue ideada por Neyman y Pearson como una alternativa más objetiva al valor p de Fisher , también destinado a determinar el comportamiento del investigador, pero sin requerir ninguna inferencia inductiva por parte del investigador.

Neyman & Pearson consideraron un problema diferente (al que llamaron "prueba de hipótesis"). Inicialmente consideraron dos hipótesis simples (ambas con distribuciones de frecuencia). Calcularon dos probabilidades y, por lo general, seleccionaron la hipótesis asociada con la probabilidad más alta (la hipótesis con más probabilidades de haber generado la muestra). Su método siempre seleccionó una hipótesis. También permitió el cálculo de ambos tipos de probabilidades de error.

Fisher y Neyman / Pearson se enfrentaron amargamente. Neyman / Pearson consideró que su formulación era una generalización mejorada de las pruebas de significación. (El artículo definitorio era abstracto . Los matemáticos han generalizado y refinado la teoría durante décadas). Fisher pensó que no era aplicable a la investigación científica porque a menudo, durante el curso del experimento, se descubre que los supuestos iniciales sobre la hipótesis nula son cuestionable debido a fuentes inesperadas de error. Él creía que el uso de decisiones rígidas de rechazar / aceptar basadas en modelos formulados antes de que se recopilaran los datos era incompatible con este escenario común al que se enfrentan los científicos y los intentos de aplicar este método a la investigación científica llevarían a una confusión masiva.

La disputa entre Fisher y Neyman-Pearson se libró sobre bases filosóficas, caracterizada por un filósofo como una disputa sobre el papel adecuado de los modelos en la inferencia estadística.

Los acontecimientos intervinieron: Neyman aceptó una posición en el hemisferio occidental, rompiendo su asociación con Pearson y separando a los disputantes (que habían ocupado el mismo edificio) por gran parte del diámetro planetario. La Segunda Guerra Mundial proporcionó un intermedio en el debate. La disputa entre Fisher y Neyman terminó (sin resolver después de 27 años) con la muerte de Fisher en 1962. Neyman escribió un elogio bien considerado. Algunas de las publicaciones posteriores de Neyman informaron valores p y niveles de significancia.

La versión moderna de la prueba de hipótesis es un híbrido de los dos enfoques que resultaron de la confusión de los escritores de libros de texto estadísticos (como predijo Fisher) a partir de la década de 1940. (Pero la detección de señales , por ejemplo, todavía utiliza la formulación de Neyman / Pearson). Se ignoraron las grandes diferencias conceptuales y muchas advertencias además de las mencionadas anteriormente. Neyman y Pearson proporcionaron la terminología más fuerte, las matemáticas más rigurosas y la filosofía más consistente, pero la asignatura que se enseña hoy en la introducción a la estadística tiene más similitudes con el método de Fisher que con el de ellos.

En algún momento alrededor de 1940, los autores de libros de texto estadísticos comenzaron a combinar los dos enfoques utilizando el valor p en lugar del estadístico de prueba (o datos) para contrastar el "nivel de significancia" de Neyman-Pearson.

Una comparación entre pescador, frecuentista (Neyman-Pearson)
# Prueba de hipótesis nula de Fisher Teoría de la decisión de Neyman-Pearson
1 Establezca una hipótesis nula estadística. La nula no necesita ser una hipótesis nula (es decir, diferencia cero). Establezca dos hipótesis estadísticas, H1 y H2, y decida sobre α, β y el tamaño de la muestra antes del experimento, basándose en consideraciones subjetivas de costo-beneficio. Estos definen una región de rechazo para cada hipótesis.
2 Informe el nivel exacto de significancia (por ejemplo, p = 0,051 o p = 0,049). No utilice un nivel convencional del 5% y no hable de aceptar o rechazar hipótesis. Si el resultado "no es significativo", no saque conclusiones ni tome decisiones, pero suspenda el juicio hasta que haya más datos disponibles. Si los datos caen en la región de rechazo de H1, acepte H2; de lo contrario, acepte H1. Tenga en cuenta que aceptar una hipótesis no significa que usted crea en ella, sino solo que actúa como si fuera cierta.
3 Utilice este procedimiento solo si se sabe poco sobre el problema en cuestión y solo para sacar conclusiones provisionales en el contexto de un intento de comprender la situación experimental. La utilidad del procedimiento se limita, entre otras cosas, a situaciones en las que existe una disyunción de hipótesis (p. Ej., Μ1 = 8 o μ2 = 10 es cierto) y en las que se pueden realizar compensaciones significativas de costo-beneficio para elegir alfa y beta.

Elecciones tempranas de hipótesis nula

Paul Meehl ha argumentado que la importancia epistemológica de la elección de la hipótesis nula ha pasado desapercibida en gran medida. Cuando la teoría predice la hipótesis nula, un experimento más preciso será una prueba más severa de la teoría subyacente. Cuando la hipótesis nula por defecto es "sin diferencia" o "sin efecto", un experimento más preciso es una prueba menos severa de la teoría que motivó la realización del experimento. Por tanto, puede resultar útil un examen de los orígenes de esta última práctica:

1778: Pierre Laplace compara las tasas de natalidad de niños y niñas en varias ciudades europeas. Afirma: "es natural concluir que estas posibilidades están casi en la misma proporción". De ahí la hipótesis nula de Laplace de que las tasas de natalidad de niños y niñas deberían ser iguales dada la "sabiduría convencional".

1900: Karl Pearson desarrolla la prueba de chi cuadrado para determinar "si una forma dada de curva de frecuencia describirá efectivamente las muestras extraídas de una población determinada". Por tanto, la hipótesis nula es que una población se describe mediante alguna distribución predicha por la teoría. Utiliza como ejemplo los números de cinco y seis en los datos de lanzamiento de dados de Weldon .

1904: Karl Pearson desarrolla el concepto de " contingencia " para determinar si los resultados son independientes de un factor categórico dado. Aquí, la hipótesis nula es por defecto que dos cosas no están relacionadas (por ejemplo, la formación de cicatrices y las tasas de mortalidad por viruela). La hipótesis nula en este caso ya no es predicha por la teoría o la sabiduría convencional, sino que es el principio de indiferencia que llevó a Fisher y otros a descartar el uso de "probabilidades inversas".

Prueba de significación estadística de hipótesis nula

Se puede hacer un ejemplo de prueba de hipótesis de Neyman-Pearson cambiando el ejemplo de la maleta radiactiva. Si la "maleta" es en realidad un contenedor blindado para el transporte de material radiactivo, entonces se podría utilizar una prueba para seleccionar entre tres hipótesis: ninguna fuente radiactiva presente, una presente, dos (todas) presentes. La prueba podría ser necesaria por motivos de seguridad, con acciones necesarias en cada caso. El lema de Neyman-Pearson de la prueba de hipótesis dice que un buen criterio para la selección de hipótesis es la razón de sus probabilidades (una razón de verosimilitud ). Un método simple de solución es seleccionar la hipótesis con la probabilidad más alta para los conteos de Geiger observados. El resultado típico coincide con la intuición: pocos recuentos implican ninguna fuente, muchos recuentos implican dos fuentes y los recuentos intermedios implican una fuente. Tenga en cuenta también que, por lo general, hay problemas para probar una negativa . Las hipótesis nulas deberían ser al menos falsificables .

La teoría de Neyman-Pearson puede acomodar tanto las probabilidades previas como los costos de las acciones resultantes de las decisiones. El primero permite que cada prueba considere los resultados de pruebas anteriores (a diferencia de las pruebas de significancia de Fisher). Este último permite la consideración de cuestiones económicas (por ejemplo) así como probabilidades. Una razón de verosimilitud sigue siendo un buen criterio para seleccionar entre hipótesis.

Las dos formas de prueba de hipótesis se basan en diferentes formulaciones de problemas. La prueba original es análoga a una pregunta de verdadero / falso; la prueba de Neyman-Pearson se parece más a una opción múltiple. En opinión de Tukey, el primero produce una conclusión sobre la base únicamente de pruebas sólidas, mientras que el segundo produce una decisión sobre la base de las pruebas disponibles. Si bien las dos pruebas parecen bastante diferentes tanto matemática como filosóficamente, desarrollos posteriores conducen a la afirmación opuesta. Considere muchas fuentes radiactivas diminutas. Las hipótesis se convierten en 0,1,2,3 ... granos de arena radiactiva. Hay poca distinción entre ninguna o alguna radiación (Fisher) y 0 granos de arena radiactiva frente a todas las alternativas (Neyman-Pearson). El principal artículo de Neyman-Pearson de 1933 también consideró hipótesis compuestas (aquellas cuya distribución incluye un parámetro desconocido). Un ejemplo demostró la optimización de la prueba t (de Student) , "no puede haber una prueba mejor para la hipótesis en consideración" (p. 321). La teoría de Neyman-Pearson estaba demostrando la optimización de los métodos de Fisher desde sus inicios.

La prueba de significación de Fisher ha demostrado ser una herramienta estadística flexible y popular en su aplicación con poco potencial de crecimiento matemático. La prueba de hipótesis de Neyman-Pearson se afirma como un pilar de la estadística matemática, creando un nuevo paradigma para el campo. También estimuló nuevas aplicaciones en control de procesos estadísticos , teoría de detección , teoría de decisiones y teoría de juegos . Ambas formulaciones han tenido éxito, pero los éxitos han tenido un carácter diferente.

La disputa sobre las formulaciones no está resuelta. La ciencia utiliza principalmente la formulación de Fisher (ligeramente modificada) como se enseña en la introducción a la estadística. Los estadísticos estudian la teoría de Neyman-Pearson en la escuela de posgrado. Los matemáticos están orgullosos de unir las formulaciones. Los filósofos los consideran por separado. Las opiniones aprendidas consideran las formulaciones diversamente competitivas (Fisher vs Neyman), incompatibles o complementarias. La disputa se ha vuelto más compleja desde que la inferencia bayesiana ha logrado respetabilidad.

La terminología es inconsistente. La prueba de hipótesis puede significar cualquier combinación de dos formulaciones que cambiaron con el tiempo. Cualquier discusión sobre la prueba de significación frente a la prueba de hipótesis es doblemente vulnerable a la confusión.

Fisher pensó que la prueba de hipótesis era una estrategia útil para realizar el control de calidad industrial, sin embargo, estaba en total desacuerdo con que la prueba de hipótesis pudiera ser útil para los científicos. La prueba de hipótesis proporciona un medio para encontrar las estadísticas de prueba utilizadas en las pruebas de significación. El concepto de poder es útil para explicar las consecuencias de ajustar el nivel de significancia y se usa mucho en la determinación del tamaño de la muestra . Los dos métodos siguen siendo filosóficamente distintos. Por lo general (pero no siempre ) producen la misma respuesta matemática. La respuesta preferida depende del contexto. Si bien la fusión existente de las teorías de Fisher y Neyman-Pearson ha sido fuertemente criticada, se ha considerado modificar la fusión para lograr los objetivos bayesianos.

Crítica

La crítica a las pruebas de hipótesis estadísticas llena volúmenes. Gran parte de las críticas se pueden resumir en las siguientes cuestiones:

  • La interpretación de un valor p depende de la regla de detención y la definición de comparación múltiple. El primero cambia a menudo durante el curso de un estudio y el segundo es inevitablemente ambiguo. (es decir, "los valores p dependen tanto de los (datos) observados como de los otros (datos) posibles que podrían haberse observado pero no lo fueron").
  • Confusión resultante (en parte) de combinar los métodos de Fisher y Neyman-Pearson que son conceptualmente distintos.
  • Énfasis en la significación estadística con exclusión de la estimación y confirmación por experimentos repetidos.
  • Requiere rigurosamente la significación estadística como criterio de publicación, lo que genera sesgo de publicación . La mayor parte de las críticas son indirectas. En lugar de equivocarse, las pruebas de hipótesis estadísticas se malinterpretan, se usan en exceso y se usan incorrectamente.
  • Cuando se usa para detectar si existe una diferencia entre grupos, surge una paradoja. A medida que se realizan mejoras en el diseño experimental (por ejemplo, mayor precisión de medición y tamaño de la muestra), la prueba se vuelve más indulgente. A menos que se acepte la suposición absurda de que todas las fuentes de ruido en los datos se cancelan por completo, la probabilidad de encontrar significación estadística en cualquier dirección se aproxima al 100%. Sin embargo, esta suposición absurda de que la diferencia media entre dos grupos no puede ser cero implica que los datos no pueden ser independientes y distribuidos de manera idéntica (iid) porque la diferencia esperada entre dos subgrupos cualesquiera de variables aleatorias iid es cero; por tanto, la suposición iid también es absurda.
  • Capas de preocupaciones filosóficas. La probabilidad de significación estadística es una función de las decisiones tomadas por los experimentadores / analistas. Si las decisiones se basan en una convención, se denominan arbitrarias o insensatas, mientras que las que no lo son pueden denominarse subjetivas. Para minimizar los errores de tipo II, se recomiendan muestras grandes. En psicología, se afirma que prácticamente todas las hipótesis nulas son falsas para muestras suficientemente grandes, por lo que "... normalmente no tiene sentido realizar un experimento con el único objetivo de rechazar la hipótesis nula". "Los hallazgos estadísticamente significativos a menudo son engañosos" en psicología. La importancia estadística no implica una importancia práctica y la correlación no implica causalidad . Poner en duda la hipótesis nula está, por tanto, lejos de apoyar directamente la hipótesis de investigación.
  • "[No] nos dice lo que queremos saber". Hay listas de docenas de quejas disponibles.

Los críticos y partidarios están en gran parte de acuerdo en los hechos con respecto a las características de la prueba de significación de hipótesis nula (NHST): si bien puede proporcionar información crítica, es inadecuada como única herramienta para el análisis estadístico . Rechazar con éxito la hipótesis nula puede no ofrecer apoyo a la hipótesis de investigación. La controversia continua se refiere a la selección de las mejores prácticas estadísticas para el futuro a corto plazo dadas las prácticas existentes. Sin embargo, un diseño de investigación adecuado puede minimizar este problema. Los críticos preferirían prohibir la NHST por completo, lo que obligaría a apartarse por completo de esas prácticas, mientras que los partidarios sugieren un cambio menos absoluto.

La controversia sobre las pruebas de significación, y sus efectos sobre el sesgo de publicación en particular, ha producido varios resultados. La Asociación Estadounidense de Psicología ha reforzado sus requisitos de informes estadísticos después de la revisión, los editores de revistas médicas han reconocido la obligación de publicar algunos resultados que no son estadísticamente significativos para combatir el sesgo de publicación y se ha creado una revista ( Journal of Articles in Support of the Null Hypothesis ) publicar dichos resultados exclusivamente. Los libros de texto han agregado algunas precauciones y una mayor cobertura de las herramientas necesarias para estimar el tamaño de la muestra requerida para producir resultados significativos. Las principales organizaciones no han abandonado el uso de pruebas de significancia, aunque algunas han discutido hacerlo.

Alternativas

Una posición unificadora de los críticos es que las estadísticas no deben conducir a una conclusión o decisión de aceptación o rechazo, sino a un valor estimado con una estimación de intervalo ; esta filosofía de análisis de datos se conoce en términos generales como estadísticas de estimación . Las estadísticas de estimación se pueden realizar con métodos frecuentistas [1] o bayesianos.

Un crítico fuerte de las pruebas de significación sugirió una lista de alternativas de informes: tamaños de efecto para la importancia, intervalos de predicción para la confianza, replicaciones y extensiones para la replicabilidad, metanálisis para la generalidad. Ninguna de estas alternativas sugeridas produce una conclusión / decisión. Lehmann dijo que la teoría de la prueba de hipótesis se puede presentar en términos de conclusiones / decisiones, probabilidades o intervalos de confianza. "La distinción entre los ... enfoques es principalmente de informes e interpretación".

Sobre una "alternativa" no hay desacuerdo: el propio Fisher dijo: "En relación con la prueba de significancia, podemos decir que un fenómeno es demostrable experimentalmente cuando sabemos cómo realizar un experimento que rara vez dejará de darnos un valor estadísticamente significativo. resultado." Cohen, un crítico influyente de las pruebas de significación, coincidió, "... no busque una alternativa mágica a la NHST [prueba de significación de hipótesis nula] ... No existe". "... dados los problemas de la inducción estadística, finalmente debemos confiar, al igual que las ciencias más antiguas, en la replicación". La "alternativa" a la prueba de significancia es la prueba repetida. La forma más sencilla de reducir la incertidumbre estadística es obteniendo más datos, ya sea aumentando el tamaño de la muestra o mediante pruebas repetidas. Nickerson afirmó no haber visto nunca la publicación de un experimento en psicología literalmente replicado. Un enfoque indirecto de la replicación es el metanálisis .

La inferencia bayesiana es una alternativa propuesta a las pruebas de significancia. (Nickerson citó 10 fuentes que lo sugirieron, incluido Rozeboom (1960)). Por ejemplo, la estimación de parámetros bayesianos puede proporcionar información rica sobre los datos a partir de los cuales los investigadores pueden extraer inferencias, al tiempo que utilizan antecedentes inciertos que ejercen solo una influencia mínima en los resultados cuando hay suficientes datos disponibles. El psicólogo John K. Kruschke ha sugerido la estimación bayesiana como una alternativa para la prueba t . Alternativamente, se pueden comparar dos modelos / hipótesis en competencia utilizando factores de Bayes . Los métodos bayesianos podrían ser criticados por requerir información que rara vez está disponible en los casos en los que las pruebas de significación se utilizan con mayor frecuencia. Ni las probabilidades previas ni la distribución de probabilidad del estadístico de prueba bajo la hipótesis alternativa están a menudo disponibles en las ciencias sociales.

Los defensores de un enfoque bayesiano a veces afirman que el objetivo de un investigador suele ser evaluar objetivamente la probabilidad de que una hipótesis sea ​​cierta en función de los datos que han recopilado. Ni la prueba de significación de Fisher ni la prueba de hipótesis de Neyman-Pearson pueden proporcionar esta información, y no lo afirman. La probabilidad de que una hipótesis sea verdadera sólo puede derivarse del uso del Teorema de Bayes , que no fue satisfactorio para los campos de Fisher y Neyman-Pearson debido al uso explícito de subjetividad en la forma de probabilidad previa . La estrategia de Fisher es eludir esto con el valor p (un índice objetivo basado únicamente en los datos) seguido de inferencia inductiva , mientras que Neyman-Pearson ideó su enfoque del comportamiento inductivo .

Filosofía

La prueba de hipótesis y la filosofía se cruzan. La estadística inferencial , que incluye la prueba de hipótesis, es probabilidad aplicada. Tanto la probabilidad como su aplicación están entrelazadas con la filosofía. El filósofo David Hume escribió: "Todo conocimiento degenera en probabilidad". Las definiciones prácticas contrapuestas de probabilidad reflejan diferencias filosóficas. La aplicación más común de la prueba de hipótesis es la interpretación científica de datos experimentales, que naturalmente es estudiada por la filosofía de la ciencia .

Fisher y Neyman se opusieron a la subjetividad de la probabilidad. Sus opiniones contribuyeron a las definiciones objetivas. El núcleo de su desacuerdo histórico fue filosófico.

Muchas de las críticas filosóficas de la prueba de hipótesis son discutidas por los estadísticos en otros contextos, particularmente la correlación no implica causalidad y el diseño de experimentos . La prueba de hipótesis es de continuo interés para los filósofos.

Educación

La estadística se enseña cada vez más en las escuelas y la prueba de hipótesis es uno de los elementos que se enseñan. Muchas de las conclusiones reportadas en la prensa popular (desde encuestas de opinión política hasta estudios médicos) se basan en estadísticas. Algunos escritores han afirmado que el análisis estadístico de este tipo permite pensar con claridad sobre problemas que involucran datos masivos, así como el reporte efectivo de tendencias e inferencias de dichos datos, pero advierten que los escritores para un público amplio deben tener un conocimiento sólido del campo. para utilizar los términos y conceptos correctamente. Una clase de introducción a la estadística universitaria pone mucho énfasis en la prueba de hipótesis, quizás la mitad del curso. Campos como la literatura y la teología ahora incluyen hallazgos basados ​​en análisis estadísticos (ver el Analizador de la Biblia ). Una clase de introducción a la estadística enseña la prueba de hipótesis como un proceso de libro de cocina. La prueba de hipótesis también se enseña a nivel de posgrado. Los estadísticos aprenden a crear buenos procedimientos de prueba estadística (como z , t de Student , F y chi-cuadrado). Las pruebas de hipótesis estadísticas se consideran un área madura dentro de las estadísticas, pero continúa una cantidad limitada de desarrollo.

Un estudio académico afirma que el método del libro de cocina para enseñar estadística introductoria no deja tiempo para la historia, la filosofía o la controversia. La prueba de hipótesis se ha enseñado como método unificado recibido. Las encuestas mostraron que los graduados de la clase estaban llenos de conceptos filosóficos erróneos (sobre todos los aspectos de la inferencia estadística) que persistían entre los instructores. Si bien el problema se abordó hace más de una década y los pedidos de reforma educativa continúan, los estudiantes aún se gradúan de las clases de estadística con conceptos erróneos fundamentales sobre la prueba de hipótesis. Las ideas para mejorar la enseñanza de la prueba de hipótesis incluyen alentar a los estudiantes a buscar errores estadísticos en artículos publicados, enseñar la historia de la estadística y enfatizar la controversia en un tema generalmente seco.

Ver también

Referencias

Otras lecturas

enlaces externos

Calculadoras en línea