Errores tipo I y tipo II - Type I and type II errors

En las pruebas de hipótesis estadísticas , un error de tipo I es el rechazo erróneo de la hipótesis nula (también conocido como un hallazgo o conclusión de "falso positivo"; ejemplo: "una persona inocente es condenada"), mientras que un error de tipo IIes la aceptación errónea de la hipótesis nula (también conocida como un hallazgo o conclusión "falso negativo"; ejemplo: "una persona culpable no es condenada"). Gran parte de la teoría estadística gira en torno a la minimización de uno o ambos de estos errores, aunque la eliminación completa de cualquiera de ellos es una imposibilidad estadística si el resultado no está determinado por un proceso causal conocido y observable. Al seleccionar un valor de umbral bajo (corte) y modificar el nivel alfa (p), se puede aumentar la calidad de la prueba de hipótesis. El conocimiento de los errores de Tipo I y los errores de Tipo II se utiliza ampliamente en la ciencia médica , la biometría y la informática .

Intuitivamente, los errores de tipo I pueden considerarse como errores de comisión , es decir, el investigador concluye desafortunadamente que algo es el hecho. Por ejemplo, considere un estudio en el que los investigadores comparan un medicamento con un placebo. Si los pacientes que reciben el fármaco mejoran por casualidad que los pacientes que reciben el placebo, puede parecer que el fármaco es eficaz, pero en realidad la conclusión es incorrecta. A la inversa, los errores de tipo II son errores de omisión . En el ejemplo anterior, si los pacientes que recibieron el medicamento no mejoraron a un ritmo más alto que los que recibieron el placebo, pero esto fue una casualidad, sería un error de tipo II. La consecuencia de un error de tipo II depende del tamaño y la dirección de la determinación omitida y de las circunstancias. Una cura costosa para uno entre un millón de pacientes puede ser intrascendente incluso si realmente es una cura.

Definición

Antecedentes estadísticos

En la teoría de la prueba estadística , la noción de error estadístico es una parte integral de la prueba de hipótesis . La prueba consiste en elegir entre dos proposiciones en competencia llamadas hipótesis nula , denotadas por H 0 e hipótesis alternativas , denotadas por H 1 . Esto es conceptualmente similar a la sentencia en un juicio judicial. La hipótesis nula corresponde a la posición del imputado: así como se presume inocente hasta que se demuestre su culpabilidad, así se presume verdadera la hipótesis nula hasta que los datos aporten pruebas convincentes en su contra. La hipótesis alternativa corresponde a la posición en contra del imputado. Específicamente, la hipótesis nula también implica la ausencia de una diferencia o la ausencia de una asociación. Por tanto, la hipótesis nula nunca puede ser que exista una diferencia o una asociación.

Si el resultado de la prueba se corresponde con la realidad, entonces se ha tomado una decisión correcta. Sin embargo, si el resultado de la prueba no se corresponde con la realidad, se ha producido un error. Hay dos situaciones en las que la decisión es incorrecta. La hipótesis nula puede ser cierta, mientras que rechazamos H 0 . Por otro lado, la hipótesis alternativa H 1 puede ser cierta, mientras que no rechazamos H 0 . Se distinguen dos tipos de error: error de tipo I y error de tipo II.

Error de tipo I

El primer tipo de error es el rechazo erróneo de una hipótesis nula como resultado de un procedimiento de prueba. Este tipo de error se denomina error de tipo I (falso positivo) y, a veces, se denomina error del primer tipo.

En términos del ejemplo de la sala de audiencias, un error de tipo I corresponde a condenar a un acusado inocente.

Error de tipo II

El segundo tipo de error es la aceptación errónea de la hipótesis nula como resultado de un procedimiento de prueba. Este tipo de error se denomina error de tipo II (falso negativo) y también se denomina error de segundo tipo.

En términos del ejemplo de la sala de audiencias, un error de tipo II corresponde a la absolución de un criminal.

Tasa de error de cruce

La tasa de error cruzado (CER) es el punto en el que los errores de Tipo I y los errores de Tipo II son iguales y representa la mejor manera de medir la efectividad de una biometría. Un sistema con un valor CER más bajo proporciona más precisión que un sistema con un valor CER más alto.

Falso positivo y falso negativo

Ver más información en: Falso positivo y falso negativo

En términos de falsos positivos y falsos negativos, un resultado positivo corresponde a rechazar la hipótesis nula, mientras que un resultado negativo corresponde a no rechazar la hipótesis nula; "falso" significa que la conclusión extraída es incorrecta. Por tanto, un error de tipo I equivale a un falso positivo y un error de tipo II equivale a un falso negativo.

Tabla de tipos de errores

Relaciones tabularizadas entre verdad / falsedad de la hipótesis nula y resultados de la prueba:

 Tabla de tipos de errores
La hipótesis nula ( H 0 ) es
 
Cierto Falso
Decisión
sobre
hipótesis nula ( H 0 )
No
rechaces

Inferencia correcta
(verdadero negativo)

(probabilidad = 1− α )

Error de tipo II
(falso negativo)
(probabilidad = β
Rechazar Error de tipo I
(falso positivo)
(probabilidad = α

Inferencia correcta
(verdadero positivo)

(probabilidad = 1− β )
 

Tasa de error

Los resultados obtenidos de la muestra negativa (curva izquierda) se superponen con los resultados obtenidos de las muestras positivas (curva derecha). Al mover el valor de corte del resultado (barra vertical), se puede disminuir la tasa de falsos positivos (FP), a costa de aumentar el número de falsos negativos (FN), o viceversa. (TP = verdaderos positivos, TN = verdaderos negativos)

Una prueba perfecta tendría cero falsos positivos y cero falsos negativos. Sin embargo, los métodos estadísticos son probabilísticos y no se puede saber con certeza si las conclusiones estadísticas son correctas. Siempre que haya incertidumbre, existe la posibilidad de cometer un error. Teniendo en cuenta esta naturaleza de la ciencia estadística, todas las pruebas de hipótesis estadísticas tienen una probabilidad de cometer errores de tipo I y tipo II.

  • La tasa de error de tipo I o nivel de significancia es la probabilidad de rechazar la hipótesis nula dado que es cierta. Se denota con la letra griega α (alfa) y también se denomina nivel alfa. Por lo general, el nivel de significancia se establece en 0.05 (5%), lo que implica que es aceptable tener una probabilidad del 5% de rechazar incorrectamente la verdadera hipótesis nula.
  • La tasa del error de tipo II se indica con la letra griega β (beta) y se relaciona con la potencia de una prueba , que es igual a 1 − β.

Estos dos tipos de tasas de error se comparan entre sí: para cualquier conjunto de muestra dado, el esfuerzo por reducir un tipo de error generalmente da como resultado un aumento del otro tipo de error.

La calidad de la prueba de hipótesis

La misma idea se puede expresar en términos de la tasa de resultados correctos y, por lo tanto, se puede utilizar para minimizar las tasas de error y mejorar la calidad de la prueba de hipótesis. Para reducir la probabilidad de cometer un error de Tipo I, hacer que el valor alfa (p) sea más estricto es bastante simple y eficiente. Para disminuir la probabilidad de cometer un error de Tipo II, que está estrechamente asociado con la potencia de los análisis, aumentar el tamaño de la muestra de la prueba o relajar el nivel alfa podría aumentar la potencia de los análisis. Una estadística de prueba es sólida si se controla la tasa de error de Tipo I.

También se podría usar un valor de umbral variable (corte) diferente para hacer que la prueba sea más específica o más sensible, lo que a su vez eleva la calidad de la prueba. Por ejemplo, imagine una prueba médica, en la que el experimentador podría medir la concentración de una determinada proteína en la muestra de sangre. El experimentador podría ajustar el umbral (línea vertical negra en la figura) y se diagnosticaría que las personas tienen enfermedades si se detecta algún número por encima de este umbral determinado. Según la imagen, cambiar el umbral daría lugar a cambios en falsos positivos y falsos negativos, correspondientes al movimiento en la curva.

Ejemplo

Dado que en un experimento real es imposible evitar todos los errores de tipo I y tipo II, es importante considerar la cantidad de riesgo que uno está dispuesto a correr para rechazar falsamente H 0 o aceptar H 0 . La solución a esta pregunta sería informar el valor p o el nivel de significancia α del estadístico. Por ejemplo, si el valor p del resultado de una estadística de prueba se estima en 0.0596, entonces hay una probabilidad del 5.96% de que rechacemos falsamente H 0 . O, si decimos que la estadística se realiza en el nivel α, como 0.05, entonces permitimos rechazar falsamente H 0 al 5%. Un nivel de significancia α de 0.05 es relativamente común, pero no existe una regla general que se ajuste a todos los escenarios.

Medición de la velocidad del vehículo

El límite de velocidad de una autopista en los Estados Unidos es de 120 kilómetros por hora. Se establece un dispositivo para medir la velocidad de los vehículos que pasan. Suponga que el dispositivo realizará tres mediciones de la velocidad de un vehículo que pasa, registrando como una muestra aleatoria X 1 , X 2 , X 3 . La policía de tránsito multará o no a los conductores dependiendo de la velocidad promedio . Es decir, la estadística de prueba

Además, suponemos que las medidas X 1 , X 2 , X 3 se modelan como distribución normal N (μ, 4). Luego, debe seguir N (μ, 4/3) y el parámetro μ representa la velocidad real del vehículo que pasa. En este experimento, la hipótesis nula H 0 y la hipótesis alternativa H 1 deben ser

H 0 : μ = 120 contra H 1 : μ 1 > 120.

Si realizamos el nivel estadístico en α = 0.05, entonces se debe calcular un valor crítico c para resolver

Según la regla de cambio de unidades para la distribución normal. Refiriéndonos a la tabla Z , podemos obtener

Aquí, la región crítica. Es decir, si la velocidad registrada de un vehículo es mayor que el valor crítico 121,9, el conductor será multado. Sin embargo, todavía hay un 5% de los conductores que son multados falsamente ya que la velocidad media registrada es superior a 121,9 pero la velocidad real no pasa de 120, lo que decimos, un error de tipo I.

El error tipo II corresponde al caso de que la velocidad real de un vehículo supere los 120 kilómetros por hora pero el conductor no sea multado. Por ejemplo, si la velocidad real de un vehículo μ = 125, la probabilidad de que el conductor no sea multado se puede calcular como

lo que significa que si la velocidad real de un vehículo es 125, la unidad tiene una probabilidad del 0,36% de evitar la multa cuando la estadística se realiza en el nivel 125, ya que la velocidad media registrada es inferior a 121,9. Si la velocidad real está más cerca de 121,9 que de 125, entonces la probabilidad de evitar la multa también será mayor.

También se deben considerar las compensaciones entre el error de tipo I y el error de tipo II. Es decir, en este caso, si la policía de tránsito no quiere multar falsamente a conductores inocentes, el nivel α se puede establecer en un valor menor, como 0.01. Sin embargo, si ese es el caso, más conductores cuya velocidad real supere los 120 kilómetros por hora, como 125, tendrían más probabilidades de evitar la multa.

Etimología

En 1928, Jerzy Neyman (1894-1981) y Egon Pearson (1895-1980), ambos eminentes estadísticos, discutieron los problemas asociados con "decidir si una muestra en particular puede considerarse probable que se haya extraído al azar de una determinada población ": y, como señaló Florence Nightingale David ," es necesario recordar que el adjetivo 'aleatorio' [en el término 'muestra aleatoria'] debe aplicarse al método de extracción de la muestra y no a la muestra en sí ".

Identificaron "dos fuentes de error", a saber:

(a) el error de rechazar una hipótesis que no debería haber sido rechazada, y
(b) el error de no rechazar una hipótesis que debería haber sido rechazada.

En 1930, desarrollaron estas dos fuentes de error, señalando que:

... al probar hipótesis deben tenerse en cuenta dos consideraciones, debemos ser capaces de reducir la posibilidad de rechazar una hipótesis verdadera a un valor tan bajo como se desee; la prueba debe estar diseñada de tal manera que rechace la hipótesis probada cuando es probable que sea falsa.

En 1933, observaron que estos "problemas rara vez se presentan de tal forma que podamos discriminar con certeza entre la hipótesis verdadera y falsa". También señalaron que, al decidir si no rechazar o rechazar una hipótesis particular entre un "conjunto de hipótesis alternativas", H 1 , H 2 ..., era fácil cometer un error:

... [y] estos errores serán de dos tipos:

(I) rechazamos H 0 [es decir, la hipótesis a probar] cuando es verdadera,
(II) no rechazamos H 0 cuando alguna hipótesis alternativa H A o H 1 es verdadera. (Hay varias notaciones para la alternativa).

En todos los artículos coescritos por Neyman y Pearson, la expresión H 0 siempre significa "la hipótesis a probar".

En el mismo artículo denominan a estas dos fuentes de error, errores de tipo I y errores de tipo II respectivamente.

Términos relacionados

Hipótesis nula

Es una práctica estándar que los estadísticos realicen pruebas para determinar si se puede apoyar o no una " hipótesis especulativa " sobre los fenómenos observados en el mundo (o sus habitantes). Los resultados de tales pruebas determinan si un conjunto particular de resultados concuerda razonablemente (o no) con la hipótesis especulada.

Sobre la base de que siempre se asume, por convención estadística , que la hipótesis especulada es incorrecta, y la llamada " hipótesis nula " de que los fenómenos observados simplemente ocurren por casualidad (y que, como consecuencia, el agente especulado no tiene efecto): la prueba determinará si esta hipótesis es correcta o incorrecta. Esta es la razón por la que la hipótesis bajo prueba a menudo se llama hipótesis nula (muy probablemente, acuñada por Fisher (1935, p. 19)), porque es esta hipótesis la que debe ser anulada o no anulada por la prueba. Cuando se anula la hipótesis nula, es posible concluir que los datos apoyan la " hipótesis alternativa " (que es la especulada original).

La aplicación consistente por parte de los estadísticos de la convención de Neyman y Pearson de representar " la hipótesis que se va a probar " (o " la hipótesis que se va a anular ") con la expresión H 0 ha llevado a circunstancias en las que muchos entienden el término " la hipótesis nula " como significado " la hipótesis nula " - una declaración de que los resultados en cuestión han surgido por casualidad. Este no es necesariamente el caso: la restricción clave, según Fisher (1966), es que " la hipótesis nula debe ser exacta, es decir, libre de vaguedad y ambigüedad, porque debe proporcionar la base del 'problema de distribución', de la cual la prueba de significancia es la solución. "Como consecuencia de esto, en la ciencia experimental la hipótesis nula es generalmente una afirmación de que un tratamiento particular no tiene efecto ; en la ciencia de la observación, es que no hay diferencia entre el valor de una variable medida en particular y el de una predicción experimental.

Significancia estadística

Si la probabilidad de obtener un resultado tan extremo como el obtenido, suponiendo que la hipótesis nula fuera cierta, es menor que una probabilidad de corte preestablecida (por ejemplo, 5%), entonces se dice que el resultado es estadísticamente significativo. y se rechaza la hipótesis nula.

El estadístico británico Sir Ronald Aylmer Fisher (1890-1962) destacó que la "hipótesis nula":

... nunca se prueba ni se establece, pero posiblemente se refuta, en el curso de la experimentación. Se puede decir que todo experimento existe sólo para dar a los hechos la oportunidad de refutar la hipótesis nula.

-  Fisher, 1935, página 19

Dominios de aplicación

Medicamento

En la práctica de la medicina, las diferencias entre las aplicaciones del cribado y las pruebas son considerables.

Exámenes médicos

El cribado implica pruebas relativamente baratas que se administran a grandes poblaciones, ninguna de las cuales manifiesta ningún indicio clínico de enfermedad (p. Ej., Frotis de Papanicolaou ).

Las pruebas implican procedimientos mucho más costosos, a menudo invasivos, que se administran solo a aquellos que manifiestan alguna indicación clínica de enfermedad, y se aplican con mayor frecuencia para confirmar un diagnóstico sospechoso.

Por ejemplo, la mayoría de los estados de EE. UU. Exigen que los recién nacidos se sometan a pruebas de detección de fenilcetonuria e hipotiroidismo , entre otros trastornos congénitos .

Hipótesis: "Los recién nacidos tienen fenilcetonuria e hipotiroidismo"

Hipótesis nula (H 0 ): "Los recién nacidos no tienen fenilcetonuria ni hipotiroidismo"

Error tipo I (falso positivo): Lo cierto es que los recién nacidos no tienen fenilcetonuria ni hipotiroidismo pero consideramos que tienen los trastornos según los datos.

Error tipo II (falso negativo): Lo cierto es que los recién nacidos tienen fenilcetonuria e hipotiroidismo pero consideramos que no tienen los trastornos según los datos.

Aunque muestran una alta tasa de falsos positivos, las pruebas de detección se consideran valiosas porque aumentan en gran medida la probabilidad de detectar estos trastornos en una etapa mucho más temprana.

El simple análisis de sangre utilizada para detectar posibles donantes de sangre para VIH y hepatitis tienen una tasa significativa de falsos positivos; sin embargo, los médicos utilizan pruebas mucho más costosas y precisas para determinar si una persona está realmente infectada con alguno de estos virus.

Quizás los falsos positivos más discutidos en el cribado médico provengan de la mamografía del procedimiento de cribado del cáncer de mama . La tasa de mamografías falsas positivas en los EE. UU. Es de hasta un 15%, la más alta del mundo. Una consecuencia de la alta tasa de falsos positivos en los EE. UU. Es que, en cualquier período de 10 años, la mitad de las mujeres estadounidenses examinadas reciben una mamografía de falsos positivos. Las mamografías falsas positivas son costosas, con más de $ 100 millones gastados anualmente en los EE. UU. En pruebas de seguimiento y tratamiento. También provocan una ansiedad innecesaria en las mujeres. Como resultado de la alta tasa de falsos positivos en los EE. UU., Entre el 90 y el 95% de las mujeres que se someten a una mamografía positiva no padecen la afección. La tasa más baja del mundo se encuentra en los Países Bajos, 1%. Las tasas más bajas se encuentran generalmente en el norte de Europa, donde las películas de mamografía se leen dos veces y se establece un umbral alto para pruebas adicionales (el umbral alto disminuye la potencia de la prueba).

La prueba de detección de la población ideal sería barata, fácil de administrar y no produciría falsos negativos, si es posible. Estas pruebas suelen producir más falsos positivos, que posteriormente pueden resolverse mediante pruebas más sofisticadas (y costosas).

Pruebas medicas

Los falsos negativos y los falsos positivos son cuestiones importantes en las pruebas médicas .

Hipótesis: "Los pacientes tienen la enfermedad específica".

Hipótesis nula (H 0 ): "Los pacientes no tienen la enfermedad específica".

Error tipo I (falso positivo): "El hecho real es que los pacientes no tienen una enfermedad específica, pero los médicos juzgan que los pacientes estaban enfermos según los informes de las pruebas".

Los falsos positivos también pueden producir problemas graves y contrarios a la intuición cuando la afección que se busca es poco común, como en el cribado. Si una prueba tiene una tasa de falsos positivos de uno en diez mil, pero solo una en un millón de muestras (o personas) es un verdadero positivo, la mayoría de los positivos detectados por esa prueba serán falsos. La probabilidad de que un resultado positivo observado sea un falso positivo se puede calcular utilizando el teorema de Bayes .

Error de tipo II (falso negativo): "El hecho real es que la enfermedad está realmente presente, pero los informes de las pruebas proporcionan un mensaje falsamente tranquilizador a los pacientes y médicos de que la enfermedad está ausente".

Los falsos negativos producen problemas graves y contrarios a la intuición, especialmente cuando la condición que se busca es común. Si se utiliza una prueba con una tasa de falsos negativos de solo el 10% para analizar una población con una tasa de ocurrencia real del 70%, muchos de los negativos detectados por la prueba serán falsos.

Esto a veces conduce a un tratamiento inadecuado o inadecuado tanto del paciente como de su enfermedad. Un ejemplo común es confiar en las pruebas de esfuerzo cardíaco para detectar la aterosclerosis coronaria, aunque se sabe que las pruebas de esfuerzo cardíaco solo detectan las limitaciones del flujo sanguíneo de las arterias coronarias debido a la estenosis avanzada .

Biometria

La coincidencia biométrica, como para el reconocimiento de huellas dactilares , el reconocimiento facial o el reconocimiento del iris , es susceptible a errores de tipo I y tipo II.

Hipótesis: "La entrada no identifica a alguien en la lista de personas buscadas"

Hipótesis nula: "La entrada identifica a alguien en la lista de personas buscadas"

Error tipo I (tasa de rechazo falso): "El hecho verdadero es que la persona es alguien en la lista de búsqueda, pero el sistema concluye que la persona no está de acuerdo con los datos".

Error de tipo II (tasa de coincidencia falsa): "El hecho real es que la persona no es alguien en la lista de búsqueda, pero el sistema concluye que la persona es alguien a quien estamos buscando de acuerdo con los datos".

La probabilidad de errores de tipo I se denomina "tasa de falsos rechazos" (FRR) o tasa de falsos no coincidentes (FNMR), mientras que la probabilidad de errores de tipo II se denomina "tasa de aceptación falsa" (FAR) o tasa de coincidencias falsas ( FMR).

Si el sistema está diseñado para que rara vez coincida con los sospechosos, entonces la probabilidad de errores de tipo II puede denominarse " tasa de falsas alarmas ". Por otro lado, si el sistema se utiliza para la validación (y la aceptación es la norma), entonces el FAR es una medida de seguridad del sistema, mientras que el FRR mide el nivel de inconveniencia del usuario.

Control de seguridad

Artículos principales: detección de explosivos y detector de metales.

Los falsos positivos se encuentran todos los días en los controles de seguridad de los aeropuertos , que en última instancia son sistemas de inspección visual . Las alarmas de seguridad instaladas están destinadas a evitar la entrada de armas en la aeronave; sin embargo, a menudo tienen una sensibilidad tan alta que alarman muchas veces al día por artículos menores, como llaves, hebillas de cinturones, cambio suelto, teléfonos móviles y tachuelas en los zapatos.

Aquí, la hipótesis es: "El objeto es un arma".

La hipótesis nula: "El artículo no es un arma".

Error de tipo I (falso positivo): "El hecho real es que el objeto no es un arma, pero el sistema sigue activando la alarma".

Error de tipo II (falso negativo) "El hecho cierto es que el objeto es un arma, pero el sistema guarda silencio en este momento".

La proporción de falsos positivos (identificar a un viajero inocente como terrorista) y verdaderos positivos (detectar a un posible terrorista) es, por lo tanto, muy alta; y debido a que casi todas las alarmas son un falso positivo, el valor predictivo positivo de estas pruebas de detección es muy bajo.

El costo relativo de los resultados falsos determina la probabilidad de que los creadores de pruebas permitan que ocurran estos eventos. Como el costo de un falso negativo en este escenario es extremadamente alto (no detectar una bomba que se lleva a un avión podría resultar en cientos de muertes) mientras que el costo de un falso positivo es relativamente bajo (una inspección adicional razonablemente simple) el más apropiado La prueba es una con una especificidad estadística baja pero una sensibilidad estadística alta (una que permite una alta tasa de falsos positivos a cambio de un mínimo de falsos negativos).

Ordenadores

Las nociones de falsos positivos y falsos negativos tienen una amplia vigencia en el ámbito de las computadoras y las aplicaciones informáticas, incluida la seguridad informática , el filtrado de correo no deseado , el malware , el reconocimiento óptico de caracteres y muchos otros.

Por ejemplo, en el caso del filtrado de spam, la hipótesis aquí es que el mensaje es un spam.

Por tanto, hipótesis nula: "El mensaje no es un spam".

Error tipo I (falso positivo): "El filtrado de correo no deseado o las técnicas de bloqueo de correo no deseado clasifican erróneamente un mensaje de correo electrónico legítimo como correo no deseado y, como resultado, interfieren con su entrega".

Si bien la mayoría de las tácticas antispam pueden bloquear o filtrar un alto porcentaje de correos electrónicos no deseados, hacerlo sin generar resultados positivos falsos significativos es una tarea mucho más exigente.

Error de tipo II (falso negativo): "El correo electrónico no deseado no se detecta como spam, pero se clasifica como no spam". Un número bajo de falsos negativos es un indicador de la eficacia del filtrado de spam.

Ver también

Referencias

Bibliografía

  • Betz, MA y Gabriel, KR , "Errores tipo IV y análisis de efectos simples", Journal of Educational Statistics , Vol.3, No.2, (Verano 1978), págs. 121-144.
  • David, FN, "Una función de potencia para las pruebas de aleatoriedad en una secuencia de alternativas", Biometrika , Vol.34, Nos.3 / 4, (diciembre de 1947), págs. 335–339.
  • Fisher, RA, The Design of Experiments , Oliver & Boyd (Edimburgo), 1935.
  • Gambrill, W., "Los falsos positivos en las pruebas de detección de enfermedades de los recién nacidos preocupan a los padres", Día de la salud (5 de junio de 2006). [1]
  • Kaiser, HF, "Directional Statistical Decisions", Psychological Review , Vol.67, No.3, (mayo de 1960), págs. 160-167.
  • Kimball, AW, "Errores del tercer tipo en consultoría estadística", Revista de la Asociación Estadounidense de Estadística , Vol. 52, No 278, (junio de 1957), págs. 133-142.
  • Lubin, A., "La interpretación de la interacción significativa", Medición educativa y psicológica , Vol.21, No.4, (Invierno de 1961), págs. 807–817.
  • Marascuilo, LA & Levin, JR, "Apropiadas comparaciones post hoc para la interacción y las hipótesis anidadas en el análisis de diseños de varianza: la eliminación de errores de tipo IV", American Educational Research Journal , Vol.7., No.3, (mayo de 1970 ), págs. 397–421.
  • Mitroff, II y Featheringham, TR, "Sobre la resolución de problemas sistémicos y el error del tercer tipo", Behavioral Science , Vol.19, No.6, (noviembre de 1974), págs. 383–393.
  • Mosteller, F., "Una prueba de deslizamiento de muestra k para una población extrema", The Annals of Mathematical Statistics , Vol.19, No.1, (marzo de 1948), págs. 58–65.
  • Moulton, RT, “Network Security”, Datamation , Vol.29, No.7, (julio de 1983), págs. 121-127.
  • Raiffa, H., Análisis de decisiones: conferencias introductorias sobre elecciones bajo incertidumbre , Addison-Wesley, (lectura), 1968.

enlaces externos

  • Sesgo y confusión  - presentación de Nigel Paneth, Graduate School of Public Health, University of Pittsburgh