Cuarteto de Anscombe - Anscombe's quartet

Los cuatro conjuntos son idénticos cuando se examinan utilizando estadísticas de resumen simples, pero varían considerablemente cuando se grafican

El cuarteto de Anscombe comprende cuatro conjuntos de datos que tienen estadísticas descriptivas simples casi idénticas , pero tienen distribuciones muy diferentes y parecen muy diferentes cuando se grafican . Cada conjunto de datos consta de once ( x , y ) puntos . Fueron construidos en 1973 por el estadístico Francis Anscombe para demostrar tanto la importancia de graficar los datos antes de analizarlos como el efecto de los valores atípicos y otras observaciones influyentes en las propiedades estadísticas. Describió que el artículo tenía la intención de contrarrestar la impresión entre los estadísticos de que "los cálculos numéricos son exactos, pero los gráficos son aproximados". Ha sido interpretado como un verdadero cuarteto musical .

Datos

Para los cuatro conjuntos de datos:

Propiedad Valor Precisión
Media de x 9 exacto
Varianza muestral de x  : s2
x
11 exacto
Media de y 7,50 a 2 decimales
Varianza muestral de y  : s2
y
4.125 ± 0,003
Correlación entre x y y 0,816 a 3 decimales
Línea de regresión lineal y  = 3,00 + 0,500 x a 2 y 3 decimales, respectivamente
Coeficiente de determinación de la regresión lineal: 0,67 a 2 decimales
  • El primer gráfico de dispersión (arriba a la izquierda) parece ser una relación lineal simple , correspondiente a dos variables correlacionadas donde y podría modelarse como gaussiana con una media linealmente dependiente de  x .
  • El segundo gráfico (arriba a la derecha) no se distribuye normalmente; mientras que una relación entre las dos variables es obvia, no es lineal y el coeficiente de correlación de Pearson no es relevante. Sería más apropiado una regresión más general y el correspondiente coeficiente de determinación .
  • En el tercer gráfico (abajo a la izquierda), la distribución es lineal, pero debería tener una línea de regresión diferente ( se hubiera requerido una regresión robusta ). La regresión calculada se compensa con el valor atípico que ejerce suficiente influencia para reducir el coeficiente de correlación de 1 a 0,816.
  • Finalmente, el cuarto gráfico (abajo a la derecha) muestra un ejemplo en el que un punto de alto apalancamiento es suficiente para producir un alto coeficiente de correlación, aunque los otros puntos de datos no indican ninguna relación entre las variables.

El cuarteto todavía se usa a menudo para ilustrar la importancia de mirar un conjunto de datos gráficamente antes de comenzar a analizar de acuerdo con un tipo particular de relación, y la insuficiencia de las propiedades estadísticas básicas para describir conjuntos de datos realistas.

Los conjuntos de datos son los siguientes. Los valores de x son los mismos para los primeros tres conjuntos de datos.

Cuarteto de Anscombe
I II III IV
X y X y X y X y
10.0 8.04 10.0 9.14 10.0 7,46 8.0 6.58
8.0 6,95 8.0 8.14 8.0 6,77 8.0 5.76
13,0 7.58 13,0 8,74 13,0 12,74 8.0 7.71
9.0 8,81 9.0 8,77 9.0 7.11 8.0 8,84
11,0 8.33 11,0 9.26 11,0 7.81 8.0 8.47
14.0 9,96 14.0 8,10 14.0 8,84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6,08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19,0 12,50
12,0 10,84 12,0 9.13 12,0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6,42 8.0 7,91
5,0 5,68 5,0 4,74 5,0 5.73 8.0 6,89

No se sabe cómo Anscombe creó sus conjuntos de datos. Desde su publicación, se han desarrollado varios métodos para generar conjuntos de datos similares con estadísticas idénticas y gráficos diferentes. Uno de ellos, el Datasaurus Dozen , consiste en puntos que trazan el contorno de un dinosaurio, más otros doce conjuntos de datos que tienen las mismas estadísticas de resumen.

Ver también

Referencias

enlaces externos