Tendencia central - Central tendency

En estadística , una tendencia central (o medida de tendencia central ) es un valor central o típico de una distribución de probabilidad . También se le puede llamar centro o ubicación de la distribución. Coloquialmente, las medidas de tendencia central a menudo se denominan promedios . El término tendencia central data de finales de la década de 1920.

Las medidas más comunes de tendencia central son la media aritmética , la mediana y la moda . Se puede calcular una tendencia media para un conjunto finito de valores o para una distribución teórica, como la distribución normal . En ocasiones, los autores utilizan la tendencia central para denotar "la tendencia de los datos cuantitativos a agruparse en torno a algún valor central".

La tendencia central de una distribución se contrasta típicamente con su dispersión o variabilidad ; la dispersión y la tendencia central son las propiedades a menudo caracterizadas de las distribuciones. El análisis puede juzgar si los datos tienen una tendencia central fuerte o débil en función de su dispersión.

Medidas

Lo siguiente puede aplicarse a datos unidimensionales. Dependiendo de las circunstancias, puede ser apropiado transformar los datos antes de calcular una tendencia central. Algunos ejemplos son elevar los valores al cuadrado o tomar logaritmos. Si una transformación es apropiada y lo que debería ser, depende en gran medida de los datos que se analizan.

Media aritmética o simplemente, media
la suma de todas las mediciones dividida por el número de observaciones en el conjunto de datos.
Mediana
el valor medio que separa la mitad superior de la mitad inferior del conjunto de datos. La mediana y la moda son las únicas medidas de tendencia central que se pueden utilizar para datos ordinales , en los que los valores se clasifican entre sí pero no se miden de forma absoluta.
Modo
el valor más frecuente en el conjunto de datos. Ésta es la única medida de tendencia central que se puede utilizar con datos nominales , que tienen asignaciones de categoría puramente cualitativas.
Significado geometrico
la raíz n -ésima del producto de los valores de los datos, donde hay n de estos. Esta medida es válida solo para datos que se miden absolutamente en una escala estrictamente positiva.
Significado armonico
el recíproco de la media aritmética de los recíprocos de los valores de los datos. Esta medida también es válida solo para datos que se miden absolutamente en una escala estrictamente positiva.
Media aritmética ponderada
una media aritmética que incorpora ponderación a ciertos elementos de datos.
Media truncada o media recortada
la media aritmética de los valores de los datos después de que se haya descartado un cierto número o proporción de los valores de datos más altos y más bajos.
Media intercuartil
una media truncada basada en datos dentro del rango intercuartílico .
Rango medio
la media aritmética de los valores máximo y mínimo de un conjunto de datos.
Midhinge
la media aritmética del primer y tercer cuartiles .
Trimeo
la media aritmética ponderada de la mediana y dos cuartiles.
Media Winsorizada
una media aritmética en la que los valores extremos se reemplazan por valores más cercanos a la mediana.

Cualquiera de los anteriores se puede aplicar a cada dimensión de datos multidimensionales, pero los resultados pueden no ser invariantes a las rotaciones del espacio multidimensional. Además, existen las

Mediana geométrica
lo que minimiza la suma de distancias a los puntos de datos. Es lo mismo que la mediana cuando se aplica a datos unidimensionales, pero no es lo mismo que tomar la mediana de cada dimensión de forma independiente. No es invariante a diferentes cambios de escala de las diferentes dimensiones.
Media cuadrática (a menudo conocida como la raíz cuadrada de la media )
útil en ingeniería, pero no se utiliza a menudo en estadística. Esto se debe a que no es un buen indicador del centro de la distribución cuando la distribución incluye valores negativos.
Profundidad simplicial
la probabilidad de que un simplex elegido al azar con vértices de la distribución dada contenga el centro dado
Mediana de Tukey
un punto con la propiedad de que cada medio espacio que lo contiene también contiene muchos puntos de muestra

Soluciones a problemas variacionales

Varias medidas de tendencia central pueden caracterizarse como la solución de un problema variacional, en el sentido del cálculo de variaciones , es decir, minimizar la variación desde el centro. Es decir, dada una medida de dispersión estadística , se pide una medida de tendencia central que minimice la variación: tal que la variación desde el centro sea mínima entre todas las opciones de centro. En una broma, "la dispersión precede a la ubicación". Estas medidas se definen inicialmente en una dimensión, pero se pueden generalizar a múltiples dimensiones. Este centro puede ser único o no. En el sentido de espacios L p , la correspondencia es:

L p dispersión tendencia central
L 0 razón de variación modo
L 1 desviación absoluta media mediana ( mediana geométrica )
L 2 Desviación Estándar media ( centroide )
L desviación máxima rango medio

Las funciones asociadas se denominan p -normas : respectivamente 0- "norma", 1-norma, 2-norma y ∞-norma. La función correspondiente al espacio L 0 no es una norma y, por lo tanto, a menudo se hace referencia a ella entre comillas: 0- "norma".

En ecuaciones, para un conjunto de datos X dado (finito) , considerado como un vector x = ( x 1 ,…, x n ) , la dispersión alrededor de un punto c es la "distancia" de x al vector constante c = ( c ,…, c ) en la p -norm (normalizada por el número de puntos n ):

Para p = 0 y p = ∞ estas funciones se definen tomando límites, respectivamente, como p → 0 y p → ∞ . Para p = 0, los valores límite son 0 0 = 0 y a 0 = 0 o a ≠ 0 , por lo que la diferencia se convierte simplemente en igualdad, por lo que la norma 0 cuenta el número de puntos desiguales . Para p = ∞ domina el número más grande y, por lo tanto, la norma ∞ es la diferencia máxima.

Unicidad

La media ( centro L 2 ) y el rango medio ( centro L ) son únicos (cuando existen), mientras que la mediana ( centro L 1 ) y la moda ( centro L 0 ) no son en general únicos. Esto se puede entender en términos de convexidad de las funciones asociadas ( funciones coercitivas ).

La norma 2 y la norma ∞ son estrictamente convexas y, por lo tanto, (por optimización convexa) el minimizador es único (si existe) y existe para distribuciones limitadas. Por tanto, la desviación estándar sobre la media es menor que la desviación estándar sobre cualquier otro punto, y la desviación máxima sobre el rango medio es menor que la desviación máxima sobre cualquier otro punto.

La norma 1 no es estrictamente convexa, mientras que se necesita una convexidad estricta para garantizar la unicidad del minimizador. En consecuencia, la mediana (en este sentido de minimización) no es en general única y, de hecho, cualquier punto entre los dos puntos centrales de una distribución discreta minimiza la desviación absoluta promedio.

La 0- "norma" no es convexa (por lo tanto, no es una norma). En consecuencia, el modo no es único; por ejemplo, en una distribución uniforme, cualquier punto es el modo.

Agrupación

En lugar de un solo punto central, se pueden pedir múltiples puntos de modo que la variación de estos puntos se minimice. Esto conduce al análisis de conglomerados , en el que cada punto del conjunto de datos se agrupa con el "centro" más cercano. Con mayor frecuencia, el uso de la norma 2 generaliza la media a la agrupación de k- medias , mientras que la utilización de la norma 1 generaliza la agrupación de la mediana (geométrica) a la de las k- medias . El uso de la norma 0 simplemente generaliza la moda (valor más común) para usar los k valores más comunes como centros.

A diferencia de las estadísticas de un solo centro, este agrupamiento multicéntrico no se puede calcular en general en una expresión de forma cerrada y , en cambio, debe calcularse o aproximarse mediante un método iterativo ; un enfoque general son los algoritmos de maximización de expectativas .

Geometría de la información

La noción de un "centro" que minimiza la variación puede generalizarse en la geometría de la información como una distribución que minimiza la divergencia (una distancia generalizada) de un conjunto de datos. El caso más común es la estimación de máxima verosimilitud , donde la estimación de máxima verosimilitud (MLE) maximiza la probabilidad (minimiza la sorpresa esperada ), que se puede interpretar geométricamente utilizando la entropía para medir la variación: la MLE minimiza la entropía cruzada (equivalente, entropía relativa , Kullback– Divergencia de Leibler).

Un ejemplo simple de esto es para el centro de datos nominales: en lugar de usar la moda (el único "centro" de un solo valor), a menudo se usa la medida empírica (la distribución de frecuencia dividida por el tamaño de la muestra ) como un "centro" . Por ejemplo, dados los datos binarios , digamos cara o cruz, si un conjunto de datos consta de 2 caras y 1 cruz, entonces el modo es "cara", pero la medida empírica es 2/3 caras, 1/3 colas, lo que minimiza la entropía cruzada (sorpresa total) del conjunto de datos. Esta perspectiva también se utiliza en el análisis de regresión , donde los mínimos cuadrados encuentran la solución que minimiza las distancias desde ella, y análogamente en la regresión logística , una estimación de máxima verosimilitud minimiza la sorpresa (distancia de información).

Relaciones entre la media, la mediana y la moda

Para distribuciones unimodales, se conocen los siguientes límites y son nítidos:

donde μ es la media, ν es la mediana, θ es la moda y σ es la desviación estándar.

Para cada distribución,

Ver también

Notas

Referencias