Distribución logarítmica normal - Log-normal distribution

Logaritmo normal
Función de densidad de probabilidad
Trazado del PDF lognormal
Parámetro idéntico pero parámetros diferentes
Función de distribución acumulativa
Parcela de la CDF lognormal
Notación
Parámetros ,
Apoyo
PDF
CDF
Cuantil
Significar
Mediana
Modo
Diferencia
Oblicuidad
Ex. curtosis
Entropía
MGF definido solo para números con una parte real no positiva, ver texto
CF la representación es asintóticamente divergente pero suficiente para propósitos numéricos
Información de Fisher
Método de los momentos ,

En la teoría de la probabilidad , una distribución logarítmica normal (o logarítmica normal) es una distribución de probabilidad continua de una variable aleatoria cuyo logaritmo se distribuye normalmente . Por tanto, si la variable aleatoria X tiene una distribución logarítmica normal, Y = ln ( X ) tiene una distribución normal. De manera equivalente, si Y tiene una distribución normal, entonces la función exponencial de Y , X = exp ( Y ) , tiene una distribución logarítmica normal. Una variable aleatoria que tiene una distribución logarítmica normal toma solo valores reales positivos. Es un modelo conveniente y útil para mediciones en ciencias exactas y de ingeniería , así como en medicina , economía y otros temas (por ejemplo, energías, concentraciones, longitudes, rendimientos financieros y otras métricas).

En ocasiones, la distribución se denomina distribución de Galton o distribución de Galton , en honor a Francis Galton . La distribución logarítmica normal también se ha asociado con otros nombres, como McAlister, Gibrat y Cobb – Douglas .

Un proceso logarítmico normal es la realización estadística del producto multiplicativo de muchas variables aleatorias independientes , cada una de las cuales es positiva. Esto se justifica considerando el teorema del límite central en el dominio logarítmico (a veces llamado ley de Gibrat ). La distribución logarítmica normal es la distribución de probabilidad de entropía máxima para una variable aleatoria X, para la cual se especifican la media y la varianza de ln ( X ) .

Definiciones

Generación y parámetros

Sea una variable normal estándar y sea y sea ​​dos números reales. Entonces, la distribución de la variable aleatoria

se llama distribución logarítmica normal con parámetros y . Estos son el valor esperado (o media ) y la desviación estándar del logaritmo natural de la variable , no la expectativa y la desviación estándar de sí misma.

Relación entre distribución normal y log-normal. Si se distribuye normalmente, entonces se distribuye logarítmicamente normalmente.

Esta relación es verdadera independientemente de la base de la función logarítmica o exponencial: si está distribuida normalmente, entonces también lo es para dos números positivos cualesquiera . Del mismo modo, si se distribuye normalmente en logaritmo, entonces también lo es , dónde .

Para producir una distribución con la media y la varianza deseadas , se utilizan y

Alternativamente, se pueden utilizar los parámetros "multiplicativos" o "geométricos" y . Tienen una interpretación más directa: es la mediana de la distribución y es útil para determinar intervalos de "dispersión", ver más abajo.

Función de densidad de probabilidad

Una variable aleatoria positiva X tiene una distribución logarítmica normal (es decir, ), si el logaritmo natural de X se distribuye normalmente con media y varianza :

Sean y respectivamente la función de distribución de probabilidad acumulada y la función de densidad de probabilidad de la distribución N (0,1), entonces tenemos que

Función de distribución acumulativa

La función de distribución acumulativa es

donde es la función de distribución acumulativa de la distribución normal estándar (es decir, N (0,1)).

Esto también se puede expresar de la siguiente manera:

donde erfc es la función de error complementaria .

Logaritmo normal multivariante

Si es una distribución normal multivariante , entonces tiene una distribución logarítmica normal multivariante con media

y matriz de covarianza

Dado que la distribución logarítmica normal multivariante no se usa ampliamente, el resto de esta entrada solo trata de la distribución univariante .

Función característica y función generadora de momentos

Todos los momentos de la distribución logarítmica normal existen y

Esto se puede derivar dejando dentro de la integral. Sin embargo, la distribución logarítmica normal no está determinada por sus momentos. Esto implica que no puede tener una función de generación de momento definida en una vecindad de cero. De hecho, el valor esperado no se define para ningún valor positivo del argumento , ya que la integral definitoria diverge.

La función característica se define para valores reales de t , pero no se define para ningún valor complejo de t que tenga una parte imaginaria negativa y, por lo tanto, la función característica no es analítica en el origen. En consecuencia, la función característica de la distribución logarítmica normal no se puede representar como una serie convergente infinita. En particular, su serie formal de Taylor diverge:

Sin embargo, se han obtenido varias representaciones de series divergentes alternativas .

No se conoce una fórmula de forma cerrada para la función característica con en el dominio de convergencia. Una fórmula aproximada relativamente simple está disponible en forma cerrada, y está dada por

donde es la función W de Lambert . Esta aproximación se deriva mediante un método asintótico, pero se mantiene nítida en todo el dominio de convergencia de .

Propiedades

una. es una variable logarítmica normal con . se calcula transformando a la variable normal , luego integrando su densidad sobre el dominio definido por (regiones azules), usando el método numérico de trazado de rayos. antes de Cristo. El pdf y el cdf de la función de la variable log-normal también se pueden calcular de esta manera.

Probabilidad en diferentes dominios

El contenido de probabilidad de una distribución logarítmica normal en cualquier dominio arbitrario se puede calcular con la precisión deseada transformando primero la variable a normal y luego integrándola numéricamente utilizando el método de trazado de rayos. ( Código de Matlab )

Probabilidades de funciones de una variable logarítmica normal

Dado que la probabilidad de un log-normal se puede calcular en cualquier dominio, esto significa que el CDF (y, en consecuencia, el pdf y el CDF inverso) de cualquier función de una variable logarítmica normal también se puede calcular. ( Código de Matlab )

Momentos geométricos o multiplicativos

La media geométrica o multiplicativa de la distribución log-normal es . Es igual a la mediana. La desviación estándar geométrica o multiplicativa es .

Por analogía con las estadísticas aritméticas, se puede definir una variación geométrica, y un coeficiente de variación geométrica de , , se ha propuesto. Se pretendía que este término fuera análogo al coeficiente de variación, para describir la variación multiplicativa en datos log-normales, pero esta definición de GCV no tiene una base teórica como una estimación de sí mismo (ver también Coeficiente de variación ).

Tenga en cuenta que la media geométrica es menor que la media aritmética. Esto se debe a la desigualdad AM-GM y es una consecuencia de que el logaritmo es una función cóncava . De hecho,

En finanzas, el término a veces se interpreta como una corrección de convexidad . Desde el punto de vista del cálculo estocástico , este es el mismo término de corrección que en el lema de Itō para el movimiento browniano geométrico .

Momentos aritméticos

Para cualquier número real o complejo n , el n -ésimo momento de una variable X con distribución logarítmica normal viene dado por

Específicamente, la media aritmética, el cuadrado esperado, la varianza aritmética y la desviación estándar aritmética de una variable X con distribución logarítmica normal vienen dadas respectivamente por:

El coeficiente de variación aritmético es la razón . Para una distribución logarítmica normal es igual a

Esta estimación a veces se denomina "CV geométrico" (GCV), debido a su uso de la varianza geométrica. Al contrario de la desviación estándar aritmética, el coeficiente de variación aritmético es independiente de la media aritmética.

Los parámetros μ y σ se pueden obtener si se conocen la media aritmética y la varianza aritmética:

Una distribución de probabilidad no está determinada únicamente por los momentos E [ X n ] = e + 1/2n 2 σ 2 para n ≥ 1. Es decir, existen otras distribuciones con el mismo conjunto de momentos. De hecho, existe toda una familia de distribuciones con los mismos momentos que la distribución logarítmica normal.

Moda, mediana, cuantiles

Comparación de la media , la mediana y la moda de dos distribuciones logarítmicas normales con diferente asimetría .

La moda es el punto de máximo global de la función de densidad de probabilidad. En particular, al resolver la ecuación , obtenemos que:

Dado que la variable transformada logarítmicamente tiene una distribución normal y los cuantiles se conservan bajo transformaciones monótonas, los cuantiles de son

donde es el cuantil de la distribución normal estándar.

Específicamente, la mediana de una distribución logarítmica normal es igual a su media multiplicativa,

Expectativa parcial

La expectativa parcial de una variable aleatoria con respecto a un umbral se define como

Alternativamente, utilizando la definición de expectativa condicional , se puede escribir como . Para una variable aleatoria logarítmica normal, la expectativa parcial viene dada por:

donde es la función de distribución acumulativa normal . La derivación de la fórmula se proporciona en la página Discusión . La fórmula de expectativa parcial tiene aplicaciones en seguros y economía , se utiliza para resolver la ecuación diferencial parcial que conduce a la fórmula de Black-Scholes .

Expectativa condicional

La expectativa condicional de una variable aleatoria logarítmica normal, con respecto a un umbral, es su expectativa parcial dividida por la probabilidad acumulada de estar en ese rango:

Parametrizaciones alternativas

Además de la caracterización mediante o , aquí hay varias formas de parametrizar la distribución logarítmica normal. ProbOnto , la base de conocimientos y la ontología de distribuciones de probabilidad enumera siete de tales formas:

Resumen de parametrizaciones de las distribuciones log-normales.
  • LogNormal1 (μ, σ) con media , μ y desviación estándar , σ, ambas en la escala logarítmica
  • LogNormal2 (μ, υ) con media, μ y varianza, υ, ambos en la escala logarítmica
  • LogNormal3 (m, σ) con mediana , m, en la escala natural y desviación estándar, σ, en la escala logarítmica
  • LogNormal4 (m, cv) con mediana, m y coeficiente de variación , cv, ambos en la escala natural
  • LogNormal5 (μ, τ) con media, μ y precisión, τ, ambos en la escala logarítmica
  • LogNormal6 (m, σ g ) con mediana, m, y desviación estándar geométrica , σ g , ambos en la escala natural
  • LogNormal7 (μ N , σ N ) con media, μ N y desviación estándar, σ N , ambas en la escala natural

Ejemplos de re-parametrización

Considere la situación en la que a uno le gustaría ejecutar un modelo utilizando dos herramientas de diseño óptimas diferentes, por ejemplo, PFIM y PopED. El primero admite la parametrización LN2, el último LN7, respectivamente. Por lo tanto, se requiere la re-parametrización, de lo contrario las dos herramientas producirían resultados diferentes.

Para la transición, se mantienen las siguientes fórmulas .

Para la transición, se mantienen las siguientes fórmulas .

Todas las fórmulas de re-parametrización restantes se pueden encontrar en el documento de especificaciones en el sitio web del proyecto.

Poder múltiple, recíproco

  • Multiplicación por una constante: si entonces
  • Recíproco: si entonces
  • Poder: Si entonces para

Multiplicación y división de variables aleatorias independientes logarítmicas normales

Si se multiplican [se dividen] dos variables independientes , logarítmicas normales y , el producto [razón] vuelve a ser logarítmico normal, con los parámetros [ ] y , donde . Esto se generaliza fácilmente al producto de tales variables.

De manera más general, si son variables independientes, con distribución logarítmica normal, entonces

Teorema del límite central multiplicativo

La media geométrica o multiplicativa de variables aleatorias positivas independientes distribuidas de manera idéntica muestra, para aproximadamente una distribución logarítmica normal con parámetros y , asumiendo que es finito.

De hecho, las variables aleatorias no tienen que estar distribuidas de forma idéntica. Es suficiente que todas las distribuciones de tengan varianza finita y satisfagan las demás condiciones de cualquiera de las muchas variantes del teorema del límite central .

Esto se conoce comúnmente como ley de Gibrat .

Otro

Un conjunto de datos que surge de la distribución log-normal tiene una curva de Lorenz simétrica (ver también el coeficiente de asimetría de Lorenz ).

Las medias armónicas , geométricas y aritméticas de esta distribución están relacionadas; tal relación viene dada por

Las distribuciones logarítmicas normales son infinitamente divisibles , pero no son distribuciones estables de las que se puedan extraer fácilmente.

Distribuciones relacionadas

  • Si es una distribución normal , entonces
  • Si se distribuye logarítmicamente normalmente, entonces es una variable aleatoria normal.
  • Sean variables independientes logarítmicamente distribuidas normalmente con parámetros y posiblemente variables , y . La distribución de no tiene una expresión de forma cerrada, pero puede aproximarse razonablemente mediante otra distribución logarítmica normal en la cola derecha. Se ha caracterizado su función de densidad de probabilidad en la vecindad de 0 y no se parece a ninguna distribución logarítmica normal. Una aproximación comúnmente utilizada debida a LF Fenton (pero previamente establecida por RI Wilkinson y justificada matemáticamente por Marlow) se obtiene al hacer coincidir la media y la varianza de otra distribución logarítmica normal:
En el caso de que todos tengan el mismo parámetro de varianza , estas fórmulas se simplifican a

Para una aproximación más precisa, se puede utilizar el método de Monte Carlo para estimar la función de distribución acumulativa, el pdf y la cola derecha.

La suma de las variables aleatorias correlacionadas con distribución logarítmica normal también se puede aproximar mediante una distribución logarítmica normal

  • Si entonces se dice que tiene una distribución logarítmica normal de tres parámetros con soporte . , .
  • La distribución logarítmica normal es un caso especial de la distribución SU de Johnson semilimitada .
  • Si es con , entonces ( distribución Suzuki ).
  • Se puede obtener un sustituto del log-normal cuya integral se puede expresar en términos de funciones más elementales con base en la distribución logística para obtener una aproximación de la CDF
Esta es una distribución log-logística .

Inferencia estadística

Estimación de parámetros

Para determinar los estimadores de máxima verosimilitud de los parámetros de distribución logarítmica normal μ y σ , podemos utilizar el mismo procedimiento que para la distribución normal . Tenga en cuenta que

,

donde es la función de densidad de la distribución normal . Por lo tanto, la función logarítmica de verosimilitud es

.

Dado que el primer término es constante con respecto a μ y σ , ambas funciones de verosimilitud logarítmica, y , alcanzan su máximo con el mismo y . Por tanto, los estimadores de máxima verosimilitud son idénticos a los de una distribución normal para las observaciones ,

Para n finito , estos estimadores están sesgados. Mientras que el sesgo para es insignificante, se obtiene un estimador menos sesgado para la distribución normal reemplazando el denominador n por n-1 en la ecuación para .

Cuando los valores individuales no están disponibles, pero la media de la muestra y la desviación estándar s sí lo son, los parámetros correspondientes se determinan mediante las siguientes fórmulas, obtenidas al resolver las ecuaciones para la expectativa y la varianza para y :

.

Estadísticas

La forma más eficiente de analizar datos distribuidos logarítmicamente normalmente consiste en aplicar los métodos bien conocidos basados ​​en la distribución normal a los datos transformados logarítmicamente y luego volver a transformar los resultados si es apropiado.

Intervalos de dispersión

Los intervalos de dispersión dan un ejemplo básico: para la distribución normal, el intervalo contiene aproximadamente dos tercios (68%) de la probabilidad (o de una muestra grande) y contiene el 95%. Por lo tanto, para una distribución logarítmica normal,

contiene 2/3, y
contiene 95%

de la probabilidad. Usando parámetros estimados, entonces aproximadamente los mismos porcentajes de los datos deben estar contenidos en estos intervalos.

Intervalo de confianza para

Utilizando el principio, observe que un intervalo de confianza para es , donde es el error estándar yq es el cuantil del 97,5% de una distribución t con n-1 grados de libertad. La retrotransformación conduce a un intervalo de confianza para ,

con

Principio extremo de entropía para fijar el parámetro libre.

En aplicaciones, es un parámetro por determinar. Para los procesos de crecimiento equilibrados por la producción y la disipación, el uso de un principio extremo de entropía de Shannon muestra que

Este valor se puede utilizar para dar alguna relación de escala entre el punto de inflexión y el punto máximo de la distribución log-normal. Esta relación está determinada por la base del logaritmo natural , y exhibe cierta similitud geométrica con el principio de energía superficial mínima. Estas relaciones de escala son útiles para predecir una serie de procesos de crecimiento (propagación de la epidemia, salpicaduras de gotas, crecimiento de la población, velocidad de remolino del vórtice de la bañera, distribución de los caracteres del lenguaje, perfil de velocidad de las turbulencias, etc.). Por ejemplo, la función logarítmica normal con tal encaja bien con el tamaño de las gotas producidas de forma secundaria durante el impacto de las gotas y la propagación de una enfermedad epidémica.

El valor se usa para proporcionar una solución probabilística para la ecuación de Drake.

Ocurrencia y aplicaciones

La distribución logarítmica normal es importante en la descripción de los fenómenos naturales. Muchos procesos de crecimiento natural son impulsados ​​por la acumulación de muchos pequeños cambios porcentuales que se vuelven aditivos en una escala logarítmica. En condiciones de regularidad apropiadas, la distribución de los cambios acumulados resultantes se aproximará cada vez más mediante un log-normal, como se indica en la sección anterior sobre el " Teorema del límite central multiplicativo ". Esto también se conoce como ley de Gibrat , en honor a Robert Gibrat (1904-1980), quien la formuló para las empresas. Si la tasa de acumulación de estos pequeños cambios no varía con el tiempo, el crecimiento se vuelve independiente del tamaño. Incluso si eso no es cierto, las distribuciones de tamaño a cualquier edad de las cosas que crecen con el tiempo tienden a ser logarítmicas normales.

Una segunda justificación se basa en la observación de que las leyes naturales fundamentales implican multiplicaciones y divisiones de variables positivas. Algunos ejemplos son la ley de gravitación simple que conecta masas y distancias con la fuerza resultante, o la fórmula para concentraciones de equilibrio de sustancias químicas en una solución que conecta concentraciones de eductos y productos. Asumir distribuciones log-normales de las variables involucradas conduce a modelos consistentes en estos casos.

Incluso si ninguna de estas justificaciones se aplica, la distribución logarítmica normal es a menudo un modelo plausible y empíricamente adecuado. Los ejemplos incluyen lo siguiente:

Comportamientos humanos

  • La longitud de los comentarios publicados en los foros de discusión de Internet sigue una distribución logarítmica normal.
  • El tiempo de permanencia de los usuarios en los artículos en línea (bromas, noticias, etc.) sigue una distribución logarítmica normal.
  • La duración de las partidas de ajedrez tiende a seguir una distribución logarítmica normal.
  • Las duraciones de inicio de los estímulos de comparación acústica que se corresponden con un estímulo estándar siguen una distribución logarítmica normal.
  • Las soluciones del cubo de Rubik , tanto generales como personales, parecen seguir una distribución logarítmica normal.

En biología y medicina

  • Medidas de tamaño de tejido vivo (longitud, área de piel, peso).
  • Para epidemias altamente transmisibles, como el SARS en 2003, si se involucran políticas de control de intervención pública, se muestra que el número de casos hospitalizados satisface la distribución logarítmica normal sin parámetros libres si se asume una entropía y la desviación estándar está determinada por la principio de la tasa máxima de producción de entropía.
  • La longitud de los apéndices inertes (pelo, garras, uñas, dientes) de especímenes biológicos, en la dirección de crecimiento.
  • El recuento normalizado de RNA-Seq para cualquier región genómica puede aproximarse bien mediante una distribución logarítmica normal.
  • La longitud de lectura de secuenciación de PacBio sigue una distribución logarítmica normal.
  • Ciertas medidas fisiológicas, como la presión arterial de humanos adultos (después de la separación en subpoblaciones masculinas / femeninas).
  • Varias variables farmacocinéticas , como la C max , la vida media de eliminación y la tasa de eliminación constante .
  • En neurociencia, la distribución de las tasas de activación en una población de neuronas suele ser aproximadamente logarítmica normal. Esto se ha observado primero en la corteza y el cuerpo estriado y más tarde en el hipocampo y la corteza entorrinal, y en otras partes del cerebro. Además, las distribuciones de ganancia intrínseca y las distribuciones de peso sinápticas también parecen ser logarítmicas normales.
  • En la gestión de quirófanos, la distribución de la duración de la cirugía .

En química coloidal y química de polímeros

En consecuencia, los rangos de referencia para las mediciones en individuos sanos se estiman con mayor precisión asumiendo una distribución logarítmica normal que asumiendo una distribución simétrica alrededor de la media.

Distribución logarítmica normal acumulada ajustada a las precipitaciones máximas anuales de 1 día, ver ajuste de distribución

Hidrología

  • En hidrología , la distribución logarítmica normal se utiliza para analizar valores extremos de variables tales como los valores máximos mensuales y anuales de las precipitaciones diarias y los volúmenes de descarga de los ríos.
La imagen de la derecha, realizada con CumFreq , ilustra un ejemplo de cómo ajustar la distribución logarítmica normal a las precipitaciones máximas anuales clasificadas en un día, mostrando también el cinturón de confianza del 90% basado en la distribución binomial .
Los datos de lluvia se representan trazando posiciones como parte de un análisis de frecuencia acumulativa .

Ciencias sociales y demografía

  • En economía , hay evidencia de que los ingresos del 97% -99% de la población se distribuyen logarítmicamente normal. (La distribución de los individuos de mayores ingresos sigue una distribución de Pareto ).
  • Si una distribución del ingreso sigue una distribución logarítmica normal con desviación estándar , entonces el coeficiente de Gini , que se usa comúnmente para evaluar la desigualdad del ingreso, se puede calcular como donde es la función de error , ya que donde es la función de distribución acumulada de una distribución normal estándar.
  • En finanzas , en particular el modelo Black-Scholes , los cambios en el logaritmo de los tipos de cambio, índices de precios e índices bursátiles se asumen normales (estas variables se comportan como interés compuesto, no como interés simple, y por tanto son multiplicativas). Sin embargo, algunos matemáticos como Benoit Mandelbrot han argumentado que las distribuciones log-Lévy , que poseen colas pesadas , serían un modelo más apropiado, en particular para el análisis de caídas del mercado de valores . De hecho, las distribuciones de los precios de las acciones suelen tener una cola gruesa . La distribución de cola gruesa de los cambios durante las caídas del mercado de valores invalida los supuestos del teorema del límite central .
  • En cienciometría , el número de citas a artículos de revistas y patentes sigue una distribución logarítmica normal discreta.
  • Los tamaños de las ciudades (población) satisfacen la Ley de Gibrat. El proceso de crecimiento del tamaño de las ciudades es proporcional e invariable con respecto al tamaño. Por lo tanto, a partir del teorema del límite central , el logaritmo del tamaño de la ciudad se distribuye normalmente.

Tecnología

  • En el análisis de confiabilidad , la distribución logarítmica normal se usa a menudo para modelar los tiempos para reparar un sistema mantenible.
  • En la comunicación inalámbrica , "la potencia media local expresada en valores logarítmicos, como dB o neper, tiene una distribución normal (es decir, gaussiana)". Además, la obstrucción aleatoria de las señales de radio debido a grandes edificios y colinas, denominada sombra , a menudo se modela como una distribución logarítmica normal.
  • Distribuciones de tamaño de partículas producidas por trituración con impactos aleatorios, como en el molino de bolas .
  • La distribución del tamaño de los archivos de datos de audio y video disponibles públicamente ( tipos MIME ) sigue una distribución logarítmica normal en cinco órdenes de magnitud .
  • En redes de computadoras y análisis de tráfico de Internet , logaritmo normal se muestra como un buen modelo estadístico para representar la cantidad de tráfico por unidad de tiempo. Esto se ha demostrado mediante la aplicación de un enfoque estadístico sólido en un gran grupo de rastros reales de Internet. En este contexto, la distribución logarítmica normal ha mostrado un buen desempeño en dos casos de uso principales: (1) predecir la proporción de tiempo que el tráfico excederá un nivel dado (para acuerdo de nivel de servicio o estimación de capacidad de enlace), es decir, dimensionamiento de enlace basado en ancho de banda aprovisionamiento y (2) predicción de precios del percentil 95.

Ver también

Notas

Otras lecturas

enlaces externos