La desigualdad de Jensen - Jensen's inequality

La desigualdad de Jensen generaliza el enunciado de que una recta secante de una función convexa se encuentra por encima de su gráfica.
Visualización de la convexidad y la desigualdad de Jensen

En matemáticas , la desigualdad de Jensen , llamada así por el matemático danés Johan Jensen , relaciona el valor de una función convexa de una integral con la integral de la función convexa. Fue probado por Jensen en 1906. Dada su generalidad, la desigualdad aparece de muchas formas dependiendo del contexto, algunas de las cuales se presentan a continuación. En su forma más simple, la desigualdad establece que la transformación convexa de una media es menor o igual que la media aplicada después de la transformación convexa; es un simple corolario que ocurre lo contrario en las transformaciones cóncavas.

La desigualdad de Jensen generaliza el enunciado de que la recta secante de una función convexa se encuentra por encima de la gráfica de la función , que es la desigualdad de Jensen para dos puntos: la recta secante consta de medias ponderadas de la función convexa (para t  ∈ [0,1]) ,

mientras que la gráfica de la función es la función convexa de las medias ponderadas,

Por tanto, la desigualdad de Jensen es

En el contexto de la teoría de la probabilidad , generalmente se expresa de la siguiente forma: si X es una variable aleatoria y φ es una función convexa, entonces

La diferencia entre los dos lados de la desigualdad , se llama brecha de Jensen .

Declaraciones

La forma clásica de la desigualdad de Jensen involucra varios números y pesos. La desigualdad se puede enunciar de manera bastante general utilizando el lenguaje de la teoría de la medida o (de manera equivalente) la probabilidad. En el escenario probabilístico, la desigualdad se puede generalizar aún más en toda su fuerza .

Forma finita

Para una función convexa real , números en su dominio y pesos positivos , la desigualdad de Jensen se puede expresar como:

 

 

 

 

( 1 )

y la desigualdad se invierte si es cóncava , que es

 

 

 

 

( 2 )

La igualdad es válida si y solo si o es lineal en un dominio que contiene .

Como caso particular, si los pesos son todos iguales, entonces ( 1 ) y ( 2 ) se vuelven

 

 

 

 

( 3 )

 

 

 

 

( 4 )

Por ejemplo, la función log ( x ) es cóncava , por lo que la sustitución en la fórmula anterior ( 4 ) establece el (logaritmo de la) desigualdad familiar media aritmética / media geométrica :

Una aplicación común tiene x como una función de otra variable (o grupo de variables) t , que es, . Todo esto se traslada directamente al caso continuo general: los pesos a i se reemplazan por una función integrable no negativa f  ( x ) , como una distribución de probabilidad, y las sumas se reemplazan por integrales.

Forma probabilística y teórica de la medida

Sea un espacio de probabilidad , es decir . Si es una función de valor real que es - integrable , y si es una función convexa en la línea real, entonces:

En un análisis real, es posible que necesitemos una estimación de

donde , y es una función integrable de Lebesgue no negativa . En este caso, la medida de Lebesgue no tiene por qué ser la unidad. Sin embargo, mediante integración por sustitución, el intervalo se puede reescalar para que tenga unidad de medida. Entonces la desigualdad de Jensen se puede aplicar para obtener

El mismo resultado puede expresarse de manera equivalente en un escenario de teoría de probabilidad , mediante un simple cambio de notación. Sea un espacio de probabilidad , X una variable aleatoria de valor real integrable y φ una función convexa . Luego:

En esta configuración de probabilidad, la medida μ se pretende como una probabilidad , la integral con respecto a mu como un valor esperado , y la función como una variable aleatoria X .

Tenga en cuenta que la igualdad se cumple si y solo si φ es una función lineal en algún conjunto convexo tal que (que sigue al inspeccionar la prueba teórica de la medida a continuación).

Desigualdad general en un entorno probabilístico

De manera más general, sea T un espacio vectorial topológico real y X una variable aleatoria integrable valorada en T. En esta configuración general, integrable significa que existe un elemento en T , tal que para cualquier elemento z en el espacio dual de T :, y . Entonces, para cualquier función convexa medible φ y cualquier subálgebra σ de :

Aquí representa la expectativa condicionada al σ-álgebra . Esta afirmación general se reduce a las anteriores cuando el espacio vectorial topológico T es el eje real , y es el σ -álgebra {∅, Ω} trivial (donde es el conjunto vacío y Ω es el espacio muestral ).

Una forma agudizada y generalizada

Sea X una variable aleatoria unidimensional con media y varianza . Sea una función dos veces diferenciable y defina la función

Luego

En particular, when es convexo, entonces , y la forma estándar de la desigualdad de Jensen sigue inmediatamente para el caso en el que se supone adicionalmente que es dos veces diferenciable.

Pruebas

Una "prueba" gráfica de la desigualdad de Jensen para el caso probabilístico. La curva discontinua a lo largo del eje X es la distribución hipotética de X , mientras que la curva discontinua a lo largo del eje Y es la distribución correspondiente de los valores de Y. Tenga en cuenta que el mapeo convexa Y ( X ) cada vez más " tramos " la distribución para valores crecientes de X .
Esta es una prueba sin palabras de la desigualdad de Jensen para n variables. Sin pérdida de generalidad, la suma de los pesos positivos es 1 . De ello se deduce que el punto ponderado se encuentra en el casco convexo de los puntos originales, que se encuentra por encima de la función en sí por la definición de convexidad. La conclusión sigue.

La desigualdad de Jensen se puede probar de varias maneras, y se ofrecerán tres pruebas diferentes correspondientes a los diferentes enunciados anteriores. Sin embargo, antes de embarcarse en estas derivaciones matemáticas, vale la pena analizar un argumento gráfico intuitivo basado en el caso probabilístico donde X es un número real (ver figura). Suponiendo una distribución hipotética de valores X , se puede identificar inmediatamente la posición y su imagen en el gráfico. Al notar que para las asignaciones convexas Y = φ ( X ) la distribución correspondiente de los valores de Y se "estira" cada vez más para los valores crecientes de X , es fácil ver que la distribución de Y es más amplia en el intervalo correspondiente a X > X 0 y más estrecho en X < X 0 para cualquier X 0 ; en particular, esto también es válido para . En consecuencia, en esta imagen, la expectativa de Y siempre se desplazará hacia arriba con respecto a la posición de . Un razonamiento similar es válido si la distribución de X cubre una porción decreciente de la función convexa, o tanto una porción decreciente como una creciente. Esto "prueba" la desigualdad, es decir

con igualdad cuando φ ( X ) no es estrictamente convexo, por ejemplo, cuando es una línea recta, o cuando X sigue una distribución degenerada (es decir, es una constante).

Las siguientes pruebas formalizan esta noción intuitiva.

Prueba 1 (forma finita)

Si λ 1 y λ 2 son dos números reales arbitrarios no negativos tales que λ 1 + λ 2 = 1 entonces la convexidad de φ implica

Esto se puede generalizar: si λ 1 , ..., λ n son números reales no negativos tales que λ 1 + ... + λ n = 1 , entonces

para cualquier x 1 , ..., x n .

La forma finita de la desigualdad de Jensen se puede demostrar por inducción : por hipótesis de convexidad, el enunciado es verdadero para n  = 2. Suponga que el enunciado es verdadero para algún n , entonces

para cualquier λ 1 , ..., λ n tal que λ 1 + ... + λ n = 1 .

Hay que demostrarlo para n + 1 . Al menos uno de los λ i es estrictamente más pequeño que , digamos λ n +1 ; por lo tanto, por desigualdad de convexidad:

Dado que λ 1 + ... + λ n + λ n +1 = 1 ,

,

la aplicación de la hipótesis de inducción da

por lo tanto

Deducimos que la igualdad es verdadera para n + 1 , por el principio de inducción matemática se deduce que el resultado también es cierto para todo entero n mayor que 2.

Para obtener la desigualdad general a partir de esta forma finita, es necesario utilizar un argumento de densidad. La forma finita se puede reescribir como:

donde μ n es una medida dada por una combinación convexa arbitraria de deltas de Dirac :

Dado que las funciones convexas son continuas , y dado que las combinaciones convexas de deltas de Dirac son débilmente densas en el conjunto de medidas de probabilidad (como podría verificarse fácilmente), el enunciado general se obtiene simplemente mediante un procedimiento de limitación.

Prueba 2 (forma teórica de la medida)

Sea g una función μ-integrable de valor real en un espacio de probabilidad Ω, y sea φ una función convexa en los números reales. Dado que φ es convexo, en cada número real x tenemos un conjunto no vacío de subderivadas , que pueden considerarse como líneas que tocan la gráfica de φ en x , pero que están en o debajo de la gráfica de φ en todos los puntos (líneas de soporte de la gráfica).

Ahora, si definimos

debido a la existencia de subderivatives para funciones convexas, podemos elegir una y b tal que

para todo x real y

Pero luego tenemos eso

para todo x . Como tenemos una medida de probabilidad, la integral es monótona con μ (Ω) = 1 de modo que

como se desee.

Prueba 3 (desigualdad general en un entorno probabilístico)

Deje que X sea una variable aleatoria integrable que toma valores en un espacio vectorial topológico verdadera T . Dado que es convexo, para cualquiera , la cantidad

está disminuyendo a medida que θ se acerca a 0 + . En particular, el subdiferencial de evaluado en x en la dirección y está bien definido por

Se ve fácilmente que el subdiferencial es lineal en y (eso es falso y la afirmación requiere que se demuestre el teorema de Hahn-Banach) y, dado que el infimum tomado en el lado derecho de la fórmula anterior es menor que el valor de la mismo término para θ = 1 , se obtiene

En particular, para una arbitraria sub- σ -álgebra podemos evaluar la última desigualdad cuando para obtener

Ahora, si tomamos la expectativa condicionada a en ambos lados de la expresión anterior, obtenemos el resultado ya que:

por la linealidad del subdiferencial en la variable y , y la siguiente propiedad conocida de la expectativa condicional :

Aplicaciones y casos especiales

Forma que involucra una función de densidad de probabilidad

Suponga que Ω es un subconjunto medible de la línea real y f ( x ) es una función no negativa tal que

En lenguaje probabilístico, f es una función de densidad de probabilidad .

Entonces, la desigualdad de Jensen se convierte en el siguiente enunciado sobre integrales convexas:

Si g es cualquier función medible de valor real y es convexa en el rango de g , entonces

Si g ( x ) = x , entonces esta forma de desigualdad se reduce a un caso especial de uso común:

Esto se aplica en métodos Bayesianos Variacionales .

Ejemplo: momentos pares de una variable aleatoria

Si g ( x ) = x 2n , y X es una variable aleatoria, entonces g es convexa como

y entonces

En particular, si algún momento par 2n de X es finito, X tiene una media finita. Una extensión de este argumento muestra que X tiene momentos finitos de cada orden que dividen a n .

Forma finita alternativa

Sea Ω = { x 1 , ... x n }, y tome μ como la medida de conteo en Ω , entonces la forma general se reduce a un enunciado sobre sumas:

siempre que λ i ≥ 0 y

También hay una forma discreta infinita.

Física estadística

La desigualdad de Jensen es de particular importancia en física estadística cuando la función convexa es exponencial, dando:

donde los valores esperados son con respecto a alguna distribución de probabilidad en la variable aleatoria X .

La prueba en este caso es muy simple (cf. Chandler, Sec. 5.5). La desigualdad deseada sigue directamente, escribiendo

y luego aplicando la desigualdad e X ≥ 1 + X al exponencial final.

Teoría de la información

Si p ( x ) es la densidad de probabilidad verdadera para X , y q ( x ) es otra densidad, entonces aplicando la desigualdad de Jensen para la variable aleatoria Y ( X ) = q ( X ) / p ( X ) y la función convexa φ ( y ) = −log ( y ) da

Por lo tanto:

un resultado llamado desigualdad de Gibbs .

Muestra que la longitud promedio del mensaje se minimiza cuando los códigos se asignan sobre la base de las probabilidades reales p en lugar de cualquier otra distribución q . La cantidad que no es negativa se llama divergencia de Kullback-Leibler de q de p .

Dado que −log ( x ) es una función estrictamente convexa para x > 0 , se deduce que la igualdad se cumple cuando p ( x ) es igual a q ( x ) casi en todas partes.

Teorema de Rao-Blackwell

Si L es una función convexa y un álgebra subsigma, entonces, de la versión condicional de la desigualdad de Jensen, obtenemos

Entonces, si δ ( X ) es algún estimador de un parámetro no observado θ dado un vector de observables X ; y si T ( X ) es una estadística suficiente para θ; entonces se puede obtener un estimador mejorado, en el sentido de tener una pérdida esperada L menor , calculando

el valor esperado de δ con respecto a θ, tomado sobre todos los posibles vectores de observaciones X compatibles con el mismo valor de T ( X ) que el observado. Además, dado que T es una estadística suficiente, no depende de θ, por lo que se convierte en una estadística.

Este resultado se conoce como el teorema de Rao-Blackwell .

Ver también

Notas

Referencias

enlaces externos