Teorema de funciones convexas
La desigualdad de Jensen generaliza el enunciado de que una recta secante de una función convexa se encuentra por encima de su gráfica.
Visualización de la convexidad y la desigualdad de Jensen
En matemáticas , la desigualdad de Jensen , llamada así por el matemático danés Johan Jensen , relaciona el valor de una función convexa de una integral con la integral de la función convexa. Fue probado por Jensen en 1906. Dada su generalidad, la desigualdad aparece de muchas formas dependiendo del contexto, algunas de las cuales se presentan a continuación. En su forma más simple, la desigualdad establece que la transformación convexa de una media es menor o igual que la media aplicada después de la transformación convexa; es un simple corolario que ocurre lo contrario en las transformaciones cóncavas.
La desigualdad de Jensen generaliza el enunciado de que la recta secante de una función convexa se encuentra por encima de la gráfica de la función , que es la desigualdad de Jensen para dos puntos: la recta secante consta de medias ponderadas de la función convexa (para t ∈ [0,1]) ,
mientras que la gráfica de la función es la función convexa de las medias ponderadas,
Por tanto, la desigualdad de Jensen es
En el contexto de la teoría de la probabilidad , generalmente se expresa de la siguiente forma: si X es una variable aleatoria y φ es una función convexa, entonces
La diferencia entre los dos lados de la desigualdad , se llama brecha de Jensen .
Declaraciones
La forma clásica de la desigualdad de Jensen involucra varios números y pesos. La desigualdad se puede enunciar de manera bastante general utilizando el lenguaje de la teoría de la medida o (de manera equivalente) la probabilidad. En el escenario probabilístico, la desigualdad se puede generalizar aún más en toda su fuerza .
Forma finita
Para una función convexa real , números en su dominio y pesos positivos , la desigualdad de Jensen se puede expresar como:
-
|
|
( 1 )
|
y la desigualdad se invierte si es cóncava , que es
-
|
|
( 2 )
|
La igualdad es válida si y solo si o es lineal en un dominio que contiene .
Como caso particular, si los pesos son todos iguales, entonces ( 1 ) y ( 2 ) se vuelven
-
|
|
( 3 )
|
-
|
|
( 4 )
|
Por ejemplo, la función log ( x ) es cóncava , por lo que la sustitución en la fórmula anterior ( 4 ) establece el (logaritmo de la) desigualdad familiar media aritmética / media geométrica :
Una aplicación común tiene x como una función de otra variable (o grupo de variables) t , que es, . Todo esto se traslada directamente al caso continuo general: los pesos a i se reemplazan por una función integrable no negativa f ( x ) , como una distribución de probabilidad, y las sumas se reemplazan por integrales.
Forma probabilística y teórica de la medida
Sea un espacio de probabilidad , es decir . Si es una función de valor real que es - integrable , y si es una función convexa en la línea real, entonces:
-
En un análisis real, es posible que necesitemos una estimación de
donde , y es una función integrable de Lebesgue no negativa . En este caso, la medida de Lebesgue no tiene por qué ser la unidad. Sin embargo, mediante integración por sustitución, el intervalo se puede reescalar para que tenga unidad de medida. Entonces la desigualdad de Jensen se puede aplicar para obtener
El mismo resultado puede expresarse de manera equivalente en un escenario de teoría de probabilidad , mediante un simple cambio de notación. Sea un espacio de probabilidad , X una variable aleatoria de valor real integrable y φ una función convexa . Luego:
En esta configuración de probabilidad, la medida μ se pretende como una probabilidad , la integral con respecto a mu como un valor esperado , y la función como una variable aleatoria X .
Tenga en cuenta que la igualdad se cumple si y solo si φ es una función lineal en algún conjunto convexo tal que (que sigue al inspeccionar la prueba teórica de la medida a continuación).
Desigualdad general en un entorno probabilístico
De manera más general, sea T un espacio vectorial topológico real y X una variable aleatoria integrable valorada en T. En esta configuración general, integrable significa que existe un elemento en T , tal que para cualquier elemento z en el espacio dual de T :, y . Entonces, para cualquier función convexa medible φ y cualquier subálgebra σ de :
Aquí representa la expectativa condicionada al σ-álgebra . Esta afirmación general se reduce a las anteriores cuando el espacio vectorial topológico T es el eje real , y es el σ -álgebra {∅, Ω} trivial (donde ∅ es el conjunto vacío y Ω es el espacio muestral ).
Una forma agudizada y generalizada
Sea X una variable aleatoria unidimensional con media y varianza . Sea una función dos veces diferenciable y defina la función
Luego
En particular, when es convexo, entonces , y la forma estándar de la desigualdad de Jensen sigue inmediatamente para el caso en el que se supone adicionalmente que es dos veces diferenciable.
Pruebas
Una "prueba" gráfica de la desigualdad de Jensen para el caso probabilístico. La curva discontinua a lo largo del eje
X es la distribución hipotética de
X , mientras que la curva discontinua a lo largo del eje
Y es la distribución correspondiente de los valores de
Y. Tenga en cuenta que el mapeo convexa
Y ( X ) cada vez más "
tramos " la distribución para valores crecientes de
X .
Esta es una prueba sin palabras de la desigualdad de Jensen para
n variables. Sin pérdida de generalidad, la suma de los pesos positivos es
1 . De ello se deduce que el punto ponderado se encuentra en el casco convexo de los puntos originales, que se encuentra por encima de la función en sí por la definición de convexidad. La conclusión sigue.
La desigualdad de Jensen se puede probar de varias maneras, y se ofrecerán tres pruebas diferentes correspondientes a los diferentes enunciados anteriores. Sin embargo, antes de embarcarse en estas derivaciones matemáticas, vale la pena analizar un argumento gráfico intuitivo basado en el caso probabilístico donde X es un número real (ver figura). Suponiendo una distribución hipotética de valores X , se puede identificar inmediatamente la posición y su imagen en el gráfico. Al notar que para las asignaciones convexas Y = φ ( X ) la distribución correspondiente de los valores de Y se "estira" cada vez más para los valores crecientes de X , es fácil ver que la distribución de Y es más amplia en el intervalo correspondiente a X > X 0 y más estrecho en X < X 0 para cualquier X 0 ; en particular, esto también es válido para . En consecuencia, en esta imagen, la expectativa de Y siempre se desplazará hacia arriba con respecto a la posición de . Un razonamiento similar es válido si la distribución de X cubre una porción decreciente de la función convexa, o tanto una porción decreciente como una creciente. Esto "prueba" la desigualdad, es decir
con igualdad cuando φ ( X ) no es estrictamente convexo, por ejemplo, cuando es una línea recta, o cuando X sigue una distribución degenerada (es decir, es una constante).
Las siguientes pruebas formalizan esta noción intuitiva.
Prueba 1 (forma finita)
Si λ 1 y λ 2 son dos números reales arbitrarios no negativos tales que λ 1 + λ 2 = 1 entonces la convexidad de φ implica
Esto se puede generalizar: si λ 1 , ..., λ n son números reales no negativos tales que λ 1 + ... + λ n = 1 , entonces
para cualquier x 1 , ..., x n .
La forma finita de la desigualdad de Jensen se puede demostrar por inducción : por hipótesis de convexidad, el enunciado es verdadero para n = 2. Suponga que el enunciado es verdadero para algún n , entonces
para cualquier λ 1 , ..., λ n tal que λ 1 + ... + λ n = 1 .
Hay que demostrarlo para n + 1 . Al menos uno de los λ i es estrictamente más pequeño que , digamos λ n +1 ; por lo tanto, por desigualdad de convexidad:
Dado que λ 1 + ... + λ n + λ n +1 = 1 ,
-
,
la aplicación de la hipótesis de inducción da
por lo tanto
Deducimos que la igualdad es verdadera para n + 1 , por el principio de inducción matemática se deduce que el resultado también es cierto para todo entero n mayor que 2.
Para obtener la desigualdad general a partir de esta forma finita, es necesario utilizar un argumento de densidad. La forma finita se puede reescribir como:
donde μ n es una medida dada por una combinación convexa arbitraria de deltas de Dirac :
Dado que las funciones convexas son continuas , y dado que las combinaciones convexas de deltas de Dirac son débilmente densas en el conjunto de medidas de probabilidad (como podría verificarse fácilmente), el enunciado general se obtiene simplemente mediante un procedimiento de limitación.
Prueba 2 (forma teórica de la medida)
Sea g una función μ-integrable de valor real en un espacio de probabilidad Ω, y sea φ una función convexa en los números reales. Dado que φ es convexo, en cada número real x tenemos un conjunto no vacío de subderivadas , que pueden considerarse como líneas que tocan la gráfica de φ en x , pero que están en o debajo de la gráfica de φ en todos los puntos (líneas de soporte de la gráfica).
Ahora, si definimos
debido a la existencia de subderivatives para funciones convexas, podemos elegir una y b tal que
para todo x real y
Pero luego tenemos eso
para todo x . Como tenemos una medida de probabilidad, la integral es monótona con μ (Ω) = 1 de modo que
como se desee.
Prueba 3 (desigualdad general en un entorno probabilístico)
Deje que X sea una variable aleatoria integrable que toma valores en un espacio vectorial topológico verdadera T . Dado que es convexo, para cualquiera , la cantidad
está disminuyendo a medida que θ se acerca a 0 + . En particular, el subdiferencial de evaluado en x en la dirección y está bien definido por
Se ve fácilmente que el subdiferencial es lineal en y (eso es falso y la afirmación requiere que se demuestre el teorema de Hahn-Banach) y, dado que el infimum tomado en el lado derecho de la fórmula anterior es menor que el valor de la mismo término para θ = 1 , se obtiene
En particular, para una arbitraria sub- σ -álgebra podemos evaluar la última desigualdad cuando para obtener
Ahora, si tomamos la expectativa condicionada a en ambos lados de la expresión anterior, obtenemos el resultado ya que:
por la linealidad del subdiferencial en la variable y , y la siguiente propiedad conocida de la expectativa condicional :
Aplicaciones y casos especiales
Forma que involucra una función de densidad de probabilidad
Suponga que Ω es un subconjunto medible de la línea real y f ( x ) es una función no negativa tal que
En lenguaje probabilístico, f es una función de densidad de probabilidad .
Entonces, la desigualdad de Jensen se convierte en el siguiente enunciado sobre integrales convexas:
Si g es cualquier función medible de valor real y es convexa en el rango de g , entonces
Si g ( x ) = x , entonces esta forma de desigualdad se reduce a un caso especial de uso común:
Esto se aplica en métodos Bayesianos Variacionales .
Ejemplo: momentos pares de una variable aleatoria
Si g ( x ) = x 2n , y X es una variable aleatoria, entonces g es convexa como
y entonces
En particular, si algún momento par 2n de X es finito, X tiene una media finita. Una extensión de este argumento muestra que X tiene momentos finitos de cada orden que dividen a n .
Forma finita alternativa
Sea Ω = { x 1 , ... x n }, y tome μ como la medida de conteo en Ω , entonces la forma general se reduce a un enunciado sobre sumas:
siempre que λ i ≥ 0 y
También hay una forma discreta infinita.
Física estadística
La desigualdad de Jensen es de particular importancia en física estadística cuando la función convexa es exponencial, dando:
donde los valores esperados son con respecto a alguna distribución de probabilidad en la variable aleatoria X .
La prueba en este caso es muy simple (cf. Chandler, Sec. 5.5). La desigualdad deseada sigue directamente, escribiendo
y luego aplicando la desigualdad e X ≥ 1 + X al exponencial final.
Teoría de la información
Si p ( x ) es la densidad de probabilidad verdadera para X , y q ( x ) es otra densidad, entonces aplicando la desigualdad de Jensen para la variable aleatoria Y ( X ) = q ( X ) / p ( X ) y la función convexa φ ( y ) = −log ( y ) da
Por lo tanto:
un resultado llamado desigualdad de Gibbs .
Muestra que la longitud promedio del mensaje se minimiza cuando los códigos se asignan sobre la base de las probabilidades reales p en lugar de cualquier otra distribución q . La cantidad que no es negativa se llama divergencia de Kullback-Leibler de q de p .
Dado que −log ( x ) es una función estrictamente convexa para x > 0 , se deduce que la igualdad se cumple cuando p ( x ) es igual a q ( x ) casi en todas partes.
Teorema de Rao-Blackwell
Si L es una función convexa y un álgebra subsigma, entonces, de la versión condicional de la desigualdad de Jensen, obtenemos
Entonces, si δ ( X ) es algún estimador de un parámetro no observado θ dado un vector de observables X ; y si T ( X ) es una estadística suficiente para θ; entonces se puede obtener un estimador mejorado, en el sentido de tener una pérdida esperada L menor , calculando
el valor esperado de δ con respecto a θ, tomado sobre todos los posibles vectores de observaciones X compatibles con el mismo valor de T ( X ) que el observado. Además, dado que T es una estadística suficiente, no depende de θ, por lo que se convierte en una estadística.
Este resultado se conoce como el teorema de Rao-Blackwell .
Ver también
Notas
Referencias
enlaces externos