Matriz Hessiana - Hessian matrix

En matemáticas , la matriz hessiana o hessiana es una matriz cuadrada de derivadas parciales de segundo orden de una función escalar o campo escalar . Describe la curvatura local de una función de muchas variables. La matriz de Hesse fue desarrollada en el siglo XIX por el matemático alemán Ludwig Otto Hesse y más tarde recibió su nombre. Hesse utilizó originalmente el término "determinantes funcionales".

Definiciones y propiedades

Supongamos que es una función que toma como entrada un vector y genera un escalar.Si todas las segundas derivadas parciales de existen y son continuas en el dominio de la función, entonces la matriz hessiana de es una matriz cuadrada , generalmente definida y organizada de la siguiente manera:

o, estableciendo una ecuación para los coeficientes usando índices i y j,

La matriz de Hesse es una matriz simétrica , ya que la hipótesis de continuidad de las segundas derivadas implica que el orden de diferenciación no importa ( teorema de Schwarz ).

El determinante de la matriz de Hesse se llama determinante de Hesse .

La matriz hessiana de una función es la matriz jacobiana del gradiente de la función ; es decir:

Aplicaciones

Puntos de inflexión

Si es un polinomio homogéneo en tres variables, la ecuación es la ecuación implícita de una curva proyectiva plana . Los puntos de inflexión de la curva son exactamente los puntos no singulares donde el determinante de Hesse es cero. Se deduce del teorema de Bézout que una curva plana cúbica tiene como máximo puntos de inflexión, ya que el determinante de Hesse es un polinomio de grado

Prueba de segunda derivada

La matriz de Hesse de una función convexa es semidefinida positiva . El refinamiento de esta propiedad nos permite probar si un punto crítico es un máximo local, un mínimo local o un punto de silla, de la siguiente manera:

Si el hessiano es positivo-definido en entonces alcanza un mínimo local aislado en Si el hessiano es negativo-definido en entonces alcanza un máximo local aislado en Si el hessiano tiene valores propios positivos y negativos , entonces es un punto de silla para De lo contrario, la prueba es poco concluyente. Esto implica que en un mínimo local el hessiano es positivo-semidefinito, y en un máximo local el hessiano es negativo-semidefinito.

Para hessianos positivo-semidefinito y negativo-semidefinito, la prueba no es concluyente (un punto crítico donde el hessiano es semidefinido pero no definido puede ser un extremo local o un punto silla). Sin embargo, se puede decir más desde el punto de vista de la teoría Morse .

La prueba de la segunda derivada para funciones de una y dos variables es más simple que el caso general. En una variable, el hessiano contiene exactamente una segunda derivada; si es positivo, entonces es un mínimo local, y si es negativo, entonces es un máximo local; si es cero, la prueba no es concluyente. En dos variables, el determinante se puede utilizar, debido a que el factor determinante es el producto de los valores propios. Si es positivo, los valores propios son ambos positivos o negativos. Si es negativo, los dos valores propios tienen signos diferentes. Si es cero, entonces la prueba de la segunda derivada no es concluyente.

De manera equivalente, las condiciones de segundo orden que son suficientes para un mínimo o máximo local se pueden expresar en términos de la secuencia de los principales (arriba a la izquierda) menores (determinantes de submatrices) del hessiano; estas condiciones son un caso especial de las que se dan en la siguiente sección para hessianos con borde para optimización restringida, el caso en el que el número de restricciones es cero. En concreto, la condición suficiente para un mínimo es que todos estos menores principales sean positivos, mientras que la condición suficiente para un máximo es que los menores se alternen de signo, siendo el menor negativo.

Puntos críticos

Si el gradiente (el vector de las derivadas parciales) de una función es cero en algún punto, entonces tiene un punto crítico (o punto estacionario ) en El determinante del hessiano en se llama, en algunos contextos, discriminante . Si este determinante es cero, entonces se llama un punto crítico degenerada de o un punto crítico no Morse de lo contrario, es no degenerada, y llamado un punto crítico Morse de

La matriz de Hesse juega un papel importante en la teoría de Morse y la teoría de catástrofes , porque su núcleo y valores propios permiten la clasificación de los puntos críticos.

El determinante de la matriz de Hesse, cuando se evalúa en un punto crítico de una función, es igual a la curvatura gaussiana de la función considerada como una variedad. Los valores propios del hessiano en ese punto son las curvaturas principales de la función, y los vectores propios son las direcciones principales de la curvatura. (Ver Curvatura gaussiana § Relación con las curvaturas principales ).

Usar en optimización

Las matrices hessianas se utilizan en problemas de optimización a gran escala dentro de los métodos de tipo Newton porque son el coeficiente del término cuadrático de una expansión local de Taylor de una función. Es decir,

donde está el gradiente Calcular y almacenar la matriz hessiana completa requiere memoria, lo cual no es factible para funciones de alta dimensión, como las funciones de pérdida de redes neuronales , campos aleatorios condicionales y otros modelos estadísticos con un gran número de parámetros. Para tales situaciones, se han desarrollado algoritmos de Newton truncado y cuasi Newton . La última familia de algoritmos utiliza aproximaciones al hessiano; Uno de los algoritmos cuasi-Newton más populares es BFGS .

Tales aproximaciones pueden usar el hecho de que un algoritmo de optimización usa el hessiano solo como un operador lineal y procede al notar primero que el hessiano también aparece en la expansión local del gradiente:

Dejando algunos escalares esto da

es decir,
por tanto, si el gradiente ya está calculado, el hessiano aproximado puede calcularse mediante un número lineal (en el tamaño del gradiente) de operaciones escalares. (Aunque es fácil de programar, este esquema de aproximación no es estable numéricamente ya que debe hacerse pequeño para evitar errores debido al término, pero al disminuirlo se pierde precisión en el primer término).

Otras aplicaciones

La matriz de Hesse se usa comúnmente para expresar operadores de procesamiento de imágenes en el

procesamiento de imágenes y la visión por computadora (consulte el detector de manchas Laplaciano de Gauss (LoG), el determinante del detector de manchas y el espacio de escala de Hesse (DoH) ). La matriz de Hesse también se puede utilizar en análisis de modo normal para calcular las diferentes frecuencias moleculares en espectroscopía infrarroja .

Generalizaciones

Arpillera bordeada

Se utiliza un arpillera con borde para la prueba de la segunda derivada en ciertos problemas de optimización restringida. Dada la función considerada anteriormente, pero agregando una función de restricción tal que el hessiano bordeado sea el hessiano de la

función de Lagrange

Si hay, digamos, restricciones , entonces el cero en la esquina superior izquierda es un bloque de ceros, y hay filas de borde en la parte superior y columnas de borde en la izquierda.

Las reglas anteriores que indican que los extremos se caracterizan (entre puntos críticos con un Hessian no singular) por un Hessian definida positiva o negativa-definida no puede aplicarse aquí desde un Hessian confinado ni puede ser negativo-definida ni definida positiva, como si es cualquier vector cuya única entrada distinta de cero sea la primera.

La prueba de la segunda derivada consiste aquí en restricciones de signo de los determinantes de un cierto conjunto de submatrices de la arpillera bordeada. Intuitivamente, se puede pensar que las restricciones reducen el problema a uno con variables libres. (Por ejemplo, la maximización de sujeto a la restricción se puede reducir a la maximización de sin restricción).

Específicamente, las condiciones de signo se imponen en la secuencia de los principales menores principales (determinantes de las submatrices justificadas en la parte superior izquierda) de la arpillera delimitada, para la cual se descuidan los primeros menores principales principales, el menor menor que consiste en las primeras filas truncadas y columnas, la siguiente formada por las primeras filas y columnas truncadas , y así sucesivamente, siendo la última toda la arpillera bordeada; si es mayor que entonces el menor principal principal más pequeño es el propio Hessian. Por tanto, hay menores a considerar, cada uno de los evaluados en un punto específico es considerado como

candidato máximo o mínimo . Una condición suficiente para un máximo local es que estos menores alternen en signo con el más pequeño que tenga el signo de Una condición suficiente para un mínimo local es que todos estos menores tengan el signo de (En el caso libre de estas condiciones coincidan con el condiciones para que el hessiano sin fronteras sea definido negativo o definido positivo respectivamente).

Funciones con valores vectoriales

Si, en cambio, es un

campo vectorial , es decir,
entonces la colección de segundas derivadas parciales no es una matriz, sino más bien un
tensor de tercer orden . Esto se puede considerar como una matriz de matrices hessianas, una para cada componente de :
Este tensor degenera a la matriz de Hesse habitual cuando

Generalización al caso complejo

En el contexto de varias variables complejas , el hessiano puede generalizarse. Suponga y escriba Entonces el hessiano generalizado es Si satisface las condiciones n-dimensionales de

Cauchy-Riemann , entonces la matriz hessiana compleja es idénticamente cero.

Generalizaciones a variedades de Riemann

Sea una

variedad riemanniana y su conexión Levi-Civita . Sea una función suave. Defina el tensor de Hesse por
donde esto se aprovecha del hecho de que la primera derivada covariante de una función es la misma que su derivada ordinaria. La elección de coordenadas locales da una expresión local para el hessiano como
¿Dónde están los
símbolos de Christoffel de la conexión? Otras formas equivalentes para el hessiano están dadas por

Ver también

Notas

Otras lecturas

  • Lewis, David W. (1991). Teoría de matrices . Singapur: World Scientific. ISBN 978-981-02-0689-5.
  • Magnus, Jan R .; Neudecker, Heinz (1999). "El Segundo Diferencial". Cálculo diferencial matricial: con aplicaciones en estadística y econometría (edición revisada). Nueva York: Wiley. págs. 99-115. ISBN 0-471-98633-X.

enlaces externos