Pérdida de Huber - Huber loss

En estadística , la pérdida de Huber es una función de pérdida utilizada en regresión robusta , que es menos sensible a los valores atípicos en los datos que la pérdida por error al cuadrado . A veces también se utiliza una variante de clasificación.

Definición

Pérdida de Huber (verde ) y pérdida de error al cuadrado (azul) en función de

{\ Displaystyle \ delta = 1}

{\ Displaystyle yf (x)}

La función de pérdida de Huber describe la penalización incurrida por un procedimiento de estimación $f$ . Huber (1964) define la función de pérdida por partes por

{\ Displaystyle L _ {\ delta} (a) = {\ begin {cases} {\ frac {1} {2}} {a ^ {2}} & {\ text {para}} | a | \ leq \ delta , \\\ delta (| a | - {\ frac {1} {2}} \ delta), & {\ text {de lo contrario.}} \ end {cases}}}

Esta función es cuadrática para valores pequeños de $a$ , y lineal para valores grandes, con iguales valores y pendientes de las diferentes secciones en los dos puntos donde . La variable a $a$ menudo se refiere a los residuos, es decir, a la diferencia entre los valores observados y predichos , por lo que el primero se puede expandir a ${\ Displaystyle | a | = \ delta}$ ${\ Displaystyle a = yf (x)}$

{\ Displaystyle L _ {\ delta} (y, f (x)) = {\ begin {cases} {\ frac {1} {2}} (yf (x)) ^ {2} & {\ textrm {for} } | yf (x) | \ leq \ delta, \\\ delta \, (| yf (x) | - {\ frac {1} {2}} \ delta), & {\ textrm {de lo contrario.}} \ finalizar {casos}}}

Motivación

Dos funciones de pérdida utilizados muy comúnmente son la pérdida cuadrado , y la pérdida absoluta , . Los resultados cuadrado función de pérdida en una media aritmética - estimador insesgado , y los de valor absoluto resultados de la función de pérdida en una mediana estimador -unbiased (en el caso unidimensional, y una mediana geométrica estimador -unbiased para el caso multi-dimensional). La pérdida al cuadrado tiene la desventaja de que tiende a estar dominada por valores atípicos: cuando se suma un conjunto de 's (como en ), la media muestral está demasiado influenciada por unos pocos valores particularmente grandes cuando la distribución es de colas gruesas : en términos de la teoría de la estimación , la eficiencia relativa asintótica de la media es pobre para distribuciones de colas pesadas. ${\ Displaystyle L (a) = a ^ {2}}$ ${\ Displaystyle L (a) = | a |}$ ${\ Displaystyle a}$ ${\ textstyle \ sum _ {i = 1} ^ {n} L (a_ {i})}$ ${\ Displaystyle a}$

Como se definió anteriormente, la función de pérdida de Huber es fuertemente convexa en una vecindad uniforme de su mínimo ; en el límite de esta vecindad uniforme, la función de pérdida de Huber tiene una extensión diferenciable a una función afín en los puntos y . Estas propiedades le permiten combinar gran parte de la sensibilidad del estimador de varianza mínima y media insesgada de la media (usando la función de pérdida cuadrática) y la robustez del estimador de mediana insesgado (usando la función de valor absoluto). ${\ Displaystyle a = 0}$ ${\ Displaystyle a = - \ delta}$ ${\ Displaystyle a = \ delta}$

Función de pérdida de pseudo-Huber

La función de pérdida de Pseudo-Huber se puede utilizar como una aproximación suave de la función de pérdida de Huber. Combina las mejores propiedades de la pérdida al cuadrado de L2 y la pérdida absoluta de L1 al ser fuertemente convexa cuando está cerca del objetivo / mínimo y menos pronunciada para los valores extremos. La escala a la que la función de pérdida de Pseudo-Huber pasa de la pérdida L2 para valores cercanos al mínimo a la pérdida L1 para valores extremos y la inclinación en valores extremos puede controlarse mediante el valor. La función de pérdida de Pseudo-Huber asegura que las derivadas sean continuas para todos los grados. Se define como ${\ Displaystyle \ delta}$

{\ Displaystyle L _ {\ delta} (a) = \ delta ^ {2} \ left ({\ sqrt {1+ (a / \ delta) ^ {2}}} - 1 \ right).}

Como tal, esta función se aproxima para valores pequeños de y aproxima una línea recta con pendiente para valores grandes de . ${\ Displaystyle a ^ {2} / 2}$ ${\ Displaystyle a}$ ${\ Displaystyle \ delta}$ ${\ Displaystyle a}$

Si bien lo anterior es la forma más común, también existen otras aproximaciones suaves de la función de pérdida de Huber.

Variante de clasificación

Para fines de clasificación , a veces se usa una variante de la pérdida de Huber llamada Huber modificado . Dada una predicción (una puntuación de clasificador de valor real) y una etiqueta de clase binaria verdadera , la pérdida de Huber modificada se define como ${\ Displaystyle f (x)}$ ${\ Displaystyle y \ in \ {+ 1, -1 \}}$