Clasificador lineal - Linear classifier

En el campo del aprendizaje automático , el objetivo de la clasificación estadística es utilizar las características de un objeto para identificar a qué clase (o grupo) pertenece. Un clasificador lineal logra esto tomando una decisión de clasificación basada en el valor de una combinación lineal de las características. Las características de un objeto también se conocen como valores de características y normalmente se presentan a la máquina en un vector llamado vector de características . Dichos clasificadores funcionan bien para problemas prácticos como la clasificación de documentos y, de manera más general, para problemas con muchas variables ( características ), alcanzando niveles de precisión comparables a los clasificadores no lineales, mientras que su preparación y uso requieren menos tiempo.

Definición

En este caso, los puntos sólidos y vacíos pueden clasificarse correctamente mediante cualquier número de clasificadores lineales. H1 (azul) los clasifica correctamente, al igual que H2 (rojo). H2 podría considerarse "mejor" en el sentido de que también está más alejado de ambos grupos. H3 (verde) no clasifica correctamente los puntos.

Si el vector de características de entrada al clasificador es un vector real , entonces la puntuación de salida es

donde es un vector real de pesos yf es una función que convierte el producto escalar de los dos vectores en la salida deseada. (En otras palabras, es un mapeo funcional lineal o de una forma en R ). El vector de peso se aprende de un conjunto de muestras de entrenamiento etiquetadas. A menudo, f es una función de umbral , que asigna todos los valores por encima de cierto umbral a la primera clase y todos los demás valores a la segunda clase; p.ej,

El superíndice T indica la transposición y es un umbral escalar. Una f más compleja podría dar la probabilidad de que un artículo pertenezca a una determinada clase.

Para un problema de clasificación de dos clases, se puede visualizar el funcionamiento de un clasificador lineal dividiendo un espacio de entrada de alta dimensión con un hiperplano : todos los puntos en un lado del hiperplano se clasifican como "sí", mientras que los otros se clasifican como "No".

Un clasificador lineal se usa a menudo en situaciones en las que la velocidad de clasificación es un problema, ya que a menudo es el clasificador más rápido, especialmente cuando es escaso. Además, los clasificadores lineales a menudo funcionan muy bien cuando el número de dimensiones en es grande, como en la clasificación de documentos , donde cada elemento es típicamente el número de apariciones de una palabra en un documento (ver matriz documento-término ). En tales casos, el clasificador debe estar bien regularizado .

Modelos generativos vs modelos discriminativos

Hay dos amplias clases de métodos para determinar los parámetros de un clasificador lineal . Pueden ser modelos generativos y discriminativos . Los métodos del primer modelo de distribución de probabilidad conjunta , mientras que los métodos del último modelo funcionan con funciones de densidad condicionales . Ejemplos de tales algoritmos incluyen:

El segundo conjunto de métodos incluye modelos discriminativos , que intentan maximizar la calidad del resultado en un conjunto de entrenamiento . Los términos adicionales en la función de costo de capacitación pueden realizar fácilmente la regularización del modelo final. Ejemplos de entrenamiento discriminativo de clasificadores lineales incluyen:

  • Regresión logística : estimación de probabilidad máxima de asumir que el conjunto de entrenamiento observado fue generado por un modelo binomial que depende de la salida del clasificador.
  • Perceptron: un algoritmo que intenta corregir todos los errores encontrados en el conjunto de entrenamiento.
  • Análisis discriminante lineal de Fisher: un algoritmo (diferente de "LDA") que maximiza la relación entre la dispersión entre clases y la dispersión dentro de la clase, sin ningún otro supuesto. Es, en esencia, un método de reducción de dimensionalidad para clasificación binaria.
  • Máquina de vectores de soporte: un algoritmo que maximiza el margen entre el hiperplano de decisión y los ejemplos del conjunto de entrenamiento.

Nota: A pesar de su nombre, LDA no pertenece a la clase de modelos discriminativos en esta taxonomía. Sin embargo, su nombre tiene sentido cuando comparamos LDA con el otro algoritmo principal de reducción de dimensionalidad lineal : análisis de componentes principales (PCA). LDA es un algoritmo de aprendizaje supervisado que utiliza las etiquetas de los datos, mientras que PCA es un algoritmo de aprendizaje no supervisado que ignora las etiquetas. Para resumir, el nombre es un artefacto histórico.

El entrenamiento discriminativo a menudo produce una mayor precisión que el modelado de las funciones de densidad condicionales. Sin embargo, el manejo de los datos faltantes suele ser más fácil con modelos de densidad condicional.

Todos los algoritmos de clasificador lineal enumerados anteriormente se pueden convertir en algoritmos no lineales que operan en un espacio de entrada diferente , usando el truco del kernel .

Entrenamiento discriminativo

El entrenamiento discriminativo de clasificadores lineales generalmente se realiza de forma supervisada , mediante un algoritmo de optimización al que se le da un conjunto de entrenamiento con salidas deseadas y una función de pérdida que mide la discrepancia entre las salidas del clasificador y las salidas deseadas. Por tanto, el algoritmo de aprendizaje resuelve un problema de optimización de la forma

dónde

  • w es un vector de parámetros de clasificador,
  • L ( y i , w T x i ) es una función de pérdida que mide la discrepancia entre la predicción del clasificador y la salida real y i para el i 'ésimo ejemplo de entrenamiento,
  • R ( w ) es unafunción de regularización que evita que los parámetros aumenten demasiado (provocando un sobreajuste ) y
  • C es una constante escalar (establecida por el usuario del algoritmo de aprendizaje) que controla el equilibrio entre la regularización y la función de pérdida.

Las funciones de pérdida populares incluyen la pérdida de bisagra (para SVM lineales) y la pérdida logarítmica (para regresión logística lineal). Si la función de regularización R es convexa , entonces lo anterior es un problema convexo . Existen muchos algoritmos para resolver estos problemas; los más populares para la clasificación lineal incluyen descenso de gradiente ( estocástico ) , L-BFGS , descenso de coordenadas y métodos de Newton .

Ver también

Notas

  1. ^ a b c Guo-Xun Yuan; Chia-Hua Ho; Chih-Jen Lin (2012). "Avances recientes de la clasificación lineal a gran escala" (PDF) . Proc. IEEE . 100 (9).
  2. ^ T. Mitchell, clasificadores generativos y discriminativos: Bayes ingenuo y regresión logística. Versión preliminar, 2005
  3. ^ AY Ng y MI Jordan. Sobre clasificadores discriminativos versus generativos: una comparación de regresión logística y Bayes ingenuo. en NIPS 14, 2002.
  4. ^ RO Duda, PE Hart, DG Stork, "Clasificación de patrones", Wiley, (2001). ISBN  0-471-05669-3
  5. ^ RO Duda, PE Hart, DG Stork, "Clasificación de patrones", Wiley, (2001). ISBN  0-471-05669-3

Otras lecturas

  1. Y. Yang, X. Liu, "Un reexamen de la categorización del texto", Proc. Conferencia ACM SIGIR, págs. 42–49, (1999). paper @ citeseer
  2. R. Herbrich, "Clasificadores de kernel de aprendizaje: teoría y algoritmos", MIT Press, (2001). ISBN  0-262-08306-X