Sesgo inductivo - Inductive bias

El sesgo inductivo (también conocido como sesgo de aprendizaje ) de un algoritmo de aprendizaje es el conjunto de suposiciones que el alumno utiliza para predecir los resultados de determinadas entradas que no ha encontrado.

En el aprendizaje automático , uno tiene como objetivo construir algoritmos que sean capaces de aprender a predecir un determinado resultado objetivo. Para lograr esto, al algoritmo de aprendizaje se le presentan algunos ejemplos de entrenamiento que demuestran la relación deseada entre los valores de entrada y salida. Luego, se supone que el alumno debe aproximarse a la salida correcta, incluso para ejemplos que no se han mostrado durante el entrenamiento. Sin supuestos adicionales, este problema no se puede resolver ya que situaciones invisibles pueden tener un valor de salida arbitrario. El tipo de supuestos necesarios sobre la naturaleza de la función objetivo se subsume en la frase sesgo inductivo .

Un ejemplo clásico de sesgo inductivo es la navaja de Occam , asumiendo que la hipótesis consistente más simple sobre la función objetivo es en realidad la mejor. Aquí consistente significa que la hipótesis del alumno produce resultados correctos para todos los ejemplos que se han dado al algoritmo.

Los enfoques para una definición más formal de sesgo inductivo se basan en la lógica matemática . Aquí, el sesgo inductivo es una fórmula lógica que, junto con los datos de entrenamiento, conlleva lógicamente la hipótesis generada por el aprendiz. Sin embargo, este formalismo estricto falla en muchos casos prácticos, donde el sesgo inductivo solo se puede dar como una descripción aproximada (por ejemplo, en el caso de las redes neuronales artificiales ), o no se puede dar en absoluto.

Tipos

La siguiente es una lista de sesgos inductivos comunes en los algoritmos de aprendizaje automático.

  • Independencia condicional máxima : si la hipótesis se puede formular en un marco bayesiano , intente maximizar la independencia condicional. Este es el sesgo utilizado en el clasificador Naive Bayes .
  • Error mínimo de validación cruzada : al intentar elegir entre hipótesis, seleccione la hipótesis con el menor error de validación cruzada. Aunque la validación cruzada puede parecer libre de sesgos, los teoremas de "no almuerzo gratis" muestran que la validación cruzada debe estar sesgada.
  • Margen máximo : al trazar un límite entre dos clases, intente maximizar el ancho del límite. Este es el sesgo utilizado en las máquinas de vectores de soporte . El supuesto es que las clases distintas tienden a estar separadas por amplios límites.
  • Longitud mínima de la descripción : al formular una hipótesis, intente minimizar la longitud de la descripción de la hipótesis. El supuesto es que es más probable que las hipótesis más simples sean verdaderas. Esto NO es lo que dice la navaja de Occam. Los modelos más simples son más probables, no "es más probable que sean ciertos". Vea la navaja de Occam .
  • Funciones mínimas : a menos que exista una buena evidencia de que una función es útil, debe eliminarse. Esta es la suposición detrás de los algoritmos de selección de características .
  • Vecinos más cercanos : suponga que la mayoría de los casos en un vecindario pequeño en el espacio de entidades pertenecen a la misma clase. Dado un caso para el que se desconoce la clase, suponga que pertenece a la misma clase que la mayoría en su vecindad inmediata. Este es el sesgo utilizado en el algoritmo de los k vecinos más cercanos . El supuesto es que los casos cercanos entre sí tienden a pertenecer a la misma clase.

Cambio de sesgo

Aunque la mayoría de los algoritmos de aprendizaje tienen un sesgo estático, algunos algoritmos están diseñados para cambiar su sesgo a medida que adquieren más datos. Esto no evita el sesgo, ya que el proceso de cambio de sesgo en sí mismo debe tener un sesgo.

Ver también

Referencias