Partición recursiva - Recursive partitioning

La partición recursiva es un método estadístico para el análisis multivariable . La partición recursiva crea un árbol de decisiones que se esfuerza por clasificar correctamente a los miembros de la población dividiéndolos en subpoblaciones en función de varias variables independientes dicotómicas . El proceso se denomina recursivo porque cada subpoblación puede, a su vez, dividirse un número indefinido de veces hasta que el proceso de división finalice después de que se alcance un criterio de detención particular.

Un árbol de partición recursivo que muestra la supervivencia de los pasajeros del Titanic ("sibsp" es el número de cónyuges o hermanos a bordo). Las cifras debajo de las hojas muestran la probabilidad de supervivencia y el porcentaje de observaciones en la hoja. Resumiendo: Sus posibilidades de supervivencia eran buenas si era (i) una mujer o (ii) un niño sin varios miembros de la familia.

Los métodos de partición recursiva se han desarrollado desde la década de 1980. Los métodos bien conocidos de partición recursiva incluyen el algoritmo ID3 de Ross Quinlan y sus sucesores, C4.5 y C5.0 y árboles de clasificación y regresión . Los métodos de aprendizaje por conjuntos , como los bosques aleatorios, ayudan a superar una crítica común de estos métodos, su vulnerabilidad al sobreajuste de los datos, al emplear diferentes algoritmos y combinar su salida de alguna manera.

Este artículo se centra en la partición recursiva para pruebas de diagnóstico médico , pero la técnica tiene aplicaciones mucho más amplias. Ver árbol de decisiones .

En comparación con el análisis de regresión, que crea una fórmula que los proveedores de atención médica pueden usar para calcular la probabilidad de que un paciente tenga una enfermedad, la partición recursiva crea una regla como 'Si un paciente encuentra x, yoz, probablemente tenga la enfermedad q '.

Una variación es la "partición recursiva lineal de Cox".

Ventajas y desventajas

En comparación con otros métodos multivariables, la partición recursiva tiene ventajas y desventajas.

  • Las ventajas son:
    • Genera modelos clínicamente más intuitivos que no requieren que el usuario realice cálculos.
    • Permite variar la priorización de clasificaciones erróneas para crear una regla de decisión que tenga más sensibilidad o especificidad .
    • Puede ser más preciso.
  • Las desventajas son:
    • No funciona bien para variables continuas
    • Puede sobreajustar los datos.

Ejemplos de

Hay ejemplos disponibles del uso de particiones recursivas en la investigación de pruebas de diagnóstico. Goldman utilizó la partición recursiva para priorizar la sensibilidad en el diagnóstico de infarto de miocardio entre pacientes con dolor torácico en la sala de emergencias.

Ver también

Referencias