Puntuación de riesgo - Risk score

La puntuación de riesgo (o puntuación de riesgo ) es el nombre que se le da a una práctica general en estadística aplicada , bioestadística , econometría y otras disciplinas relacionadas, de crear un número fácilmente calculado (la puntuación ) que refleja el nivel de riesgo en presencia de algunos factores de riesgo (por ejemplo, riesgo de mortalidad o enfermedad en presencia de síntomas o perfil genético, riesgo de pérdida financiera teniendo en cuenta el historial crediticio y financiero, etc.).

Las puntuaciones de riesgo están diseñadas para ser:

Simple de calcular: en muchos casos, todo lo que necesita para calcular una puntuación es un bolígrafo y una hoja de papel (aunque algunos puntajes se basan en cálculos más sofisticados o menos transparentes que requieren un programa de computadora).
Fácil de interpretar: el resultado del cálculo es un solo número, y una puntuación más alta generalmente significa un mayor riesgo. Además, muchos métodos de puntuación imponen alguna forma de monotonicidad a lo largo de los factores de riesgo medidos para permitir una interpretación directa de la puntuación (por ejemplo, el riesgo de mortalidad solo aumenta con la edad, el riesgo de impago solo aumenta con la cantidad de deuda total que tiene el cliente etc.).
Accionable: las puntuaciones se diseñan en torno a un conjunto de posibles acciones que deben tomarse como resultado de la puntuación calculada. Se pueden diseñar y ejecutar políticas eficaces basadas en puntuaciones estableciendo umbrales en el valor de la puntuación y asociándolos con acciones en aumento.

Definicion formal

Un método de puntuación típico se compone de 3 componentes:

Un conjunto de reglas consistentes (o ponderaciones) que asignan un valor numérico ("puntos") a cada factor de riesgo que refleja nuestra estimación del riesgo subyacente.
Una fórmula (normalmente una simple suma de todos los puntos acumulados) que calcula la puntuación.
Un conjunto de umbrales que ayuda a traducir el puntaje calculado en un nivel de riesgo, o una fórmula equivalente o un conjunto de reglas para traducir el puntaje calculado nuevamente en probabilidades (dejando la evaluación nominal de la severidad al médico).

Los ítems 1 y 2 se pueden lograr mediante el uso de alguna forma de regresión , que proporcionará tanto la estimación del riesgo como la fórmula para calcular la puntuación. El punto 3 requiere establecer un conjunto arbitrario de umbrales y, por lo general, implica la opinión de expertos.

Estimación del riesgo con GLM

Los puntajes de riesgo están diseñados para representar una probabilidad subyacente de un evento adverso denotado dado un vector de variables explicativas que contienen mediciones de los factores de riesgo relevantes. Para establecer la conexión entre los factores de riesgo y la probabilidad estimamos se estima un conjunto de ponderaciones utilizando un modelo lineal generalizado : ${\ Displaystyle \ lbrace Y = 1 \ rbrace}$ ${\ Displaystyle P}$ ${\ Displaystyle \ mathbf {X}}$ ${\ Displaystyle \ beta}$

{\ Displaystyle {\ begin {alineado} \ operatorname {E} (\ mathbf {Y} | \ mathbf {X}) = \ mathbf {P} (\ mathbf {Y} = 1 | \ mathbf {X}) = g ^ {- 1} (\ mathbf {X} \ beta) \ end {alineado}}}

Donde es una función de valor real que aumenta monótonamente y que asigna los valores del predictor lineal al intervalo . Los métodos GLM suelen utilizar logit o probit como función de enlace . ${\ displaystyle g ^ {- 1}: \ mathbb {R} \ rightarrow [0,1]}$ ${\ Displaystyle \ mathbf {X} \ beta}$ ${\ Displaystyle [0,1]}$

Estimación del riesgo con otros métodos

Si bien es posible estimar utilizando otros métodos estadísticos o de aprendizaje automático, los requisitos de simplicidad y fácil interpretación (y monotonicidad por factor de riesgo) hacen que la mayoría de estos métodos sean difíciles de usar para calificar en este contexto: ${\ Displaystyle \ mathbf {P} (\ mathbf {Y} = 1 | \ mathbf {X})}$

Con métodos más sofisticados, se vuelve difícil atribuir ponderaciones simples para cada factor de riesgo y proporcionar una fórmula simple para el cálculo de la puntuación. Una excepción notable son los métodos basados en árboles como CART , que pueden proporcionar un conjunto simple de reglas de decisión y cálculos, pero no pueden garantizar la monotonicidad de la escala en los diferentes factores de riesgo.
El hecho de que estamos estimando el riesgo subyacente en la población y, por lo tanto, no podemos etiquetar a las personas de antemano en una escala ordinal (no podemos saber de antemano si una persona pertenece a un grupo de "alto riesgo", solo vemos las incidencias observadas) clasificación Los métodos solo son relevantes si queremos clasificar a las personas en 2 grupos o 2 posibles acciones.

Construyendo la partitura

Cuando se utiliza GLM, el conjunto de ponderaciones estimadas se puede utilizar para asignar diferentes valores (o "puntos") a diferentes valores de los factores de riesgo en (continuos o nominales como indicadores). Luego, la puntuación se puede expresar como una suma ponderada: ${\ Displaystyle \ beta}$ ${\ Displaystyle \ mathbf {X}}$

{\ Displaystyle {\ begin {alineado} {\ text {Score}} = \ mathbf {X} \ beta = \ sum _ {j = 1} ^ {P} \ mathbf {X} _ {j} \ beta _ { j} \ end {alineado}}}

Algunos métodos de puntuación traducirán la puntuación en probabilidades utilizando (p. Ej. Puntuación SAPS II que proporciona una función explícita para calcular la mortalidad a partir de la puntuación) o una tabla de consulta (p. Ej. Puntuación ABCD² o la tarjeta de puntuación ISM7 (NI)). Esta práctica hace que el proceso de obtención de la puntuación sea más complicado computacionalmente, pero tiene la ventaja de traducir un número arbitrario a una escala más familiar de 0 a 1. ${\ displaystyle g ^ {- 1}}$
Las columnas de pueden representar transformaciones complejas de los factores de riesgo (incluidas múltiples interacciones ) y no solo los factores de riesgo en sí. ${\ Displaystyle \ mathbf {X}}$
Los valores de a veces se escalan o redondean para permitir trabajar con números enteros en lugar de fracciones muy pequeñas (lo que simplifica el cálculo). Si bien el escalado no tiene la capacidad de impacto de la puntuación para estimar el riesgo, el redondeo tiene el potencial de interrumpir la "optimización" de la estimación GLM. ${\ Displaystyle \ beta}$

Tomando decisiones basadas en puntajes

Dejar que denotan un conjunto de acciones "escalada" disponibles para la toma de decisiones (por ejemplo, para las decisiones de riesgo de crédito: = "Aprobar automáticamente", = "requerir más documentación y comprobar manualmente", = "disminución automática"). Para definir una regla de decisión, queremos definir un mapa entre diferentes valores de la puntuación y las posibles decisiones en . Sea una partición de en intervalos consecutivos que no se superpongan, de modo que . ${\ Displaystyle \ mathbf {A} = \ lbrace \ mathbf {a} _ {1}, ..., \ mathbf {a} _ {m} \ rbrace}$ ${\ Displaystyle m \ geq 2}$ ${\ Displaystyle \ mathbf {a} _ {1}}$ ${\ Displaystyle \ mathbf {a} _ {2}}$ ${\ Displaystyle \ mathbf {a} _ {3}}$ ${\ Displaystyle \ mathbf {A}}$ ${\ Displaystyle \ tau = \ lbrace \ tau _ {1}, ... \ tau _ {m-1} \ rbrace}$ ${\ Displaystyle \ mathbb {R}}$ ${\ Displaystyle m}$ ${\ Displaystyle \ tau _ {1} <\ tau _ {2} <\ ldots <\ tau _ {m-1}}$

El mapa se define de la siguiente manera:

{\ displaystyle {\ begin {align} {\ text {If Score}} \ in [\ tau _ {j-1}, \ tau _ {j}) \ rightarrow {\ text {Toma acción}} \ mathbf {a } _ {j} \ end {alineado}}}

Los valores de se establecen en función de la opinión de expertos, el tipo y la prevalencia del riesgo medido, las consecuencias de la clasificación incorrecta, etc. Por ejemplo, un riesgo de 9 de cada 10 generalmente se considerará como "alto riesgo", pero un riesgo de 7 de cada 10 pueden considerarse de "alto riesgo" o de "riesgo medio" según el contexto. ${\ Displaystyle \ tau}$
La definición de los intervalos está en los intervalos abiertos derechos pero se puede definir de manera equivalente utilizando intervalos abiertos izquierdos . ${\ Displaystyle (\ tau _ {j-1}, \ tau _ {j}]}$
Para los métodos de puntuación que ya han traducido la puntuación en probabilidades, definimos la partición directamente en el intervalo o traducimos los criterios de decisión en , y la monotonicidad de asegura una traducción de 1 a 1. ${\ Displaystyle \ tau}$ ${\ Displaystyle [0,1]}$ ${\ Displaystyle [g ^ {- 1} (\ tau _ {j-1}), g ^ {- 1} (\ tau _ {j}))}$ ${\ Displaystyle g}$

Ejemplos

Bioestadística

(ver más ejemplos en la página de categoría Categoría: Sistema de puntuación médica )

Industria financiera

El uso principal de las puntuaciones en el sector financiero es para tarjetas de puntuación de crédito o puntuaciones de crédito :

En muchos países (como los EE . UU. ) El puntaje crediticio es calculado por entidades comerciales y, por lo tanto, el método exacto no es de conocimiento público (por ejemplo, el puntaje de riesgo de quiebra , el puntaje FICO y otros). Los puntajes crediticios en Australia y el Reino Unido a menudo se calculan mediante regresión logística para estimar la probabilidad de incumplimiento y, por lo tanto, son un tipo de puntaje de riesgo.
Otras industrias financieras, como la industria de los seguros , también utilizan métodos de puntuación, pero la implementación exacta sigue siendo un secreto comercial , excepto en algunos casos raros.

Ciencias Sociales

Puntaje COMPAS para reincidencia, según la ingeniería inversa de ProPublica utilizando regresión logística y el modelo de riesgo proporcional de Cox .

Referencias

Hastie, TJ; Tibshirani, RJ (1990). Modelos aditivos generalizados . Chapman y Hall / CRC. ISBN 978-0-412-34390-2 .

Languages

In other projects