Metodología de modelado de respuesta - Response modeling methodology

La metodología de modelado de respuesta (RMM) es una plataforma general para el modelado estadístico de una relación lineal / no lineal entre una variable de respuesta ( variable dependiente ) y un predictor lineal (una combinación lineal de predictores / efectos / factores / variables independientes ), a menudo denotado como lineal. función predictora . Generalmente se asume que la relación modelada es monótona convexa (que entrega una función monótona convexa ) o monótona cóncava (que brinda una función monótona cóncava ). Sin embargo, muchas funciones no monótonas, como la ecuación cuadrática , son casos especiales del modelo general.

RMM se desarrolló inicialmente como una serie de extensiones de la transformación inversa de Box-Cox original : donde y es un percentil de la respuesta modelada, Y (la variable aleatoria modelada ), z es el percentil respectivo de una variable normal y λ es el Box –Parámetro Cox. A medida que λ llega a cero, la transformación de Box-Cox inversa se convierte en: un modelo exponencial . Por lo tanto, la transformación inversa de Box-Cox original contiene un trío de modelos: lineal ( λ  = 1), potencia ( λ  ≠ 1, λ  ≠ 0) y exponencial ( λ  = 0). Esto implica que al estimar λ, utilizando datos muestrales, el modelo final no se determina de antemano (antes de la estimación) sino más bien como resultado de la estimación. En otras palabras, los datos por sí solos determinan el modelo final.

Shore (2001a) desarrolló las extensiones de la transformación inversa de Box-Cox y se las denominó Transformaciones de normalización inversa (INT). Se habían aplicado para modelar relaciones convexas monótonas en diversas áreas de la ingeniería, principalmente para modelar propiedades físicas de compuestos químicos (Shore et al. , 2001a, y referencias allí). Una vez que se comprendió que los modelos INT pueden percibirse como casos especiales de un enfoque general mucho más amplio para modelar relaciones convexas monótonas no lineales, se inició y desarrolló la nueva Metodología de Modelado de Respuesta (Shore, 2005a, 2011 y sus referencias).

El modelo RMM expresa la relación entre una respuesta, Y (la variable aleatoria modelada) y dos componentes que generan variación en Y:

  • La función de predicción lineal , LP (denotada η ): donde { X 1 , ..., X k } son variables regresoras (“factores que afectan”) que entregan una variación sistemática a la respuesta;
  • Errores normales, entregando variación aleatoria a la respuesta.

El modelo básico de RMM describe Y en términos de LP, dos errores normales de media cero posiblemente correlacionados, ε 1 y ε 2 (con correlación ρ y desviaciones estándar σ ε 1 y σ ε 2 , respectivamente) y un vector de parámetros { α , λ , μ } (Shore, 2005a, 2011):

y ε 1 representa la incertidumbre (imprecisión de la medición o de otro tipo) en las variables explicativas (incluidas en el LP). Esto se suma a la incertidumbre asociada con la respuesta ( ε 2 ). Expresando ε 1 y ε 2 en términos de variables normales estándar, Z 1 y Z 2 , respectivamente, que tienen correlación ρ , y condicionan Z 2 | Z 1 = z 1 ( Z 2 dado que Z 1 es igual a un valor dado z 1 ), podemos escribir en términos de un solo error,  ε :

donde Z es una variable normal estándar, independiente de Z 1 y Z 2 , ε es un error de media cero yd es un parámetro. A partir de estas relaciones, la función cuantílica RMM asociada es (Shore, 2011):

o, después de la re-parametrización:

donde y es el percentil de la respuesta ( Y ), z es el percentil normal estándar respectivo , ε es el error normal de media cero del modelo con varianza constante, σ , { a, b, c, d } son parámetros y M Y es la mediana de respuesta ( z  = 0), dependiente de los valores de los parámetros y del valor del LP, η :

donde μ ( om ) es un parámetro adicional.

Si se puede suponer que cz << η, el modelo anterior para la función de cuantiles RMM se puede aproximar mediante:

El parámetro “c” no se puede “absorber” en los parámetros del LP (η) ya que “c” y LP se estiman en dos etapas separadas (como se expone a continuación).

Si los datos de respuesta utilizados para estimar el modelo contienen valores que cambian de signo, o si el valor de respuesta más bajo está lejos de cero (por ejemplo, cuando los datos se truncan a la izquierda) , se puede agregar un parámetro de ubicación, L , a la respuesta de modo que que las expresiones para la función cuantil y para la mediana se conviertan, respectivamente, en:

Convexidad monótona continua

Como se mostró anteriormente, la transformación inversa de Box-Cox depende de un solo parámetro, λ , que determina la forma final del modelo (ya sea lineal, potencia o exponencial). Por lo tanto, los tres modelos constituyen meros puntos en un espectro continuo de convexidad monótona, atravesado por λ. Esta propiedad, donde diferentes modelos conocidos se convierten en meros puntos en un espectro continuo, atravesado por los parámetros del modelo, se denota como la propiedad Continuous Monotonic Convexity (CMC). Este último caracteriza a todos los modelos RMM y permite que el ciclo básico “lineal-potencia-exponencial” (subyacente a la transformación inversa de Box-Cox) se repita ad infinitum, lo que permite derivar modelos cada vez más convexos. Ejemplos de tales modelos son un modelo de potencia exponencial o un modelo de potencia exponencial exponencial (véanse los modelos explícitos que se exponen más adelante). Dado que la forma final del modelo está determinada por los valores de los parámetros RMM, esto implica que los datos, utilizados para estimar los parámetros, determinan la forma final del modelo RMM estimado (como con la transformación inversa de Box-Cox). Por lo tanto, la propiedad CMC otorga a los modelos RMM una gran flexibilidad para acomodar los datos utilizados para estimar los parámetros. Las referencias que se dan a continuación muestran los resultados publicados de las comparaciones entre los modelos RMM y los modelos existentes. Estas comparaciones demuestran la eficacia de la propiedad CMC.

Ejemplos de modelos RMM

Haciendo caso omiso de los errores RMM (ignorar los términos de la CZ , DZ , y e en el modelo percentil), se obtienen los siguientes modelos RMM, presentados en un orden creciente de la convexidad monótona:

Añadiendo dos nuevos parámetros introduciendo para η (en el modelo percentil):, se itera un nuevo ciclo de "potencia lineal-exponencial" para producir modelos con una convexidad monótona más fuerte (Shore, 2005a, 2011, 2012):

Se percibe que esta serie de modelos convexos monótonos, presentados como aparecen en un orden jerárquico en la “Escala de funciones convexas monótonas” (Shore, 2011), es ilimitada desde arriba. Sin embargo, todos los modelos son meros puntos en un espectro continuo, abarcado por parámetros RMM. También tenga en cuenta que numerosos modelos de crecimiento, como la función de Gompertz , son casos especiales exactos del modelo RMM.

Momentos

El k -ésimo momento no central de Y es (asumiendo L  = 0; Shore, 2005a, 2011):

Expandiendo Y k , como se indica en el lado derecho, en una serie de Taylor alrededor de cero, en términos de potencias de Z (la variante normal estándar), y luego tomando la expectativa en ambos lados, asumiendo que cZ  ≪  η de modo que η  +  cZ  ≈  η , una expresión simple aproximada para el k -ésimo momento no central, basada en los primeros seis términos de la expansión, es:

Se puede derivar una expresión análoga sin asumir cZ  ≪  η . Esto daría como resultado una expresión más precisa (aunque larga y engorrosa). Una vez que se ignora cZ en la expresión anterior, Y se convierte en una variable aleatoria logarítmica normal (con parámetros que dependen de  η ).

Ajuste y estimación

Los modelos RMM pueden usarse para modelar la variación aleatoria (como una plataforma general para el ajuste de la distribución) o para modelar la variación sistemática (de manera análoga a los modelos lineales generalizados , GLM).

En el primer caso (sin variación sistemática, es decir, η  = constante), la función Cuantil RMM se ajusta a distribuciones conocidas. Si se desconoce la distribución subyacente, la función de cuantiles de RMM se estima utilizando los datos de muestra disponibles. El modelado de la variación aleatoria con RMM se aborda y demuestra en Shore (2011 y referencias allí).

En el último caso (modelado de la variación sistemática), los modelos RMM se estiman asumiendo que la variación en el predictor lineal (generado a través de la variación en las variables regresoras) contribuye a la variación general de la variable de respuesta modelada ( Y ). Este caso se aborda y demuestra en Shore (2005a, 2012 y referencias relevantes en el mismo). La estimación se realiza en dos etapas. Primero, la mediana se estima minimizando la suma de las desviaciones absolutas (del modelo ajustado de los puntos de datos de la muestra). En la segunda etapa, se estiman los dos parámetros restantes (no estimados en la primera etapa, a saber, { c , d }). En Shore (2012) se presentan tres enfoques de estimación: máxima verosimilitud , emparejamiento de momentos y regresión cuantílica no lineal .

Revisión de literatura

A partir de 2021, la literatura sobre RMM aborda tres áreas:

(1) Desarrollar INT y más tarde el enfoque RMM, con métodos de estimación aliados;

(2) Explorar las propiedades de la RMM y comparar la efectividad de la RMM con otros enfoques de modelado actuales (para el ajuste de la distribución o para modelar la variación sistemática);

(3) Aplicaciones.

Shore (2003a) desarrolló Transformaciones de Normalización Inversa (INT) en los primeros años del siglo XXI y las ha aplicado a diversas disciplinas de ingeniería como el control estadístico de procesos (Shore, 2000a, b, 2001a, b, 2002a) y la ingeniería química (Shore at al. , 2002). Posteriormente, a medida que la nueva Metodología de Modelado de Respuesta (RMM) había ido emergiendo y desarrollándose en una plataforma completa para modelar relaciones convexas monótonas (finalmente presentado en un libro, Shore, 2005a), se exploraron las propiedades de RMM (Shore, 2002b, 2004a, b, 2008a, 2011), los procedimientos de estimación desarrollados (Shore, 2005a, b, 2012) y la nueva metodología de modelado en comparación con otros enfoques, para modelar la variación aleatoria (Shore 2005c, 2007, 2010; Shore y A'wad 2010), y para modelar la variación sistemática (Shore, 2008b).

Al mismo tiempo, la RMM se ha aplicado a diversas disciplinas científicas y de ingeniería y se ha comparado con los modelos y enfoques de modelización actuales que se practican en ellas. Por ejemplo, ingeniería química (Shore, 2003b; Benson-Karhi et al. , 2007; Shacham et al. , 2008; Shore y Benson-Karhi, 2010), control estadístico de procesos (Shore, 2014; Shore et al. , 2014; Danoch y Shore, 2016), ingeniería de confiabilidad (Shore, 2004c; Ladany y Shore, 2007), pronóstico (Shore y Benson-Karhi, 2007), ecología (Shore, 2014) y la profesión médica (Shore et al., 2014 ; Benson-Karhi et al. , 2017).

Referencias