Modelo estadístico - Statistical model

Un modelo estadístico es un modelo matemático que incorpora un conjunto de supuestos estadísticos sobre la generación de datos de muestra (y datos similares de una población más grande ). Un modelo estadístico representa, a menudo de forma considerablemente idealizada, el proceso de generación de datos.

Un modelo estadístico generalmente se especifica como una relación matemática entre una o más variables aleatorias y otras variables no aleatorias. Como tal, un modelo estadístico es "una representación formal de una teoría" ( Herman Adèr citando a Kenneth Bollen ).

Todas las pruebas de hipótesis estadísticas y todos los estimadores estadísticos se derivan a través de modelos estadísticos. De manera más general, los modelos estadísticos son parte de la base de la inferencia estadística .

Introducción

De manera informal, un modelo estadístico puede considerarse como un supuesto estadístico (o conjunto de supuestos estadísticos) con una determinada propiedad: que el supuesto nos permite calcular la probabilidad de cualquier evento . Como ejemplo, considere un par de dados ordinarios de seis caras . Estudiaremos dos supuestos estadísticos diferentes sobre los dados.

La primera suposición estadística es la siguiente: para cada uno de los dados, la probabilidad de que salga cada cara (1, 2, 3, 4, 5 y 6) es 1/6. A partir de esa suposición, podemos calcular la probabilidad de que ambos dados salgan 5:  1/6 × 1/6 =1/36. De manera más general, podemos calcular la probabilidad de cualquier evento: por ejemplo, (1 y 2) o (3 y 3) o (5 y 6).

La suposición estadística alternativa es la siguiente: para cada uno de los dados, la probabilidad de que salga la cara 5 es 1/8(porque los dados están ponderados ). A partir de esa suposición, podemos calcular la probabilidad de que ambos dados salgan 5:  1/8 × 1/8 =1/64. Sin embargo, no podemos calcular la probabilidad de ningún otro evento no trivial, ya que se desconocen las probabilidades de las otras caras.

El primer supuesto estadístico constituye un modelo estadístico: porque con el supuesto solo, podemos calcular la probabilidad de cualquier evento. El supuesto estadístico alternativo no constituye un modelo estadístico: porque con el supuesto solo, no podemos calcular la probabilidad de cada evento.

En el ejemplo anterior, con la primera suposición, calcular la probabilidad de un evento es fácil. Sin embargo, con algunos otros ejemplos, el cálculo puede ser difícil o incluso poco práctico (por ejemplo, puede requerir millones de años de cálculo). Para que una suposición constituya un modelo estadístico, esta dificultad es aceptable: hacer el cálculo no necesita ser factible, solo teóricamente posible.

Definicion formal

En términos matemáticos, un modelo estadístico se suele considerar como un par ( ), donde es el conjunto de posibles observaciones, es decir, el espacio de muestra , y es un conjunto de distribuciones de probabilidad sobre .

La intuición detrás de esta definición es la siguiente. Se asume que existe una distribución de probabilidad "verdadera" inducida por el proceso que genera los datos observados. Elegimos representar un conjunto (de distribuciones) que contiene una distribución que se aproxima adecuadamente a la distribución verdadera.

Tenga en cuenta que no requerimos que contenga la distribución verdadera y, en la práctica, eso rara vez es el caso. De hecho, como afirman Burnham y Anderson, "un modelo es una simplificación o aproximación de la realidad y, por lo tanto, no reflejará toda la realidad", de ahí el dicho " todos los modelos son incorrectos ".

El conjunto está casi siempre parametrizar: . El conjunto define los parámetros del modelo. Por lo general, se requiere una parametrización para que los valores de los parámetros distintos den lugar a distribuciones distintas, es decir, debe mantenerse (en otras palabras, debe ser inyectiva ). Se dice que una parametrización que cumple el requisito es identificable .

Un ejemplo

Supongamos que tenemos una población de niños, con las edades de los niños distribuidos uniformemente en la población. La altura de un niño estará estocásticamente relacionada con la edad: por ejemplo, cuando sabemos que un niño tiene 7 años, esto influye en la posibilidad de que el niño mida 1,5 metros de altura. Podríamos formalizar esa relación en un modelo de regresión lineal , así: altura i  = b 0  + b 1 edad i  + ε i , donde b 0 es la intersección, b 1 es un parámetro por el que se multiplica la edad para obtener una predicción de altura, ε i es el término de error e i identifica al niño. Esto implica que la altura se predice por edad, con algún error.

Un modelo admisible debe ser coherente con todos los puntos de datos. Por lo tanto, una línea recta (altura i  = b 0  + b 1 edad i ) no puede ser la ecuación para un modelo de los datos, a menos que se ajuste exactamente a todos los puntos de datos, es decir, todos los puntos de datos se encuentran perfectamente en la línea. El término de error, ε i , debe incluirse en la ecuación, de modo que el modelo sea coherente con todos los puntos de datos.

Para hacer inferencia estadística , primero necesitaríamos asumir algunas distribuciones de probabilidad para ε i . Por ejemplo, podríamos suponer que las distribuciones ε i son iid gaussianas, con media cero. En este caso, el modelo tendría 3 parámetros: b 0 , b 1 y la varianza de la distribución gaussiana.

Podemos especificar formalmente el modelo en la forma ( ) de la siguiente manera. El espacio muestral`` de nuestro modelo comprende el conjunto de todos los pares posibles (edad, altura). Cada valor posible de  = ( b 0 , b 1 , σ 2 ) determina una distribución en ; denotar esa distribución por . Si es el conjunto de todos los valores posibles de , entonces . (La parametrización es identificable y esto es fácil de verificar).

En este ejemplo, el modelo se determina (1) especificando y (2) haciendo algunos supuestos relevantes para . Hay dos supuestos: que la altura se puede aproximar mediante una función lineal de la edad; que los errores en la aproximación se distribuyen como iid gaussiano. Los supuestos son suficientes para especificar, como se requiere que lo hagan.

Observaciones generales

Un modelo estadístico es una clase especial de modelo matemático . Lo que distingue a un modelo estadístico de otros modelos matemáticos es que un modelo estadístico no es determinista . Así, en un modelo estadístico especificado mediante ecuaciones matemáticas, algunas de las variables no tienen valores específicos, sino distribuciones de probabilidad; es decir, algunas de las variables son estocásticas . En el ejemplo anterior con la altura de los niños, ε es una variable estocástica; sin esa variable estocástica, el modelo sería determinista.

Los modelos estadísticos se utilizan a menudo incluso cuando el proceso de generación de datos que se modela es determinista. Por ejemplo, lanzar una moneda es, en principio, un proceso determinista; sin embargo, comúnmente se modela como estocástico (a través de un proceso de Bernoulli ).

La elección de un modelo estadístico apropiado para representar un proceso de generación de datos dado es a veces extremadamente difícil y puede requerir conocimiento tanto del proceso como de análisis estadísticos relevantes. En relación con esto, el estadístico Sir David Cox ha dicho: "La forma en que se hace [la] traducción del problema del tema al modelo estadístico es a menudo la parte más crítica de un análisis".

Hay tres propósitos para un modelo estadístico, según Konishi & Kitagawa.

  • Predicciones
  • Extraccion de informacion
  • Descripción de estructuras estocásticas

Esos tres propósitos son esencialmente los mismos que los tres propósitos indicados por Friendly & Meyer: predicción, estimación, descripción. Los tres propósitos se corresponden con los tres tipos de razonamiento lógico : razonamiento deductivo , razonamiento inductivo , razonamiento abductivo .

Dimensión de un modelo

Supongamos que tenemos un modelo estadístico ( ) con . Se dice que el modelo es paramétrico si tiene una dimensión finita. En notación, escribimos que donde k es un número entero positivo ( denota los números reales ; en principio, se pueden usar otros conjuntos). Aquí, k se denomina dimensión del modelo.

Como ejemplo, si asumimos que los datos surgen de una distribución gaussiana univariante , entonces estamos asumiendo que

.

En este ejemplo, la dimensión k es igual a 2.

Como otro ejemplo, suponga que los datos constan de puntos ( x , y ) que suponemos están distribuidos de acuerdo con una línea recta con iid residuos gaussianos (con media cero): esto conduce al mismo modelo estadístico que se usó en el ejemplo con alturas de los niños. La dimensión del modelo estadístico es 3: la intersección de la línea, la pendiente de la línea y la varianza de la distribución de los residuos. (Tenga en cuenta que en geometría, una línea recta tiene dimensión 1.)

Aunque formalmente es un único parámetro que tiene una dimensión k , a veces se considera que comprende k parámetros separados. Por ejemplo, con la distribución gaussiana univariada, es formalmente un único parámetro con dimensión 2, pero a veces se considera que comprende 2 parámetros separados: la media y la desviación estándar.

Un modelo estadístico no es paramétrico si el conjunto de parámetros es de dimensión infinita. Un modelo estadístico es semiparamétrico si tiene parámetros tanto de dimensión finita como de dimensión infinita. Formalmente, si k es la dimensión de y n es el número de muestras, ambos modelos semiparamétricos y no paramétricos tienen como . Si es como , entonces el modelo es semiparamétrico; de lo contrario, el modelo no es paramétrico.

Los modelos paramétricos son, con mucho, los modelos estadísticos más utilizados. Con respecto a los modelos semiparamétricos y no paramétricos, Sir David Cox ha dicho: "Por lo general, estos implican menos supuestos de estructura y forma de distribución, pero por lo general contienen supuestos sólidos sobre las independientes".

Modelos anidados

Se anidan dos modelos estadísticos si el primer modelo se puede transformar en el segundo modelo imponiendo restricciones a los parámetros del primer modelo. Como ejemplo, el conjunto de todas las distribuciones gaussianas tiene, anidado dentro de él, el conjunto de distribuciones gaussianas de media cero: restringimos la media en el conjunto de todas las distribuciones gaussianas para obtener las distribuciones de media cero. Como segundo ejemplo, el modelo cuadrático

y  = b 0  + b 1 x  + b 2 x 2  + ε, ε ~ 𝒩 (0, σ 2 )

tiene, anidado dentro de él, el modelo lineal

y  = b 0  + b 1 x  + ε, ε ~ 𝒩 (0, σ 2 )

—Restringimos el parámetro b 2 a 0.

En ambos ejemplos, el primer modelo tiene una dimensión más alta que el segundo modelo (para el primer ejemplo, el modelo de media cero tiene la dimensión 1). Este es el caso a menudo, pero no siempre. Como ejemplo diferente, el conjunto de distribuciones gaussianas de media positiva, que tiene dimensión 2, está anidado dentro del conjunto de todas las distribuciones gaussianas.

Comparación de modelos

Comparar modelos estadísticos es fundamental para gran parte de la inferencia estadística . De hecho, Konishi y Kitagawa (2008 , p. 75) afirman lo siguiente: "La mayoría de los problemas en la inferencia estadística pueden considerarse problemas relacionados con el modelado estadístico. Por lo general, se formulan como comparaciones de varios modelos estadísticos".

Los criterios comunes para comparar modelos incluyen los siguientes: R 2 , factor de Bayes , criterio de información de Akaike y la prueba de razón de verosimilitud junto con su generalización, la probabilidad relativa .

Ver también

Notas

Referencias

  • Adèr, HJ (2008), "Modelado", en Adèr, HJ; Mellenbergh, GJ (eds.), Asesoramiento sobre métodos de investigación: compañero de un consultor , Huizen, Países Bajos: Johannes van Kessel Publishing, págs. 271–304.
  • Burnham, KP; Anderson, DR (2002), Selección de modelos e inferencia multimodelo (2a ed.), Springer-Verlag.
  • Cox, RD (2006), Principios de inferencia estadística , Cambridge University Press.
  • Amistoso, M .; Meyer, D. (2016), Análisis de datos discretos con R , Chapman y Hall.
  • Konishi, S .; Kitagawa, G. (2008), Criterios de información y modelado estadístico , Springer.
  • McCullagh, P. (2002), "¿Qué es un modelo estadístico?" (PDF) , Annals of Statistics , 30 (5): 1225-1310, doi : 10.1214 / aos / 1035844977.

Otras lecturas