Error medio cuadrado - Mean squared error

En estadística , el error cuadrático medio ( MSE ) o la desviación cuadrática media ( MSD ) de un estimador (de un procedimiento para estimar una cantidad no observada) mide el promedio de los cuadrados de los errores , es decir, la diferencia cuadrática promedio entre los valores estimados. valores y el valor real. MSE es una función de riesgo , que corresponde al valor esperado de la pérdida por error al cuadrado. El hecho de que el MSE sea casi siempre estrictamente positivo (y no cero) se debe a la aleatoriedad o a que el estimador no tiene en cuenta la información que podría producir una estimación más precisa.

El MSE es una medida de la calidad de un estimador. Como se deriva del cuadrado de la distancia euclidiana , siempre es un valor positivo y el error disminuye a medida que el error se acerca a cero.

El MSE es el segundo momento (sobre el origen) del error y, por lo tanto, incorpora tanto la varianza del estimador (qué tan extendidas están las estimaciones de una muestra de datos a otra) y su sesgo (qué tan lejos está el valor estimado promedio del valor real). Para un estimador insesgado , el MSE es la varianza del estimador. Al igual que la varianza, MSE tiene las mismas unidades de medida que el cuadrado de la cantidad que se estima. En una analogía con la desviación estándar , al tomar la raíz cuadrada de MSE se obtiene el error cuadrático medio o la desviación cuadrática media (RMSE o RMSD), que tiene las mismas unidades que la cantidad estimada; para un estimador insesgado, el RMSE es la raíz cuadrada de la varianza , conocida como error estándar .

Definición y propiedades básicas

El MSE evalúa la calidad de un predictor (es decir, una función que asigna entradas arbitrarias a una muestra de valores de alguna variable aleatoria ) o de un estimador (es decir, una función matemática que asigna una muestra de datos a una estimación de un parámetro de la población de la que se muestrean los datos). La definición de un MSE difiere según se describa un predictor o un estimador.

Vaticinador

Si se genera un vector de predicciones a partir de una muestra de puntos de datos sobre todas las variables, y es el vector de valores observados de la variable que se predice, siendo los valores predichos (por ejemplo, a partir de un ajuste de mínimos cuadrados ), entonces el muestra MSE del predictor se calcula como

En otras palabras, el MSE es la media de los cuadrados de los errores . Esta es una cantidad fácilmente calculable para una muestra en particular (y por lo tanto depende de la muestra).

En notación matricial ,

donde es y es la matriz.

El MSE también se puede calcular en q puntos de datos que no se utilizaron para estimar el modelo, ya sea porque se retuvieron para este propósito o porque estos datos se han obtenido recientemente. En este proceso (conocido como validación cruzada ), el MSE a menudo se denomina error de predicción cuadrático medio y se calcula como

Estimador

El MSE de un estimador con respecto a un parámetro desconocido se define como

Esta definición depende del parámetro desconocido, pero el MSE es a priori una propiedad de un estimador. El MSE podría ser una función de parámetros desconocidos, en cuyo caso cualquier estimador del MSE basado en estimaciones de estos parámetros sería una función de los datos (y por lo tanto una variable aleatoria). Si el estimador se deriva como una estadística de muestra y se usa para estimar algún parámetro de población, entonces la expectativa es con respecto a la distribución de muestra de la estadística de muestra.

El MSE se puede escribir como la suma de la varianza del estimador y el sesgo al cuadrado del estimador, lo que proporciona una forma útil de calcular el MSE e implica que, en el caso de estimadores insesgados, el MSE y la varianza son equivalentes.

Prueba de varianza y relación de sesgo

Alternativamente, tenemos

Una prueba aún más corta, utilizando la conocida fórmula que para una variable aleatoria (y en particular para ) , es:

Pero en el caso de modelado real, MSE podría describirse como la suma de la varianza del modelo, el sesgo del modelo y la incertidumbre irreducible. De acuerdo con la relación, el MSE de los estimadores podría usarse simplemente para la comparación de eficiencia , que incluye la información de la varianza y el sesgo del estimador. A esto se le llama criterio MSE.

En regresión

En el análisis de regresión , trazar es una forma más natural de ver la tendencia general de todos los datos. La media de la distancia desde cada punto al modelo de regresión predicho puede calcularse y mostrarse como el error cuadrático medio. La cuadratura es fundamental para reducir la complejidad con signos negativos. Para minimizar el MSE, el modelo podría ser más preciso, lo que significaría que el modelo está más cerca de los datos reales. Un ejemplo de una regresión lineal que utiliza este método es el método de mínimos cuadrados, que evalúa la idoneidad del modelo de regresión lineal para modelar el conjunto de datos bivariados , pero cuya limitación está relacionada con la distribución conocida de los datos.

El término error cuadrático medio se usa a veces para referirse a la estimación insesgada de la varianza del error: la suma de cuadrados residual dividida por el número de grados de libertad . Esta definición para una cantidad calculada conocida difiere de la definición anterior para el MSE calculado de un predictor, en que se usa un denominador diferente. El denominador es el tamaño de la muestra reducido por el número de parámetros del modelo estimados a partir de los mismos datos, ( n - p ) para p regresores o ( n - p -1) si se utiliza una intersección (consulte los errores y los residuos en las estadísticas para obtener más detalles ). Aunque el MSE (como se define en este artículo) no es un estimador insesgado de la varianza del error, es consistente , dada la consistencia del predictor.

En el análisis de regresión, el "error cuadrático medio", a menudo denominado error cuadrático medio de predicción o " error cuadrático medio fuera de la muestra", también puede referirse al valor medio de las desviaciones cuadráticas de las predicciones de los valores reales, sobre un espacio de prueba fuera de la muestra , generado por un modelo estimado sobre un espacio muestral particular . Esta también es una cantidad calculada conocida y varía según la muestra y el espacio de prueba fuera de la muestra.

Ejemplos de

Significar

Suponga que tenemos una muestra aleatoria de tamaño de una población ,. Suponga que las unidades de muestra se eligieron con reemplazo . Es decir, las unidades se seleccionan de una en una y las unidades seleccionadas previamente siguen siendo elegibles para la selección de todos los sorteos. El estimador habitual para el es el promedio de la muestra

que tiene un valor esperado igual a la media verdadera (por lo que es insesgado) y un error cuadrático medio de

donde es la varianza de la población .

Para una distribución gaussiana , este es el mejor estimador insesgado (es decir, uno con el MSE más bajo entre todos los estimadores insesgados), pero no, digamos, para una distribución uniforme .

Diferencia

El estimador habitual de la varianza es la varianza muestral corregida :

Esto es insesgado (su valor esperado es ), por lo que también se denomina varianza muestral insesgada, y su MSE es

donde es el cuarto momento central de la distribución o población, y es el exceso de curtosis .

Sin embargo, se pueden utilizar otros estimadores para los cuales son proporcionales a , y una elección adecuada siempre puede dar un error cuadrático medio más bajo. Si definimos

luego calculamos:

Esto se minimiza cuando

Para una distribución gaussiana , donde , esto significa que el MSE se minimiza al dividir la suma por . El exceso de curtosis mínimo es , que se logra mediante una distribución de Bernoulli con p  = 1/2 (un lanzamiento de moneda), y el MSE se minimiza para Por lo tanto, independientemente de la curtosis, obtenemos una estimación "mejor" (en el sentido de tener un MSE más bajo) reduciendo un poco el estimador insesgado; este es un ejemplo simple de un estimador de contracción : uno "reduce" el estimador hacia cero (reduce el estimador insesgado).

Además, si bien la varianza muestral corregida es el mejor estimador insesgado (error cuadrático medio mínimo entre los estimadores insesgados) de la varianza para las distribuciones gaussianas, si la distribución no es gaussiana, incluso entre los estimadores insesgados, el mejor estimador insesgado de la varianza puede no serlo.

distribución gaussiana

La siguiente tabla da varios estimadores de los verdaderos parámetros de la población, μ y σ 2 , para el caso gaussiano.

Verdadero valor Estimador Error medio cuadrado
= el estimador insesgado de la media poblacional ,
= el estimador insesgado de la varianza de la población ,
= el estimador sesgado de la varianza de la población ,
= el estimador sesgado de la varianza de la población ,

Interpretación

Un MSE de cero, lo que significa que el estimador predice las observaciones del parámetro con una precisión perfecta, es ideal (pero normalmente no es posible).

Los valores de MSE pueden usarse con fines comparativos. Se pueden comparar dos o más modelos estadísticos utilizando sus MPE, como una medida de qué tan bien explican un conjunto dado de observaciones: Un estimador insesgado (estimado a partir de un modelo estadístico) con la varianza más pequeña entre todos los estimadores insesgados es el mejor estimador insesgado o MVUE (Estimador insesgado de varianza mínima).

Tanto el análisis de varianza como las técnicas de regresión lineal estiman el MSE como parte del análisis y utilizan el MSE estimado para determinar la significancia estadística de los factores o predictores en estudio. El objetivo del diseño experimental es construir experimentos de tal manera que cuando se analicen las observaciones, el MSE sea cercano a cero en relación con la magnitud de al menos uno de los efectos estimados del tratamiento.

En el análisis de varianza unidireccional , el MSE se puede calcular mediante la división de la suma de los errores al cuadrado y el grado de libertad. Además, el valor f es la relación entre el tratamiento cuadrático medio y el MSE.

MSE también se utiliza en varias técnicas de regresión paso a paso como parte de la determinación de cuántos predictores de un conjunto candidato incluir en un modelo para un conjunto dado de observaciones.

Aplicaciones

Función de pérdida

La pérdida por error al cuadrado es una de las funciones de pérdida más utilizadas en estadística, aunque su uso generalizado se debe más a la conveniencia matemática que a consideraciones de pérdida real en las aplicaciones. Carl Friedrich Gauss , quien introdujo el uso del error cuadrático medio, era consciente de su arbitrariedad y estaba de acuerdo con las objeciones que se le formulaban por estos motivos. Los beneficios matemáticos del error cuadrático medio son particularmente evidentes en su uso para analizar el desempeño de la regresión lineal , ya que permite dividir la variación en un conjunto de datos en la variación explicada por el modelo y la variación explicada por la aleatoriedad.

Crítica

El uso del error cuadrático medio sin lugar a dudas ha sido criticado por el teórico de la decisión James Berger . El error cuadrático medio es el valor negativo del valor esperado de una función de utilidad específica , la función de utilidad cuadrática, que puede no ser la función de utilidad adecuada para usar en un conjunto dado de circunstancias. Sin embargo, existen algunos escenarios en los que el error cuadrático medio puede servir como una buena aproximación a una función de pérdida que ocurre naturalmente en una aplicación.

Al igual que la varianza , el error cuadrático medio tiene la desventaja de tener valores atípicos muy ponderados . Este es el resultado de la cuadratura de cada término, que efectivamente pondera los errores grandes más que los pequeños. Esta propiedad, indeseable en muchas aplicaciones, ha llevado a los investigadores a utilizar alternativas como el error medio absoluto o las basadas en la mediana .

Ver también

Notas

Referencias