Teoría de probabilidad - Probability theory

La teoría de la probabilidad es la rama de las matemáticas que se ocupa de la probabilidad . Aunque hay varias interpretaciones de probabilidad diferentes , la teoría de la probabilidad trata el concepto de una manera matemática rigurosa expresándolo a través de un conjunto de axiomas . Normalmente, estos axiomas formalizan la probabilidad en términos de un espacio de probabilidad , que asigna una medida que toma valores entre 0 y 1, denominada medida de probabilidad , a un conjunto de resultados denominado espacio muestral . Cualquier subconjunto especificado del espacio muestral se denomina evento . Los temas centrales en la teoría de la probabilidad incluyen variables aleatorias discretas y continuas , distribuciones de probabilidad y procesos estocásticos , que proporcionan abstracciones matemáticas de procesos no deterministas o inciertos o cantidades medidas que pueden ser ocurrencias únicas o evolucionar con el tiempo de manera aleatoria. Aunque no es posible predecir perfectamente eventos aleatorios, se puede decir mucho sobre su comportamiento. Dos resultados principales en la teoría de la probabilidad que describen tal comportamiento son la ley de los grandes números y el teorema del límite central .

Como base matemática de la estadística , la teoría de la probabilidad es esencial para muchas actividades humanas que implican el análisis cuantitativo de datos. Los métodos de la teoría de la probabilidad también se aplican a las descripciones de sistemas complejos con un conocimiento parcial de su estado, como en la mecánica estadística o la estimación secuencial . Un gran descubrimiento de la física del siglo XX fue la naturaleza probabilística de los fenómenos físicos a escalas atómicas, descritos en la mecánica cuántica .

Historia de la probabilidad

La teoría matemática moderna de la probabilidad tiene sus raíces en los intentos de analizar los juegos de azar de Gerolamo Cardano en el siglo XVI y de Pierre de Fermat y Blaise Pascal en el siglo XVII (por ejemplo, el " problema de los puntos "). Christiaan Huygens publicó un libro sobre el tema en 1657 y en el siglo XIX, Pierre Laplace completó lo que hoy se considera la interpretación clásica.

Inicialmente, la teoría de la probabilidad consideraba principalmente eventos discretos y sus métodos eran principalmente combinatorios . Finalmente, las consideraciones analíticas obligaron a incorporar variables continuas a la teoría.

Esto culminó en la teoría de la probabilidad moderna, sobre las bases establecidas por Andrey Nikolaevich Kolmogorov . Kolmogorov combinó la noción de espacio muestral , introducida por Richard von Mises , y la teoría de la medida y presentó su sistema de axiomas para la teoría de la probabilidad en 1933. Esta se convirtió en la base axiomática mayoritariamente indiscutible de la teoría de la probabilidad moderna; pero existen alternativas, como la adopción de la aditividad finita en lugar de contable por Bruno de Finetti .

Tratamiento

La mayoría de las introducciones a la teoría de la probabilidad tratan las distribuciones de probabilidad discretas y las distribuciones de probabilidad continuas por separado. El tratamiento de la probabilidad basado en la teoría de la medida cubre lo discreto, lo continuo, una combinación de los dos y más.

Motivación

Considere un experimento que puede producir varios resultados. El conjunto de todos los resultados se denomina espacio muestral del experimento. El conjunto de poder del espacio muestral (o de manera equivalente, el espacio de eventos) se forma considerando todas las diferentes colecciones de resultados posibles. Por ejemplo, lanzar un dado honesto produce uno de seis resultados posibles. Una colección de posibles resultados corresponde a obtener un número impar. Por tanto, el subconjunto {1,3,5} es un elemento del conjunto de potencias del espacio muestral de las tiradas. Estas colecciones se denominan eventos . En este caso, {1,3,5} es el caso de que el dado caiga en algún número impar. Si los resultados que realmente ocurren caen en un evento dado, se dice que ese evento ocurrió.

La probabilidad es una forma de asignar a cada "evento" un valor entre cero y uno, con el requisito de que el evento esté compuesto por todos los resultados posibles (en nuestro ejemplo, el evento {1,2,3,4,5,6}) se le asignará un valor de uno. Para calificar como una distribución de probabilidad , la asignación de valores debe satisfacer el requisito de que si observa una colección de eventos mutuamente excluyentes (eventos que no contienen resultados comunes, por ejemplo, los eventos {1,6}, {3} y { 2,4} son todos mutuamente excluyentes), la probabilidad de que ocurra cualquiera de estos eventos está dada por la suma de las probabilidades de los eventos.

La probabilidad de que ocurra cualquiera de los eventos {1,6}, {3} o {2,4} es 5/6. Esto es lo mismo que decir que la probabilidad del evento {1, 2, 3, 4, 6} es 5/6. Este evento incluye la posibilidad de que salga cualquier número excepto cinco. El evento mutuamente excluyente {5} tiene una probabilidad de 1/6 y el evento {1,2,3,4,5,6} tiene una probabilidad de 1, es decir, certeza absoluta.

Al hacer cálculos utilizando los resultados de un experimento, es necesario que todos esos eventos elementales tengan un número asignado. Esto se hace usando una variable aleatoria . Una variable aleatoria es una función que asigna a cada evento elemental en el espacio muestral un número real . Esta función generalmente se denota con una letra mayúscula. En el caso de un dado, la asignación de un número a ciertos eventos elementales se puede realizar utilizando la función de identidad . Esto no siempre funciona. Por ejemplo, al lanzar una moneda, los dos resultados posibles son "cara" y "cruz". En este ejemplo, la variable aleatoria X podría asignar al resultado "cara" el número "0" ( ) y al resultado "cruz" el número "1" ( ).

Distribuciones de probabilidad discretas

La distribución de Poisson , una distribución de probabilidad discreta.

La teoría de la probabilidad discreta se ocupa de los eventos que ocurren en espacios muestrales contables .

Ejemplos: lanzamiento de dados , experimentos con mazos de cartas , paseo aleatorio y lanzamiento de monedas.

Definición clásica : Inicialmente, la probabilidad de que ocurra un evento se definió como el número de casos favorables para el evento, sobre el número de resultados totales posibles en un espacio muestral equiprobable: ver Definición clásica de probabilidad .

Por ejemplo, si el evento es "ocurrencia de un número par cuando se lanza un dado", la probabilidad viene dada por , ya que 3 caras de las 6 tienen números pares y cada cara tiene la misma probabilidad de aparecer.

Definición moderna : La definición moderna comienza con un conjunto finito o contable llamado espacio muestral , que se relaciona con el conjunto de todos los resultados posibles en sentido clásico, denotado por . Luego se asume que para cada elemento , se adjunta un valor de "probabilidad" intrínseco , que satisface las siguientes propiedades:

Es decir, la función de probabilidad f ( x ) se encuentra entre cero y uno para cada valor de x en el espacio muestral Ω , y la suma de f ( x ) sobre todos los valores x en el espacio muestral Ω es igual a 1. Un evento se define como cualquier subconjunto del espacio muestral . La probabilidad del evento se define como

Entonces, la probabilidad de todo el espacio muestral es 1 y la probabilidad del evento nulo es 0.

La función que asigna un punto en el espacio muestral al valor de "probabilidad" se llama función de masa de probabilidad abreviada como pmf . La definición moderna no intenta responder cómo se obtienen las funciones de masa de probabilidad; en cambio, construye una teoría que asume su existencia.

Distribuciones de probabilidad continua

La distribución normal , una distribución de probabilidad continua.

La teoría de la probabilidad continua se ocupa de los eventos que ocurren en un espacio muestral continuo.

Definición clásica : La definición clásica se rompe cuando se confronta con el caso continuo. Vea la paradoja de Bertrand .

Definición moderna : si el espacio de resultados de una variable aleatoria X es el conjunto de números reales ( ) o un subconjunto de los mismos, entonces existe una función llamada función de distribución acumulativa (o cdf ) , definida por . Es decir, F ( x ) devuelve la probabilidad de que X sea ​​menor o igual que x .

El CDF necesariamente satisface las siguientes propiedades.

  1. es una forma monótona no decreciente , continua por la derecha función;

Si es absolutamente continua , es decir, su derivada existe e integrar la derivada nos devuelve la CDF nuevamente, entonces se dice que la variable aleatoria X tiene una función de densidad de probabilidad o pdf o simplemente densidad

Para un conjunto , la probabilidad de que la variable aleatoria X esté en es

En caso de que exista la función de densidad de probabilidad, esto se puede escribir como

Mientras que el PDF existe solo para variables aleatorias continuas, el CDF existe para todas las variables aleatorias (incluidas las variables aleatorias discretas) que toman valores en

Estos conceptos se pueden generalizar para casos multidimensionales en y otros espacios muestrales continuos.

Teoría de la probabilidad de la teoría de la medida

La razón de ser del tratamiento de la probabilidad basado en la teoría de la medida es que unifica los casos discretos y continuos, y hace que la diferencia sea una cuestión de qué medida se utiliza. Además, cubre distribuciones que no son discretas ni continuas ni mezclas de las dos.

Un ejemplo de tales distribuciones podría ser una combinación de distribuciones discretas y continuas, por ejemplo, una variable aleatoria que es 0 con probabilidad 1/2 y toma un valor aleatorio de una distribución normal con probabilidad 1/2. Todavía se puede estudiar hasta cierto punto si se considera que tiene un pdf de , donde está la función delta de Dirac .

Es posible que otras distribuciones ni siquiera sean una mezcla, por ejemplo, la distribución de Cantor no tiene probabilidad positiva para ningún punto individual, ni tampoco tiene densidad. El enfoque moderno de la teoría de la probabilidad resuelve estos problemas utilizando la teoría de la medida para definir el espacio de probabilidad :

Dado cualquier conjunto (también llamado espacio muestral ) y una σ-álgebra en él, una medida definida en se llama medida de probabilidad si

Si está el σ-álgebra de Borel en el conjunto de números reales, entonces hay una medida de probabilidad única para cualquier CDF, y viceversa. Se dice que la medida correspondiente a una CDF es inducida por la CDF. Esta medida coincide con la pmf para variables discretas y la pdf para variables continuas, lo que hace que el enfoque de la teoría de la medida esté libre de falacias.

La probabilidad de un conjunto en el σ-álgebra se define como

donde la integración es con respecto a la medida inducida por

Además de proporcionar una mejor comprensión y unificación de probabilidades discretas y continuas, el tratamiento de la teoría de la medida también nos permite trabajar con probabilidades externas , como en la teoría de procesos estocásticos . Por ejemplo, para estudiar el movimiento browniano , la probabilidad se define en un espacio de funciones.

Cuando es conveniente trabajar con una medida dominante, el teorema Radon-Nikodym se utiliza para definir una densidad como la derivada Radon-Nikodym de la distribución de probabilidad de interés con respecto a esta medida dominante. Las densidades discretas generalmente se definen como esta derivada con respecto a una medida de recuento sobre el conjunto de todos los resultados posibles. Las densidades para distribuciones absolutamente continuas generalmente se definen como esta derivada con respecto a la medida de Lebesgue . Si un teorema puede demostrarse en este marco general, se aplica tanto a distribuciones discretas como continuas, así como a otras; no se requieren pruebas separadas para distribuciones discretas y continuas.

Distribuciones de probabilidad clásicas

Ciertas variables aleatorias ocurren con mucha frecuencia en la teoría de la probabilidad porque describen bien muchos procesos naturales o físicos. Sus distribuciones, por tanto, han ganado una importancia especial en la teoría de la probabilidad. Algunas distribuciones discretas fundamentales son las distribuciones uniforme discreta , Bernoulli , binomial , binomial negativa , Poisson y geométrica . Las distribuciones continuas importantes incluyen las distribuciones continuas uniforme , normal , exponencial , gamma y beta .

Convergencia de variables aleatorias

En la teoría de la probabilidad, existen varias nociones de convergencia para las variables aleatorias . Se enumeran a continuación en orden de fuerza, es decir, cualquier noción posterior de convergencia en la lista implica convergencia de acuerdo con todas las nociones anteriores.

Convergencia débil
Una secuencia de variables aleatorias converge débilmente a la variable aleatoria si sus respectivas funciones de distribución acumulada convergen a la función de distribución acumulada de , dondequiera que sea continua . La convergencia débil también se llama convergencia en la distribución .
Notación taquigráfica más común:
Convergencia en probabilidad
Se dice que la secuencia de variables aleatorias converge hacia la variable aleatoria en probabilidad si para todo ε> 0.
Notación taquigráfica más común:
Fuerte convergencia
Se dice que la secuencia de variables aleatorias converge fuertemente hacia la variable aleatoria si . La convergencia fuerte también se conoce como convergencia casi segura .
Notación taquigráfica más común:

Como indican los nombres, la convergencia débil es más débil que la convergencia fuerte. De hecho, una fuerte convergencia implica una convergencia en la probabilidad y una convergencia en la probabilidad implica una convergencia débil. Las afirmaciones inversas no siempre son ciertas.

Ley de los grandes números

La intuición común sugiere que si una moneda se lanza muchas veces, y luego más o menos la mitad del tiempo que a su vez a las cabezas , y la otra mitad a su vez a las colas . Además, cuanto más a menudo se lanza la moneda, más probable es que la relación entre el número de caras y el número de cruces se acerque a la unidad. La teoría de la probabilidad moderna proporciona una versión formal de esta idea intuitiva, conocida como la ley de los grandes números . Esta ley es notable porque no se asume en los fundamentos de la teoría de la probabilidad, sino que surge de estos fundamentos como un teorema. Dado que vincula las probabilidades derivadas teóricamente con su frecuencia real de ocurrencia en el mundo real, la ley de los grandes números se considera un pilar en la historia de la teoría estadística y ha tenido una influencia generalizada.

La ley de los grandes números (LLN) establece que el promedio de la muestra

de una secuencia de variables aleatorias independientes e idénticamente distribuidas converge hacia su expectativa común , siempre que la expectativa de sea ​​finita.

Es en las diferentes formas de convergencia de variables aleatorias que separa la ley débil de la fuerte de los grandes números.

Ley débil: para
Ley fuerte: para

Se deduce del LLN que si un evento de probabilidad p se observa repetidamente durante experimentos independientes, la razón entre la frecuencia observada de ese evento y el número total de repeticiones converge hacia p .

Por ejemplo, si son variables aleatorias de Bernoulli independientes que toman valores 1 con probabilidad p y 0 con probabilidad 1- p , entonces para todo i , de modo que converge ap casi con seguridad .

Teorema del límite central

"El teorema del límite central (CLT) es uno de los grandes resultados de las matemáticas". (Capítulo 18 en) Explica la omnipresencia de la distribución normal en la naturaleza.

El teorema establece que el promedio de muchas variables aleatorias independientes e idénticamente distribuidas con varianza finita tiende hacia una distribución normal independientemente de la distribución seguida por las variables aleatorias originales. Formalmente, sean variables aleatorias independientes con media y varianza Luego, la secuencia de variables aleatorias

converge en distribución a una variable aleatoria normal estándar .

Para algunas clases de variables aleatorias, el teorema del límite central clásico funciona bastante rápido (ver el teorema de Berry-Esseen ), por ejemplo, las distribuciones con primer, segundo y tercer momento finitos de la familia exponencial ; Por otra parte, para algunas variables aleatorias de la cola pesada y cola gorda variedad, funciona muy lentamente o no funcionar en absoluto: en estos casos se puede utilizar la Generalizado teorema del límite central (GCLT).

Ver también

Notas

Referencias

El primer tratado importante que combina cálculo con teoría de la probabilidad, originalmente en francés: Théorie Analytique des Probabilités .
Una traducción al inglés de Nathan Morrison apareció bajo el título Foundations of the Theory of Probability (Chelsea, Nueva York) en 1950, con una segunda edición en 1956.
  • Patrick Billingsley (1979). Probabilidad y medida . Nueva York, Toronto, Londres: John Wiley and Sons.
  • Olav Kallenberg ; Fundamentos de la probabilidad moderna, 2ª ed. Springer Series en Estadística. (2002). 650 págs. ISBN  0-387-95313-2
  • Henk Tijms (2004). Comprensión de la probabilidad . Cambridge Univ. Presionar.
Una animada introducción a la teoría de la probabilidad para principiantes.
  • Olav Kallenberg; Simetrías probabilísticas y principios de invarianza . Springer-Verlag, Nueva York (2005). 510 págs. ISBN  0-387-25115-4
  • Gut, Allan (2005). Probabilidad: un curso de posgrado . Springer-Verlag. ISBN 0-387-22833-0.