La ley fuerte de los números grandes

Sea X una variable aleatoria de valor real, y sea $X_1, X_2, X_3, ...$ ser una secuencia infinita de copias independientes e idénticas distribuidas de X. Sea $\overline{X}_n: = \frac{1} {n} (X_1 + \ldots + X_n)$ los promedios empíricos de esta secuencia. Un teorema fundamental en la teoría de la probabilidad es la ley de los números grandes, que viene en una forma débil y fuerte:

Ley débil de los grandes números. Supongamos que el primer momento ${\Bbb E} / X /$ de X es finito. Entonces $\overline{X}_n$ converge en probabilidad a ${\Bbb E} X$ , por lo tanto $\lim_{n \ to \ infty} {\Bbb P} (|\overline{X}_n - {\Bbb E} X| \geq \varepsilon ) = 0$ para cada $\varepsilon 0$ .

Ley fuerte de grandes números. Supongamos que el primer momento ${\Bbb E} / X /$ de X es finito. Entonces $\overline{X}_n$ converge casi seguramente a ${\Bbb E} X$ , por lo tanto ${\Bbb P} (\lim_{n \to \infty} \overline{X}_n = {\Bbb E} X ) = 1$ .

(Si uno fortalece la suposición del primer momento a la de finitud del segundo momento ${\Bbb E} / X / ^2$ , entonces, por supuesto, tenemos una afirmación más precisa que la ley (débil) de los números grandes, a saber, el teorema del límite central, pero no discutiré ese teorema aquí. Con aún más hipótesis sobre X, de manera similar, uno tiene versiones más precisas de la ley fuerte de los grandes números, como la desigualdad de Chernoff, que de nuevo no discutiré aquí.)

La ley débil es fácil de probar, pero la ley fuerte (que por supuesto implica la ley débil, según el teorema de Egoroff) es más sutil, y de hecho la prueba de esta ley (asumiendo solo la finitud del primer momento) generalmente solo aparece en textos de posgrado avanzados. Así que pensé en presentar aquí una prueba de ambas leyes, que procede por las técnicas estándar del método del momento y el truncamiento. El énfasis en esta exposición estará en la motivación y los métodos en lugar de la brevedad y la fuerza de los resultados; existen pruebas de la ley fuerte en la literatura que han sido comprimidas hasta el tamaño de una página o menos, pero este no es mi objetivo aquí.

– El método del momento –

El método del momento busca controlar las probabilidades de cola de una variable aleatoria (es decir, la probabilidad de que fluctúe lejos de su media) por medio de momentos, y en particular el cero, el primer o segundo momento. La razón por la que este método es tan efectivo es porque los primeros momentos a menudo se pueden calcular con bastante precisión. El método del primer momento suele emplear la desigualdad de Markov

$\displaystyle {\Bbb P} (/X / \ geq \ lambda ) \ leq \ frac{1} {\lambda} {\Bbb E | / X|$ (1)

(que sigue tomando las expectativas de la desigualdad puntual $\lambda I (/X / \ geq \ lambda) \leq / X /$ ), mientras que el método del segundo momento emplea alguna versión de la desigualdad de Chebyshev, como

$\displaystyle {\Bbb P} (/X / \ geq \ lambda ) \ leq \ frac{1} {\lambda^2} {\Bbb E | / X|^2$ (2)

(tenga en cuenta que (2) es solo (1) aplicado a la variable aleatoria $/ X / ^2$ y a la umbral $\lambda^2$ ).

En términos generales, para calcular el primer momento se suele emplear la linealidad de las expectativas

$\displaystyle {\Bbb E} X_1 + \ ldots + X_n = {\Bbb E} X_1 + \ldots + {\Bbb E} X_n$ ,

mientras que para calcular el segundo momento uno también necesita entender las covarianzas (que son particularmente simples si uno asume la independencia de pares), gracias a identidades como

$\displaystyle {\Bbb E} (X_1 + \ldots + X_n)^2 = {\Bbb E} X_1^2 + \ldots + {\Bbb E} X_n^2 + 2 \ sum_{1 \leq i j \leq n} X_i X_j$

o la variante normalizada

$\displaystyle {\bf Var}(X_1+\ldots+X_n) = {\bf Var}(X_1) + \ldots + {\bf Var}(X_n)$

$\displaystyle + 2 \sum_{1 \leq i j \leq n} {\bf Cov}(X_i,X_j)$ . (3)

Los momentos más altos pueden, en principio, proporcionar información más precisa, pero a menudo requieren suposiciones más sólidas sobre los objetos que se estudian, como la independencia de las articulaciones.

Aquí hay una aplicación básica del método del primer momento:

Lema Borel-Cantelli. Sea $E_1, E_2, E_3, \ldots$ una secuencia de eventos tales que $\sum_{n = 1}^\infty {\Bbb P}(E_n)$ es finito. Entonces, casi seguramente, solo muchos de los eventos $E_n$ son verdaderos.

Prueba. Let $I (E_n)$ denota la función indicadora del evento $E_n$ . Nuestra tarea es mostrar que $\sum_{n = 1}^\infty I (E_n)$ es casi seguro que es finito. Pero por linealidad de expectativa, la expectativa de esta variable aleatoria es $\ sum_{n = 1}^\infty {\Bbb P} (E_n)$ , que es finita por hipótesis. Por la desigualdad de Markov (1) concluimos que

$\displaystyle {\Bbb P} (\sum_{n=1}^\infty I(E_n) \geq \lambda ) \leq \frac{1}{\lambda} \sum_{n=1}^\infty {\Bbb P} (E_n)$ .

Dejando $\lambda \ to \ infty$ obtenemos la reclamación. $\ Box$

Volviendo a la ley de los números grandes, el método del primer momento da el siguiente límite de cola:

Lema 1. (Primer momento de la cola enlazada) Si ${\Bbb E}|X|$ es finito, entonces

$\displaystyle {\Bbb P}( |\overline{X}_n| \geq \lambda ) \leq \frac{{\Bbb E}|X|}{\lambda}$ .

Prueba. Por la desigualdad de triángulo, $|\overline{X}_n| \leq \overline{|X|}_n$ . Por linealidad de expectativa, la expectativa de $\overline {/X/} _n$ es ${\Bbb E} / X /$ . La afirmación se deriva ahora de la desigualdad de Markov. $\ Box$

El Lema 1 no es lo suficientemente fuerte por sí solo para probar la ley de los números grandes en forma débil o fuerte, en particular, no muestra ninguna mejora ya que n se vuelve grande, pero será útil manejar uno de los términos de error en esas pruebas.

Podemos obtener límites más fuertes que el Lema 1, en particular, límites que mejoran con n, a expensas de suposiciones más fuertes en X.

Lema 2. (Segundo momento de la cola enlazada) Si ${\Bbb E}|X|^2$ es finito, entonces

$\displaystyle {\Bbb P}( |\overline{X}_n - {\Bbb E}(X)| \geq \lambda ) \leq \frac{ {\Bbb E}|X - {\Bbb E}(X)|^2 }{n \lambda^2}$ .

Prueba. Un cálculo estándar, explotando (3) y la independencia de pares de $X_i$ , muestra que la varianza ${\Bbb E} |\overline{X}_n - {\Bbb E}(X)|^2$ de los promedios empíricos $\overline{X}_n$ es igual a $\frac{1}{n}$ veces la varianza ${\Bbb E} |X - {\Bbb E}(X)|^2$ de la variable original X. La afirmación se deriva ahora de la desigualdad de Chebyshev (2). $\Cuadro$

En la dirección opuesta, no es el momento cero de método, más comúnmente conocido como la unión vinculados

$\displaystyle {\Bbb P}( E_1 \v \ldots \vee E_n ) \leq \sum_{j=1}^n {\Bbb P}(E_j)$

o, equivalentemente, (para explicar la terminología de «momento cero»)

$\displaystyle {\Bbb E} (X_1 + \ldots + X_n)^0 \leq {\Bbb E} X_1^0 + \ldots + X_n^0$

para cualquier valor no negativo variables aleatorias $X_1,\ldots,X_n \geq 0$ . Aplicando esto a las medias empíricas, obtenemos la estimación de la cola del momento cero

${\Bbb P} (\overline{X}_n \ neq 0) \leq n {\Bbb P}(X \neq 0)$ . (4)

Así como el segundo momento limitado (Lema 2) solo es útil cuando uno tiene un buen control del segundo momento (o varianza) de X, la estimación de cola del momento cero(3) solo es útil cuando tenemos un buen control del momento cero ${\Bbb E} |X|^0 = {\Bbb P} (X \neq 0)$ , es decir, cuando X es casi cero.

El límite de cola del segundo momento (Lema 2) ya da la ley débil de números grandes en el caso de que X tenga un segundo momento finito (o, de forma equivalente, varianza finita). En general, si todo lo que uno sabe sobre X es que tiene un primer momento finito, entonces no podemos concluir que X tiene un segundo momento finito. Sin embargo, se puede realizar un truncamiento

$\displaystyle X = X_{\leq N} + X_{N}$ (5)

de X en cualquier umbral deseado N, donde $X_{\leq N} := X I(|X| \leq N)$ y $X_{N} := X I(|X| N)$ . El primer término $X_{\leq N}$ ha finito segundo momento; de hecho, claramente tenemos

$\displaystyle {\Bbb E} |X_{\leq N}|^2 \leq N {\Bbb E} |X|$

y de ahí también tenemos varianza finita

$\displaystyle {\Bbb E} |X_{\leq N} - {\Bbb E} X_{\leq N}|^2 \leq N {\Bbb E} |X|$ . (6)

El segundo término $X_{N}$ puede tener un segundo momento infinito, pero su primer momento está bien controlado. De hecho, por el teorema de convergencia monótona, tenemos

$\displaystyle {\Bbb E} / X_{N} / \to 0 \hbox{ as } N \to \infty$ . (7)

Por la desigualdad triangular, concluimos que el primer término $X_ {\leq N}$ tiene una expectativa cercana a ${\Bbb E} X$ :

$\displaystyle {\Bbb E} X_ {\leq N} \ to {\Bbb E}(X) \hbox{ as } N \to \ infty$ . (8)

Estas son todas las herramientas que necesitamos para probar la ley débil de los grandes números:

Prueba de la ley débil. Let $\varepsilon 0$ . Basta con mostrar que cuando n es suficientemente grande dependiendo de $\varepsilon$ , que $\overline{X}_n = {\Bbb E} X + O (\varepsilon)$ con probabilidad $1-O (\varepsilon)$ .

De (7), (8), podemos encontrar un umbral N (dependiendo de $\varepsilon$ ) tal que ${\Bbb E} |X_{\geq N}| = O(\varepsilon^2)$ y ${\Bbb E} X_{N} = {\Bbb E} X + O(\varepsilon)$ . Ahora vamos a utilizar (5) para dividir

$\displaystyle \overline{X}_n = (\overline{X_{\geq N}})_n +(\overline{X_{ N}})_n$ .

Desde el primer momento del límite de cola (Lema 1), sabemos que $(\overline{X_{\geq N}})_n = O(\varepsilon)$ con probabilidad $1 - O(\varepsilon)$ . Desde el segundo momento de límite de cola (Lema 2) y (6), sabemos que $(\overline{X_{ N}})_n = {\Bbb E} X_{N} + O(\varepsilon) = {\Bbb E} X + O(\varepsilon)$ con probabilidad $1-O(\varepsilon)$ si n es suficientemente grande dependiendo de N y $\varepsilon$ . A continuación se presenta la reclamación. $\ Box$

— La ley fuerte –

La ley fuerte se puede probar empujando los métodos anteriores un poco más lejos y usando algunos trucos más.

El primer truco es observar que para probar la ley fuerte, es suficiente hacerlo para variables aleatorias no negativas $X \ geq 0$ . De hecho, esto se desprende inmediatamente del simple hecho de que cualquier variable aleatoria X con primer momento finito puede expresarse como la diferencia de dos variables aleatorias no negativas $\max(X,0), \max (- X,0)$ del primer momento finito.

Una vez que X no es negativo, vemos que los promedios empíricos $\overline{X}_n$ no pueden disminuir demasiado rápido en n. En particular, observamos que

$\displaystyle \overline{X}_m \leq (1+O (\varepsilon)) \overline{X}_n$ siempre que $(1-\varepsilon) n \leq m \leq n$ . (9)

Debido a esta cuasimonotonía, podemos dispersar el conjunto de n para el que necesitamos probar la ley fuerte. Más precisamente, basta con mostrar

Ley fuerte de números grandes, versión reducida. Sea $X$ una variable aleatoria no negativa con ${\Bbb E} X \infty$ , y sea $1 \leq n_1\leq n_2\leq n_3\leq\ldots$ una secuencia de enteros que es lacunar en el sentido de que $n_{j+1}/n_j c$ para algunos $c1$ y todo lo suficientemente grande j. Entonces $\overline{X}_{n_j}$ converge casi seguramente a ${\Bbb E} X$ .

De hecho, si pudiéramos probar la versión reducida, al aplicar esa versión a la secuencia lacunaria $n_j := \lfloor (1 + \varepsilon)^j\rfloor$ y usando (9) veríamos que casi seguramente las medias empíricas $\overline{X}_n$ no pueden desviarse por más de un error multiplicativo de $1+O(\varepsilon)$ de la media ${\Bbb E} X$ . Estableciendo $\varepsilon: = 1 / m$ para $m = 1,2,3,\ldots$ (y usando el hecho de que una intersección numerable de eventos casi seguros permanece casi segura) obtenemos la ley fuerte completa.

Ahora que hemos reducido la secuencia, resulta económico aplicar el lema Borel-Cantelli. De hecho, por muchas aplicaciones de ese lema vemos que basta con demostrar que

$\displaystyle \sum_{j=1}^\infty {\Bbb P} (\overline{X}_{n_j} \neq {\Bbb E} (X) + O (\varepsilon ) ) \infty$ (10)

para X no negativo de primer momento finito, cualquier secuencia lacunar $1 \leq n_1 \leq n_2 \leq \ldots$ y cualquier $\varepsilon 0$ .

En este punto volvemos atrás y aplicamos los métodos que ya funcionaron para dar la ley débil. Es decir, para estimar cada una de las probabilidades de cola ${\Bbb P}( \overline{X}_{n_j} \neq {\Bbb E}(X) + O(\varepsilon) )$ , realizamos un truncamiento (5) en algún umbral $N_j$ . No es obvio de inmediato qué truncamiento realizar, por lo que adoptamos la estrategia habitual de dejar $N_j$ sin especificar por ahora y optimizar en este parámetro más adelante.

Al menos debemos elegir $N_j$ lo suficientemente grande para que ${\Bbb E} X_{ N_j} = {\Bbb E} X + O(\varepsilon)$ . A partir de la estimación de cola del segundo momento (Lema 2), concluimos que $(\overline{X_{ N_j}})_{n_j}$ también es igual a ${\Bbb E} X + O( \varepsilon )$ con probabilidad $1-O( \frac{1}{\varepsilon n_j} {\Bbb E} |X_{\leq N_j}|^2 )$ . Uno podría intentar simplificar esta expresión usando (6), pero esto resulta ser un poco derrochador, así que dejemos eso por ahora. Sin embargo, (6) sugiere fuertemente que queremos tomar $N_j$ como $n_j$ , lo que vale la pena tener en cuenta en lo que sigue.

Ahora vemos la contribución de $X_ {\geq N_j}$ . Uno podría usar la estimación de cola del primer momento (Lema 1), pero resulta que el primer momento ${\Bbb E} X_{ N_j}$ decae demasiado lentamente en j para ser de mucha utilidad (recordemos que esperamos que $N_j$ sea como la secuencia lacunaria $n_j$ ); el problema de raíz aquí es que la desintegración (7) proveniente del teorema de convergencia monótona es ineficaz (uno podría hacer efectivo esto usando el principio de convergencia finita, pero esto resulta dar resultados muy pobres aquí).

Pero hay una última carta para jugar, que es la estimación de cola del método del momento cero (4). Como se mencionó anteriormente, este límite es pésimo en general, pero es muy bueno cuando X es casi cero, que es precisamente la situación con $X_{N_j}$ . y en particular vemos que $(\overline{X_{N_j}})_{n_j}$ es cero con probabilidad $1 - O(n_j {\Bbb P} (X N_j) )$ .

Poniendo todo esto en conjunto, vemos que

$\displaystyle {\Bbb P}( \overline{X}_{n_j} \neq {\Bbb E}(X) + O( \varepsilon ) ) \leq O( \frac{1}{\varepsilon n_j} {\Bbb E} |X_{\leq N_j}|^2 ) + O( n_j {\Bbb P}(X N_j) ).$

Sumar esta en j, vemos que se hará tan pronto como podemos averiguar cómo elegir $N_j$ , de modo que

$\displaystyle \sum_{j=1}^\infty \frac{1}{n_j} {\Bbb E} |X_{\leq N_j}|^2$ (11)

$\displaystyle \sum_{j=1}^\infty n_j {\Bbb P}(X N_j)$ (12)

ambos son finitos. (Como de costumbre, tenemos un compromiso: hacer que $N_j$ sea más grande hace que (12) sea más fácil de establecer a expensas de (11), y viceversa al hacer $N_j$ más pequeño.)

Basado en la discusión anterior, es natural intentar establecer $N_j: = n_j$ . Afortunadamente, esta elección funciona de forma limpia; la naturaleza lacustre de $n_j$ asegura (básicamente a partir de la fórmula de la serie geométrica) que tenemos las estimaciones puntuales

$\displaystyle \sum_{j=1}^\infty \ frac{1} {n_j | / X_{\leq n_j| / ^2 = O( X )$

$\displaystyle \sum_{j=1}^\infty n_j I (X \geq n_j) = O( X )$

(donde la constante implícita aquí depende de la secuencia $n_1, n_2, \ldots$ , y en particular de la constante de lagunas c). Las pretensiones (10), (11) se derivan de una última aplicación de la linealidad de la expectativa, dando la fuerte ley de los grandes números.

Observación 1. La prueba anterior, de hecho, muestra que la fuerte ley de los grandes números se mantiene incluso si solo se asume la independencia en parejas de $X_n$ , en lugar de la independencia conjunta. $\ diamond$

Observación 2. Es esencial que las variables aleatorias $X_1,X_2,\ldots$ se «reciclen» de un promedio empírico $\overline{X}_n$ a la siguiente, para obtener la propiedad crucial de cuasimonotonía (9). Si en cambio tomamos promedios completamente independientes $\overline{X}_n = \frac{1} {n} (X_{n,1} + \ldots + X_{n,n} )$ , donde $X_{i,j}$ son todos iid, entonces la ley fuerte de los números grandes de hecho se rompe con solo una suposición de primer momento. (Para un contraejemplo, considere una variable aleatoria X que es igual a $2^m / m^2$ con probabilidad $2^{-m}$ para $m = 1,2,3, \ ldots$ ; esta variable aleatoria (apenas) tiene un primer momento finito, pero para $n \ sim 2^m / m^2$ , vemos que $\overline{X}_n$ se desvía por al menos constante absoluta de su media con probabilidad $\gg 1/m^2$ . Como las medias empíricas $\overline{X}_n$ para $n \ sim 2^m / m^2$ son ahora conjuntamente independientes, la probabilidad de que una de ellas se desvíe significativamente es ahora extremadamente cercana a 1 (superexponencialmente cercana en $m$ , de hecho), lo que lleva al fracaso total de la ley fuerte en este entorno. Por supuesto, si se restringe la atención a una secuencia lacunaria de n, entonces la prueba anterior se realiza en el caso independiente (ya que el lema Borel-Cantelli es insensible a esta independencia). Al explotar aún más la independencia conjunta (por ejemplo, utilizando la desigualdad de Chernoff), también se puede obtener la ley fuerte para medios empíricos independientes para la secuencia completa n bajo los límites del segundo momento. $\ diamond$

Observación 3. Desde la perspectiva de la teoría de interpolación, se puede ver el argumento anterior como un argumento de interpolación, estableciendo una estimación $L^1$ (10) interpolando entre una estimación $L^2$ (Lema 2) y la estimación $L^0$ (4). $\ diamond$

Observación 4. Al ver la secuencia $X_1, X_2, \ ldots$ como un proceso estacionario, y por lo tanto como un caso especial de un sistema que preserva la medida, se puede ver la ley débil y fuerte de los números grandes como casos especiales de los teoremas ergódicos medios y puntuales respectivamente (ver el Ejercicio 9 de la Lección 8 de 254A y el Teorema 2 de la Lección 9 de 254A). $\diamond$

La ley fuerte de los números grandes

Deja una respuesta Cancelar la respuesta

José de Escandón-el Padre del sur de Texas

Atletas Individuales

La ley fuerte de los números grandes

Deja una respuesta Cancelar la respuesta

More:

José de Escandón-el Padre del sur de Texas

Atletas Individuales