La ley fuerte de los números grandes

Sea X una variable aleatoria de valor real, y sea  X_1, X_2, X_3, ... ser una secuencia infinita de copias independientes e idénticas distribuidas de X. Sea  \overline{X}_n: = \frac{1} {n} (X_1 + \ldots + X_n) los promedios empíricos de esta secuencia. Un teorema fundamental en la teoría de la probabilidad es la ley de los números grandes, que viene en una forma débil y fuerte:

Ley débil de los grandes números. Supongamos que el primer momento  {\Bbb E} / X / de X es finito. Entonces  \overline{X}_n converge en probabilidad a  {\Bbb E} X, por lo tanto  \lim_{n \ to \ infty} {\Bbb P} (|\overline{X}_n - {\Bbb E} X| \geq \varepsilon ) = 0 para cada  \varepsilon 0.

Ley fuerte de grandes números. Supongamos que el primer momento  {\Bbb E} / X / de X es finito. Entonces  \overline{X}_n converge casi seguramente a  {\Bbb E} X, por lo tanto  {\Bbb P} (\lim_{n \to \infty} \overline{X}_n = {\Bbb E} X ) = 1.

(Si uno fortalece la suposición del primer momento a la de finitud del segundo momento  {\Bbb E} / X / ^2, entonces, por supuesto, tenemos una afirmación más precisa que la ley (débil) de los números grandes, a saber, el teorema del límite central, pero no discutiré ese teorema aquí. Con aún más hipótesis sobre X, de manera similar, uno tiene versiones más precisas de la ley fuerte de los grandes números, como la desigualdad de Chernoff, que de nuevo no discutiré aquí.)

La ley débil es fácil de probar, pero la ley fuerte (que por supuesto implica la ley débil, según el teorema de Egoroff) es más sutil, y de hecho la prueba de esta ley (asumiendo solo la finitud del primer momento) generalmente solo aparece en textos de posgrado avanzados. Así que pensé en presentar aquí una prueba de ambas leyes, que procede por las técnicas estándar del método del momento y el truncamiento. El énfasis en esta exposición estará en la motivación y los métodos en lugar de la brevedad y la fuerza de los resultados; existen pruebas de la ley fuerte en la literatura que han sido comprimidas hasta el tamaño de una página o menos, pero este no es mi objetivo aquí.

– El método del momento –

El método del momento busca controlar las probabilidades de cola de una variable aleatoria (es decir, la probabilidad de que fluctúe lejos de su media) por medio de momentos, y en particular el cero, el primer o segundo momento. La razón por la que este método es tan efectivo es porque los primeros momentos a menudo se pueden calcular con bastante precisión. El método del primer momento suele emplear la desigualdad de Markov

\displaystyle {\Bbb P} (/X / \ geq \ lambda ) \ leq \ frac{1} {\lambda} {\Bbb E | / X| (1)

(que sigue tomando las expectativas de la desigualdad puntual  \lambda I (/X / \ geq \ lambda) \leq / X / ), mientras que el método del segundo momento emplea alguna versión de la desigualdad de Chebyshev, como

\displaystyle {\Bbb P} (/X / \ geq \ lambda ) \ leq \ frac{1} {\lambda^2} {\Bbb E | / X|^2 (2)

(tenga en cuenta que (2) es solo (1) aplicado a la variable aleatoria  / X / ^2 y a la umbral  \lambda^2).

En términos generales, para calcular el primer momento se suele emplear la linealidad de las expectativas

\displaystyle {\Bbb E} X_1 + \ ldots + X_n = {\Bbb E} X_1 + \ldots + {\Bbb E} X_n,

mientras que para calcular el segundo momento uno también necesita entender las covarianzas (que son particularmente simples si uno asume la independencia de pares), gracias a identidades como

\displaystyle {\Bbb E} (X_1 + \ldots + X_n)^2 = {\Bbb E} X_1^2 + \ldots + {\Bbb E} X_n^2 + 2 \ sum_{1 \leq i j \leq n} X_i X_j

o la variante normalizada

\displaystyle {\bf Var}(X_1+\ldots+X_n) = {\bf Var}(X_1) + \ldots + {\bf Var}(X_n)

\displaystyle + 2 \sum_{1 \leq i j \leq n} {\bf Cov}(X_i,X_j). (3)

Los momentos más altos pueden, en principio, proporcionar información más precisa, pero a menudo requieren suposiciones más sólidas sobre los objetos que se estudian, como la independencia de las articulaciones.

Aquí hay una aplicación básica del método del primer momento:

Lema Borel-Cantelli. Sea  E_1, E_2, E_3, \ldots una secuencia de eventos tales que  \sum_{n = 1}^\infty {\Bbb P}(E_n) es finito. Entonces, casi seguramente, solo muchos de los eventos E_n son verdaderos.

Prueba. Let  I (E_n) denota la función indicadora del evento E_n. Nuestra tarea es mostrar que  \sum_{n = 1}^\infty I (E_n) es casi seguro que es finito. Pero por linealidad de expectativa, la expectativa de esta variable aleatoria es  \ sum_{n = 1}^\infty {\Bbb P} (E_n), que es finita por hipótesis. Por la desigualdad de Markov (1) concluimos que

\displaystyle {\Bbb P} (\sum_{n=1}^\infty I(E_n) \geq \lambda ) \leq \frac{1}{\lambda} \sum_{n=1}^\infty {\Bbb P} (E_n).

Dejando  \lambda \ to \ infty obtenemos la reclamación.  \ Box

Volviendo a la ley de los números grandes, el método del primer momento da el siguiente límite de cola:

Lema 1. (Primer momento de la cola enlazada) Si {\Bbb E}|X| es finito, entonces

\displaystyle {\Bbb P}( |\overline{X}_n| \geq \lambda ) \leq \frac{{\Bbb E}|X|}{\lambda}.

Prueba. Por la desigualdad de triángulo, |\overline{X}_n| \leq \overline{|X|}_n. Por linealidad de expectativa, la expectativa de  \overline {/X/} _n es  {\Bbb E} / X / . La afirmación se deriva ahora de la desigualdad de Markov.  \ Box

El Lema 1 no es lo suficientemente fuerte por sí solo para probar la ley de los números grandes en forma débil o fuerte, en particular, no muestra ninguna mejora ya que n se vuelve grande, pero será útil manejar uno de los términos de error en esas pruebas.

Podemos obtener límites más fuertes que el Lema 1, en particular, límites que mejoran con n, a expensas de suposiciones más fuertes en X.

Lema 2. (Segundo momento de la cola enlazada) Si {\Bbb E}|X|^2 es finito, entonces

\displaystyle {\Bbb P}( |\overline{X}_n - {\Bbb E}(X)| \geq \lambda ) \leq \frac{ {\Bbb E}|X - {\Bbb E}(X)|^2 }{n \lambda^2}.

Prueba. Un cálculo estándar, explotando (3) y la independencia de pares de X_i, muestra que la varianza {\Bbb E} |\overline{X}_n - {\Bbb E}(X)|^2 de los promedios empíricos \overline{X}_n es igual a \frac{1}{n} veces la varianza {\Bbb E} |X - {\Bbb E}(X)|^2 de la variable original X. La afirmación se deriva ahora de la desigualdad de Chebyshev (2). \Cuadro

En la dirección opuesta, no es el momento cero de método, más comúnmente conocido como la unión vinculados

\displaystyle {\Bbb P}( E_1 \v \ldots \vee E_n ) \leq \sum_{j=1}^n {\Bbb P}(E_j)

o, equivalentemente, (para explicar la terminología de «momento cero»)

\displaystyle {\Bbb E} (X_1 + \ldots + X_n)^0 \leq {\Bbb E} X_1^0 + \ldots + X_n^0

para cualquier valor no negativo variables aleatorias X_1,\ldots,X_n \geq 0. Aplicando esto a las medias empíricas, obtenemos la estimación de la cola del momento cero

{\Bbb P} (\overline{X}_n \ neq 0) \leq n {\Bbb P}(X \neq 0). (4)

Así como el segundo momento limitado (Lema 2) solo es útil cuando uno tiene un buen control del segundo momento (o varianza) de X, la estimación de cola del momento cero(3) solo es útil cuando tenemos un buen control del momento cero {\Bbb E} |X|^0 = {\Bbb P} (X \neq 0), es decir, cuando X es casi cero.

El límite de cola del segundo momento (Lema 2) ya da la ley débil de números grandes en el caso de que X tenga un segundo momento finito (o, de forma equivalente, varianza finita). En general, si todo lo que uno sabe sobre X es que tiene un primer momento finito, entonces no podemos concluir que X tiene un segundo momento finito. Sin embargo, se puede realizar un truncamiento

\displaystyle X = X_{\leq N} + X_{N} (5)

de X en cualquier umbral deseado N, donde X_{\leq N} := X I(|X| \leq N) y X_{N} := X I(|X| N). El primer término X_{\leq N} ha finito segundo momento; de hecho, claramente tenemos

\displaystyle {\Bbb E} |X_{\leq N}|^2 \leq N {\Bbb E} |X|

y de ahí también tenemos varianza finita

\displaystyle {\Bbb E} |X_{\leq N} - {\Bbb E} X_{\leq N}|^2 \leq N {\Bbb E} |X|. (6)

El segundo término X_{N} puede tener un segundo momento infinito, pero su primer momento está bien controlado. De hecho, por el teorema de convergencia monótona, tenemos

\displaystyle {\Bbb E} / X_{N} / \to 0 \hbox{ as } N \to \infty. (7)

Por la desigualdad triangular, concluimos que el primer término  X_ {\leq N} tiene una expectativa cercana a {\Bbb E} X:

\displaystyle {\Bbb E} X_ {\leq N} \ to {\Bbb E}(X) \hbox{ as } N \to \ infty. (8)

Estas son todas las herramientas que necesitamos para probar la ley débil de los grandes números:

Prueba de la ley débil. Let  \varepsilon 0. Basta con mostrar que cuando n es suficientemente grande dependiendo de  \varepsilon, que  \overline{X}_n = {\Bbb E} X + O (\varepsilon) con probabilidad 1-O (\varepsilon).

De (7), (8), podemos encontrar un umbral N (dependiendo de \varepsilon) tal que {\Bbb E} |X_{\geq N}| = O(\varepsilon^2) y {\Bbb E} X_{N} = {\Bbb E} X + O(\varepsilon). Ahora vamos a utilizar (5) para dividir

\displaystyle \overline{X}_n = (\overline{X_{\geq N}})_n +(\overline{X_{ N}})_n.

Desde el primer momento del límite de cola (Lema 1), sabemos que (\overline{X_{\geq N}})_n = O(\varepsilon) con probabilidad 1 - O(\varepsilon). Desde el segundo momento de límite de cola (Lema 2) y (6), sabemos que (\overline{X_{ N}})_n = {\Bbb E} X_{N} + O(\varepsilon) = {\Bbb E} X + O(\varepsilon) con probabilidad 1-O(\varepsilon) si n es suficientemente grande dependiendo de N y \varepsilon. A continuación se presenta la reclamación.  \ Box

— La ley fuerte –

La ley fuerte se puede probar empujando los métodos anteriores un poco más lejos y usando algunos trucos más.

El primer truco es observar que para probar la ley fuerte, es suficiente hacerlo para variables aleatorias no negativas  X \ geq 0. De hecho, esto se desprende inmediatamente del simple hecho de que cualquier variable aleatoria X con primer momento finito puede expresarse como la diferencia de dos variables aleatorias no negativas \max(X,0), \max (- X,0) del primer momento finito.

Una vez que X no es negativo, vemos que los promedios empíricos \overline{X}_n no pueden disminuir demasiado rápido en n. En particular, observamos que

\displaystyle \overline{X}_m \leq (1+O (\varepsilon)) \overline{X}_n siempre que (1-\varepsilon) n \leq m \leq n. (9)

Debido a esta cuasimonotonía, podemos dispersar el conjunto de n para el que necesitamos probar la ley fuerte. Más precisamente, basta con mostrar

Ley fuerte de números grandes, versión reducida. Sea X una variable aleatoria no negativa con {\Bbb E} X \infty, y sea 1 \leq n_1\leq n_2\leq n_3\leq\ldots una secuencia de enteros que es lacunar en el sentido de que n_{j+1}/n_j c para algunos c1 y todo lo suficientemente grande j. Entonces \overline{X}_{n_j} converge casi seguramente a {\Bbb E} X.

De hecho, si pudiéramos probar la versión reducida, al aplicar esa versión a la secuencia lacunaria  n_j := \lfloor (1 + \varepsilon)^j\rfloor y usando (9) veríamos que casi seguramente las medias empíricas \overline{X}_n no pueden desviarse por más de un error multiplicativo de 1+O(\varepsilon) de la media {\Bbb E} X. Estableciendo  \varepsilon: = 1 / m para  m = 1,2,3,\ldots (y usando el hecho de que una intersección numerable de eventos casi seguros permanece casi segura) obtenemos la ley fuerte completa.

Ahora que hemos reducido la secuencia, resulta económico aplicar el lema Borel-Cantelli. De hecho, por muchas aplicaciones de ese lema vemos que basta con demostrar que

\displaystyle \sum_{j=1}^\infty {\Bbb P} (\overline{X}_{n_j} \neq {\Bbb E} (X) + O (\varepsilon ) ) \infty (10)

para X no negativo de primer momento finito, cualquier secuencia lacunar 1 \leq n_1 \leq n_2 \leq \ldots y cualquier  \varepsilon 0.

En este punto volvemos atrás y aplicamos los métodos que ya funcionaron para dar la ley débil. Es decir, para estimar cada una de las probabilidades de cola  {\Bbb P}( \overline{X}_{n_j} \neq {\Bbb E}(X) + O(\varepsilon) ), realizamos un truncamiento (5) en algún umbral N_j. No es obvio de inmediato qué truncamiento realizar, por lo que adoptamos la estrategia habitual de dejar N_j sin especificar por ahora y optimizar en este parámetro más adelante.

Al menos debemos elegir N_j lo suficientemente grande para que {\Bbb E} X_{ N_j} = {\Bbb E} X + O(\varepsilon). A partir de la estimación de cola del segundo momento (Lema 2), concluimos que (\overline{X_{ N_j}})_{n_j} también es igual a {\Bbb E} X + O( \varepsilon ) con probabilidad 1-O( \frac{1}{\varepsilon n_j} {\Bbb E} |X_{\leq N_j}|^2 ). Uno podría intentar simplificar esta expresión usando (6), pero esto resulta ser un poco derrochador, así que dejemos eso por ahora. Sin embargo, (6) sugiere fuertemente que queremos tomar N_j como n_j, lo que vale la pena tener en cuenta en lo que sigue.

Ahora vemos la contribución de  X_ {\geq N_j}. Uno podría usar la estimación de cola del primer momento (Lema 1), pero resulta que el primer momento {\Bbb E} X_{ N_j} decae demasiado lentamente en j para ser de mucha utilidad (recordemos que esperamos que N_j sea como la secuencia lacunaria n_j); el problema de raíz aquí es que la desintegración (7) proveniente del teorema de convergencia monótona es ineficaz (uno podría hacer efectivo esto usando el principio de convergencia finita, pero esto resulta dar resultados muy pobres aquí).

Pero hay una última carta para jugar, que es la estimación de cola del método del momento cero (4). Como se mencionó anteriormente, este límite es pésimo en general, pero es muy bueno cuando X es casi cero, que es precisamente la situación con  X_{N_j}. y en particular vemos que (\overline{X_{N_j}})_{n_j} es cero con probabilidad 1 - O(n_j {\Bbb P} (X N_j) ).

Poniendo todo esto en conjunto, vemos que

\displaystyle {\Bbb P}( \overline{X}_{n_j} \neq {\Bbb E}(X) + O( \varepsilon ) ) \leq O( \frac{1}{\varepsilon n_j} {\Bbb E} |X_{\leq N_j}|^2 ) + O( n_j {\Bbb P}(X N_j) ).

Sumar esta en j, vemos que se hará tan pronto como podemos averiguar cómo elegir N_j, de modo que

\displaystyle \sum_{j=1}^\infty \frac{1}{n_j} {\Bbb E} |X_{\leq N_j}|^2 (11)

y

\displaystyle \sum_{j=1}^\infty n_j {\Bbb P}(X N_j) (12)

ambos son finitos. (Como de costumbre, tenemos un compromiso: hacer que N_j sea más grande hace que (12) sea más fácil de establecer a expensas de (11), y viceversa al hacer N_j más pequeño.)

Basado en la discusión anterior, es natural intentar establecer  N_j: = n_j. Afortunadamente, esta elección funciona de forma limpia; la naturaleza lacustre de n_j asegura (básicamente a partir de la fórmula de la serie geométrica) que tenemos las estimaciones puntuales

\displaystyle \sum_{j=1}^\infty \ frac{1} {n_j | / X_{\leq n_j| / ^2 = O( X )

y

\displaystyle \sum_{j=1}^\infty n_j I (X \geq n_j) = O( X )

(donde la constante implícita aquí depende de la secuencia  n_1, n_2, \ldots, y en particular de la constante de lagunas c). Las pretensiones (10), (11) se derivan de una última aplicación de la linealidad de la expectativa, dando la fuerte ley de los grandes números.

Observación 1. La prueba anterior, de hecho, muestra que la fuerte ley de los grandes números se mantiene incluso si solo se asume la independencia en parejas de X_n, en lugar de la independencia conjunta.  \ diamond

Observación 2. Es esencial que las variables aleatorias X_1,X_2,\ldots se «reciclen» de un promedio empírico \overline{X}_n a la siguiente, para obtener la propiedad crucial de cuasimonotonía (9). Si en cambio tomamos promedios completamente independientes  \overline{X}_n = \frac{1} {n} (X_{n,1} + \ldots + X_{n,n} ), donde X_{i,j} son todos iid, entonces la ley fuerte de los números grandes de hecho se rompe con solo una suposición de primer momento. (Para un contraejemplo, considere una variable aleatoria X que es igual a  2^m / m^2 con probabilidad 2^{-m} para m = 1,2,3, \ ldots; esta variable aleatoria (apenas) tiene un primer momento finito, pero para  n \ sim 2^m / m^2, vemos que  \overline{X}_nse desvía por al menos constante absoluta de su media con probabilidad \gg 1/m^2. Como las medias empíricas  \overline{X}_n para  n \ sim 2^m / m^2 son ahora conjuntamente independientes, la probabilidad de que una de ellas se desvíe significativamente es ahora extremadamente cercana a 1 (superexponencialmente cercana en m, de hecho), lo que lleva al fracaso total de la ley fuerte en este entorno. Por supuesto, si se restringe la atención a una secuencia lacunaria de n, entonces la prueba anterior se realiza en el caso independiente (ya que el lema Borel-Cantelli es insensible a esta independencia). Al explotar aún más la independencia conjunta (por ejemplo, utilizando la desigualdad de Chernoff), también se puede obtener la ley fuerte para medios empíricos independientes para la secuencia completa n bajo los límites del segundo momento.  \ diamond

Observación 3. Desde la perspectiva de la teoría de interpolación, se puede ver el argumento anterior como un argumento de interpolación, estableciendo una estimación L^1 (10) interpolando entre una estimación L^2 (Lema 2) y la estimación L^0 (4).  \ diamond

Observación 4. Al ver la secuencia  X_1, X_2, \ ldots como un proceso estacionario, y por lo tanto como un caso especial de un sistema que preserva la medida, se puede ver la ley débil y fuerte de los números grandes como casos especiales de los teoremas ergódicos medios y puntuales respectivamente (ver el Ejercicio 9 de la Lección 8 de 254A y el Teorema 2 de la Lección 9 de 254A).  \diamond

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

More: