The strong law of large numbers

Let X be a real-valued random variable, and let X_1, X_2, X_3, ... ser uma sequência infinita de independentes e identicamente distribuídas cópias do X. Deixe \overline{X}_n := \frac{1}{n}(X_1 + \ldots + X_n) ser empírico médias desta sequência. Um teorema fundamental na teoria das probabilidades é a lei dos grandes números, que vem em uma forma fraca e forte. :

Lei fraca de grandes números. Suponha que o primeiro momento {\Bbb e} |X| de X é finito. Em seguida, \overline{X}_nconverge em probabilidade para {\Bbb E} X assim \lim_{n \to \infty} {\Bbb P}( |\overline{X}_n - {\Bbb E} X \geq \varepsilon ) = 0 para cada \varepsilon 0.

uma lei Forte de grandes números. Suponha que o primeiro momento {\Bbb e} |X| de X é finito. Em seguida, \overline{X}_n converge quase certamente para {\Bbb E} X assim {\Bbb P}( \lim_{n \to \infty} \overline{X}_n = {\Bbb E} X ) = 1.

(Se um fortalece o primeiro momento que a suposição de que da finitude do segundo momento {\Bbb E}|X|^2, então é claro que temos uma afirmação mais precisa do que o (fraco) a lei dos grandes números, a saber, o teorema do limite central, mas não vou discutir isso aqui teorema. Com ainda mais hipóteses sobre X, uma similarmente tem versões mais precisas da lei forte de grandes números, como a desigualdade de Chernoff, que eu não vou discutir aqui novamente.)

a lei fraca é fácil de provar, mas a lei forte (que, naturalmente, implica a lei fraca, pelo teorema de Egoroff) é mais sutil, e na verdade a prova desta lei (assumindo apenas finitude do primeiro momento) normalmente só aparece em textos avançados de graduação. Então eu pensei que eu iria apresentar uma prova aqui de ambas as leis, que procede pelas técnicas padrão do método do momento e truncamento. A ênfase nesta exposição será na motivação e métodos, em vez de brevidade e força dos resultados; existem provas da lei forte na literatura que foram comprimidas até o tamanho de uma página ou menos, mas este não é o meu objetivo aqui.

o método do momento procura controlar as probabilidades de cauda de uma variável aleatória (ou seja, a probabilidade de que flutua longe da sua média) por meio de momentos, e em particular o zeroth, primeiro ou segundo momento. A razão pela qual este método é tão eficaz é porque os primeiros momentos podem muitas vezes ser computados com bastante precisão. O primeiro momento do método usualmente emprega desigualdade de Markov

\displaystyle {\Bbb P}( |X| \geq \lambda ) \leq \frac{1}{\lambda} {\Bbb E} |X| (1)

(o que segue tomando expectativas do pointwise desigualdade \lambda I(|X| \geq \lambda) \leq |X|), considerando que o segundo momento método utiliza alguma versão de desigualdade de Chebyshev, tais como

\displaystyle {\Bbb P}( |X| \geq \lambda ) \leq \frac{1}{\lambda^2} {\Bbb E} |X|^2 (2)

(note que (2) é apenas (1) aplicado à variável aleatória |X|^2 e para o limiar  \ lambda^2).

Geral, para calcular o primeiro momento em que usualmente emprega a linearidade da expectativa

\displaystyle {\Bbb E} X_1 + \ldots + X_n = {\Bbb E} X_1 + \ldots + {\Bbb E} X_n,

considerando que, para calcular o segundo momento, também precisa entender covariâncias (que são particularmente simples, se assume par de independência), graças ao identidades, tais como

\displaystyle {\Bbb E} (X_1 + \ldots + X_n)^2 = {\Bbb E} X_1^2 + \ldots + {\Bbb E} X_n^2 + 2 \sum_{1 \leq i j \leq n} X_i X_j

ou normalizado variante

\displaystyle {\bf Var}(X_1+\ldots+X_n) = {\bf Var}(X_1) + \ldots + {\bf Var}(X_n)

\displaystyle + 2 \sum_{1 \leq i j \leq n} {\bf Cov}(X_i,X_j). (3)

momentos mais altos podem, em princípio, dar informações mais precisas, mas muitas vezes requerem pressupostos mais fortes sobre os objetos em estudo, como a independência conjunta.

aqui está uma aplicação Básica do método do primeiro momento:

Borel-Cantelli lema. Let E_1, E_2, e_3, \ldots be a sequence of events such that \sum_{n=1}^\infty {\Bbb P}(E_n) is finite. Então quase certamente, apenas finitamente muitos dos eventos E_n são verdadeiros.

Proof. Seja  I (E_n) denote a função indicadora do evento E_n. Nossa tarefa é mostrar que  \ sum_{n=1}^\infty i (E_n) é quase certamente finito. Mas pela linearidade da expectativa, a expectativa desta variável aleatória é \sum_{n=1}^\infty {\Bbb P}(e_n), que é finita por hipótese. Por Markov desigualdade (1), podemos concluir que

\displaystyle {\Bbb P}( \sum_{n=1}^\infty I(E_n) \geq \lambda ) \leq \frac{1}{\lambda} \sum_{n=1}^\frac {\Bbb P}(E_n).O pedido foi apresentado. Voltando à Lei dos grandes números, o método do primeiro momento dá o seguinte limite de cauda:

lema 1. (Primeiro momento cauda dependente) Se {\Bbb E}|X| é finito, então

\displaystyle {\Bbb P}( |\overline{X}_n| \geq \lambda ) \leq \frac{{\Bbb E}|X|}{\lambda}.

Proof. Pela desigualdade triangular, / \ overline{X}_n / \leq \overline {/X/} _n . Por linearidade da expectativa, a expectativa de  \ overline {/X/} _n é {\Bbb e}|X / . A afirmação decorre agora da desigualdade de Markov. \Box

Lemma 1 não é suficientemente forte por si só para provar a lei de grandes números em forma fraca ou forte – em particular, não mostra qualquer melhoria à medida que n fica grande – mas será útil para lidar com um dos Termos de erro nessas provas.

we can get stronger bounds than Lemma 1-in particular, bounds which improve with n-at the expense of stronger assumptions on X.

Lemma 2. (Segundo momento cauda dependente) Se {\Bbb E}|X|^2 é finito, então

\displaystyle {\Bbb P}( |\overline{X}_n - {\Bbb E}(X)| \geq \lambda ) \leq \frac{ {\Bbb E}|X - {\Bbb E}(X)|^2 }{n \lambda^2}.

Proof. Um padrão de computação, exploração (3) e o par de independência do X_i, mostra que a variância {\Bbb E} |\overline{X}_n - {\Bbb E}(X)|^2 de forma empírica médias \overline{X}_n é igual a \frac{1}{n} vezes o desvio {\Bbb E} |X - {\Bbb E}(X)|^2 original da variável X. A reivindicação agora segue da desigualdade de Chebyshev (2). \Caixa

No sentido oposto, há o zeroth momento método, mais comumente conhecida como a união vinculados

\displaystyle {\Bbb P}( E_1 \vee \ldots \vee E_n ) \leq \sum_{j=1}^n {\Bbb P}(E_j)

ou equivalentemente (para explicar a terminologia “zeroth momento”)

\displaystyle {\Bbb E} (X_1 + \ldots + X_n)^0 \leq {\Bbb E} X_1^0 + \ldots + X_n^0

para qualquer não-negativos variáveis aleatórias X_1,\ldots,X_n \geq 0. Aplicando isto aos meios empíricos, obtemos a estimativa do momento zeroth.

{\ Bbb P} (\overline{X}_n \neq 0) \leq n {\Bbb P} (X \neq 0). (4)

assim como o segundo momento vinculado (Lema 2) só é útil quando se tem um bom controle sobre o segundo momento (ou variância) de X, o zeroth momento cauda estimativa (3) só é útil quando temos um bom controle sobre o zeroth momento {\Bbb E} |X|^0 = {\Bbb P}(X \neq 0), i.e. quando X é principalmente de zero.

— Truncação —

o segundo momento limite da cauda (lema 2) já dá a lei fraca de números grandes no caso em que X tem segundo momento finito (ou equivalentemente, variância finita). Em geral, se tudo o que se sabe sobre X é que ele tem primeiro momento finito, então não podemos concluir que X tem segundo momento finito. No entanto, podemos realizar um truncamento

\displaystyle X = X_{\leq N} + X_{N} (5)

de X em qualquer nível desejado N, onde X_{\leq N} := X I(|X| \leq N) e X_{N} := X I(|X| N). O primeiro termo X_{\leq N} tem finito segundo momento; de fato, nós, claramente,

\ displaystyle {\Bbb E} |X_{\leq N}|^2 \leq N {\Bbb E} |X|

e, portanto, também temos variância finita

\displaystyle {\Bbb E} |X_{\leq N} - {\Bbb E} X_{\leq N}|^2 \leq N {\Bbb E} |X|. (6)

o segundo termoX_{n} pode ter um segundo momento infinito, mas o seu primeiro momento é bem controlado. De facto, pelo teorema da convergência monótona, temos

\displaystyle {\Bbb e} / X_{n} / \to 0 \hbox{ as } n \to \infty. (7)

Pelo triângulo desigualdade, podemos concluir que o primeiro termo X_{\leq N} tem expectativa de fechar a {\Bbb E} X:

\displaystyle {\Bbb E} X_{\leq N} \to {\Bbb E}(X) \hbox{ como } N \to \infty. (8)

estas são todas as ferramentas que precisamos para provar a lei fraca de grandes números:

prova de lei fraca. Deixe  \ varepsilon 0 . Isso basta para mostrar que, sempre que n for suficientemente grande, dependendo \varepsilon, que \overline{X}_n = {\Bbb E} X + O(\varepsilon) com probabilidade 1-O(\varepsilon).

a Partir de (7), (8), podemos encontrar um limite de N (dependendo \varepsilon) tais que a {\Bbb E} |X_{\geq N}| = O(\varepsilon^2) e {\Bbb E} X_{N} = {\Bbb E} X + O(\varepsilon). Agora usamos (5) para dividir

\displaystyle \overline{X}_n = (\overline{X_ {\geq n}}) _n +(\overline{X_{ n}}}) _n.

From the first moment tail bound (Lemma 1), we know that (\overline{X_{\geq n}})_n = o(\varepsilon) with probability 1 - O(\varepsilon). A partir do segundo momento de cauda vinculado (Lema 2) e (6), sabemos que (\overline{X_{ N}})_n = {\Bbb E} X_{N} + O(\varepsilon) = {\Bbb E} X + O(\varepsilon) com probabilidade 1-O(\varepsilon) se n é suficientemente grande, dependendo de N e \varepsilon. Segue-se a alegação. \Box

— a lei forte-

a lei forte pode ser provada empurrando os métodos acima um pouco mais, e usando mais alguns truques.

o primeiro truque é observar que para provar a lei forte, basta fazê-lo para variáveis aleatórias não negativas X \geq 0. Na verdade,isso se segue imediatamente do simples fato de que qualquer variável aleatória X COM primeiro momento finito pode ser expressa como a diferença de duas variáveis aleatórias não negativas \max(X, 0), \max (- X, 0) do primeiro momento finito.

uma vez que X não é negativo, vemos que as médias empíricas  \ overline{X}_n não podem diminuir muito rapidamente em n. Em particular, observamos que

\displaystyle \overline{X}_m \leq (1+O(\varepsilon)) \overline{X}_n sempre (1-\varepsilon) n \leq m \leq n. (9)

por causa desta quasimonotonicidade, podemos esparsificar o conjunto de n para o qual precisamos provar a lei forte. Mais precisamente, basta mostrar

Lei Forte de grandes números, versão reduzida. Deixe X ser não-negativo variável aleatória com {\Bbb E} X \infty, e deixe 1 \leq n_1\leq n_2\leq n_3\leq\ldots ser uma sequência de números inteiros, que é lacunary no sentido de que n_{j+1}/n_j c para alguns c1 e todos os suficientemente grande j. Em seguida, \overline{X}_{n_j} converge quase certamente para {\Bbb E} X.

de facto, se pudéssemos provar a versão reduzida, então ao aplicar essa versão à sequência lacunar n_j := \lfloor (1 + \varepsilon)^j\rfloor e usando (9) veremos que quase certamente os meios empíricos \overline{X}_n não pode desviar-se por mais de uma multiplicativo de erro de 1+O(\varepsilon) a partir da média {\Bbb E} X. Definindo \varepsilon: = 1/m para m = 1,2,3,\ldots(e usando o fato de que uma intersecção contável de eventos quase certos permanece quase certa) obtemos a lei forte completa.Agora que reduzimos a sequência, torna-se económico aplicar o lema Borel-Cantelli. De fato, por muitas aplicações de que o lema vemos que basta para mostrar que

\displaystyle \sum_{j=1}^\frac {\Bbb P}( \overline{X}_{n_j} \neq {\Bbb E}(X) + O( \varepsilon ) ) \infty (10)

para não negativo X finitos primeiro momento, qualquer lacunary sequência 1 \leq n_1 \leq n_2 \leq \ldots e \varepsilon 0. Neste ponto voltamos atrás e aplicamos os métodos que já trabalharam para dar a lei fraca. Ou seja, para estimar cada uma das cauda probabilidades {\Bbb P}( \overline{X}_{n_j} \neq {\Bbb E}(X) + O(\varepsilon) ), realizamos um truncamento (5) em algum limiar N_j. Não é imediatamente óbvio que truncamento realizar, então adotamos a estratégia habitual de deixar N_j indeterminado por agora e otimizar neste parâmetro mais tarde.

devemos pelo menos escolher N_j grande o suficiente para que {\Bbb e} X_{ N_j} = {\BBB e} X + O(\varepsilon). A partir do segundo momento de cauda estimativa (Lema 2), podemos concluir que (\overline{X_{ N_j}})_{n_j} também é igual a {\Bbb E} X + O( \varepsilon ) com probabilidade 1-O( \frac{1}{\varepsilon n_j} {\Bbb E} |X_{\leq N_j}|^2 ). Pode-se tentar simplificar esta expressão usando (6), mas isso acaba por ser um pouco desperdiçador, então vamos parar com isso por agora. No entanto, (6) sugere fortemente que queremos tomar N_j para ser algo como n_j, o que vale a pena ter em mente no que se segue.

agora olhamos para a contribuição de X_ {\geq N_j} . Pode-se usar o primeiro momento de cauda estimativa (Lema 1), mas o que acontece é que o primeiro momento {\Bbb E} X_{ N_j} decai muito lentamente em j ser de muito uso (lembre-se que estamos esperando N_j para ser como o lacunary sequência n_j); a raiz do problema aqui é que a decadência (7) vindo a monotonia de convergência teorema é ineficaz (pode-se effectivise isso usando o finito convergência princípio, mas isso acontece para dar resultados muito pobres aqui).

mas há uma última carta a jogar, que é a estimativa de cauda do método do momento zeroth (4). Como mencionado anteriormente, este limite é ruim em geral-mas é muito bom quando X é principalmente zero, que é precisamente a situação com X_{N_j}. e, em particular, vemos que (\overline{X_{N_j}})_{n_j} é zero com probabilidade 1 - S( n_j {\Bbb P}(X N_j) ).

Colocar isso todos juntos, vemos que

\displaystyle {\Bbb P}( \overline{X}_{n_j} \neq {\Bbb E}(X) + O( \varepsilon ) ) \leq O( \frac{1}{\varepsilon n_j} {\Bbb E} |X_{\leq N_j}|^2 ) + O( n_j {\Bbb P}(X N_j) ).

Somando isso em j, vemos que vamos ser feito assim que descobrir como escolher N_j para que

\displaystyle \sum_{j=1}^\infty \frac{1}{n_j} {\Bbb E} |X_{\leq N_j}|^2 (11)

e

\displaystyle \sum_{j=1}^\infty n_j {\Bbb P}(X N_j) (12)

ambos são finitos. (Como de costume, temos um tradeoff: fazer o N_j maior torna (12) mais fácil de estabelecer à custa de (11), e vice-versa ao tornar N_j menor.)

Based on the discussion earlier, it is natural to try setting N_j := n_j. Felizmente, esta opção funciona de forma limpa; o lacunary natureza de n_j garante que (basicamente a partir da série geométrica fórmula) que temos o pointwise estimativas

\displaystyle \sum_{j=1}^\infty \frac{1}{n_j} |X_{\leq n_j}|^2 = S( X )

e

\displaystyle \sum_{j=1}^\infty n_j I( X \geq n_j ) = S( X )

(onde implícita constante aqui depende da sequência n_1, n_2, \ldots, e, em especial, o lacunarity constante c). As reivindicações (10), (11) Em seguida, seguem de uma última aplicação da linearidade da expectativa, dando a lei forte de grandes números.

Observação 1. A prova acima mostra, de fato, que a lei forte de grandes números se mantém mesmo se apenas se assume a independência emparelhada dos X_n, ao invés de independência conjunta. \diamante

observação 2. É essencial que as variáveis aleatórias X_1,X_2,\ldots sejam “recicladas” a partir de uma média empírica \overline{X}_n para a seguinte, a fim de obter a propriedade crucial de quasimonotonicidade (9). Se em vez disso, tomou completamente independente médias \overline{X}_n = \frac{1}{n} (X_{n,1} + \ldots + X_{n,n} ), onde X_{i,j} são iid, em seguida, a lei dos grandes números, na verdade rompe com apenas um primeiro momento de assunção. (Para um contra-exemplo, considere uma variável aleatória X que é igual a 2^m / m^2 com probabilidade 2^{m} para m=1,2,3,\ldots; esta variável aleatória (mal) tem finito primeiro momento, mas para n \sim 2^m/m^2, vemos que \overline{X}_n desvio de, pelo menos, absoluta constante a partir de sua média, com probabilidade \gg 1/m^2. Como os meios empíricos \overline{X}_n para n \sim 2^m/m^2 agora são conjuntamente independentes, a probabilidade de que um deles se desvia significativamente é agora muito próximo de 1 (super-exponencial fechar em m, na verdade), levando à falha total do forte de lei nesta definição.) É claro, se se restringe a atenção a uma sequência lacunar de n então a prova acima passa no caso independente (uma vez que o lema Borel-Cantelli é insensível a esta independência). Ao explorar ainda mais a independência conjunta (por exemplo, usando a desigualdade de Chernoff), pode-se também obter a lei forte para meios empíricos independentes para a sequência completa n sob os limites do segundo momento. \diamante

observação 3. Do ponto de vista da teoria da interpolação, pode-se ver o argumento acima como um argumento de interpolação, estabelecendo uma estimativa l^1 (10) interpolando entre uma estimativa l^2 (lema 2) e a estimativa l^0 (4). \diamante

observação 4. Visualizando a sequência X_1,X_2,\ldots como um processo estacionário e, portanto, como um caso especial de uma medida de preservação do sistema pode-se visualizar fortes e fracos, lei dos grandes números, como casos especiais da média e pointwise ergódica teoremas, respectivamente (ver Exercício 9 de 254.O Aula 8 e Teorema 2 de 254.O-Aula 9). Diamante

Deixe uma resposta

O seu endereço de email não será publicado.

More: