Let X be a real-valued random variable, and let ser uma sequência infinita de independentes e identicamente distribuídas cópias do X. Deixe ser empírico médias desta sequência. Um teorema fundamental na teoria das probabilidades é a lei dos grandes números, que vem em uma forma fraca e forte. :
Lei fraca de grandes números. Suponha que o primeiro momento de X é finito. Em seguida, converge em probabilidade para assim para cada .
uma lei Forte de grandes números. Suponha que o primeiro momento de X é finito. Em seguida, converge quase certamente para assim .
(Se um fortalece o primeiro momento que a suposição de que da finitude do segundo momento , então é claro que temos uma afirmação mais precisa do que o (fraco) a lei dos grandes números, a saber, o teorema do limite central, mas não vou discutir isso aqui teorema. Com ainda mais hipóteses sobre X, uma similarmente tem versões mais precisas da lei forte de grandes números, como a desigualdade de Chernoff, que eu não vou discutir aqui novamente.)
a lei fraca é fácil de provar, mas a lei forte (que, naturalmente, implica a lei fraca, pelo teorema de Egoroff) é mais sutil, e na verdade a prova desta lei (assumindo apenas finitude do primeiro momento) normalmente só aparece em textos avançados de graduação. Então eu pensei que eu iria apresentar uma prova aqui de ambas as leis, que procede pelas técnicas padrão do método do momento e truncamento. A ênfase nesta exposição será na motivação e métodos, em vez de brevidade e força dos resultados; existem provas da lei forte na literatura que foram comprimidas até o tamanho de uma página ou menos, mas este não é o meu objetivo aqui.
o método do momento procura controlar as probabilidades de cauda de uma variável aleatória (ou seja, a probabilidade de que flutua longe da sua média) por meio de momentos, e em particular o zeroth, primeiro ou segundo momento. A razão pela qual este método é tão eficaz é porque os primeiros momentos podem muitas vezes ser computados com bastante precisão. O primeiro momento do método usualmente emprega desigualdade de Markov
(1)
(o que segue tomando expectativas do pointwise desigualdade ), considerando que o segundo momento método utiliza alguma versão de desigualdade de Chebyshev, tais como
(2)
(note que (2) é apenas (1) aplicado à variável aleatória e para o limiar ).
Geral, para calcular o primeiro momento em que usualmente emprega a linearidade da expectativa
,
considerando que, para calcular o segundo momento, também precisa entender covariâncias (que são particularmente simples, se assume par de independência), graças ao identidades, tais como
ou normalizado variante
. (3)
momentos mais altos podem, em princípio, dar informações mais precisas, mas muitas vezes requerem pressupostos mais fortes sobre os objetos em estudo, como a independência conjunta.
aqui está uma aplicação Básica do método do primeiro momento:
Borel-Cantelli lema. Let be a sequence of events such that is finite. Então quase certamente, apenas finitamente muitos dos eventos são verdadeiros.
Proof. Seja denote a função indicadora do evento . Nossa tarefa é mostrar que é quase certamente finito. Mas pela linearidade da expectativa, a expectativa desta variável aleatória é , que é finita por hipótese. Por Markov desigualdade (1), podemos concluir que
.O pedido foi apresentado. Voltando à Lei dos grandes números, o método do primeiro momento dá o seguinte limite de cauda:
lema 1. (Primeiro momento cauda dependente) Se é finito, então
.
Proof. Pela desigualdade triangular, . Por linearidade da expectativa, a expectativa de é . A afirmação decorre agora da desigualdade de Markov.
Lemma 1 não é suficientemente forte por si só para provar a lei de grandes números em forma fraca ou forte – em particular, não mostra qualquer melhoria à medida que n fica grande – mas será útil para lidar com um dos Termos de erro nessas provas.
we can get stronger bounds than Lemma 1-in particular, bounds which improve with n-at the expense of stronger assumptions on X.
Lemma 2. (Segundo momento cauda dependente) Se é finito, então
.
Proof. Um padrão de computação, exploração (3) e o par de independência do , mostra que a variância de forma empírica médias é igual a vezes o desvio original da variável X. A reivindicação agora segue da desigualdade de Chebyshev (2).
No sentido oposto, há o zeroth momento método, mais comumente conhecida como a união vinculados
ou equivalentemente (para explicar a terminologia “zeroth momento”)
para qualquer não-negativos variáveis aleatórias . Aplicando isto aos meios empíricos, obtemos a estimativa do momento zeroth.
. (4)
assim como o segundo momento vinculado (Lema 2) só é útil quando se tem um bom controle sobre o segundo momento (ou variância) de X, o zeroth momento cauda estimativa (3) só é útil quando temos um bom controle sobre o zeroth momento , i.e. quando X é principalmente de zero.
— Truncação —
o segundo momento limite da cauda (lema 2) já dá a lei fraca de números grandes no caso em que X tem segundo momento finito (ou equivalentemente, variância finita). Em geral, se tudo o que se sabe sobre X é que ele tem primeiro momento finito, então não podemos concluir que X tem segundo momento finito. No entanto, podemos realizar um truncamento
(5)
de X em qualquer nível desejado N, onde e . O primeiro termo tem finito segundo momento; de fato, nós, claramente,
e, portanto, também temos variância finita
. (6)
o segundo termo pode ter um segundo momento infinito, mas o seu primeiro momento é bem controlado. De facto, pelo teorema da convergência monótona, temos
. (7)
Pelo triângulo desigualdade, podemos concluir que o primeiro termo tem expectativa de fechar a :
. (8)
estas são todas as ferramentas que precisamos para provar a lei fraca de grandes números:
prova de lei fraca. Deixe . Isso basta para mostrar que, sempre que n for suficientemente grande, dependendo , que com probabilidade .
a Partir de (7), (8), podemos encontrar um limite de N (dependendo ) tais que a e . Agora usamos (5) para dividir
.
From the first moment tail bound (Lemma 1), we know that with probability . A partir do segundo momento de cauda vinculado (Lema 2) e (6), sabemos que com probabilidade se n é suficientemente grande, dependendo de N e . Segue-se a alegação.
— a lei forte-
a lei forte pode ser provada empurrando os métodos acima um pouco mais, e usando mais alguns truques.
o primeiro truque é observar que para provar a lei forte, basta fazê-lo para variáveis aleatórias não negativas . Na verdade,isso se segue imediatamente do simples fato de que qualquer variável aleatória X COM primeiro momento finito pode ser expressa como a diferença de duas variáveis aleatórias não negativas do primeiro momento finito.
uma vez que X não é negativo, vemos que as médias empíricas não podem diminuir muito rapidamente em n. Em particular, observamos que
sempre . (9)
por causa desta quasimonotonicidade, podemos esparsificar o conjunto de n para o qual precisamos provar a lei forte. Mais precisamente, basta mostrar
Lei Forte de grandes números, versão reduzida. Deixe ser não-negativo variável aleatória com , e deixe ser uma sequência de números inteiros, que é lacunary no sentido de que para alguns e todos os suficientemente grande j. Em seguida, converge quase certamente para .
de facto, se pudéssemos provar a versão reduzida, então ao aplicar essa versão à sequência lacunar e usando (9) veremos que quase certamente os meios empíricos não pode desviar-se por mais de uma multiplicativo de erro de a partir da média . Definindo para (e usando o fato de que uma intersecção contável de eventos quase certos permanece quase certa) obtemos a lei forte completa.Agora que reduzimos a sequência, torna-se económico aplicar o lema Borel-Cantelli. De fato, por muitas aplicações de que o lema vemos que basta para mostrar que
(10)
para não negativo X finitos primeiro momento, qualquer lacunary sequência e . Neste ponto voltamos atrás e aplicamos os métodos que já trabalharam para dar a lei fraca. Ou seja, para estimar cada uma das cauda probabilidades , realizamos um truncamento (5) em algum limiar . Não é imediatamente óbvio que truncamento realizar, então adotamos a estratégia habitual de deixar indeterminado por agora e otimizar neste parâmetro mais tarde.
devemos pelo menos escolher grande o suficiente para que . A partir do segundo momento de cauda estimativa (Lema 2), podemos concluir que também é igual a com probabilidade . Pode-se tentar simplificar esta expressão usando (6), mas isso acaba por ser um pouco desperdiçador, então vamos parar com isso por agora. No entanto, (6) sugere fortemente que queremos tomar para ser algo como , o que vale a pena ter em mente no que se segue.
agora olhamos para a contribuição de . Pode-se usar o primeiro momento de cauda estimativa (Lema 1), mas o que acontece é que o primeiro momento decai muito lentamente em j ser de muito uso (lembre-se que estamos esperando para ser como o lacunary sequência ); a raiz do problema aqui é que a decadência (7) vindo a monotonia de convergência teorema é ineficaz (pode-se effectivise isso usando o finito convergência princípio, mas isso acontece para dar resultados muito pobres aqui).
mas há uma última carta a jogar, que é a estimativa de cauda do método do momento zeroth (4). Como mencionado anteriormente, este limite é ruim em geral-mas é muito bom quando X é principalmente zero, que é precisamente a situação com . e, em particular, vemos que é zero com probabilidade .
Colocar isso todos juntos, vemos que
Somando isso em j, vemos que vamos ser feito assim que descobrir como escolher para que
(11)
e
(12)
ambos são finitos. (Como de costume, temos um tradeoff: fazer o maior torna (12) mais fácil de estabelecer à custa de (11), e vice-versa ao tornar menor.)
Based on the discussion earlier, it is natural to try setting . Felizmente, esta opção funciona de forma limpa; o lacunary natureza de garante que (basicamente a partir da série geométrica fórmula) que temos o pointwise estimativas
e
(onde implícita constante aqui depende da sequência n_1, n_2, \ldots, e, em especial, o lacunarity constante c). As reivindicações (10), (11) Em seguida, seguem de uma última aplicação da linearidade da expectativa, dando a lei forte de grandes números.
Observação 1. A prova acima mostra, de fato, que a lei forte de grandes números se mantém mesmo se apenas se assume a independência emparelhada dos , ao invés de independência conjunta.
observação 2. É essencial que as variáveis aleatórias sejam “recicladas” a partir de uma média empírica para a seguinte, a fim de obter a propriedade crucial de quasimonotonicidade (9). Se em vez disso, tomou completamente independente médias , onde são iid, em seguida, a lei dos grandes números, na verdade rompe com apenas um primeiro momento de assunção. (Para um contra-exemplo, considere uma variável aleatória X que é igual a com probabilidade para ; esta variável aleatória (mal) tem finito primeiro momento, mas para , vemos que desvio de, pelo menos, absoluta constante a partir de sua média, com probabilidade . Como os meios empíricos para agora são conjuntamente independentes, a probabilidade de que um deles se desvia significativamente é agora muito próximo de 1 (super-exponencial fechar em , na verdade), levando à falha total do forte de lei nesta definição.) É claro, se se restringe a atenção a uma sequência lacunar de n então a prova acima passa no caso independente (uma vez que o lema Borel-Cantelli é insensível a esta independência). Ao explorar ainda mais a independência conjunta (por exemplo, usando a desigualdade de Chernoff), pode-se também obter a lei forte para meios empíricos independentes para a sequência completa n sob os limites do segundo momento.
observação 3. Do ponto de vista da teoria da interpolação, pode-se ver o argumento acima como um argumento de interpolação, estabelecendo uma estimativa (10) interpolando entre uma estimativa (lema 2) e a estimativa (4).
observação 4. Visualizando a sequência como um processo estacionário e, portanto, como um caso especial de uma medida de preservação do sistema pode-se visualizar fortes e fracos, lei dos grandes números, como casos especiais da média e pointwise ergódica teoremas, respectivamente (ver Exercício 9 de 254.O Aula 8 e Teorema 2 de 254.O-Aula 9). Diamante