silne prawo dużych liczb

niech X będzie zmienną losową o wartości rzeczywistej i niech  X_1, X_2, X_3,... niech będzie nieskończoną sekwencją niezależnych i identycznie rozłożonych kopii X. niech \overline{X}_n := \frac{1}{n}(X_1 + \ldots + X_n) będzie średnią empiryczną tej sekwencji. Podstawowym twierdzeniem w teorii prawdopodobieństwa jest prawo dużych liczb, które występuje zarówno w postaci słabej, jak i silnej:

słabe prawo wielkich liczb. Załóżmy, że pierwszy moment  {\Bbb E} / X / z X jest skończony. Następnie \overline{X}_nzbiega się z prawdopodobieństwem do {\Bbb E} X, tak więc \lim_{n \to \infty} {\Bbb p}( |\overline{X}_n - {\BBB E} X| \geq \varepsilon ) = 0 dla każdego \varepsilon 0.

silne prawo wielkich liczb. Załóżmy, że pierwszy moment  {\Bbb E} / X / z X jest skończony. Następnie\overline{X}_n zbiega się prawie na pewno do {\Bbb E} X , więc{\BBB P}( \lim_{n \to \infty} \overline{X}_n = {\Bbb E} X ) = 1 .

(jeśli wzmocni się założenie pierwszej chwili do skończoności drugiej chwili  {\BBB E}|X|^2, to oczywiście mamy bardziej precyzyjne stwierdzenie niż (słabe) prawo dużych liczb, a mianowicie centralne twierdzenie graniczne, ale nie będę tutaj omawiał tego twierdzenia. Z jeszcze większą liczbą hipotez na temat X, podobnie ma się bardziej precyzyjne wersje silnych praw wielkich liczb, takich jak nierówność Chernoffa, której ponownie Nie będę tutaj omawiał.)

słabe prawo jest łatwe do udowodnienia, ale silne prawo (co oczywiście implikuje słabe prawo, przez twierdzenie Egoroffa) jest bardziej subtelne i w rzeczywistości dowód tego prawa (zakładając skończoność pierwszej chwili) zwykle pojawia się tylko w tekstach dla zaawansowanych absolwentów. Pomyślałem więc, że przedstawię tutaj dowód obu praw, które opierają się na standardowych technikach metody chwili i obcinania. Nacisk w tej ekspozycji będzie położony na motywację i metody, a nie zwięzłość i siłę wyników; istnieją dowody mocnego prawa w literaturze, które zostały skompresowane do rozmiaru jednej strony lub mniej, ale to nie jest mój cel tutaj.

— metoda momentu —

metoda momentu ma na celu kontrolę prawdopodobieństwa ogonowego zmiennej losowej (tj. prawdopodobieństwa, że zmienia się ona znacznie od swojej średniej) za pomocą momentów, a w szczególności zera, pierwszego lub drugiego momentu. Powodem, dla którego ta metoda jest tak skuteczna, jest to, że pierwsze kilka chwil często można obliczyć dość precyzyjnie. Metoda pierwszego momentu zazwyczaj wykorzystuje nierówność Markowa

\displaystyle {\BBB P}( |X| \geq \lambda ) \leq \frac{1}{\lambda} {\BBB E} / X| (1)

(co następuje, przyjmując nierówność punktową  \lambda I(|X| \geq \lambda) \leq |X|), podczas gdy metoda drugiego momentu wykorzystuje pewną wersję nierówności Czebyszewa, np.

\displaystyle {\BBB P}( |X| \geq \lambda ) \leq \frac{1}{\lambda^2} {\BBB E} / X|^2 (2)

(zauważ, że (2) jest po prostu (1) stosowane do zmiennej losowej |X|^2 i do threshold \lambda^2).

Ogólnie rzecz biorąc, aby obliczyć pierwszy moment, zwykle stosuje się liniowość oczekiwań

\displaystyle {\Bbb E} X_1 + \ldots + X_n = {\Bbb E} X_1 + \ldots + {\Bbb E} X_n,

aby obliczyć drugi moment, trzeba również zrozumieć kowariancje (które są szczególnie proste, jeśli zakłada się niezależność parami), dzięki tożsamościom takim jak

\displaystyle {\BBB E} (X_1 + \ldots + X_n)^2 = {\Bbb e} X_1^2 + \ldots + {\Bbb E} X_n^2 + 2 \sum_{1 \leq i j \ leq n} X_i X_j

lub wariant znormalizowany

\displaystyle {\BF Var}(X_1+\ldots+X_n) = {\BF Var}(X_1) + \ldots + {\BF Var} (X_n)

\displaystyle + 2 \ sum_{1 \ leq i j \ leq n} {\bf Cov} (X_i,X_j). (3)

wyższe momenty mogą zasadniczo dawać dokładniejsze informacje, ale często wymagają silniejszych założeń dotyczących badanych obiektów, takich jak wspólna niezależność.

oto podstawowe zastosowanie metody first moment:

Borel-Cantelli lemma. Niech  E_1, E_2, e_3, \ldots będzie ciągiem zdarzeń takich, że \sum_{n=1}^\infty {\BBB P}(E_n) jest skończony. Wtedy prawie na pewno tylko finalnie wiele zdarzeń E_n jest prawdą.

dowód. Niech  I (E_n) oznacza funkcję wskaźnika zdarzenia E_n. Naszym zadaniem jest pokazanie, że\sum_{N=1}^\infty I(E_n) jest prawie na pewno skończona. Ale przez liniowość oczekiwania oczekiwanie tej zmiennej losowej wynosi  \ sum_{n=1}^\infty {\BBB P}(e_n), co jest skończone przez hipotezę. Przez nierówność Markowa (1) wnioskujemy, że

\displaystyle {\BBB P}( \sum_{N=1}^\infty I(E_n) \geq \lambda ) \leq \frac{1}{\lambda} \sum_{n=1}^\infty {\Bbb P}(E_n).

 \ lambda \to \ infty otrzymujemy roszczenie. \Box

Wracając do prawa dużych liczb, metoda pierwszego momentu daje następujący ogon związany:

Lemma 1. Jeśli  {\Bbb E}|X / jest skończona, to

\displaystyle {\BBB P}( |\overline{X}_n| \geq \lambda ) \leq \frac{{\BBB E}|X|}{\lambda}.

dowód. Przez nierówność trójkąta, |\overline{X}_n|\leq \overline {|X/} _n. Przez liniowość oczekiwań, oczekiwanie  \overline {/X/} _n wynosi  {\Bbb E}|X / . Twierdzenie to wynika teraz z nierówności Markowa. \Box

Lemma 1 sama w sobie nie jest wystarczająco silna, aby udowodnić prawo dużych liczb w słabej lub silnej formie – w szczególności nie wykazuje żadnej poprawy, ponieważ N staje się duży – ale przydatne będzie obsłużenie jednego z terminów błędów w tych dowodach.

możemy uzyskać silniejsze granice niż Lemma 1 – w szczególności granice, które poprawiają się z n-kosztem silniejszych założeń na X.

Lemma 2. Jeśli  {\Bbb E} / X / ^2 jest skończona, to

\displaystyle {\BBB P}( |\overline{X}_n - {\BBB E}(X)| \geq \lambda ) \leq \frac{ {\BBB E}|X - {\BBB E}(x)|^2 }{n \lambda^2}.

dowód. Standardowe obliczenia, wykorzystujące (3) i parową niezależność X_i, pokazują, że wariancja {\Bbb E} |\overline{X}_n - {\BBB E}(X)|^2 średnich empirycznych \overline{X}_n jest równa \frac{1}{n} razy wariancja {\BBB E} |x - {\BBB E}(x)|^2 pierwotnej zmiennej X. twierdzenie wynika teraz z nierówności Czebyszewa (2).  \Box

w przeciwnym kierunku istnieje metoda momentu zerowego, bardziej znana jako Związanie

\displaystyle {\Bbb P} (E_1 \vee \ldots \vee E_n ) \ leq \ sum_{j = 1}^n {\Bbb P} (E_j)

lub równoważnie (aby wyjaśnić terminologię „moment zerowy”)

\displaystyle {\Bbb E} (X_1 + \ldots + X_n)^0\leq {\BBB E} X_1^0 + \ldots + X_n^0

dla dowolnych nieujemnych zmiennych losowych  X_1, \ ldots, X_n \ geq 0. Stosując to do środków empirycznych, otrzymujemy estymację ogona momentu zerowego

{\Bbb p} (\overline{X}_n \neq 0) \leq n {\BBB P} (X \ neq 0). (4)

tak jak drugi moment związany (Lemma 2) jest użyteczny tylko wtedy, gdy ktoś ma dobrą kontrolę nad drugim momentem (lub wariancją) X, Estymator ogona momentu zerowego (3) jest użyteczny tylko wtedy, gdy mamy dobrą kontrolę nad momentem zerowym {\BBB E} |X|^0 = {\BBB P}(X \neq 0), tzn. gdy X jest w większości zerem.

— Obcinanie —

drugi moment związany ogonem (Lemat 2) daje już słabe prawo dużych liczb w przypadku, gdy X ma skończony drugi moment (lub równoważnie, skończoną wariancję). Ogólnie rzecz biorąc, jeśli wszystko, co wiemy o X, to to, że ma skończony pierwszy moment, to nie możemy stwierdzić, że X ma skończony drugi moment. Możemy jednak wykonać obcinanie

\displaystyle X = X_ {\leq N} + X_{N} (5)

z X na dowolnym wymaganym progu N, gdzie X_{\leq N} := X I(|X| \leq n) i X_{N} := X I(|X| n). Pierwszy wyraz  X_{\leq n} ma skończony drugi moment; rzeczywiście wyraźnie mamy

\displaystyle {\BBB E} |X_{\leq N} / ^2 \leq N {\Bbb E} / X|

i stąd też mamy skończoną wariancję

\displaystyle {\Bbb E} / X_ {\leq N} - {\BBB E} X_ {\leq N}|^2\leq N {\Bbb E} |X|. (6)

drugi termin X_{N} może mieć nieskończony drugi moment, ale jego pierwszy moment jest dobrze kontrolowany. Rzeczywiście, przez monotonne twierdzenie o zbieżności mamy

\displaystyle {\Bbb E}| X_{N} / \to 0 \hbox{ as } n \to \infty. (7)

przez nierówność trójkąta wnioskujemy, że pierwszy wyraz  X_ {\leq n} ma oczekiwanie bliskie {\BBB E} X:

\displaystyle {\BBB E} X_{\leq n} \to {\BBB E} (X) \hbox{ as} n \to \ infty. (8)

to są wszystkie narzędzia, których potrzebujemy, aby udowodnić słabe prawo dużych liczb:

dowód słabego prawa. Let \varepsilon 0. Wystarczy pokazać, że gdy n jest wystarczająco duże w zależności od  \ varepsilon, że \overline{X}_n = {\Bbb E} X + O(\varepsilon)z prawdopodobieństwem 1-O(\varepsilon).

z (7), (8) możemy znaleźć próg N (w zależności od \varepsilon) taki, że {\BBB E} |X_{\geq N}| = O(\varepsilon^2) i {\BBB e} X_{N} = {\BBB E} X + O(\varepsilon) Teraz używamy (5) do podziału

\displaystyle \overline{X}_n = (\overline{X_ {\geq n}}) _n +(\overline{X_{ N}})_n.

od pierwszej chwili (Lemma 1) wiemy, że (\overline{X_ {\geq n}})_n = O (\varepsilon)z prawdopodobieństwem 1 - O(\varepsilon). Z drugiej chwili (Lemma 2) i (6) wiemy, że (\overline{X_{ N}})_n = {\BBB E} X_{N} + O(\varepsilon) = {\BBB E} X + O(\varepsilon) z prawdopodobieństwem 1-O(\varepsilon) jeśli N jest wystarczająco duży w zależności od N i \varepsilon varepsilon Twierdzenie jest następujące.  \Box

— silne prawo –

silne prawo można udowodnić, przesuwając powyższe metody nieco dalej i stosując kilka dodatkowych sztuczek.

pierwszą sztuczką jest obserwacja, że aby udowodnić silne prawo, wystarczy to zrobić dla nieujemnych zmiennych losowychX \geq 0 . Rzeczywiście, wynika to bezpośrednio z prostego faktu, że każda zmienna losowa X ze skończonym pierwszym momentem może być wyrażona jako różnica dwóch nieujemnych zmiennych losowych \max (X,0), \max(-X, 0) skończonego pierwszego momentu.

gdy X jest nieujemne, widzimy, że średnie empiryczne \overline{X}_n nie mogą zbyt szybko spadać w N. W szczególności obserwujemy, że

\displaystyle \overline{X}_m \leq (1+O(\varepsilon)) \overline{X}_n whenever (1-\varepsilon) n \leq m \leq n. (9)

z powodu tej kwazimonotoniczności możemy sparować zbiór n, dla którego musimy udowodnić silne prawo. Dokładniej, wystarczy pokazać

mocne prawo dużych liczb, wersja zredukowana. Niech X będzie nieujemną zmienną losową z {\Bbb E} X \infty i niech 1 \leq n_1\leq n_2\leq n_3\leq\ldots będzie ciągiem liczb całkowitych, który jest lakunarny w tym sensie, że n_{j+1}/n_j c dla niektórych C1 i wszystkie wystarczająco duże J. następnie \overline{X}_{n_j} zbiega się prawie na pewno do {\BBB E} x.

rzeczywiście, jeśli moglibyśmy udowodnić wersję skróconą, to przy zastosowaniu tej wersji do sekwencji lakunarnej  n_j := \lfloor (1 + \varepsilon)^j \ rfloor i używając (9) zauważylibyśmy, że prawie na pewno empiryczne środki \overline{X}_n nie mogą odbiegać o więcej niż błąd mnożnikowy 1+O(\varepsilon) od średniej {\Bbb E} X. Ustawiając  \varepsilon: = 1 / m dla m=1,2,3,\ldots (i wykorzystując fakt, że policzalne przecięcie prawie pewnych zdarzeń pozostaje prawie pewne) otrzymujemy pełne silne prawo.

teraz, gdy mamy sparsyfikowaną sekwencję, ekonomiczne staje się zastosowanie lematu Borela-Cantellego. Rzeczywiście, przez wiele zastosowań tego lematu widzimy, że wystarczy pokazać, że

\displaystyle \sum_{j = 1}^ \ infty {\Bbb P} (\overline{X}_{n_j} \neq {\Bbb E} (X) + O (\varepsilon)) \ infty (10)

dla nieujemnego X skończonego pierwszego momentu, dowolny ciąg lakunarny  1 \leq n_1 \ leq n_2 \leq \ ldots i dowolny  \varepsilon 0.

w tym momencie wracamy i stosujemy metody, które już działały, aby dać słabe prawo. Mianowicie, aby oszacować każde z prawdopodobieństw ogonowych  {\BBB P}( \overline{X}_{n_j} \ neq {\BBB E}(X) + O(\varepsilon) ), wykonujemy obcinanie (5) przy pewnym progu N_j. Nie jest od razu oczywiste, jakie obcinanie wykonać, więc przyjmujemy zwykłą strategię pozostawienia N_j nieokreślonego na razie i optymalizacji w tym parametrze później.

powinniśmy przynajmniej wybrać N_j wystarczająco duży, aby  {\Bbb E} X_{ N_j} = {\Bbb E} X + O (\varepsilon). Z drugiej chwili oszacowania ogona (Lemma 2) wnioskujemy, że (\overline{X_{ N_j}})_{n_j} jest również równe {\Bbb E} X + O( \varepsilon ) z prawdopodobieństwem 1-O( \frac{1}{\varepsilon n_j} {\BBB E} |X_{\leq N_j}|^2 ). Można by próbować uprościć to wyrażenie używając (6), ale okazuje się to trochę marnotrawstwem, więc wstrzymajmy się z tym na razie. Jednak (6) zdecydowanie sugeruje, że chcemy, aby N_j było czymś w rodzaju n_j, o czym warto pamiętać w tym, co następuje.

teraz patrzymy na wkładX_{\geq N_j} . Można by użyć estymacji ogonowej pierwszego momentu (Lemma 1), ale okazuje się, że pierwszy moment {\BBB E} X_{ N_j} rozpada się zbyt wolno w j, aby mógł być użyteczny (przypomnijmy, że spodziewamy się, że N_j będzie podobny do sekwencji lakunarnej n_j); głównym problemem jest to, że rozpad (7) pochodzący z monotonnego twierdzenia o konwergencji jest nieskuteczny (można to efektywnie przeprowadzić stosując zasadę skończonej konwergencji, ale okazuje się, że jest to dają tutaj bardzo słabe wyniki).

ale jest jeszcze jedna ostatnia karta do zagrania, czyli metoda momentu zerowego (4). Jak wspomniano wcześniej, to wiązanie jest ogólnie kiepskie-ale jest bardzo dobre, gdy X jest w większości zerem, co jest dokładnie sytuacją z  X_{N_j}. w szczególności widzimy, że  (\overline{X_{N_j}}) _ {n_j} jest zerowe z prawdopodobieństwem 1-O(n_j {\Bbb P} (X N_j) ).

składając to wszystko w całość, widzimy, że

\displaystyle {\BBB P}( \overline{X}_{n_j} \neq {\BBB E}(X) + o( \varepsilon ) ) \leq O( \frac{1}{\varepsilon n_j} {\Bbb E} |X_{\leq n_j}|^2 ) + o( n_j {\BBB P}(X N_j) ).

Podsumowując to w j, widzimy, że skończymy, gdy tylko dowiemy się, jak wybrać N_j, aby

\displaystyle \sum_{j = 1}^ \ infty \frac{1} {n_j} {\Bbb E} / X_ {\leq N_j}|^2 (11)

oraz

\displaystyle \sum_{j=1}^ \ infty n_j {\Bbb P} (X N_j) (12)

są skończone. (Jak zwykle, mamy kompromis: zwiększenie N_j ułatwia (12) ustalenie kosztem (11), i odwrotnie, gdy zmniejszenie N_j.)

opierając się na wcześniejszej dyskusji, naturalnym jest ustawienie N_j := n_j. Na szczęście wybór ten działa czysto; lakunarny charakter n_j zapewnia (w zasadzie ze wzoru szeregów geometrycznych), że mamy punktowe oszacowania

\displaystyle \sum_{j = 1}^ \ infty \frac{1} {n_j} / X_ {\leq n_j} / ^2 = O (X )

oraz

\displaystyle \sum_{j=1}^ \ infty n_j I( X \geq n_j) = O (X )

(gdzie implikowana stała tutaj zależy od sekwencji  n_1, n_2, \ldots, a w szczególności od stałej lakunarności c). Twierdzenia (10), (11) następnie wynikają z ostatniego zastosowania liniowości oczekiwania, dając silne prawo dużych liczb.

Uwaga 1. Powyższy dowód w rzeczywistości pokazuje, że silne prawo dużych liczb obowiązuje nawet wtedy, gdy zakłada się tylko parową niezależność X_n, a nie wspólną niezależność.  \diamond

Uwaga 2. Istotne jest,aby zmienne losowe X_1, X_2,\ldots były „przetwarzane” z jednej średniej empirycznej \overline{X}_n do następnej, aby uzyskać kluczową właściwość quasimonotonicity (9). Jeśli zamiast tego wzięlibyśmy całkowicie niezależne średnie  \overline{X}_n = \frac{1}{n} (X_{N,1} + \ldots + X_{n,n} ), gdzie X_{i,j} wszystkie są iid, wtedy silne prawo dużych liczb w rzeczywistości rozkłada się z założeniem tylko w pierwszej chwili. (Dla kontrprzykładu rozważmy zmienną losową X, która jest równa 2^M / m^2 z prawdopodobieństwem 2^{- m}dla  m = 1,2,3,\ldots; ta zmienna losowa (ledwo) ma skończoną pierwszą chwilę, ale dla  n \sim 2^m / M^2, widzimy, że  \overline{X}_n odbiega o co najmniej absolutną stałą od średniej z prawdopodobieństwem \gg 1/m^2. Ponieważ empiryczne środki \overline{X}_n dla n \sim 2^M/m^2 są teraz wspólnie niezależne, prawdopodobieństwo, że jedna z nich znacznie odbiega, jest teraz bardzo bliskie 1 (super wykładniczo bliskie w m, w rzeczywistości), co prowadzi do całkowitego niepowodzenia silnego prawa w tym ustawieniu.) Oczywiście, jeśli ktoś ograniczy uwagę do lakunarnego ciągu n, to powyższy dowód przechodzi w przypadku niezależnym (ponieważ lemat Borela-Cantellego jest niewrażliwy na tę niezależność). Wykorzystując dalej wspólną niezależność (np. wykorzystując nierówność Chernoffa) można również uzyskać silne prawo dla niezależnych środków empirycznych dla pełnego ciągu n w granicach drugiego momentu.  \diamond

Z punktu widzenia teorii interpolacji, można postrzegać powyższy argument jako argument interpolacji, ustanawiając L^1 Estymator (10) poprzez interpolację między L^2 Estymator (Lemma 2) i L^0 Estymator (4).  \diamond

Oglądając ciąg x_1, X_2,\ldots jako proces stacjonarny, a więc jako szczególny przypadek systemu zachowującego miarę, można postrzegać słabe i silne prawo dużych liczb jako szczególne przypadki odpowiednio średnich i punktowych twierdzeń ergodycznych (patrz ćwiczenie 9 z 254a Wykład 8 i twierdzenie 2 z 254a Wykład 9).  \diamond

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.

More: