niech X będzie zmienną losową o wartości rzeczywistej i niech niech będzie nieskończoną sekwencją niezależnych i identycznie rozłożonych kopii X. niech będzie średnią empiryczną tej sekwencji. Podstawowym twierdzeniem w teorii prawdopodobieństwa jest prawo dużych liczb, które występuje zarówno w postaci słabej, jak i silnej:
słabe prawo wielkich liczb. Załóżmy, że pierwszy moment z X jest skończony. Następnie zbiega się z prawdopodobieństwem do , tak więc dla każdego .
silne prawo wielkich liczb. Załóżmy, że pierwszy moment z X jest skończony. Następniezbiega się prawie na pewno do, więc.
(jeśli wzmocni się założenie pierwszej chwili do skończoności drugiej chwili , to oczywiście mamy bardziej precyzyjne stwierdzenie niż (słabe) prawo dużych liczb, a mianowicie centralne twierdzenie graniczne, ale nie będę tutaj omawiał tego twierdzenia. Z jeszcze większą liczbą hipotez na temat X, podobnie ma się bardziej precyzyjne wersje silnych praw wielkich liczb, takich jak nierówność Chernoffa, której ponownie Nie będę tutaj omawiał.)
słabe prawo jest łatwe do udowodnienia, ale silne prawo (co oczywiście implikuje słabe prawo, przez twierdzenie Egoroffa) jest bardziej subtelne i w rzeczywistości dowód tego prawa (zakładając skończoność pierwszej chwili) zwykle pojawia się tylko w tekstach dla zaawansowanych absolwentów. Pomyślałem więc, że przedstawię tutaj dowód obu praw, które opierają się na standardowych technikach metody chwili i obcinania. Nacisk w tej ekspozycji będzie położony na motywację i metody, a nie zwięzłość i siłę wyników; istnieją dowody mocnego prawa w literaturze, które zostały skompresowane do rozmiaru jednej strony lub mniej, ale to nie jest mój cel tutaj.
— metoda momentu —
metoda momentu ma na celu kontrolę prawdopodobieństwa ogonowego zmiennej losowej (tj. prawdopodobieństwa, że zmienia się ona znacznie od swojej średniej) za pomocą momentów, a w szczególności zera, pierwszego lub drugiego momentu. Powodem, dla którego ta metoda jest tak skuteczna, jest to, że pierwsze kilka chwil często można obliczyć dość precyzyjnie. Metoda pierwszego momentu zazwyczaj wykorzystuje nierówność Markowa
(1)
(co następuje, przyjmując nierówność punktową ), podczas gdy metoda drugiego momentu wykorzystuje pewną wersję nierówności Czebyszewa, np.
(2)
(zauważ, że (2) jest po prostu (1) stosowane do zmiennej losowej i do threshold ).
Ogólnie rzecz biorąc, aby obliczyć pierwszy moment, zwykle stosuje się liniowość oczekiwań
,
aby obliczyć drugi moment, trzeba również zrozumieć kowariancje (które są szczególnie proste, jeśli zakłada się niezależność parami), dzięki tożsamościom takim jak
lub wariant znormalizowany
. (3)
wyższe momenty mogą zasadniczo dawać dokładniejsze informacje, ale często wymagają silniejszych założeń dotyczących badanych obiektów, takich jak wspólna niezależność.
oto podstawowe zastosowanie metody first moment:
Borel-Cantelli lemma. Niech będzie ciągiem zdarzeń takich, że jest skończony. Wtedy prawie na pewno tylko finalnie wiele zdarzeń jest prawdą.
dowód. Niech oznacza funkcję wskaźnika zdarzenia . Naszym zadaniem jest pokazanie, że jest prawie na pewno skończona. Ale przez liniowość oczekiwania oczekiwanie tej zmiennej losowej wynosi , co jest skończone przez hipotezę. Przez nierówność Markowa (1) wnioskujemy, że
.
otrzymujemy roszczenie.
Wracając do prawa dużych liczb, metoda pierwszego momentu daje następujący ogon związany:
Lemma 1. Jeśli jest skończona, to
.
dowód. Przez nierówność trójkąta, . Przez liniowość oczekiwań, oczekiwanie wynosi . Twierdzenie to wynika teraz z nierówności Markowa.
Lemma 1 sama w sobie nie jest wystarczająco silna, aby udowodnić prawo dużych liczb w słabej lub silnej formie – w szczególności nie wykazuje żadnej poprawy, ponieważ N staje się duży – ale przydatne będzie obsłużenie jednego z terminów błędów w tych dowodach.
możemy uzyskać silniejsze granice niż Lemma 1 – w szczególności granice, które poprawiają się z n-kosztem silniejszych założeń na X.
Lemma 2. Jeśli jest skończona, to
.
dowód. Standardowe obliczenia, wykorzystujące (3) i parową niezależność , pokazują, że wariancja średnich empirycznych jest równa razy wariancja pierwotnej zmiennej X. twierdzenie wynika teraz z nierówności Czebyszewa (2).
w przeciwnym kierunku istnieje metoda momentu zerowego, bardziej znana jako Związanie
lub równoważnie (aby wyjaśnić terminologię „moment zerowy”)
dla dowolnych nieujemnych zmiennych losowych . Stosując to do środków empirycznych, otrzymujemy estymację ogona momentu zerowego
. (4)
tak jak drugi moment związany (Lemma 2) jest użyteczny tylko wtedy, gdy ktoś ma dobrą kontrolę nad drugim momentem (lub wariancją) X, Estymator ogona momentu zerowego (3) jest użyteczny tylko wtedy, gdy mamy dobrą kontrolę nad momentem zerowym , tzn. gdy X jest w większości zerem.
— Obcinanie —
drugi moment związany ogonem (Lemat 2) daje już słabe prawo dużych liczb w przypadku, gdy X ma skończony drugi moment (lub równoważnie, skończoną wariancję). Ogólnie rzecz biorąc, jeśli wszystko, co wiemy o X, to to, że ma skończony pierwszy moment, to nie możemy stwierdzić, że X ma skończony drugi moment. Możemy jednak wykonać obcinanie
(5)
z X na dowolnym wymaganym progu N, gdzie i . Pierwszy wyraz ma skończony drugi moment; rzeczywiście wyraźnie mamy
i stąd też mamy skończoną wariancję
. (6)
drugi termin może mieć nieskończony drugi moment, ale jego pierwszy moment jest dobrze kontrolowany. Rzeczywiście, przez monotonne twierdzenie o zbieżności mamy
. (7)
przez nierówność trójkąta wnioskujemy, że pierwszy wyraz ma oczekiwanie bliskie :
. (8)
to są wszystkie narzędzia, których potrzebujemy, aby udowodnić słabe prawo dużych liczb:
dowód słabego prawa. Let . Wystarczy pokazać, że gdy n jest wystarczająco duże w zależności od , że z prawdopodobieństwem .
z (7), (8) możemy znaleźć próg N (w zależności od ) taki, że i Teraz używamy (5) do podziału
.
od pierwszej chwili (Lemma 1) wiemy, że z prawdopodobieństwem . Z drugiej chwili (Lemma 2) i (6) wiemy, że z prawdopodobieństwem jeśli N jest wystarczająco duży w zależności od N i Twierdzenie jest następujące.
— silne prawo –
silne prawo można udowodnić, przesuwając powyższe metody nieco dalej i stosując kilka dodatkowych sztuczek.
pierwszą sztuczką jest obserwacja, że aby udowodnić silne prawo, wystarczy to zrobić dla nieujemnych zmiennych losowych. Rzeczywiście, wynika to bezpośrednio z prostego faktu, że każda zmienna losowa X ze skończonym pierwszym momentem może być wyrażona jako różnica dwóch nieujemnych zmiennych losowych skończonego pierwszego momentu.
gdy X jest nieujemne, widzimy, że średnie empiryczne nie mogą zbyt szybko spadać w N. W szczególności obserwujemy, że
whenever . (9)
z powodu tej kwazimonotoniczności możemy sparować zbiór n, dla którego musimy udowodnić silne prawo. Dokładniej, wystarczy pokazać
mocne prawo dużych liczb, wersja zredukowana. Niech będzie nieujemną zmienną losową z i niech będzie ciągiem liczb całkowitych, który jest lakunarny w tym sensie, że dla niektórych i wszystkie wystarczająco duże J. następnie zbiega się prawie na pewno do .
rzeczywiście, jeśli moglibyśmy udowodnić wersję skróconą, to przy zastosowaniu tej wersji do sekwencji lakunarnej i używając (9) zauważylibyśmy, że prawie na pewno empiryczne środki nie mogą odbiegać o więcej niż błąd mnożnikowy od średniej . Ustawiając dla (i wykorzystując fakt, że policzalne przecięcie prawie pewnych zdarzeń pozostaje prawie pewne) otrzymujemy pełne silne prawo.
teraz, gdy mamy sparsyfikowaną sekwencję, ekonomiczne staje się zastosowanie lematu Borela-Cantellego. Rzeczywiście, przez wiele zastosowań tego lematu widzimy, że wystarczy pokazać, że
(10)
dla nieujemnego X skończonego pierwszego momentu, dowolny ciąg lakunarny i dowolny .
w tym momencie wracamy i stosujemy metody, które już działały, aby dać słabe prawo. Mianowicie, aby oszacować każde z prawdopodobieństw ogonowych , wykonujemy obcinanie (5) przy pewnym progu . Nie jest od razu oczywiste, jakie obcinanie wykonać, więc przyjmujemy zwykłą strategię pozostawienia nieokreślonego na razie i optymalizacji w tym parametrze później.
powinniśmy przynajmniej wybrać wystarczająco duży, aby . Z drugiej chwili oszacowania ogona (Lemma 2) wnioskujemy, że jest również równe z prawdopodobieństwem . Można by próbować uprościć to wyrażenie używając (6), ale okazuje się to trochę marnotrawstwem, więc wstrzymajmy się z tym na razie. Jednak (6) zdecydowanie sugeruje, że chcemy, aby było czymś w rodzaju , o czym warto pamiętać w tym, co następuje.
teraz patrzymy na wkład. Można by użyć estymacji ogonowej pierwszego momentu (Lemma 1), ale okazuje się, że pierwszy moment rozpada się zbyt wolno w j, aby mógł być użyteczny (przypomnijmy, że spodziewamy się, że będzie podobny do sekwencji lakunarnej ); głównym problemem jest to, że rozpad (7) pochodzący z monotonnego twierdzenia o konwergencji jest nieskuteczny (można to efektywnie przeprowadzić stosując zasadę skończonej konwergencji, ale okazuje się, że jest to dają tutaj bardzo słabe wyniki).
ale jest jeszcze jedna ostatnia karta do zagrania, czyli metoda momentu zerowego (4). Jak wspomniano wcześniej, to wiązanie jest ogólnie kiepskie-ale jest bardzo dobre, gdy X jest w większości zerem, co jest dokładnie sytuacją z . w szczególności widzimy, że jest zerowe z prawdopodobieństwem .
składając to wszystko w całość, widzimy, że
Podsumowując to w j, widzimy, że skończymy, gdy tylko dowiemy się, jak wybrać , aby
(11)
oraz
(12)
są skończone. (Jak zwykle, mamy kompromis: zwiększenie ułatwia (12) ustalenie kosztem (11), i odwrotnie, gdy zmniejszenie .)
opierając się na wcześniejszej dyskusji, naturalnym jest ustawienie . Na szczęście wybór ten działa czysto; lakunarny charakter zapewnia (w zasadzie ze wzoru szeregów geometrycznych), że mamy punktowe oszacowania
oraz
(gdzie implikowana stała tutaj zależy od sekwencji , a w szczególności od stałej lakunarności c). Twierdzenia (10), (11) następnie wynikają z ostatniego zastosowania liniowości oczekiwania, dając silne prawo dużych liczb.
Uwaga 1. Powyższy dowód w rzeczywistości pokazuje, że silne prawo dużych liczb obowiązuje nawet wtedy, gdy zakłada się tylko parową niezależność , a nie wspólną niezależność.
Uwaga 2. Istotne jest,aby zmienne losowe były „przetwarzane” z jednej średniej empirycznej do następnej, aby uzyskać kluczową właściwość quasimonotonicity (9). Jeśli zamiast tego wzięlibyśmy całkowicie niezależne średnie , gdzie wszystkie są iid, wtedy silne prawo dużych liczb w rzeczywistości rozkłada się z założeniem tylko w pierwszej chwili. (Dla kontrprzykładu rozważmy zmienną losową X, która jest równa z prawdopodobieństwem dla ; ta zmienna losowa (ledwo) ma skończoną pierwszą chwilę, ale dla , widzimy, że odbiega o co najmniej absolutną stałą od średniej z prawdopodobieństwem . Ponieważ empiryczne środki dla są teraz wspólnie niezależne, prawdopodobieństwo, że jedna z nich znacznie odbiega, jest teraz bardzo bliskie 1 (super wykładniczo bliskie w , w rzeczywistości), co prowadzi do całkowitego niepowodzenia silnego prawa w tym ustawieniu.) Oczywiście, jeśli ktoś ograniczy uwagę do lakunarnego ciągu n, to powyższy dowód przechodzi w przypadku niezależnym (ponieważ lemat Borela-Cantellego jest niewrażliwy na tę niezależność). Wykorzystując dalej wspólną niezależność (np. wykorzystując nierówność Chernoffa) można również uzyskać silne prawo dla niezależnych środków empirycznych dla pełnego ciągu n w granicach drugiego momentu.
Z punktu widzenia teorii interpolacji, można postrzegać powyższy argument jako argument interpolacji, ustanawiając Estymator (10) poprzez interpolację między Estymator (Lemma 2) i Estymator (4).
Oglądając ciąg jako proces stacjonarny, a więc jako szczególny przypadek systemu zachowującego miarę, można postrzegać słabe i silne prawo dużych liczb jako szczególne przypadki odpowiednio średnich i punktowych twierdzeń ergodycznych (patrz ćwiczenie 9 z 254a Wykład 8 i twierdzenie 2 z 254a Wykład 9).