Sei X eine reellwertige Zufallsvariable und sei sei eine unendliche Folge unabhängiger und identisch verteilter Kopien von X. Sei die empirischen Mittelwerte dieser Sequenz. Ein grundlegender Satz in der Wahrscheinlichkeitstheorie ist das Gesetz der großen Zahlen, Das kommt sowohl in einer schwachen als auch in einer starken Form vor:
Schwaches Gesetz der großen Zahlen. Angenommen, das erste Moment von X ist endlich. Dann konvergiert in der Wahrscheinlichkeit zu , also für jeden .
Starkes Gesetz der großen Zahlen. Angenommen, das erste Moment von X ist endlich. Dann konvergiert fast sicher zu , also .
( Wenn man die Annahme des ersten Moments auf die der Endlichkeit des zweiten Moments verstärkt, dann haben wir natürlich eine genauere Aussage als das (schwache) Gesetz der großen Zahlen, nämlich den zentralen Grenzwertsatz, aber ich werde diesen Satz hier nicht diskutieren. Mit noch mehr Hypothesen zu X hat man auch genauere Versionen des starken Gesetzes der großen Zahlen, wie die Chernoff-Ungleichung, auf die ich hier noch einmal nicht eingehen werde.)
Das schwache Gesetz ist leicht zu beweisen, aber das starke Gesetz (was natürlich das schwache Gesetz nach Egoroffs Theorem impliziert) ist subtiler, und tatsächlich erscheint der Beweis dieses Gesetzes (unter der Annahme der Endlichkeit des ersten Moments) normalerweise nur in fortgeschrittenen Graduiertentexten. Also dachte ich, ich würde hier einen Beweis für beide Gesetze vorlegen, der mit den Standardtechniken der Moment-Methode und der Trunkierung vorgeht. Der Schwerpunkt dieser Ausstellung liegt eher auf Motivation und Methoden als auf Kürze und Stärke der Ergebnisse; es gibt Beweise für das starke Gesetz in der Literatur, die auf die Größe einer Seite oder weniger komprimiert wurden, aber das ist hier nicht mein Ziel.
– Die Momentmethode –
Die Momentmethode versucht, die Schwanzwahrscheinlichkeiten einer Zufallsvariablen (d. H. Die Wahrscheinlichkeit, dass sie weit von ihrem Mittelwert abweicht) durch Momente und insbesondere das nullte, erste oder zweite Moment zu steuern. Der Grund, warum diese Methode so effektiv ist, liegt darin, dass die ersten Momente oft ziemlich genau berechnet werden können. Die Methode des ersten Moments verwendet normalerweise die Markovsche Ungleichung
(1)
( was folgt, indem die Erwartungen der punktweisen Ungleichung ) berücksichtigt werden, während die zweite Momentmethode eine Version der Chebyshev-Ungleichung verwendet, wie zum Beispiel
(2)
( beachten Sie, dass (2) nur (1) auf die Zufallsvariable und auf die schwellenwert ).
Im Allgemeinen verwendet man zur Berechnung des ersten Moments normalerweise die Linearität der Erwartung
,
während man zur Berechnung des zweiten Moments auch Kovarianzen verstehen muss (die besonders einfach sind, wenn man paarweise Unabhängigkeit annimmt), dank Identitäten wie
oder die normalisierte Variante
. (3)
Höhere Momente können im Prinzip genauere Informationen liefern, erfordern jedoch häufig stärkere Annahmen über die untersuchten Objekte, wie z. B. gemeinsame Unabhängigkeit.
Hier ist eine grundlegende Anwendung der First Moment-Methode:
Borel-Cantelli-Lemma. Sei eine Folge von Ereignissen, so dass endlich ist. Dann sind fast sicher nur endlich viele der Ereignisse wahr.
Beweis. Sei die Indikatorfunktion des Ereignisses . Unsere Aufgabe ist es zu zeigen, dass fast sicher endlich ist. Aber durch die Linearität der Erwartung ist die Erwartung dieser Zufallsvariablen , was durch Hypothese endlich ist. Durch die Markovsche Ungleichung (1) schließen wir, dass
.
wir erhalten den Anspruch.
Zurück zum Gesetz der großen Zahlen ergibt die Methode des ersten Moments die folgende Schwanzgrenze:
Lemma 1. (Erster Moment schwanzgebunden) Wenn endlich ist, dann
.
Beweis. Durch die Dreiecksungleichung . Durch die Linearität der Erwartung ist die Erwartung von . Die Behauptung folgt nun aus Markovs Ungleichung.
Lemma 1 ist an sich nicht stark genug, um das Gesetz der großen Zahlen entweder in schwacher oder starker Form zu beweisen – insbesondere zeigt es keine Verbesserung, wenn n groß wird – aber es wird nützlich sein, einen der Fehlerterme in diesen Beweisen zu behandeln.
Wir können stärkere Grenzen als Lemma 1 erhalten – insbesondere Grenzen, die sich mit n verbessern – auf Kosten stärkerer Annahmen über X.
Lemma 2. (Zweiter Moment schwanzgebunden) Wenn endlich ist, dann
.
Beweis. Eine Standardberechnung unter Verwendung von (3) und der paarweisen Unabhängigkeit von zeigt, dass die Varianz der empirischen Mittelwerte gleich mal der Varianz der ursprünglichen Variablen X. Der Anspruch folgt nun aus Chebyshevs Ungleichung (2).
In der entgegengesetzten Richtung gibt es die Nullpunktmethode, besser bekannt als Union Bound
oder äquivalent (um die Terminologie „nulliger Moment“ zu erklären“)
für alle nicht negativen Zufallsvariablen . Wenn wir dies auf die empirischen Mittel anwenden, erhalten wir die nullte Momentschwanzschätzung
. (4)
So wie die zweite Momentgrenze (Lemma 2) nur dann nützlich ist, wenn man das zweite Moment (oder die Varianz) von X gut kontrollieren kann, ist die nullte Momentschwanzschätzung (3) nur dann nützlich, wenn wir eine gute Kontrolle über das nullte Moment haben , dh wenn X größtenteils Null ist.
– Trunkierung –
Das zweite Moment schwanzgebunden (Lemma 2) gibt bereits das schwache Gesetz der großen Zahlen in dem Fall, wenn X endliches zweites Moment hat (oder äquivalent endliche Varianz). Im Allgemeinen, wenn alles, was man über X weiß, ist, dass es ein endliches erstes Moment hat, dann können wir nicht schließen, dass X ein endliches zweites Moment hat. Wir können jedoch eine Kürzung durchführen
(5)
von X an einer beliebigen Schwelle N, wobei und . Der erste Term hat ein endliches zweites Moment; In der Tat haben wir eindeutig
und daher haben wir auch endliche Varianz
. (6)
Der zweite Term kann einen unendlichen zweiten Moment haben, aber sein erster Moment ist gut kontrolliert. In der Tat haben wir nach dem monotonen Konvergenzsatz
. (7)
Durch die Dreiecksungleichung schließen wir, dass der erste Term eine Erwartung nahe :
. (8)
Dies sind alle Werkzeuge, die wir brauchen, um das schwache Gesetz der großen Zahlen zu beweisen:
Beweis des schwachen Gesetzes. Sei . Es genügt zu zeigen, dass immer dann, wenn n in Abhängigkeit von ausreichend groß ist, mit Wahrscheinlichkeit .
Aus (7), (8)können wir einen Schwellenwert N (abhängig von ) finden, so dass und . Jetzt verwenden wir (5), um zu teilen
.
Vom ersten Moment an schwanzgebunden (Lemma 1) wissen wir, dass mit Wahrscheinlichkeit . Ab dem zweiten Moment schwanzgebunden (Lemma 2) und (6) wissen wir, dass mit Wahrscheinlichkeit wenn n in Abhängigkeit von N ausreichend groß ist und . Der Anspruch folgt.
— Das starke Gesetz –
Das starke Gesetz kann bewiesen werden, indem die obigen Methoden ein wenig weiter vorangetrieben und ein paar weitere Tricks angewendet werden.
Der erste Trick besteht darin, zu beachten, dass es zum Beweis des starken Gesetzes ausreicht, dies für nicht negative Zufallsvariablen zu tun. In der Tat folgt dies unmittelbar aus der einfachen Tatsache, dass jede Zufallsvariable X mit endlichem ersten Moment als Differenz zweier nicht negativer Zufallsvariablen ausgedrückt werden kann des endlichen ersten Moments.
Sobald X nicht negativ ist, sehen wir, dass die empirischen Mittelwerte in n nicht zu schnell abnehmen können. Insbesondere beobachten wir, dass
n . (9)
Aufgrund dieser Quasimonotonizität können wir die Menge von n, für die wir das starke Gesetz beweisen müssen, sparsifizieren. Genauer gesagt genügt es,
Starkes Gesetz der großen Zahlen, reduzierte Version zu zeigen. Sei eine nicht negative Zufallsvariable mit , und sei eine Folge von ganzen Zahlen, die in dem Sinne lakunar ist, dass für einige und alle ausreichend großen j. Dann konvergiert fast sicher zu .
In der Tat, wenn wir die reduzierte Version beweisen könnten, dann bei der Anwendung dieser Version auf die lakunare Sequenz und mit (9) würden wir sehen, dass das empirische Mittel mit ziemlicher Sicherheit nicht um mehr als einen multiplikativen Fehler von vom Mittelwert abweichen kann. Wenn wir für (und die Tatsache verwenden, dass ein zählbarer Schnittpunkt fast sicherer Ereignisse fast sicher bleibt), erhalten wir das volle starke Gesetz.
Nun, da wir die Sequenz sparsifiziert haben, wird es wirtschaftlich, das Borel-Cantelli-Lemma anzuwenden. In der Tat sehen wir durch viele Anwendungen dieses Lemmas, dass es ausreicht, dies zu zeigen
(10)
für nicht negatives X des endlichen ersten Moments jede lakunare Sequenz und jede .
An dieser Stelle gehen wir zurück und wenden die Methoden an, die bereits funktionierten, um das schwache Gesetz zu geben. Um nämlich jede der Schwanzwahrscheinlichkeiten zu schätzen, führen wir eine Kürzung (5) an einem Schwellenwert durch. Daher verwenden wir die übliche Strategie, vorerst nicht spezifiziert zu lassen und diesen Parameter später zu optimieren.
Wir sollten mindestens so groß auswählen, dass . Aus dem zweiten Moment der Schätzung (Lemma 2) schließen wir, dass auch gleich mit Wahrscheinlichkeit . Man könnte versuchen, diesen Ausdruck mit (6) zu vereinfachen, aber dies erweist sich als etwas verschwenderisch, also lassen Sie uns das vorerst abwarten. (6) legt jedoch nahe, dass wir als etwas wie betrachten möchten, was im Folgenden zu beachten ist.
Nun betrachten wir den Beitrag von . Man könnte die erste Momentschwanzschätzung (Lemma 1) verwenden, aber es stellt sich heraus, dass der erste Moment in j zu langsam zerfällt, um von großem Nutzen zu sein (denken Sie daran, dass wir erwarten, dass wie die Lacunary-Sequenz ); Das Grundproblem hier ist, dass der Zerfall (7), der aus dem monotonen Konvergenzsatz kommt, unwirksam ist (man könnte dies mit dem finiten Konvergenzprinzip effectivisieren, aber dies ergibt sehr schlechte Ergebnisse hier).
Aber es gibt noch eine letzte Karte zu spielen, nämlich die Nullpunktmethode tail estimate (4). Wie bereits erwähnt, ist diese Grenze im Allgemeinen lausig – aber sehr gut, wenn X größtenteils Null ist, was genau die Situation mit . und insbesondere sehen wir, dass Null ist mit Wahrscheinlichkeit .
Wenn wir das alles zusammenfassen, sehen wir, dass
Wenn wir dies in j zusammenfassen, sehen wir, dass wir fertig sind, sobald wir herausfinden, wie man wählt, damit
(11)
und
(12)
beide sind endlich. (Wie üblich haben wir einen Kompromiss: Wenn wir größer machen, ist (12) auf Kosten von (11) leichter zu etablieren und umgekehrt, wenn wir kleiner machen.)
Basierend auf der vorherigen Diskussion ist es natürlich zu versuchen, . Glücklicherweise funktioniert diese Wahl sauber; Die lakunare Natur von stellt sicher (im Grunde genommen aus der geometrischen Reihenformel), dass wir die punktweisen Schätzungen haben
und
( wobei die implizite Konstante hier von der Folge und insbesondere von der Lakunaritätskonstante c) abhängt. Die Ansprüche (10), (11) folgen dann aus einer letzten Anwendung der Erwartungslinearität, die das starke Gesetz der großen Zahlen ergibt.
Bemerkung 1. Der obige Beweis zeigt in der Tat, dass das starke Gesetz der großen Zahlen gilt, auch wenn man nur paarweise Unabhängigkeit der annimmt, anstatt gemeinsame Unabhängigkeit.
Bemerkung 2. Es ist wichtig, dass die Zufallsvariablen von einem empirischen Durchschnitt zum nächsten „recycelt“ werden, um die entscheidende Quasimonotonizitätseigenschaft zu erhalten (9). Wenn wir stattdessen völlig unabhängige Mittelwerte , wobei die alle iid , dann bricht das starke Gesetz der großen Zahlen tatsächlich mit nur einer Annahme des ersten Moments zusammen. (Betrachten Sie als Gegenbeispiel eine Zufallsvariable X, die mit Wahrscheinlichkeit für ; diese Zufallsvariable hat (kaum) ein endliches erstes Moment, aber für sehen wir, dass um mindestens eine absolute Konstante von seinem Mittelwert abweicht Wahrscheinlichkeit . Da die empirischen Mittelwerte für nun gemeinsam unabhängig sind, ist die Wahrscheinlichkeit, dass einer von ihnen signifikant abweicht, jetzt extrem nahe bei 1 (tatsächlich superexponentiell nahe bei ), was zum Totalausfall des starken Gesetzes in dieser Einstellung führt.) Natürlich, wenn man die Aufmerksamkeit auf eine lakunare Folge von n beschränkt, dann geht der obige Beweis im unabhängigen Fall durch (da das Borel-Cantelli-Lemma für diese Unabhängigkeit unempfindlich ist). Durch die weitere Ausnutzung der gemeinsamen Unabhängigkeit (z. B. durch Verwendung der Chernoffschen Ungleichung) kann man auch das starke Gesetz für unabhängige empirische Mittel für die vollständige Sequenz n unter zweiten Momentengrenzen erhalten.
Bemerkung 3. Aus der Perspektive der Interpolationstheorie kann man das obige Argument als Interpolationsargument betrachten, das eine Schätzung (10) durch Interpolation zwischen einer Schätzung (Lemma 2) und der Schätzung (4).
Bemerkung 4. Betrachtet man die Folge als stationären Prozess und damit als Sonderfall eines maßerhaltenden Systems, so kann man das schwache und das starke Gesetz der großen Zahlen als Sonderfälle des mittleren bzw. punktweisen ergodischen Satzes betrachten (siehe Übung 9 aus 254A Vorlesung 8 und Satz 2 aus 254A Vorlesung 9).