Das starke Gesetz der großen Zahlen

Sei X eine reellwertige Zufallsvariable und sei X_1, X_2, X_3, ... sei eine unendliche Folge unabhängiger und identisch verteilter Kopien von X. Sei \overline{X}_n := \frac{1}{n}(X_1 + \ldots + X_n) die empirischen Mittelwerte dieser Sequenz. Ein grundlegender Satz in der Wahrscheinlichkeitstheorie ist das Gesetz der großen Zahlen, Das kommt sowohl in einer schwachen als auch in einer starken Form vor:

Schwaches Gesetz der großen Zahlen. Angenommen, das erste Moment {\Bbb E} /X/ von X ist endlich. Dann konvergiert \overline{X}_nin der Wahrscheinlichkeit zu {\Bbb E} X, also \lim_{n \to \infty} {\Bbb P}( |\overline{X}_n - {\Bbb E} X| \geq \varepsilon) = 0 für jeden \varepsilon 0.

Starkes Gesetz der großen Zahlen. Angenommen, das erste Moment {\Bbb E} /X/ von X ist endlich. Dann konvergiert \overline{X}_n fast sicher zu {\Bbb E} X, also {\Bbb P}( \lim_{n \to \infty} \overline{X}_n = {\Bbb E} X ) = 1 .

( Wenn man die Annahme des ersten Moments auf die der Endlichkeit des zweiten Moments  {\Bbb E} | X| ^2 verstärkt, dann haben wir natürlich eine genauere Aussage als das (schwache) Gesetz der großen Zahlen, nämlich den zentralen Grenzwertsatz, aber ich werde diesen Satz hier nicht diskutieren. Mit noch mehr Hypothesen zu X hat man auch genauere Versionen des starken Gesetzes der großen Zahlen, wie die Chernoff-Ungleichung, auf die ich hier noch einmal nicht eingehen werde.)

Das schwache Gesetz ist leicht zu beweisen, aber das starke Gesetz (was natürlich das schwache Gesetz nach Egoroffs Theorem impliziert) ist subtiler, und tatsächlich erscheint der Beweis dieses Gesetzes (unter der Annahme der Endlichkeit des ersten Moments) normalerweise nur in fortgeschrittenen Graduiertentexten. Also dachte ich, ich würde hier einen Beweis für beide Gesetze vorlegen, der mit den Standardtechniken der Moment-Methode und der Trunkierung vorgeht. Der Schwerpunkt dieser Ausstellung liegt eher auf Motivation und Methoden als auf Kürze und Stärke der Ergebnisse; es gibt Beweise für das starke Gesetz in der Literatur, die auf die Größe einer Seite oder weniger komprimiert wurden, aber das ist hier nicht mein Ziel.

– Die Momentmethode –

Die Momentmethode versucht, die Schwanzwahrscheinlichkeiten einer Zufallsvariablen (d. H. Die Wahrscheinlichkeit, dass sie weit von ihrem Mittelwert abweicht) durch Momente und insbesondere das nullte, erste oder zweite Moment zu steuern. Der Grund, warum diese Methode so effektiv ist, liegt darin, dass die ersten Momente oft ziemlich genau berechnet werden können. Die Methode des ersten Moments verwendet normalerweise die Markovsche Ungleichung

\ displaystyle {\Bbb P}( |X/ \geq \lambda ) \leq \frac{1}{\lambda} {\Bbb E} |X| (1)

( was folgt, indem die Erwartungen der punktweisen Ungleichung \lambda I(|X| \geq \lambda) \leq |X|) berücksichtigt werden, während die zweite Momentmethode eine Version der Chebyshev-Ungleichung verwendet, wie zum Beispiel

\ displaystyle {\Bbb P}( |X/ \geq \lambda ) \leq \frac{1}{\lambda^2} {\Bbb E} |X|^2 (2)

( beachten Sie, dass (2) nur (1) auf die Zufallsvariable  | X| ^2 und auf die schwellenwert \lambda^2).

Im Allgemeinen verwendet man zur Berechnung des ersten Moments normalerweise die Linearität der Erwartung

\ displaystyle {\Bbb E} X_1 + \ldots + X_n = {\Bbb E} X_1 + \ldots + {\Bbb E} X_n,

während man zur Berechnung des zweiten Moments auch Kovarianzen verstehen muss (die besonders einfach sind, wenn man paarweise Unabhängigkeit annimmt), dank Identitäten wie

\ displaystyle {\Bbb E} (X_1 + \ldots + X_n)^2 = {\Bbb E} X_1^2 + \ldots + {\Bbb E} X_n^2 + 2 \sum_{1 \leq i j \leq n} X_i X_j

oder die normalisierte Variante

\displaystyle {\bf Var}(X_1+\ldots+X_n) = {\bf Var}(X_1) + \ldots + {\bf Var}(X_n)

\ displaystyle + 2 \sum_{1 \leq ij \leq n} {\bf Cov}(X_i,X_j). (3)

Höhere Momente können im Prinzip genauere Informationen liefern, erfordern jedoch häufig stärkere Annahmen über die untersuchten Objekte, wie z. B. gemeinsame Unabhängigkeit.

Hier ist eine grundlegende Anwendung der First Moment-Methode:

Borel-Cantelli-Lemma. Sei E_1, E_2, E_3, \ldots eine Folge von Ereignissen, so dass \sum_{n=1}^\infty {\Bbb P}(E_n) endlich ist. Dann sind fast sicher nur endlich viele der Ereignisse E_n wahr.

Beweis. Sei I(E_n) die Indikatorfunktion des Ereignisses E_n. Unsere Aufgabe ist es zu zeigen, dass \sum_{n=1}^\infty I(E_n) fast sicher endlich ist. Aber durch die Linearität der Erwartung ist die Erwartung dieser Zufallsvariablen \sum_{n=1}^\infty {\Bbb P}(E_n), was durch Hypothese endlich ist. Durch die Markovsche Ungleichung (1) schließen wir, dass

\ displaystyle {\Bbb P}( \sum_{n=1}^\infty I(E_n) \geq \lambda ) \leq \frac{1}{\lambda} \sum_{n=1}^\infty {\Bbb P}(E_n).

\lambda \to \infty wir erhalten den Anspruch. \Box

Zurück zum Gesetz der großen Zahlen ergibt die Methode des ersten Moments die folgende Schwanzgrenze:

Lemma 1. (Erster Moment schwanzgebunden) Wenn {\Bbb E}/X/ endlich ist, dann

\ displaystyle {\Bbb P}( |\overline{X}_n| \geq \lambda ) \leq \frac{{\Bbb E}|X|}{\lambda}.

Beweis. Durch die Dreiecksungleichung |\overline{X}_n| \leq \overline{|X|}_n. Durch die Linearität der Erwartung ist die Erwartung von \overline{/X/}_n {\Bbb E}|X| . Die Behauptung folgt nun aus Markovs Ungleichung. \Box

Lemma 1 ist an sich nicht stark genug, um das Gesetz der großen Zahlen entweder in schwacher oder starker Form zu beweisen – insbesondere zeigt es keine Verbesserung, wenn n groß wird – aber es wird nützlich sein, einen der Fehlerterme in diesen Beweisen zu behandeln.

Wir können stärkere Grenzen als Lemma 1 erhalten – insbesondere Grenzen, die sich mit n verbessern – auf Kosten stärkerer Annahmen über X.

Lemma 2. (Zweiter Moment schwanzgebunden) Wenn {\Bbb E}/X/^2 endlich ist, dann

\ displaystyle {\Bbb P}( |\Überlinie{X}_n - {\Bbb E}(X)| \geq \lambda ) \leq \frac{ {\Bbb E}|X - {\Bbb E}(X)|^2 }{n \lambda^2}.

Beweis. Eine Standardberechnung unter Verwendung von (3) und der paarweisen Unabhängigkeit von X_i zeigt, dass die Varianz {\Bbb E} |\overline{X}_n - {\Bbb E}(X)|^2 der empirischen Mittelwerte \overline{X}_n gleich \frac{1}{n} mal der Varianz {\Bbb E} |X - {\Bbb E}(X)|^2 der ursprünglichen Variablen X. Der Anspruch folgt nun aus Chebyshevs Ungleichung (2). \Box

In der entgegengesetzten Richtung gibt es die Nullpunktmethode, besser bekannt als Union Bound

\ displaystyle {\Bbb P}(E_1 \vee \ldots \vee E_n ) \leq \Summe{j=1}^n {\Bbb P}(E_j)

oder äquivalent (um die Terminologie „nulliger Moment“ zu erklären“)

\ displaystyle {\Bbb E} (X_1 + \ldots + X_n)^0 \leq {\Bbb E} X_1^0 + \ldots + X_n^0

für alle nicht negativen Zufallsvariablen X_1,\ldots,X_n \geq 0. Wenn wir dies auf die empirischen Mittel anwenden, erhalten wir die nullte Momentschwanzschätzung

{\ Bbb P} (\überstrichen{X}_n \neq 0) \leq n {\Bbb P}(X \neq 0). (4)

So wie die zweite Momentgrenze (Lemma 2) nur dann nützlich ist, wenn man das zweite Moment (oder die Varianz) von X gut kontrollieren kann, ist die nullte Momentschwanzschätzung (3) nur dann nützlich, wenn wir eine gute Kontrolle über das nullte Moment haben  {\Bbb E} | X| ^ 0 = {\Bbb P} (X \neq 0), dh wenn X größtenteils Null ist.

– Trunkierung –

Das zweite Moment schwanzgebunden (Lemma 2) gibt bereits das schwache Gesetz der großen Zahlen in dem Fall, wenn X endliches zweites Moment hat (oder äquivalent endliche Varianz). Im Allgemeinen, wenn alles, was man über X weiß, ist, dass es ein endliches erstes Moment hat, dann können wir nicht schließen, dass X ein endliches zweites Moment hat. Wir können jedoch eine Kürzung durchführen

\ {\displaystyle {\displaystyle{\displaystyle{}}}} (5)

von X an einer beliebigen Schwelle N, wobei X_{\leq N} := X I(|X|\leq N) und X_{N} := X I(|X|N). Der erste Term  X_{\leq N} hat ein endliches zweites Moment; In der Tat haben wir eindeutig

\ displaystyle {\Bbb E} |X_{\leq N}|^2 \leq N {\Bbb E} /X|

und daher haben wir auch endliche Varianz

\ displaystyle {\Bbb E} |X_{\leq N} - {\Bbb E} X_{\leq N}|^2 \leq N {\Bbb E} |X|. (6)

Der zweite Term X_{N} kann einen unendlichen zweiten Moment haben, aber sein erster Moment ist gut kontrolliert. In der Tat haben wir nach dem monotonen Konvergenzsatz

\ displaystyle {\Bbb E} |X_{N}| \bis 0 \hbox{ as } N \bis \infty. (7)

Durch die Dreiecksungleichung schließen wir, dass der erste Term X_{\leq N} eine Erwartung nahe {\Bbb E} X hat:

\ displaystyle {\Bbb E} X_{\leq N} \bis {\Bbb E}(X) \hbox{ as } N \bis \infty. (8)

Dies sind alle Werkzeuge, die wir brauchen, um das schwache Gesetz der großen Zahlen zu beweisen:

Beweis des schwachen Gesetzes. Sei \varepsilon 0. Es genügt zu zeigen, dass immer dann, wenn n in Abhängigkeit von \varepsilon ausreichend groß ist, \overline{X}_n = {\Bbb E} X + O(\varepsilon) mit Wahrscheinlichkeit 1-O(\varepsilon) .

Aus (7), (8)können wir einen Schwellenwert N (abhängig von \varepsilon) finden, so dass {\Bbb E} |X_{\geq N}| = O(\varepsilon^2) und {\Bbb E} X_{N} = {\Bbb E} X + O(\varepsilon). Jetzt verwenden wir (5), um zu teilen

\ displaystyle \Überlinie{X}_n = (\Überlinie{X_{\geq N}})_n +(\Überlinie{X_{ N}})_n.

Vom ersten Moment an schwanzgebunden (Lemma 1) wissen wir, dass (\overline{X_{\geq N}})_n = O(\varepsilon) mit Wahrscheinlichkeit 1 - O(\varepsilon) . Ab dem zweiten Moment schwanzgebunden (Lemma 2) und (6) wissen wir, dass (\overline{X_{ N}})_n = {\Bbb E} X_{N} + O(\varepsilon) = {\Bbb E} X + O(\varepsilon) mit Wahrscheinlichkeit 1-O(\varepsilon) wenn n in Abhängigkeit von N ausreichend groß ist und \ varepsilon. Der Anspruch folgt. \Kasten

— Das starke Gesetz –

Das starke Gesetz kann bewiesen werden, indem die obigen Methoden ein wenig weiter vorangetrieben und ein paar weitere Tricks angewendet werden.

Der erste Trick besteht darin, zu beachten, dass es zum Beweis des starken Gesetzes ausreicht, dies für nicht negative Zufallsvariablen X \geq 0 zu tun. In der Tat folgt dies unmittelbar aus der einfachen Tatsache, dass jede Zufallsvariable X mit endlichem ersten Moment als Differenz zweier nicht negativer Zufallsvariablen ausgedrückt werden kann \max(X,0), \max(-X,0) des endlichen ersten Moments.

Sobald X nicht negativ ist, sehen wir, dass die empirischen Mittelwerte \overline{X}_n in n nicht zu schnell abnehmen können. Insbesondere beobachten wir, dass

\ displaystyle \Überlinie{X}_m \leq (1+O(\varepsilon)) \Überlinie{X}_n n (1-\varepsilon) n \leq m \leq n. (9)

Aufgrund dieser Quasimonotonizität können wir die Menge von n, für die wir das starke Gesetz beweisen müssen, sparsifizieren. Genauer gesagt genügt es,

Starkes Gesetz der großen Zahlen, reduzierte Version zu zeigen. Sei X eine nicht negative Zufallsvariable mit  {\Bbb E} X \infty, und sei 1 \leq n_1\leq n_2\leq n_3\leq\ldots eine Folge von ganzen Zahlen, die in dem Sinne lakunar ist, dass n_{j+1} / n_j c für einige  c1 und alle ausreichend großen j. Dann konvergiert \overline{X}_{n_j} fast sicher zu {\Bbb E} X.

In der Tat, wenn wir die reduzierte Version beweisen könnten, dann bei der Anwendung dieser Version auf die lakunare Sequenz n_j := \lfloor (1 + \varepsilon)^j\rfloor und mit (9) würden wir sehen, dass das empirische Mittel \overline{X}_n mit ziemlicher Sicherheit nicht um mehr als einen multiplikativen Fehler von 1+ O(\varepsilon) vom Mittelwert {\Bbb E} X abweichen kann. Wenn wir \varepsilon := 1/m für m=1,2,3,\ldots (und die Tatsache verwenden, dass ein zählbarer Schnittpunkt fast sicherer Ereignisse fast sicher bleibt), erhalten wir das volle starke Gesetz.

Nun, da wir die Sequenz sparsifiziert haben, wird es wirtschaftlich, das Borel-Cantelli-Lemma anzuwenden. In der Tat sehen wir durch viele Anwendungen dieses Lemmas, dass es ausreicht, dies zu zeigen

\ displaystyle \summe_{j=1}^\infty {\Bbb P}( \Überlinie{X}_{n_j} \neq {\Bbb E}(X) + O( \varepsilon ) ) \infty (10)

für nicht negatives X des endlichen ersten Moments jede lakunare Sequenz 1 \leq n_1 \leq n_2 \leq \ldots und jede \varepsilon 0.

An dieser Stelle gehen wir zurück und wenden die Methoden an, die bereits funktionierten, um das schwache Gesetz zu geben. Um nämlich jede der Schwanzwahrscheinlichkeiten {\Bbb P}( \overline{X}_{n_j} \neq {\Bbb E}(X) + O(\varepsilon)) zu schätzen, führen wir eine Kürzung (5) an einem Schwellenwert N_j durch. Daher verwenden wir die übliche Strategie, N_j vorerst nicht spezifiziert zu lassen und diesen Parameter später zu optimieren.

Wir sollten mindestens N_j so groß auswählen, dass {\Bbb E} X_{ N_j} = {\Bbb E} X + O(\varepsilon) . Aus dem zweiten Moment der Schätzung (Lemma 2) schließen wir, dass (\overline{X_{ N_j}})_{n_j} auch gleich {\Bbb E} X + O( \varepsilon ) mit Wahrscheinlichkeit 1-O( \frac{1}{\varepsilon n_j} {\Bbb E} |X_{\leq N_j}|^ 2 ). Man könnte versuchen, diesen Ausdruck mit (6) zu vereinfachen, aber dies erweist sich als etwas verschwenderisch, also lassen Sie uns das vorerst abwarten. (6) legt jedoch nahe, dass wir N_j als etwas wie n_j betrachten möchten, was im Folgenden zu beachten ist.

Nun betrachten wir den Beitrag von X_{\geq N_j}. Man könnte die erste Momentschwanzschätzung (Lemma 1) verwenden, aber es stellt sich heraus, dass der erste Moment {\Bbb E} X_{N_j} in j zu langsam zerfällt, um von großem Nutzen zu sein (denken Sie daran, dass wir erwarten, dass N_j wie die Lacunary-Sequenz n_j ); Das Grundproblem hier ist, dass der Zerfall (7), der aus dem monotonen Konvergenzsatz kommt, unwirksam ist (man könnte dies mit dem finiten Konvergenzprinzip effectivisieren, aber dies ergibt sehr schlechte Ergebnisse hier).

Aber es gibt noch eine letzte Karte zu spielen, nämlich die Nullpunktmethode tail estimate (4). Wie bereits erwähnt, ist diese Grenze im Allgemeinen lausig – aber sehr gut, wenn X größtenteils Null ist, was genau die Situation mit X_{N_j} . und insbesondere sehen wir, dass (\overline{X_{N_j}})_{n_j} Null ist mit Wahrscheinlichkeit 1 - O( n_j {\Bbb P}(X N_j) ) .

Wenn wir das alles zusammenfassen, sehen wir, dass

\ displaystyle {\Bbb P}( \Überlinie{X}_{n_j} \neq {\Bbb E}(X) + O( \varepsilon ) ) \leq O( \frac{1}{\varepsilon n_j} {\Bbb E} |X_{\leq N_j}/^2 ) + O( n_j {\Bbb P}(X N_j) ).

Wenn wir dies in j zusammenfassen, sehen wir, dass wir fertig sind, sobald wir herausfinden, wie man N_j wählt, damit

\ displaystyle \summe_{j=1}^\infty \frac{1}{n_j} {\Bbb E} |X_{\leq N_j}|^2 (11)

und

\ displaystyle \summe_{j=1}^\infty n_j {\Bbb P}(X N_j) (12)

beide sind endlich. (Wie üblich haben wir einen Kompromiss: Wenn wir N_j größer machen, ist (12) auf Kosten von (11) leichter zu etablieren und umgekehrt, wenn wir N_j kleiner machen.)

Basierend auf der vorherigen Diskussion ist es natürlich zu versuchen, N_j := n_j . Glücklicherweise funktioniert diese Wahl sauber; Die lakunare Natur von n_j stellt sicher (im Grunde genommen aus der geometrischen Reihenformel), dass wir die punktweisen Schätzungen haben

\ displaystyle \summe_{j=1}^\infty \frac{1}{n_j} |X_{\leq n_j}/^2 = O( X )

und

\ displaystyle \ summe_ {j = 1} ^ \ infty n_j Ich ( X \ geq n_j ) = O ( X )

( wobei die implizite Konstante hier von der Folge n_1, n_2, \ldots und insbesondere von der Lakunaritätskonstante c) abhängt. Die Ansprüche (10), (11) folgen dann aus einer letzten Anwendung der Erwartungslinearität, die das starke Gesetz der großen Zahlen ergibt.

Bemerkung 1. Der obige Beweis zeigt in der Tat, dass das starke Gesetz der großen Zahlen gilt, auch wenn man nur paarweise Unabhängigkeit der X_n annimmt, anstatt gemeinsame Unabhängigkeit. \Diamant

Bemerkung 2. Es ist wichtig, dass die Zufallsvariablen X_1,X_2,\ldots von einem empirischen Durchschnitt \overline{X}_n zum nächsten „recycelt“ werden, um die entscheidende Quasimonotonizitätseigenschaft zu erhalten (9). Wenn wir stattdessen völlig unabhängige Mittelwerte \overline{X}_n = \frac{1}{n} (X_{n,1} + \ldots + X_{n,n} ) , wobei die X_{i,j} alle iid , dann bricht das starke Gesetz der großen Zahlen tatsächlich mit nur einer Annahme des ersten Moments zusammen. (Betrachten Sie als Gegenbeispiel eine Zufallsvariable X, die 2^m / m^2 mit Wahrscheinlichkeit 2^{-m} für m=1,2,3,\ldots; diese Zufallsvariable hat (kaum) ein endliches erstes Moment, aber für  n \sim 2^m/m^2 sehen wir, dass \overline{X}_n um mindestens eine absolute Konstante von seinem Mittelwert abweicht Wahrscheinlichkeit \gg 1 / m^2. Da die empirischen Mittelwerte  \overline{X}_n für  n \sim 2 ^ m / m ^2 nun gemeinsam unabhängig sind, ist die Wahrscheinlichkeit, dass einer von ihnen signifikant abweicht, jetzt extrem nahe bei 1 (tatsächlich superexponentiell nahe bei m), was zum Totalausfall des starken Gesetzes in dieser Einstellung führt.) Natürlich, wenn man die Aufmerksamkeit auf eine lakunare Folge von n beschränkt, dann geht der obige Beweis im unabhängigen Fall durch (da das Borel-Cantelli-Lemma für diese Unabhängigkeit unempfindlich ist). Durch die weitere Ausnutzung der gemeinsamen Unabhängigkeit (z. B. durch Verwendung der Chernoffschen Ungleichung) kann man auch das starke Gesetz für unabhängige empirische Mittel für die vollständige Sequenz n unter zweiten Momentengrenzen erhalten. \Diamant

Bemerkung 3. Aus der Perspektive der Interpolationstheorie kann man das obige Argument als Interpolationsargument betrachten, das eine  L ^ 1 Schätzung (10) durch Interpolation zwischen einer  L ^ 2 Schätzung (Lemma 2) und der  L^ 0 Schätzung (4). \Diamant

Bemerkung 4. Betrachtet man die Folge X_1,X_2,\ldots als stationären Prozess und damit als Sonderfall eines maßerhaltenden Systems, so kann man das schwache und das starke Gesetz der großen Zahlen als Sonderfälle des mittleren bzw. punktweisen ergodischen Satzes betrachten (siehe Übung 9 aus 254A Vorlesung 8 und Satz 2 aus 254A Vorlesung 9). \Diamant

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

More: