de sterke wet van grote getallen

zij X een reële willekeurige variabele, en zij X_1, X_2, X_3, ... een oneindige reeks van onafhankelijke en identiek gedistribueerde kopieën van X. laat \overline{X}_n: = \frac{1}{n}(X_1 + \ldots + X_n) de empirische gemiddelden van deze reeks zijn. Een fundamentele stelling in de kansrekening is de wet van grote getallen, die in zowel een zwakke als een sterke vorm komt:

zwakke wet van grote aantallen. Stel dat het eerste moment {\Bbb E} / X / van X eindig is. Dan convergeert \overline{X}_nin waarschijnlijkheid naar {\Bbb E} X, dus  \ lim_{n \ to \ infty} {\Bbb P} (|\overline{X}_n - {\Bbb E} X / \geq \varepsilon ) = 0 voor elke \varepsilon 0.

sterke wet van grote aantallen. Stel dat het eerste moment {\Bbb E} / X / van X eindig is. Dan convergeert \overline{X}_n vrijwel zeker naar {\Bbb E} X, dus {\Bbb P} (\lim_{n \to \infty} \overline{X}_n = {\Bbb E} X ) = 1.

(als men de aanname van het eerste moment versterkt tot die van eindigheid van het tweede moment {\Bbb E}|X|^2, dan hebben we natuurlijk een preciezere stelling dan de (zwakke) wet van grote getallen, namelijk de centrale limietstelling, maar Ik zal die stelling hier niet bespreken. Met nog meer hypothesen over X, heeft men ook preciezere versies van de sterke wet van grote getallen, zoals de Chernoff ongelijkheid, die ik hier opnieuw niet zal bespreken.)

de zwakke wet is gemakkelijk te bewijzen, maar de sterke wet (die natuurlijk de zwakke wet impliceert, door de stelling van Egoroff) is subtieler, en in feite is het bewijs van deze wet (uitgaande van de juistheid van het eerste moment) meestal alleen in geavanceerde graduate teksten. Dus ik dacht dat ik hier een bewijs zou presenteren van beide wetten, die voortkomt uit de standaard technieken van het moment methode en afkappen. De nadruk in deze expositie zal liggen op motivatie en methoden in plaats van beknoptheid en kracht van de resultaten; er bestaan bewijzen van de sterke wet in de literatuur die zijn gecomprimeerd tot de grootte van een pagina of minder, maar dit is niet mijn doel hier.

– de momentmethode –

de momentmethode probeert de staartkansen van een willekeurige variabele (d.w.z. de kans dat deze ver van het gemiddelde fluctueert) te controleren door middel van momenten, en in het bijzonder het Nulde, eerste of tweede moment. De reden dat deze methode zo effectief is, is omdat de eerste paar momenten vaak vrij nauwkeurig kunnen worden berekend. Het eerste moment methode wordt meestal maakt gebruik van Markov ‘ s ongelijkheid

\displaystyle {\Bbb P}( |X| \geq \lambda ) \leq \frac{1}{\lambda} {\Bbb E} |X| (1)

(gevolgd door het nemen van de verwachtingen van de puntsgewijs ongelijkheid \lambda I(|X| \geq \lambda) \leq |X|), overwegende dat het tweede moment methode gebruikt enkele versie van de ongelijkheid Chebyshev is, zoals

\displaystyle {\Bbb P}( |X| \geq \lambda ) \leq \frac{1}{\lambda^2} {\Bbb E} |X|^2 (2)

(merk op dat (2) is het net (1) toegepast op de random variabele |X|^2 en de drempelwaarde  \ lambda^2).

in het Algemeen, voor het berekenen van het eerste moment dat men meestal hanteert lineariteit van de verwachting

\displaystyle {\Bbb E} X_1 + \ldots + X_n = {\Bbb E} X_1 + \ldots + {\Bbb E} X_n,

overwegende dat voor het berekenen van het tweede moment dat men moet ook begrijpen covariances (die bijzonder eenvoudig als men veronderstelt paarsgewijze onafhankelijkheid), dankzij identiteiten zoals

\displaystyle {\Bbb E} (X_1 + \ldots + X_n)^2 = {\Bbb E} X_1^2 + \ldots + {\Bbb E} X_n^2 + 2 \sum_{1 \leq i j \leq n} X_i X_j

of de genormaliseerde variant

 \ displaystyle {\bf Var} (X_1+ \ ldots+X_n) = {\bf Var} (X_1) + \ldots + {\bf Var}(X_n)

\displaystyle + 2 \ sum_{1 \leq i j \ leq n} {\bf Cov} (X_i,X_j). (3)

hogere momenten kunnen in principe nauwkeuriger informatie geven, maar vereisen vaak sterkere veronderstellingen over de bestudeerde objecten, zoals gezamenlijke onafhankelijkheid.

hier is een basistoepassing van de eerste-momentmethode:

Borel-Cantelli lemma. Laat E_1, E_2, E_3, \ldots een opeenvolging van gebeurtenissen zijn, zodat \sum_{n=1}^\infty {\Bbb P}(E_n) eindig is. Dan zijn vrijwel zeker slechts eindig veel van de gebeurtenissen E_n waar.

Proof. Laat I (E_n) de indicatorfunctie van de gebeurtenis E_naangeven. Onze taak is aan te tonen dat \sum_{n=1}^\infty I(E_n) vrijwel zeker eindig is. Maar door lineariteit van verwachting is de verwachting van deze willekeurige variabele  \ sum_{n = 1}^ \ infty {\Bbb P} (E_n), wat eindig is door hypothese. Door Markov ‘ s ongelijkheid (1) concluderen we dat

\displaystyle {\Bbb P} (\sum_{n=1}^\infty I(E_n) \geq \lambda) \leq\frac{1} {\lambda}\sum_{n=1}^\infty {\Bbb P} (E_n).

Letting  \ lambda \ to \ infty we verkrijgen de claim. \Box

terugkerend naar de wet van de grote getallen, geeft de eerste-moment-methode de volgende staartbinding:

Lemma 1. (Eerste moment staart gebonden) als {\Bbb E}|X / eindig is, dan

\displaystyle {\Bbb P} (|\overline{X}_n|\geq \lambda ) \leq \frac{{\Bbb E}|X/} {\lambda}.

Proof. Door de driehoek ongelijkheid, |\overline{X}_n|\leq \overline {|X/} _n. Door lineariteit van verwachting is de verwachting van \overline{|X|}_n {\Bbb E}|X|. De claim volgt nu uit de ongelijkheid van Markov. \Box

Lemma 1 is op zichzelf niet sterk genoeg om de wet van grote getallen in zwakke of sterke vorm te bewijzen – met name vertoont het geen verbetering naarmate n groot wordt – maar het zal nuttig zijn om een van de fouttermen in deze bewijzen te hanteren.

we kunnen sterkere grenzen krijgen dan Lemma 1 – in het bijzonder, grenzen die verbeteren met n – ten koste van sterkere veronderstellingen op X.

Lemma 2. (Tweede moment staart gebonden) als {\Bbb E}|X / ^2 eindig is, dan

\displaystyle {\Bbb P}( |\overline{X}_n - {\Bbb E} (X)| \geq \lambda ) \leq \frac{ {\Bbb E}|X - {\Bbb E} (X)|^2 }{n \lambda^2}.

Proof. Een standaard berekening, het benutten van (3) en de paarsgewijze onafhankelijkheid van de X_i, laat zien dat de variantie {\Bbb E} |\overline{X}_n - {\Bbb E}(X)|^2 van de empirische gemiddelden \overline{X}_n is gelijk aan \frac{1}{n} keer de variantie {\Bbb E} |X - {\Bbb E}(X)|^2 van de oorspronkelijke variabele X. De vordering is nu volgt uit de ongelijkheid Chebyshev is (2). \Box

In de tegenovergestelde richting, er is de nulde moment methode, beter bekend als de unie gebonden

\displaystyle {\Bbb P}( E_1 \vee \ldots \vee E_n ) \leq \sum_{j=1}^n {\Bbb P}(E_j)

oftewel (voor uitleg van de terminologie “nulde moment”)

\displaystyle {\Bbb E} (X_1 + \ldots + X_n)^0 \leq {\Bbb E} X_1^0 + \ldots + X_n^0

voor elke niet-negatieve random variabelen X_1,\ldots,X_n \geq 0. Door dit toe te passen op de empirische middelen, verkrijgen we de nulth moment staart schatting

{\Bbb P} (\overline{X}_n \neq 0) \leq n {\Bbb P} (X \ neq 0). (4)

net zoals het tweede moment gebonden (Lemma 2) alleen nuttig is als men een goede controle heeft op het tweede moment (of variantie) van X, is de nulth moment tail estimate(3) alleen nuttig als we een goede controle hebben op het nulth moment {\Bbb E} |X|^0 = {\Bbb P} (X \neq 0), d.w.z. Als X meestal nul is.

– afkappen –

het tweede moment staart gebonden (Lemma 2) geeft al de zwakke wet van grote getallen in het geval X heeft eindig tweede moment (of gelijkwaardig, eindige variantie). In het algemeen, als alles wat men weet over X is dat het eindig eerste moment heeft, dan kunnen we niet concluderen dat X eindig tweede moment heeft. We kunnen echter een afkapping uitvoeren

\displaystyle X = X_ {\leq N} + X_{N} (5)

van X op elke gewenste drempel N, waarbij X_ {\leq N}: = X I (|X|\leq n) en X_{N} := X I (|X / n). De eerste term X_ {\leq N} heeft eindig tweede moment; inderdaad hebben we duidelijk

\displaystyle {\Bbb E} / X_{\leq N} / ^2 \leq N {\Bbb E} / X|

en dus hebben we ook eindige variantie

\displaystyle {\Bbb E}|X_{\leq N} - {\Bbb E} X_{\leq N} |^2 \leq N {\Bbb E}|X / . (6)

de tweede term X_{n} kan oneindig tweede moment hebben, maar het eerste moment wordt goed gecontroleerd. Inderdaad, door de monotone convergentiestelling, hebben we

\displaystyle {\Bbb E}| X_{N} / \to 0 \hbox{ as } n \to \infty. (7)

door de driehoek ongelijkheid, concluderen we dat de eerste term X_ {\leq N} verwachting dicht bij {\Bbb E} X:

\displaystyle {\Bbb E} X_ {\leq N} \ to {\Bbb E} (X) \hbox{ as } n \to \infty. (8)

dit zijn alle instrumenten die we nodig hebben om de zwakke wet van grote getallen te bewijzen:

bewijs van zwakke wet. Let  \ varepsilon 0. Het volstaat om aan te tonen dat wanneer n voldoende groot is afhankelijk van \varepsilon, dat \overline{X}_n = {\Bbb E} X + O(\varepsilon) met waarschijnlijkheid 1-O(\varepsilon).

van (7), (8), kunnen we een drempel N vinden (afhankelijk van \varepsilon) zodanig dat {\Bbb E} |X_{\geq N}| = O(\varepsilon^2) en {\Bbb E} X_{n} = {\Bbb E} X + O(\varepsilon). Nu gebruiken we (5) om te splitsen

\displaystyle \overline{X}_n =(\overline{X_{\geq N}})_n +(\overline{X_{ n}})_n.

vanaf het eerste moment staart gebonden (Lemma 1), weten we dat (\overline{X_{\geq N}}) _n = O(\varepsilon) met kans 1 - O(\varepsilon). Vanaf het tweede moment staart gebonden (Lemma 2) en (6), weten we dat (\overline{X_{ n}})_n = {\Bbb E} X_{N} + O(\varepsilon) = {\Bbb E} x + o(\varepsilon) met kans 1-o(\varepsilon) als n voldoende groot is afhankelijk van N en \varepsilon. De vordering volgt.  \ Box

— de sterke wet –

de sterke wet kan worden bewezen door de bovenstaande methoden een beetje verder te duwen en nog een paar trucs te gebruiken.

de eerste truc is om vast te stellen dat om de sterke wet te bewijzen, het volstaat om dit te doen voor niet-negatieve willekeurige variabelen X \geq 0. Dit volgt onmiddellijk uit het simpele feit dat elke willekeurige variabele X met eindig eerste moment kan worden uitgedrukt als het verschil van twee niet-negatieve willekeurige variabelen \max(X,0), \max(-X,0) van eindig eerste moment.

zodra X niet-negatief is, zien we dat de empirische gemiddelden \overline{X}_n niet te snel kunnen afnemen in n. In het bijzonder merken we op dat

\displaystyle \overline{X}_m \ leq (1+O (\varepsilon)) \overline{X}_n wanneer (1-\varepsilon) n \leq m \leq n. (9)

vanwege deze quasimonotoniciteit kunnen we de verzameling n sparsifyen waarvoor we de sterke wet moeten bewijzen. Meer precies, het volstaat om

sterke wet van grote getallen, gereduceerde versie te tonen. Laat X een niet-negatieve willekeurige variabele zijn met {\Bbb E} X \infty, en laat 1 \leq n_1\leq n_2\leq n_3\leq\ldots een reeks gehele getallen zijn die lacunair is in de zin dat n_{j+1}/n_j c voor sommige c1 en alle voldoende groot j. dan \overline{x}_{n_j} convergeert vrijwel zeker naar {\BBB e} x.

inderdaad, als we de gereduceerde versie konden bewijzen, dan bij het toepassen van die versie op de lacunaire reeks n_j := \lfloor (1 + \varepsilon)^j\rfloor en met behulp van (9) zouden we zien dat vrijwel zeker de empirische middelen \overline{X}_n niet meer dan een multiplicatieve fout van 1+O (\varepsilon) van het gemiddelde {\Bbb E} Xkunnen afwijken. Instelling \varepsilon: = 1/m voor m = 1,2,3,\ldots (en gebruik makend van het feit dat een aftelbaar snijpunt van bijna zeker gebeurtenissen bijna zeker blijft) verkrijgen we de volledige sterke wet.

nu we de sequentie hebben afgezwakt, wordt het economisch om het Borel-Cantelli lemma toe te passen. Inderdaad, door de vele toepassingen van dat lemma zien we dat het voldoende is om aan te tonen dat

\displaystyle \sum_{j=1}^\infty {\Bbb P}( \overline{X}_{n_j} \neq {\Bbb E}(X) + O( \varepsilon ) ) \infty (10)

voor niet-negatieve X van eindig eerste moment, een lacunary sequentie 1 \leq n_1 \leq n_2 \leq \ldots en een \varepsilon 0.

op dit punt gaan we terug en passen we de methoden toe die al werkten om de zwakke wet te geven. Namelijk, om elk van de staartwaarschijnlijkheden {\Bbb P}( \overline{X}_{n_j} \neq {\Bbb E}(X) + O(\varepsilon) ) in te schatten, voeren we een afkapping (5) uit op een bepaalde drempel N_j. Het is niet direct duidelijk welke verkorting moet worden uitgevoerd, dus nemen we de gebruikelijke strategie van het verlaten van N_j niet gespecificeerd voor nu en het optimaliseren in deze parameter later.

we moeten ten minste N_j groot genoeg kiezen zodat {\Bbb E} X_{ N_j} = {\Bbb E} X + O(\varepsilon). Vanaf de tweede staartschatting (Lemma 2) concluderen we dat (\overline{X_{ N_j}}})_{n_j} ook gelijk is aan {\Bbb E} X + O( \varepsilon ) met waarschijnlijkheid 1-O( \frac{1} {\varepsilon n_j} {\Bbb E} |X_{\leq N_j}|^2 ). Men zou kunnen proberen deze uitdrukking te vereenvoudigen met behulp van (6), maar dit blijkt een beetje verspillend te zijn, dus laten we daar voorlopig mee wachten. (6) suggereert echter sterk dat we N_j willen nemen als iets als n_j, wat de moeite waard is om in gedachten te houden in wat volgt.

nu bekijken we de bijdrage van X_{\geq N_j}. Zou men gebruik kunnen maken van het eerste moment staart schatting (Lemma 1), maar het blijkt dat het eerste moment {\Bbb E} X_{ N_j} vervalt ook langzaam in j aan van veel gebruik (herinner me dat we in verwachting zijn N_j als de lacunary sequentie n_j); de kern van het probleem hier is dat het verval (7) afkomstig van de monotone convergentie stelling niet effectief is (men zou kunnen effectivise dit met behulp van de eindige convergentie principe maar dit blijkt zeer slechte resultaten hier).

maar er is nog een laatste kaart om te spelen, namelijk de nulth moment method tail estimate (4). Zoals eerder vermeld, is deze binding in het algemeen belabberd – maar is zeer goed wanneer X meestal nul is, wat precies de situatie is met X_{N_j}. en in het bijzonder zien we dat (\overline{X_{N_j}}})_{n_j} nul is met kans 1 - O( n_j {\Bbb P} (X N_j) ).

bij elkaar opgeteld zien we dat

\displaystyle {\Bbb P} (\overline{X}_{n_j} \neq {\Bbb E} (X) + O (\varepsilon)) \leq o (\frac{1} {\varepsilon n_j} {\Bbb E} |x_ {\leq N_j}|^2 ) + O(n_j {\Bbb P} (X N_j) ).

hierover in j, zien we dat we zo snel als we erachter te komen hoe om te kiezen van N_j zodat

\displaystyle \sum_{j=1}^\infty \frac{1}{n_j} {\Bbb E} |X_{\leq N_j}|^2 (11)

en

\displaystyle \sum_{j=1}^\infty n_j {\Bbb P}(X N_j) (12)

zijn beide eindig is. (Zoals gewoonlijk hebben we een afweging: het groter maken van N_j maakt (12) gemakkelijker vast te stellen ten koste van (11), en vice versa bij het kleiner maken van N_j.)

gebaseerd op de discussie eerder, is het normaal om te proberen N_j := n_jin te stellen. Gelukkig is deze keuze werkt netjes; de lacunary aard van n_j zorgt voor een (in principe van de meetkundige reeks formule) dat hebben we puntsgewijs de schattingen

\displaystyle \sum_{j=1}^\infty \frac{1}{n_j} |X_{\leq n_j}|^2 = O( X )

en

\displaystyle \sum_{j=1}^\infty n_j I( X \geq n_j ) = O( X )

(waar de impliciete constante hangt wel af van de volgorde n_1, n_2, \ldots, en in het bijzonder op de lacunarity constante c). De beweringen (10), (11) volgen dan uit een laatste toepassing van lineariteit van verwachting, die de sterke wet van grote aantallen geeft.

Opmerking 1. Het bovenstaande bewijs toont in feite aan dat de sterke wet van grote aantallen geldt, zelfs als men slechts paarsgewijze onafhankelijkheid van de X_n veronderstelt, in plaats van gezamenlijke onafhankelijkheid.  \ diamond

Opmerking 2. Het is essentieel dat de willekeurige variabelen X_1, X_2,\ldots worden “gerecycled” van het ene empirische gemiddelde \overline{X}_n naar het volgende, om de cruciale quasimonotoniciteitseigenschap te verkrijgen (9). Als we in plaats daarvan volledig onafhankelijke gemiddelden namen \overline{X}_n = \ frac{1}{n} (X_{n,1} + \ldots + X_{n,n} ), waar de X_{i,j} allemaal iid zijn, dan breekt de sterke wet van grote getallen in feite af met slechts een eerste momentaanname. (Zie voor een tegenvoorbeeld een willekeurige variabele X die gelijk is aan 2^m / m^2 met waarschijnlijkheid 2^{- m} voor m = 1,2,3, \ ldots; deze willekeurige variabele (nauwelijks) heeft eindig eerste moment, maar voor n \ sim 2^m / m^2, zien we dat \overline{X}_n ten minste absolute constante afwijkt van zijn Gemiddelde met waarschijnlijkheid \gg 1/m^2. Aangezien de empirische middelen \overline{X}_n voor n \ sim 2^m / m^2 nu gezamenlijk onafhankelijk zijn, is de kans dat een van hen significant afwijkt nu zeer dicht bij 1 (super-exponentieel dichtbij in m, in feite), wat leidt tot het totale falen van de sterke wet in deze setting.) Natuurlijk, als men de aandacht beperkt tot een lacunaire volgorde van n dan gaat het bovenstaande bewijs door in het onafhankelijke geval (aangezien het Borel-Cantelli lemma ongevoelig is voor deze onafhankelijkheid). Door de gezamenlijke onafhankelijkheid verder uit te buiten (b.v. door gebruik te maken van Chernoff ‘ s ongelijkheid) kan men ook de sterke wet voor onafhankelijke empirische middelen krijgen voor de volledige reeks n onder de grenzen van het tweede moment.  \ diamond

opmerking 3. Vanuit het perspectief van de interpolatietheorie kan men het bovenstaande argument als een interpolatieargument beschouwen, waarbij een l^1 schatting (10) wordt vastgesteld door interpolatie tussen een l^2 schatting (Lemma 2) en de l^0 schatting (4).  \ diamond

Opmerking 4. Door de opeenvolging X_1,X_2,\ldots te zien als een stationaire proces, en dus als een speciaal geval van een maatbewarend systeem, kan men de zwakke en sterke wet van grote getallen zien als speciale gevallen van respectievelijk de gemiddelde en puntsgewijze ergodische stellingen (zie oefening 9 van 254a lezing 8 en Stelling 2 van 254A lezing 9).  \ diamond

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.

More: