the strong law of large numbers

La X være en reell verdi tilfeldig variabel, og la X_1, X_2, X_3, ... være en uendelig sekvens av uavhengige og identisk distribuerte kopier Av X. La\overline{X}_n := \frac{1}{n}(X_1 + \ldots + X_n) være empiriske gjennomsnitt av denne sekvensen. En grunnleggende teorem i sannsynlighetsteori er loven om store tall, som kommer i både svak og sterk form:

Svak lov av store tall. Anta at det første øyeblikket  {\Bbb E}|X / Av X er endelig. Så\overline{X}_n konvergerer i sannsynlighet til  {\Bbb E} X , dermed  \lim_{n \ til \ infty} {\Bbb P} (|\Overline{X}_n - {\Bbb E} X / \geq\varepsilon ) = 0 for hver  \ varepsilon 0.

Sterk lov av store tall. Anta at det første øyeblikket  {\Bbb E}|X / Av X er endelig. Deretter konvergerer\overline{X}_n nesten sikkert til {\Bbb E} X , dermed  {\Bbb P} (\lim_{n \til \infty} \overline{X}_n = {\Bbb E} X ) = 1.

(hvis man styrker det første øyeblikkets antagelse til det endelige av det andre øyeblikket {\Bbb E} / X / ^2 , så har vi selvfølgelig en mer presis uttalelse enn den (svake) loven av store tall, nemlig den sentrale grensesetningen, men jeg vil ikke diskutere den setningen her. Med enda flere hypoteser På X har man på samme måte mer presise versjoner av den sterke loven om store tall, som Chernoff-ulikheten, som jeg igjen ikke vil diskutere her.)

den svake loven er lett å bevise, men den sterke loven (som selvfølgelig innebærer den svake loven, Ved Egoroffs teorem) er mer subtil, og faktisk er beviset på denne loven (forutsatt bare finitet i første øyeblikk) vanligvis bare vises i avanserte graduate tekster. Så jeg tenkte jeg ville presentere et bevis her av begge lover, som fortsetter ved standard teknikker for øyeblikket metode og avkorting. Hovedvekten i denne utstillingen vil være på motivasjon og metoder i stedet for kortfattethet og styrke av resultater; det finnes bevis på den sterke loven i litteraturen som har blitt komprimert ned til størrelsen på en side eller mindre, men dette er ikke mitt mål her.

— moment —metoden –

moment-metoden søker å kontrollere halesannsynlighetene for en tilfeldig variabel (dvs. sannsynligheten for at den svinger langt fra gjennomsnittet) ved hjelp av øyeblikk, og spesielt null, første eller andre øyeblikk. Grunnen til at denne metoden er så effektiv er fordi de første øyeblikkene ofte kan beregnes ganske nøyaktig. Første øyeblikksmetoden bruker Vanligvis markovs ulikhet

\displaystyle {\Bbb P}( |x| \geq \lambda) \leq \ frac{1} {\lambda} {\Bbb E} / X| (1)

(som følger ved å ta forventninger til punktvis ulikhet  \lambda i (|X / \geq \lambda) \leq / X/ ), mens andre moment-metoden bruker en versjon Av Tsjebysjevs ulikhet, for eksempel

\displaystyle {\Bbb P}( |x| \geq \lambda) \leq \ frac{1} {\lambda^2} {\Bbb E} / X|^2 (2)

(merk at (2) bare er (1) brukt på den tilfeldige variabelen  / X / ^2 og til terskel  \lambda^2 ).

Generelt sett, for å beregne det første øyeblikket bruker man vanligvis linearitet av forventning

\displaystyle {\Bbb E} X_1 + \ ldots + X_n = {\Bbb E} X_1 + \ ldots + {\Bbb E} X_n,

mens for å beregne det andre øyeblikket må man også forstå kovarianser (som er spesielt enkle hvis man antar parvis uavhengighet), takket være identiteter som

\displaystyle {\Bbb E} (X_1 + \ldots + X_n)^2 = {\Bbb E} X_1^2 + \ldots + {\Bbb E} X_n^2 + 2 \ sum_{1 \ leq i j \ leq n} X_i x_j

eller den normaliserte varianten

 \ displaystyle {\bf Var} (X_1+ \ ldots + X_n) = {\bf Var} (X_1) + \ ldots + {\bf Var} (X_n)

\displaystyle + 2 \sum_{1 \ leq i j \ leq n} {\bf Cov} (X_i,X_j). (3)

Høyere momenter kan i prinsippet gi mer presis informasjon, men krever ofte sterkere forutsetninger om objektene som studeres, for eksempel felles uavhengighet.

her er en grunnleggende anvendelse av first moment-metoden:

Borel-Cantelli lemma. La E_1, E_2, E_3, \ldots være en sekvens av hendelser slik at \sum_{n=1}^ \ infty {\Bbb P} (E_n) er endelig. Så nesten sikkert, bare endelig mange av hendelsene E_n er sanne.

Bevis. La I (E_n) angi indikatorfunksjonen til hendelsen E_n. Vår oppgave er å vise at \sum_{n=1}^ \ infty I (E_n) er nesten sikkert endelig. Men ved linearitet av forventning er forventningen til denne tilfeldige variabelen  \sum_{n=1}^ \ infty {\Bbb P} (E_n), som er begrenset av hypotesen. Ved Markovs ulikhet (1) konkluderer vi det

\displaystyle {\Bbb P} (\sum_{n=1} ^ \ infty I (E_n) \ geq \ lambda) \ leq \frac{1} {\lambda} \ sum_{n=1}^ \ infty {\Bbb P} (E_n).

La  \lambda \til \ infty vi får kravet.  \ Box

Tilbake til loven om store tall, gir første øyeblikk metoden følgende hale bundet:

Lemma 1. (Første øyeblikk hale bundet) Hvis {\Bbb E} / X/ er endelig, da

\displaystyle {\Bbb P} (|\overline{X} _n|\geq \lambda) \leq\frac {{\Bbb E}|X/} {\lambda}.

Bevis. Ved trekanten ulikhet, |\overline{X}_n| \leq \overline{|X|}_n. Ved linearitet av forventning er forventningen til  \overline {/X/} _n  {\Bbb E} / X/ . Påstanden følger nå Av markovs ulikhet.  \ Box

Lemma 1 er ikke sterk nok i seg selv til å bevise loven om store tall i enten svak eller sterk form – spesielt viser den ingen forbedring ettersom n blir stor-men det vil være nyttig å håndtere en av feilbetingelsene i disse bevisene.

vi kan få sterkere grenser enn Lemma 1-spesielt grenser som forbedrer med n-på bekostning av sterkere forutsetninger På X.

Lemma 2. (Andre øyeblikk hale bundet) Hvis {\Bbb E} / X / ^2 er endelig, så

\displaystyle {\Bbb P} (|\overline{X}_n - {\Bbb E} (x)|\geq \lambda) \leq\frac {{\Bbb E}|X - {\Bbb E} (x) / ^2 }{n \ lambda^2} .

Bevis. En standardberegning, som utnytter (3) og parvis uavhengighet av X_i, viser at variansen {\Bbb E} |\overline{X}_n - {\Bbb E}(X)|^2 av empiriske gjennomsnitt \overline{X}_n er lik \frac{1}{n} ganger variansen {\bbb e} |x - {\bbb e}(x)|^2 av den opprinnelige variabelen x. Kravet følger Nå av tsjebysjevs Ulikhet (2).  \ Box

i motsatt retning er det zeroth moment-metoden, mer kjent som union bound

\displaystyle {\Bbb P} (E_1 \ vee \ ldots \ vee E_n) \ leq \ sum_{j=1}^n {\Bbb P}(E_j)

eller tilsvarende (for å forklare terminologien «zeroth moment»)

\displaystyle {\Bbb E} (X_1 + \ ldots + X_n)^0 \leq {\Bbb E} X_1^0 + \ldots + X_n^0

for ikke-negative tilfeldige variabler  X_1,\ldots, X_n \ geq 0. Ved å bruke dette på empiriske midler, får vi nullmomentets haleestimat

{\Bbb P} (\overline{X}_n \neq 0) \leq n {\Bbb P} (X \ neq 0). (4)

Akkurat som det andre øyeblikket bundet (Lemma 2) er bare nyttig når man har god kontroll på Det Andre øyeblikket (eller variansen) Av X, er zeroth moment tail estimate (3) bare nyttig når Vi har god kontroll på zeroth moment {\Bbb E} |X|^0 = {\Bbb P}(X \neq 0), dvs.Når X er stort sett null.

det andre moment tail bound (Lemma 2) gir allerede den svake loven om store tall i tilfelle Når X har endelig sekundmoment (eller ekvivalent, endelig varians). Generelt, hvis Alt man vet Om X er At Det har endelig første øyeblikk, så kan Vi ikke konkludere Med At X har endelig andre øyeblikk. Vi kan imidlertid utføre en avkorting

\displaystyle X = x_ {\leq N} + X_{N} (5)

av X ved ønsket terskel N, hvor X_{\leq N} := X i(|X| \leq N) Og X_{N}: = X i (|X / N). Den første termen  X_{\leq N} har endelig andre øyeblikk; faktisk har vi klart

\displaystyle {\Bbb E} / X_ {\leq N} / ^2 \ leq N {\Bbb E} / X|

og derfor har vi også endelig varians

\displaystyle {\Bbb E} / X_ {\leq N} - {\Bbb E} X_{\leq N} / ^2 \ leq N {\Bbb E} / x / . (6)

den andre termen  X_{N} kan ha uendelig andre øyeblikk, men dets første øyeblikk er godt kontrollert. Faktisk, ved monotone konvergensteoremet, har vi

\displaystyle {\Bbb E}| X_{N} / \til 0 \hbox{ som } N \til \infty. (7)

ved triangle inequality konkluderer vi at den første termen X_{\leq N} har forventning nær  {\Bbb E} X:

\displaystyle {\Bbb E} X_ {\leq N} \ til {\Bbb E} (X) \hbox{ as } n \ til \ infty . (8)

Dette er alle verktøyene vi trenger for å bevise den svake loven av store tall:

Bevis på svak lov. La \varepsilon 0. Det er nok å vise at når n er tilstrekkelig stor avhengig av \varepsilon, at \overline{X}_n = {\Bbb E} X + O(\varepsilon) med sannsynlighet  1-o (\varepsilon) .

fra (7), (8) kan vi finne en terskel N (avhengig av \varepsilon) slik at  {\Bbb E}| X_{\geq N} / = O(\varepsilon^2) og {\Bbb E} X_{N} = {\Bbb E} X + o (\varepsilon). Nå bruker vi (5) til å dele

\displaystyle \overline{x}_n = (\overline{X_{\geq N}})_n +(\overline{x_{ N}})_n.

fra første øyeblikk hale bundet (Lemma 1), vet vi at  (\overline{X_{\geq N}})_n = o(\varepsilon)med sannsynlighet  1 - o(\varepsilon). Fra det andre øyeblikket hale bundet (Lemma 2) og (6), vet vi at (\overline{X_{ N}})_n = {\Bbb E} X_{N} + O(\Varepsilon) = {\Bbb E} X + o(\varepsilon) med sannsynlighet 1-o(\varepsilon) hvis n er tilstrekkelig stor avhengig Av N og \varesilon. Påstanden følger. \Boks

— den sterke loven –

den sterke loven kan bevises ved å skyve metodene ovenfor litt lenger, og bruke noen flere triks.

det første trikset er å observere at for å bevise den sterke loven, er det nok å gjøre det for ikke-negative tilfeldige variabler  X \ geq 0 . Faktisk følger dette umiddelbart fra det enkle faktum at enhver tilfeldig variabel X med endelig første øyeblikk kan uttrykkes som forskjellen på to ikke-negative tilfeldige variabler \max (X, 0), \max(-X, 0) av endelig første øyeblikk.

Når X Ikke er negativ, ser Vi at det empiriske gjennomsnittet  \overline{X}_n ikke kan reduseres for raskt i n. Spesielt observerer vi at

\displaystyle \ overline{X}_m \ leq (1+O (\varepsilon)) \overline{x}_n når (1-\varepsilon) n \ leq m \ leq n . (9)

på grunn av denne kvasimonotoniciteten kan vi sparsify settet av n som vi trenger for å bevise den sterke loven. Mer presist er det nok å vise

Sterk lov med store tall, redusert versjon. La X være en ikke-negativ tilfeldig variabel med {\Bbb E} x \infty, og la 1 \leq n_1\leq n_2\leq n_3\leq\ldots være en sekvens av heltall som er lakunære i den forstand at n_{j+1}/n_j c for noen c1 og alle tilstrekkelig store j. deretter \overline{X}_{N_j} konvergerer nesten sikkert til {\bbb e} x.

Faktisk, Hvis vi kunne bevise den reduserte versjonen, så på å bruke den versjonen til lacunary sekvensen n_j := \lfloor (1 + \varepsilon)^j\rfloor og ved å bruke (9) ville vi se at nesten helt sikkert de empiriske midlene \overline{X}_n ikke kan avvike med mer enn en multiplikativ feil på  1 + O (\varepsilon) fra gjennomsnittet  {\Bbb E} X . Innstilling \varepsilon: = 1/m for  m=1,2,3,\ldots (og ved å bruke det faktum at et tellbart kryss av nesten sikre hendelser forblir nesten sikker) får vi full sterk lov.

Nå som vi har sparsified sekvensen, blir det økonomisk å bruke Borel-Cantelli lemma. Faktisk, ved mange applikasjoner av det lemma ser vi at det er nok å vise det

\displaystyle \ sum_{j=1} ^ \ infty {\Bbb P}( \overline{X}_{n_j} \neq {\Bbb E}(X) + O( \varepsilon)) \ infty (10)

for ikke-negativ X av endelig første øyeblikk, noen lacunary sekvens  1 \leq n_1 \ leq n_2 \ leq \ldots og noen \varepsilon 0.

På dette punktet går vi tilbake og bruker metodene som allerede jobbet for å gi den svake loven. Nemlig, for å estimere hver av halesannsynlighetene {\Bbb P}( \overline{X}_{n_j} \neq {\Bbb E}(X) + O(\varepsilon) ), utfører vi en avkorting (5) ved en viss terskel N_j. Det er ikke umiddelbart åpenbart hvilken avkorting som skal utføres, så vi vedtar den vanlige strategien for å forlate N_j uspesifisert for nå og optimalisere i denne parameteren senere.

Vi bør i det minste velge N_j stort nok til at {\Bbb E} X_{ N_j} = {\Bbb E} X + O (\varepsilon). Fra det andre øyeblikket hale estimat (Lemma 2) konkluderer vi at (\overline{X_{ N_j}})_{n_j} er også lik {\Bbb E} X + O( \varepsilon ) med sannsynlighet 1-O( \frac{1}{\varepsilon n_j} {\Bbb E} |X_{\leq N_j}|^2 ). Man kan forsøke å forenkle dette uttrykket ved å bruke (6), men dette viser seg å være litt sløsing, så la oss holde fast på det for nå. Men (6) foreslår sterkt at vi vil ta N_j for å være noe som n_j, noe som er verdt å huske på i det som følger.

nå ser Vi på bidraget til  X_ {\geq N_j} . Man kan bruke first moment tail estimate (Lemma 1), men det viser seg at det første øyeblikket {\Bbb E} X_{ N_j} henfaller for sakte i j for å være til stor nytte (husk at vi forventer N_j å være som lakunærsekvensen n_j); rotproblemet her er at forfallet (7) som kommer fra monotone konvergensteoremet er ineffektivt (man kan effektivisere dette ved hjelp av det endelige konvergensprinsippet, men dette viser seg å være for å gi svært dårlige resultater her).

Men det er ett siste kort å spille, som er zeroth moment method tail estimate (4). Som nevnt tidligere er denne bundet elendig generelt – men er veldig bra Når X er stort sett null, noe som nettopp er situasjonen med X_{N_j} . og spesielt ser vi at  (\overline{X_{N_j}})_{n_j} er null med sannsynlighet  1-O(n_j {\Bbb P} (X N_j) ).

å Sette alt dette sammen, ser vi at

\displaystyle {\Bbb S}( \overline{X}_{n_j} \neq {\Bbb E}(X) + O( \varepsilon ) ) \leq O( \frac{1}{\varepsilon n_j} {\Bbb E} |X_{\leq N_j}|^2 ) + O( n_j {\Bbb S}(X N_j) ).

Oppsummering av dette i j, ser vi at vi vil bli gjort så snart vi finner ut hvordan vi velger N_j slik at

\displaystyle \ sum_{j=1} ^ \ infty \ frac{1}{n_j} {\Bbb E} / X_ {\leq N_j}|^2 (11)

og

\displaystyle \ sum_{j=1} ^ \ infty n_j {\Bbb P} (X N_j) (12)

begge er endelige. (Som vanlig har vi en bytte: å gjøre N_j større gjør (12) lettere å etablere på bekostning av (11), og omvendt når du gjør N_j mindre.)

basert på tidligere diskusjon er det naturlig å prøve å sette N_j: = n_j . Heldigvis fungerer dette valget rent; den lakunære naturen til n_j sikrer (i utgangspunktet fra den geometriske serieformelen) at vi har punktvis estimater

\displaystyle \ sum_{j=1} ^ \ infty \ frac{1}{n_j} / X_ {\leq n_j} / ^2 = O (X )

og

\displaystyle \ sum_{j=1}^ \ infty n_j I( x \geq n_j) = O (X )

(hvor den underforståtte konstanten her avhenger av sekvensen  n_1, n_2, \ldots , og spesielt på lacunaritetskonstanten c). Påstandene (10), (11) følger deretter fra en siste anvendelse av linearitet av forventning, og gir den sterke loven om store tall.

Bemerkning 1. Ovennevnte bevis viser faktisk at den sterke loven om store tall holder selv om man bare antar parvis uavhengighet av X_n, i stedet for felles uavhengighet. \diamant

Bemerkning 2. Det er viktig at de tilfeldige variablene  X_1, X_2, \ ldots blir «resirkulert» fra ett empirisk gjennomsnitt  \overline{X}_n til neste, for å få den avgjørende kvasimonotonicitetsegenskapen (9). Hvis vi i stedet tok helt uavhengige gjennomsnitt  \overline{X}_n = \frac{1}{n} (X_{n,1} + \ldots + X_{n,n}) , hvor  X_{i, j} er alle iid, bryter den sterke loven om store tall faktisk ned med bare et første øyeblikks antagelse. (For en moteksempel, vurder en tilfeldig variabel X som er lik 2^m / m^2 med sannsynlighet 2^{-m} for  m=1,2,3,\ldots; denne tilfeldige variabelen (knapt) har endelig første øyeblikk, men for n \sim 2^m/m^2 ser vi at \overline{X}_n avviker med minst absolutt konstant fra gjennomsnittet med sannsynlighet \gg 1/m^2. Siden empiriske midler  \overline{X}_n for  n \sim 2^m / m^2 nå er felles uavhengige, er sannsynligheten for at en av dem avviker betydelig, nå ekstremt nær 1 (super-eksponentielt nær i m, faktisk), noe som fører til den totale feilen i den sterke loven i denne innstillingen.) Selvfølgelig, hvis man begrenser oppmerksomheten til en lakunær sekvens av n, går ovennevnte bevis gjennom i det uavhengige tilfellet (Siden Borel-Cantelli lemma er ufølsom for denne uavhengigheten). Ved å utnytte den felles uavhengigheten ytterligere (f.eks. ved å bruke Chernoffs ulikhet) kan man også få den sterke loven for uavhengige empiriske midler for full sekvens n under andre øyeblikksgrenser. \diamant

Bemerkning 3. Fra interpolasjonsteoriens perspektiv kan man se argumentet ovenfor som et interpoleringsargument, og etablere et l^1 estimat (10) ved å interpolere mellom et l^2 estimat (Lemma 2) og l^0 estimat (4). \diamant

Bemerkning 4. Ved å se sekvensen X_1,X_2,\ldots som en stasjonær prosess, og dermed som et spesielt tilfelle av et målbevarende system, kan man se den svake og sterke loven av store tall som spesielle tilfeller av henholdsvis middel-og punktvis ergodiske teoremer (se Øvelse 9 fra 254a Forelesning 8 og Teorem 2 fra 254a Forelesning 9). \diamant

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.

More: