den stærke lov af store tal

lad være en reel værdi tilfældig variabel, og lad 1, 2, 3,...være en uendelig sekvens af uafhængige og identisk distribuerede kopier af H. lad\overline{h}_n := \frac{1}{n}(H_1 + \ldots + H_n) være de empiriske gennemsnit af denne sekvens. En grundlæggende sætning i sandsynlighedsteori er loven om store tal, som kommer i både en svag og en stærk form:

svag lov af stort antal. Antag, at det første øjeblik {\Bbb E} |H| af H er endeligt. Derefter \overline {{} _nkonvergerer i Sandsynlighed til {\Bbb E}, således \lim_ {n \til \infty} {\Bbb P}( |\overline {{} _n - {\Bbb E}<| \GBB E} <0 for hver \varepsilon 0 .

stærk lov af stort antal. Antag, at det første øjeblik {\Bbb E} |H| af H er endeligt. Så \overline{h}_n konvergerer næsten sikkert til {\Bbb E}, således {\Bbb P}( \lim_{n \til \infty} \overline{h}_n = {\Bbb E} H ) = 1.

(hvis man styrker det første øjebliks antagelse til det andet øjebliks endelighed  {\Bbb E} / H / ^2, så har vi selvfølgelig en mere præcis erklæring end den (svage) lov om store tal, nemlig den centrale grænse sætning, men jeg vil ikke diskutere denne sætning her. Med endnu flere hypoteser om H har man ligeledes mere præcise versioner af den stærke lov i stort antal, såsom Chernoff-uligheden, som jeg igen ikke vil diskutere her.)

den svage lov er let at bevise, men den stærke lov (som naturligvis indebærer den svage lov ved Egoroffs sætning) er mere subtil, og faktisk vises beviset for denne lov (forudsat bare finitet i det første øjeblik) normalt kun i avancerede kandidattekster. Så jeg troede, jeg ville præsentere et bevis her for begge love, som fortsætter med moment-metodens standardteknikker og trunkering. Vægten i denne redegørelse vil være på motivation og metoder snarere end kortfattethed og styrke af resultater; der findes beviser for den stærke lov i litteraturen, der er komprimeret ned til størrelsen på en side eller mindre, men dette er ikke mit mål her.

— moment —metoden –

moment-metoden søger at kontrollere halesandsynlighederne for en tilfældig variabel (dvs.sandsynligheden for, at den svinger langt fra dens gennemsnit) ved hjælp af øjeblikke, og især nul, første eller andet øjeblik. Årsagen til, at denne metode er så effektiv, er, at de første få øjeblikke ofte kan beregnes ret præcist. Det første øjeblik metode, der normalt beskæftiger Markov ‘ s ulighed

\displaystyle {\Bbb P}( |X| \geq \lambda ) \leq \frac{1}{\lambda} {\Bbb E} |X| (1)

(der følger ved at tage forventninger pointwise ulighed \lambda jeg(|X| \geq \lambda) \leq |X|), der henviser til, at det andet øjeblik metode, der anvender en version af Chebyshev ‘ s ulighed, som

\displaystyle {\Bbb P}( |X| \geq \lambda ) \leq \frac{1}{\lambda^2} {\Bbb E} |X|^2 (2)

(bemærk, at (2) er lige (1) anvendes til den tilfældige variabel |X|^2 og til tærskel  \ lambda^2).

generelt set for at beregne det første øjeblik anvender man normalt linearitet af forventning

\displaystyle {\Bbb E} s_1 + \ ldots + S_n = {\Bbb E} s_1 + \ ldots + {\Bbb E} S_n,

for at beregne det andet øjeblik skal man også forstå kovariancer (som er særligt enkle, hvis man antager parvis uafhængighed) takket være identiteter som

\displaystyle {\Bbb E} (H_1 + \ldots + H_n)^2 = {\Bbb E} H_1^2 + \ ldots + {\Bbb E} H_n^2 + 2 \ sum_{1 \ LEKS i J \ LEKS n} H_j

eller den normaliserede variant

 \ displaystyle {\bf Var} (H_1+\ldots+H_n) = {\bf Var} (H_1) + \ ldots + {\bf Var}(H_n)

\displaystyle + 2 \ sum_{1 \ LEKS i j\ LEKS n} {\bf Cov} (K_i,K_j). (3)

højere øjeblikke kan i princippet give mere præcise oplysninger, men kræver ofte stærkere antagelser om de objekter, der studeres, såsom fælles uafhængighed.

her er en grundlæggende anvendelse af first moment-metoden:

Borel-Cantelli lemma. Lad  E_1, E_2, E_3, \ldotsvære en sekvens af begivenheder, således at \sum_{n=1}^\infty {\Bbb P}(E_n) er endelig. Så næsten sikkert, kun endeligt mange af begivenhederne E_n er sande.

bevis. Lad  I(E_n)betegne indikatorfunktionen for begivenheden E_n. Vores opgave er at vise, at \sum_{n=1}^\infty I(E_n) næsten helt sikkert er endelig. Men ved linearitet af forventning er forventningen om denne tilfældige variabel \sum_{n=1}^\infty {\Bbb P}(E_n), som er begrænset af hypotese. Ved Markovs ulighed (1) konkluderer vi, at

\displaystyle {\Bbb P} (\sum_{n=1}^\infty I(E_n) \ge \lambda ) \LEKS \frac{1}{\lambda} \sum_{n=1}^\infty {\Bbb P}(E_n).

udlejning  \lambda \til \ infty vi får kravet.  \boks

vender tilbage til loven om store tal, det første øjeblik metode giver følgende hale bundet:

Lemma 1. (Første øjeblik hale bundet) hvis  {\Bbb E}|H / er endelig, så

\displaystyle {\Bbb P} (|\overline {\} _n|\ge \lambda)\LEKS\frac {{\Bbb E}|} {\lambda}.

bevis. Ved trekanten ulighed, | \overline {} _n|\LEKS \ overline {|h/} _n. Ved linearitet af forventning er forventningen om \overline{|h|}_n{\Bbb E}|H|. Påstanden følger nu af Markovs ulighed.  \ boks

Lemma 1 er ikke stærk nok i sig selv til at bevise loven om store tal i enten svag eller stærk form – især viser den ingen forbedring, da n bliver stor – men det vil være nyttigt at håndtere et af fejlbetingelserne i disse beviser.

vi kan få stærkere grænser end Lemma 1 – især grænser, der forbedres med n – på bekostning af stærkere antagelser om

Lemma 2. (Andet øjeblik hale bundet) hvis  {\Bbb E} / H / ^2 er endelig, så

\displaystyle {\Bbb P} (/\overline {\BBB E} _n - {\Bbb E} (S)| \GBB \lambda) \ Lek \frac { {\Bbb E} / S - {\Bbb E} (S) / ^2 }{n \lambda^2}.

bevis. En standardberegning, der udnytter (3) og den parvise uafhængighed af X_i, viser, at variansen {\Bbb E} |\overline {} _n - {\Bbb E}(H)|^2 af de empiriske gennemsnit \overline{h}_n er lig med \frac{1}{n} gange variansen {\BBB e} |s - {\BBB E}(H)|^2 af den oprindelige variabel H. kravet følger nu af chebyshevs ulighed (2).  \boks

i modsat retning er der nulmomentmetoden, mere almindeligt kendt som union bundet

\displaystyle {\Bbb P} (E_1 \ vee \ ldots \vee E_n ) \ LEKS \ sum_{j=1}^n {\Bbb P}(E_j)

eller tilsvarende (for at forklare terminologien “nul øjeblik”)

\displaystyle {\Bbb E} (H_1 + \ldots + H_n)^0 \ LEKS {\Bbb E} H_1^0 + \ ldots + H_n^0

for alle ikke-negative tilfældige variabler  < 1, \ ldots, 0. Anvendelse af dette på de empiriske midler, vi opnår nul øjeblik hale estimat

{\Bbb P} (\overline{N}_n \NK 0) \LEKS n {\Bbb P} (0). (4)

ligesom det andet øjeblik bundet (Lemma 2) kun er nyttigt, når man har god kontrol på det andet øjeblik (eller varians) af H, er nulmomentets halestimat (3) kun nyttigt, når vi har god kontrol på nulmomentet {\Bbb E} |H|^0 = {\Bbb P}(H \nek 0), dvs.når H er for det meste nul.

— trunkering —

det andet øjeblik hale bundet (Lemma 2) giver allerede den svage lov af store tal i tilfælde, hvor H har et endeligt andet øjeblik (eller ækvivalent, endelig varians). Generelt, hvis alt hvad man ved om K er, at det har et endeligt første øjeblik, så kan vi ikke konkludere, at K har et endeligt andet øjeblik. Vi kan dog udføre en afkortning

\ * * * * * * * * * * * } (5)

på en hvilken som helst ønsket tærskel N, hvor <{\lekv N} := K I(|K| \lekv N) ogK_{N} := K I(|k| N) . Den første periode  har endelig andet øjeblik; vi har helt klart

\{\Bbb E} / s_ {\lk N} / ^2 \ lk N {\Bbb E} / S|

og derfor har vi også endelig varians

\displaystyle {\Bbb E} / s_ {\Bbb N} - {\Bbb E} S_ {\lekv N} |^2 \lekv N {\Bbb E}|S / . (6)

det andet udtryk {N} kan have uendeligt andet øjeblik, men dets første øjeblik er godt kontrolleret. Faktisk ved monotone konvergens sætning, Vi har

\displaystyle {\Bbb E} / {N} / \ til 0 \ hboks{ as } N \til \ infty. (7)

ved trekanten ulighed konkluderer vi, at det første udtryk  har forventning tæt på  {\Bbb E} :

\displaystyle {\Bbb E} {\LEKS N} \ til {\Bbb E} (H) \hboks{ som } N \til \ infty. (8)

dette er alle de værktøjer, vi har brug for for at bevise den svage lov i stort antal:

bevis for svag lov. Lad  \ varepsilon 0. Det er tilstrækkeligt at vise, at når n er tilstrækkelig stor afhængigt af \varepsilon, at  \overline {} _n = {\Bbb E} + O (\varepsilon)med Sandsynlighed 1-o (\varepsilon).

fra (7), (8), kan vi finde en tærskel N (afhængig af \varepsilon) sådan at {\Bbb E} |{\gek N}| = O(\varepsilon^2) og {\Bbb E} {N} = {\Bbb E} H + o(\varepsilon). Nu bruger vi (5) til at opdele

\displaystyle \overline {} _n = (\overline {{\GF N}})_n +(\overline {{N}}) _n.

fra det første øjeblik halebundet (Lemma 1)ved vi, at (\overline {{\gek N}}) _n = O(\varepsilon) med Sandsynlighed 1 - o(\varepsilon). Fra det andet øjeblik halebundet (Lemma 2) og (6) ved vi, at (\overline{H_{ N}})_n = {\Bbb E} H_{N} + O(\varepsilon) = {\Bbb E} H + O(\varepsilon) med Sandsynlighed 1-O(\varepsilon) hvis n er tilstrækkelig stor afhængigt af N og \varepsilon. Påstanden følger. \boks

— den stærke lov-

den stærke lov kan bevises ved at skubbe ovenstående metoder lidt længere og bruge et par flere tricks.

det første trick er at observere, at for at bevise den stærke lov er det tilstrækkeligt at gøre det for ikke-negative tilfældige variabler0 . Faktisk følger dette straks af den enkle kendsgerning,at enhver tilfældig variabel med endeligt første øjeblik kan udtrykkes som forskellen mellem to ikke-negative tilfældige variabler \maks(0), \maks(-H,0) af endeligt første øjeblik.

når det er ikke-negativt, ser vi, at de empiriske gennemsnit \overline {<} _n ikke kan falde for hurtigt i n. Vi bemærker især, at

\displaystyle \overline(1 + O (\varepsilon))\overline { hver gang (1-\varepsilon) n \LEKS m \ LEKS n. (9)

på grund af denne kvasimonotonicitet kan vi sparsificere det sæt n, som vi har brug for for at bevise den stærke lov. Mere præcist er det tilstrækkeligt at vise

stærk lov med stort antal, reduceret version. Lad X være en ikke-negativ tilfældig variabel med {\Bbb E}<infty , og lad1 \LEKS n_1 \LEKS n_2\LEKS n_3\LEKS\ldots være en sekvens af heltal, der er lakunær i den forstand, atn_{j+1}/n_j c for noglec1 og alle tilstrækkeligt store j. derefter\overline {{N_j} konvergerer næsten sikkert til{\BBB e} .

faktisk, hvis vi kunne bevise den reducerede version, så ved at anvende den version til den lacunære sekvens  n_j := \ lfloor (1+\varepsilon)^j\rfloor og ved hjælp af (9) ville vi se, at næsten sikkert det empiriske middel \overline{h}_n ikke kan afvige med mere end en multiplikativ fejl på 1 + o (\varepsilon) fra gennemsnittet {\Bbb E} H. Indstilling \varepsilon := 1/m for m=1,2,3,\ldots (og ved hjælp af det faktum, at et tælleligt kryds af næsten sikre begivenheder forbliver næsten sikkert) opnår vi den fulde stærke lov.

nu hvor vi har sparsificeret sekvensen, bliver det økonomisk at anvende Borel-Cantelli lemma. Faktisk ser vi ved mange anvendelser af denne lemma, at det er tilstrækkeligt at vise det

\displaystyle \ sum_{j=1}^ \ infty {\Bbb P}( \overline {{n_j} \nek {\Bbb E} (H) + O( \varepsilon)) \ infty (10)

for ikke-negative træk ved det endelige første øjeblik, enhver lakunær sekvens  1 \lekv n_1 \lekv n_2 \lekv\ldotsog enhver  \ varepsilon 0.

på dette tidspunkt går vi tilbage og anvender de metoder, der allerede har arbejdet for at give den svage lov. For at estimere hver af halesandsynlighederne  {\Bbb P} (\overline{h}_{n_j} \nek {\Bbb E} (H) + O (\varepsilon) ) udfører vi en trunkering (5) ved en tærskel N_j. Det er ikke umiddelbart indlysende, hvilken trunkering der skal udføres, så vi vedtager den sædvanlige strategi for at forlade N_j uspecificeret for nu og optimere i denne parameter senere.

vi skal i det mindste vælgeN_jstort nok, så {\Bbb E} {N_j} = {\Bbb E} + O(\varepsilon) . Fra det andet øjebliks halestimat (Lemma 2) konkluderer vi, at (\overline{H_{ N_j}})_{n_j} også er lig med {\Bbb E} H + O( \varepsilon ) med Sandsynlighed 1-O( \frac{1}{\varepsilon n_j} {\Bbb E} |H_{\lekv N_j}|^2 ). Man kunne forsøge at forenkle dette udtryk ved hjælp af (6), men det viser sig at være lidt spildt, så lad os holde ud med det for nu. (6) foreslår dog stærkt, at vi vil tage N_j for at være noget som n_j, hvilket er værd at huske på i det følgende.

nu ser vi på bidraget fra . Man kunne bruge det første øjebliks halestimat (Lemma 1), men det viser sig, at det første øjeblik {N_j} henfalder for langsomt i j til at være til stor nytte (husk, at vi forventer N_j at være som den lakunære sekvens n_j); rodproblemet her er, at forfaldet (7), der kommer fra monotone konvergenssætning, er ineffektivt (man kunne effektivisere dette ved hjælp af det endelige konvergensprincip, men dette viser sig at give meget dårlige resultater her).

men der er et sidste kort at spille, hvilket er nul øjebliksmetoden hale estimat (4). Som tidligere nævnt er denne grænse elendig generelt-men er meget god, når den for det meste er nul, hvilket netop er situationen med {N_j}. og især ser vi, at  (\overline {{N_j}})_{n_j}er nul med Sandsynlighed 1 - O(n_j {\Bbb P} (N_j) ).

at Sætte det hele sammen, ser vi, at

\displaystyle {\Bbb P}( \overlinier{X}_{n_j} \neq {\Bbb E}(X) + O( \varepsilon ) ) \leq O( \frac{1}{\varepsilon n_j} {\Bbb E} |X_{\leq N_j}|^2 ) + O( n_j {\Bbb P}(X N_j) ).

opsummering af dette i j, vi ser, at vi vil blive gjort, så snart vi finder ud af, hvordan vi vælger N_j så det

\displaystyle \ sum_{j=1}^ \ infty \frac{1}{n_j} {\Bbb E} / S_ {\LEKS N_j}|^2 (11)

og

\displaystyle \ sum_{j=1}^ \ infty n_j {\Bbb P} (N_j) (12)

er begge endelige. (Som sædvanligt har vi en afvejning: at gøre N_j større mærker (12) lettere at etablere på bekostning af (11), og omvendt, når du gør N_j mindre.)

baseret på diskussionen tidligere er det naturligt at prøve at indstille N_j := n_j. Heldigvis fungerer dette valg rent; den lakunære karakter af n_j sikrer (dybest set fra den geometriske serieformel) , at vi har de punktvise estimater

\displaystyle \ sum_{j=1}^ \ infty \frac{1}{n_j} / s_ {\LEKS n_j} / ^2 = O( S )

og

\displaystyle \ sum_{j=1}^ \ infty n_j I (s \GK n_j ) = O( S )

(hvor den underforståede konstant her afhænger af sekvensen  n_1, n_2, \ldots, og især på lacunaritetskonstanten c). Påstandene (10), (11) følger derefter af en sidste anvendelse af forventningens linearitet, hvilket giver den stærke lov i stort antal.

bemærkning 1. Ovenstående bevis viser faktisk, at den stærke lov om stort antal gælder, selvom man kun antager parvis uafhængighed af X_n snarere end fælles uafhængighed. \diamond

bemærkning 2. Det er vigtigt, at de tilfældige variabler  H_1, H_2, \ ldots “genbruges” fra et empirisk gennemsnit \overline{h}_n til det næste for at få den afgørende kvasimonotonicitetsegenskab (9). Hvis vi i stedet tog helt uafhængige gennemsnit  \ overline{h}_n = \ frac{1}{n} (H_{n,1} + \ldots + H_{n,n} ), hvor H_{i,j} er alle iid, så bryder den stærke lov om store tal faktisk ned med et første øjebliks antagelse. (For et modeksempel skal du overveje en tilfældig variabel, der er lig med  2^m / m^2 med Sandsynlighed  2^{- m} for  m=1,2,3, \ ldots; denne tilfældige variabel (knap) har endeligt første øjeblik, men for n \sim 2^m/m^2 ser vi, at \overline{h}_n afviger med mindst absolut konstant fra dets gennemsnit med Sandsynlighed \gg 1/m^2. Da de empiriske midler  \overlinefor  n \ sim 2^m/m^2 nu er fælles uafhængige, er sandsynligheden for, at en af dem afviger betydeligt, nu ekstremt tæt på 1 (supereksponentielt tæt på m, faktisk), hvilket fører til den totale fiasko af den stærke lov i denne indstilling.) Selvfølgelig, hvis man begrænser opmærksomheden på en lacunær sekvens af n, går ovenstående bevis igennem i det uafhængige tilfælde (da Borel-Cantelli lemma er ufølsom over for denne uafhængighed). Ved at bruge Chernoffs ulighed) kan man også få den stærke lov for uafhængige empiriske midler til den fulde sekvens n under andet øjebliks grænser.  \ diamond

bemærkning 3. Fra interpolationsteoriens perspektiv kan man se ovenstående argument som et interpolationsargument, der etablerer et L^1 skøn (10) ved at interpolere mellem et L^2 skøn (Lemma 2) og L^0 skøn (4).  \ diamond

bemærkning 4. Ved at se sekvensen  H_1, H_2, \ ldots som en stationær proces og dermed som et specielt tilfælde af et målebevarende system kan man se den svage og stærke lov i stort antal som særlige tilfælde af henholdsvis middel-og punktvis ergodiske sætninger (Se øvelse 9 fra 254a forelæsning 8 og sætning 2 fra 254a forelæsning 9).  \ diamant

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.

More: