legea puternică a numerelor mari

fie X o variabilă aleatoare reală și fie X_1, X_2, X_3,... să fie o secvență infinită de copii independente și distribuite identic ale lui X. fie\overline{X}_n := \frac{1}{n}(X_1 + \ldots + X_n) mediile empirice ale acestei secvențe. O teoremă fundamentală în teoria probabilităților este legea numerelor mari, care vine atât într-o formă slabă, cât și într-o formă puternică:

Legea slabă a numărului mare. Să presupunem că primul moment  {\Bbb E} / X / al lui X este finit. Apoi \overline{x}_nconverge în probabilitate la {\Bbb E} X, astfel \lim_{N \to \infty} {\Bbb P}( |\overline{x}_n - {\Bbb E} X| \geq \varepsilon ) = 0 pentru fiecare \varepsilon 0.

Legea puternică a numărului mare. Să presupunem că primul moment  {\Bbb E} / X / al lui X este finit. Apoi \overline{X}_n converge aproape sigur la  {\Bbb E} X, astfel {\Bbb P}( \lim_{N \to \infty} \overline{X}_n = {\Bbb E} X ) = 1.

(dacă cineva întărește ipoteza primului moment cu cea a finitudinii celui de-al doilea moment {\Bbb E}|X|^2, atunci avem desigur o afirmație mai precisă decât legea (slabă) a numerelor mari, și anume teorema limitei centrale, dar nu voi discuta această teoremă aici. Cu și mai multe ipoteze despre X, unul are în mod similar versiuni mai precise ale legii puternice a numerelor mari, cum ar fi inegalitatea Chernoff, pe care din nou nu o voi discuta aici.)

legea slabă este ușor de dovedit, dar legea puternică (care, desigur, implică legea slabă, prin teorema lui Egoroff) este mai subtilă și, de fapt, dovada acestei legi (presupunând doar finitudinea primului moment) apare de obicei doar în textele avansate ale absolvenților. Așa că m-am gândit să prezint aici o dovadă a ambelor legi, care se desfășoară prin tehnicile standard ale metodei momentului și trunchierii. Accentul în această expunere va fi pe motivația și metodele, mai degrabă decât concizie și puterea de rezultate; există dovezi ale legii puternice din literatură care au fost comprimate până la dimensiunea unei pagini sau mai puțin, dar acesta nu este scopul meu aici.

— metoda momentului —

metoda momentului urmărește să controleze probabilitățile cozii unei variabile aleatorii (adică probabilitatea ca aceasta să fluctueze departe de media sa) prin intermediul momentelor și, în special, al zerotului, primul sau al doilea moment. Motivul pentru care această metodă este atât de eficientă este că primele câteva momente pot fi adesea calculate destul de precis. Metoda primului moment folosește de obicei inegalitatea lui Markov

\stil de afișare {\Bbb P} (/X / \geq \ lambda) \leq\frac{1} {\lambda} {\Bbb E} / X| (1)

(care urmează luând așteptările inegalității punctuale  \ lambda I (/X / \ geq \ lambda) \ leq / X / ), în timp ce metoda celui de-al doilea moment folosește o versiune a inegalității lui Chebyshev, cum ar fi

\displaystyle {\Bbb P} (/X / \ geq \ lambda) \leq\frac{1} {\lambda^2} {\Bbb E} / X|^2 (2)

(rețineți că (2) este doar (1) aplicat variabilei aleatoare |X|^2 și la prag  \ lambda^2 ).

în general vorbind, pentru a calcula primul moment se folosește de obicei liniaritatea așteptărilor

\displaystyle {\Bbb e} X_1 + \ ldots + X_n = {\Bbb e} X_1 + \ldots + {\Bbb e} X_n,

întrucât, pentru a calcula al doilea moment, trebuie să înțelegem și covarianțele( care sunt deosebit de simple dacă se presupune independența perechilor), datorită identităților precum

\displaystyle {\Bbb E} (X_1 + \ldots + X_n)^2 = {\Bbb e} X_1 ^ 2 + \ldots + {\Bbb e} X_n^2 + 2 \sum_{1 \ Leq i j \leq n} X_i X_j

sau varianta normalizată

 \ displaystyle {\bf Var} (X_1+ \ ldots + X_n) = {\bf Var} (X_1) + \ ldots + {\bf Var} (X_n)

\displaystyle + 2 \ sum_{1 \ leq i j \ leq n} {\bf Cov} (X_i,X_j). (3)

momentele superioare pot oferi, în principiu, informații mai precise, dar necesită adesea ipoteze mai puternice asupra obiectelor studiate, cum ar fi independența comună.

Iată o aplicație de bază a metodei primului moment:

Borel-Cantelli lema. Fie  E_1, E_2, e_3, \ldots o secvență de evenimente astfel încât \sum_{n=1}^\infty {\Bbb P}(E_n) este finit. Apoi, aproape sigur, doar finit multe dintre evenimentele E_n sunt adevărate.

dovadă. FieI(E_n) denotă funcția indicatoare a evenimentului E_n. Sarcina noastră este să arătăm că  \ sum_{N=1}^\infty I(E_n) este aproape sigur finit. Dar prin liniaritatea așteptării, așteptarea acestei variabile aleatorii este \sum_{n=1}^\infty {\Bbb P}(E_n), care este finită prin ipoteză. Prin inegalitatea lui Markov (1) concluzionăm că

\displaystyle {\Bbb P} (\sum_{N=1}^\infty I(E_n) \geq \lambda ) \LEQ \frac{1}{\lambda} \sum_{n = 1}^\infty {\Bbb P}(E_n).

închirierea \lambda \la \infty obținem cererea.  \Box

revenind la Legea numerelor mari, prima metodă moment dă următoarea coada legat:

Lema 1. Dacă {\Bbb E}|X| este finit, atunci

\displaystyle {\Bbb P} (|\overline{X}_n|\geq \lambda) \LEQ\frac {{\Bbb E}|X/} {\lambda}.

dovadă. Prin inegalitatea triunghiului, | \overline{x}_n|\leq \ overline {|X/} _n. Prin liniaritatea așteptării, așteptarea \overline {/X/} _neste {\Bbb E}|X|. Afirmația rezultă acum din inegalitatea lui Markov.  \ Box

Lema 1 nu este suficient de puternică de la sine pentru a dovedi legea numerelor mari în formă slabă sau puternică – în special, nu arată nicio îmbunătățire pe măsură ce n devine mare – dar va fi util să se ocupe de unul dintre termenii de eroare din aceste dovezi.

putem obține limite mai puternice decât Lema 1 – în special, limite care se îmbunătățesc cu n – în detrimentul ipotezelor mai puternice asupra X.

Lema 2. Dacă  {\Bbb E}|X / ^2 este finit, atunci

\displaystyle {\Bbb P} (/\overline{X}_n - {\Bbb E} (X)|\geq \lambda) \LEQ\frac {{\Bbb E}|X - {\Bbb E}(X) / ^2 }{n \ lambda^2}.

dovadă. Un calcul standard, exploatând (3) și independența perechilor X_i, arată că varianța {\Bbb e} |\overline{X}_n - {\Bbb E}(X)|^2 a mediilor empirice \overline{X}_n este egală cu \frac{1}{n} ori varianța {\BBB e} |x - {\BBB e}(x)|^2 din variabila originală X. afirmația rezultă acum din inegalitatea lui Chebyshev (2).  \ Box

în direcția opusă, există metoda momentului zero, mai cunoscută sub numele de legătura Uniunii

\style de afișare {\Bbb P} (E_1 \vee \ldots \vee E_n ) \LEQ \sum_{j=1}^n {\Bbb P} (E_j)

sau echivalent (pentru a explica terminologia „moment zero”)

\displaystyle {\Bbb e} (X_1 + \ldots + X_n)^0 \ leq {\Bbb e} X_1 ^ 0 + \ldots + X_n^0

pentru orice variabile aleatoare non-negative  X_1,\ldots, X_n \ geq 0 . Aplicând acest lucru la mijloacele empirice, obținem estimarea cozii momentului zero

{\Bbb P} (\overline{x}_n \neq 0) \Leq n {\Bbb P} (X \ neq 0). (4)

la fel cum al doilea moment legat (Lema 2) este util doar atunci când cineva are un control bun asupra celui de-al doilea moment (sau varianța) lui X, estimarea cozii momentului Zero (3) este utilă numai atunci când avem un control bun asupra momentului zero {\Bbb E} |X|^0 = {\Bbb P}(X \neq 0), adică atunci când X este în mare parte zero.

— trunchiere —

al doilea moment legat de coadă (Lema 2) dă deja legea slabă a numerelor mari în cazul în care X are al doilea moment finit (sau echivalent, varianță finită). În general, dacă tot ce știm despre X este că are primul moment finit, atunci nu putem concluziona că X are al doilea moment finit. Cu toate acestea, putem efectua o trunchiere

\modul de afișare X = x_ {\leq N} + x_{n} (5)

de X la orice prag dorit N, unde  x_ {\leq N}: = X I(|X| \leq N) și X_{N}: = X I(|X| N). Primul termen  x_ {\leq n} are al doilea moment finit; într-adevăr, avem în mod clar

\style de afișare {\Bbb e} / X_ {\leq N} / ^2 \Leq n {\Bbb e} / X|

și, prin urmare, avem și varianță finită

\stil de afișare {\Bbb E} / X_ {\leq n} - {\Bbb e} X_ {\leq n} / ^2 \ Leq n {\Bbb e} / x / . (6)

al doilea termen x_{n} poate avea al doilea moment infinit, dar primul său moment este bine controlat. Într-adevăr, prin teorema convergenței monotone, avem

\displaystyle {\Bbb e} / X_{N} / \ la 0 \ hbox{ as } N \ la \ infty. (7)

prin inegalitatea triunghiului, concluzionăm că primul termen X_ {\leq n} are așteptări apropiate de {\Bbb E} X:

\displaystyle {\Bbb e} X_ {\leq N} \ la {\Bbb E} (X) \hbox{ as } N \la \infty. (8)

acestea sunt toate instrumentele de care avem nevoie pentru a dovedi legea slabă a numărului mare:

dovada legii slabe. Fie \varepsilon 0 . Este suficient să arătăm că ori de câte ori n este suficient de mare în funcție de \varepsilon, că \overline{X}_n = {\Bbb E} X + o(\varepsilon) cu probabilitate 1-o(\varepsilon).

din (7), (8), putem găsi un prag N (în funcție de \varepsilon) astfel încât {\Bbb e} |X_{\geq n}| = O(\varepsilon^2) și {\Bbb e} X_{n} = {\Bbb E} X + o(\varepsilon). Acum folosim (5) pentru a împărți

\displaystyle \ overline{x}_n = (\overline{x_ {\geq n}})_n +(\overline{x_{ n}})_n.

din primul moment legat de coadă (Lema 1), știm că  (\overline{X_{\geq n}})_n = o(\varepsilon)cu probabilitate 1 - o(\varepsilon). Din al doilea moment legat de coadă (Lema 2) și (6), știm că (\overline{x_{ n}})_n = {\Bbb e} X_{n} + o(\varepsilon) = {\Bbb E} X + o(\varepsilon) cu probabilitate 1-o(\varepsilon) dacă n este suficient de mare în funcție de N și \varepsilon. Revendicarea urmează.  \ cutie

— the strong law –

legea puternică poate fi dovedită prin împingerea metodelor de mai sus un pic mai departe și folosind câteva trucuri.

primul truc este să observăm că pentru a dovedi legea puternică, este suficient să facem acest lucru pentru variabilele aleatorii non-negative X \geq 0. Într-adevăr,acest lucru rezultă imediat din simplul fapt că orice variabilă aleatorie X cu primul moment finit poate fi exprimată ca diferența a două variabile aleatorii non-negative \max(x, 0), \max (- X, 0) din primul moment finit.

odată ce X este non-negativ, vedem că mediile empirice \overline{X}_n nu pot scădea prea repede în n. În special, observăm că

\displaystyle \ overline{x}_m \ leq (1+o (\varepsilon)) \overline{X}_n ori de câte ori (1-\varepsilon) n \LEQ m \leq n. (9)

datorită acestei quasimonotonicități, putem sparsifica mulțimea de n pentru care trebuie să dovedim legea puternică. Mai precis, este suficient să arătăm

legea puternică a numărului mare, versiunea redusă. Fie X o variabilă aleatorie non-negativă cu {\Bbb E} X \infty și fie 1 \leq n_1\leq n_2\leq n_3\LEQ\ldots o secvență de numere întregi care este lacunară în sensul că n_{j+1}/n_j c pentru unele c1 și toate suficient de mari j. apoi \overline{X}_{n_j} converge aproape sigur la {\BBB e} x.

într-adevăr, dacă am putea dovedi versiunea redusă, apoi pe aplicarea acelei versiuni la secvența lacunară  n_j := \ lfloor (1+\varepsilon)^j\rfloor și folosind (9) am vedea că aproape sigur mijloacele empirice \overline{X}_n nu se pot abate cu mai mult de o eroare multiplicativă de 1 + o (\varepsilon) de la media {\Bbb E} X. Setarea  \ varepsilon:=1/m pentru m = 1,2,3,\ldots (și folosind faptul că o intersecție numărabilă de evenimente aproape sigure rămâne aproape sigură) obținem legea completă puternică.

acum că am redus secvența, devine economic să aplicăm lema Borel-Cantelli. Într-adevăr, prin multe aplicații ale acelei Leme vedem că este suficient să arătăm că

\displaystyle \ sum_{j = 1}^ \ infty {\Bbb P} (\overline{X} _ {n_j} \ neq {\Bbb E} (X) + O (\varepsilon )) \ infty (10)

pentru X non-negativ al primului moment finit, orice secvență lacunară  1 \leq n_1 \leq n_2 \LEQ\ldotsși orice  \ varepsilon 0.

în acest moment ne întoarcem și aplicăm metodele care au funcționat deja pentru a da legea slabă. Și anume, pentru a estima fiecare dintre probabilitățile cozii {\Bbb P}( \overline{X}_{N_j} \neq {\Bbb E}(X) + o(\varepsilon) ), efectuăm o trunchiere (5) la un anumit prag N_j. Nu este imediat evident ce trunchiere să efectuăm, așa că adoptăm strategia obișnuită de a lăsa N_j nespecificat pentru moment și de a optimiza acest parametru mai târziu.

ar trebui cel puțin să alegem N_jsuficient de mare încât {\Bbb e} X_{ N_j} = {\Bbb E} X + o(\varepsilon). Din al doilea moment estimarea cozii (Lema 2) concluzionăm că (\overline{x_{ N_j}})_{N_j} este de asemenea egal cu {\Bbb E} X + o( \varepsilon ) cu probabilitate 1-O( \frac{1}{\varepsilon n_j} {\Bbb e} |X_{\leq N_j}|^2 ). S-ar putea încerca să simplificăm această expresie folosind (6), dar acest lucru se dovedește a fi puțin risipitor, așa că haideți să amânăm asta deocamdată. Cu toate acestea, (6) sugerează cu tărie că vrem să luăm N_j pentru a fi ceva de genul n_j, ceea ce merită să ținem cont în cele ce urmează.

acum ne uităm la contribuția X_{\geq n_j}. S-ar putea folosi estimarea cozii primului moment (Lema 1), dar se dovedește că primul moment {\Bbb e} X_{ N_j} se descompune prea încet în j Pentru a fi de mare folos (reamintim că ne așteptăm ca N_j să fie ca secvența lacunară n_j); problema rădăcină aici este că decăderea (7) provenită din teorema convergenței monotone este ineficientă (s-ar putea eficientiza acest lucru folosind principiul convergenței finite, dar acest lucru se dovedește rezultate slabe aici).

dar există o ultimă carte de jucat, care este metoda momentului zero estimarea cozii (4). Așa cum am menționat mai devreme, această legătură este proastă în general – dar este foarte bună atunci când X este în mare parte zero, ceea ce este tocmai situația cu x_{N_j}. și în special vedem că  (\overline{x_{N_j}})_{n_j}este zero cu probabilitate 1 - O( N_j {\Bbb P}(X N_j) ).

punând toate acestea împreună, vedem că

\displaystyle {\Bbb P} (\overline{X} _ {n_j} \ neq {\Bbb E} (X) + o (\varepsilon ) ) \leq O (\frac{1}{\varepsilon n_j} {\Bbb e} |X_{\leq N_j}|^2 ) + o(n_j {\Bbb P} (X N_j) ).

rezumând acest lucru în j, vedem că vom fi făcuți de îndată ce ne vom da seama cum să alegem N_j astfel încât

\{J = 1}^ \ infty \ frac{1}{N_j} {\Bbb E} / X_ {\leq N_j}|^2 (11)

și

\P=1^\infty n_j {\Bbb P} (X N_j) (12)

ambele sunt finite. (Ca de obicei, avem un compromis: a face N_j mai mare face (12) mai ușor de stabilit în detrimentul (11) și invers atunci când facem N_j mai mic.)

pe baza discuției anterioare, este firesc să încercați setareaN_j := n_j . Din fericire, această alegere funcționează curat; natura lacunară a n_j asigură (practic din formula seriei geometrice) că avem estimările punctuale

\{J=1}^ \ infty \ frac{1}{n_j} / X_ {\leq n_j} / ^2 = O( X )

și

\n_j i (x \ geq n_j) = O(X )

(unde Constanta implicită aici depinde de secvența  n_1, n_2, \ldots și, în special, de constanta de lacunaritate c). Revendicările (10), (11) rezultă apoi dintr-o ultimă aplicare a liniarității așteptării, oferind legea puternică a numărului mare.

observație 1. Dovada de mai sus arată, de fapt, că legea puternică a numărului mare este valabilă chiar dacă se presupune doar independența pereche a X_n, mai degrabă decât independența comună.  \ diamant

remarca 2. Este esențial ca variabilele aleatoare  X_1, X_2, \ ldots să fie „reciclate” de la o medie empirică \overline{X}_n la următoarea, pentru a obține proprietatea crucială de quasimonotonicitate (9). Dacă în schimb am luat medii complet independente \overline{X}_n = \frac{1}{n} (X_{n,1} + \ldots + X_{n,n} ), unde x_{i,j} sunt toate iid, atunci legea puternică a numerelor mari se descompune, de fapt, cu doar o presupunere din primul moment. (Pentru un contraexemplu, ia în considerare o variabilă aleatoare X care este egal cu  2 ^ m / m^2 cu probabilitate  2^{-m} pentru  m=1,2,3, \ ldots; această variabilă aleatorie (abia) are primul moment finit, dar pentru  n \ sim 2 ^ m / m^2 , vedem că\overline{X}_n se abate cu cel puțin constantă absolută de la media sa cu probabilitate\gg 1/m^2 . Deoarece mijloacele empirice \overline{X}_n pentru  n \ sim 2 ^ m / m^2 sunt acum independente în comun, probabilitatea ca unul dintre ele să devieze semnificativ este acum extrem de aproape de 1 (Super-exponențial aproape în m, de fapt), ducând la eșecul total al Legii puternice în acest cadru.) Desigur, dacă cineva restricționează atenția la o secvență lacunară de n, atunci dovada de mai sus trece în cazul independent (deoarece Lema Borel-Cantelli este insensibilă la această independență). Prin exploatarea în continuare a independenței comune (de exemplu, prin utilizarea inegalității lui Chernoff) se poate obține, de asemenea, legea puternică pentru mijloace empirice independente pentru secvența completă n sub limitele celui de-al doilea moment.  \ diamant

remarca 3. Din perspectiva teoriei interpolării, se poate vedea argumentul de mai sus ca un argument de interpolare, stabilind o estimare l^1 (10) prin interpolarea între o estimare L^2 (Lema 2) și estimarea L^0 (4).  \ diamant

observație 4. Prin vizualizarea secvenței X_1,X_2,\ldots ca un proces staționar și, astfel, ca un caz special al unui sistem de conservare a măsurii, se poate vedea Legea slabă și puternică a numărului mare ca cazuri speciale ale teoremelor medii și respectiv ergodice punctuale (vezi exercițiul 9 din 254a prelegerea 8 și teorema 2 din 254a prelegerea 9).  \ diamant

Lasă un răspuns

Adresa ta de email nu va fi publicată.

More: