La legge forte dei grandi numeri

Sia X una variabile casuale a valore reale e sia  X_1, X_2, X_3,... essere una sequenza infinita di copie indipendenti e identicamente distribuite di X. Let\overline{X}_n := \frac{1}{n}(X_1 + \ldots + X_n) essere le medie empiriche di questa sequenza. Un teorema fondamentale nella teoria della probabilità è la legge dei grandi numeri, che si presenta sia in forma debole che forte:

Legge debole dei grandi numeri. Supponiamo che il primo momento {\Bbb E} |X| di X sia finito. Quindi \overline{X}_nconverge in probabilità a {\Bbb E} X, quindi \lim_{n \to \infty} {\Bbb P}( |\overline{X}_n - {\Bbb E} X \geq \varepsilon ) = 0 per tutti \varepsilon 0.

Forte legge di grandi numeri. Supponiamo che il primo momento {\Bbb E} |X| di X sia finito. Quindi\overline{X}_n converge quasi sicuramente a{\Bbb E} X , quindi{\Bbb P}( \lim_{n \to \infty} \overline{X}_n = {\Bbb E} X ) = 1 .

(Se si rafforza l’ipotesi del primo momento a quella della finitezza del secondo momento {\Bbb E}|X|^2, allora ovviamente abbiamo un’affermazione più precisa della legge (debole) dei grandi numeri, vale a dire il teorema del limite centrale, ma non discuterò questo teorema qui. Con ancora più ipotesi su X, si ha allo stesso modo versioni più precise della legge forte dei grandi numeri, come la disuguaglianza di Chernoff, che non discuterò ancora qui.)

La legge debole è facile da dimostrare, ma la legge forte (che ovviamente implica la legge debole, dal teorema di Egoroff) è più sottile, e in effetti la prova di questa legge (assumendo solo la finitezza del primo momento) di solito appare solo nei testi laureati avanzati. Quindi ho pensato di presentare una prova qui di entrambe le leggi, che procede con le tecniche standard del metodo del momento e del troncamento. L’enfasi in questa esposizione sarà sulla motivazione e sui metodi piuttosto che sulla brevità e sulla forza dei risultati; esistono prove della legge forte in letteratura che sono state compresse fino alle dimensioni di una pagina o meno, ma questo non è il mio obiettivo qui.

— Il metodo del momento —

Il metodo del momento cerca di controllare le probabilità di coda di una variabile casuale (cioè la probabilità che fluttui lontano dalla sua media) per mezzo di momenti, e in particolare lo zeroth, il primo o il secondo momento. La ragione per cui questo metodo è così efficace è perché i primi momenti possono spesso essere calcolati in modo piuttosto preciso. Il primo momento metodo di solito impiega la disuguaglianza di Markov

\displaystyle {\Bbb P}( |X| \geq \lambda ) \leq \frac{1}{\lambda} {\Bbb E} |X| (1)

(che segue, prendendo le aspettative di puntuale disuguaglianza \lambda I(|X| \geq \lambda) \leq |X|), considerando che il secondo metodo si avvale di una qualche versione di disuguaglianza di Chebyshev, come

\displaystyle {\Bbb P}( |X| \geq \lambda ) \leq \frac{1}{\lambda^2} {\Bbb E} |X|^2 (2)

(si noti che la (2) è giusto (1) applicato alla variabile casuale |X|^2 e per la soglia \lambda^2).

in generale, per calcolare primo momento, di solito si impiega linearità di attesa

\displaystyle {\Bbb E} X_1 + \ldots + X_n = {\Bbb E} X_1 + \ldots + {\Bbb E} X_n,

mentre per calcolare il secondo momento in cui uno deve anche comprendere covarianze (che sono particolarmente semplice se si parte dal presupposto coppie di indipendenza), grazie alla identità come

\displaystyle {\Bbb E} (X_1 + \ldots + X_n)^2 = {\Bbb E} X_1^2 + \ldots + {\Bbb E} X_n^2 + 2 \sum_{1 \leq i j \leq n} X_i X_j

o normalizzata variante

\displaystyle {\bf Var}(X_1+\ldots+X_n) = {\bf Var}(X_1) + \ldots + {\bf Var}(X_n)

\displaystyle + 2 \sum_{1 \leq i j \leq n} {\bf Cov}(X_i,X_j). (3)

I momenti superiori possono in linea di principio fornire informazioni più precise, ma spesso richiedono ipotesi più forti sugli oggetti studiati, come l’indipendenza congiunta.

Ecco un’applicazione di base del metodo first moment:

Lemma di Borel-Cantelli. Sia E_1, E_2, E_3, \ldots una sequenza di eventi tale che\sum_{n=1}^\infty {\Bbb P}(E_n) è finita. Quindi quasi sicuramente, solo finitamente molti degli eventi E_n sono veri.

Prova. Sia I(E_n) denotare la funzione indicatore dell’evento E_n. Il nostro compito è mostrare che \sum_{n=1}^ \ infty I(E_n) è quasi sicuramente finito. Ma per linearità dell’aspettativa, l’aspettativa di questa variabile casuale è \sum_{n=1}^\infty {\Bbb P}(E_n), che è finita per ipotesi. Con la disuguaglianza di Markov (1) concludiamo che

\in questo modo, il sistema di visualizzazione è in grado di eseguire il processo di visualizzazione.

Lasciando \lambda \to \infty otteniamo il reclamo.  \ Box

Tornando alla legge dei grandi numeri, il metodo first moment fornisce il seguente tail bound:

Lemma 1. (Primo momento tail bound) Se {\Bbb E}|X| è finito, allora

\in questo caso, è possibile utilizzare la funzione di visualizzazione.

Prova. Dalla disuguaglianza del triangolo, | \overline{X}_n|\leq \ overline {|X/} _n. Per linearità dell’aspettativa, l’aspettativa di  \ overline {/X/} _n è {\Bbb E}|X|. L’affermazione ora deriva dalla disuguaglianza di Markov.  \ Box

Il Lemma 1 non è abbastanza forte da solo per dimostrare la legge dei grandi numeri in forma debole o forte – in particolare, non mostra alcun miglioramento man mano che n diventa grande – ma sarà utile gestire uno dei termini di errore in quelle prove.

Possiamo ottenere limiti più forti del Lemma 1 – in particolare, limiti che migliorano con n – a scapito di ipotesi più forti su X.

Lemma 2. (Second moment tail bound) Se  {\Bbb E} / X / ^2 è finito, allora

\in questo modo, il sistema di visualizzazione è in grado di eseguire il processo di visualizzazione.

Prova. Standard di calcolo, sfruttando la (3) e le coppie indipendenza del X_i, mostra che la varianza {\Bbb E} |\overline{X}_n - {\Bbb E}(X)|^2 del empirica medie \overline{X}_n è uguale a \frac{1}{n} volte la varianza {\Bbb E} |X - {\Bbb E}(X)|^2 dell’originale variabile X. La rivendicazione di oggi segue la disuguaglianza di Chebyshev (2). \Box

Nella direzione opposta, c’è il numero zero momento di metodo, più comunemente conosciuto come l’unione vincolato

\displaystyle {\Bbb P}( E_1 \vee \ldots \vee E_n ) \leq \sum_{j=1}^n {\Bbb P}(E_j)

o, equivalentemente, (per spiegare la terminologia “momento zero”)

\displaystyle {\Bbb E} (X_1 + \ldots + X_n)^0 \leq {\Bbb E} X_1^0 + \ldots + X_n^0

per tutti i non-negativo variabili casuali X_1,\ldots,X_n \geq 0. Applicando questo ai mezzi empirici, otteniamo la stima della coda del momento zero

{\Bbb P} (\overline{X} _n \ neq 0) \leq n {\Bbb P}(X \ neq 0). (4)

Proprio come il secondo momento legato (Lemma 2) è utile solo quando si ha un buon controllo sul secondo momento (o varianza) di X, la stima della coda del momento zeroth (3) è utile solo quando abbiamo un buon controllo sul momento zeroth {\Bbb E} |X|^0 = {\Bbb P}(X \neq 0), cioè quando X è per lo più zero.

— Troncamento —

Il secondo momento tail bound (Lemma 2) dà già la legge debole dei grandi numeri nel caso in cui X abbia un secondo momento finito (o equivalentemente, varianza finita). In generale, se tutto ciò che si sa su X è che ha un primo momento finito, allora non possiamo concludere che X abbia un secondo momento finito. Tuttavia, possiamo eseguire un troncamento

\stile di visualizzazione X = X_ {\leq N} + X_ {N} (5)

di X a qualsiasi soglia desiderata N, dove X_ {\leq N}: = X I (|X|\leq N) e X_{N} := X I (|X / N). Il primo termine X_{\leq N} ha finito secondo momento; infatti abbiamo chiaramente

\displaystyle {\Bbb E} |X_{\leq N}|^2 \leq N {\Bbb E} |X|

e quindi anche noi abbiamo varianza finita

\displaystyle {\Bbb E} |X_{\leq N} - {\Bbb E} X_{\leq N}|^2 \leq N {\Bbb E} |X|. (6)

Il secondo termine X_{N} può avere un secondo momento infinito, ma il suo primo momento è ben controllato. Infatti, dal teorema di convergenza monotona, abbiamo

\per maggiori informazioni, consulta la nostra informativa. (7)

Dalla disuguaglianza triangolare, concludiamo che il primo termine X_ {\leq N} ha un’aspettativa vicina a  {\Bbb E} X:

\in questo caso, è possibile utilizzare la funzione di visualizzazione. (8)

Questi sono tutti gli strumenti di cui abbiamo bisogno per dimostrare la legge debole dei grandi numeri:

Prova della legge debole. Sia  \varepsilon 0. Basta mostrare che ogni volta che n è sufficientemente grande a seconda di \varepsilon, che \overline{X}_n = {\Bbb E} X + O(\varepsilon) con probabilità 1-O(\varepsilon).

Da (7), (8), possiamo trovare una soglia N (a seconda di \varepsilon) tale che {\Bbb E} |X_{\geq N}| = O(\varepsilon^2) e {\Bbb E} X_{N} = {\Bbb E} X + O(\varepsilon). Ora usiamo (5) per dividere

\in questo modo è possibile creare un sistema di visualizzazione.

Dal primo momento tail bound (Lemma 1), sappiamo che  (\overline{X_{\geq N}})_n = O(\varepsilon)con probabilità 1 - O(\varepsilon). Il secondo momento limite della coda (Lemma 2) e (6), sappiamo che (\overline{X_{ N}})_n = {\Bbb E} X_{N} + O(\varepsilon) = {\Bbb E} X + O(\varepsilon) con probabilità 1-O(\varepsilon) se n è sufficientemente grande a seconda N e \varepsilon. L’affermazione segue.  \ Scatola

— La legge forte –

La legge forte può essere dimostrata spingendo un po ‘ oltre i metodi di cui sopra e usando alcuni trucchi.

Il primo trucco è osservare che per dimostrare la legge forte, è sufficiente farlo per variabili casuali non negative X \geq 0. In effetti, ciò deriva immediatamente dal semplice fatto che qualsiasi variabile casuale X con primo momento finito può essere espressa come la differenza di due variabili casuali non negative \max(X,0), \max (- X,0) del primo momento finito.

Una volta che X non è negativo, vediamo che le medie empiriche\overline{X}_n non possono diminuire troppo rapidamente in n. In particolare osserviamo che

\se si utilizza un file di testo, è possibile utilizzare un file di testo. (9)

A causa di questa quasimonotonicità, possiamo disperdere l’insieme di n per il quale abbiamo bisogno di dimostrare la legge forte. Più precisamente, è sufficiente mostrare

Legge forte di grandi numeri, versione ridotta. Let X essere non negativo variabile casuale con {\Bbb E} X \infty, e lasciare che 1 \leq n_1\leq n_2\leq n_3\leq\ldots essere una sequenza di numeri interi che è lacunary nel senso che n_{j+1}/n_j c alcuni c1 e tutti sufficientemente grande j. Quindi \overline{X}_{n_j} converge quasi certamente {\Bbb E} X.

Infatti, se potessimo provare la versione ridotta, allora applicando quella versione alla sequenza lacunaria  n_j := \ lfloor (1+\varepsilon)^j\rfloor e usando (9) vedremmo che quasi sicuramente la media empirica \overline{X}_n non può deviare di più di un errore moltiplicativo di 1 + O (\varepsilon) dalla media {\Bbb E} X. Impostando  \varepsilon := 1/m per  m = 1,2,3,\ldots (e usando il fatto che un’intersezione numerabile di eventi quasi sicuri rimane quasi sicura) otteniamo la piena legge forte.

Ora che abbiamo sparsificato la sequenza, diventa economico applicare il lemma di Borel-Cantelli. Infatti, da molte applicazioni del lemma vediamo che basta a mostrare che

\displaystyle \sum_{j=1}^\infty {\Bbb P}( \overline{X}_{n_j} \neq {\Bbb E}(X) + O( \varepsilon ) ) \infty (10)

per non negativo X finite primo momento, qualsiasi lacunary sequenza 1 \leq n_1 \leq n_2 \leq \ldots e qualsiasi \varepsilon 0.

A questo punto torniamo indietro e applichiamo i metodi che già funzionavano per dare la legge debole. Vale a dire, per stimare ciascuna delle probabilità di coda {\Bbb P}( \overline{X}_{n_j} \neq {\Bbb E}(X) + O(\varepsilon) ), eseguiamo un troncamento (5) ad una certa soglia N_j. Non è immediatamente ovvio quale troncamento eseguire, quindi adottiamo la solita strategia di lasciare N_j non specificato per ora e ottimizzare in questo parametro in seguito.

Dovremmo almeno scegliere N_jabbastanza grande in modo che {\Bbb E} X_{ N_j} = {\Bbb E} X + O(\varepsilon). Il secondo momento coda stima (Lemma 2) possiamo concludere che (\overline{X_{ N_j}})_{n_j} è uguale a {\Bbb E} X + O( \varepsilon ) con probabilità 1-O( \frac{1}{\varepsilon n_j} {\Bbb E} |X_{\leq N_j}|^2 ). Si potrebbe tentare di semplificare questa espressione usando (6), ma questo risulta essere un po ‘ dispendioso, quindi cerchiamo di tenerlo a bada per ora. Tuttavia, (6) suggerisce fortemente che vogliamo prendere N_j per essere qualcosa come n_j, che vale la pena tenere a mente in quanto segue.

Ora guardiamo il contributo di X_{\geq N_j}. Si potrebbe usare un primo momento la coda stima (Lemma 1), ma si scopre che il primo momento {\Bbb E} X_{ N_j} decadimenti troppo lentamente in j per essere di grande utilità (ricordiamo che siamo in attesa del N_j per essere come il lacunary sequenza n_j); il problema principale qui è che il decadimento (7) provenienti dalle monotone teorema di convergenza è inefficace (si potrebbe effectivise questo utilizzando la finite di convergenza linea di principio, ma questo si rivelasse dare risultati molto poveri, qui).

Ma c’è un’ultima carta da giocare, che è il metodo zeroth moment tail estimate (4). Come accennato in precedenza, questo limite è pessimo in generale, ma è molto buono quando X è per lo più zero, che è precisamente la situazione con X_{N_j}. e in particolare vediamo che  (\overline{X_{N_j}})_{n_j}è zero con probabilità 1 - O(n_j {\Bbb P} (X N_j) ).

Mettendo tutto questo insieme, vediamo che

\in questo modo, il sistema di visualizzazione è in grado di gestire il sistema di visualizzazione e di controllare il sistema di visualizzazione.

Sommando questo a j, vediamo che sarà fatto non appena avremo capire come scegliere N_j in modo che

\displaystyle \sum_{j=1}^\infty \frac{1}{n_j} {\Bbb E} |X_{\leq N_j}|^2 (11)

e

\displaystyle \sum_{j=1}^\infty n_j {\Bbb P}(X N_j) (12)

sono entrambi finiti. (Come al solito, abbiamo un compromesso: rendere il N_j più grande rende (12) più facile da stabilire a scapito di (11), e viceversa quando si rende N_j più piccolo.)

In base alla discussione precedente, è naturale provare a impostare N_j := n_j. Fortunatamente, questa scelta funziona correttamente; il lacunary natura di n_j assicura (fondamentalmente dalla serie geometrica della formula) che si hanno le stime di tipo puntuale

\displaystyle \sum_{j=1}^\infty \frac{1}{n_j} |X_{\leq n_j}|^2 = O( X )

e

\displaystyle \sum_{j=1}^\infty n_j I( X \geq n_j ) = O( X )

(dove l’implicita costante qui dipende dalla sequenza n_1, n_2, \ldots, e in particolare sulla lacunarity costante c). Le rivendicazioni (10), (11) seguono quindi da un’ultima applicazione della linearità dell’attesa, dando la forte legge dei grandi numeri.

Osservazione 1. La prova di cui sopra, infatti, mostra che la forte legge dei grandi numeri vale anche se si assume solo l’indipendenza a coppie del X_n, piuttosto che l’indipendenza congiunta.  \ diamond

Nota 2. È essenziale che le variabili casuali  X_1, X_2,\ldots siano “riciclate” da una media empirica  \ overline{X}_n alla successiva, al fine di ottenere la proprietà di quasimonotonicità cruciale (9). Se invece abbiamo preso medie completamente indipendenti \overline{X}_n = \frac{1}{n} (X_{n,1} + \ldots + X_{n,n} ), dove le  X_{i,j} sono tutte iid, allora la legge forte dei grandi numeri di fatto si rompe con solo un’ipotesi del primo momento. (Per un controesempio, considera una variabile casuale X che equivale a  2^m / m^2 con probabilità 2^{-m} per  m = 1,2,3, \ ldots; questa variabile casuale (a malapena) ha un primo momento finito, ma per n \sim 2^m/m^2, vediamo che \overline{X}_n devia di almeno una costante assoluta dalla sua media con probabilità \gg 1/m^2. Poiché i mezzi empirici  \overline{X}_nper  n \ sim 2^m/m^2 sono ora congiuntamente indipendenti, la probabilità che uno di essi devi significativamente è ora estremamente vicino a 1 (super-esponenzialmente vicino in m, infatti), portando al fallimento totale della legge forte in questa impostazione. Naturalmente, se si limita l’attenzione a una sequenza lacunaria di n, allora la prova di cui sopra passa nel caso indipendente (poiché il lemma di Borel-Cantelli è insensibile a questa indipendenza). Sfruttando ulteriormente l’indipendenza congiunta (ad esempio usando la disuguaglianza di Chernoff) si può anche ottenere la legge forte per mezzi empirici indipendenti per la sequenza completa n sotto i limiti del secondo momento.  \ diamond

Nota 3. Dal punto di vista della teoria dell’interpolazione, si può vedere l’argomento sopra come un argomento di interpolazione, stabilendo una stima L^1 (10) interpolando tra una stima L^2 (Lemma 2) e la stima L^0 (4).  \ diamond

Nota 4. Visualizzando la sequenza X_1,X_2,\ldots come un processo stazionario, e quindi come un caso speciale di una misura-preservare il sistema consente di visualizzare i deboli e la legge forte dei grandi numeri come casi particolari di media e puntuale ergodica teoremi rispettivamente (vedere Esercizio 9 da 254A Lezione 8 e Teorema 2 254A Lezione 9).  \ diamante

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.

More: