Sia X una variabile casuale a valore reale e sia essere una sequenza infinita di copie indipendenti e identicamente distribuite di X. Let essere le medie empiriche di questa sequenza. Un teorema fondamentale nella teoria della probabilità è la legge dei grandi numeri, che si presenta sia in forma debole che forte:
Legge debole dei grandi numeri. Supponiamo che il primo momento di X sia finito. Quindi converge in probabilità a , quindi per tutti .
Forte legge di grandi numeri. Supponiamo che il primo momento di X sia finito. Quindi converge quasi sicuramente a, quindi.
(Se si rafforza l’ipotesi del primo momento a quella della finitezza del secondo momento , allora ovviamente abbiamo un’affermazione più precisa della legge (debole) dei grandi numeri, vale a dire il teorema del limite centrale, ma non discuterò questo teorema qui. Con ancora più ipotesi su X, si ha allo stesso modo versioni più precise della legge forte dei grandi numeri, come la disuguaglianza di Chernoff, che non discuterò ancora qui.)
La legge debole è facile da dimostrare, ma la legge forte (che ovviamente implica la legge debole, dal teorema di Egoroff) è più sottile, e in effetti la prova di questa legge (assumendo solo la finitezza del primo momento) di solito appare solo nei testi laureati avanzati. Quindi ho pensato di presentare una prova qui di entrambe le leggi, che procede con le tecniche standard del metodo del momento e del troncamento. L’enfasi in questa esposizione sarà sulla motivazione e sui metodi piuttosto che sulla brevità e sulla forza dei risultati; esistono prove della legge forte in letteratura che sono state compresse fino alle dimensioni di una pagina o meno, ma questo non è il mio obiettivo qui.
— Il metodo del momento —
Il metodo del momento cerca di controllare le probabilità di coda di una variabile casuale (cioè la probabilità che fluttui lontano dalla sua media) per mezzo di momenti, e in particolare lo zeroth, il primo o il secondo momento. La ragione per cui questo metodo è così efficace è perché i primi momenti possono spesso essere calcolati in modo piuttosto preciso. Il primo momento metodo di solito impiega la disuguaglianza di Markov
(1)
(che segue, prendendo le aspettative di puntuale disuguaglianza ), considerando che il secondo metodo si avvale di una qualche versione di disuguaglianza di Chebyshev, come
(2)
(si noti che la (2) è giusto (1) applicato alla variabile casuale e per la soglia ).
in generale, per calcolare primo momento, di solito si impiega linearità di attesa
,
mentre per calcolare il secondo momento in cui uno deve anche comprendere covarianze (che sono particolarmente semplice se si parte dal presupposto coppie di indipendenza), grazie alla identità come
o normalizzata variante
. (3)
I momenti superiori possono in linea di principio fornire informazioni più precise, ma spesso richiedono ipotesi più forti sugli oggetti studiati, come l’indipendenza congiunta.
Ecco un’applicazione di base del metodo first moment:
Lemma di Borel-Cantelli. Siauna sequenza di eventi tale che è finita. Quindi quasi sicuramente, solo finitamente molti degli eventi sono veri.
Prova. Siadenotare la funzione indicatore dell’evento . Il nostro compito è mostrare che è quasi sicuramente finito. Ma per linearità dell’aspettativa, l’aspettativa di questa variabile casuale è , che è finita per ipotesi. Con la disuguaglianza di Markov (1) concludiamo che
\in questo modo, il sistema di visualizzazione è in grado di eseguire il processo di visualizzazione.
Lasciando otteniamo il reclamo.
Tornando alla legge dei grandi numeri, il metodo first moment fornisce il seguente tail bound:
Lemma 1. (Primo momento tail bound) Se è finito, allora
\in questo caso, è possibile utilizzare la funzione di visualizzazione.
Prova. Dalla disuguaglianza del triangolo, . Per linearità dell’aspettativa, l’aspettativa di è . L’affermazione ora deriva dalla disuguaglianza di Markov.
Il Lemma 1 non è abbastanza forte da solo per dimostrare la legge dei grandi numeri in forma debole o forte – in particolare, non mostra alcun miglioramento man mano che n diventa grande – ma sarà utile gestire uno dei termini di errore in quelle prove.
Possiamo ottenere limiti più forti del Lemma 1 – in particolare, limiti che migliorano con n – a scapito di ipotesi più forti su X.
Lemma 2. (Second moment tail bound) Se è finito, allora
\in questo modo, il sistema di visualizzazione è in grado di eseguire il processo di visualizzazione.
Prova. Standard di calcolo, sfruttando la (3) e le coppie indipendenza del , mostra che la varianza del empirica medie è uguale a volte la varianza dell’originale variabile X. La rivendicazione di oggi segue la disuguaglianza di Chebyshev (2).
Nella direzione opposta, c’è il numero zero momento di metodo, più comunemente conosciuto come l’unione vincolato
o, equivalentemente, (per spiegare la terminologia “momento zero”)
per tutti i non-negativo variabili casuali . Applicando questo ai mezzi empirici, otteniamo la stima della coda del momento zero
. (4)
Proprio come il secondo momento legato (Lemma 2) è utile solo quando si ha un buon controllo sul secondo momento (o varianza) di X, la stima della coda del momento zeroth (3) è utile solo quando abbiamo un buon controllo sul momento zeroth , cioè quando X è per lo più zero.
— Troncamento —
Il secondo momento tail bound (Lemma 2) dà già la legge debole dei grandi numeri nel caso in cui X abbia un secondo momento finito (o equivalentemente, varianza finita). In generale, se tutto ciò che si sa su X è che ha un primo momento finito, allora non possiamo concludere che X abbia un secondo momento finito. Tuttavia, possiamo eseguire un troncamento
(5)
di X a qualsiasi soglia desiderata N, dove e . Il primo termine ha finito secondo momento; infatti abbiamo chiaramente
e quindi anche noi abbiamo varianza finita
. (6)
Il secondo termine può avere un secondo momento infinito, ma il suo primo momento è ben controllato. Infatti, dal teorema di convergenza monotona, abbiamo
\per maggiori informazioni, consulta la nostra informativa. (7)
Dalla disuguaglianza triangolare, concludiamo che il primo termine ha un’aspettativa vicina a :
\in questo caso, è possibile utilizzare la funzione di visualizzazione. (8)
Questi sono tutti gli strumenti di cui abbiamo bisogno per dimostrare la legge debole dei grandi numeri:
Prova della legge debole. Sia . Basta mostrare che ogni volta che n è sufficientemente grande a seconda di , che con probabilità .
Da (7), (8), possiamo trovare una soglia N (a seconda di ) tale che e . Ora usiamo (5) per dividere
\in questo modo è possibile creare un sistema di visualizzazione.
Dal primo momento tail bound (Lemma 1), sappiamo che con probabilità . Il secondo momento limite della coda (Lemma 2) e (6), sappiamo che con probabilità se n è sufficientemente grande a seconda N e . L’affermazione segue.
— La legge forte –
La legge forte può essere dimostrata spingendo un po ‘ oltre i metodi di cui sopra e usando alcuni trucchi.
Il primo trucco è osservare che per dimostrare la legge forte, è sufficiente farlo per variabili casuali non negative . In effetti, ciò deriva immediatamente dal semplice fatto che qualsiasi variabile casuale X con primo momento finito può essere espressa come la differenza di due variabili casuali non negative del primo momento finito.
Una volta che X non è negativo, vediamo che le medie empiriche non possono diminuire troppo rapidamente in n. In particolare osserviamo che
\se si utilizza un file di testo, è possibile utilizzare un file di testo. (9)
A causa di questa quasimonotonicità, possiamo disperdere l’insieme di n per il quale abbiamo bisogno di dimostrare la legge forte. Più precisamente, è sufficiente mostrare
Legge forte di grandi numeri, versione ridotta. Let essere non negativo variabile casuale con , e lasciare che essere una sequenza di numeri interi che è lacunary nel senso che alcuni e tutti sufficientemente grande j. Quindi converge quasi certamente .
Infatti, se potessimo provare la versione ridotta, allora applicando quella versione alla sequenza lacunaria e usando (9) vedremmo che quasi sicuramente la media empirica non può deviare di più di un errore moltiplicativo di dalla media . Impostando per (e usando il fatto che un’intersezione numerabile di eventi quasi sicuri rimane quasi sicura) otteniamo la piena legge forte.
Ora che abbiamo sparsificato la sequenza, diventa economico applicare il lemma di Borel-Cantelli. Infatti, da molte applicazioni del lemma vediamo che basta a mostrare che
(10)
per non negativo X finite primo momento, qualsiasi lacunary sequenza e qualsiasi .
A questo punto torniamo indietro e applichiamo i metodi che già funzionavano per dare la legge debole. Vale a dire, per stimare ciascuna delle probabilità di coda , eseguiamo un troncamento (5) ad una certa soglia . Non è immediatamente ovvio quale troncamento eseguire, quindi adottiamo la solita strategia di lasciare non specificato per ora e ottimizzare in questo parametro in seguito.
Dovremmo almeno scegliere abbastanza grande in modo che . Il secondo momento coda stima (Lemma 2) possiamo concludere che è uguale a con probabilità . Si potrebbe tentare di semplificare questa espressione usando (6), ma questo risulta essere un po ‘ dispendioso, quindi cerchiamo di tenerlo a bada per ora. Tuttavia, (6) suggerisce fortemente che vogliamo prendere per essere qualcosa come , che vale la pena tenere a mente in quanto segue.
Ora guardiamo il contributo di . Si potrebbe usare un primo momento la coda stima (Lemma 1), ma si scopre che il primo momento decadimenti troppo lentamente in j per essere di grande utilità (ricordiamo che siamo in attesa del per essere come il lacunary sequenza ); il problema principale qui è che il decadimento (7) provenienti dalle monotone teorema di convergenza è inefficace (si potrebbe effectivise questo utilizzando la finite di convergenza linea di principio, ma questo si rivelasse dare risultati molto poveri, qui).
Ma c’è un’ultima carta da giocare, che è il metodo zeroth moment tail estimate (4). Come accennato in precedenza, questo limite è pessimo in generale, ma è molto buono quando X è per lo più zero, che è precisamente la situazione con . e in particolare vediamo che è zero con probabilità .
Mettendo tutto questo insieme, vediamo che
Sommando questo a j, vediamo che sarà fatto non appena avremo capire come scegliere in modo che
(11)
e
(12)
sono entrambi finiti. (Come al solito, abbiamo un compromesso: rendere il più grande rende (12) più facile da stabilire a scapito di (11), e viceversa quando si rende più piccolo.)
In base alla discussione precedente, è naturale provare a impostare . Fortunatamente, questa scelta funziona correttamente; il lacunary natura di assicura (fondamentalmente dalla serie geometrica della formula) che si hanno le stime di tipo puntuale
e
(dove l’implicita costante qui dipende dalla sequenza , e in particolare sulla lacunarity costante c). Le rivendicazioni (10), (11) seguono quindi da un’ultima applicazione della linearità dell’attesa, dando la forte legge dei grandi numeri.
Osservazione 1. La prova di cui sopra, infatti, mostra che la forte legge dei grandi numeri vale anche se si assume solo l’indipendenza a coppie del , piuttosto che l’indipendenza congiunta.
Nota 2. È essenziale che le variabili casuali siano “riciclate” da una media empirica alla successiva, al fine di ottenere la proprietà di quasimonotonicità cruciale (9). Se invece abbiamo preso medie completamente indipendenti , dove le sono tutte iid, allora la legge forte dei grandi numeri di fatto si rompe con solo un’ipotesi del primo momento. (Per un controesempio, considera una variabile casuale X che equivale a con probabilitàper ; questa variabile casuale (a malapena) ha un primo momento finito, ma per , vediamo che devia di almeno una costante assoluta dalla sua media con probabilità . Poiché i mezzi empirici per sono ora congiuntamente indipendenti, la probabilità che uno di essi devi significativamente è ora estremamente vicino a 1 (super-esponenzialmente vicino in , infatti), portando al fallimento totale della legge forte in questa impostazione. Naturalmente, se si limita l’attenzione a una sequenza lacunaria di n, allora la prova di cui sopra passa nel caso indipendente (poiché il lemma di Borel-Cantelli è insensibile a questa indipendenza). Sfruttando ulteriormente l’indipendenza congiunta (ad esempio usando la disuguaglianza di Chernoff) si può anche ottenere la legge forte per mezzi empirici indipendenti per la sequenza completa n sotto i limiti del secondo momento.
Nota 3. Dal punto di vista della teoria dell’interpolazione, si può vedere l’argomento sopra come un argomento di interpolazione, stabilendo una stima (10) interpolando tra una stima (Lemma 2) e la stima (4).
Nota 4. Visualizzando la sequenza come un processo stazionario, e quindi come un caso speciale di una misura-preservare il sistema consente di visualizzare i deboli e la legge forte dei grandi numeri come casi particolari di media e puntuale ergodica teoremi rispettivamente (vedere Esercizio 9 da 254A Lezione 8 e Teorema 2 254A Lezione 9).