a nagy számok erős törvénye

legyen X valós értékű véletlen változó, és legyen  X_1, X_2, X_3,... legyen x független és azonos eloszlású példányainak végtelen sorozata. legyen \overline{X}_n := \frac{1}{n} (X_1 + \ldots + X_n) ennek a sorozatnak az empirikus átlagai. A valószínűségelmélet alapvető tétele a nagy számok törvénye, amely mind gyenge, mind erős formában jön létre:

a nagy számok gyenge törvénye. Tegyük fel, hogy az első pillanat{\Bbb E} |X| x véges. Akkor \overline{X}_nkonvergál a valószínűsége, hogy {\Bbb E} X, így \lim_{n \to \infty} {\Bbb P}( |\overline{X}_n - {\Bbb E} X| \geq \varepsilon ) = 0 minden \varepsilon 0.

a nagy számok erős törvénye. Tegyük fel, hogy az első pillanat{\Bbb E} |X| x véges. Ezután a \overline{X}_nmajdnem biztosan  {\Bbb E} X – re konvergál, így {\Bbb P} (\lim_{n \to \infty} \overline{X}_n = {\Bbb e} X ) = 1.

(ha valaki megerősíti az első pillanat feltételezését a második pillanat végességére  {\Bbb e} / X / ^2, akkor természetesen pontosabb állításunk van, mint a nagy számok (gyenge) törvénye, nevezetesen a központi határ tétel, de ezt a tételt itt nem tárgyalom. Még több hipotézissel az X-en hasonlóan pontosabb változatai vannak a nagy számok erős törvényének, például a Chernoff-egyenlőtlenségnek, amelyet itt ismét nem fogok megvitatni.)

a gyenge törvényt könnyű bizonyítani, de az erős törvény (ami természetesen magában foglalja a gyenge törvényt, Egoroff tétele szerint) finomabb, és valójában ennek a törvénynek a bizonyítása (feltételezve az első pillanat végességét) általában csak a fejlett diplomás szövegekben jelenik meg. Ezért úgy gondoltam, hogy itt bemutatom mindkét törvény bizonyítékát, amely a moment módszer és a csonkolás szokásos technikáival folytatódik. A hangsúly ebben a kiállítás lesz a motiváció és módszerek helyett rövidsége és ereje eredmények; az irodalomban léteznek olyan erős törvények bizonyítékai, amelyeket egy oldal vagy annál kisebb méretre tömörítettek, de itt nem ez a célom.

— a moment módszer —

a moment módszer egy véletlen változó farok valószínűségének (azaz annak a valószínűségének, hogy az átlagától messze ingadozik) szabályozására törekszik pillanatok, különösen a nulladik, első vagy második pillanat segítségével. Ennek a módszernek az az oka, hogy az első néhány pillanat gyakran meglehetősen pontosan kiszámítható. Az első pillanat módszer általában Markov egyenlőtlenségét alkalmazza

\displaystyle {\Bbb P} (/X / \ GEQ \ lambda) \ leq \ frac{1} {\lambda} {\Bbb E} / X| (1)

(ami a pontonkénti egyenlőtlenség elvárásainak figyelembevételével következik  \ lambda I (/X / \ geq \ lambda) \ leq / X / ), míg a második moment módszer a Csebisev-egyenlőtlenség valamilyen változatát alkalmazza, például

\displaystyle {\Bbb P} (/X / \ GEQ \ lambda) \ leq \ frac{1} {\lambda^2} {\Bbb E} / X|^2 (2)

(vegye figyelembe, hogy a (2) csak (1) alkalmazható a |X|^2 véletlen változóra küszöbérték  \ lambda^2).

Általánosságban elmondható, hogy az első pillanat kiszámításához általában a várakozás linearitását alkalmazzák

\displaystyle {\Bbb e} X_1 + \ ldots + X_n = {\Bbb e} X_1 + \ ldots + {\Bbb e} X_n,

míg a második pillanat kiszámításához meg kell érteni a kovarianciákat is (amelyek különösen egyszerűek, ha páros függetlenséget feltételezünk), az olyan identitásoknak köszönhetően, mint például

\displaystyle {\Bbb e} (X_1 + \ ldots + X_n)^2 = {\Bbb e} X_1^2 + \ldots + {\Bbb e} X_n^2 + 2 \sum_{1 \leq i j \leq n} X_i X_j

vagy a normalizált változat

 \ displaystyle {\bf Var} (X_1+ \ ldots + X_n) = {\bf Var} (X_1) + \ ldots + {\bf Var} (X_n)

\displaystyle + 2 \ sum_{1 \ leq i j \ leq n} {\bf Cov} (X_i,X_j). (3)

a magasabb pillanatok elvileg pontosabb információkat adhatnak, de gyakran erősebb feltételezéseket igényelnek a vizsgált tárgyakról, például a közös függetlenségről.

itt van az első pillanat módszer alapvető alkalmazása:

Borel-Cantelli lemma. Legyen  E_1, E_2, e_3, \ldots olyan eseménysorozat, hogy \sum_{n=1}^\infty {\Bbb P}(E_n) véges. Akkor szinte biztosan, csak véges sok esemény E_n igaz.

bizonyíték. Legyen  I (E_n) jelöli az esemény indikátorfüggvényét E_n. Feladatunk megmutatni, hogy \sum_{n=1}^ \ infty I(E_n) szinte biztosan véges. De a várakozás linearitása alapján ennek a véletlen változónak az elvárása \sum_{n=1}^\infty {\Bbb P}(E_n), ami hipotézis szerint véges. Markov egyenlőtlenségével (1) arra a következtetésre jutunk, hogy

\displaystyle {\BBB P}( \sum_{n=1}^\infty I(E_n) \GEQ \lambda ) \leq \frac{1}{\lambda} \sum_{n=1}^\infty {\Bbb P}(E_n).

bérbeadás \lambda \to \infty megkapjuk a követelést.  \ Box

visszatérve a nagy számok törvényéhez, az első pillanat módszer a következő farokkötést adja:

Lemma 1. Ha  {\Bbb E} / X / véges, akkor

\displaystyle {\Bbb P} (|\overline{X}_n|\GEQ \lambda) \leq\frac {{\Bbb E}|X/} {\lambda}.

bizonyíték. A háromszög egyenlőtlenség szerint |\overline{X}_n|\leq \overline {|X/} _n. A várakozás linearitása alapján a \overline{|X|}_n várakozása {\Bbb E}|X|. Az állítás most Markov egyenlőtlenségéből következik.  \ Box

a Lemma 1 önmagában nem elég erős ahhoz, hogy a nagy számok törvényét gyenge vagy erős formában bizonyítsa – különösen nem mutat javulást, mivel n nagy lesz–, de hasznos lesz kezelni az egyik hibakifejezést ezekben a bizonyításokban.

erősebb határokat kaphatunk, mint a Lemma 1 – különösen azokat a határokat, amelyek az n – vel javulnak-az X-re vonatkozó erősebb feltételezések rovására.

Lemma 2. Ha  {\Bbb e} / X / ^2 véges, akkor

\displaystyle {\Bbb P} (/\overline{X}_n - {\Bbb E} (X)| \geq \lambda ) \leq \frac{ {\Bbb E}|X - {\Bbb e}(x)|^2 }{n \lambda^2}.

bizonyíték. A (3) és a X_i páronkénti függetlenségének kihasználása azt mutatja, hogy a {\Bbb e} |\overline{X}_n - {\Bbb e}(x)|^2 \overline{X}_n empirikus átlagok varianciája \frac{1}{n} szorozva a {\BBB e} |x - {\BBB e}(x)|^2 az eredeti változó X. az állítás most következik Csebisev-egyenlőtlenség (2).  \ Box

ellenkező irányban van a nulladik pillanat módszer, ismertebb nevén az Unió kötött

\displaystyle {\Bbb P}( E_1 \ Vee \ ldots \ vee E_n ) \ leq \ sum_{j=1}^n {\Bbb P} (E_j)

vagy ezzel egyenértékű (a “nulla pillanat ” terminológia magyarázata”)

\displaystyle {\Bbb e} (X_1 + \ldots + X_n)^0 \ leq {\Bbb e} X_1^0 + \ ldots + X_n^0

bármely nem negatív véletlen változóra  X_1, \ ldots, X_n \ geq 0. Ezt alkalmazva az empirikus eszközökre, megkapjuk a nulladik pillanat farok becslését

{\Bbb P} (\overline{X}_n \neq 0) \leq n {\Bbb P} (X \ neq 0). (4)

csakúgy, mint a második pillanatban kötött (Lemma 2) csak akkor hasznos, ha az egyik jól kontroll a második pillanatban (vagy variancia) X, a nulladik pillanatban farok becslés (3) csak akkor hasznos, ha van jó kontroll a nulladik pillanatban {\Bbb e} |X|^0 = {\Bbb P}(X \neq 0), azaz amikor X többnyire nulla.

— csonkolás —

a második pillanatban farok kötött (Lemma 2) már megadja a nagy számok gyenge törvényét abban az esetben, ha X véges második pillanattal rendelkezik (vagy ekvivalensen véges variancia). Általában, ha csak annyit tudunk X-ről, hogy véges az első pillanata, akkor nem vonhatjuk le azt a következtetést, hogy X-nek véges a második pillanata. Azonban el tudunk végezni egy csonkolást

\displaystyle X = x_ {\leq N} + X_{N} (5)

bármely kívánt n küszöbértéknél, ahol  X_{\leq N} := X I(|X| \leq N) és X_{N} := X I(|X| N). Az első kifejezés  X_ {\leq N} véges második pillanattal rendelkezik; valóban egyértelműen van

\displaystyle {\Bbb e} / X_ {\leq N} / ^2 \ leq N {\Bbb e} / X|

ezért is van véges variancia

\displaystyle {\Bbb e} / X_ {\leq N} - {\Bbb e} X_ {\leq N} / ^2 \ leq N {\Bbb E} / X / . (6)

a második kifejezésnek X_{N} lehet végtelen második pillanata, de az első pillanata jól szabályozott. Valójában a monoton konvergencia tétel alapján van

\displaystyle {\Bbb e} / X_{N} / \ to 0 \ hbox{ as } N \ to \ infty. (7)

a háromszög egyenlőtlenség alapján arra a következtetésre jutunk, hogy az első kifejezés  X_ {\leq N} várakozása közel van  {\Bbb E} X:

\displaystyle {\Bbb e} X_ {\leq N} \ to {\Bbb E}(X) \hbox{ as } N \to \ infty. (8)

ezekre az eszközökre van szükségünk a nagy számok gyenge törvényének bizonyításához:

a gyenge törvény bizonyítása. Legyen  \ varepsilon 0. Elegendő megmutatni, hogy amikor n kellően nagy a  \ varepsilon függvényében, hogy  \overline{X}_n = {\Bbb E} X + O (\varepsilon)valószínűséggel 1-O (\varepsilon).

tól (7), (8), találunk egy n küszöbértéket (a \varepsilon – től függően) úgy, hogy {\Bbb e} |X_{\geq N}| = O(\varepsilon^2) és {\Bbb e} X_{N} = {\Bbb E} X + O(\varepsilon). Most az (5) – et használjuk a felosztáshoz

\displaystyle \ overline{X}_n = (\overline{X_ {\geq N}})_n +(\overline{x_{ N}})_n.

a farok megkötésének első pillanatától (Lemma 1) tudjuk, hogy (\overline{X_{\geq N}})_n = O (\varepsilon) valószínűséggel 1 - O (\varepsilon). A második pillanattól kezdve a farok kötött (Lemma 2) és (6), tudjuk, hogy (\overline{X_{ N}})_n = {\Bbb e} X_{N} + O(\varepsilon) = {\BBB E} X + O(\varepsilon) valószínűséggel 1-O(\varepsilon) ha n kellően nagy az N és \varepsilon. Az állítás következik.  \ doboz

— az erős törvény –

az erős törvény bizonyítható a fenti módszerek egy kicsit tovább tolásával, néhány további trükkövel.

az első trükk az, hogy megfigyeljük, hogy az erős törvény bizonyításához elegendő ezt megtenni a X \geq 0 nem negatív véletlen változók esetében. Valójában ez azonnal következik abból az egyszerű tényből,hogy bármely véletlen változó x véges első pillanattal kifejezhető két nem negatív véletlen változó különbségeként \max(X, 0), \max (- X, 0) véges első pillanatban.

ha X nem negatív, látjuk, hogy az empirikus átlagok \overline{X}_n nem csökkenhetnek túl gyorsan n-ben. Különösen azt figyeljük meg, hogy

\displaystyle \ overline{X}_m \ leq (1 + O (\varepsilon)) \overline{X}_n amikor (1-\varepsilon) n \leq m \leq n. (9)

ennek a kvazimonotonitásnak köszönhetően meg tudjuk szórni az n halmazát, amelyre be kell bizonyítanunk az erős törvényt. Pontosabban, elegendő a

nagy számok erős törvénye, csökkentett változat megjelenítése. Legyen X nem negatív véletlen változó {\Bbb E} X \infty, és legyen 1 \leq n_1\leq n_2\leq n_3\leq\ldots egész számok sorozata, amely hézagos abban az értelemben, hogy n_{j+1}/n_j C néhány c1 esetében és minden kellően nagy j. akkor \overline{X}_{N_j} konvergál szinte biztosan {\BBB e} x.

valóban, ha bizonyítani tudnánk a csökkentett verziót, akkor ezt a verziót a lacunary szekvenciára alkalmazva  n_j := \lfloor (1 + \ varepsilon)^j\rfloor és a (9) használatával láthatjuk, hogy a \overline{X}_n empirikus átlaga szinte biztosan nem térhet el 1+O(\varepsilon) multiplikatív hibánál nagyobb mértékben az {\Bbb E} Xátlagtól. Beállítás \varepsilon := 1/m m=1,2,3, \ ldots esetén (és ha azt használjuk, hogy a szinte biztos események megszámlálható metszéspontja szinte biztos marad) megkapjuk a teljes erős törvényt.

most, hogy sparsifikáltuk a szekvenciát, gazdaságossá válik a Borel-Cantelli lemma alkalmazása. Valójában a lemma számos alkalmazásával látjuk, hogy elegendő ezt megmutatni

\displaystyle \ sum_{j=1}^ \ infty {\Bbb P} (\overline{X} _ {n_j} \ neq {\Bbb E}(X) + O (\varepsilon )) \ infty (10)

a véges első Momentum nem-negatív X-jére bármely lacunáris szekvencia 1 \leq n_1 \leq n_2 \leq \ldots és bármely \varepsilon 0.

ezen a ponton visszamegyünk, és alkalmazzuk azokat a módszereket, amelyek már működtek a gyenge törvény megadására. Nevezetesen az egyes farok valószínűségek becsléséhez {\Bbb P} (\overline{X}_{n_j} \neq {\Bbb E} (X) + O (\varepsilon) ), csonkolást hajtunk végre (5) valamilyen küszöbértéknél N_j. Nem azonnal nyilvánvaló, hogy milyen csonkolást kell végrehajtani, ezért azt a szokásos stratégiát alkalmazzuk, hogy a N_j – ot egyelőre nem határozzuk meg, majd ezt a paramétert később optimalizáljuk.

legalább a N_j – ot elég nagyra kell választanunk, hogy {\Bbb e} X_{ N_j} = {\Bbb E} X + O(\varepsilon). A második pillanattól kezdve a farok becslése (Lemma 2) arra a következtetésre jutunk, hogy (\overline{X_{ N_j}})_{n_j} egyenlő {\BBB E} X + O( \varepsilon ) valószínűséggel 1-O( \frac{1}{\varepsilon n_j} {\BBB e} |X_{\leq N_j}|^2 ). Megpróbálhatjuk egyszerűsíteni ezt a kifejezést a (6) használatával, de ez kissé pazarlónak bizonyul, ezért egyelőre tartsuk ezt. A (6) azonban határozottan azt sugallja, hogy a N_j – t valami hasonlónak akarjuk venni n_j, amit érdemes szem előtt tartani a következőkben.

most nézzük meg a x_{\geq N_j} hozzájárulását. Használhatjuk az első pillanat farokbecslését (Lemma 1), de kiderül, hogy az első pillanat {\Bbb e} X_{ N_j} túl lassan bomlik j-ben ahhoz, hogy sok haszna legyen (emlékezzünk arra, hogy azt várjuk, hogy N_j olyan legyen, mint a lacunary szekvencia n_j); a gyökérprobléma itt az, hogy a monoton konvergencia tételből származó bomlás (7) hatástalan (ezt a véges konvergencia elv, de ez kiderül, hogy nagyon gyenge eredmények itt).

de van egy utolsó kártya játszani, amely a nulladik pillanatban módszer farok becslés (4). Mint korábban említettük, ez a kötés általában pocsék – de nagyon jó, ha X többnyire nulla, pontosan ez a helyzet X_{N_j}esetén. különösen azt látjuk, hogy (\overline{X_{N_j}}) _ {n_j} nulla valószínűséggel 1 - O( n_j {\Bbb P}(X N_j)) .

mindezt összerakva látjuk, hogy

\displaystyle {\Bbb P} (\overline{X} _ {n_j} \ neq {\Bbb E}(X) + O (\varepsilon)) \leq O (\frac{1} {\varepsilon n_j} {\Bbb E} |X_ {\leq N_j}|^2 ) + O(n_j {\Bbb P} (X N_j) ).

Összefoglalva ezt a j, azt látjuk, hogy mi lesz tenni, amint kitaláljuk, hogyan kell kiválasztani N_j úgy, hogy

\displaystyle \ sum_{j=1}^ \ infty \ frac{1}{n_j} {\Bbb E} / X_ {\leq N_j}|^2 (11)

és

\displaystyle \ sum_{j=1}^ \ infty n_j {\Bbb P} (X N_j) (12)

mindkettő véges. (Mint általában, van egy kompromisszumunk: a N_j nagyobbá tétele megkönnyíti a (12) létrehozását a (11) rovására, és fordítva, ha N_j kisebb lesz.)

a korábbi vita alapján természetes, hogy megpróbálja beállítani a N_j := n_j beállítást. Szerencsére ez a választás tisztán működik; a n_j lacunáris jellege biztosítja (alapvetően a geometriai sorozatképletből), hogy pontszerű becslésekkel rendelkezünk

\displaystyle \ sum_{j=1}^ \ infty \ frac{1}{n_j} / X_ {\leq n_j} / ^2 = O (X )

és

\displaystyle \ sum_{j=1}^ \ infty n_j I( X \ geq n_j) = O (X )

(ahol az implikált állandó itt a n_1, n_2, \ldots szekvenciától függ, különös tekintettel a C lacunaritási állandóra). Az állítások (10), (11) ezután a várakozás linearitásának egy utolsó alkalmazásából következnek, megadva a nagy számok erős törvényét.

1.Megjegyzés. A fenti bizonyíték valójában azt mutatja, hogy a nagy számok erős törvénye akkor is fennáll, ha csak a X_n páros függetlenségét feltételezzük, nem pedig a közös függetlenséget.  \ diamond

Megjegyzés 2. Alapvető fontosságú,hogy a x_1, X_2,\ldots valószínűségi változókat “újrahasznosítsuk” az egyik empirikus átlagról \overline{X}_n a másikra, hogy megkapjuk a döntő quasimonotonicity tulajdonságot (9). Ha ehelyett teljesen független átlagokat vettünk  \ overline{X}_n = \frac{1}{n} (X_{n,1} + \ldots + X_{n,n} ), ahol a X_{I,j} mind iid, akkor a nagy számok erős törvénye valójában csak egy első pillanatnyi feltételezéssel bomlik le. (Ellenpélda esetén Vegyünk egy véletlen változót X amely egyenlő 2^m / m^2 valószínűséggel 2^{- m}  m=1,2,3, \ ldots; ennek a véletlen változónak (alig) van véges első pillanata, de n \sim 2^m/m^2 esetén azt látjuk, hogy \overline{X}_n legalább abszolút állandóval eltér az átlagától, valószínűsége \gg 1/m^2. Mivel az empirikus eszközök  \ overline{X}_na  n \sim 2^m/m^2 most közösen függetlenek, annak valószínűsége, hogy egyikük jelentősen eltér, most rendkívül közel van az 1-hez (valójában szuper-exponenciálisan közel a m – hez), ami az erős törvény teljes kudarcához vezet ebben a környezetben.) Természetesen, ha a figyelmet egy lacunáris szekvenciára korlátozzuk n akkor a fenti bizonyítás független esetben megy keresztül (mivel a Borel-Cantelli lemma érzéketlen erre a függetlenségre). A közös függetlenség további kihasználásával (pl. Chernoff-egyenlőtlenség felhasználásával) megkaphatjuk a független empirikus eszközök erős törvényét is a teljes szekvencia számára n A második pillanat határai alatt.  \ diamond

Megjegyzés 3. Az interpolációelmélet szempontjából a fenti érvet interpolációs érvként tekinthetjük meg, amely L^1 becslést (10) hoz létre a L^2 becslés (Lemma 2) és a L^0 becslés (4) közötti interpolációval.  \ gyémánt

4.Megjegyzés. A x_1,X_2,\ldots szekvenciát stacionárius folyamatként, és így egy intézkedésmegőrző rendszer speciális eseteként tekinthetjük meg a nagy számok gyenge és erős törvényét, mint az átlagos és a pontszerű ergodikus tételek speciális eseteit (lásd a 9.gyakorlatot a 254A 8. előadásból és a 2. tételt a 254a 9. előadásból).  \ gyémánt

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.

More: