silný zákon velkých čísel.

Nechť X je reálné hodnotě náhodné proměnné, X_1, X_2, X_3, ... je nekonečná posloupnost nezávislých a identicky distribuované kopie X \overline{X}_n := \frac{1}{n}(X_1 + \ldots + X_n) být empirické průměry této sekvence. Základní věta v teorii pravděpodobnosti je zákon velkých čísel, který přichází ve slabé i silné formě:

slabý zákon velkých čísel. Předpokládejme, že první moment {\Bbb E} |X| X je konečný. Pak \overline{X}_nkonverguje v pravděpodobnosti k {\Bbb E} X, tedy \lim_{n \to \infty} {\Bbb P}( |\overline{X}_n - {\Bbb E} X| \geq \varepsilon ) = 0 pro každého \varepsilon 0.

silný zákon velkých čísel. Předpokládejme, že první moment {\Bbb E} |X| X je konečný. Pak \overline{X}_n konverguje skoro jistě k {\Bbb E} X, tedy {\Bbb P}( \lim_{n \to \infty} \overline{X}_n = {\Bbb E} X ) = 1.

(Pokud jeden posiluje první chvíli předpoklad, že z konečnosti druhý moment {\Bbb E}|X|^2, pak samozřejmě máte přesnější vyjádření než (slabý) zákon velkých čísel, tj. centrální limitní věta, ale nebudu diskutovat o tom, že věta zde. S ještě více hypotézy na X, tak má přesnější verze, silný zákon velkých čísel, jako je Černovova nerovnost, která zase budu diskutovat zde.)

slabé právo je snadné dokázat, ale silný zákon (což samozřejmě znamená slabý zákon, podle Egoroff věta) je jemnější, a ve skutečnosti důkazem tohoto zákona (za předpokladu, že právě konečnost první chvíli), obvykle se zobrazí pouze v pokročilé postgraduální texty. Tak jsem si myslel, že zde předložím důkaz obou zákonů, který postupuje standardními technikami momentové metody a zkrácení. Důraz v této expozici bude kladen spíše na motivaci a metody než na stručnost a sílu výsledků; v literatuře existují důkazy o silném zákonu, které byly komprimovány na velikost jedné stránky nebo méně, ale to zde není můj cíl.

— V okamžiku, kdy metoda —

chvíli metoda se snaží ovládat ocas pravděpodobnosti náhodné veličiny (tj. pravděpodobnost, že se pohybuje daleko od své mysli) prostřednictvím okamžiky, a zejména nultý, první, nebo druhý moment. Důvod, proč je tato metoda tak účinná, je ten, že prvních pár okamžiků lze často vypočítat poměrně přesně. První chvíle metoda se obvykle využívá Markovovy nerovnosti

\displaystyle {\Bbb P}( |X| \geq \lambda ) \leq \frac{1}{\lambda} {\Bbb E} |X| (1)

(který následuje tím, že očekávání bodové nerovnosti \lambda I(|X| \geq \lambda) \leq |X|), vzhledem k tomu, že druhý moment metoda využívá některé verzi Čebyševovy nerovnosti, jako jsou

\displaystyle {\Bbb P}( |X| \geq \lambda ) \leq \frac{1}{\lambda^2} {\Bbb E} |X|^2 (2)

(všimněte si, že (2) je (1) aplikován na náhodné proměnné |X|^2 a prahová hodnota \lambda^2).

Obecně řečeno, pro výpočet prvního okamžiku, kdy člověk obvykle využívá linearity očekávání

\displaystyle {\Bbb E} X_1 + \ldots + X_n = {\Bbb E} X_1 + \ldots + {\Bbb E} X_n,

vzhledem k tomu, že k výpočtu druhé okamžiku, kdy si člověk také musí pochopit, kovariancí (které jsou obzvláště jednoduché, pokud jeden předpokládá, párové nezávislosti), díky identit, jako jsou

\displaystyle {\Bbb E} (X_1 + \ldots + X_n)^2 = {\Bbb E} X_1^2 + \ldots + {\Bbb E} X_n^2 + 2 \sum_{1 \leq j \leq n} X_i X_j

nebo normalizované varianta

\displaystyle {\bf Var}(X_1+\ldots+X_n) = {\bf Var}(X_1) + \ldots + {\bf Var}(X_n)

\displaystyle + 2 \sum_{1 \leq j \leq n} {\bf P}(X_i,X_j). (3)

Vyšší momenty mohou v zásadě poskytnout přesnější informace, ale často vyžadují silnější předpoklady o objekty zkoumané, jako jsou společné nezávislost.

zde je základní aplikace metody prvního okamžiku:

Borel-Cantelli lemma. E_1, E_2, E_3, \ldots být sled událostí takový, že \sum_{n=1}^\infty {\Bbb P}(E_n) je konečný. Pak je téměř jistě pravda, že až nakonec mnohé z událostí E_n jsou pravdivé.

důkaz. Nechť  I (E_n) označuje indikační funkci události E_n. Naším úkolem je ukázat, že \sum_{n=1}^\infty I (E_n) je téměř jistě konečný. Ale tím, že linearita očekávání, očekávání z této náhodné proměnné, \sum_{n=1}^\infty {\Bbb P}(E_n), což je konečný o hypotézu. Tím, Markovova nerovnost (1) jsme došli k závěru, že

\displaystyle {\Bbb P}( \sum_{n=1}^\infty(E_n) \geq \lambda ) \leq \frac{1}{\lambda} \sum_{n=1}^\infty {\Bbb P}(E_n).

necháme \lambda \ to \ infty získáme nárok. \Box

Návrat na zákon velkých čísel, první chvíle metoda dává následující ocas vázán:

Lemma 1. (První chvíli ocas vázán), Pokud {\Bbb E}|X| je konečný, pak

\displaystyle {\Bbb P}( |\overline{X}_n| \geq \lambda ) \leq \frac{{\Bbb E}|X|}{\lambda}.

důkaz. Trojúhelníkovou nerovností  / \overline{X}_n / \leq \ overline {/X/} _n. Podle linearity očekávání je očekávání \overline {/X/} _n {\Bbb E} / X / . Nárok nyní vyplývá z Markovovy nerovnosti. \Box

Lemma 1 je dostatečně silný sám o sobě dokázat, zákon velkých čísel buď slabé nebo silné formě – zejména, to nevykazuje žádné zlepšení, jak n se zvětší, ale to bude užitečné, aby zvládnout jeden z chyb jde v těchto dokladů.

můžeme získat pevnější hranice než Lemma 1 – zejména kroky, které zlepšují s n – na úkor silnějších předpokladů na X.

Lemma 2. (Druhý moment ocas vázán), Pokud {\Bbb E}|X|^2 je konečný, pak

\displaystyle {\Bbb P}( |\overline{X}_n - {\Bbb E}(X)| \geq \lambda ) \leq \frac{ {\Bbb E}|X - {\Bbb E}(X)|^2 }{n \lambda^2}.

důkaz. Standardní výpočty, využití (3) a párové nezávislosti X_i, ukazuje, že rozptyl {\Bbb E} |\overline{X}_n - {\Bbb E}(X)|^2 empirických průměrů \overline{X}_n se rovná \frac{1}{n} krát rozptyl {\Bbb E} |X - {\Bbb E}(X)|^2 původní proměnné X. tvrzení nyní vyplývá z Čebyševovy nerovnosti (2). \Box

V opačném směru, tam je nultý moment metoda, více obyčejně známý jako union bound

\displaystyle {\Bbb P}( E_1 \vee, \ldots \vee E_n ) \leq \sum_{j=1}^n {\Bbb P}(E_j)

nebo ekvivalentně (vysvětlit terminologii „nultý moment“)

\displaystyle {\Bbb E} (X_1 + \ldots + X_n)^0 \leq {\Bbb E} X_1^0 + \ldots + X_n^0

pro libovolné nezáporné náhodné proměnné X_1,\ldots,X_n \geq 0. Použití této empirické prostředky, které jsme získali nultý moment ocas odhad

{\Bbb P} (\overline{X}_n \neq 0) \leq n {\Bbb P}(X \neq 0). (4)

Jen jako druhý moment vázán (Lemma 2) je užitečné jen tehdy, když má člověk dobrou kontrolu na druhý moment (nebo rozptyl) X, nultý moment ocas odhad (3) je pouze užitečné, když máte dobrou kontrolu na nultý moment {\Bbb E} |X|^0 = {\Bbb P}(X \neq 0), tj. když X je většinou nula.

— Zkrácení —

druhý moment ocas vázán (Lemma 2), již dává slabý zákon velkých čísel v případě, kdy X má konečný druhý moment (nebo ekvivalentně, konečný rozptyl). Obecně platí, že pokud vše, co člověk ví o X, je, že má konečný první moment, pak nemůžeme dojít k závěru, že X má konečný druhý moment. Nicméně, my můžeme provést zkrácení

\displaystyle X = X_{\leq N} + X_{N} (5)

X na jakýkoli požadovaný práh N, kde X_{\leq N} := X I(|X| \leq N) a X_{N} := X I(|X| N). První termín X_{\leq N} má konečný druhý moment, opravdu jsme jednoznačně

\displaystyle {\Bbb E} |X_{\leq N}|^2 \leq N {\Bbb E} |X|

a proto také máme konečný rozptyl

\displaystyle {\Bbb E} |X_{\leq N} - {\Bbb E} X_{\leq N}|^2 \leq N {\Bbb E} |X|. (6)

druhý člen  X_{N} může mít nekonečný druhý moment, ale jeho první moment je dobře řízen. Vskutku, monotónní konvergence věta, máme

\displaystyle {\Bbb E} |X_{N}| \0 \h{ jako } N \to \infty. (7)

trojúhelníková nerovnost, jsme došli k závěru, že první termín X_{\leq N} má očekávání blízko k {\Bbb E} X:

\displaystyle {\Bbb E} X_{\leq N} \{\Bbb E}(X) \h{ jako } N \to \infty. (8)

to jsou všechny nástroje, které potřebujeme k prokázání slabého zákona velkých čísel:

důkaz slabého zákona. Nechť \varepsilon 0. Stačí ukázat, že vždy, když n je dostatečně velké, v závislosti na tom, \varepsilon, že \overline{X}_n = {\Bbb E} X + O(\varepsilon) pravděpodobnost, 1-O(\varepsilon).

Z (7), (8), můžeme najít prahovou hodnotu N (v závislosti na tom, \varepsilon) takové, že {\Bbb E} |X_{\geq N}| = O(\varepsilon^2) a {\Bbb E} X_{N} = {\Bbb E} X + O(\varepsilon). Nyní používáme (5) rozdělit

\displaystyle \overline{X}_n = (\overline{X_{\geq N}})_n +(\overline{X_{ N}})_n.

Od první chvíle, ocas vázán (Lemma 1), víme, že (\overline{X_{\geq N}})_n = O(\varepsilon) pravděpodobnost, 1 - O(\varepsilon). Z druhé chvíli ocas vázán (Lemma 2) a (6), víme, že (\overline{X_{ N}})_n = {\Bbb E} X_{N} + O(\varepsilon) = {\Bbb E} X + O(\varepsilon) pravděpodobnost, 1-O(\varepsilon) pokud n je dostatečně velké v závislosti na N a \varepsilon. Následuje tvrzení.  \ Box

— silný zákon –

silný zákon lze prokázat posunutím výše uvedených metod o něco dále a použitím několika dalších triků.

prvním trikem je pozorovat, že k prokázání silného zákona postačí pro nezáporné náhodné proměnné  X \geq 0. Ostatně, to vyplývá okamžitě z prostého faktu, že jakákoli náhodná proměnná X s konečný první moment může být vyjádřen jako rozdíl dvou nezáporných náhodných veličin \max(X,0), \max(-X,0) konečný první moment.

jakmile je X nezáporné, vidíme, že empirické průměry \overline{X}_n nemohou v n příliš rychle klesat. Zejména pozorujeme, že

\displaystyle \overline{X}m \leq (1+O(\varepsilon)) \overline{X}_n kdykoliv (1-\varepsilon) n \leq m \leq n. (9)

Díky této kvazimonotonicitě můžeme rozptýlit množinu n, pro kterou musíme prokázat silný zákon. Přesněji řečeno, stačí ukázat

silný zákon velkých čísel, snížená verze. X být nezáporná náhodná proměnná s {\Bbb E} X \infty, a 1 \leq n_1\leq n_2\leq n_3\leq\ldots je posloupnost celých čísel, které je lacunary v tom smyslu, že n_{j+1}/n_j c c1 a všechna dostatečně velká j. Pak \overline{X}_{n_j} konverguje skoro jistě k {\Bbb E} X.

pokud bychom dokázali redukovanou verzi, pak při použití této verze na lakunární sekvenci n_j := \lfloor (1 + \varepsilon)^j\rfloor a pomocí (9), viděli bychom, že téměř jistě empirický znamená, \overline{X}_n se nemůže odchýlit o více než multiplikativní chyba 1+O(\varepsilon) z {\Bbb E} X. Nastavení \varepsilon := 1/m m=1,2,3,\ldots (a pomocí skutečnost, že spočetný průnik téměř jistý událostí zůstává téměř jistý) jsme získali plný silný zákon.

Nyní, když jsme sekvenci sparsifikovali, je ekonomické použít lemma Borel-Cantelli. Ve skutečnosti, mnoho aplikací lemma vidíme, že stačí ukázat, že

\displaystyle \sum_{j=1}^\infty {\Bbb P}( \overline{X}_{n_j} \neq {\Bbb E}(X) + O( \varepsilon ) ) \infty (10)

pro nezáporná X konečný první moment, žádné lacunary sekvence 1 \leq n_1 \leq n_2 \leq \ldots a nějaké \varepsilon 0.

V tomto bodě jsme se vrátit a použít metody, které již pracovaly dát slabý zákon. A to, odhadnout každý ocas pravděpodobnosti, {\Bbb P}( \overline{X}_{n_j} \neq {\Bbb E}(X) + O(\varepsilon) ), provádíme zkrácení (5) v některých práh N_j. Není okamžitě zřejmé, jaké zkrácení provést, proto přijmeme obvyklou strategii ponechání N_j prozatím nespecifikované a optimalizaci v tomto parametru později.

měli bychom alespoň vybrat N_j dostatečně velké, aby {\Bbb e} X_{ N_j} = {\Bbb E} X + O (\varepsilon). Z druhé chvíli ocas odhad (Lemma 2) jsme došli k závěru, že (\overline{X_{ N_j}})_{n_j} je také rovna {\Bbb E} X + O( \varepsilon ) pravděpodobnost, 1-O( \frac{1}{\varepsilon n_j} {\Bbb E} |X_{\leq N_j}|^2 ). Dalo by se pokusit zjednodušit tento výraz pomocí (6), ale ukázalo se, že je to trochu zbytečné, takže to prozatím odložme. (6) však důrazně naznačuje, že chceme N_j považovat za něco jako n_j, což stojí za to mít na paměti následující.

nyní se podíváme na příspěvek  X_ {\geq N_j}. Jeden by mohl použít první chvíli ocas odhad (Lemma 1), ale ukázalo se, že první moment, {\Bbb E} X_{ N_j} rozpadá příliš pomalu v j, aby se daly použít (připomeňme si, že jsme očekávali, N_j být jako lacunary sekvence n_j); kořen problému je, že kaz (7), pocházející z monotónní konvergence věta je neefektivní (jeden by mohl effectivise pomocí konečných konvergence princip, ale to se ukázalo velmi špatné výsledky zde).

ale je tu ještě jedna poslední karta hrát, což je metoda nultý moment ocas odhad (4). Jak již bylo zmíněno dříve, tato mez je mizerný obecně – ale je velmi dobrá, když X je většinou nula, což je přesně situace, s X_{N_j}. a především vidíme, že (\overline{X_{N_j}})_{n_j} je nula s pravděpodobností 1 - O( n_j {\Bbb P}(X N_j) ).

Uvedení to všechno dohromady, vidíme, že

\displaystyle {\Bbb P}( \overline{X}_{n_j} \neq {\Bbb E}(X) + O( \varepsilon ) ) \leq O( \frac{1}{\varepsilon n_j} {\Bbb E} |X_{\leq N_j}|^2 ) + O( n_j {\Bbb P}(X N_j) ).

Shrneme to v j, vidíme, že jsme bude provedeno, jakmile jsme se zjistit, jak si vybrat N_j tak, že

\displaystyle \sum_{j=1}^\infty \frac{1}{n_j} {\Bbb E} |X_{\leq N_j}|^2 (11)

a

\displaystyle \sum_{j=1}^\infty n_j {\Bbb P}(X N_j) (12)

jsou obě konečné. (Jako obvykle, máme kompromis: N_j větší dělá (12) snazší navázat na úkor (11), a naopak při N_j menší.)

na základě předchozí diskuse je přirozené zkusit nastavení N_j: = n_j. Naštěstí, tato volba funguje čistě; lacunary povahy n_j zajišťuje (v podstatě z geometrické řady formula), který máme bodové odhady

\displaystyle \sum_{j=1}^\infty \frac{1}{n_j} |X_{\leq n_j}|^2 = O( X )

a

\displaystyle \sum_{j=1}^\infty n_j I( X \geq n_j ) = O( X )

(kde implicitní konstantní zde záleží na pořadí n_1, n_2, \ldots, a zejména na lacunarity konstantní c). Nároky (10), (11) pak vyplývají z jedné poslední aplikace linearity očekávání, která dává silný zákon velkých čísel.

Poznámka 1. Výše uvedený důkaz ve skutečnosti ukazuje, že silný zákon velkých čísel platí i v případě, pouze jeden předpokládá, párové nezávislosti X_n, spíše než společné nezávislost. \diamond

Poznámka 2. Je nezbytné, aby náhodné proměnné X_1,X_2,\ldots jsou „recyklované“ z jednoho empirického průměru \overline{X}_n na další, s cílem získat rozhodující quasimonotonicity majetku (9). Kdyby místo toho vzali jsme zcela nezávislé průměry \overline{X}_n = \frac{1}{n} (X_{n,1} + \ldots + X_{n,n} ), kde X_{i,j} jsou iid, tak silný zákon velkých čísel, ve skutečnosti se porouchá jen s první chvíli předpokládat. (Pro protipříklad zvažte náhodnou proměnnou X, která se rovná 2^m / m^2 s pravděpodobností 2^{- m} pro m=1,2,3, \ ldots; této náhodné proměnné (skoro) má konečný první moment, ale pro n \sim 2^m/m^2 vidíme, že \overline{X}_n odchyluje nejméně o absolutní konstanta z jeho mysli s pravděpodobností \gg 1/m^2. Jako empirický znamená, \overline{X}_n n \sim 2^m/m^2 jsou nyní společně nezávislé, pravděpodobnost, že jeden z nich se významně odchyluje, je nyní velmi blízko 1 (super-exponenciálně blízko v m, ve skutečnosti), což vede k celkovému selhání silný zákon v tomto nastavení.) Samozřejmě, pokud člověk omezuje pozornost na lakunární posloupnost n, pak výše uvedený důkaz prochází v nezávislém případě (protože lemma Borel-Cantelli je vůči této nezávislosti necitlivá). Dalším využitím společné nezávislosti (např. pomocí Chernoffovy nerovnosti) lze také získat silný zákon pro nezávislé empirické prostředky pro celou sekvenci n pod hranicemi druhého okamžiku. \diamond

Poznámka 3. Z pohledu teorie interpolace, lze zobrazit výše uvedený argument jako interpolace argument, zakládající L^1 odhad (10) interpolací mezi L^2 odhad (Lemma 2) a L^0 odhad (4). \diamond

Poznámka 4. Zobrazením sekvence X_1,X_2,\ldots jako stacionární proces, a tedy jako speciální případ opatření-zachování systému lze zobrazit slabý a silný zákon velkých čísel jako zvláštní případy, střední a bodově ergodické věty v tomto pořadí (viz Cvičení 9 z 254A Přednáška 8. a Věta 2 z 254A Přednáška 9).  \ diamant

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.

More: