suurten lukujen vahva laki

olkoon X reaaliarvoinen satunnaismuuttuja, ja olkoon X_1, X_2, X_3,... on ääretön jono X: n riippumattomia ja identtisesti jakautuneita kopioita. olkoon  \overline{X}_n := \frac{1}{n}(X_1 + \ldots + X_n) tämän jonon empiirisiä keskiarvoja. Todennäköisyysteorian peruslause on suurten lukujen laki, joka tulee sekä heikossa että vahvassa muodossa:

heikko suurten joukkojen laki. Oletetaan, että X: n ensimmäinen momentti {\Bbb E} |X| on äärellinen. Silloin  \overline{X}_n konvergoituu todennäköisyydellä {\Bbb E} x, jolloin \lim_{n \to \infty} {\Bbb p} (/\overline{X}_n - {\Bbb E} X / \geq \varepsilon) = 0 jokaiselle \varepsilon 0.

vahva suurten joukkojen laki. Oletetaan, että X: n ensimmäinen momentti {\Bbb E} |X| on äärellinen. Silloin \overline{X}_n suppenee lähes varmasti arvoon {\Bbb E} x, jolloin {\Bbb p} (\lim_{n \to \infty} \overline{X}_n = {\Bbb E} X) = 1.

(jos vahvistetaan ensimmäisen momentin oletus toisen momentin äärellisyydestä {\Bbb E} / X / ^2, niin meillä on tietenkin tarkempi lausuma kuin suurten lukujen (heikko) laki, eli keskeinen raja-arvolause, mutta en keskustele tästä lauseesta tässä. Kun X: llä on vielä useampia hypoteeseja, on myös tarkempia versioita voimakkaasta suurten lukujen laista, kuten Chernoffin epäyhtälöstä, jota en taaskaan käsittele tässä.)

heikko laki on helppo todistaa, mutta egoroffin lauseen mukaan vahva laki (joka tietysti merkitsee heikkoa lakia) on hienovaraisempi, ja itse asiassa tämän lain todistus (olettaen vain ensimmäisen hetken finiteness) esiintyy yleensä vain edistyneissä graduate-teksteissä. Joten ajattelin esittää todisteen tässä molemmat lait, joka etenee standardin tekniikoita hetki menetelmä ja katkaisu. Painopiste tässä exposition on motivaatiota ja menetelmiä pikemmin kuin lyhyys ja vahvuus tuloksia; kirjallisuudessa on olemassa todisteita vahvasta laista, jotka on puristettu alle sivun kokoisiksi, mutta tämä ei ole tavoitteeni tässä asiassa.

– momenttimenetelmä –

momenttimenetelmä pyrkii kontrolloimaan satunnaismuuttujan häntätodennäköisyyksiä (eli todennäköisyyttä, että se vaihtelee kaukana keskiarvostaan) momenttien ja erityisesti zerothin, ensimmäisen tai toisen momentin avulla. Syy, että tämä menetelmä on niin tehokas, koska ensimmäiset hetket voidaan usein laskea melko tarkasti. The first moment method usually employs Markovin epäyhtälö

\displaystyle {\Bbb P} (|X / \geq \lambda ) \leq \frac{1}{\lambda} {\Bbb E} / X| (1)

(joka seuraa ottamalla odotukset pointwise epäyhtälö \lambda I (|X / \geq \lambda) \leq / X / ), kun taas toinen momenttimenetelmä työllistää jonkin version Chebyshevin epäyhtälöstä, kuten

\displaystyle {\Bbb P} (|X / \geq \lambda ) \leq \frac{1}{\lambda^2} {\Bbb e} / X|^2 (2)

(huomaa ,että (2) on vain (1) sovellettu satunnaismuuttuja |X / ^2 ja kynnys  \lambda^2).

yleisesti ottaen ensimmäisen hetken laskemiseen käytetään yleensä odotuksen lineaarisuutta

\displaystyle {\Bbb E} X_1 + \ldots + X_n = {\Bbb E} X_1 + \ldots + {\Bbb E} X_n,

kun taas laskea toinen hetki on myös ymmärrettävä kovarianssit (jotka ovat erityisen yksinkertaisia, jos yksi olettaa pairwise riippumattomuus), kiitos identiteettien kuten

\displaystyle {\Bbb E} (X_1 + \ldots + X_n)^2 = {\Bbb E} X_1^2 + \ldots + {\Bbb E} X_n^2 + 2 \sum_{1 \leq i j \leq n} X_i X_j

tai normalisoitu muunnos

 \displaystyle {\Bf Var} (X_1 + \ldots + X_n) = {\Bf Var}(X_1) + \ldots + {\Bf Var} (X_n)

\displaystyle + 2 \sum_{1 \leq i j \leq n} {\bf Cov}(X_i,X_j). (3)

korkeammat momentit voivat periaatteessa antaa tarkempaa tietoa, mutta edellyttävät usein vahvempia oletuksia tutkittavista kappaleista, kuten yhteistä riippumattomuutta.

tässä on ensimmäisen hetken menetelmän perussovellus:

Borel-Cantellin lemma. Olkoon E_1, E_2, E_3, \ldots sellainen tapahtumien sarja, että \sum_{n=1}^\infty {\Bbb P}(E_n) on äärellinen. Silloin lähes varmasti vain finitely monet tapahtumista E_n pitävät paikkansa.

Proof. Olkoon I(E_n) tapahtuman indikaattorifunktio E_n. Tehtävämme on osoittaa, että \sum_{n=1}^\infty I(E_n) on lähes varmasti äärellinen. Mutta odotuksen lineaarisuudella tämän satunnaismuuttujan odotus on \sum_{n = 1}^\infty {\Bbb P}(E_n), joka on hypoteesin mukaan äärellinen. By Markov n epäyhtälö (1) voimme päätellä, että

\displaystyle {\Bbb p} (\sum_{n=1}^\infty I(E_n) \geq \lambda ) \leq \frac{1}{\lambda} \sum_{n=1}^\infty {\Bbb P} (E_n).

Letting  \lambda \to \infty saamme valtauksen.  \Box

palataan suurten lukujen lakiin, ensimmäisen momentin menetelmällä saadaan seuraava pyrstö sidottuna:

heidät 1. Jos {\Bbb E} / X / on äärellinen, niin

\displaystyle {\Bbb P} (|\overline{X}_n|\geq \lambda ) \leq \frac{{\Bbb E}|X/} {\lambda}.

Proof. Kolmioepäyhtälöllä  / \overline{X}_n|\leq \overline {|X/} _n. Odotuksen lineaarisuuden perusteella odotus \overline {/X/} _n on {\Bbb E} / X / . Väite seuraa nyt Markovin epäyhtälöstä.  \ Box

Lemma 1 ei ole itsessään tarpeeksi vahva todistaakseen suurten lukujen lain joko heikossa tai vahvassa muodossa – etenkään se ei osoita parannusta n: n kasvaessa suureksi – mutta on hyödyllistä käsitellä yksi noiden todisteiden virhetermeistä.

voimme saada vahvempia rajoja kuin Lemma 1 – erityisesti rajoja, jotka paranevat n: llä-X: n vahvempien oletusten kustannuksella.

Lemma 2. Jos {\Bbb E} / X / ^2 on äärellinen, niin

\displaystyle {\Bbb p}( |\overline{X}_n - {\Bbb E}(X)| \geq \lambda ) \leq \frac{ {\Bbb E}|X - {\Bbb e}(X)|^2 }{n \lambda^2}.

Proof. Standardilaskenta, joka hyödyntää (3) ja X_i: n parirependenssiä, osoittaa, että empiiristen keskiarvojen varianssi {\Bbb e} |\overline{X}_n - {\Bbb e}(X)|^2 \overline{X}_n on yhtä suuri kuin \frac{1}{n} kertaa varianssi {\BBB e} |x - {\BBB e}(x)|^2 alkuperäisen muuttujan X. väite seuraa nyt Tšebyševin epäyhtälöstä (2).  \Box

päinvastaiseen suuntaan on olemassa zeroth moment method, joka tunnetaan yleisemmin nimellä union bound

\displaystyle {\Bbb P} (E_1 \vee \ldots \Vee E_n) \leq \sum_{j=1}^n {\Bbb P} (E_j)

tai vastaavasti (selittää terminologia ”zeroth momentti”)

\displaystyle {\Bbb E} (X_1 + \ldots + X_n)^0 \leq {\Bbb E} X_1^0 + \ldots + X_n^0

ei-negatiivisille satunnaismuuttujille X_1,\ldots, X_n \geq 0. Soveltamalla tätä empiirisiin keinoihin saadaan zerothin momenttihäntä-estimaatti

{\Bbb p} (\overline{X}_n \neq 0) \leq n {\Bbb P} (X \neq 0). (4)

samoin kuin toinen momentti sidottuna (aine 2) on hyödyllinen vain silloin, kun on hyvä kontrolli X: n toiselle momentille (tai varianssille), on nollamomentin häntäarvio (3) hyödyllinen vain silloin, kun meillä on hyvä kontrolli nollamomentille {\Bbb E} |X|^0 = {\Bbb P}(X \neq 0), eli kun X on enimmäkseen nolla.

– Typistys –

toisen momentin häntäsidonnaisuus (Lemma 2) antaa jo suurten lukujen heikon lain, jos X: llä on äärellinen toinen momentti (tai vastaavasti äärellinen varianssi). Yleisesti ottaen, jos X: stä tiedetään vain, että sillä on äärellinen ensimmäinen momentti, emme voi päätellä, että X: llä on äärellinen toinen momentti. Voimme kuitenkin suorittaa katkaisun

\displaystyle X = X_{\leq n} + X_{N} (5)

X millä tahansa halutulla raja-arvolla N, jossa X_{\leq n} := X I(|X| \leq n) ja X_{n} := X I(|X| n). Ensimmäisellä termillä X_{\leq n} on äärellinen toinen momentti; itse asiassa meillä on selvästi

\displaystyle {\Bbb E} / X_{\leq n} / ^2 \leq N {\Bbb e} / X|

ja siten myös meillä on rajallinen varianssi

\displaystyle {\Bbb E} / X_{\leq n} - {\Bbb E} X_{\leq n} / ^2 \leq n {\Bbb e} / x / . (6)

toisella termillä X_{n} voi olla ääretön toinen momentti, mutta sen ensimmäinen momentti on hyvin hallittu. Itse asiassa, jonka monotoninen lähentymislause, olemme

\displaystyle {\Bbb E} / X_{n} / \To 0 \hbox{ as } n \to \infty. (7)

kolmioepäyhtälön perusteella voidaan päätellä, että ensimmäisellä termillä X_{\leq n} on odotus lähellä {\Bbb E} X:

\displaystyle {\Bbb E} X_{\leq n} \to {\Bbb E} (X) \hbox{ as } n \to \infty. (8)

nämä ovat kaikki ne työkalut, joita tarvitsemme todistaaksemme suurten lukujen heikon lain:

todiste heikosta laista. Olkoon \varepsilon 0. Riittää kun n on riittävän suuri riippuen \varepsilon, että \overline{X}_n = {\Bbb E} X + O(\varepsilon) todennäköisyydellä 1-o(\varepsilon).

From (7), (8), voidaan löytää kynnys N (riippuen \varepsilon) siten, että {\Bbb E} |X_{\geq N}| = O(\varepsilon^2) ja {\Bbb E} X_{n} = {\Bbb E} X + O(\varepsilon). Nyt käytämme (5) jakaa

\displaystyle \overline{X}_n = (\overline{X_{\geq n}})_n +(\overline{X_{ n}})_n.

ensimmäisestä hetkestä häntään sidottuna (Lemma 1)tiedetään, että (\overline{X_{\geq n}}) _n = O(\varepsilon) todennäköisyydellä 1 - o(\varepsilon). Toisesta hetkestä häntään sidottuna (aine 2) ja (6) tiedämme, että (\overline{X_{ n}})_n = {\Bbb E} X_{n} + O(\varepsilon) = {\Bbb E} X + O(\varepsilon) todennäköisyydellä 1-o(\varepsilon) jos n on riittävän suuri riippuen N: stä ja \varepsilon. Väite seuraa.  \ Box

— vahva laki –

vahva laki voidaan todistaa viemällä edellä mainittuja menetelmiä hieman pidemmälle ja käyttämällä muutamaa kikkaa lisää.

ensimmäinen kikka on todeta, että vahvan lain todistamiseksi riittää, että näin tehdään ei-negatiivisille satunnaismuuttujille X \geq 0. Itse asiassa tämä seuraa välittömästi siitä yksinkertaisesta tosiasiasta,että mikä tahansa satunnaismuuttuja X, jolla on äärellinen ensimmäinen momentti,voidaan ilmaista kahden Ei-negatiivisen satunnaismuuttujan \max(X, 0), \max(-X, 0) erotuksena äärellisestä ensimmäisestä momentista.

kun X on ei-negatiivinen, näemme, että empiiriset keskiarvot \overline{X}_n eivät voi laskea liian nopeasti n: ssä. Erityisesti toteamme, että

\displaystyle \overline{X}_m \leq (1+O(\varepsilon)) \overline{X}_n whenever (1-\varepsilon) n \leq m \leq n. (9)

tämän kvasimonotonisuuden vuoksi voimme harventaa joukkoa n, jolle meidän on todistettava vahva laki. Tarkemmin se riittää osoittamaan

vahvan suurten lukujen lain, pelkistetyn version. Olkoon X ei-negatiivinen satunnaismuuttuja, jolla on {\Bbb E} X \infty, ja olkoon 1 \leq n_1\leq n_2\leq n_3\leq\ldots kokonaislukujen jono, joka on lacunaarinen siinä mielessä, että n_{j+1}/n_j C joillekin c1 ja kaikki riittävän suuret j. silloin \overline{X}_{N_j} konvergoituu lähes varmasti {\BBB e} x.

toden totta, jos voisimme todistaa supistetun version, niin sovellettaessa tätä versiota lacunary sequence n_j := \lfloor (1 + \varepsilon)^j\rfloor ja käyttämällä (9) näkisimme, että lähes varmasti empiirinen keskiarvo \overline{X}_n ei voi poiketa enempää kuin kertovuusvirhe 1+O(\varepsilon) keskiarvosta {\Bbb E} X. Asettamalla  \varepsilon: = 1 / m m=1,2,3,\ldots (ja käyttämällä sitä, että lähes varmojen tapahtumien laskettava leikkauspiste pysyy lähes varmana) saadaan täysi vahva laki.

nyt kun sekvenssiä on harvennettu, Borel-Cantellin lemman soveltaminen käy taloudelliseksi. Itse asiassa monet sovellukset, että heidät näemme, että se riittää osoittamaan, että

\displaystyle \sum_{j=1}^\infty {\Bbb p} (\overline{X}_{N_j} \neq {\Bbb E} (X) + O( \varepsilon)) \infty (10)

äärellisen ensimmäisen momentin ei-negatiiviselle X: lle mikä tahansa lacunary sequence 1 \leq n_1 \leq n_2 \leq \ldots ja mikä tahansa \varepsilon 0.

tässä vaiheessa mennään takaisin ja sovelletaan jo toimineita menetelmiä heikon lain antamiseksi. Estimoidaksemme jokaisen pyrstötodennäköisyyden {\Bbb P} (\overline{X}_{n_j} \neq {\Bbb E} (X) + O (\varepsilon) ) suoritamme typistyksen (5) jollakin kynnyksellä N_j. Ei ole heti selvää, mitä typistystä suoritetaan, joten otamme käyttöön tavanomaisen strategian, jonka mukaan N_j jätetään toistaiseksi määrittelemättä ja optimoidaan tämä parametri myöhemmin.

pitäisi ainakin valita N_j riittävän suuri, jotta {\Bbb E} X_{ N_j} = {\Bbb E} X + O (\varepsilon). Toisen momentin pyrstöarviosta (aine 2) päätellään, että (\overline{X_{ N_j}})_{n_j} on myös sama kuin {\Bbb E} X + O( \varepsilon ) todennäköisyydellä 1-o( \frac{1}{\varepsilon n_j} {\Bbb E} |X_{\leq N_j}|^2 ). Yksi voisi yrittää yksinkertaistaa tätä ilmaisua käyttämällä (6), mutta tämä osoittautuu hieman tuhlaavaiseksi, joten olkaamme pois, että nyt. (6) viittaa kuitenkin vahvasti siihen, että haluamme N_j olevan jotain sellaista kuin n_j, mikä kannattaa pitää mielessä seuraavassa.

nyt tarkastellaan X_{\geq N_j}osuutta. Voidaan käyttää ensimmäisen momentin pyrstöarviota (aine 1), mutta osoittautuu, että ensimmäinen momentti {\Bbb E} X_{ n_j} hajoaa J: ssä liian hitaasti ollakseen suureksi hyödyksi (muista, että odotamme N_j olevan kuin lacunary sequence n_j); juuriongelma tässä on, että monotonisesta konvergenssilauseesta tuleva hajoaminen (7) on tehoton (voitaisiin efektoida tämä käyttämällä äärellistä konvergenssiperiaatetta, mutta tämä osoittautuu antaa erittäin huonoja tuloksia tässä).

mutta pelissä on vielä yksi kortti, joka on zeroth moment method tail estimate (4). Kuten aiemmin mainittiin, tämä sidottu on yleisesti surkea – mutta on erittäin hyvä, kun X on enimmäkseen nolla, mikä on juuri tilanne X_{N_j}. ja erityisesti näemme, että (\overline{X_{N_j}})_{n_j} on nolla todennäköisyydellä 1 - o( N_j {\Bbb P}(X N_j)) .

kun tämä kaikki kootaan, nähdään, että

\displaystyle {\Bbb p} (\overline{X}_{N_j} \neq {\Bbb E} (X) + O (\varepsilon ) ) \leq O (\frac{1}{\varepsilon n_j} {\Bbb E} |X_{\leq N_j}|^2 ) + O(N_j {\Bbb P} (X N_j) ).

summaamalla tämän J: ssä näemme, että homma hoituu heti, kun selvitämme, miten N_j valitaan niin, että

\displaystyle \sum_{j=1}^\infty \frac{1}{n_j} {\Bbb E} / X_{\leq N_j}|^2 (11)

ja

\displaystyle \sum_{j=1}^\infty n_j {\Bbb P} (X N_j) (12)

ovat molemmat äärellisiä. (Kuten tavallista, meillä on tradeoff: tehdä N_j suurempi tekee (12) helpompi vakiinnuttaa kustannuksella (11), ja päinvastoin, kun tehdään N_j pienempi.)

aikaisemman keskustelun perusteella on luontevaa kokeilla asetelmaa N_j: = n_j. Onneksi tämä valinta toimii puhtaasti; lacunary luonne n_j takaa (periaatteessa geometrisen sarjan kaavasta), että meillä on pistearviot

\displaystyle \sum_{j=1}^\infty \frac{1}{n_j} / X_{\leq n_j} / ^2 = O (X )

ja

\displaystyle \sum_{j=1}^\infty n_j I (X \geq n_j) = O (X )

(missä implisiittinen vakio tässä riippuu jaksosta n_1, n_2, \ldots, ja erityisesti lacunariteettivakiosta c). Väitteet (10), (11) seuraavat sitten yhdestä viimeisestä odotuksen lineaarisuuden soveltamisesta, mikä antaa vahvan suurten lukujen lain.

Huomautus 1. Edellä esitetty todiste itse asiassa osoittaa, että vahva suurten lukujen laki pätee, vaikka otettaisiin vain X_n: n pairwise-riippumattomuus yhteisen itsenäisyyden sijaan. \diamond

Huomautus 2. On tärkeää,että satunnaismuuttujat X_1, X_2,\ldots ”kierrätetään” yhdestä empiirisestä keskiarvosta \overline{X}_n seuraavaan, jotta saadaan ratkaiseva kvasimonotonisuusominaisuus (9). Jos sen sijaan otimme täysin riippumattomat keskiarvot \overline{X}_n = \frac{1}{n} (X_{n,1} + \ldots + X_{n,n} ), missä X_{i,j} ovat kaikki iid: tä, niin suurten lukujen vahva laki itse asiassa hajoaa pelkällä ensimmäisen hetken oletuksella. (Vastanäytettä varten tarkastellaan satunnaismuuttujaa X, joka on yhtä suuri kuin 2^m / m^2 todennäköisyydellä 2^{- m}kun  m=1,2,3,\ldots; tällä satunnaismuuttujalla (tuskin) on äärellinen alkumomentti, mutta n \sim 2^m/m^2 näemme, että \overline{X}_n poikkeaa vähintään absoluuttisella vakiolla keskiarvostaan todennäköisyydellä \GG 1 / m^2. Koska empiiriset keinot  \ overline{X}_n n \sim 2^m/m^2 ovat nyt yhteisesti riippumattomia, todennäköisyys sille, että joku niistä poikkeaa merkittävästi, on nyt äärimmäisen lähellä 1: tä (supereksponentiaalisesti lähellä m, itse asiassa), mikä johtaa vahvan lain täydelliseen epäonnistumiseen tässä asetelmassa.) Tietenkin, jos yksi rajoittaa huomiota lacunary järjestyksessä n sitten edellä todiste menee läpi riippumattomassa tapauksessa (koska Borel-Cantelli heidät on tunteeton tämän itsenäisyyden). Hyödyntämällä yhteistä itsenäisyyttä edelleen (esimerkiksi käyttämällä Chernoffin epäyhtälöä) voidaan saada myös vahva laki riippumattomille empiirisille keinoille koko sekvenssille n toisen momentin rajoissa. \diamond

Huomautus 3. Interpolointiteorian näkökulmasta edellä mainittua argumenttia voidaan pitää interpolointiargumenttina, jolloin saadaan  L^1estimaatti (10) interpoloimalla välillä  L^2estimaatti (aine 2) ja  L^0 estimaatti (4). \diamond

Huomautus 4. Tarkastelemalla lukujonoa X_1, X_2,\ldots stationaarisena prosessina ja näin ollen mitta-säilyvyyden erityistapauksena voidaan pitää suurten lukujen heikkoa ja vahvaa lakia vastaavasti keskiarvo-ja pointwise ergodisten teoreemojen erikoistapauksina (KS.harjoitus 9 254A Luento 8 ja lause 2 254a Luento 9).  \diamond

Vastaa

Sähköpostiosoitettasi ei julkaista.

More: