La loi forte des grands nombres

Soit X une variable aléatoire à valeur réelle, et soit  X_1, X_2, X_3,... soit une séquence infinie de copies indépendantes et identiquement distribuées de X. Soit  \overline{X}_n:=\frac{1}{n}(X_1 +\ldots +X_n) les moyennes empiriques de cette séquence. Un théorème fondamental en théorie des probabilités est la loi des grands nombres, qui se présente à la fois sous une forme faible et forte:

Loi faible des grands nombres. Supposons que le premier moment  {\Bbb E}|X| de X soit fini. Alors  \overline{X}_n converge en probabilité vers  {\Bbb E} X , donc \lim_{n\to\infty} {\Bbb P}(|\overline{X}_n-{\Bbb E} X|\geq\varepsilon) = 0 pour chaque  \varepsilon 0 .

Loi forte des grands nombres. Supposons que le premier moment  {\Bbb E}|X| de X soit fini. Alors \overline{X}_n converge presque sûrement vers  {\Bbb E}X , donc  {\Bbb P}(\lim_{n\to\infty}\overline{X}_n = {\Bbb E}X) = 1 .

( Si l’on renforce l’hypothèse du premier moment à celle de la finitude du second moment  {\Bbb E}|X|^2 , alors nous avons bien sûr un énoncé plus précis que la loi (faible) des grands nombres, à savoir le théorème central limite, mais je ne discuterai pas de ce théorème ici. Avec encore plus d’hypothèses sur X, on a de même des versions plus précises de la loi forte des grands nombres, telles que l’inégalité de Chernoff, dont je ne parlerai pas ici.)

La loi faible est facile à prouver, mais la loi forte (ce qui implique bien sûr la loi faible, par le théorème d’Egoroff) est plus subtile, et en fait la preuve de cette loi (en supposant juste la finitude du premier moment) n’apparaît généralement que dans les textes avancés. J’ai donc pensé présenter ici une preuve des deux lois, qui procède par les techniques standard de la méthode du moment et de la troncature. L’accent sera mis dans cette exposition sur la motivation et les méthodes plutôt que sur la brièveté et la force des résultats; il existe des preuves de la loi forte dans la littérature qui ont été compressées jusqu’à la taille d’une page ou moins, mais ce n’est pas mon objectif ici.

La méthode des moments cherche à contrôler les probabilités de queue d’une variable aléatoire (c’est-à-dire la probabilité qu’elle fluctue loin de sa moyenne) au moyen de moments, et en particulier le zéro, le premier ou le deuxième moment. La raison pour laquelle cette méthode est si efficace est que les premiers moments peuvent souvent être calculés assez précisément. La méthode du premier moment utilise généralement l’inégalité de Markov

\ j'ai trouvé que j'avais un problème avec la taille de l'écran, mais je n'ai pas eu de problème avec la taille de l'écran.| (1)

( qui suit en prenant des attentes de l’inégalité ponctuelle  \lambda I(/X/\geq\lambda)\leq/X/ ), alors que la deuxième méthode de moment utilise une version de l’inégalité de Tchebychev, telle que

\ j'ai trouvé que j'avais un problème avec la taille de l'écran, mais je n'ai pas eu de problème avec la taille de l'écran.|^2 (2)

( notez que (2) est juste (1) appliqué à la variable aléatoire ).

De manière générale, pour calculer le premier moment, on utilise généralement la linéarité de l’attente

\ le style d'affichage {\Bbb E} X_1 +\ldots+X_n = {\Bbb E} X_1+\ldots+{\Bbb E} X_n,

alors que pour calculer le deuxième moment, il faut également comprendre les covariances (qui sont particulièrement simples si l’on suppose une indépendance par paire), grâce à des identités telles que

\ la variante normalisée </p> est la variante normalisée </p> de l'affichage {\Bbb E} (X_1 +\ldots + X_n) ^2 = {\Bbb E} X_1^2 +\ldots + {\Bbb E} X_n ^2 +2 \sum_ {1\leq i j \leq n} X_i X_j

ou la variante normalisée

 \displaystyle {\bf Var}(X_1+\ldots+X_n) = {\bf Var}(X_1) +\ldots+ {\bf Var}(X_n)

\ displaystyle +2\sum_ {1\leq i j\leq n} {\bf Cov}(X_i, X_j) . (3)

Des moments plus élevés peuvent en principe donner des informations plus précises, mais nécessitent souvent des hypothèses plus fortes sur les objets étudiés, telles que l’indépendance conjointe.

Voici une application de base de la méthode du premier moment:

Lemme de Borel-Cantelli. Soit  E_1, E_2, E_3, \ldots une séquence d’événements telle que  \sum_{n = 1}^\infty{\Bbb P}(E_n) est finie. Alors presque sûrement, seuls de nombreux événements E_n sont vrais.

Épreuve. Soit  I(E_n) la fonction indicatrice de l’événement E_n. Notre tâche est de montrer que  \sum_{n = 1}^\infty I(E_n) est presque sûrement fini. Mais par linéarité de l’espérance, l’espérance de cette variable aléatoire est  \sum_{n = 1}^\infty{\Bbb P}(E_n) , qui est finie par hypothèse. Par l’inégalité de Markov (1), nous concluons que

\ la fonction displaystyle {\Bbb P}(\sum_{n= 1}^\infty I(E_n)\geq\lambda)\leq\frac {1}{\lambda}\sum_{n= 1}^\infty {\Bbb P}(E_n) .

Letting  \lambda\to\infty nous obtenons la réclamation. \Box

Pour revenir à la loi des grands nombres, la méthode du premier moment donne la limite de queue suivante:

Lemme 1. (Limite de la queue du premier moment) Si  {\Bbb E}/X/ est fini, alors

\ vous pouvez utiliser le code de configuration de la ligne d'affichage (|\overline{X}_n|\geq\lambda) \leq\frac {{\Bbb E}|X|}{\lambda}.

Épreuve. Par l’inégalité du triangle, est  {\Bbb E}/X/. La revendication découle maintenant de l’inégalité de Markov. \Box

Le lemme 1 n’est pas assez fort en soi pour prouver la loi des grands nombres sous forme faible ou forte – en particulier, il ne montre aucune amélioration lorsque n devient grand – mais il sera utile de gérer l’un des termes d’erreur dans ces preuves.

Nous pouvons obtenir des bornes plus fortes que le Lemme 1 – en particulier, des bornes qui s’améliorent avec n – au détriment d’hypothèses plus fortes sur X.

Lemme 2. Si  {\Bbb E}/X/^2 est fini, alors

\ la fonction displaystyle {\Bbb P}(/\overline{X}_n-{\Bbb E}(X)/\geq\lambda)\leq\frac {{\Bbb E}|X-{\Bbb E}(X)|^2} {n\lambda^2} .

Épreuve. Un calcul standard, exploitant (3) et l’indépendance par paire du X_i, montre que la variance {\Bbb E}|\overline{X}_n-{\Bbb E}(X)|^2 des moyennes empiriques  \overline{X}_n est égale à \frac{1}{n} fois la variance  {\Bbb E}| X - {\Bbb E}(X)|^2 de la variable originale X. L’affirmation découle maintenant de l’inégalité de Tchebychev (2). \Box

Dans la direction opposée, il existe la méthode du moment zéro, plus communément appelée limite d’union

\ j'ai trouvé que j'avais un problème avec la taille de l'écran, mais je ne l'ai pas fait.)

ou de manière équivalente (pour expliquer la terminologie « moment zéro »)

\ le style de visualisation {\Bbb E} (X_1+\ldots+X_n) ^0\leq {\Bbb E} X_1^0+\ldots+X_n^0

pour toutes les variables aléatoires non négatives  X_1, \ldots, X_n\geq 0 . En appliquant cela aux moyennes empiriques, nous obtenons l’estimation de la queue de moment zéro

{\ Je ne peux pas le faire, mais je ne peux pas le faire. (4)

De même que la limite du deuxième moment (Lemme 2) n’est utile que lorsque l’on a un bon contrôle sur le deuxième moment (ou variance) de X, l’estimation de la queue de moment zéro (3) n’est utile que lorsque nous avons un bon contrôle sur le moment zéro  {\Bbb E}|X|^0= {\Bbb P}(X\neq 0) , c’est-à-dire lorsque X est principalement nul.

La queue de second moment liée (Lemme 2) donne déjà la loi faible des grands nombres dans le cas où X a un second moment fini (ou de manière équivalente, une variance finie). En général, si tout ce que l’on sait sur X est qu’il a un premier moment fini, alors nous ne pouvons pas conclure que X a un deuxième moment fini. Cependant, nous pouvons effectuer une troncature

\ affichage X = X_ {\leq N} + X_ {N} (5)

de X à tout seuil souhaité N, où  X_{\leq N}: = X I(|X/\leq N) et  X_{N}: = X I(|X|N) . Le premier terme  X_{\leq N} a un second moment fini ; en effet, nous avons clairement

\ affichage {\Bbb E}/ X_ {\leq N}/^2\leq N {\Bbb E}/X|

et donc aussi nous avons une variance finie

\ le style d'affichage {\Bbb E}|X_ {\leq N} - {\Bbb E} X_ {\leq N}/^2\leq N {\Bbb E}/X/. (6)

Le deuxième terme  X_{N} peut avoir un deuxième moment infini, mais son premier moment est bien contrôlé. En effet, par le théorème de convergence monotone, on a

\ displaystyle {\Bbb E}/X_{N}/\ à 0\hbox {as} N\à \infty . (7)

Par l’inégalité du triangle, nous concluons que le premier terme  X_ {\leq N} a une espérance proche de  {\Bbb E} X:

\ displaystyle {\Bbb E} X_ {\leq N}\ à {\Bbb E}(X) \hbox {as} N\à \infty . (8)

Ce sont tous les outils dont nous avons besoin pour prouver la loi faible des grands nombres:

Preuve de la loi faible. Soit \varepsilon 0 . Il suffit de montrer que chaque fois que n est suffisamment grand selon \varepsilon , que \overline {X}_n = {\Bbb E} X +O(\varepsilon) avec probabilité  1-O(\varepsilon) .

À partir de (7), (8), on peut trouver un seuil N(dépendant de \varepsilon ) tel que  {\Bbb E}|X_{\geq N} |= O(\varepsilon^2) et  {\Bbb E} X_{N} = {\Bbb E} X +O(\varepsilon) . Maintenant, nous utilisons (5) pour diviser

\ displaystyle \overline {X}_n =(\overline{X_{\geq N}})_n+(\overline{X_{N}})_n .

Dès le premier moment lié à la queue (Lemme 1), nous savons que (\overline{X_{\geq N}}) _n = O(\varepsilon) avec probabilité  1-O(\varepsilon) . À partir du deuxième moment lié à la queue (Lemme 2) et (6), nous savons que (\overline{X_{N}}) _n = {\Bbb E} X_{N} + O(\varepsilon) = {\Bbb E} X +O(\varepsilon) avec probabilité  1-O(\varepsilon) si n est suffisamment grand en fonction de N et  \ varepsilon . La réclamation suit. \ Boîte

— La loi forte –

La loi forte peut être prouvée en poussant un peu plus loin les méthodes ci-dessus et en utilisant quelques astuces supplémentaires.

La première astuce consiste à observer que pour prouver la loi forte, il suffit de le faire pour des variables aléatoires non négatives  X\geq 0 . En effet, cela découle immédiatement du simple fait que toute variable aléatoire X à premier moment fini peut être exprimée comme la différence de deux variables aléatoires non négatives  \max(X, 0), \max(-X,0) de premier moment fini.

Une fois que X est non négatif, nous voyons que les moyennes empiriques  \overline{X}_n ne peuvent pas diminuer trop rapidement dans n. En particulier, nous observons que

\ displaystyle \overline {X} _m\leq(1 + O(\varepsilon)) \overline {X} _n chaque fois que (1-\varepsilon) n\leq m\leq n . (9)

En raison de cette quasimonotonicité, nous pouvons sparsifier l’ensemble de n pour lequel nous devons prouver la loi forte. Plus précisément, il suffit de montrer

Loi forte des grands nombres, version réduite. Soit X une variable aléatoire non négative avec  {\Bbb E} X\infty , et soit  1\leq n_1\leq n_2\leq n_3\leq\ldots une séquence d’entiers lacunaires en ce sens que n_{j+1}/n_j c pour certains c1 et tous suffisamment grands j. Alors \overline{X}_{n_j} converge presque sûrement vers {\Bbb E} X.

En effet, si nous pouvions prouver la version réduite, alors en appliquant cette version à la séquence lacunaire  n_j := \lfloor(1+ \varepsilon) ^j\rfloor et en utilisant (9), nous verrons que presque sûrement la moyenne empirique  \overline{X}_n ne peut pas s’écarter de plus d’une erreur multiplicative de  1 + O(\varepsilon) de la moyenne  {\Bbb E} X . En définissant  \varepsilon: = 1 / m pour  m = 1,2,3, \ldots (et en utilisant le fait qu’une intersection dénombrable d’événements presque sûrs reste presque sûre), nous obtenons la loi forte complète.

Maintenant que nous avons sparsifié la séquence, il devient économique d’appliquer le lemme de Borel-Cantelli. En effet, par de nombreuses applications de ce lemme on voit qu’il suffit de montrer que

\ j'ai un problème avec le fait que je n'ai pas de problème avec le fait que je n'ai pas de problème avec le fait que je n'ai pas de problème avec le fait que je n'ai pas de problème avec le fait que je n'ai pas de problème avec le fait que je n'ai pas de problème avec le fait que je n'ai pas de problème avec le fait que je n'ai pas de problème avec le fait que je n'ai pas de problème avec le fait que je n'ai pas de problème avec le fait que je n'ai pas de problème avec moi. (10)

pour X non négatif de premier moment fini, toute séquence lacunaire  1\leq n_1\leq n_2\leq\ldots et tout  \varepsilon 0 .

À ce stade, nous revenons en arrière et appliquons les méthodes qui ont déjà fonctionné pour donner la loi faible. À savoir, pour estimer chacune des probabilités de queue  {\Bbb P}(\overline{X}_{n_j}\neq{\Bbb E}(X) + O(\varepsilon)) , nous effectuons une troncature (5) à un certain seuil N_j. Il n’est pas évident immédiatement quelle troncature effectuer, nous adoptons donc la stratégie habituelle de laisser N_j non spécifié pour l’instant et d’optimiser ce paramètre plus tard.

Nous devrions au moins choisir N_j assez grand pour que  {\Bbb E} X_{N_j} = {\Bbb E} X +O(\varepsilon) . À partir de l’estimation de la queue du deuxième moment (Lemme 2), nous concluons que (\overline{X_{N_j}}) _{n_j} est également égal à  {\Bbb E} X + O(\varepsilon) avec probabilité  1-O(\frac{1} {\varepsilon n_j} {\Bbb E} | X_{\leq N_j} |^ 2) . On pourrait essayer de simplifier cette expression en utilisant (6), mais cela s’avère un peu inutile, alors retenons cela pour l’instant. Cependant, (6) suggère fortement que nous voulons prendre N_j pour quelque chose comme n_j, ce qui mérite d’être gardé à l’esprit dans ce qui suit.

Maintenant, nous examinons la contribution de  X_{\geq N_j} . On pourrait utiliser la première estimation de queue de moment (Lemme 1), mais il s’avère que le premier moment  {\Bbb E} X_{N_j} se désintègre trop lentement en j pour être d’une grande utilité (rappelons que nous nous attendons à ce que N_j soit comme la séquence lacunaire n_j); le problème racine ici est que la décroissance (7) provenant du théorème de convergence monotone est inefficace (on pourrait l’effectuer en utilisant le principe de convergence finie, mais cela se révèle donner très mauvais résultats ici).

Mais il y a une dernière carte à jouer, qui est l’estimation de la queue de la méthode du moment zéro (4). Comme mentionné précédemment, cette borne est moche en général – mais est très bonne lorsque X est principalement nul, ce qui est précisément la situation avec  X_{N_j} . et en particulier, nous voyons que (\overline{X_{N_j}}) _{n_j} est nul avec une probabilité  1-O(n_j{\Bbb P}(X N_j)) .

En mettant tout cela ensemble, nous voyons que

\ le modèle d'affichage {\Bbb P}(\overline{X}_{n_j}\neq{\Bbb E}(X) +O(\varepsilon)) \leq O(\frac{1} {\varepsilon n_j} {\Bbb E} |X_{\leq N_j}/^2) +O(n_j{\Bbb P}(X N_j)).

En résumant cela en j, nous voyons que nous aurons terminé dès que nous aurons compris comment choisir N_j pour que

\ l'affichage \sum_ {j=1}^\infty\frac {1}{n_j} {\Bbb E}/X_ {\leq N_j}|^2 (11)

et

\ j'ai un problème avec la taille de l'écran, mais j'ai un problème avec la taille de l'écran.) (12)

sont tous deux finis. (Comme d’habitude, nous avons un compromis: rendre le N_j plus grand rend (12) plus facile à établir au détriment de (11), et vice versa lorsque le N_j est plus petit.)

Sur la base de la discussion précédente, il est naturel d’essayer de définir  N_j:= n_j . Heureusement, ce choix fonctionne proprement; la nature lacunaire de n_j garantit (essentiellement à partir de la formule des séries géométriques) que nous avons les estimations ponctuelles

\ j'ai trouvé que j'avais un problème avec l'affichage de l'image, mais je ne l'ai pas fait. )

et

\ je n'ai pas de problème avec l'affichage de la valeur de la valeur de la valeur de la valeur de la valeur de la valeur de la valeur de la valeur de la valeur de la valeur de la valeur de la valeur de la valeur de la valeur de la valeur de la valeur de la valeur de la valeur de la valeur. )

( où la constante implicite dépend ici de la séquence  n_1, n_2, \ldots , et en particulier de la constante de lacunarité c). Les revendications (10), (11) découlent alors d’une dernière application de linéarité d’attente, donnant la loi forte des grands nombres.

Remarque 1. La preuve ci-dessus montre en fait que la loi forte des grands nombres tient même si l’on ne suppose que l’indépendance par paires du X_n, plutôt que l’indépendance conjointe. \ diamant

Remarque 2. Il est essentiel que les variables aléatoires  X_1, X_2, \ldots soient « recyclées » d’une moyenne empirique  \overline{X}_n à la suivante, afin d’obtenir la propriété quasimonotonique cruciale (9). Si à la place nous avons pris des moyennes complètement indépendantes  \overline{X}_n = \frac{1}{n}(X_{n, 1} + \ldots + X_{n, n}) , où les  X_{i, j} sont tous iid, alors la loi forte des grands nombres se décompose en fait avec juste une hypothèse de premier moment. (Pour un contre-exemple, considérons une variable aléatoire X qui vaut  2^m/m^2 avec une probabilité  2^{-m} pour  m = 1,2,3, \ldots ; cette variable aléatoire (à peine) a un premier moment fini, mais pour  n\sim 2^m/m^2 , on voit que  \overline{X}_n s’écarte d’au moins une constante absolue de sa moyenne avec probabilité \gg 1/m^2 . Comme les moyennes empiriques  \overline{X}_n pour  n\sim 2^m/m^2 sont maintenant conjointement indépendantes, la probabilité que l’un d’eux s’écarte significativement est maintenant extrêmement proche de 1 (super-exponentiellement proche en m, en fait), conduisant à l’échec total de la loi forte dans ce contexte.) Bien sûr, si l’on limite l’attention à une suite lacunaire de n alors la preuve ci-dessus passe par le cas indépendant (puisque le lemme de Borel-Cantelli est insensible à cette indépendance). En exploitant davantage l’indépendance conjointe (par exemple en utilisant l’inégalité de Chernoff), on peut également obtenir la loi forte pour des moyennes empiriques indépendantes pour la séquence complète n sous les limites du second moment. \ diamant

Remarque 3. Du point de vue de la théorie de l’interpolation, on peut considérer l’argument ci-dessus comme un argument d’interpolation, établissant une estimation  L^ 1 (10) en interpolant entre une estimation  L^2 (Lemme 2) et l’estimation  L^ 0 (4). \ diamant

Remarque 4. En considérant la séquence  X_1, X_2, \ldots comme un processus stationnaire, et donc comme un cas particulier d’un système de préservation des mesures, on peut considérer la loi faible et forte des grands nombres comme des cas particuliers des théorèmes ergodiques moyens et ponctuels respectivement (voir l’exercice 9 de la lecture 8 de 254A et le Théorème 2 de la lecture 9 de 254A). \ diamant

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

More: