Soit X une variable aléatoire à valeur réelle, et soit soit une séquence infinie de copies indépendantes et identiquement distribuées de X. Soit les moyennes empiriques de cette séquence. Un théorème fondamental en théorie des probabilités est la loi des grands nombres, qui se présente à la fois sous une forme faible et forte:
Loi faible des grands nombres. Supposons que le premier moment de X soit fini. Alors converge en probabilité vers , donc pour chaque .
Loi forte des grands nombres. Supposons que le premier moment de X soit fini. Alors converge presque sûrement vers , donc .
( Si l’on renforce l’hypothèse du premier moment à celle de la finitude du second moment , alors nous avons bien sûr un énoncé plus précis que la loi (faible) des grands nombres, à savoir le théorème central limite, mais je ne discuterai pas de ce théorème ici. Avec encore plus d’hypothèses sur X, on a de même des versions plus précises de la loi forte des grands nombres, telles que l’inégalité de Chernoff, dont je ne parlerai pas ici.)
La loi faible est facile à prouver, mais la loi forte (ce qui implique bien sûr la loi faible, par le théorème d’Egoroff) est plus subtile, et en fait la preuve de cette loi (en supposant juste la finitude du premier moment) n’apparaît généralement que dans les textes avancés. J’ai donc pensé présenter ici une preuve des deux lois, qui procède par les techniques standard de la méthode du moment et de la troncature. L’accent sera mis dans cette exposition sur la motivation et les méthodes plutôt que sur la brièveté et la force des résultats; il existe des preuves de la loi forte dans la littérature qui ont été compressées jusqu’à la taille d’une page ou moins, mais ce n’est pas mon objectif ici.
La méthode des moments cherche à contrôler les probabilités de queue d’une variable aléatoire (c’est-à-dire la probabilité qu’elle fluctue loin de sa moyenne) au moyen de moments, et en particulier le zéro, le premier ou le deuxième moment. La raison pour laquelle cette méthode est si efficace est que les premiers moments peuvent souvent être calculés assez précisément. La méthode du premier moment utilise généralement l’inégalité de Markov
(1)
( qui suit en prenant des attentes de l’inégalité ponctuelle ), alors que la deuxième méthode de moment utilise une version de l’inégalité de Tchebychev, telle que
(2)
( notez que (2) est juste (1) appliqué à la variable aléatoire ).
De manière générale, pour calculer le premier moment, on utilise généralement la linéarité de l’attente
,
alors que pour calculer le deuxième moment, il faut également comprendre les covariances (qui sont particulièrement simples si l’on suppose une indépendance par paire), grâce à des identités telles que
ou la variante normalisée
. (3)
Des moments plus élevés peuvent en principe donner des informations plus précises, mais nécessitent souvent des hypothèses plus fortes sur les objets étudiés, telles que l’indépendance conjointe.
Voici une application de base de la méthode du premier moment:
Lemme de Borel-Cantelli. Soit une séquence d’événements telle que est finie. Alors presque sûrement, seuls de nombreux événements sont vrais.
Épreuve. Soit la fonction indicatrice de l’événement . Notre tâche est de montrer que est presque sûrement fini. Mais par linéarité de l’espérance, l’espérance de cette variable aléatoire est , qui est finie par hypothèse. Par l’inégalité de Markov (1), nous concluons que
.
Letting nous obtenons la réclamation.
Pour revenir à la loi des grands nombres, la méthode du premier moment donne la limite de queue suivante:
Lemme 1. (Limite de la queue du premier moment) Si est fini, alors
.
Épreuve. Par l’inégalité du triangle, est . La revendication découle maintenant de l’inégalité de Markov.
Le lemme 1 n’est pas assez fort en soi pour prouver la loi des grands nombres sous forme faible ou forte – en particulier, il ne montre aucune amélioration lorsque n devient grand – mais il sera utile de gérer l’un des termes d’erreur dans ces preuves.
Nous pouvons obtenir des bornes plus fortes que le Lemme 1 – en particulier, des bornes qui s’améliorent avec n – au détriment d’hypothèses plus fortes sur X.
Lemme 2. Si est fini, alors
.
Épreuve. Un calcul standard, exploitant (3) et l’indépendance par paire du , montre que la variance des moyennes empiriques est égale à fois la variance de la variable originale X. L’affirmation découle maintenant de l’inégalité de Tchebychev (2).
Dans la direction opposée, il existe la méthode du moment zéro, plus communément appelée limite d’union
ou de manière équivalente (pour expliquer la terminologie « moment zéro »)
pour toutes les variables aléatoires non négatives . En appliquant cela aux moyennes empiriques, nous obtenons l’estimation de la queue de moment zéro
{\ Je ne peux pas le faire, mais je ne peux pas le faire. (4)
De même que la limite du deuxième moment (Lemme 2) n’est utile que lorsque l’on a un bon contrôle sur le deuxième moment (ou variance) de X, l’estimation de la queue de moment zéro (3) n’est utile que lorsque nous avons un bon contrôle sur le moment zéro , c’est-à-dire lorsque X est principalement nul.
La queue de second moment liée (Lemme 2) donne déjà la loi faible des grands nombres dans le cas où X a un second moment fini (ou de manière équivalente, une variance finie). En général, si tout ce que l’on sait sur X est qu’il a un premier moment fini, alors nous ne pouvons pas conclure que X a un deuxième moment fini. Cependant, nous pouvons effectuer une troncature
(5)
de X à tout seuil souhaité N, où et . Le premier terme a un second moment fini ; en effet, nous avons clairement
et donc aussi nous avons une variance finie
. (6)
Le deuxième terme peut avoir un deuxième moment infini, mais son premier moment est bien contrôlé. En effet, par le théorème de convergence monotone, on a
. (7)
Par l’inégalité du triangle, nous concluons que le premier terme a une espérance proche de :
. (8)
Ce sont tous les outils dont nous avons besoin pour prouver la loi faible des grands nombres:
Preuve de la loi faible. Soit . Il suffit de montrer que chaque fois que n est suffisamment grand selon , que avec probabilité .
À partir de (7), (8), on peut trouver un seuil N(dépendant de ) tel que et . Maintenant, nous utilisons (5) pour diviser
.
Dès le premier moment lié à la queue (Lemme 1), nous savons que avec probabilité . À partir du deuxième moment lié à la queue (Lemme 2) et (6), nous savons que avec probabilité si n est suffisamment grand en fonction de N et . La réclamation suit.
— La loi forte –
La loi forte peut être prouvée en poussant un peu plus loin les méthodes ci-dessus et en utilisant quelques astuces supplémentaires.
La première astuce consiste à observer que pour prouver la loi forte, il suffit de le faire pour des variables aléatoires non négatives . En effet, cela découle immédiatement du simple fait que toute variable aléatoire X à premier moment fini peut être exprimée comme la différence de deux variables aléatoires non négatives de premier moment fini.
Une fois que X est non négatif, nous voyons que les moyennes empiriques ne peuvent pas diminuer trop rapidement dans n. En particulier, nous observons que
chaque fois que . (9)
En raison de cette quasimonotonicité, nous pouvons sparsifier l’ensemble de n pour lequel nous devons prouver la loi forte. Plus précisément, il suffit de montrer
Loi forte des grands nombres, version réduite. Soit une variable aléatoire non négative avec , et soit une séquence d’entiers lacunaires en ce sens que pour certains et tous suffisamment grands j. Alors converge presque sûrement vers .
En effet, si nous pouvions prouver la version réduite, alors en appliquant cette version à la séquence lacunaire et en utilisant (9), nous verrons que presque sûrement la moyenne empirique ne peut pas s’écarter de plus d’une erreur multiplicative de de la moyenne . En définissant pour (et en utilisant le fait qu’une intersection dénombrable d’événements presque sûrs reste presque sûre), nous obtenons la loi forte complète.
Maintenant que nous avons sparsifié la séquence, il devient économique d’appliquer le lemme de Borel-Cantelli. En effet, par de nombreuses applications de ce lemme on voit qu’il suffit de montrer que
(10)
pour X non négatif de premier moment fini, toute séquence lacunaire et tout .
À ce stade, nous revenons en arrière et appliquons les méthodes qui ont déjà fonctionné pour donner la loi faible. À savoir, pour estimer chacune des probabilités de queue , nous effectuons une troncature (5) à un certain seuil . Il n’est pas évident immédiatement quelle troncature effectuer, nous adoptons donc la stratégie habituelle de laisser non spécifié pour l’instant et d’optimiser ce paramètre plus tard.
Nous devrions au moins choisir assez grand pour que . À partir de l’estimation de la queue du deuxième moment (Lemme 2), nous concluons que est également égal à avec probabilité . On pourrait essayer de simplifier cette expression en utilisant (6), mais cela s’avère un peu inutile, alors retenons cela pour l’instant. Cependant, (6) suggère fortement que nous voulons prendre pour quelque chose comme , ce qui mérite d’être gardé à l’esprit dans ce qui suit.
Maintenant, nous examinons la contribution de . On pourrait utiliser la première estimation de queue de moment (Lemme 1), mais il s’avère que le premier moment se désintègre trop lentement en j pour être d’une grande utilité (rappelons que nous nous attendons à ce que soit comme la séquence lacunaire ); le problème racine ici est que la décroissance (7) provenant du théorème de convergence monotone est inefficace (on pourrait l’effectuer en utilisant le principe de convergence finie, mais cela se révèle donner très mauvais résultats ici).
Mais il y a une dernière carte à jouer, qui est l’estimation de la queue de la méthode du moment zéro (4). Comme mentionné précédemment, cette borne est moche en général – mais est très bonne lorsque X est principalement nul, ce qui est précisément la situation avec . et en particulier, nous voyons que est nul avec une probabilité .
En mettant tout cela ensemble, nous voyons que
En résumant cela en j, nous voyons que nous aurons terminé dès que nous aurons compris comment choisir pour que
(11)
et
(12)
sont tous deux finis. (Comme d’habitude, nous avons un compromis: rendre le plus grand rend (12) plus facile à établir au détriment de (11), et vice versa lorsque le est plus petit.)
Sur la base de la discussion précédente, il est naturel d’essayer de définir . Heureusement, ce choix fonctionne proprement; la nature lacunaire de garantit (essentiellement à partir de la formule des séries géométriques) que nous avons les estimations ponctuelles
et
( où la constante implicite dépend ici de la séquence , et en particulier de la constante de lacunarité c). Les revendications (10), (11) découlent alors d’une dernière application de linéarité d’attente, donnant la loi forte des grands nombres.
Remarque 1. La preuve ci-dessus montre en fait que la loi forte des grands nombres tient même si l’on ne suppose que l’indépendance par paires du , plutôt que l’indépendance conjointe.
Remarque 2. Il est essentiel que les variables aléatoires soient « recyclées » d’une moyenne empirique à la suivante, afin d’obtenir la propriété quasimonotonique cruciale (9). Si à la place nous avons pris des moyennes complètement indépendantes , où les sont tous iid, alors la loi forte des grands nombres se décompose en fait avec juste une hypothèse de premier moment. (Pour un contre-exemple, considérons une variable aléatoire X qui vaut avec une probabilité pour ; cette variable aléatoire (à peine) a un premier moment fini, mais pour , on voit que s’écarte d’au moins une constante absolue de sa moyenne avec probabilité . Comme les moyennes empiriques pour sont maintenant conjointement indépendantes, la probabilité que l’un d’eux s’écarte significativement est maintenant extrêmement proche de 1 (super-exponentiellement proche en , en fait), conduisant à l’échec total de la loi forte dans ce contexte.) Bien sûr, si l’on limite l’attention à une suite lacunaire de n alors la preuve ci-dessus passe par le cas indépendant (puisque le lemme de Borel-Cantelli est insensible à cette indépendance). En exploitant davantage l’indépendance conjointe (par exemple en utilisant l’inégalité de Chernoff), on peut également obtenir la loi forte pour des moyennes empiriques indépendantes pour la séquence complète n sous les limites du second moment.
Remarque 3. Du point de vue de la théorie de l’interpolation, on peut considérer l’argument ci-dessus comme un argument d’interpolation, établissant une estimation (10) en interpolant entre une estimation (Lemme 2) et l’estimation (4).
Remarque 4. En considérant la séquence comme un processus stationnaire, et donc comme un cas particulier d’un système de préservation des mesures, on peut considérer la loi faible et forte des grands nombres comme des cas particuliers des théorèmes ergodiques moyens et ponctuels respectivement (voir l’exercice 9 de la lecture 8 de 254A et le Théorème 2 de la lecture 9 de 254A).