0% ont trouvé ce document utile (0 vote)
11 vues187 pages

Notes IP

Ce document traite de la théorie de la mesure et des probabilités, en abordant des concepts fondamentaux tels que la topologie, les tribus, les mesures, et l'intégrale de Lebesgue. Il présente également des théorèmes limites, la mesure produit, et les espaces Lp. La structure du document est organisée en chapitres détaillant les principes et applications de ces concepts mathématiques.

Transféré par

dj D
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
11 vues187 pages

Notes IP

Ce document traite de la théorie de la mesure et des probabilités, en abordant des concepts fondamentaux tels que la topologie, les tribus, les mesures, et l'intégrale de Lebesgue. Il présente également des théorèmes limites, la mesure produit, et les espaces Lp. La structure du document est organisée en chapitres détaillant les principes et applications de ces concepts mathématiques.

Transféré par

dj D
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Théorie de la mesure et probabilité

Basile de Loynes

25 septembre 2023

Ce document est mis à disposition selon les termes de la licence Creative


Commons “Attribution – Partage dans les mêmes conditions 4.0 Internatio-
nal”.
ii
Table des matières

Introduction vii

I Topologie et théorie de la mesure 1

1 Rappels et compléments d’analyse 3


1.1 Espaces vectoriels normés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Espaces métriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Métrique, boule ouverte, boule fermée, parties bornées . . . . . . . . . . . . . . . . 4
1.2.2 Topologie des espaces métriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.3 Notion de limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.4 Continuité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2.5 Topologies et opérations ensemblistes . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2.6 Compacité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.7 Espaces métriques complets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.3 Espaces polonais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2 Tribus, applications mesurables et mesures 25


2.1 Tribus et Applications mesurables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.1 Tribu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.2 Tribu borélienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.3 La droite achevée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.1.4 Applications mesurables, applications boréliennes . . . . . . . . . . . . . . . . . . . 29
2.1.5 Approximation des fonctions mesurables . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2 Mesures positives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.1 Définitions et propriétés élémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.2 Quelques exemples de mesures : mesures discrètes et mesure de Lebesgue . . . . . 35
2.2.3 Théorème des classes monotones, caractérisation des mesures et théorème de pro-
longement de Carathéodory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.2.4 Régularité des mesures, mesures de Borel et espaces polonais . . . . . . . . . . . . 46

3 Intégrale au sens de Lebesgue 51


3.1 Construction de l’intégrale de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.1 Intégration des fonctions étagées positives . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.2 Intégration des fonctions mesurables positives . . . . . . . . . . . . . . . . . . . . . 52
3.1.3 Intégration des fonctions mesurables . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2 L’intégrale de Lebesgue en pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2.1 L’intégrale de Lebesgue contre des mesures discrètes . . . . . . . . . . . . . . . . . 56
3.2.2 Mesures à densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.2.3 Mesure image et théorème de transfert . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.2.4 Intégrale de Riemann et intégrale de Lebesgue . . . . . . . . . . . . . . . . . . . . 59

iii
4 Théorèmes limites 63
4.1 Lemme de Fatou . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.2 Ensembles et fonctions mesurables négligeables . . . . . . . . . . . . . . . . . . . . . . . . 63
4.3 Théorème de convergence dominée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.4 Intégrale à paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

5 Mesure produit 69
5.1 Mesure produit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.2 Théorèmes de Fubini-Tonelli et de Fubini-Lebesgue . . . . . . . . . . . . . . . . . . . . . . 71
5.3 La mesure produit en application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.4 Mesure image et changement de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

6 Espaces Lp et Lp 79
6.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.2 Inégalités de Hölder et de Minkowski . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
6.3 Théorème de Radon-Nikodym . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
6.3.1 Un peu d’espace de Hilbert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
6.3.2 Lemme de Fréchet-Riesz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6.3.3 Théorème de Radon-Nikodym, cas des mesures positives . . . . . . . . . . . . . . . 86
6.3.4 Théorème de Radon-Nikodym, cas des mesures signées . . . . . . . . . . . . . . . . 88
6.4 Approximation dans les espaces Lp , p ∈ [1, ∞) . . . . . . . . . . . . . . . . . . . . . . . . 90
6.4.1 Approximation par des fonctions étagées mesurables . . . . . . . . . . . . . . . . . 90
6.4.2 Approximation par des fonctions continues à support compact . . . . . . . . . . . 91
6.4.3 Convolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

II Probabilités générales 97

7 Variables aléatoires réelles et vecteurs aléatoires 99


7.1 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
7.2 Variables aléatoires réelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
7.2.1 Intégration des variables aléatoires réelles . . . . . . . . . . . . . . . . . . . . . . . 101
7.2.2 Caractérisation de la loi d’une v.a.r. . . . . . . . . . . . . . . . . . . . . . . . . . . 104
7.2.3 Exemples de calcul de lois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
7.2.4 Classification des lois de probabilités sur R . . . . . . . . . . . . . . . . . . . . . . 110
7.2.5 Simulation de lois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
7.3 Vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
7.3.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
7.3.2 Loi d’un vecteur aléatoire, lois marginales . . . . . . . . . . . . . . . . . . . . . . . 112
7.3.3 Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
7.3.4 Lois à densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
7.3.5 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
7.3.6 Transformation des vecteurs aléatoires à densité . . . . . . . . . . . . . . . . . . . 114

8 Indépendance 115
8.1 Tribus indépendantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
8.2 Lemme de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
8.3 Variables aléatoires indépendantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
8.3.1 Définition et caractérisation élémentaire . . . . . . . . . . . . . . . . . . . . . . . . 118
8.3.2 Constructions de variables aléatoires indépendantes . . . . . . . . . . . . . . . . . 118
8.3.3 Caractérisation de l’indépendance de v.a.r. . . . . . . . . . . . . . . . . . . . . . . 120
8.4 Une application du second lemme de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . . . 122

iv
9 Fonctions caractéristiques 123
9.1 Fonction caractéristique d’une v.a.r. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
9.2 Fonctions caractéristiques et moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
9.3 Fonctions caractéristiques de vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . 126
9.4 Fonctions caractéristiques et indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

10 Vecteurs gaussiens 127


10.1 Manipulation des vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
10.2 Loi du χ2 , moyenne et variance empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . 130

11 Convergences de suites de variables aléatoires 133


11.1 Convergences trajectorielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
11.1.1 Convergence presque sûre ou presque partout . . . . . . . . . . . . . . . . . . . . . 133
11.1.2 Convergence dans Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
11.1.3 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
11.1.4 Convergence trajectorielle et critère de type Cauchy . . . . . . . . . . . . . . . . . 137
11.2 Convergence étroite et convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
11.2.1 Convergence étroite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
11.2.2 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
11.3 Loi du 0-1 de Kolmogorov et séries aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . 146

12 Loi des grands nombres et Théorème Central Limite 153


12.1 Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
12.2 Théorème Central Limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
12.3 TCL multivarié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
12.4 Applications de la loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

13 Espérance conditionnelle 163


13.1 Conditionnement par un événement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
13.2 Espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
13.3 Propriétés de l’espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
13.4 Inégalité de Jensen et de Markov conditionnelles . . . . . . . . . . . . . . . . . . . . . . . 168
13.5 Conditionnement des vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
13.6 Point de vue hilbertien des espérances conditionnelles . . . . . . . . . . . . . . . . . . . . 169
13.7 Lois conditionnelles régulières . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
13.7.1 Densité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
13.7.2 Noyau de transition et loi conditionnelle régulière . . . . . . . . . . . . . . . . . . . 171

Lois usuelles 173


13.8 Lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
13.9 Lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

v
vi
Introduction

Ces notes constituent le support d’un cours dispensé en première année de l’Ensai. L’objectif principal
de ce cours est d’introduire le formalisme moderne de la théorie des probabilités. Un cours de probabilité
moderne ne saurait se dispenser des bases solides données par la théorie de la mesure. C’est ainsi que ce
cours est découpé en deux parties : la première est dédiée la construction de l’intégrale de Lebesgue dans
le formalisme de la théorie de la mesure ; la seconde quant à elle s’attachera à introduire les concepts
fondamentaux de probabilité.
Dans l’axiomatique de la théorie de la mesure, on se donne un triplet (X, X , µ) où
— X est un ensemble ;
— X est une collection de parties de X dites parties mesurables ;
— µ est une fonction d’ensembles de X dans R+ .
On s’attachera dans la première partie du cours à définir proprement la notion de partie mesurable et
mesure. Puis, on donnera un sens aux notations
Z Z Z
f dµ, f (x) µ(dx) ou encore f (x) dx.
X R R

Au vu de la notation utilisée ci-dessus à droite, on peut s’interroger sur l’utilité de construire une
nouvelle intégrale. D’autant plus que, comme nous le verrons, toute fonction numérique réelle, intégrable
au sens de Riemann sur un intervalle [a, b] de R, est en particulier intégrable au sens de Lebesgue et
les deux intégrales coı̈ncident. Avant de décrire le contenu de ce cours, prenons le temps de discuter les
raisons nous poussant à construire une nouvelle intégrale.
Pour cela, rappelons succinctement la construction de l’intégrale de Riemann. Soit f : [a, b] → R une
fonction bornée que l’on supposera positive pour simplifier. On considère une subdivision de l’intervalle
[a, b], notée σ, a = t0 < t1 < · · · < tn−1 < tn = b. Les sommes de Darboux inférieure et supérieure
relativement à la subdivision σ sont définies respectivement par
n−1
X n−1
X
s(f, σ) = (ti+1 − ti ) inf f (x) et S(f, σ) = (ti+1 − ti ) sup f (x).
x∈[ti ,ti+1 ] x∈[ti ,ti+1 ]
i=0 i=0

En notant S l’ensemble des subdivisions de l’intervalle [a, b], une fonction f : [a, b] → R est dite intégrable
au sens de Riemann si
inf{S(f, σ) : σ ∈ S} ≤ sup{s(f, σ) : σ ∈ S}.
Rb
La valeur commune de cet infimum et ce supremum est alors notée a f (x) dx.
Cette construction a l’avantage de la simplicité, quelques lignes suffisent à définir l’intégrale de Rie-
mann. Cette simplicité est aussi son principal défaut : l’ensemble des fonctions intégrables au sens de
Riemann est trop restreint. La raison en est que l’intégrabilité au sens de Riemann impose une cer-
taine régularité sur la fonction f , celle-ci ne doit pas trop osciller au risque que les sommes de Darboux
inférieure et supérieure ne puissent coı̈ncider à la limite. C’est le cas par exemple pour f = 1[0,1]∩Q . Nous
verrons que cette dernière fonction est intégrable au sens de Lesbesgue et d’intégrale nulle. D’une manière
plus générale, pratiquement toute fonction positive peut être intégrée (dans un sens large, c’est à dire
l’intégrale peut être infinie) au sens de Lebesgue ; de telles fonctions sont dites mesurables positives ; en
fait, il y a bien un exemple de fonction de non mesurable mais sa construction utilise l’axiome du choix.
Cependant, s’il n’était seulement question que d’intégrer plus de fonctions, ce serait un peu court.
Le réel défaut de la notion d’intégrale au sens de Riemann est qu’elle n’est pas préservée par passage à
la limite : on peut exhiber une suite (fn )n≥0 croissante de fonctions Riemann intégrables qui converge

vii
simplement vers une fonction non intégrable au sens de Riemann 1 . Dans le contexte de l’intégrale de
Lebesgue, la positivité des fonctions fn suffira à donner un sens à l’intégrale de la limite. Une condition
tout aussi simple pour des fonctions non partout positives existe bien entendu. Dans le contexte Riemann,
la bonne hypothèse est en général la continuité et la convergence uniforme ; celle-ci est beaucoup trop
technique et surcharge souvent inutilement les preuves.
Ses bonnes propriétés de convergence sont sans doute à mettre à l’actif de ce que l’intégrale de
Lesbesgue est définie comme une borne supérieure ; en ce sens, on approche l’intégrale de Lebesgue par
valeurs inférieures, contrairement à l’intégrale de Riemann qui est définie via la convergence de deux suites
adjacentes. Notons en outre que lors de la démonstration du théorème de convergence monotone, nous
introduisons la fonction v = u1u≤f . Lorsque u est une fonction étagée (la fonction u admet un nombre
fini de valeurs distinctes) alors v sera également une fonction étagée. Au contraire, si u est une fonction
en escalier, c’est à dire une combinaison linéaire d’indicatrice d’ouverts, et que f est raisonnablement
pathologique il est à peu près sûr que v n’héritera pas de cette propriété.
L’intégrale de Lebesgue est aussi plus maniable pour traiter le cas de fonctions présentant des sin-
gularités ou lorsque l’intervalle [a, b] considéré n’est plus borné. Considérons l’exemple de la fonction
f (x) = √1x que l’on souhaite intégrer sur [0, 1]. Dans le contexte de l’intégrale de Riemann, on définit

Z 1 Z 1
dx dx
√ = lim √ ,
0 x ε→0 ε x

dès que la limite à droite existe. Dans ce cas précis, le théorème fondamental de l’analyse montre que
cette limite existe effectivement. Dans le contexte de l’intégrale de Lebesgue, la positivité et la régularité
R1 √
de f 2 sur ]0, 1] suffit à donner un sens à 0 dx/ x ∈ [0, ∞) ∪ {∞} 3 . Le principe consiste à approcher f
par en-dessous par des fonctions étagées positives et passer à la limite. En approchant f par en-dessous,
la singularité en 0 n’est plus véritablement un problème.
La théorie de Lebesgue date du début du siècle dernier, l’axiomatique de Kolmogorov formalisant
la théorie des probabilités dates des années trente (évidemment, nous avons pas attendu ce formalisme
pour faire du calcul de probabilités). Cette formalisation a le très grand avantage de rendre transparente
la distinction artificielle entre les probabilités discrètes et diffuses (ou continues). Ceci a coût, celui de
l’appréhension de ce morceau conceptuel que l’on appelle théorie de la mesure. Outre cette unification, ce
formalisme est rendu nécessaire lorsque les modèles probabilistes deviennent plus complexes : comment
faire du calcul de probabilités proprement sur des espaces tels que {0, 1}N ou encore sur l’espace de
fonctions C 0 ([0, 1], R) ? La théorie de la mesure met ainsi à disposition des concepts clairs pour définir
et manipuler proprement des objets aléatoires comme le mouvement brownien — Figure 1a — qui est à
la base de beaucoup de modèle de dynamiques réelles perturbées et/ou bruitées — Figures 1b, 1c et 1d.
Si nous devions citer un inconvénient de l’intégrale de Lebesgue, ce serait l’absence en tant que tel
d’un théorème fondamental de l’analyse. En réalité, c’est un faux problème puisque nous verrons que
toute fonction Riemann intégrable est Lebesgue intégrable et les intégrales coı̈ncident. Cela donne un
moyen simple de calculer explicitement, dans certains cas, l’intégrale de Lebesgue d’une fonction réelle.
Dans les cas concrets, l’ensemble X est naturellement muni d’une topologie permettant de définir les
notions de parties ouvertes, fermées, compactes ou encore les notions de convergences. La plupart du
temps, la topologie et la mesure sont définies de manière consistante si bien que des propriétés liées aux
mesures et des propriétés de nature topologique se trouvent mêlées. Nous insisterons ici essentiellement
sur le cas un peu plus restrictif mais souvent largement suffisant des espaces métriques. Néanmoins,
afin de bien distinguer les notions intrinsèquement topologiques de celles propres aux espaces métriques,
nous définirons la notion d’espace topologique et démontrerons autant que possible les résultats dans
le contexte général des espaces topologiques. Ces notions sont introduites dans le chapitre 1 donnant
quelques rappels et des compléments d’analyse. On rappelle en particulier la notion d’espace vectoriel
normé. Les espaces vectoriels normés sont en particulier des espaces métriques. On termine ce chapitre
par considérer la propriété de compacité ainsi que la notion d’espace complet.

1. Soit en effet (qn )n≥0 une énumération de [0, 1] ∩ Q et posons, pour tout n ≥ 0, fn = n
P
k=0 1{qn } . La suite (fn )n≥0
est bien monotone croissante et pour chaque n ≥ 0 est intégrable au sens de Riemann d’intégrale nulle. Enfin, la suite
(fn )n≥0 converge simplement vers 1[0,1]∩Q .
2. La fonction f est continue, mais le raisonnement est valide plus généralement pour des fonctions qui seront dites
mesurables. La fonction 1Q∩[0,1] est un exemple de telle fonction.
3. Dans la suite, l’intervalle semi-ouvert [a, b[ sera toujours noté à la mode anglo-saxonne [a, b).

viii
1.0

10
8
0.5

6
0.0
W

4
−0.5

2
0
−1.0

0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 5

Time Time

(a) Processus de Wiener. (b) Processus d’Orstein-Uhlenbeck.

25000
20000

20000
Indice Dow Jones
X

15000

15000
10000

10000

0 2 4 6 8 10 2010 2012 2014 2016 2018 2020

Time Date

(c) Modèle de Black-Scholes. (d) Indice du Dow Jones : août 2009 à août 2019.

Figure 1 – (a) Cinq réalisations du mouvement brownien W = (Wt )t≥0 aussi appelé processus de
Wiener. La variable aléatoire W est à valeurs dans l’espace des fonctions continue muni de la topologie
de la convergence uniforme sur les compacts. Le processus de Wiener est la loi limite naturelle du théorème
central limite fonctionnelle, il a un rôle similaire à la loi normale dans le cas réel. (b) Processus d’Orstein-
Uhlenbeck : (Xt )t≥0 satisfait l’Équation Différentielle Stochastique dXt = −θ(Xt − µ)dt + σdWt (θ = 2,
µ = 3, σ = 3). Le paramètre θ définit l’intensité de la force de rappel vers µ. En bleu, la version sans bruit
(σ = 0). (c) Modèle de Black-Scholes : l’EDS définissant cette dynamique est dXt = τ Xt dt + σXt dWt
(τ = 0.1, σ = 0.07). Le paramètre τ modélise le taux d’intérêt. En bleu, la version non bruitée, i.e. σ = 0.
(d) Indice du Dow Jones sur la période août 2009 à août 2019.

Le chapitre 2 est consacrée à la théorie de la mesure abstraite. Les axiomes ensemblistes de cette
théorie sont pour l’essentielle la traduction de propriétés intuitives du calcul d’aire ou de volume. L’un
des axiomes de la théorie de la mesure traduit cette assertion bien connue énonçant que le tout est la
somme de ses parties. En substance, cela signifie que pour calculer l’aire de la réunion de deux parties
disjointes il suffit de sommer les aires de chacune des deux parties. La théorie de la mesure tire toute
sa puissance de ses théorèmes limites. Ces derniers sont en réalité conséquence directe la propriété de
σ-additivité qui n’est autre que l’extension du dicton ci-dessus à des réunions dénombrables d’ensembles
disjoints. On pourra se questionner sur cette restriction aux réunions dénombrables qui paraı̂t de prime
abord arbitraire. Il s’agit en fait d’un compromis : cette restriction est suffisante car elle permet de
déduire les théorèmes limites usuels et elle est nécessaire pour des questions de consistance de la théorie.
Pour ce dernier point, sans cet artifice, il arrive que le tout ne soit pas la somme de ses parties.
À ce stade, nous avons donc à disposition une collection de parties mesurables et une mesure qui
permet de les mesurer. Ces deux ingrédients permettent de construire de façon abstraite une intégrale. Il
est important de préciser que cette construction ne donne pas de moyen pratique de calculer l’intégrale
d’une fonction arbitraire ; celle-ci est définie comme une limite qui peut être ardue à calculer explicite-
ment. Par contre cette construction est complètement agnostique quant à la nature discrète ou diffuse de
la mesure considérée ce qui permet une théorie unifiée de l’intégrale. On termine ce chapitre par préciser

ix
le sens que l’on donne à cette intégrale lorsque la mesure sous-jacente est discrète ou diffuse. Dans le
premier cas, il s’agit simplement d’une somme (une série) et dans le second, on peut considérer très
grossièrement qu’il s’agit de la l’intégrale au sens usuel. En particulier, les résultats d’interversion de
limites, d’intégration par parties etc sont valables à la fois dans le cas diffus et dans le cas discret. Il est
du reste assez remarquable que la méthode d’intégration par partie soit très souvent bien connue dans
le cas des fonctions numériques réelles mais que sa contre-partie pour les suites, appelée transformée
d’Abel, soit si souvent ignorée. Le lien entre ces deux outils sera clairement établi en exercice.
Le chapitre 4 est certainement le plus important en pratique puisqu’il établit les théorèmes d’in-
terversion limite/intégrale les plus importants : théorème de convergence monotone ou théorème de
Beppo-Lévy 4.1.1, lemme de Fatou 4.1.2 et théorème de convergence dominée de Lebesgue 4.3.1. Le
premier d’entre eux est une conséquence directe de l’hypothèse de σ-additivité dans la définition d’une
mesure. Ce théorème constitue le socle de nombreux théorème d’intégration dont le lemme de Fatou et
le théorème de convergence dominée.
Le chapitre 5 permet de munir d’une mesure un espace mesurable produit. Cette mesure est à la racine
de la notion d’intégrale multiple. De cette construction, qui n’a rien de complètement triviale, on déduit
le théorème de Fubini qui permet d’écrire l’intégrale contre la mesure produit comme une intégrale itérée
contre des mesures unidimensionnelles. On termine ce chapitre par quelques calculs pratiques d’intégrales
multiples et l’énoncé du théorème de changement de variables multidimensionnels. Cette notion de mesure
produit est à la racine de la notion d’indépendance en probabilité et sera donc retrouvée au chapitre 8.
Le dernier chapitre de cette partie (chapitre 6) est une introduction à l’analyse fonctionnelle. Outre
les inégalités usuelles, on s’intéressera au caractère complet des espaces Lp . On énoncera également le
théorème de Radon-Nikodym particulièrement important pour le formalisme des modèles paramétriques
en statistique. Ce théorème permet également de prouver l’existence de l’espérance conditionnelle qui est
la généralisation de la notion de probabilité conditionnelle aux variables aléatoires diffuses : elle donne
un sens au conditionnement par rapport à un événement de probabilité nulle (voir le chapitre 13). On
étudiera enfin les propriétés d’approximation dans les espaces Lp . À cette occasion on introduira la notion
de convolution et d’approximation de l’identité. Ce dernier chapitre utilisera intensivement les propriétés
vues au chapitre 1.
Le premier objectif de cette deuxième partie du cours est de démontrer deux théorèmes essentiels de
la théorie des Probabilités : la loi des grands nombres (Figure 2a) et le théorème central limite (Figure
2b). Ces deux théorèmes justifie a posteriori l’axiomatique introduite par Kolmogorov.
1.0

8
6
0.8

Fréquence
Sn/n

4
0.6

2
0.4

0 20 40 60 80 100 0.4 0.5 0.6 0.7

n Sn/n

(a) Loi des grands nombres (LGN). (b) Théorème central limite (TCL).

Figure 2 – (a) Loi des grands nombres : trajectoire de la moyenne Sn /n, n = 1, . . . , 100, où Sn est
le nombre de face d’une pièce équilibrée. La moyenne théorique est matérialisée en bleu. (b) Théorème
(1) (N )
central limite : la distribution empirique de (S100 /100, . . . , S100 /100), N = 104 , se rapproche d’une
distribution normale. En bleu est représentée la densité de la loi normale N (µ, σ 2 ), µ = 12 , σ 2 = 4 · 10−3 ,
2 2
e−(x−µ) /2σ
x→ √
σ 2π
.

Une notion centrale en théorie des probabilités est celle de variables aléatoires. Une variable aléatoire
n’est rien d’autre qu’une application mesurable. Une problématique récurrente en probabilité consiste
à caractériser la loi d’une variable aléatoire. Partant d’un espace probabilisé (Ω, F, P), la loi PX d’une

x
variable aléatoire X : (Ω, F, P) → (E, E) est la mesure de probabilité image de P par X. Le chapitre
7 est dédié à la caractérisation par différentes méthodes de la loi d’une variable aléatoire en particulier
lorsque celle-ci est à valeur dans R ou Rd . Il sera fait usage d’un grand nombre de notions vues dans la
première partie de ce cours.
Notons enfin que la notion de variable aléatoire est identique à celle d’observable en physique (clas-
sique). Lors d’une expérience aléatoire (ou de physique classique) l’expérimentateur n’a en général pas
accès au triplet probabiliste mais plutôt à une observation. Le triplet (Ω, F, P) est purement théorique et
doit être considéré comme une “boı̂te noire” : ce que l’expérimentateur observe réellement est la valeur
de la variable aléatoire X définie sur (Ω, F, P). En ce sens, le triplet probabiliste n’est pas un objet
canonique, plusieurs choix sont possibles : il est facile, par exemple, de construire deux triplets distincts
et une variable aléatoire sur chacun des triplets décrivant la même expérience aléatoire du pile ou face.
Le chapitre 8 introduit la notion d’indépendance. Cette notion là-encore est purement théorique en
ce sens qu’elle est difficile à exhiber dans la nature. Quoiqu’il en soit, c’est une hypothèse suffisante à
la LGN et au TCL du chapitre 12. Néanmoins, d’autres hypothèses plus faibles peuvent être faites pour
l’établissement de ces théorèmes comme par exemple dans [Kin73].
Le chapitre 9 introduit la notion de fonction caractéristique. Il s’agit ni plus ni moins de la notion de
transformée de Fourier en analyse fonctionnelle appliquée à la théorie des probabilités. La démonstration
du TCL au chapitre 12 utilise pleinement les fonctions caractéristiques. Elles permettent également
de simplifier les calculs ainsi que l’établissement de résultats théoriques telles des convergences en loi.
Au-delà de son usage en probabilités, l’analyse de Fourier ainsi que l’analyse en ondelettes, que l’on
regroupe sous la terminologie analyse du signal, trouvent de nombreuses applications en ingénierie telles
le débruitage d’un son, d’une image, la compression, l’analyse statistique de processus stochastiques.
Le chapitre 10 traite de vecteurs aléatoires, appelés vecteurs gaussiens, aux propriétés remarquables.
Ceux-ci apparaissent naturellement en de nombreuses occasions et tout particulièrement dans le TCL
multivarié énoncé au chapitre 12.
Le chapitre 11 introduit les notions de convergences trajectorielles de variables aléatoires ainsi que
celles de convergences des mesures et lois de probabilité. La première intervient dans la LGN alors
que la seconde apparaı̂t dans le TCL. De manière plus générique, la convergence trajectorielle permet
d’établir la convergence d’estimateurs statistiques et la convergence en loi permet d’établir les intervalles
de confiances correspondants. En outre, le TCL est parfois interprété comme une vitesse de convergence
dans la loi des grands nombres.
Enfin, le dernier chapitre introduit l’espérance conditionnelle. Ce chapitre est quelque peu à l’écart
des autres. C’est également un outils primordiale en théorie des probabilités et théorie des processus.
Cela permet notamment d’étudier des processus non i.i.d..

xi
xii
Première partie

Topologie et théorie de la mesure

1
Chapitre 1

Rappels et compléments d’analyse

Sauf mention contraire, dans la suite, K représente le corps des nombres réels R ou le corps des
nombres complexes C. On notera indifféremment | · | la valeur absolue ou le module selon que K = R ou
K = C.

1.1 Espaces vectoriels normés


Définition 1.1.1 (Norme). Soit E un K-espace vectoriel. Une norme sur E est une application ∥ · ∥ :
E → R+ satisfaisant
1. ∥x∥ = 0 si et seulement si x = 0 ;
2. pour tout λ ∈ K et tout x ∈ E, ∥λx∥ = |λ|∥x∥ ;
3. pour tout x, y ∈ E, ∥x + y∥ ≤ ∥x∥ + ∥y∥.
Un espace vectoriel normé est la donnée d’un couple (E, ∥ · ∥) où E est un K-espace vectoriel et ∥ · ∥
une norme sur E.
Exemple 1. 1. K muni de | · | sont des espaces vectoriels normés.
2. Pour p ≥ 1, on note ∥ · ∥p l’application définie pour tout x = (x1 , . . . , xn ) ∈ Kn

n
!1/p
X
p
∥x∥p = |xi | .
i=1

Et si p = ∞,
∥x∥∞ = max |xi |.
1≤i≤n
n
Alors l’espace K muni de ∥ · ∥p est un espace vectoriel normé.
3. Plus généralement, si S est un ensemble dénombrable, sur KS , on définit les normes
!1/p
X
p
∥x∥p = |xs | et ∥x∥∞ = sup |xs |.
s∈S
s∈S

Alors l’ensemble ℓpK = {x ∈ KS : ∥x∥p < ∞}, p ∈ [1, ∞], muni de la norme ∥ · ∥p est un espace
vectoriel normé.
4. Soit (E, ∥ · ∥E ) et (F, ∥ · ∥F ) deux espaces vectoriels normés et A : E → F un opérateur linéaire.
On définit ∥ · ∥E→F par
∥Ax∥F
∥A∥E→F = sup .
x∈E\{0} ∥x∥E

On note L(E, F ) = {A : E → F, A linéaire , ∥A∥E→F < ∞} l’espace vectoriel des opérateurs


linéaires continus de E dans F . On montre que ∥ · ∥E→F est une norme sur L(E, F ) appelée
norme subordonnée.

3
Exercice 1. Montrer que les exemples données ci-dessus définissent bien des normes.
Exercice 2. Soit (G, ∥ · ∥G ) est un troisième espace vectoriel normé. Montrer, pour tout A ∈ L(E, F ) et
B ∈ L(F, G), l’inégalité
∥BA∥E→G ≤ ∥B∥F →G ∥A∥E→F .

1.2 Espaces métriques


1.2.1 Métrique, boule ouverte, boule fermée, parties bornées
Définition 1.2.1. Soit E un ensemble. Une distance (ou métrique) d sur E est une application d :
E × E → R+ telle que :
1. d(x, y) = 0 si et seulement si x = y ;
2. pour tout x, y ∈ E, d(x, y) = d(y, x) (symétrie) ;
3. pour tout x, y, z ∈ E, d(x, y) ≤ d(x, z) + d(z, y) (inégalité triangulaire).
Un espace métrique est la donnée d’un couple (E, d) où E est un ensemble et d une distance sur E.
Proposition 1.2.2 (Deuxième inégalité triangulaire). Soit (E, d) un espace métrique, alors pour tout
x, y, z ∈ E
|d(x, z) − d(y, z)| ≤ d(x, y).
Démonstration. Nous avons par l’inégalité triangulaire et la propriété de symétrie

d(x, z) ≤ d(x, y) + d(y, z) et d(y, z) ≤ d(y, x) + d(x, z) = d(x, y) + d(x, z).

De ces deux inégalités, on déduit

−d(x, y) ≤ d(x, z) − d(y, z) ≤ d(x, y) =⇒ |d(x, z) − d(y, z)| ≤ d(x, y).

Exemple 2. 1. Si (E, ∥ · ∥) est un espace vectoriel normé alors (E, d) avec d(x, y) = ∥x − y∥, x, y ∈ E,
est un espace métrique.
2. R muni de la métrique d(x, y) = | arctan x − arctan y |, x, y ∈ E, est espace métrique.
3. R2 muni de la métrique

 ∥x − y∥2

si 0, x et y sont alignés,
δ(x, y) =
 ∥x∥2 + ∥y∥2

sinon.

4. Un ensemble E muni de la métrique discrète



 1 si x ̸= y,

d(x, y) =
 0

sinon.

5. Soit G = (V, E) un graphe fini simple non dirigé, i.e. V est un ensemble fini de nœuds et E est un
ensemble de paires {x, y} ⊂ V × V appelées arêtes. Un chemin est une suite finie (x1 , x2 , . . . , xn )
de nœuds satisfaisant, pour tout i = 1, . . . , n − 1, {xi , xi+1 } ∈ E. L’entier n est la longueur du
chemin. On note Πx,y l’ensemble des chemins de longueur finie de x à y, i.e. x1 = x et xn = y avec
les notations précédentes Si p ∈ Πx,y , on note |p| la longueur de p. On définit pour tout x, y ∈ V

d(x, y) = inf{|p| : p ∈ Πx,y }.

Alors, (V, d) est un espace métrique. Un chemin p ∈ Πx,y tel que |p| = d(x, y) est appelé géodésique.
Le graphe G est dit complet si pour tout x, y ∈ V , {x, y} ∈ E. Dans ce cas, la métrique définie
ci-dessus est la métrique discrète sur V .

4
Exercice 3. Vérifier que les exemples ci-dessus sont des espaces métriques.
Exercice 4. Montrer l’inégalité de Hölder et de Minkowski : soit p ∈ [1, ∞), soit ai , bi , i = 1, . . . , n, des
nombres réels ou complexes
Pn Pn 1/p Pn 1/q
1. Hölder : | i=1 ai bi | ≤ ( i=1 |ai |p ) ( i=1 |bi |q ) avec p1 + 1q = 1 ;
Pn 1/p Pn 1/p Pn 1/p
2. Minkowski : ( i=1 |ai + bi |p ) ≤ ( i=1 |ai |p ) + ( i=1 |bi |p ) .
Soit (E, d) un espace métrique. La boule ouverte de centre a ∈ E et de rayon r > 0, notée B(a, r) est
définie par
B(a, r) = {x ∈ E : d(a, x) < r}.
La boule fermée sera notée B(a, r) et est définie par

B(a, r) = {x ∈ E : d(a, x) ≤ r}.

Si A, B ⊂ E sont deux parties, la distance entre ces deux parties est donnée par

d(A, B) = inf{d(x, y) : x ∈ A, y ∈ B}.

On utilise en général la convention inf ∅ = ∞ si bien que cette distance vaut l’infini si et seulement si
l’une des deux parties est vide.
Proposition 1.2.3. Soit A ⊂ E une partie non vide. Alors pour tout x, y ∈ E,

|d(x, A) − d(y, A)| ≤ d(x, y).

Démonstration. C’est immédiat à partir de la proposition 1.2.2.


Le diamètre d’une partie A de E est défini par Diam A = sup{d(x, y) : x, y ∈ A}. Par convention, le
diamètre d’une partie vide est égale à −∞. Cette convention est cependant moins utile en pratique. Une
partie A ⊂ E est dite bornée si Diam A < ∞. En particulier, l’ensemble vide est borné.

1.2.2 Topologie des espaces métriques


Définition 1.2.4 (Topologie). Soit X un ensemble. Une topologie sur X est une famille de parties de X,
notée T , satisfaisant
1. ∅ ∈ T et X ∈ T ;
2. pour toute famille (Oi ∈ T )i∈I , la réunion ∪i∈I Oi ∈ T ;
3. pour toute famille finie O1 , . . . , On ∈ T , l’intersection ∩ni=1 Oi ∈ T .
Les éléments de T sont appelés les ouverts.
Exemple 3. Soit X un ensemble. Les familles T1 = {∅, X} et T2 = P(X) (ensemble des parties de X) sont
des topologies sur X appelée respectivement la topologie grossière et la topologie discrète.
Définition 1.2.5 (Ouvert). Soit (E, d) un espace métrique. Une partie A ⊂ E est ouverte si pour tout
x ∈ A, il existe r > 0 tel que B(x, r) ⊂ A.
Remarque 1. L’ensemble vide est ouvert !
Proposition 1.2.6. La boule ouverte est ouverte.
Démonstration. Soient x ∈ E, r > 0 et y ∈ B(x, r). On pose r0 = d(x, y) < r et ρ = r − r0 > 0,
alors B(y, ρ) ⊂ B(x, r). En effet, si z ∈ B(y, ρ) alors d(x, z) ≤ d(x, y) + d(y, z) < r0 + (r − r0 ) = r et
z ∈ B(x, r).
Proposition 1.2.7. Soit (E, d) un espace métrique. Une partie A ⊂ E est ouverte si et seulement si
elle est réunion de boule ouverte.
Démonstration. Une réunion arbitraire d’ouverts étant ouverte et la boule ouverte étant ouverte, la
condition est évidemment suffisante. Réciproquement, pour tout x ∈ A, il existe rx > 0 tel que B(x, rx ) ⊂
A. Alors, il est immédiat que A = ∪x∈A B(x, rx ).

5
Proposition 1.2.8. Soit (E, d) un espace métrique. La famille T = {O ⊂ E, O ouvert } définie une
topologie sur E.
Démonstration. On vérifie facilement que ∅, E ∈ T . Soit x ∈ ∪i∈I Oi , alors il existe i ∈ I tel que
x ∈ Oi . Puisque que Oi est ouvert, il existe r > 0 tel que B(x, r) ⊂ Oi ⊂ ∪i∈I Oi , d’où le résultat.
Soit x ∈ ∩i=1,...,n Oi , alors x ∈ Oi pour tout i = 1, . . . , n. Pour chaque i = 1, . . . , n, il existe ri > 0
tel que B(x, ri ) ⊂ Oi . Posons r = min ri , alors B(x, r) ⊂ B(x, ri ) pour tout i = 1, . . . , n et donc
B(x, r) ⊂ ∩i=1,...,n Oi .
Exercice 5. Soit E un ensemble. Montrer que la topologie associée à la métrique discrète est discrète.
Remarque 2. Il existe des topologies non métrisables qui peuvent être néanmoins intéressantes. Le
contexte des espaces métriques est cependant très souvent suffisant mais les énoncés s’écrivent par-
fois plus facilement dans le langage de la topologie. Dans la suite, on jonglera avec les deux notions selon
les cas.
Définition 1.2.9 (Voisinage ouvert, voisinage). Soient (X, T ) un espace topologie et A ⊂ X non vide.
1. Un voisinage ouvert de A est un ouvert contenant A ;
2. Un voisinage de A est un ensemble contenant un voisinage ouvert de A.
Si A = {x} on parle de voisinage ouvert (resp. de voisinage) de x. On notera V(x) l’ensemble des
voisinages de x.
Proposition 1.2.10. Soit (X, T ) un espace topologique. Un ensemble V ⊂ X est ouvert si et seulement
si V est voisinage de chacun de ses points.
Démonstration. La condition est évidemment suffisante. Réciproquement, pour tout x ∈ V , il existe Ux
ouvert tel que x ∈ Ux ⊂ V . Ainsi, V = ∪x∈V Ux ce qui montre que V est ouvert.
Proposition 1.2.11. Soient (E, d) un espace métrique et x ∈ E. Un ensemble V est un voisinage de x
si et seulement si il existe n ∈ N∗ tel que B(x, 1/n) ⊂ V .
Démonstration. Par définition, il existe un ouvert V ′ tel que x ∈ V ′ ⊂ V . Puisque V ′ est ouvert, il existe
r > 0 tel que B(x, r) ⊂ V ′ , donc pour tout n ∈ N∗ tel que 1/n < r, on a B(x, 1/n) ⊂ V ′ ⊂ V . La
réciproque est immédiate puisque x ∈ B(x, 1/n) ⊂ V .
Définition 1.2.12 (Base de voisinage). Soient (X, T ) un espace topologique et x ∈ X. Une collection B
est appelée base de voisinage de x si pour tout V ∈ V(x), il existe U ∈ B tel que x ∈ U ⊂ V .
La proposition 1.2.11 exprime que, dans le contexte des espaces métriques, {B(x, 1/n), n ≥ 1} est
une base de voisinage de x. En particulier, un espace métrique est à base de voisinages dénombrable :
chacun de ses points admet une base de voisinages dénombrable. C’est une des propriétés importantes
que n’ont pas les topologies en générale. Une notion duale est celle de base d’ouverts.
Définition 1.2.13 (Base d’ouverts). Une famille d’ouverts O est une base d’ouverts pour la topologie
T si tout O ∈ T est réunion d’éléments de O.
Exemple 4. Soit (E, d) un espace métrique, alors tout ouvert O ⊂ E s’écrit comme réunion de boules
ouvertes : [
O= B(x, r) où S = {(x, r) ∈ E × R+ ∗ : B(x, r) ⊂ O}.
(x,t)∈S

L’ensemble des boules ouvertes de E est donc une base d’ouverts de E.


Définition 1.2.14 (Intérieur). Soit A ⊂ E, l’intérieur de A est le plus grand ouvert contenu dans A
noté Int A.
Définition 1.2.15. L’extérieur de A ⊂ E est l’intérieur de A∁ .
Une notion duale est celle de fermé.
Définition 1.2.16 (Fermé). Une partie F ⊂ E est fermée si F ∁ est ouverte.
Proposition 1.2.17. Soit (X, T ) un espace topologique. Alors,

6
1. ∅, E sont fermés ;
2. Si (Fi )i∈I est famille infinie de fermés, alors ∩i∈I Fi est fermée.
3. Si F1 , . . . , Fn sont des fermés, alors ∪ni=1 Fi est fermé.
Démonstration. Immédiat.
Définition 1.2.18. L’adhérence d’une partie A ⊂ E est le plus petit fermé contenant A, noté A.
Remarque 3. Dans le cas d’un espace vectoriel normé sur K, l’adhérence de la boule ouverte est la boule
fermée. Dans le cas des espaces métriques, il se peut que l’adhérence de la boule ouverte ne soit pas la
boule fermée. Pour voir cela, il suffit de considérer l’ensemble E = {0, 1} muni de la métrique discrète.
Dans ce cas, la boule ouverte B(0, 1) = {0} et le plus petit fermé contenant la boule ouverte est {0}. En
revanche la boule fermée B(0, 1) = {0, 1}.
Proposition 1.2.19. Soient (X, T ) un espace topologique et A ⊂ X une partie de X. Alors

A = {x ∈ X, ∀V ∈ V(x), V ∩ A ̸= ∅} = (Ext A)∁ .

Démonstration. L’égalité suivante est immédiate :


 ∁
[ \
(Ext A)∁ =  O = O∁ .
A∁ ⊃O∈T A⊂O ∁ ∈T

En effet, il est facile de voir que la réunion sur des ouverts contenus dans A∁ n’est autre que l’intérieur de
A∁ (c’est un ouvert contenu dans A∁ et tous les ouverts contenu dans A∁ sont inclus dans la réunion), soit
l’extérieur de A. De même, l’intersection à droite est un fermé contenant A et tous les fermés contenant
A contiennent cette intersection, c’est l’adhérence de A. Ceci montre A = (Ext A)∁ .
Montrons la seconde égalité qui peut se réécrire :

{x ∈ X, ∀V ∈ V(x), V ∩ A ̸= ∅}∁ = Ext A.

Comme Ext A est ouvert, il est voisinage de chacun de ses points y ∈ Ext A, or Ext A ∩ A = ∅ puisque
Ext A ⊂ A∁ et A ∩ A∁ = ∅. On a donc trouver un voisinage de y ∈ Ext A qui n’intersecte pas A si bien
que
Ext A ⊂ {x ∈ X, ∀V ∈ V(x), V ∩ A ̸= ∅}∁ . (1.1)
Inversement, si x ∈ X est tel qu’il existe V ∈ V(x) tel que V ∩ A = ∅ alors il existe un ouvert U tel
que x ∈ U ⊂ V et U ∩ A = ∅ d’où U ⊂ A∁ si bien que U ⊂ Ext A. Ceci montre l’inclusion inverse de
(1.1).
Proposition 1.2.20. Soient (X, T ) un espace topologique et A, B ⊂ X. Alors
1. A ⊂ A,
2. A = A,
3. A ∪ B = A ∪ B,
4. A ∩ B ⊂ A ∩ B.
Exercice 6. Montrer qu’en général l’inclusion du quatrième point est stricte.
Démonstration. Le premier point découle directement de la définition puisque A est un fermé contenant
A. Pour le deuxième point, il suffit de remarquer qu’un ensemble est fermé si et seulement si il est égale
à son adhérence.
Montrons le point (3). On remarque que A∪B ⊂ A∪B par le point (1). Puisque A∪B est fermé comme
la réunion de deux fermés, c’est donc un fermé qui contient A ∪ B, ainsi A ∪ B ⊂ A ∪ B. Réciproquement,
nous avons A ⊂ A ∪ B ⊂ A ∪ B, donc A ∪ B est un fermé qui contient A. Il contient B également. Ainsi
A et B sont tout deux contenus dans A ∪ B, leur réunion l’est donc aussi : A ∪ B ⊂ A ∪ B.
Pour le point (4), nous avons A ∩ B ⊂ A ⊂ A qui est fermé. De même, A ∩ B ⊂ B ⊂ B. Comme
A ∩ B est fermé, il vient que A ∩ B ⊂ A ∩ B.

7
Proposition 1.2.21. Soient (X, T ) un espace topologique et A, B ⊂ X. Alors
1. Int A ⊂ A,
2. Int Int A = Int A,
3. Int (A ∩ B) = Int A ∩ Int B,
4. Int A ∪ Int B ⊂ Int (A ∪ B).
Exercice 7. Montrer que la dernière inclusion est stricte en général.
Démonstration. Le premier point découle directement de la définition. Pour le deuxième point, il suffit
de remarquer qu’une partie est ouverte si et seulement si elle est égale à son intérieur.
Montrons (3). Puisque Int A ⊂ A et Int B ⊂ B, il vient que l’ouvert Int A ∩ Int B est contenu dans
A ∩ B. Ainsi, Int A ∩ Int B ⊂ Int (A ∩ B) par définition de l’intérieur Réciproquement, Int (A ∩ B) ⊂
A ∩ B ⊂ A mais il est aussi contenu dans B. Puisque Int (A ∩ B) est ouvert, il est contenu dans Int A et
dans Int B, il est donc contenu dans Int A ∩ Int B.
Pour le point (4) on remarque que Int A ⊂ A ⊂ A ∪ B et Int B ⊂ B ⊂ A ∪ B. Ainsi l’ouvert
Int A ∪ Int B est contenu dans A ∪ B donc dans Int (A ∪ B).
Proposition 1.2.22. Soient (X, T ) un espace topologique et A ⊂ X. Alors
1. X \ Int A = X \ A,
2. X \ A = Int (X \ A).
Démonstration. Pour le point (1), il suffit de remarquer que si un ouvert O est contenu dans A, alors
O∁ est un fermé qui contient A∁ . Le complémentaire du plus grand ouvert contenu dans A correspond
au plus petit fermé contenant A∁ .
Le point (2) est immédiat par passage au complémentaire dans (i) appliqué à B = X \ A.

Définition 1.2.23. La frontière d’une partie A ⊂ E, notée Fr A, est définie par Fr A = A ∩ A∁ .


Proposition 1.2.24. Soit (X, T ) un espace topologique. Alors pour toute partie A ⊂ X, le triplet
(Int A, Fr A, Ext A) forme une partition de X.
Démonstration. Du fait de la définition de la frontière et de la proposition 1.2.22, on a

Fr A = A ∩ X \ A = A ∩ (X \ Int A) = A \ Int A.

Clairement X = Int A ∪ A \ Int A ∪ X \ A est une réunion disjointe dont le deuxième ensemble est Fr A
et le troisième ensemble n’est autre que Ext A puisque X \ A = Int (X \ A) par la proposition 1.2.22.
Définition 1.2.25 (Partie dense). Soit (X, T ) un espace topologique. Une partie D ⊂ X est dite dense
si D = X.
Proposition 1.2.26. Une partie D est dense dans un espace topologique (X, T ) si et seulement si pour
tout x ∈ X et tout voisinage V de x, V ∩ D ̸= ∅.
Démonstration. C’est une conséquence de la définition et de la proposition 1.2.19.
Remarque 4. Notons qu’on peut se restreindre aux voisinages ouverts.
Théorème 1.2.27 (Sous-groupe de (R, +)). Soit G un sous-groupe de (R, +). Alors G = aZ pour un
certain réel a, ou G est dense dans R.
Démonstration. Soit G un sous-groupe de (R, +). Évacuons d’entrée le cas où G est le groupe trivial
{0}. Alors il existe g ∈ G \ {0} et ou bien g > 0 ou bien g < 0. Dans ce second cas, puisque G est un
groupe, −g ∈ G et −g > 0. Aussi, G ∩ R∗+ est une partie non vide. Elle est également minorée et on note
a = inf G ∩ R∗+ qui est positif car 0 est un minorant.
Supposons d’abord a > 0 et montrons que a ∈ G. Supposons au contraire que a ∈ / G. Nous avons
2a > a si bien que 2a n’est pas un minorant de G ∩ R∗+ . Il existe donc b ∈ G tel que a < b < 2a. Mais
b n’est pas plus un minorant de G ∩ R∗+ et il existe donc de même c ∈ G tel que a < c < b < 2a. Ainsi,
b − c ∈ G ∩ R∗+ et b − c < a. C’est une contradiction au fait a est la borne inférieure de G ∩ R∗+ . Par
conséquent, a ∈ G et donc aZ ⊂ G. Il reste à montrer l’inclusion opposée.

8
Soit g ∈ G et posons n = ⌊g/a⌋ la partie entière de g/a. Par définition n ≤ g/a < n + 1 ou encore
na ≤ g < a(n + 1). Alors, 0 ≤ g − na < a. Puisque a ∈ G, na ∈ G et donc g − na ∈ G. Supposons
g ̸= na, alors 0 < g − na < a et donc g − na ∈ G ∩ R∗+ et g − na < a. C’est la même contradiction que
précédemment, donc g = na. Finalement, G ⊂ aZ.
Soit maintenant a = 0. Il s’agit de montrer que G est dense dans R. Soit x, y ∈ R avec x < y. Puisque
a = 0, il existe g ∈ G tel que 0 < g < y −x. Posons désormais n = ⌊x/g⌋+1 On obtient (n−1)g ≤ x < ng.
Alors :
x < ng = (n − 1)g + g ≤ x + g < x + (y − x) = y.
Autrement dit, pour tout x, y ∈ R tels que x < y, il existe g ∈ G tel que x < g < y. Donc G est dense
dans R par la proposition 1.2.26.

1.2.3 Notion de limites


Convergence de suite
Définition 1.2.28 (Convergence dans les espaces topologiques). Soient (X, T ) un espace topologique,
(xn )n≥0 une suite de points de X et x ∈ X. On dit que la suite (xn )n≥0 converge vers x dans (X, T ) si
pour tout voisinage V de x, il existe N ≥ 0 tel que si n ≥ N alors xn ∈ V .
Exemple 5. Si on munit X de la topologie grossière, alors toutes les suites sont convergentes. Pour la
topologie discrète, les seules suites convergentes sont les suites constantes à partir d’un certain rang.
Dans le cas des espaces métriques, nous avons la définition suivante.
Proposition 1.2.29 (Convergence dans les espaces métriques). Soit (xn )n≥0 une suite à valeurs dans
(E, d) et x ∈ E. La suite (xn )n≥0 converge vers x si et seulement si

∀ε > 0, ∃N ≥ 0 : n ≥ N =⇒ d(xn , x) < ε.

Démonstration. Exercice.
Définition 1.2.30 (Topologie séparée). Un espace topologique (X, T ) est dite séparé si pour tout x, y ∈
X, x ̸= y, il existe Vx un voisinage de x et Vy un voisinage de y tel que Vx ∩ Vy = ∅.
Lorsque la topologie sépare les points, le point vers lequel une suite converge est unique.
Proposition 1.2.31. Soit (xn )n≥0 qui converge vers x et y dans un espace topologique séparé (X, T ).
Alors x = y. Le point x est appelé limite de (xn )n≥0 et on note limn→∞ xn = x.
Démonstration. Exercice.
Proposition 1.2.32. La topologie définie par une métrique sépare les points.
Démonstration. Immédiat.
Remarque 5. Les espaces métriques jouissent de deux propriétés remarquables : l’une d’elle est le fait
que la topologie associée sépare les points ; l’autre est que chaque point admet une base de voisinage
dénombrable.
Proposition 1.2.33. Soit X un ensemble. Si T et T ′ sont deux topologies sur X telle que T ⊂ T ′ , alors
toute suite (xn )n≥0 qui converge vers x pour la topologie T ′ converge vers x pour la topologie T .
Démonstration. Immédiat.
Remarque 6. Cette proposition élémentaire est très régulièrement utilisée en probabilité mais aussi en
analyse fonctionnelle : l’idée est qu’en supprimant des ouverts (ou des fermés) à une topologie, nous
trouverons plus de suite convergente, la contrepartie étant que la convergence est plus faible : elle donne
moins d’informations.
Proposition 1.2.34 (Caractérisation séquentielle des points adhérents). Soient (E, d) un espace mé-
trique, A ⊂ E et x ∈ E. Alors, x ∈ A si et seulement il existe une suite (xn )n≥0 de points de A qui
converge vers x dans (X, d).

9
Démonstration. Soit x ∈ A, alors par la proposition 1.2.19, pour tout n ≥ 1, la boule ouverte B(x, 1/n) ∩
A ̸= ∅, il suffit donc de choisir xn dans cette intersection. De fait, d(x, xn ) → 0, d’où (xn )n≥0 converge
vers x.
Réciproquement, soit (xn )n≥0 une suite de points de A qui converge vers x ∈ X. Alors pour tout
voisinage V de x, il existe N ≥ 0 tel que pour tout n ≥ N , xn ∈ V . En particulier V ∩A ̸= ∅ et x ∈ A.
Remarque 7. Notons que la condition reste suffisante dans des espaces topologiques généraux.

Points d’accumulation, points isolés, valeurs d’adhérence


Nous avons déjà évoquer l’adhérence d’une partie A d’un espace topologie (X, T ). Un point est dit
adhérent si il est dans l’adhérence de A. Ci-dessous, nous définissons les notions de point d’accumulation,
de point isolés et de valeur d’adhérence.
Définition 1.2.35 (Points d’accumulation, points isolés). Soit (X, T ) un espace topologique et soit
A ⊂ X.
1. un point x ∈ X est un point d’accumulation si pour tout voisinage V de x, V ∩ A \ {x} =
̸ ∅;
2. un point x ∈ A est isolé dans A si il existe un voisinage V de x tel que V ∩ A = {x}.
Lorsque A est l’image d’une suite, c’est à dire A = {xn : n ≥ 0}, il existe une notion plus forte que
celle de points adhérents : ce sont les valeurs d’adhérences.
Définition 1.2.36 (Valeur d’adhérence). Soient (X, T ) un espace topologique et (xn )n≥0 une suite de
points de X. Un point x ∈ X est une valeur d’adhérence (ou point limite) si pour tout voisinage V de x,
xn ∈ V pour une infinité de n ∈ N.
Exemple 6. — La suite ((−1)n )n≥0 admet deux valeurs d’adhérences qui sont −1 et 1.
— Soient p ∈ Z, q ∈ N∗ , alors l’ensemble des valeurs d’adhérences de la suite (cos(2πnp/q))n≥0 est
{0, cos(2πp/q), . . . , cos(2πp(n − 1)/q)}.
— Ces deux exemples font intervenir des suites périodiques. Mais, on peut considérer des exemples
plus élaborés : si α ∈ / Q alors l’ensemble des valeurs d’adhérence de la suite (cos(2παn))n≥0 est
[−1, 1].
On remarque d’abord en utilisant la parité de cos que {cos(2παn), n ≥ 0} = cos(2παZ + 2πZ).
Comme la fonction x → cos(x) est une surjection continue de R dans [−1, 1]. Il suffit de montrer
que 2παZ + 2πZ est dense dans R. Or, 2παZ + 2πZ est un sous-groupe de R. Par le théorème
1.2.27, il est soit dense soit de la forme aZ pour un certain a ∈ R. Supposons qu’il soit de cette
seconde forme, alors il existe p, q ∈ Z tel que 2πα = pa et 2π = qa d’où α = p/q puisque aq ̸= 0.
C’est une contradiction avec α ∈ / Q donc 2παZ + 2πZ est dense dans R.
Le même genre de résultat est vrai pour la fonction sin à l’aide d’un déphasage d’angle π/2.
Proposition 1.2.37. Soit (xn )n≥0 une suite de (E, d). L’ensemble des valeurs d’adhérence de (xn )n≥0
est le fermé \
F = {xn , n ≥ N }.
N ≥0

Pour tout a ∈ F , il existe une suite nk qui tend vers l’infini lorsque k tend vers l’infini telle que
limk→∞ xnk = a. En particulier, une valeur d’adhérence est un point adhérent.
Démonstration. Notons AN = {xn : n ≥ N }. Par la proposition 1.2.19
\
AN = {x ∈ X : ∀ε > 0, B(x, ε) ∩ AN ̸= ∅} = {x ∈ X : B(x, ε) ∩ AN ̸= ∅}.
ε>0

D’où \ \ \ \
F = {x ∈ X : B(x, ε) ∩ AN ̸= ∅} = {x ∈ X : B(x, ε) ∩ AN ̸= ∅}.
N ≥0 ε>0 ε>0 N ≥0

C’est à dire, x ∈ F si et seulement si pour tout ε > 0, tout N ≥ 0, il existe n ≥ N tel que xn ∈ B(x, ε)
si et seulement si x est une valeur d’adhérence.
Pour la deuxième partie de la proposition, si a ∈ F alors pour k ≥ 1, on peut trouver au moins xnk
tel que d(a, xnk ) < 1/k. D’où le résultat.

10
Limites et fonctions
Définition 1.2.38. Soient (X1 , T1 ), (X2 , T2 ) deux espaces topologiques. On dit que f : X1 → X2 tend
vers b ∈ X2 quand x tend vers a ∈ X1 si pour tout voisinage W de b dans X2 il existe un voisinage V de
a dans X1 tel que f (V ) ⊂ W .

Il arrive bien souvent qu’une fonction ne soit pas définie sur tout le domaine X1 mais plutôt sur un
sous-ensemble strict A ⊂ X1 . On peut alors chercher à définir une notion de limite vers un point en
dehors de A. Typiquement, la fonction x → sin(x)/x est définie sur A = R \ {0}. Il est alors naturelle
de chercher à définir la notion de limite lorsque x tend vers 0 ce qui n’est pas possible avec la définition
donnée ci-dessus. De même, on s’intéresse souvent aux limites en +∞ ou −∞ sans pour autant que la
fonction soit définie en ces points.
La définition suivante est celle considérée classiquement : il ne s’agit de rien d’autre que la définition
ci-dessus appliquée à l’espace topologique induit (A, TA ) — voir la proposition 1.2.46 — à ceci près qu’il
faut ajouter l’hypothèse a est adhérent à A afin d’assurer que V ∩ A soit non vide — la notion serait
alors triviale.

Définition 1.2.39. Soient (X1 , T1 ), (X2 , T2 ) deux espaces topologiques et A ⊂ X1 . On dit qu’une fonction
f : A → X2 tend vers b ∈ X2 quand x tend vers a ∈ A dans X1 , x ∈ A, si pour tout voisinage W de b
dans X2 , il existe un voisinage V de a dans X1 tel que f (V ∩ A) ⊂ W .

Exemple 7. Il faut être vigilant et remarquer qu’il s’agit de la limite quand x tends vers a dans A et que
cette limite dépend a priori de A comme l’illustre l’exemple suivant.
Soit f : [0, 2] → R définie pour x ∈ [0, 2) par f (x) = x2 et f (2) = 5. Alors, limx→2,x∈[0,1]∪{2} f (x) = 5
bien que limx→2,x∈[0,2] f (x) = 4.
En effet, soit W un voisinage de 5, alors on peut poser V = B(2, 1/2) alors f (V ∩ A) = f ({2}) =
{5} ⊂ W . On montre de même la seconde limite. Les topologies étant séparées, la limite est unique et
on observe l’importance du choix de A.
Exercice 8. Une suite (xn )n≥0 à valeurs dans un espace topologique (X, T ) peut être vue comme une
fonction x : N → X. Montrer que la notion de convergence pour les fonctions coı̈ncide avec celle des
suites, en posant a = ∞ et A = N et en munissant N ∪ {∞} de la topologie dont les ouverts sont les
singletons et les complémentaires de parties finies.
Si (X2 , T2 ) est séparé, la limite d’une fonction est unique et on note : limx→A,x∈A f (x) = b.

Proposition 1.2.40. Soient (E, d) et (E ′ , d′ ) deux espaces métriques, A ⊂ E une partie de E, f : A →


E ′ une application et a ∈ A. On dit que f tend vers b ∈ E ′ quand x tend vers a dans X, x ∈ A si

∀ε > 0, ∃δ > 0, ∀x ∈ A : d(x, a) < δ =⇒ d(f (x), b) < ε.

Démonstration. Exercice.

La proposition suivante est très utile en pratique. Par simplicité, on se restreint au cadre des espaces
métriques même si certaines propriétés reste vraie dans un cadre plus général.

Proposition 1.2.41 (Caractérisation séquentielle). Soient (E, d) et (E ′ , d′ ) deux espaces métriques,


A ⊂ E une partie de E, f : A → E ′ une fonction, a ∈ A et b ∈ E ′ . Alors b = limx→a,x∈A f (x) si et
seulement si pour toute suite (xn )n≥0 ∈ AN telle que limn→∞ xn = a alors limn→∞ f (xn ) = b.

Démonstration. On se donne une suite (xn )n≥0 de points de A qui converge vers a ∈ A et on veut
montrer que (f (xn ))n≥0 converge vers b ∈ E ′ . Soit W un voisinage de b, puisque limx→a,x∈A f (x) = b, il
existe V un voisinage de a tel que f (A ∩ V ) ⊂ W . Puisque V est un voisinage de a, il existe N ≥ 0 tel
que pour tout n ≥ N , xn ∈ V et donc pour tout n ≥ N , f (xn ) ∈ W car xn ∈ V ∩ A.
Réciproquement, on suppose que f ne tend pas vers b quand x ∈ A tend vers a. C’est à dire qu’il
existe W un voisinage de b tel que pour tout voisinage de a, f (V ∩ A)∁ ∩ W ̸= ∅. En particulier, posons
Vn = B(a, 1/n), n ≥ 1, alors il existe xn ∈ B(a, 1/n) ∩ A tel que f (xn ) ∈
/ W . Mais alors, (xn )n≥0 est une
suite de points de A qui converge vers a tel que pour tout n ≥ 1, f (xn ) ∈ / W , donc (f (xn ))n≥0 ne peut
converger vers b.

11
1.2.4 Continuité
Définition 1.2.42 (Continuité ponctuelle, continuité). Soient (X, T ), (X′ , T ′ ) deux espaces topologiques
et f : X → X′ une fonction.
1. La fonction f est dite continue en x ∈ X si pour tout voisinage W de f (x) il existe un voisinage
V de x tel que f (V ) ⊂ W ;
2. La fonction f est dite continue si elle est continue en tout point x ∈ X.
Remarque 8. La continuité d’une fonction f en a ∈ X est équivalente à l’égalité limx→a,x∈A f (x) = f (a)
avec A = X.
Exercice 9. Donner une caractérisation séquentielle de la continuité.
Proposition 1.2.43. Soit (E, d) et (E ′ , d′ ) deux espaces métriques et f une application de (E, d) dans
(E ′ , d′ ). L’application f est dite continue en x ∈ E si

∀ε > 0, ∃δ > 0 : ∀y ∈ E, d(x, y) < δ =⇒ d′ (f (x), f (y)) < ε.

L’application f sera dite continue si f est continue pour tout x ∈ E.


Démonstration. C’est une condition suffisante. Soit W un voisinage de f (x), alors il existe un ouvert
O tel que f (x) ∈ O ⊂ W , et on peut trouver ε > 0 tel que f (x) ∈ B(f (x), ε) ⊂ O ⊂ W . Cela assure
l’existence d’un δ > 0 tel f (B(x, δ)) ⊂ B(f (x), ε) ⊂ W . Or, B(x, δ) est un voisinage de x.
C’est une condition nécessaire. Soit ε > 0, comme B(f (x), ε) est un voisinage de f (x), il existe un
voisinage V de x tel que f (V ) ⊂ B(f (x), ε). Or, par définition, il existe δ > 0 tel que x ∈ B(x, δ) ⊂ V
et on conclut f (B(x, δ)) ⊂ B(f (x), ε).
Proposition 1.2.44. Soient (X, T ) et (X′ , T ′ ) deux espaces topologiques. Les assertions suivantes sont
équivalentes :
1. f : X → X′ est continue ;
2. pour tout ouvert O de X′ , f −1 (O) est un ouvert de X ;
3. pour tout fermé F de X′ , f −1 (F ) est un fermé de X ;
4. pour toute partie A ⊂ X, f (A) ⊂ f (A).
Démonstration. Montrons que (i) implique (ii). Clairement, f −1 (∅) = ∅. Si O est un ouvert non vide de
X′ , alors ou bien f −1 (O) = ∅ et f −1 (O) est un ouvert de X, ou bien f −1 (O) est non vide et on peut
choisir x0 ∈ f −1 (O), autrement dit f (x0 ) ∈ O. Comme O est ouvert, c’est en particulier un voisinage de
f (x0 ). La continuité de f donne l’existence d’un voisinage V de x0 tel que x0 ∈ V ⊂ f −1 (O). Il existe
donc un ouvert Wx0 de X tel que x0 ∈ Wx0 ⊂ V ⊂ f −1 (O). On pose
[
U= Wx ,
x∈f −1 (O)

où Wx est un ouvert tel que x ∈ Wx ⊂ f −1 (O). Ainsi, U est un ouvert contenu dans f −1 (O) qui recouvre
f −1 (O) : c’est exactement f −1 (O).
Réciproquement, soient x0 ∈ X et W un voisinage de f (x0 ), il existe donc O un ouvert de X′ tel que
f (x0 ) ∈ O ⊂ W . Par hypothèse, f −1 (O) est un ouvert. De plus, x0 ∈ f −1 ({f (x0 )}) ⊂ f −1 (O), donc
f −1 (O) est un voisinage de x0 .
Il est clair que (ii) est équivalent à (iii). Il reste à montrer que (i) est équivalent à (iv). On suppose
f continue. Soit A ⊂ X, f (A) est un fermé, donc f −1 (f (A)) est un fermé par continuité. Puisque
f (A) ⊂ f (A), f −1 (f (A)) contient A, donc il contient A. Ainsi, pour tout x ∈ A, il existe y ∈ f (A) tel
que f (x) = y. Autrement dit, f (A) ⊂ f (A).
Réciproquement, soit F un fermé de X′ . On note A = f −1 (F ). Alors f (A) = f (f −1 (F )) ⊂ F . Par
hypothèse, f (A) ⊂ f (A) ⊂ F = F puisque F est fermé. Donc, A = f −1 (f (A)) ⊂ f −1 (F ) = A par
définition. Donc A = A et A est fermé.
Proposition 1.2.45. Soient (X1 , T1 ), (X2 , T2 ) et (X2 , T2 ) trois espaces topologiques. Soient f : X1 → X2
continue en x0 ∈ X1 et g : X2 → X3 continue en f (x0 ). Alors g ◦ f est continue en x0 .
Démonstration. Immédiat.

12
1.2.5 Topologies et opérations ensemblistes
Topologie induite
Proposition 1.2.46 (Topologie induite). Soient (X, T ) un espace topologique et Y une partie de X.
Alors, l’ensemble de parties donné par

TY = {O ∩ Y, O ∈ Y}

définit une topologie sur Y appelée topologie induite.

Démonstration. Immédiat.

Proposition 1.2.47 (Sous-espace métrique). Soit (E, d) un espace métrique et F ⊂ E une partie de E.
L’application d restreinte à F × F définit encore une métrique appelée métrique induite sur F . L’espace
(F, d) est appelé sous-espace métrique.

Démonstration. Immédiat.

Proposition 1.2.48. La topologie définie par la métrique induite coı̈ncide avec la topologie induite.

Démonstration. Soit O un ouvert de (F, d), alors pour tout x ∈ O, il existe ρx > 0 tel que B(x, ρx ) ∩ F ⊂
O. Ainsi, O = ∪x∈O [B(x, ρx ) ∩ F ] = (∪x∈O B(x, ρx )) ∩ F . De plus, pour tout x ∈ O, B(x, ρx ) est ouvert
dans (E, d) d’où O ∈ TF .
Réciproquement, si O ∈ TF , alors il existe O e un ouvert de (E, d) tel que O = O e ∩ F . Soit donc
x∈O=O e ∩ F alors il existe ρ > 0 tel que B(x, ρ) ⊂ O
e et donc B(x, ρ) ∩ F ⊂ O. Or B(x, ρ) ∩ F n’est
rien d’autre que la boule ouverte centrée en x ∈ F et de rayon ρ > 0 dans l’espace métrique (F, d). Ainsi,
O est un ouvert de (F, d).

De même que pour la notion de limite, une fonction définie sur une partie A d’un espace topologique
est dite continue sur A si la restriction f|A de f à A est continue sur l’espace topologique induit (A, TA ).
Le théorème suivant est alors une conséquence immédiate des définitions.

Proposition 1.2.49 (Prolongement par continuité). Soient (E, d) et (E ′ , d′ ) deux espaces métriques,
f : A ⊂ E → E ′ une fonction et a ∈ A. Alors, les assertons suivantes sont équivalentes
1. il existe une unique application continue f˜ : A ∪ {a} → E ′ qui coı̈ncident avec f sur A ;
2. f est continue sur A et limx→a,x∈A f (x) existe.

Démonstration. Exercice.

Topologie initiale, topologie produit


Définition 1.2.50 (Comparaison de topologies). Soient X un ensemble, T1 et T2 deux topologies sur X.
On dit que T2 est plus fine que T1 si T1 ⊂ T2 . On dit aussi que T1 est moins fine que T2 .

Proposition 1.2.51 (Topologie engendrée). Soit X un ensemble et O un ensemble de parties. Alors il


existe une topologie T , contenant O, qui est moins fine que toute autre topologie vérifiant cette propriété.
La topologie T est dite engendrée par O.

Démonstration. On remarque que l’intersection d’une famille arbitraire de topologie est encore une to-
pologie. On conclut en considérant la topologie définie comme l’intersection des topologies contenant
O : elle est non vide (la topologie discrète contient O) et elle est moins fine que toute autre topologie
contenant O.

Définition 1.2.52 (Topologie initiale). Soit X un ensemble et (fi )i∈I une famille d’applications chacune
définie sur X et à valeurs dans un espace topologique (Yi , Ti ). La topologie la moins fine rendant les
applications fi : X → Yi continues est appelée topologie initiale.

La topologie initiale est donc la topologie sur X engendrée par O = {fi−1 (O), i ∈ I, O ∈ Ti }. Cette
définition s’applique directement à la notion d’espace produit.

13
Q
Définition 1.2.53. Soit ((Xi , Ti ))i∈I une collection d’espaces topologique. On note X = i∈I Xi et
pi : X → Xi la projection sur la coordonnée i ∈ I qui à x = (xi )i∈I associe p(x) = xi ∈ Xi . La topologie
produit est la topologie initiale associée à la famille de projections (pi )i∈I .
Remarquons que si O est un ouvert de Xi0 alors p−1
Q
i0 (O) = i∈I Oi où Oi = Xi pour tout i ∈ I \ {i0 }.
D’autre part, une intersection finie d’ouvert
Q étant ouverte, cela mène à la définition de cylindre ouvert.
Un cylindre ouvert est une partie O = i∈I Oi , Oi ∈ Ti pour tout i ∈ I, vérifiant Oi = Xi sauf pour un
nombre fini de i ∈ I. On note T la collection des parties de X qui sont réunions de cylindre ouverts.
Proposition 1.2.54 (Topologie produit). L’ensemble T est la topologie produit sur X.
Démonstration. Il est immédiat que les projections pi , i ∈ I, sont continues de (X, T ) dans (Xi , Ti ) car,
pour tout i ∈ I, p−1 ′
i (O) est un cylindre ouvert pour tout O ∈ Ti . Soit T une topologie sur X telle que,
pour tout i ∈ I, pi est continue et considérons O ∈ T . Il est immédiat que si C est un cylindre ouvert
alors il existe un ensemble I0 ⊂ I fini et des ouverts Oi ∈ Xi , i ∈ I0 , tels que C = ∩i∈I0 p−1i (Oi ). Comme
O est par définition une réunion de tels cylindres, il vient que O est réunion d’intersections finies d’images
réciproques d’ouverts par les applications pi donc O ∈ T ′ par continuité des pi : (X, T ′ ) −→ (Xi , Ti ).
Exemple 8. Soit ((En , dn ))n∈N P une famille d’espaces métriques au
Q plus dénombrable. Soit (αn )n≥0 une
suite de réels positifs telle que n≥0 αn < ∞. On pose sur E = n∈N En la distance
X dn (xn , yn ) Y
d(x, y) = αn , x = (xn )n≥0 , y = (yn )n≥0 ∈ E = En .
1 + dn (xn , yn )
n≥0 n≥0

On définit également
1 Y
δ(x, y) = sup dn (xn , yn ) ∧ , x = (xn )n≥0 , y = (yn )n≥0 ∈ E = En . (1.2)
n≥0 1+n
n≥0

Exercice 10. Montrer que d et δ définissent des métriques sur E. Montrer que ces métriques définissent
la même topologie sur E. Quelle est-elle ?
Q
Proposition 1.2.55. Soit ((Xi , Ti ))i∈I une collection d’espaces topologiques. On note X = i∈I Xi et
pi : X → Xi la projection sur la coordonnée i ∈ I qui à x = (xi )i∈I associe pi (x) = xi ∈ Xi . Une suite
(xn )n≥0 ∈ XN converge vers x dans X muni de la topologie produit si et seulement si pour tout i ∈ I, la
suite (pi (xn ))n≥0 converge vers xi dans Xi .
Exemple 9. Soit F = R[0,1] l’ensemble des fonctions de [0, 1] dans R. On munit R de sa topologie usuelle
associée à | · | et F de la topologie produit.
Par la proposition 1.2.55, une suite de fonctions (fn )n≥0 de F converge vers f si et seulement si, pour
tout x ∈ [0, 1], fn (x) converge vers f (x). La topologie produit dans ce contexte n’est rien d’autre que la
topologie de la converge simple.
Cette topologie est séparée : si x, y ∈ F sont tels que x ̸= y alors il existe i ∈ [0, 1] tel que xi ̸= yi .
Puisque (R, | · |) est un espace métrique, c’est un espace séparé : il existe un voisinage Vxi de xi et un
voisinage Vyi de yi vérifiant Vxi ∩ Vyi = ∅. Par continuité de la projection pi , p−1 −1
i (Vxi ) et pi (Vyi ) sont
−1 −1 −1
des voisinages de x et y tels que pi (Vxi ) ∩ pi (Vyi ) = pi (Vxi ∩ Vyi ) = ∅.
Notons que l’espace F muni de la topologie produit n’est par contre pas métrisable. Pour montrer ce
fait, on cherche à contredire la caractérisation séquentielle des points adhérents.
On appelle fonction simple un élément x ∈ F tel que xi = 0 pour Q tout i ∈ [0, 1] sauf peut-être un
nombre fini. L’ensemble des fonctions simples est dense dans F : si O = i∈[0,1] Oi est un cylindre ouvert
non vide, alors seul un nombre fini d’ouverts Oi0 , . . . , OiJ , tous non vides, ne sont pas R tout entier.
Soient a0 ∈ Oi0 , . . . , aJ ∈ OiJ et posons xij = aj pour tout j = 0, . . . , J alors que xi = 0 partout ailleurs.
On constate que x est une fonction simple. Ainsi, l’ensemble des fonctions simples intersecte tous les
cylindres ouverts et donc tous les ouverts : l’ensemble des fonctions simples est dense dans F pour la
topologie produit. D’autre part, soient y ∈ F limite d’une suite de fonctions simples (y (n) )n≥0 . Alors
(m)
[
A = {i ∈ [0, 1] : yi ̸= 0} ⊂ {i ∈ [0, 1] : |yi | ≥ 2−n }.
n≥0,m≥0

Ainsi, l’ensemble A est inclus dans une réunion dénombrable d’ensembles finis et est donc dénombrable.
Ceci montre qu’une fonction non nulle sur un ensemble indénombrable ne peut être limite d’une suite de
fonctions simples. La topologie de la convergence simple ne peut donc être métrisable.

14
Démonstration. Exercice.

Proposition 1.2.56. Q Soient ((Xi , Ti ))i∈I une collection d’espaces topologique et (Y, U) un espace topo-
logique. On note X = i∈I Xi et pi : X → Xi la projection sur la coordonnée i ∈ I qui à x = (xi )i∈I
associe p(x) = xi ∈ Xi . Alors, X muni de la topologie produit, une fonction f : Y → X est continue si et
seulement si pi ◦ f : Y → Xi est continue pour tout i ∈ I.

Démonstration. Exercice.

Topologie finale, topologie quotient


Proposition 1.2.57 (Topologie finale). Soient X un ensemble, ((Xi , Ti ))i∈I une famille d’espace topolo-
giques et pour chaque i ∈ I une application fi : Xi −→ X. La topologie finale sur X associée à la famille
(fi )i∈I est la topologie
T = {O ⊂ X : ∀i ∈ I, fi−1 (O) ∈ Ti }.
C’est la topologie la plus fine rendant les applications fi continues.

Démonstration. C’est un exercice de montrer que T est la topologie la plus fine rendant les applications
fi continues.

Soit (X, T ) un espace topologique et R une relation d’équivalence sur X. On note X/R l’ensemble
quotient et π : X → X/R la projection canonique.

Définition 1.2.58 (Topologie quotient). La topologie quotient sur X/R est la topologie finale associée
à l’unique application π.

Proposition 1.2.59. Soient (X, T ) et (Y, U) deux espaces topologiques, R une relation d’équivalence
sur X et f : X/R → Y. Alors, si on munit X/R de la topologie quotient, l’application f : X/R → Y est
continue si et seulement si f ◦ π : X → Y est continue.

Démonstration. Exercice.

1.2.6 Compacité
Propriété de Borel-Lebesgue et théorème de Bolzano-Weierstrass
Définition 1.2.60 (Recouvrement ouvert). Soit (X, T ) un espace topologique. Un recouvrement ouvert
de X est une famille (Oi )i∈I d’ouverts tels que X ⊂ ∪i∈I Oi . Un sous-recouvrement ouvert est un recou-
vrement ouvert donné par une famille (Oj )j∈J avec J ⊂ I. Un recouvrement ouvert est dit fini si I est
lui-même fini.

Définition 1.2.61 (Compacité). Un espace topologique séparé (X, T ) est dit compact s’il vérifie l’une
des deux propriétés suivantes :
1. de tout recouvrement ouvert de X, on peut extraire un sous-recouvrement fini de X ;
2. de toute famille de fermés dont l’intersection est vide, on peut extraire une sous famille finie
d’intersection vide.
Une partie X ⊂ X est compacte si, muni de la topologie induite, X est un espace topologique compact.

Remarque 9. Les deux propriétés ci-dessus, appelées propriétés de Borel-Lebesgue, sont évidemment
équivalente par passage au complémentaire.
Exemple 10. Quelques exemples et contre-exemples :
— L’ensemble ∅ est compact (pour n’importe quelle métrique) ;
— (R, | · |) n’est pas compact ;
— un ensemble discret (c’est à dire muni de la métrique discrète) est compact si et seulement si il
est fini.
Remarque 10. Remarquons que la compacité est une notion purement topologique. Par conséquent, si
deux espaces topologiques sont homéomorphes — c.f. la définition 1.2.79 — alors ils sont simultanément
compacts ou non compacts.

15
Proposition 1.2.62 (Propriétés des fermés emboı̂tés). Soit (X, T ) compact et (Fn )n∈N une suite décroissante
de fermés ( i.e. Fn+1 ⊂ Fn pour tout n ≥ 0) d’intersection vide. Alors il existe N ≥ 0 tel que FN = ∅.
Remarque 11. La contraposée est particulièrement intéressante : si (Fn )n≥0 est une famille décroissante
de fermés non vides dans un espace topologique (X, T ) compact, alors ∩n≥0 Fn est (fermé) non vide.
C’est la propriétés bien connues des segments emboı̂tés dans R.
Démonstration. Soit (Fn )n≥0 une suite décroissante de fermés non vides d’un espace topologique (X, T )
compact. Par la seconde caractérisation de Borel-Lebesgue, il existe des indices n0 , . . . , nk tels que
∩kℓ=0 Fnk = ∅. Soit alors n le plus grand de ces indices, alors par décroissance ∩kℓ=0 Fnk = Fn , d’où
le résultat.
Le théorème de Bolzano-Weierstrass énoncé ci-dessous ne s’applique que dans le contexte des espaces
métriques. La deuxième assertion, appelée propriété de Bolzano-Weierstrass, est parfois posée comme
définition de la compacité.
Théorème 1.2.63 (Théorème de Bolzano-Weierstrass). Soit (E, d) un espace métrique et A ⊂ E. Alors
les assertions suivantes sont équivalentes :
1. A est compact ;
2. (BW) de toute suite (xn )n≥0 de points de A on peut extraire une sous-suite (xnk )k≥0 convergente
vers un point de A
3. tout ensemble infini B ⊂ A admet au moins un point d’accumulation dans A.
Lemme 1.2.64 (Lemme de Lebesgue). Soient (E, d) un espace métrique et (Oi )i∈I un recouvrement
ouvert de E. On suppose que (E, d) vérifie la propriété de Bolzano-Weierstrass : toute suite à valeur
dans E admet une valeur d’adhérence dans E. Alors il existe ρ > 0 tel que pour tout x ∈ E il existe
i = i(x) ∈ I tel que B(x, ρ) ⊂ Oi .
Preuve du lemme de Lebesgue. On suppose qu’un tel ρ > 0 n’existe pas. En particulier, pour tout n ≥ 1,
il existe un point xn ∈ E tel que pour tout i ∈ I, B(xn , 1/n) ∩ Oi∁ ̸= ∅. Par la propriété de Bolzano-
Weierstrass, on peut trouver une sous-suite (xnk )k≥1 qui converge vers un point x de E.
Puisque (Oi )i∈I est un recouvrement de E, il existe i ∈ I tel que x ∈ Oi . Or, Oi est ouvert donc on
peut trouver r > 0 tel que B(x, r) ⊂ Oi . De plus, par convergence de (xnk )k≥1 il existe K ≥ 1 tel que
pour tout k ≥ K, xnk ∈ B(x, r). Choisissons k ≥ K tel que 1/nk ≤ r/2 alors

B(xnk , 1/nk ) ⊂ B(x, r) ⊂ Oi .

C’est une contradiction.


Preuve du théorème de Bolzano-Weierstrass. On ne montre que l’équivalence entre les deux premiers
points. L’équivalence entre les deux derniers points est immédiate.
Montrons que (1) implique (2). Soient A compact et (xn )n≥0 une suite de points de A. On pose, pour
tout n ≥ 0, An = {xp : p > n}. Ainsi, An ⊂ A et An+1 ⊂ An . On note, pour tout n ≥ 0, Fn la fermeture
de An dans A si bien que Fn ⊂ A. Clairement, Fn+1 ⊂ Fn . Par la propriété des fermés emboı̂tés dans
les compacts, on obtient ∩n≥0 Fn ̸= ∅. Soit x ∈ ∩n≥0 Fn ⊂ A, alors x ∈ F0 = A0 . Ainsi, B(x, 1) ∩ A0 ̸= ∅
et il existe xn0 tel que d(x, xn0 ) < 1. De même, x ∈ Fn0 = An0 si bien que B(x, 1/2) ∩ An0 ̸= ∅. On
peut donc trouver n1 > n0 tel que d(x, xn1 ) < 1/2, et ainsi de suite. Nous construisons ainsi une suite
1
(xnk )k≥0 extraite de (xn )n≥0 telle que d(x, xnk ) < k+1 . Ainsi, xnk → x ∈ A.
Montrons que (2) implique (1). Soit A ⊂ E, alors puisque (E, d) est un espace métrique, E est séparé
de même que ses parties. Montrons que A satisfait la première caractérisation de Borel-Lebesgue. Soit
(Oi )i∈I un recouvrement d’ouvert (pour la topologie définie par (E, d)) de A. Soit ρ > 0 le rayon de
Lebesgue, donné par le lemme 1.2.64 de Lebesgue, associé à ce recouvrement.
Par hypothèse, A vérifie la propriété de Bolzano-Weierstrass. Soit x1 ∈ A, alors : ou bien A ⊂ B(x1 , ρ)
et c’est terminé puisque par le lemme de Lebesgue B(x1 , ρ) ⊂ Oi(x1 ) , la caractérisation de Borel-Lebesgue
est satisfaite ; sinon, il existe x2 ∈ A tel que d(x1 , x2 ) ≥ ρ. À nouveau : ou bien A ⊂ B(x1 , ρ) ∪ B(x2 , ρ),
i.e. Borel-Lebesgue est satisfaite ; ou bien il existe x3 ∈ A tel que d(xi , xj ) ≥ ρ dès i ̸= j. Au besoin,
on peut réitérer ce procédé indéfiniment, mais alors cela signifie que l’on a construit une suite (xn )n≥0
de point de A tel que d(xi , xj ) ≥ ρ dès que i ̸= j. C’est une contradiction avec la propriété de Bolzano-
Weierstrass.

16
Quelques propriétés et conséquences de la compacité
Proposition 1.2.65. Soit (X, T ) un espace topologique compact. Toute partie F ⊂ X fermée est com-
pacte.
Démonstration. La partie F ⊂ X est séparée puisque X l’est. Soit (Fi )i∈I une famille de fermés contenus
dans F et d’intersection vide. Si F est fermé, (Fi )i∈I = (F ∩ Fi )i∈I est également une famille de fermés
de X d’intersection vide. On peut donc en extraire une sous-famille finie F1 , . . . , Fn tels que ∩N
i=1 Fi , d’où
le résultat.
Proposition 1.2.66. Soient (X, T ) un espace topologique séparé et K ⊂ X un compact. Alors K est
fermé.
Démonstration. Il s’agit de montrer que X\K est ouvert. Soit x ∈ X\K. Pour tout y ∈ K, par hypothèse
de séparation, il existe un voisinage ouvert Ox,y de x et Oy de y tel que Ox,y ∩Oy = ∅. Aussi K ⊂ ∪y∈K Oy ,
puis par compacité, on peut trouver y1 , . . . , yN tel que K ⊂ ∪N N
i=1 Oyi . On pose Ox = ∩i=1 Ox,yi qui est
un voisinage ouvert de x vérifiant
N
!
[
∅ = Ox ∩ Oyi ⊃ Ox ∩ K.
i=1

D’où le résultat.
Proposition 1.2.67 (Théorème de Borel-Lebesgue). Tout segment [a, b] est compact dans R muni de
sa topologie usuelle.
Démonstration. Soit (Oi )i∈I un recouvrement ouvert de [a, b]. On note

A = {x ∈ [a, b] : [a, x] soit recouvert par un nombre fini de Oi , i ∈ I}.

Alors, A satisfait les trois assertions suivantes :


1. A ⊂ [a, b] ;
2. A ̸= ∅ ;
3. A est majoré par b.
Les premiers et troisièmes points sont des conséquences directes de la définition. Le second point, quant
à lui, s’obtient en remarquant que a ∈ A puisqu’il existe ia ∈ I tel que a ∈ Oia . On note m = sup A. On
va montrer que m ∈ A, puis que m = b.
Comme m ∈ [a, b] ⊂ ∪i∈I Oi , il existe im ∈ I tel que m ∈ Oim . Ainsi, on peut trouver ε > 0 tel que
(m − ε, m + ε) ⊂ Oim et par définition de la borne supérieure, il existe x ∈ A ∩ (m − ε, m + ε). Ensuite,
en observant que [a, m] = [a, x] ∪ [x, m] et que x ∈ A, on obtient que le premier intervalle peut être
recouvert par un nombre fini de Oi et le deuxième intervalle par l’ouvert Oim . Finalement, m ∈ A.
Supposons que m < b et choisissons ε > 0 tel que m + ε < b et m ∈ (m − ε, m + ε) ⊂ Oim . Soit
x ∈ (m, m + ε), puis on décompose comme précédemment l’intervalle [a, x] = [a, m] ∪ [m, x]. On constate
que [m, x] est recouvert par Oim et que [a, m] peut être recouvert par un nombre fini Oi puisque m ∈ A.
Manifestement, m < sup A, d’où m = b.
Corollaire 1.2.68. Soit E un K-espace vectoriel normé de dimension finie. Les parties compacts de E
sont les parties fermés bornés.
Démonstration. On considère seulement R muni de la norme | · |. L’extension aux K-espaces vectoriels
normés de dimension finie est élémentaire.
Soit K une partie compacte
S de R qui est séparé. Alors K est fermée par la proposition 1.2.66. De
plus, on observe que K ⊂ m≥0 B(0, m). Par compacité, de ce recouvrement par des ouverts, on peut
extraire un sous-recouvrement fini. Ainsi, il existe m0 ≥ 0 tel que K ⊂ B(0, m0 ) et K est une partie
bornée.
Réciproquement, si K est fermé et borné, alors K ⊂ [a, b] pour certains réels a < b. Les propositions
1.2.67 et 1.2.65 permettent de conclure.
Proposition 1.2.69. Soit (X, T ) un espace topologique séparé. Alors

17
1. toute réunion finie de compacts est compacte ;
2. toute intersection de compacts est compacte.

Démonstration. Puisque (X, T ) est séparé, il en va de même pour toutes ses parties.
Soient K1 , . . . , KN des compacts et (Oi )i∈I un recouvrement ouvert de ∪N j=1 Kj . C’est aussi un re-
couvrement d’ouvert de Kj pour tout j = 1, . . . , N . Pour chaque j = 1, . . . , N , on peut trouver un sous
recouvrement fini O1j , . . . ON
j
j
de Kj . Alors,

N Nj
N [
[ [
Kj ⊂ Oℓj ,
j=1 j=1 ℓ=1

si bien que (Oℓj )j=1,...,N,ℓ=1,...,Nj est un recouvrement ouvert finie de l’union.


Soient (Ki )i∈I une famille de compacts et (Fj )j∈J des fermés contenus dans ∩i∈I Ki tel que ∩j∈J Fj =
∅. Soit i0 ∈ I, alors (Fj )j∈J est une famille de fermés contenus dans Ki0 , par compacité, on peut en
extraire une sous-famille finie F1 , . . . , FN de fermés tels que ∩N
j=1 Fj = ∅. Ainsi ∩i∈I Ki est compact.

Proposition 1.2.70. Soient (X1 , T1 ) un espace topologique, (X2 , T2 ) un espace topologique séparé et
f : X1 → X2 une application continue. Alors f (K) est compacte pour tout compact K ⊂ X1 .

Démonstration. Tout d’abord, f (K) est séparée puisque T2 sépare les points. Soit (Oi )i∈I un recouvre-
ment ouvert de f (K), alors par continuité, (f −1 (Oi ))i∈I est recouvrement ouvert de K. On peut extraire
un recouvrement ouvert fini f −1 (O1 ), . . . , f −1 (ON ) de K. On montre que les ouverts O1 , . . . , ON recouvre
−1 −1
f (K) : soit x ∈ f (K) tel que x ∈ ∩N ∁
i=1 Oi , alors f ({x}) ⊂ ∩N
i=1 f (Oi )∁ . On a ainsi trouvé y ∈ K tel
−1
 ∁
que y ∈ ∪N i=1 f (Oi ) . Contradiction.

Corollaire 1.2.71. Soit f : (X, T ) → R une application continue où (X, T ) est un espace topologique
compact non vide. Alors f est bornée et atteint ses bornes.

Démonstration. La fonction f est à valeurs dans R un espace métrique donc séparé, il s’ensuit que f (X)
est séparé. Par la proposition précédente, f (X) est donc compacte, or les compacts de R sont les fermés
bornées. Ainsi, f est bornée. De plus supx∈X f (x) et inf x∈X f (x) sont dans f (X) = f (X), ainsi f atteint
ses bornes.

Exercice 11. Soit f : (E, d) → R une fonction continue strictement positive, c’est à dire {x ∈ E : f (x) ≤
0} = ∅. Montrer que si (E, d) est compact, il existe δ > 0 tel que f (x) ≥ δ pour tout x ∈ E.

Définition 1.2.72 (Espace topologique séparable). Un espace topologique (X, T ) est dit séparable si il
existe une partie dense au plus dénombrable.

Remarque 12. Il ne faut pas confondre “séparable” et “séparé”.

Corollaire 1.2.73. Tout espace métrique compact est séparable.

Démonstration. Pour tout n ≥ 1, la famille O = {B(x, 1/n) : x ∈ X} est certainement un recouvrement


ouvert, par compacité, on peut extraire un sous-recouvrement fini : il existe pn points x1 , . . . , xpn tels que
la famille finie d’ouverts {B(xi , 1/n), i = 1, . . . , pn } soit un recouvrement. On note pour chaque n ≥ 1,
Cn l’ensemble des points xi choisis. Alors, D = ∪n≥1 Cn est dénombrable. Montrons qu’il est dense : soit
x ∈ X alors pour tout n ≥ 1, il existe yn ∈ Cn ⊂ D tel que x ∈ B(yn , 1/n). Autrement dit, d(x, yn ) < 1/n
et (yn )n≥1 converge vers x.

Q Soit ((Xi , Ti ))i∈I une famille d’espaces topologiques com-


Théorème 1.2.74 (Théorème de Tychonoff).
pacts, alors, muni de la topologie produit, i∈I Xi est compact.

Exemple 11. Soit K un compact de R. L’ensemble F = K [0,1] des fonctions à valeurs dans un compact
K, muni de la topologie de la convergence simple, est compact.

18
Démonstration. On va se contenter de montrer le théorème dans le cas d’une famille dénombrable
((En , dn ))n≥0 d’espaces métriques. Si la famille est non dénombrable, la preuve de ce théorème fait
appel à l’axiome du choix. Le cas non métrique est également un peu pénible car on ne peut pas utiliser
la caractérisation de Bolzano-Weierstrass. Q
On considère donc l’espace produit E = n≥0 En muni de la topologie produit (associée par exemple
à la métrique δ définie par (1.2)) et on cherche à montrer la propriété de Bolzano-Weierstrass. Soit
(n)
(xk )k≥0 une suite de points de E, pour chaque k ≥ 0, on note xk la n-ième coordonnée de xk .
(0)
Puisque E0 est compact, on peut trouver ϕ0 : N → N strictement croissante telle que xϕ0 (k) converge
vers x(0) . De même, puisque E1 est compact, la propriété de Bolzano-Weierstrass appliquée à (xϕ0 (k) )k≥0
(1) (0)
donne l’existence de ϕ1 : N → N telle que xϕ1 (k) converge vers x(1) mais également xϕ1 (k) converge vers
x(0) .
En répétant le procédé indéfiniment, nous construisons ϕn : N → N, n ≥ 0, strictement croissante telle
(ℓ) (ℓ)
que pour tout n ≥ 0 et tout ℓ = 0, . . . , n, xϕn (k) converge vers x(ℓ) . On vérifie facilement que (xϕn (n) )n≥0
converge pour tout ℓ ∈ N, c’est à dire (xϕn (n) )n≥0 converge dans la topologie produit.

Remarque 13. Ce principe d’extraction successive s’appelle principe de la suite diagonale de Cantor.

Théorème de Heine et digression


Définition 1.2.75 (Continuité uniforme). Une fonction f : (E, d) → (E ′ , d′ ) est uniformément continue
si
∀ε > 0, ∃δ > 0 : ∀x, y ∈ E, d(x, y) < δ =⇒ d′ (f (x), f (y)) < ε.

Définition 1.2.76 (Application lipschitzienne). Une application f : (E, d) → (E ′ , d′ ) est dite lipschit-
zienne si il existe K > 0 tel que pour tout x, y ∈ E, d′ (f (x), f (y)) ≤ Kd(x, y). Une telle fonction est dite
K-lipschitzienne.

On remarque que si f est K-lipschitzienne, alors elle est K ′ -lipschitzienne pour toute K ′ ≥ K. La
plus petite constante K telle que f est K-lipschitzienne est appelée constante de Lipschitz.

Proposition 1.2.77. Soit f : (E, d) → (E ′ , d′ ). Alors,


1. si f est lipschitzienne, f est uniformément continue ;
2. si f est uniformément continue, f est continue.

Démonstration. Immédiat.

Exemple 12. Soit (E, d) un espace métrique et A ⊂ E non vide. Alors, l’application qui à x ∈ E associe
à d(x, A) dans R muni de la métrique | · | est 1-lipschitzienne.

Définition 1.2.78. Une application f : (E, d) → (E ′ , d′ ) est une isométrie si pour tout x, y ∈ E,
d′ (f (x), f (y)) = d(x, y).

Définition 1.2.79. Une application f : (E, d) → (E ′ , d′ ) est un homéomorphisme si f est bijective et f


et f −1 sont continues. On dit que (E, d) et (E ′ , d′ ) sont homéomorphes.
Si l’application identité id : (E, d) → (E, d′ ) est continue, on dit que d définit une topologie plus fine
que d′ . Si id est un homéomorphisme alors on dit que d et d′ sont topologiquement équivalente. Si id
et sa réciproque sont uniformément continue, on dit que d et d′ sont uniformément équivalente. Enfin, si
id et sa réciproque sont lipschitziennes, on dit que d et d′ sont métriquement équivalente.

Proposition 1.2.80. Si d et d′ sont métriquement équivalente alors d et d′ sont uniformément équiva-


lente.

Démonstration. Exercice.

Théorème 1.2.81 (Théorème de Heine). Soient (E, d) un espace métrique compact, (E ′ , d′ ) un espace
métrique et f : E → E ′ une application continue. Alors f est uniformément continue sur E.

Démonstration. Exercice.

19
1.2.7 Espaces métriques complets
Si les notions de limites, de continuité, de compacité peuvent se définir dans le contexte général des
espaces topologiques, la notion de suite de Cauchy est spécifique aux espaces métriques.

Définition 1.2.82 (Suite de Cauchy). Soit (E, d) un espace métrique. Une suite (xn )n≥0 à valeur dans
E est dite de Cauchy si elle vérifie la propriété suivante, appelée propriété de Cauchy,

∀ε > 0, ∃N ∈ N : p, q ≥ N =⇒ d(xp , xq ) < ε.

Remarque 14. Une autre formulation pour une suite de Cauchy est la suivante : (xn )n≥0 est de Cauchy
si et seulement si limn→∞ supp≥0 d(xn+p , xn ) = 0.
Exemple 13. Toute suite convergente à valeurs dans un espace métrique vérifie la propriété de Cauchy.

Proposition 1.2.83. Toute suite de Cauchy a au plus une valeur d’adhérence.

Démonstration. Soient x, y ∈ X deux valeurs d’adhérences d’une suite de Cauchy (xn )n≥0 . Alors, pour
tout n, m ∈ N
d(x, y) ≤ d(x, xn ) + d(xn , xm ) + d(xm , y).
Soit ε > 0, il existe N ≥ 0 tel que n, m ≥ N implique d(xn , xm ) < ε/3. Puisque x, y sont des valeurs
d’adhérence, il existe n ≥ N tel que d(x, xm ) < ε/3, de même il existe m ≥ N tel que d(y, xn ) < ε/3.
Finalement, d(x, y) < ε. Comme ε > 0 peut être choisis arbitrairement petit, on obtient d(x, y) = 0 et
x = y.

Définition 1.2.84 (Espace métrique complet). Un espace métrique (E, d) est complet si toute suite de
Cauchy est convergente.

Exercice 12. Montrer que (Q, | · |) n’est pas complet.

Proposition 1.2.85 (Propriété fondamentale des espaces de Baire). Soient (E, d) un espace métrique
complet et (Fn )n≥0 est une suite décroissante de fermés non vides dont le diamètre tend vers 0, alors
∩n≥0 Fn est un singleton.

Démonstration. Pour chaque n ≥ 0, on choisit un point xn ∈ Fn . Soit ε > 0, il existe N ≥ 0 tel que
n ≥ N implique Diam Fn < ε, mais alors n, m ≥ N implique d(xn , xm ) ≤ Diam Fn < ε. Autrement dit,
(xn )n≥0 est une suite de Cauchy donc admet une unique valeur d’adhérence x ∈ X. Par la proposition
1.2.37, \ \
{x} = {xm : m ≥ n} ⊂ Fn .
n≥0 n≥0

Pour l’inclusion inverse, il suffit de voir que si y ∈ ∩n≥0 Fn alors d(x, y) ≤ Diam Fn pour tout n ≥ 0.
D’où x = y.

Proposition 1.2.86. (R, | · |) est complet.

Démonstration. Soit (xn )n≥0 une suite réelle vérifiant la propriété de Cauchy, alors An = {xk : k ≥ n}
est une suite décroissante de parties de R. De plus, An est borné pour tout n ≥ 0. En effet, pour tout
ε > 0, il existe N ≥ 0 tel que |xp − xN | < ε dès que p ≥ N , d’où
 
sup |xk | ≤ max max |xi |, ε + |xN | = rε , An ∈ B(0, rε ).
k≥0 i=0,...,N

On note αn = inf An et βn = sup An alors Diam An = βn − αn . Comme (xn )n≥0 est une suite de Cauchy,
Diam An → 0.
La suite (αn )n≥0 est croissante majorée, (βn )n≥0 est décroissante minorée, elles sont convergentes.
On note α et β leurs limites respectives. Comme Diam An = βn − αn tend vers 0, on a en fait α = β.
D’où xn → α = β.

Remarque 15. C’est donc la propriété du supremum et de l’infimum dans R qui permet de conclure.

20
Remarque 16. La notion de complétude dépend explicitement de la métrique, aussi la complétude est
une notion métrique et non topologique. En particulier, on peut trouver des exemples de métriques
définissant la même topologie sans être pour autant simultanément complète ou non complète.

Définition 1.2.87. Un K-espace vectoriel normé E est un espace de Banach s’il est complet pour la
métrique associée à la norme sur E.

Les démonstrations des trois propositions suivantes sont renvoyées en exercice de travaux dirigés.

Proposition 1.2.88. Tout K-espace vectoriel normé de dimension finie est un espace de Banach.

Proposition 1.2.89. L’espace (CK ([0, 1]), ∥ · ∥∞ ) est un espace de Banach.

Proposition 1.2.90. Soit p ∈ [1, ∞] et S un ensemble discret. Alors ℓp (S) est un espace de Banach.

Définition 1.2.91. Soit (un )n≥0 une suite d’élément d’un espace vectoriel normé (E, ∥ · ∥). On dit que
la série de terme général un converge si la suite des sommes partielles converge au sens de la topologie
induit par la norme. On dit qu’elle converge absolument si la série de terme général ∥un ∥ converge dans
R.

Proposition 1.2.92. Un espace vectoriel normé (E, ∥ · ∥) est un espace de Banach si et seulement si
toute série absolument convergente converge.

C’est précisément cette caractérisation que l’on utilisera dans le chapitre 6 pour montrer la complétude
des espaces Lp .

Démonstration. Supposons que E est un espace de Banach, alors on vérifie que la suite (Sn )n≥0 des
sommes partielles est de Cauchy, pour q > p ≥ n :

q
X q
X ∞
X
∥Sq − Sp ∥ ≤ uk ≤ ∥uk ∥ ≤ ∥uk ∥ →n→∞ 0.
k=p+1 k=p+1 k=n+1

La propriété de complétude implique la convergence de la série.


Réciproquement, considérons une suite de Cauchy (un )n≥0 . On peut en extraire une sous-suite (vn )n≥0
telle que ∥vn+1 − vn ∥ ≤ 2−n . Ainsi, la série de terme générale vn+1 − vn est absolument convergente donc
convergente par hypothèse. Autrement dit, la suite extraite (vn )n≥0 converge, or une suite de Cauchy
admet au plus une valeur d’adhérence donc la suite (xn )n≥0 converge également. Ainsi, (E, ∥ · ∥) est
complet.

La proposition suivante montre que la complétude est une notion métrique en opposition à la com-
pacité qui était une notion topologique.

Proposition 1.2.93. Soit (E, d) un espace métrique complet. Alors, pour toute métrique δ métriquement
équivalente à d sur E, (E, δ) est complet.

Démonstration. Immédiat.

Proposition 1.2.94. Tout produit dénombrable d’espaces métriques ((En , dn ))n≥0 complets est complet
pour la métrique

X dn (xn , yn ) Y
d(x, y) = 2−n , (x, y) = ((xn )n≥0 , (yn )n≥0 ) ∈ En .
n=0
1 + dn (xn , yn )
n≥0

Q
Démonstration. Si (xk )k≥0 est une suite de Cauchy à valeurs dans n≥0 En , alors pour tout n ≥ 0,
(n) (n)
(xk )k≥0 est de Cauchy dans (En , dn ) complet donc converge vers x . Il est immédiat que (xk )k≥0
converge vers x = (x(n) )n≥0 .

Proposition 1.2.95. Tout espace métrique compact est complet.

21
Démonstration. Une suite de Cauchy admet au plus une valeur d’adhérence. Or dans un espace métrique
compact, par Bolzano-Weierstrass, toute suite admet au moins une valeur d’adhérence. Donc une suite de
Cauchy dans un espace métrique compact admet exactement une valeur d’adhérence, elle est convergente.

Proposition 1.2.96. Dans un espace métrique complet, les parties complètes sont exactement les parties
fermées.
Démonstration. Exercice.
Définition 1.2.97. Un espace métrique (E, d) est pré-compact si

[
∀ε > 0, ∃x1 , . . . , xNε ∈ E : E⊂ B(xi , ε).
i=1

Proposition 1.2.98. Tout espace métrique pré-compact complet est compact.


Démonstration. On va montrer la propriété de Bolzano-Weierstrass, on considère donc (xn )n≥0 une
suite dans l’espace pré-compact (E, d). Soit ε = 1/2, alors il existe y1 ∈ E tel que B(y1 , 1/2) contient
une infinité de points xn , on note (xϕ1 (n) )n≥0 cette suite extraite. Elle vérifie, pour tout n, m ≥ 0,
d(xϕ1 (n) , xϕ1 (m) ) ≤ 1.
On réitère le procédé avec ε = 1/4 : on trouve une suite (xϕ2 (n) )n≥0 de (xϕ1 (n) )n≥0 vérifiant
d(xϕ2 (n) , xϕ2 (m) ) ≤ 1/2 pour tout n, m ≥ 0.
Ainsi, nous construisons successivement des sous-suites (xϕk (n) )n≥0 satisfaisant, pour tout n, m,
d(xϕk (n) , xϕk (m) ) < 1/k. On considère la suite diagonale (xϕn (n) )n≥0 extraite de (xn )n≥0 et les termes
d’indices n ≥ k sont extraits de la suite (xϕk (n) )n≥0 donc d(xϕn (n) , xϕm (m) ) < 1/k dès que m, n ≥ k.
Par conséquence, c’est une suite de Cauchy dans un espace complet donc elle converge. La propriété de
Bolzano-Weierstrass est vérifiée.
Proposition 1.2.99. Soient E, F deux K-espace vectoriel normés. On suppose que F est un espace de
Banach, alors LK (E, F ) muni de la norme subordonnée est complet. En particulier, le dual topologique
d’un K-espace vectoriel normé est un espace de Banach.
Cette proposition est démontrée en travaux dirigés.
Théorème 1.2.100 (Prolongement). Soient (E, d), (E ′ , d′ ) deux espaces métriques, A ⊂ E une partie
dense dans E, f : A → E ′ une application uniformément continue. Si (E ′ , d′ ) est complet alors f se
prolonge de manière unique en une fonction f˜ : E → E ′ (uniformément) continue sur E.
Démonstration. Unicité : Si f, g : E → E ′ sont deux fonctions continues qui coı̈ncident sur A, alors
f = g. En effet, soit x ∈ E, il existe une suite (xn )n≥0 de points de A qui converge vers x. Pour tout
n ≥ 0, f (xn ) = g(xn ). En faisant tendre n vers l’infini, la continuité de f et g implique f (x) = g(x).
Existence : Soit x ∈ E, alors pour tout n ≥ 1, B(x, 1/n) ∩ A ̸= ∅ par hypothèse de densité. On
note An = f (B(x, 1/n) ∩ A) ⊂ E ′ . Alors An+1 ⊂ An et Diam An → 0 par uniforme continuité de f .
La propriété fondamentale des espaces de Baire implique ∩n≥0 An est réduite à un singleton, on note
∩n≥0 An = {f˜(x)}. Notons que ∩n≥0 An ⊂ f ({x} ∩ A) et donc si x ∈ A, on obtient f (x) = f˜(x).
En fait, on a mieux, si (xℓ )ℓ≥0 est une suite de points de A convergente vers x, alors pour tout n ≥ 0,
il existe ℓ0 tel que pour tout ℓ ≥ ℓ0 , xℓ ∈ B(x, 1/n) ∩ A si bien que f (xℓ ) ∈ An . Donc (f (xℓ ))ℓ≥0 est de
Cauchy convergente vers f˜(x). Cela nous permet de montrer l’uniforme continuité de f˜. En effet, soient
x, y ∈ X, (xℓ )ℓ≥0 ∈ AN et (yℓ )ℓ≥0 ∈ AN deux suites qui convergent respectivement vers x et y, alors pour
tout ℓ ≥ 0
d(f˜(x), f˜(y)) ≤ d(f˜(x), f (xℓ )) + d(f (xℓ ), f (yℓ )) + d(f (yℓ ), f˜(y)).
Soit ε > 0. On peut trouver L ≥ 0 tel que pour tout ℓ ≥ L,

d(f˜(x), f (xℓ )) < ε/3 et d(f˜(y), f (yℓ )) < ε/3.

De plus, on peut trouver η > 0 tel que d(xℓ , yℓ ) < 3η implique d(f (xℓ ), f (yℓ )) < ε/3. Enfin, comme

d(xℓ , yℓ ) ≤ d(xℓ , x) + d(x, y) + d(y, yℓ ),

22
choisissons L′ ≥ 0 tel que ℓ ≥ L′ implique d(xℓ , x) < η et d(yℓ , y) < η, si bien que d(x, y) < η implique
d(xℓ , yℓ ) < 3η. Finalement, pour tout ε > 0, il existe η > 0 tel que pour tout ℓ ≥ L ∨ L′ et tout x, y ∈ X
avec d(x, y) < η alors

d(f˜(x), f˜(y)) ≤ d(f˜(x), f (xℓ )) + d(f (xℓ ), f (yℓ )) + d(f (yℓ ), f˜(y)) ≤ ε.

Théorème 1.2.101 (Complétion d’un espace métrique). Tout espace métrique (E, d) est isométrique à
un sous-espace dense d’un espace métrique complet (E,
b d)
b unique à isométrie près et appelé le complété
de (E, d).

1.3 Espaces polonais


Nous nous bornons ici à définir ce qu’est un espace polonais qui est l’archétype des espaces que l’on
croise souvent en théorie de la mesure.

Définition 1.3.1 (Espace polonais). Un espace métrique séparable complet est appelé espace polonais.

23
24
Chapitre 2

Tribus, applications mesurables et


mesures

L’objet de ce chapitre est d’introduire les concepts fondamentaux de la théorie de la mesure. La théorie
de la mesure donne un formalisme robuste aux notions de longueur, aire ou volume. Il est cependant
important de noter que la théorie de la mesure ne se cantonne pas aux espaces euclidien mais peut tout
à fait s’appliquer à des espaces de fonctions ! Il ne s’agit pas là d’un ésotérisme mathématique mais bel
et bien des fondations permettant la construction du mouvement brownien lequel apparaı̂t comme la
brique élémentaire dans de nombreux domaines applications (théorie cinétique des gaz, mathématiques
financières. . .).

2.1 Tribus et Applications mesurables


2.1.1 Tribu
Dans toute la suite, X désigne un ensemble. On notera P(X) l’ensemble des parties de X.

Définition 2.1.1. Une tribu sur X est un sous-ensemble non vide de P(X), noté X , tel que
1. ∅ ∈ X ;
2. A ∈ X implique A∁ ∈ X (stable par passage au complémentaire) ;
S
3. si (An )n≥1 ⊂ X alors n≥1 An ∈ X (stable par réunion dénombrable).

Proposition 2.1.2. Si X est une tribu alors


1. X ∈ X ,
T
2. (An )n≥1 ⊂ X implique n≥1 An ∈ X (stable par intersection dénombrable),
3. A, B ∈ X alors A \ B ∈ X ,
4. A, B ∈ X alors A∆B ∈ X .

Démonstration. Immédiat.

Exemple 14. On peut mentionner deux tribus particulières la tribu la plus grossière X = {∅, X} et la
tribu la plus fine X = P(X). Lorsque X est finie ou dénombrable, on choisira la plupart du temps la tribu
la plus fine. Si X est non dénombrable, le choix de la tribu n’est plus aussi naturel.
Exercice 13. Vérifier que la tribu grossière et la tribu la plus fine sont effectivement des tribus.

Définition 2.1.3. Un espace mesurable est la donnée d’un couple (X, X ) constitué d’un ensemble X et
d’une tribu X sur X.
T
Proposition 2.1.4. Soit (Xi )i∈I une famille de tribus sur X alors X = i∈I Xi est une tribu sur X.

Remarque 17. Il s’agit bien d’une intersection quelconque, il n’est pas nécessaire qu’elle soit dénombrable !

25
Démonstration. Pour i ∈ I, Xi est une tribu, donc ∅ ∈ Xi pour tout i ∈ I et il vient ∅ ∈ X . Soit (Aj )j≥0
une famille dénombrable d’éléments de X , alors pour tout i ∈ I, ∪j≥0 Aj ∈ Xi et donc ∪j≥0 Aj ∈ X . La
stabilité par passage au complémentaire se démontre de façon analogue.
Cette proposition permet de définir la notion de tribu engendrée.
Proposition 2.1.5 (Tribu engendrée). Soit C ⊂ P(X). Il existe une plus petite tribu (au sens de l’in-
clusion) contenant C. Cette tribu est appelée tribu engendrée par C et est notée σ(C).
Démonstration. Soit S l’ensemble des tribus sur X qui contiennent C. Alors
\
X = S = {A ⊂ X : ∀S ∈ S, A ∈ S}
S∈S

est une tribu qui contient C. Par définition, cette tribu est contenue dans toutes les tribus contenant
C.
Exemple 15. Un autre exemple de tribu classique est celle engendrée par un sous-ensemble A ⊂ X, par
définition
σ({A}) = {∅, A, A∁ , X}.
Proposition 2.1.6 (Image réciproque d’une tribu). Soient X et Y deux ensembles, f : X → Y une
application et Y une tribu sur Y. Alors

f −1 (Y) = {f −1 (A), A ∈ Y}

est une tribu sur X appelée tribu image réciproque de Y par f .


Démonstration. Le résultat est conséquence directe du lemme ci-dessous dont la preuve est laissée en
exercice.
Lemme 2.1.7. Soit F un ensemble et P(F ) l’ensemble de ses parties. Soient A ∈ P(F ) et (Bi )i∈I une
famille d’éléments de P(F ). Alors pour toute application f : E −→ F
! !
[ [ \ \
−1 −1 −1
f Bi = f (Bi ), f Bi = f −1 (Bi ), f −1 (A∁ ) = f −1 (A)∁ .
i∈I i∈I i∈I i∈I

Proposition 2.1.8. Soient f une application de X dans Y, C un sous-ensemble de P(Y). Alors

f −1 (σ(C)) = σ(f −1 (C)).

Démonstration. Comme C ⊂ σ(C), on a f −1 (C) ⊂ f −1 (σ(C)) qui est une tribu par la proposition
précédente Ainsi, σ(f −1 (C)) est inclus dans f −1 (σ(C)).
Montrons l’inclusion inverse. Notons A l’ensemble des parties de A ⊂ Y telle f −1 (A) ∈ σ(f −1 (C)).
Alors A est une tribu : ∅ ∈ A et la stabilité de l’image inverse par réunion et passage au complémentaire
permet de conclure. De plus A contient C, donc σ(C). Il en résulte que f −1 (σ(C)) ⊂ f −1 (A). Puis, par
définition, f −1 (A) ⊂ σ(f −1 (C)), d’où le résultat f −1 (σ(C)) ⊂ σ(f −1 (C)).
Proposition 2.1.9 (Tribu induite). Soient (X, X ) un espace mesurable et B ⊂ X, l’ensemble XB =
{A ∩ B, A ∈ X } est une tribu sur B appelée tribu induite par X sur B.
Remarque 18. Notez que la partie B n’est pas supposée mesurable.
Démonstration. On vérifie les axiomes d’une tribu :
1. évidemment ∅ ∈ XB puisque ∅ = ∅ ∩ B ;
2. soit A ∈ XB , il existe par définition A
e ∈ X tel que A = A e ∩ B. Or le complémentaire de A dans
B est
A∁ ∩ B = (Ae∁ ∪ B ∁ ) ∩ B = Ae∁ ∩ B.

Ainsi, A∁ ∈ XB puisque A
e∁ ∈ X .

26
3. Soit (An )n≥1 des éléments de XB , alors pour chaque n ≥ 1 on peut trouver A
en ∈ X tels que
An = Aen ∩ B. Alors
 
[ [ [
An = (Aen ∩ B) =  en  ∩ B.
A
n≥1 n≥1 n≥1

Ceci montre la stabilité par réunion dénombrable puisque ∪n≥1 A


en ∈ X .

Définition 2.1.10 (Tribu produit). Soient (X, X ) et (Y, Y) deux espaces mesurables. La tribu engendrée
par les parties de X × Y s’écrivant comme A × B avec A ∈ X et B ∈ Y est appelée tribu produit et on
la note X ⊗ Y.

2.1.2 Tribu borélienne


Définition 2.1.11. Soit (X, T ) un espace topologique. La tribu borélienne sur X, notée B(X) est la tribu
engendrée par les ouverts de (X, T ). Autrement dit, B(X) = σ(T ). Les éléments de B(X) sont appelés les
boréliens.
A priori, si (X, d) est un espace métrique, la tribu engendrée par les boules ouvertes ne coı̈ncident
pas avec la tribu borélienne. On montre cependant que c’est vrai pour un espace métrique séparable en
utilisant le lemme suivant.
Lemme 2.1.12. Soit (X, d) un espace métrique séparable. Alors tout ouvert est réunion dénombrable de
boules ouvertes.
Démonstration. Sous l’hypothèse de séparabilité, il existe une suite (xn )n≥0 dense dans X. Soit O un
ouvert et posons
I = {(n, ρ) ∈ N × Q+ ∗ : B(xn , ρ) ⊂ O},

et montrons [
O= B(xn , ρ).
(n,ρ)∈I

La réunion est par définition inclue dans O. Réciproquement, soit x ∈ O. Comme O est ouvert, il existe
r > 0 tel B(x, r) ⊂ O. On a même pour tout ρ ∈ Q ∩ (0, r), B(x, ρ) ⊂ B(x, r) ⊂ O. De plus, comme
(xn )n≥0 est dense dans X, il est existe une sous-suite (xnk )k≥0 qui converge vers x. Autrement dit, il
existe K ≥ 0 tel que k ≥ K implique xnk ∈ B(x, ρ/4). Par symétrie d’une métrique, x ∈ B(xnk , ρ/4).
Finalement, par l’inégalité triangulaire, pour tout y ∈ B(xnk , ρ/4)

d(x, y) ≤ d(x, xnk ) + d(xnk , y) ≤ ρ/2 =⇒ x ∈ B(xnk , ρ/4) ⊂ B(x, ρ/2) ⊂ O.

Corollaire 2.1.13. Si (X, d) est un espace métrique séparable, alors la tribu engendrée par les boules
ouvertes coı̈ncident avec la tribu borélienne.
Démonstration. En utilisant le lemme 2.1.12, la preuve est immédiate.
On appliquera très souvent cette notion de tribu borélienne à Rd muni de sa topologie usuelle,
typiquement celle donnée par une métrique issue d’une norme.
Proposition 2.1.14. Sur R muni de sa topologie usuelle, la tribu borélienne est engendrée par
1. les intervalles ouverts bornés,
2. la classe des intervalles de la forme (−∞, a) avec a ∈ R,
3. la classe des intervalles de la forme (−∞, a] avec a ∈ R.
Démonstration. 1. Notons E l’ensemble des intervalles ouverts bornés de R et O les ouverts de R.
On a bien entendu E ⊂ O si bien que σ(E) ⊂ σ(O).
Pour l’inclusion inverse, il suffit de remarquer que (R, | · |) est séparable, ainsi tout ouvert est
réunion dénombrable d’intervalles ouverts bornés. Ainsi O ⊂ σ(E) et donc σ(O) ⊂ σ(E).

27
2. Soit E ′ la classe des intervalles de la forme (−∞, a). Encore une fois, σ(E ′ ) ⊂ σ(O) puisque E ′ ⊂ O.
Pour l’inclusion inverse, il suffit de montrer que E ⊂ σ(E ′ ), puisque par le point précédant, nous
aurons σ(E) ⊂ σ(E ′ ) ⊂ σ(O). Soit (a, b) ∈ E. On a

(a, b) = (−∞, b) ∩ (a, ∞) = (−∞, b) ∩ (−∞, a]∁ .

Puis, comme (−∞, a] = ∩n≥1 (−∞, a + 1/n), nous avons montré que l’on peut écrire (a, b) comme
l’intersection dénombrable d’éléments de E ′ .
3. Ce point se démontre de la même manière que le précédant.

Corollaire 2.1.15. La tribu borélienne sur Rd muni de sa topologie usuelle est engendrée par
Qd
1. les pavés ouverts i=1 (ai , bi ) ;
Qd
2. les pavés ouverts semi-infinis i=1 (−∞, ai ) ;
Qd
3. les pavés fermés semi-infinis i=1 (−∞, ai ].

Démonstration. C’est une application immédiate du lemme 2.1.12.

2.1.3 La droite achevée


Pour diverses raisons, nous auront à considérer la compactification, généralement notée R, de la droite
réelle R. Pour se faire, il est possible de construire un homéomorphisme de R dans ] − 1, 1[. L’intervalle
ouvert ] − 1, 1[ se compactifie en [−1, 1] : c’est le plus petit compact de R qui contient ] − 1, 1[. Par
exemple, les applications suivantes réalisent un tel homéomorphisme :

f :R → ] − 1, 1[ g:R → ] − 1, 1[
et
x → f (x) = √ x . x → g(x) = 2
arctan(x).
x2 +1 π

L’adhérence de l’intervalle ouvert (−1, 1) dans la topologie R est alors l’intervalle [−1, 1]. Il est alors
possible de prolonger les homéomorphismes f et g à R = R ∪ {−∞, ∞}. Les points −∞ et +∞ sont alors
les antécédents de −1 et par 1 par ces homémorphismes. On note dans la suite fe et ge les prolongements
de f et g à R.
Posons, pour tout x, y ∈ R,

δfe(x, y) = |fe(x) − fe(y)| et δge(x, y) = |e


g (x) − ge(y)|.

Ces deux applications sont des métriques sur R. L’application identité entre (R, δfe) et (R, δge) est un
homéomorphisme. Par ailleurs, la topologie résultant de la restrictions de ces métriques à R coı̈ncident
avec la topologie usuelle sur R associée à la valeur absolue. De plus, les espaces métriques (R, δfe) et
(R, δge) sont compacts. Ainsi, R muni de l’une ou l’autre de ces métriques peut être vue comme une
extension compacte de la droite réelle munie de la valeur absolue.
Notons qu’une base d’ouvert pour cette topologie est constituée des intervalles ouverts de la forme
(a, b), (a, ∞] et [−∞, b) avec a, b ∈ R. Une base de voisinage dénombrable de +∞ (resp. −∞) est données
par (n, +∞] (resp. [−∞, −n)), n ≥ 0.
On démontre de façon analogue que la tribu borélienne de R est engendrée par les classes {[−∞, a), a ∈
R} ou {[−∞, a], a ∈ R}.
Enfin, il est à noter l’ordre total de R peut également être étendu à R puisque les homéomorphismes fe
et ge sont monotones croissants. Les opérations algébriques tels que l’addition et la multiplication peuvent
également être étendues dans une certaine mesure. Il subsiste néanmoins des indéterminations tels que
+∞−∞. C’est une obstruction à la possibilité de définir une structure de groupe. A priori, les opérations
0 × ±∞ sont également indéterminées, néanmoins, par convention en théorie de la mesure, nous poserons
0 × ±∞ = 0. Cette convention n’est pas source d’erreur et la raison apparaı̂tra plus clairement dans la
suite.

28
2.1.4 Applications mesurables, applications boréliennes
Définition 2.1.16 (Applications mesurables). Soient (X, X ) et (Y, Y) deux espaces mesurables. Une
application f : X → Y est dite mesurable si

f −1 (Y) ⊂ X ,

ou de manière plus explicite


A∈E =⇒ f −1 (A) ∈ X .

Définition 2.1.17. Soient X, Y deux espaces topologiques. Une application mesurable de (X, B(X)) dans
(Y, B(Y)) est dite borélienne.

Pour A ⊂ X, on définit l’application indicatrice de A, notée 1A , de X dans {0, 1} pour x ∈ X par



 1 x∈A

1A (ω) =
 0 x∈

/A

On munit {0, 1} de la topologie discrète (l’ensemble des ouverts n’est rien d’autre que l’ensemble des
parties de {0, 1}). La tribu borélienne correspondante est la tribu grossière. De fait, l’application 1A est
mesurable dès que A est mesurable. Réciproquement, toute application de f de X dans {0, 1} s’écrit
1supp f . De plus supp f = {x ∈ X : f (x) = 1} est mesurable dès que f est mesurable.

Proposition 2.1.18. Soient (X, X ) et (Y, Y) deux espaces mesurables, f une application de X dans Y
et B un ensemble de parties sur Y telle que σ(B) = Y. Alors f est mesurable si et seulement si l’image
réciproque de tout élément de B est dans X .

Démonstration. La condition est évidemment nécessaire. Réciproquement, si X contient l’image réciproque


de B, elle contient également la tribu engendrée par l’image réciproque de B, i.e. σ(f −1 (B)). Par la Pro-
position 2.1.8, σ(f −1 (B)) = f −1 (σ(B)) = f −1 (Y).

Corollaire 2.1.19. Soient X, Y deux espaces topologiques munis de leurs tribus boréliennes. Toute ap-
plication continue de X dans Y est mesurable.

Démonstration. La continuité implique que l’image inverse de tout ouvert est ouverte. D’où le résultat.

Exercice 14. Donner un exemple d’application borélienne non continue.

Proposition 2.1.20. Une application f : (X, X ) → R est mesurable si


1. ∀a ∈ R, {x ∈ X : f (x) ≤ a} ∈ X ,
2. ∀a ∈ R, {x ∈ X : f (x) < a} ∈ X ,
3. ∀a ∈ R, {x ∈ X : f (x) ≥ a} ∈ X ,
4. ∀a ∈ R, {x ∈ X : f (x) > a} ∈ X .

Démonstration. C’est une application directe des propositions 2.1.14 et 2.1.18.

Propriétés de stabilité
Proposition 2.1.21 (Composition). Soient (X, X ), (Y, Y) et (Z, Z) trois espaces mesurables, f une
application mesurable de (X, X ) dans (Y, Y) et g une application mesurable de (Y, Y) dans (Z, Z). Alors
f ◦ g est mesurable de (X, X ) dans (Z, Z).

Démonstration. Immédiat.

Proposition 2.1.22. Soient (X1 , X1 ) et (X2 , X2 ) deux espaces mesurables et p1 , p2 les projections de
X1 × X2 sur X1 et X2 respectivement. On munit X1 × X2 de la tribu produit X1 ⊗ X2 . Alors
1. les projections p1 et p2 sont mesurables ;

29
2. soient (Y, Y) un espace mesurable et f : Y → X1 × X2 une application. Alors f est mesurable si
et seulement si les composées p1 ◦ f : Y → X1 et p2 ◦ f : Y → X2 sont mesurables.

Démonstration. 1. Si B1 ∈ X1 , alors p1−1 (B1 ) = B1 × X2 ∈ X1 ⊗ X2 et p1 est mesurable. De la même


manière p2 est mesurable.
2. Si f est mesurable, par la proposition précédente, p1 ◦f et p2 ◦f sont mesurables. Réciproquement,
supposons p1 ◦ f et p2 ◦ f mesurables. Alors pour tout B1 ∈ X1 , f −1 (B1 × X2 ) = (p1 ◦ f )−1 (B1 )
est dans la tribu Y. De même, pour tout B2 ∈ X2 , f −1 (X1 × B2 ) ∈ Y. Ainsi

f −1 (B1 × B2 ) = f −1 ((B1 × X2 ) ∩ (X1 × B2 )) = f −1 (B1 × X2 ) ∩ f −1 (X1 × B2 ) ∈ Y.

Comme X1 ⊗ X2 est la tribu engendrée par les B1 × B2 pour B1 ∈ X1 et B2 ∈ X1 , on conclut à


l’aide de la Proposition 2.1.8.

Corollaire 2.1.23. Pour qu’une application à valeurs complexes soit mesurable il faut et il suffit que
sa partie réelle et sa partie imaginaire soient mesurables. Si f et g sont des applications mesurables de
(X, X ) à valeurs complexes, alors f + g, f g, |f |, . . . sont mesurables.

Démonstration. Il suffit d’appliquer les propositions 2.1.21 et 2.1.22 en remarquant que les applications
R2 ∋ (x, y) → x + y ∈ R, R2 ∋ (x, y) → xy et R ∋ x → |x| sont continues donc mesurables.

Définition 2.1.24. Soit (xn )n≥0 une suite à valeurs dans R. La plus grande (resp. la plus petite) valeur
d’adhérence de (xn )n≥0 est notée lim sup xn (resp. lim inf xn ) et est définie par

lim sup xn = inf sup xk (resp. lim inf xn = sup inf xk ).


n≥0 k≥n n≥0 k≥n

Remarque 19. On note parfois lim et lim en lieu et place de lim sup et lim inf.
Remarque 20. Les limites supérieures et inférieures sont a priori des éléments de R. Il est tout à fait
possible d’avoir lim sup xn = ∞ et lim inf xn = −∞, c’est le cas par exemple pour xn = (−1)n n. On a
toujours lim inf xn ≤ lim sup xn et (xn )n≥0 converge si et seulement si lim inf xn ≥ lim sup xn .
Pour une suite de fonctions (fn )n≥0 sur X à valeurs dans R, on note lim sup fn et lim inf fn les
fonctions qui à x ∈ X associe lim sup fn (x) et lim inf fn (x) respectivement.

Proposition 2.1.25 (Stabilité par passage à la limite). 1. Soit (fn )n≥0 une suite de fonctions me-
surables sur (X, X ) à valeur dans R. Les fonctions sup fn , inf fn , lim sup fn et lim inf fn sont
mesurables.
2. Soit (fn )n≥0 une suite de fonctions mesurables à valeurs dans C telle que pour tout x ∈ E,
limn fn (x) = f (x) existe. Alors f est mesurable.

Démonstration. 1. Par hypothèse, pour tout a ∈ R, l’ensemble {fn ≤ a} est dans X . Or, {sup fn ≤
a} = ∩n≥0 {fn ≤ a}. Par la Proposition 2.1.20, sup fn est mesurable. Comme inf fn = − sup −fn ,
inf fn est mesurable. Enfin, lim sup fn = inf n≥0 supk≥n fk et lim inf fn = supn≥ inf k≥n fk sont
mesurables par ce qui précède.
2. Il suffit de montrer que partie réelle et partie imaginaire de f est mesurable. Sans perte de
généralité, on peut donc supposer seulement le cas réel. Dans ce cas, f = lim sup fn = lim inf fn
et est donc mesurable.

Exercice 15. Soient f et g deux applications mesurables de (X, X ) dans R+ (muni de sa tribu borélienne).
Montrer que {f ≤ g} et {f < g} sont des ensembles mesurables.

30
2.1.5 Approximation des fonctions mesurables
Soit (X, X ) un espace mesuré. On notera mX l’ensemble des fonctions mesurables et par mX+ l’en-
semble des fonctions mesurables positives.
Définition 2.1.26 (Fonctions étagées). Une fonction mesurable sur (X, X ) à valeurs dans C est dite
étagée si elle ne prend qu’un nombre fini de valeurs distinctes. On notera mE et mE+ respectivement
l’ensemble des fonctions mesurables étagées bornées et mesurables étagées positives.
Soit f une fonction étagée et α1 , . . . , αn les n valeurs distinctes prises par f . Pour i ∈ {1, . . . , n}, on
pose Ai = {f = αi }. Puisque f est mesurable, les ensembles Ai sont mesurables et f se réécrit
n
X
f= αi 1Ai .
i=1

Réciproquement, toute combinaison linéaire finie à coefficients réels ou complexes de fonctions indi-
catrices d’ensembles mesurables est une fonction étagée. L’ensemble des fonctions étagées est K-espace
vectoriel (de dimension infinie).
Théorème 2.1.27. Soit f une fonction mesurable sur (X, X ) à valeurs dans R+ . Alors, il existe une suite
croissante (fn )n≥0 de fonctions étagées positives qui converge simplement vers f . De plus, la convergence
est uniforme sur tout ensemble B ∈ X sur lequel f est bornée.
Démonstration. Pour n ≥ 0 et k = 0, 1, . . . , n2n − 1, posons (c.f. Figure 2.1)
 
k k+1
An = {f ≥ n} et An,k = ≤f < .
2n 2n

k+1
2n
k
2n

An An,k An,k An

Figure 2.1 – Découpage dyadique tronqué d’une fonction mesurable f .

On définit alors la fonction fn par :


n
n2 −1
X k
fn = 1A + n1An .
2n n,k
k=0

Par définition, fn est une fonction étagée positive telle que fn ≤ f . D’autre part, on vérifie que si
x ∈ An,k , 
2k
fn (x) si 2n+1 ≤ f (x) < 2k+1


2n+1
fn+1 (x) =
 fn (x) + n+1 si n+1 ≤ f (x) < 2(k+1)
1 2k+1
2n+1 .

2 2

31
D’autre part, si x ∈ An ,

 n+1 si f (x) ≥ n + 1

fn+1 (x) =
ℓ ℓ ℓ+1
 n + n+1 si n + ≤ f (x) < n + 2n+1 , 0 ≤ ℓ ≤ 2n+1 − 1.

2 2n+1

Ainsi, pour tout n ≥ 0 et tout x ∈ X, fn (x) ≤ fn+1 (x) : la suite (fn )n≥0 est croissante. De plus, (An )n≥0
est une suite décroissante d’éléments de X . Donc si x ∈ A∁n0 , alors pour tout n ≥ n0 , x ∈ A∁n ou encore
pour tout n ≥ n0
1
0 ≤ f (x) − fn (x) ≤ n .
2
Ceci implique que (fn (x))n≥0 converge vers f (x). Ainsi, la suite (fn )n≥0 converge sur l’ensemble ∪n≥0 A∁n
qui n’est autre que {f < ∞}. Si x ∈ {f = ∞}, alors pour tout n ≥ 0, fn (x) = n qui tend vers ∞ quand
n tend vers ∞. Soit à présent B ∈ X tel que f soit bornée sur B. Il existe n1 tel que, pour tout x ∈ B,
f (x) < n1 . Alors B ∩ An1 = ∅ et ainsi
1
∀n ≥ n1 , ∀x ∈ B, 0 ≤ f (x) − fn (x) ≤ .
2n
La convergence est donc bien uniforme sur B.
Corollaire 2.1.28. Toute fonction f mesurable sur (X, X ) à valeurs dans R ( resp. Rd , resp. C) est
limite simple d’une suite (fn )n≥0 de fonctions étagées à valeurs dans R ( resp. Rd , resp. C).
Démonstration. Si f est à valeurs dans R, on peut l’écrire f = f + − f − avec f + = f ∨ 0 et f − = −f ∧ 0.
Comme f + et f − sont mesurables à valeurs dans R+ , il existe des suites (gn )n≥0 et (hn )n≥0 de fonctions
étagées positives tendant simplement vers f + et f − respectivement. La suite (fn )n≥0 , où fn = gn − hn ,
est formée de fonctions étagées et converge simplement vers f . Si f est à valeurs dans Rd , on raisonne
composante par composante. De même, si f est à valeurs complexes, on l’écrira comme somme de ses
parties réelle et imaginaire.

2.2 Mesures positives


2.2.1 Définitions et propriétés élémentaires
Définition 2.2.1 (Mesure positive). Soit (X, X ) un espace mesurable. Une mesure positive, ou simple-
ment une mesure, sur (X, X ) est une application µ : X → R+ satisfaisant
1. µ(∅) = 0,
2. si (An )n≥0 est une suite d’éléments deux à deux disjoints (i.e. An ∩ Am = ∅ dès que n ̸= m), alors
 
[ X
µ An  = µ(An ).
n≥0 n≥0

Cette deuxième propriété est appelée σ-additivité.


Une mesure positive vérifiant µ(X) < ∞ est dite finie. Si elle vérifie µ(X) = 1, c’est une mesure de
probabilité. Enfin, si il existe une suite (An )n≥0 d’éléments de X telle que X = ∪n≥0 An et, pour tout
n ∈ N, µ(An ) < ∞, on dit que µ est σ-finie.
Définition 2.2.2 (Espace mesuré). Un espace mesuré est la donnée d’un triplet (X, X , µ) où (X, X ) est
un espace mesurable et µ est une mesure positive sur (X, X ).
Lorsqu’il n’y aura pas d’ambiguı̈tés sur la tribu X nous écrirons simplement (X, µ). Ce sera notamment
le cas lorsque X est discret ou lorsque X est un espace topologique. Dans le premier cas, on munira
l’ensemble discret presqu’exclusivement de la tribu la plus fine, celle qui contient toutes les parties de X.
Dans le second cas, on considéra en générale la tribu borélienne.
Proposition 2.2.3. Soit (X, X , µ) un espace mesuré.

32
1. Si A1 , . . . , An ∈ X sont deux à deux disjoints, alors

µ(A1 ∪ . . . ∪ An ) = µ(A1 ) + · · · + µ(An ).

2. Soient A, B ∈ X tels que A ⊂ B, alors µ(A) ≤ µ(B). De plus, si µ(A) < ∞, alors µ(B \ A) =
µ(B) − µ(A).
3. Soient A, B ∈ X , µ(A ∪ B) + µ(A ∩ B) = µ(A) + µ(B).
Remarque 21. Une mesure µ est dite finiment additive si dans le deuxième point de la définition 2.2.1,
la famille d’ensemble (resp. la réunion, la somme) dénombrable est remplacée par une famille finie.
Démonstration. 1. On pose B1 = A1 , . . . , Bn = An et pour tout i ≥ n + 1, Bi = ∅. Alors (Bn )n≥0 est
une famille dénombrable d’ensembles deux à deux disjoints. On obtient l’additivité finie à l’aide
de la σ-additivité et du fait que µ(∅) = 0.
2. On écrit B = A ∪ (A∁ ∩ B), c’est la réunion de deux ensembles mesurables disjoints, d’où µ(B) =
µ(A) + µ(A∁ ∩ B) ≥ µ(A). De plus A∁ ∩ B = B \ A d’où, si µ(A) < ∞, l’égalité µ(B \ A) =
µ(B) − µ(A).
3. Comme A ∩ B ⊂ A, si µ(A ∩ B) = ∞ alors µ(A) = ∞ et l’égalité est vérifiée (en fait µ(B) = ∞
également). Si µ(A ∩ B) < ∞, on peut écrire A ∪ B = A \ (A ∩ B) ∪ A ∩ B ∪ B \ (A ∩ B) qui est
une réunion disjointe. D’où

µ(A ∪ B) = µ(A \ (A ∩ B)) + µ(A ∩ B) + µ(B \ (A ∩ B)) = µ(A) + µ(B) − µ(A ∩ B).

La proposition suivante donne une définition équivalente d’une mesure positive.


Proposition 2.2.4. Une application µ : X → R+ est une mesure si et seulement si
1. µ(∅) = 0 ;
2. si A, B ∈ X sont disjoints, alors µ(A ∪ B) = µ(A) + µ(B) ;
3. pour toute suite croissante (Bn )n≥0 d’éléments de X , µ(∪n≥0 Bn ) = limn→∞ µ(Bn ).
Remarque 22. Cette définition équivalente a l’avantage de faire apparaı̂tre explicitement une propriété
asymptotique des mesures (dans le point (3)). C’est cette propriété qui sera cruciale pour montrer le
théorème de convergence monotone qui fait toute la puissance de l’intégrale de Lebesgue.
Démonstration. Ce sont des conditions suffisantes. En effet, par récurrence sur le point (ii), pour toute
collection finie A1 , . . . , An d’ensembles mesurables deux à deux disjoints, on a

µ(A1 ∪ · · · ∪ An ) = µ(A1 ) + · · · + µ(An ).

Si (An )n≥1 est une collection d’ensembles mesurables deux à deux disjoints, en posant Bk = ∪1≤n≤k An ,
Pk
alors µ(Bk ) = n=1 µ(An ). De plus, (Bk )k≥1 est une suite croissante telle que ∪k≥1 Bk = ∪n≥1 An . Par
le point (3), on obtient
n
X ∞
X
µ(∪∞ ∞
n=1 An ) = µ(∪k≥1 Bk ) = lim µ(Bk ) = lim µ(Ak ) = µ(Ak ).
k→∞ n→∞
k=1 k=1

Réciproquement, supposons que µ soit une mesure. Soit (Bn )n≥0 une suite croissante d’ensembles me-
surables. Posons A0 = B0 et, pour tout n ≥ 1, An = Bn \ Bn−1 ∈ X . Alors (An )n≥0 est une suite
d’ensembles mesurables deux à deux disjoints et, pour tout n ≥ 0, Bn = ∪nk=0 Ak . Il en résulte que

X n
X
µ(∪∞ ∞
n=0 Bn ) = µ(∪k=0 Ak ) = µ(Ak ) = lim µ(Ak ) = lim µ(Bn ).
n→∞ n→∞
k=0 k=0

Ceci achève la preuve de la proposition.


Proposition 2.2.5. Soit (X, X , µ) un espace mesuré.

33
P
1. Si (Bn )n≥0 est une famille d’éléments de X , alors µ(∪n≥0 Bn ) ≤ n≥0 µ(Bn ).
2. Si (Bn )n≥0 est une suite décroissante de X telle que µ(Bn0 ) < ∞ pour un certain n0 ≥ 0, alors
la suite (µ(Bn ))n≥ 0 converge en décroissant vers µ(∩n≥0 Bn ).

Remarque 23. Dans le deuxième point, l’existence d’un entier n0 tel que µ(Bn0 ) < ∞ est nécessaire. En
effet, si µ est la mesure de comptage sur N et Bn = {n, n + 1, . . .} alors µ(Bn ) = ∞ pour tout n ≥ 0 et
∩n≥0 Bn = ∅.

Démonstration. 1. On pose A0 = B0 et, pour tout n ≥ 1, An = Bn \ (∪n−1 n−1 ∁


k=0 Bk ) = Bn ∩ (∪k=0 Bk ) .
n n
Les ensembles (An )n≥0 sont deux à deux disjoints et ∪k=0 Bk = ∪k=0 Ak . D’où, puisque An ⊂ Bn
pour tout n ≥ 0.

X ∞
X
µ(∪∞
n=0 B n ) = µ(∪∞
k=0 A k ) = µ(A k ) ≤ µ(Bn ).
k=0 n=0

2. Pour k ≥ n0 , on pose Ak = Bn0 \ Bk . La suite (Ak )k≥n0 est croissante et on a ∪k≥n0 Ak =


Bn0 \ (∩k≥n0 Bk ). Puisque ∩k≥n0 Bk ⊂ Bn0 et Bk ⊂ Bn0 , on a

µ(Bn0 \ (∩k≥n0 Bk )) = µ(Bn0 ) − µ(∩k≥n0 Bk ) et µ(Ak ) = µ(Bn0 ) − µ(Bk ),

d’où

µ(Bn0 ) − µ(∩k≥n0 Bk ) = µ(∪k≥n0 Ak ) = lim µ(Ak )


k→∞
= lim (µ(Bn0 ) − µ(Bk )) = µ(Bn0 ) − lim µ(Bk ),
k→∞ k→∞

et donc µ(∩k≥1 Bk ) = limk→∞ µ(Bk ).

Définition 2.2.6. Soient (X, X , µ) un espace mesuré et (An )n≥0 une famille d’éléments de X . On définit
la limite supérieure et inférieure de cette famille comme suit
\ [ [ \
lim sup An = Am et lim inf An = Am .
n≥0 m≥n n≥0 m≥n

Intuitivement, si x ∈ lim sup An , cela signifie que x est dans une infinité de An . Si x ∈ lim inf An , cela
signifie que x est dans tous les An à partir d’un certain rang n ≥ 0. Notons également que

(lim sup An )∁ = lim inf A∁n .

Proposition 2.2.7 (Borel-Cantelli). Soient (X, X , µ) un espace mesuré et (An )n≥0 une famille d’élé-
ments de X . Si, quitte à enlever un nombre fini de termes, la série des (µ(An ))n≥0 est finie, alors
µ(lim sup An ) = 0.

Démonstration. La suite (∪m≥n Am )n≥0 est décroissante, de plus il existe n0 ≥ 0 tel que
 
X [
∞> µ(An ) ≥ µ  An  .
n≥n0 n≥n0

D’où il vient que


   
\ [ [ X
µ Am  = lim µ  Am  ≤ lim µ(Am ) = 0.
n→∞ n→∞
n≥0 m≥n m≥n m≥n

34
2.2.2 Quelques exemples de mesures : mesures discrètes et mesure de Le-
besgue
Définition 2.2.8 (Masse de Dirac). Soient (X, X ) un espace mesuré et a ∈ X. Posons pour tout A ∈ X

 1 si a ∈ A

δa (A) =
 0 si a ∈

/A

L’application δa est une mesure de probabilité, appelée la mesure (ou masse) de Dirac au point a.

Exercice 16. Vérifier que la masse de Dirac en un point est bien une mesure.

Définition 2.2.9 (Mesure de Bernoulli). Soit p ∈ (0, 1). Sur (R, B(R)), la mesure de Bernoulli de
paramètre p est définie par µ = (1 − p)δ0 + pδ1 .

Remarque 24. La mesure de Bernoulli est ici définie sur X = R mais on aurait pu choisir X = {0, 1},
X = N ou encore X = [0, 1] . . .

Définition 2.2.10 (Mesures discrètes). Soit (X, X ) un espace mesurable. Soient (an )n≥0 une suite de
points de X et (αn )n≥0 une suite à valeurs dans R+ . Pour tout A ∈ X , on pose
X
µ(A) = αn δan (A).
n≥0

L’application µ : X → R+ est une mesure positive. Tout point an tel que αn > 0 est appelé atome de µ.

Lemme 2.2.11. Soit (an,m )n,m≥0 une suite double de réels positifs telle que
— pour tout n ≥ 0, an,m ≤ an,m+1 , et
— pour tout m ≥ 0, an,m ≤ an+1,m .
Alors
lim lim an,m = lim lim an,m ∈ R+ .
n→∞ m→∞ m→∞ n→∞

Démonstration. Immédiat.

Exercice 17. Soit (ak,n )k,n∈N est suite double de nombres positifs. Montrer que l’égalité suivante a lieu
dans R+
X∞ X∞ ∞ X
X ∞
ak,n = ak,n .
k=0 n=0 n=0 k=0

En déduire que toute mesure discrète est en effet une mesure.


Exemple 16. Les 4 premières mesures sont des probabilités.
1. La mesure uniforme µ sur {1, . . . , n} de paramètre n ≥ 1 est définie par
n
1X
µ= δk .
n
k=1

2. La mesure binomiale µ de paramètres p ∈ (0, 1) et n ≥ 1 est définie par


n  
X n
µ= pk (1 − p)n−k δk .
k
k=0

3. La mesure géométrique µ de paramètre p ∈ (0, 1) est définie par


X
µ= p(1 − p)n−1 δn .
n≥1

35
4. La mesure de Poisson de paramètre λ > 0 est définie par
X λn
µ= e−λ .
n!
n≥0

5. La mesure de comptage associée à une suite (an )n≥0 de points de X.


X
µ= δ an .
n≥0

Théorème 2.2.12 (Mesure de Lebesgue). Il existe une unique mesure λ sur (R, B(R)) telle que
1. λ([0, 1]) = 1,
2. pour tout a ∈ R et tout B ∈ B(R), λ(a + B) = λ(B).
Elle est appelée mesure de Lebesgue sur R.
La mesure de Lebesgue est donc l’unique mesure invariante par translation qui affecte une masse 1 à
l’intervalle [0, 1]. C’est la mesure “qui correspond” à l’intégrale de Riemann.
La démonstration de ce théorème est loin d’être immédiate. C’est une conséquence du théorème de
Carathéodory donné à la fin de ce chapitre. On peut d’ores et déjà donner le résultat suivant.
Proposition 2.2.13. Pour tous a < b réels,
λ([a, b]) = λ((a, b)) = λ([a, b)) = λ((a, b]) = b − a.
Si I est un intervalle non borné, alors λ(I) = ∞.
Démonstration. Si I est un intervalle non borné, alors I = (−∞, a), I = (−∞, a], I = (a, ∞), I = [a, ∞)
ou I = R. Traitons le premier cas par exemple. On note na le plus grand entier plus petit que a. Alors,
na
[
(k − 1, k] ⊂ I,
k=∞

ainsi, par la première partie de la proposition et croissance d’une mesure, on obtient


na
! na na
[ X X
λ(I) ≥ λ (k − 1, k] = λ((k − 1, k]) = 1 = ∞.
k=−∞ k=−∞ k=−∞

Posons α = λ({0}), alors par invariance par translation de la mesure de Lebesgue et croissance des
mesures, il est facile de voir que nα = λ({1/k : 1 ≤ k ≤ n}) ≤ 1, et ce pour tout n ≥ 1 donc α = 0. De
même, pour tout x ∈ R, λ({x}) = 0. Cela permet de conclure pour les trois premières égalités.
Clairement,      
1 2 3 n−1
(0, 1] = 0, ∪ , ∪ ··· ∪ ,1 .
n n n n
Par additivité et invariance par translation, on obtient que λ((0, 1/n]) = 1/n et même pour tout k1 ≤ k2
 
k1 k2 k2 − k1
λ , = .
n n n
De là, on
 peut passer i à des bornes rationnelles en remarquant que si r = p1 /q1 et s = p2 /q2 alors
p1 q2 p2 q1
(r, s] = q1 q2 , q1 q2 . En fait, si a < b sont deux réels alors il existe (rn )n≥0 une suite décroissante de
rationnels et (sn )n≥0 une suite croissante de rationnels qui convergent respectivement vers a et b, de
sorte que [
(rn , sn ] = (a, b) et λ((a, b)) = lim λ((rn , sn ]) = b − a,
n→∞
n≥0

en utilisant la continuité à gauche d’une mesure.

Remarque 25. En remarquant (0, 1) = ∪x∈(0,1) {x}, il devient transparent qu’il est illusoire de considérer
une forme d’additivité
P plus générale que la σ-additivité car si nous pouvons bien donner un sens dans
ce cas précis à x∈(0,1) λ({x}) puisque tous les termes de cette somme sont nuls, il est bien entendu
P
que 1 = λ((0, 1)) ̸= x∈(0,1) λ({x}).

36
2.2.3 Théorème des classes monotones, caractérisation des mesures et théo-
rème de prolongement de Carathéodory
Théorème des classes monotones
Définition 2.2.14 (π-système). Une famille C de parties de X est un π-système si
1. C ̸= ∅,
2. si A, B ∈ C alors A ∩ B ∈ C.

La notion d’algèbre de Boole contient la notion de π-système. Le π-système est l’hypothèse minimale
apparaissant dans le théorème de classe monotone, mais la notion d’algèbre de Boole est plus naturelle.

Définition 2.2.15 (Algèbre de Boole). Une algèbre de Boole sur X est un ensemble de parties C vérifiant
1. X ∈ C,
2. A ∈ C alors A∁ ∈ C,
3. A, B ∈ C alors A ∪ B ∈ C.

Exercice 18. Vérifier que, sur R, l’ensemble des intervalles est un π-système. Vérifier que l’ensemble des
réunions finies d’intervalles deux à deux disjoints est une algèbre de Boole.
Remarque 26. Une tribu sur X est une algèbre sur X stable par union dénombrable :
[
(An )n≥0 ∈ C N =⇒ An ∈ C.
n≥0

Cette remarque explique la dénomination de σ-algèbre parfois employée qui est par ailleurs traduite en
σ-algebra en anglais.

Définition 2.2.16 (λ-système ou classe monotone). Une famille Λ de parties de X est appelée λ-système
si
1. X ∈ Λ,
2. si (An )n≥0 est suite croissante d’éléments de Λ alors ∪n≥0 An ∈ Λ,
3. si A, B ∈ Λ avec A ⊂ B alors B \ A ∈ Λ.

Remarque 27. Une tribu est en particulier une classe monotone.

Lemme 2.2.17. Soit Λ un λ-système stable par intersection finie. Alors Λ est une tribu.

Démonstration. Les points (1) et (3) de la définition d’un λ-système implique qu’un λ-système est stable
par passage au complémentaire. En particulier, ∅ ∈ Λ. Il reste donc à montrer que Λ est stable par union
dénombrable. Si A, B ∈ Λ alors A ∪ B = (A∁ ∩ B ∁ )∁ ainsi Λ est stable par union finie. Soit (An )n≥0 une
famille d’éléments de Λ alors
[ [ [ p
An = Ak .
n≥0 p≥0 k=0

Comme (∪pk=0 Ak )p≥0est une suite croissante de Λ, on montre la stabilité de Λ par union dénombrable,
ce qui termine la preuve du lemme.

Proposition 2.2.18. Si S est un ensemble de parties de X alors il existe un plus petit λ-système
contenant S noté Λ(S).

Démonstration. C’est la même idée que pour les tribus engendrées : il faut remarquer que l’intersection
de λ-systèmes est un λ-système.

Les λ-systèmes sont des classes beaucoup moins riches que les tribus. Le théorème suivant va permettre
de caractériser les mesures en se restreignant à ces λ-système.

Théorème 2.2.19 (des classes monotones). Si S est un π-système alors Λ(S) = σ(S).

37
Démonstration. Du fait du lemme 2.2.17, il suffit de montrer que Λ(S) est stable par intersection finie.
Soit B ∈ S fixé, posons
ΛB = {A ∈ Λ(S) : A ∩ B ∈ Λ(S)}.
On vérifie que ΛB est un λ-système :
— tout d’abord, puisque X ∩ B = B ∈ S ⊂ Λ(S), X ∈ ΛB ;
— d’autre part, si (An )n≥0 est une suite croissante d’éléments de ΛB alors An ∩ B ∈ Λ(S) pour tout
n ≥ 0. Or  
[ [
 An  ∩ B = (An ∩ B) (2.1)
n≥0 n≥0

si bien que, puisque Λ(S) est un λ-système et que (An ∩ B)n≥0 est une suite croissante d’éléments
de Λ(S), le membre de gauche est un élément de Λ(S). Ainsi, ∪n≥0 An ∈ ΛB ;
— enfin, (A1 \ A0 ) ∩ B = A1 ∩ B \ A0 ∩ B ∈ Λ(S) car A0 , A1 ∈ ΛB et Λ(S) est un λ-système.
Par ailleurs, S est un π-système, il est stable par intersection finie si bien que pour tout A ∈ S, A ∩ B ∈
S ⊂ Λ(S). Nous avons donc montré que ΛB est un λ-système qui contient S, par conséquent il contient
Λ(S). En particulier, on a montré que

∀B ∈ S, ∀A ∈ Λ(S), A ∩ B ∈ Λ(S). (2.2)

Soit maintenant C ∈ Λ(S) et posons

ΛC = {A ∈ Λ(S) : A ∩ C ∈ Λ(S)}

En procédant de la même façon que pour ΛB , nous pouvons montrer que ΛC est un λ-système. De plus
il contient S puisque si A ∈ S alors A ∩ C ∈ Λ(S) par (2.2). Le λ-système ΛC contient donc Λ(S). Mais
par définition, ΛC ⊂ Λ(S) donc pour tout C ∈ Λ(S), ΛC = Λ(S). Ceci implique en particulier que Λ(S)
est stable par intersection finie, c’est donc une tribu et σ(S) ⊂ Λ(S). Comme une tribu est un λ-système,
l’inclusion précédente est en fait une égalité.

Théorème 2.2.20 (Caractérisation des mesures). Soit S un π-système.


1. Soient µ et ν deux mesures finies sur σ(S) telles que
— µ(X) = ν(X),
— pour tout A ∈ S, µ(A) = ν(A).
Alors µ = ν.
2. Soient µ et ν deux mesures sur σ(S) telles que
— pour tout A ∈ S, µ(A) = ν(A),
— il existe une suite exhaustive croissante (Bn )n≥0 d’éléments de S telle que µ(Bn ) = ν(Bn ) < ∞
pour tout n ∈ N.
Alors µ = ν.

Remarque 28. Ainsi, si l’on veut vérifier que deux mesures de probabilités coı̈ncident sur (X, X ) il
suffit de vérifier qu’elles coı̈ncident sur un π-système (ou une algèbre de Boole) engendrant la tribu X .
Typiquement, pour les mesures boréliennes sur R, il suffira de le vérifier pour les intervalles (−∞, a] pour
tout a ∈ R.

Démonstration. On commence par le cas où µ et ν des mesures finies. On pose

Λ = {A ∈ σ(S) : µ(A) = ν(A)}.

Montrons que Λ est un λ-système. Par hypothèse, X ∈ Λ. De plus Λ est stable par union finie. Soit
(An )n≥0 une suite croissante d’éléments de Λ. Par stabilité par union finie et continuité de la mesure
  ! !  
[ n
[ n
[ [
µ An  = lim µ An = lim ν An =ν An  ,
n→∞ n→∞
n≥0 k=0 k=0 n≥0

38
si bien que ∪n≥0 An ∈ Λ. Soient A, B ∈ Λ avec A ⊂ B. Puisque µ(X) et ν(X) sont finis et que B ∈ Λ, on
a µ(B), ν(B) < ∞. De plus,

µ(B \ A) = µ(B) − µ(A) = ν(B) − ν(A) = ν(B \ A),

et donc B \ A ∈ Λ.
Ainsi Λ est un λ-système qui contient le π-système S donc Λ(S) ⊂ Λ. Par définition, Λ ⊂ σ(S) et
d’après le théorème des classes monotones, Λ(S) = σ(S). Finalement, on a montré

Λ ⊂ σ(S) = Λ(S) ⊂ Λ.

Supposons désormais que µ et ν soient seulement σ-finies et soit (Bn )n≥0 une suite exhaustive satis-
faisant aux hypothèses du théorème. Pour n ≥ 0, on définit les mesures µn et νn sur σ(S) par

∀A ∈ σ(S), µn (A) = µ(A ∩ Bn ), et νn (A) = ν(A ∩ Bn ).

Les mesures µn et νn sont finies et coı̈ncident sur S (qui rappelons le est stable par intersections finies)
donc sur σ(S) par le premier point. Enfin, pour tout A ∈ σ(S), puisque (A ∩ Bn )n≥0 est une suite
croissante d’éléments de σ(S),

µ(A) = lim µn (A) = lim µ(A ∩ Bn ) = lim ν(A ∩ Bn ) = lim νn (A) = ν(A).
n→∞ n→∞ n→∞ n→∞

Ceci achève la preuve.

Théorème d’extension de Carathéodory


Définition 2.2.21 (Mesure sur une algèbre de Boole). Soit C une algèbre de Boole sur X. Une mesure
sur C est une application
µ : C → R+ ∪ {∞}
satisfaisant
1. µ(∅) = 0,
2. µ est finiment additive : si A, B ∈ C et A ∩ B = ∅ alors µ(A ∪ B) = µ(A) + µ(B),
3. si (An )n≥0 est une suite décroissante d’élément de C telle que
\
µ(A0 ) < ∞ et An = ∅ =⇒ µ(An ) ↓ 0 quand n → ∞.
n≥0

Définition 2.2.22. Soit C une algèbre de Boole sur X et µ une mesure sur C. On dit que
1. µ est finie si µ(X) < ∞ ;
2. µ est σ-finie s’il existe une suite exhaustive (Bn )n≥0 d’éléments de C avec µ(Bn ) < ∞ pour tout
n ≥ 0 et telle que pour tout A ∈ C, µ(A) = limn→∞ µ(Bn ∩ A).
Proposition 2.2.23. Soit µ une mesure finie sur une algèbre de Boole C. Alors
1. µ est σ-additive : si (An )n≥0 est une suite d’éléments de C deux à deux disjoints et ∪n≥0 An ∈ C,
alors  
[ X
µ An  = µ(An ).
n≥0 n≥0

2. µ est continue à gauche : si (An )n≥0 est une suite croissante d’éléments de C et ∪n≥0 An ∈ C,
alors  
[
µ(An ) ↑ µ  An  quand n → ∞.
n≥0

3. µ est σ-sous-additive : si (An )n≥0 est une suite d’éléments de C et ∪n≥0 An ∈ C alors
 
[ X
µ An  ≤ µ(An ).
n≥0 n≥0

39
Démonstration. 1. Soit (An )n≥0 une suite d’éléments de C deux à deux disjoints tels que ∪n≥0 An ∈ C.
On pose  
n−1
!
[ [
Bn =  An  \ Ak .
n≥0 k=0

Comme C est une algèbre de Boole, il est stable par union finie et par passage au complémentaire
si bien que Bn ∈ C pour tout n ≥ 0. Les ensembles A0 , A1 , . . . , An−1 et Bn sont par ailleurs deux à
deux disjoints. Puisque µ est finiment additive (le point (2) définissant une mesure sur une algèbre
de Boole), on obtient
 
[
µ An  = µ(A0 ) + µ(A1 ) + · · · + µ(An−1 ) + µ(Bn ). (2.3)
n≥0

D’autre part, la suite (Bn )n≥0 est décroissante, ∩n≥0 Bn = ∅ et comme µ est finie µ(B0 ) < ∞. Par
conséquent, par le point (3) définissant une mesure sur une algèbre de Boole : limn→∞ µ(Bn ) = 0.
En faisant tendre n vers l’infini dans (2.3), on obtient
 
[ X
µ An  = µ(An ).
n≥0 n→∞

2. Soit (An )n≥0 une suite croissante d’éléments de C. Posons B0 = A0 et pour tout n ≥ 1, Bn =
An \ An−1 . Alors les Bn sont des éléments de C deux à deux disjoints et tels que pour tout n ≥ 0,
An = ∪nk=0 Bk . D’autre part ∪n≥0 Bn = ∪n≥0 An ∈ C par hypothèse. Le point précédent montre
   
[ [ X X n
µ An  = µ  Bn  = µ(Bn ) = lim ↑ µ(Bk )
n→∞
n≥0 n≥0 n≥0 k=0
n
!
[
= lim ↑ µ Bk = lim ↑ µ(An ).
n→∞ n→∞
k=0

3. On pose B0 = A0 et pour tout n ≥ 1,


n−1
[
B n = An \ Ak .
k=0

Les ensembles Bn sont des éléments de C deux à deux disjoints et Bn = ∪nk=0 Ak . De plus,
∪n≥0 Bn = ∪n≥0 An . D’où, puisque Bn ⊂ An si bien que µ(An ) = µ(Bn ) + µ(An \ Bn ),
   
[ [ X X
µ An  = µ  Bn  = µ(Bn ) ≤ µ(An ).
n≥0 n≥0 n≥0 n≥0

Remarque 29. Les points 2 et 3 de la proposition 2.2.23 se montrent en fait de la même façon que pour
les mesures sur une tribu. Cependant, une algèbre de Boole n’est pas stable par réunion dénombrable
contrairement à une tribu. Il faut ainsi s’assurer que tous les ensembles que l’on mesure soient bien dans
l’algèbre de Boole considérée, en dehors la mesure µ n’est a priori pas définie.
Théorème 2.2.24 (de prolongement de Carathéodory). Soit C une algèbre de Boole 1 et µ une mesure
1. L’hypothèse selon laquelle C est une algèbre de Boole est un peu forte. Le théorème reste vrai si C est un anneau
d’ensemble que l’on définit ci-dessous. Une algèbre de Boole est en particulier un anneau, la réciproque est fausse (considérer
R = {∅} par exemple). Étant donné que la plupart des familles d’ensembles génératrices que nous considérerons seront des
algèbres, il apparaissait naturel d’énoncer le théorème sous cette forme.
Définition 2.2.25 (Anneaux). Une famille R de parties de X est anneau d’ensemble si
1. R n’est pas vide ;
2. R est stable par différence ensembliste ;
3. R est stable par union finie.

40
σ-finie sur C. Alors, il existe une unique mesure µ
e sur σ(C) qui coı̈ncide avec µ sur C.
L’unicité dans le théorème de Carathéodory est une conséquence du théorème de caractérisation des
mesures de 2.2.20. Il s’agit donc de montrer l’existence du prolongement. L’idée est d’étendre µ à une
application, définie sur l’ensemble des parties P(X) de X, appelée mesure extérieure et qui sera notée µ∗ .
En général, µ∗ n’est pas une mesure parce que l’ensemble des parties P(X) est trop riche. La solution
consiste à enlever les parties de X pathologiques en construisant une tribu convenable, contenant l’algèbre
de Boole C, de sorte que, restreinte à cette tribu, la fonction d’ensembles µ∗ soit une mesure.
Définition 2.2.26 (Mesure extérieure). Une mesure extérieure sur X est une application µ∗ : P(X) →
X+ vérifiant
1. µ∗ (∅) = 0 ;
2. µ∗ est croissante : si A ⊂ B alors µ∗ (A) ≤ µ∗ (B) ;
3. µ∗ est σ-sous-additive : si (An )n≥0 est une famille de parties de X alors
 
[ X
µ∗  An  ≤ µ∗ (An ).
n≥0 n≥0

Nous aurons besoins des résultats suivants qui seront montrés en fin de section.
Lemme 2.2.27. Soit B ∈ P(X) et posons
 
X 
µ∗ (B) = inf µ(Bn ) : (Bn )n≥0 ∈ C N , B ⊂ ∪n≥0 Bn .
 
n≥0

Alors µ∗ est une mesure extérieure et µ∗ coı̈ncide avec µ sur C.


Proposition 2.2.28. Soit

U = {A ∈ P(X) : ∀B ∈ P(X), µ∗ (B) ≥ µ∗ (B ∩ A) + µ∗ (B ∩ A∁ )}.

Alors,
U = {A ∈ P(X) : ∀B ∈ P(X), µ∗ (B) = µ∗ (B ∩ A) + µ∗ (B ∩ A∁ )},
autrement dit, l’inégalité opposée est toujours vérifiée. De plus, U est une tribu et, restreint à cette tribu,
µ∗ est une mesure sur U.
Remarque 30. La tribu U est en quelque sorte la plus grande tribu sur laquelle la mesure extérieure µ∗
est une mesure.
Proposition 2.2.29. La tribu U contient l’algèbre de Boole C ainsi que σ(C).
Preuve du théorème de Carathéodory 2.2.24. L’unicité dans le théorème de Carathéodory est une consé-
quence directe du théorème 2.2.20 caractérisant les mesures puisque une algèbre de Boole est en particulier
un π-système.
Lorsque µ est finie, l’existence est une conséquence du lemme 2.2.27 ainsi que des propositions 2.2.28
et 2.2.29 : µe est simplement la restriction de la mesure extérieure µ∗ à σ(C) ⊂ U.
Supposons désormais que µ est σ-finie. Dans ce cas, il existe (En )n≥0 une suite croissante d’éléments
de C avec µ(En ) < ∞, X = ∪n≥0 En et pour tout A ∈ C, µ(A) = limn→∞ µ(En ∩ A). Pour tout n ≥ 0,
on définit la mesure µn pour tout A ∈ C par µn (A) = µ(A ∩ En ). Ainsi chaque mesure µn est finie sur
l’algèbre de Boole C donc se prolonge en une unique mesure µ en sur σ(C).
Comme µ en et µen+1 (· ∩ En ) coı̈ncident sur C, elles coı̈ncident sur σ(C) par le théorème 2.2.20 de
caractérisation des mesures finies. De plus, pour tout A ∈ σ(C) et tout n ≥ 0,

µ en+1 (A ∩ En ) ≤ µ
en (A) = µ en+1 (A).

On pose alors pour tout A ∈ σ(C)

µ
e(A) = lim µ
en (A) = sup µ
en (A).
n→∞ n≥0

41
e restreinte à C coı̈ncide avec µ. Montrons que µ
De fait, µ e est une mesure. Clairement µ
e(∅) = 0 puisque
∅ ∈ C, donc µe(∅) = µ(∅) = 0. Soit (An )n≥0 une famille d’éléments de σ(C) deux à deux disjoints. Alors,
puisque µ
en est une mesure
 
p p
!
[ [ X
µ
en  Ak ≥ µ
 en Ak = µ
en (Ak ).
k≥0 k=0 k=0

En faisant tendre n, puis p, vers l’infini, on obtient


 
[ X
µ
e An  ≥ µ
e(An ).
n≥0 n≥0

En outre,  
[ X X
µ
en  Ap  = en (Ap ) ≤
µ µ
e(Ap ).
p≥0 p≥0 p≥0

En faisant tendre n vers l’infini, on obtient l’inégalité inverse ce qui achève la preuve du théorème.

Preuve du lemme 2.2.27. On commence par montrer que, restreint à C, µ∗ coı̈ncide avec µ. Pour cela,
on se donne A ∈ C que l’on peut écrire
P comme une réunion A = ∪n≥0 Bn avec B0 = A et Bn = ∅ pour
tout n ≥ 1. Donc µ∗ (A) ≤ µ(A) = n≥0 µ(Bn ) en utilisant la σ-additivité de la mesure µ.
Soit ε > 0, alors on peut trouver une suite (Bn )n≥0 d’éléments de C tel que A ⊂ ∪n≥0 Bn et
X
µ(Bn ) ≤ µ∗ (A) + ε.
n≥0

Aussi, on peut réécrire A comme suit


 
[ [
A= Bn  ∩ A = Bn ∩ A.
n≥0 n≥0

Ainsi, la réunion à droite est un élément de C. De plus, pour chaque n ≥ 0, Bn est dans C qui est stable
par intersection finie. En utilisant la σ-sous-additivité de µ ainsi que sa croissance (points (i) et (ii) de
la proposition 2.2.23), on obtient
X X
µ(A) ≤ µ(Bn ∩ A) ≤ µ(Bn ) ≤ µ∗ (A) + ε.
n≥0 n≥0

On a donc montré que si A ∈ C, alors µ(A) = µ∗ (A).


Montrons désormais que µ∗ est une mesure extérieure. Tout d’abord, puisque ∅ ∈ C, nous avons
µ∗ (∅) = µ(∅) = 0. La croissance de µ∗ provient de la croissance de µ. Il reste donc à montrer que µ∗ est
σ-sous-additive. Soit (Ak )k≥0 un ensemble de parties de X et ε > 0. Pour chaque k ≥ 0, il existe une
suite (Bnk )n≥0 d’éléments de C tels que
[ X
Ak ⊂ Bnk et µ(Bnk ) ≤ 2−k ε + µ∗ (Ak ).
n≥0 n≥0

Il est clair que ∪k≥0 Ak ⊂ ∪k≥0 ∪n≥0 Bnk qui est une réunion dénombrable, donc par définition de µ∗
 
[ XX X X X
µ∗  Ak  ≤ µ(Bnk ) ≤ ε2−k + µ∗ (Ak ) = 2ε + µ∗ (Ak ),
k≥0 k≥0 n≥0 k≥0 k≥0 k≥0

et ce pour tout ε > 0, d’où la σ-sous-additivité de µ∗ . Ceci achève la preuve du lemme.

42
Preuve de la proposition 2.2.28. Soient A, B ⊂ X, alors B = (B ∩ A) ∪ (B ∩ A∁ ), par σ-sous-additivité
de la mesure extérieure µ∗ , µ∗ (B) ≤ µ∗ (B ∩ A) + µ∗ (B ∩ A∁ ), d’où l’égalité d’ensembles annoncée.
Montrons que U est une tribu. Clairement, ∅ ∈ U et si A ∈ U alors A∁ ∈ U. Reste à montrer la
stabilité par union dénombrable. On commence par la stabilité par réunion finie. Soient A0 , A1 ∈ U,
alors
µ∗ (B) = µ∗ (B ∩ A0 ) + µ∗ (B ∩ A∁0 )
= µ∗ (B ∩ A0 ∩ A1 ) + µ∗ (B ∩ A0 ∩ A∁1 ) + µ∗ (B ∩ A∁0 ∩ A1 ) + µ∗ (B ∩ A∁0 ∩ A∁1 ).

On remarque que A∁0 ∩ A∁1 = (A0 ∪ A1 )∁ et A0 ∪ A1 = (A0 ∩ A1 ) ∪ (A0 ∩ A∁1 ) ∪ (A∁0 ∩ A1 ). En utilisant la
σ-sous-additivité de µ∗ appliqué à B ∩ (A0 ∪ A1 ) = (B ∩ A0 ) ∪ (B ∩ A1 ), il vient que

µ∗ (B) ≥ µ∗ (B ∩ (A0 ∪ A1 )) + µ∗ (B ∩ (A0 ∪ A1 )∁ ).


Ainsi A0 ∪ A1 ∈ U. Nous avons donc montré que U est stable par passage au complémentaire et unions
finies. Pour montrer la stabilité par union dénombrable, nous aurons besoin du lemme suivant.
Lemme 2.2.30. Si C0 , . . . , Cn sont des éléments de U deux à deux disjoints alors pour tout B ⊂ X
n
X
µ∗ (B) ≥ µ∗ (B ∩ Ck ).
k=0

Démonstration. Soient C0 , C1 ∈ U tels que C0 ∩ C1 = ∅ si bien que B ∩ C1 ⊂ B ∩ C0∁ et

µ∗ (B) = µ∗ (B ∩ C0 ) + µ∗ (B ∩ C0∁ ) ≥ µ∗ (B ∩ C0 ) + µ∗ (B ∩ C1 ),
en utilisant la croissance de µ∗ . Par récurrence, on obtient l’inégalité du lemme pour des familles finies.
Soit (An )n≥0 une famille d’éléments de U. On pose A′0 = A0 et, pour tout n ≥ 1, A′n = An \ ∪n−1
k=0 Ak .
Comme U est stable par passage au complémentaire et par réunion finie, A′n ∈ U pour tout n ≥ 0. De
plus, les ensembles de la famille (A′n )n≥0 sont deux à deux disjoints et ∪n≥0 An = ∪n≥0 A′n .
Considérons B ⊂ X, puisque pour tout n ≥ 0, ∪nk=0 A′n ∈ U, il vient que
!  !∁ 
[n [n
µ∗ (B) = µ∗ B ∩ A′k + µ∗ B ∩ A′k  .
k=0 k=0

Pour le premier terme, on applique la sous-additivité finie de la mesure extérieure µ∗ que l’on a montré
plus haut, alors que pour le second terme on utilise la propriété de croissance. D’où
  ∁ 
Xn [
µ∗ (B) ≥ µ∗ (B ∩ A′k ) + µ∗ B ∩  A′p   .
 
k=0 p≥0

En faisant tendre n vers l’infini, on obtient


 ∁ 

X [
µ∗ (B) ≥ µ∗ (B ∩ A′p ) + µ∗ B ∩  A′p  
 
p≥0 p≥0

     ∁  (2.4)
[ [
≥ µ∗ B ∩  A′p  + µ∗ B ∩  A′p   ,
 
p≥0 p≥0

en utilisant la σ-sous-additivité de µ∗ . Ainsi, ∪k≥0 Ak = ∪k≥0 A′k ∈ U.


Il reste à montrer que µ∗ est σ-additive sur U. Si la suite (An )n≥0 considérée au-dessus est constituée
d’éléments deux à deux disjoints alors en fait An = A′n pour tout n ≥ 0. En posant B = ∪n≥0 A′n dans
(2.4), on trouve  
[ X
µ∗  A′n  ≥ µ∗ (A′n ).
n≥0 n≥0

43
Comme l’inégalité inverse est toujours vérifiée (c’est la σ-sous-additivité), on en déduit que µ∗ est une
mesure sur U.
Preuve de la proposition 2.2.29. Soient A ∈ C, B ∈ P(X). Alors pour tout ε > 0 il existe (Bn )n≥0 une
famille d’éléments de C telle que X
µ∗ (Bn ) ≤ µ∗ (B) + ε.
n≥0

Puisque pour tout n ≥ 0, Bn ∈ C et A ∈ C, Bn ∩ A ∈ C, et que, de plus, µ∗ coı̈ncident sur C avec µ qui


est finiment additive, on a
X X
µ∗ (B) + ε ≥ µ∗ (Bn ) ≥ µ∗ (Bn ∩ A) + µ∗ (Bn ∩ A∁ ) ≥ µ∗ (B ∩ A) + µ∗ (B ∩ A∁ ),
n≥0 n≥0

par σ-sous-additivité. Lorsque ε → 0, on obtient que A ∈ U. Ceci montre que U contient C et σ(C).

Construction effective de la mesure de Lebesgue et mesures de Stieltjes


Afin de rendre l’exposé de la construction de la mesure de Lebesgue plus lisible, nous introduisons la
notion plus faible de semi-algèbre.
Définition 2.2.31 (Semi-algèbre). Une famille S de parties de X est une semi-algèbre si
1. ∅ ∈ S,
2. pour tout A, B ∈ S, A ∩ B ∈ S,
Sn
3. pour tout A ∈ S, il existe n ≥ 1 et A1 , . . . , An ∈ S deux à deux disjoints tels que A∁ = i=1 Ai .
Exemple 17. L’ensemble des intervalles de R constitue une semi-algèbre.
Proposition 2.2.32. Soit S une semi-algèbre.
 
Sn
1. L’ensemble i=1 Ai , Ai ∈ S, deux à deux disjoints, n ≥ 1 , notée C(S), est la plus petite

algèbre de Boole contenant S.


2. Soit µ : S → R+ une application vérifiant µ(∅) = 0 et finiment additive au sens suivant
∀A, B ∈ S : A ∪ B ∈ S et A ∩ B = ∅ =⇒ µ(A ∪ B) = µ(A) + µ(B).
Alors µ admet un unique prolongement µ à C(S) vérifiant la propriété d’additivité finie au sens
d’une mesure sur une algèbre de Boole — c.f. le deuxième point de la définition 2.2.21.
Démonstration. 1. Par stabilité par réunion finie, toute algèbre de Boole contenant S contient C(S).
Reste à montrer que C(S) est une algèbre de Boole.
— ∅ ∈ S ⊂ C(S) ;
— C(S) est stable par intersection finie car, d’une part,
n
! m 
[ [ [
Ai ∩  Bj  = Ai ∩ B j ,
i=1 j=1 i,j

et d’autre part, les Ai ∩ Bj sont deux à deux disjoints dès que les Ai , 1 ≤ i ≤ n, respectivement
les Bj , 1 ≤ j ≤ m, sont deux à deux disjoints ; la stabilité par union finie de (S) se déduit par
passage au complémentaire que l’on montre ci-dessous ;
Sn Sm(i) (i)
— si A = i=1 Ai avec Ai ∈ S alors par hypothèse, pour chaque i ∈ {1, . . . , n}, A∁i = k=1 Bk
(i) (i)
où les Bk sont des parties de S deux à deux disjointes. Quitte à ajouter des Bk = ∅, on peut
remplacer les m(i) par m = max{m(i) : 1 ≤ i ≤ n}. D’où
n n m
! n
!
(i) (i)
\ \ [ [ \
∁ ∁
A = Ai = Bk = Bki .
i=1 i=1 k=1 1≤k1 ,...,kn ≤m i=1
| {z }
∈S
Tn (i)
Ainsi, A∁ ∈ C(S) car les ensembles i=1 Bki , 1 ≤ k1 , . . . , kn ≤ n, sont deux à deux disjoints.

44
Sn
2. Pour tout A = i=1 Ai ∈ C(S) on pose
n
X
µ(A) = µ(Ai ).
i=1

Rappelant
Sm que les Ai ∈ S sont deux à deux disjoints, cette définition est consistant : si A =

j=1 jA est une
S autre représentation de A alors les Ai ∩ A′j étant deux à deux disjoints, on peut

réécrire A = i,j Ai ∩ Aj et donc par additivité de µ sur S
n
X X m
X
µ(Ai ) = µ(Ai ∩ A′j ) = µ(A′j ).
i=1 i,j j=1

Finalement, µ étant complètement déterminée par les valeurs de µ sur S, µ est unique alors que
sa propriété d’additivité finie est évidente par définition.

Puisque µ est finiment additive, on a facilement pour tout A, B ∈ C(S) tels que A ⊂ B que µ(B) =
µ(B ∩ A) + µ(B ∩ A∁ ) ≥ µ(A), i.e. µ est croissante. De même, µ satisfait une formule du crible : pour
tout A, B ∈ C(S), µ(A ∪ B) + µ(A ∩ B) = µ(A) + µ(B). Enfin, µ est finiment sous-additive :

∀A1 , . . . , An ∈ C(S), µ(A1 ∪ · · · ∪ An ) ≤ µ(A1 ) + · · · + µ(An ).

Théorème 2.2.33 (Stieltjes). Soit F : R → R une fonction croissante continue à droite. Il existe une
unique mesure µF sur (R, B(R)) appelée mesure de Stieltjes associée à F vérifiant

∀a, b ∈ R, µF ((a, b]) = F (b) − F (a).

La mesure de Lebesgue n’est rien d’autre que la mesure de Stieltjes associée à la fonction continue
croissante x → x. C’est alors un exercice de montrer le théorème 2.2.12.
Démonstration. Étape 1 :
On pose S = {(a, b], (a, ∞), −∞ ≤ a ≤ b < ∞}. On vérifie facilement que S est une semi-algèbre. On
définit sur S l’application ℓ = ℓF par

ℓ((a, b]) = F (b) − F (a), et ℓ((a, ∞)) = F (+∞) − F (a),

où F (+∞) = limt→∞ F (t) qui existe dans R ∪ {+∞} par croissance de F . On vérifie facilement que ℓ
est finiment additive sur S :

ℓ((a, b] ∪ (b, c]) = ℓ((a, c]) = F (c) − F (a) = [F (c) − F (b)] + [F (b) − F (a)] = ℓ((a, b]) + ℓ((b, c]),

et de même pour (a, b] et (b, ∞) — notons que la contrainte selon laquelle la réunion doit être dans la
semi-algèbre réduit drastiquement les cas à vérifier. D’après la proposition 2.2.32, ℓ admet un unique
prolongement ℓ sur l’algèbre
C(S) = {I1 ∪ · · · ∪ In , Ik ∈ S, n ≥ 1}
qui soit finiment additive sur l’algèbre de Boole. Autrement dit, afin d’appliquer le théorème 2.2.24 d’ex-
tension de Carathéodory, il est nécessaire de montrer que ℓ satisfait le troisième axiome d’une mesure
sur une algèbre de Boole — c.f. la définition 2.2.21 — et qu’elle est σ-finie. Il suffira alors de remarquer
que B(R) = σ({(a, ∞), a ∈ R}) si bien que B(R) ⊂ σ(S) et donc que B(R) = σ(C(S)) pour conclure la
preuve du théorème.

Étape 2 : on suppose que F (±∞) = ±∞.

— Comme F (±∞) = ±∞, il vient que, pour tout A ∈ S, A est borné dans R si et seulement si
T < ∞. Soit donc (An )n≥0 une suite décroissante d’éléments de C(S) satisfaisant ℓ(A0 ) < ∞
ℓ(A)
et n≥0 An = ∅. Alors A0 est borné comme réunion finie d’intervalles bornés. Pour tout n ≥ 0,
on écrit
(n) (n) (n) (n)
An = I1 ∪ · · · ∪ Ip(n)
n
, où Ik = (αk , βk ] (2.5)

45
sont deux à deux disjoints.
Si pour un certain n, An = ∅, le résultat est évident puisque ℓ(∅) = 0. Sinon, tous les pn sont
non nuls, c’est à dire les réunions dans (2.5) contiennent au moins un éléments. Soit ε > 0, on
(n) (n) (n) (n) (n)
construit pour tout n et tout k un intervalle Jk = (α̃k , βk ] de façon que, d’un côté Jk ⊂ Ik
et de l’autre
(n) (n) ε
F (α̃k ) − F (αk ) ≤ .
pn 2n
Ceci est toujours possible par continuité à droite de F . Chaque intervalle, éventuellement vide,
(n) Spn (n)
Jk est compact. On pose alors pour tout n ≥ 0, A′n = k=0 Jk et il vient immédiatement que
A′n ∈ C(S), A′n ⊂ An et
pn
X ε ε
ℓ(An \ A′n ) ≤ n
= n.
pn 2 2
k=0

′ Spn (n) T ′
Par construction, les An = k=0
T Jk sont compacts donc fermés dans le compact A0 et An ⊂
A = ∅. Par la proposition 1.2.62 du chapitre 1, on peut donc exhiber un entier nε ≥ 0 tel que
T nε n ′ T nε ′
k=0 Ak ⊂ k=0 Ak = ∅. Finalement,
" n ! nε
!# nε
\ ε \ X

ℓ(Anε ) = ℓ Ak \ Ak ≤ ℓ(Ak \ A′k ) ≤ ε.
k=0 k=0 k=0

Ainsi, pour tout n ≥ nε , ℓ(Anε ) ≤ ε. Ceci termine la preuve de la convergence voulue.


— On montre maintenant que ℓ est σ-finie. On pose pour cela En = (−n, n]. La suite (En )n≥0 est
croissante et exhaustive. Soit A ∈ C(S). De deux chose l’une, soit A est borné et pour tout n
assez grand A ⊂ En si bien que limn→∞ ℓ(A ∩ En ) = ℓ(A) ; ou bien A est non borné et donc l’un
des intervalles constituant A n’est pas borné, il suffit donc de vérifier la σ-finitude de ℓ pour ces
intervalles non bornés. Or, pour tout n assez grand ℓ((a, ∞) ∩ En ) = ℓ((a, n]) = F (n) − F (a) qui
tend vers F (∞), c’est à dire ℓ((a, ∞)).
Étape 3 :
Supposons que F (∞) ∈ R et F (−∞) = −∞. Soit ε > 0, alors il existe un réel Lε tel F (∞) − F (Lε ) ≤ ε.
Alors, An ∩ (−∞, Lε ] est suite décroissante (en n) d’éléments de C(S) bornés, d’intersection vide. D’autre
part,
ℓ(An ) = ℓ(An ∩ (−∞, Lε ]) + ℓ(An ∩ (Lε , ∞]).
D’après l’étape précédente,
lim sup ℓ(An ) ≤ ℓ((Lε , ∞]) ≤ ε.
n→∞

Ceci achève la preuve de la convergence voulue. La σ-finitude se montre de façon analogue. Les cas
F (−∞) ∈ R et F (∞) = ∞ ainsi que F (±∞) ∈ R se montrent également de manière similaire

2.2.4 Régularité des mesures, mesures de Borel et espaces polonais


Cette section fait une usage intensive de notions topologiques. On se reporte au chapitre 1 pour une
introduction à toutes ces notions.

Définition 2.2.34 (Régularité d’une mesure). Soient (X, d) un espace métrique et µ une mesure sur
B(X). Alors µ est dite
1. extérieurement régulière si

∀A ∈ B(X), µ(A) = inf{µ(O), O ouvert, A ⊂ O};

2. intérieurement régulière si

∀A ∈ B(X), µ(A) = sup{µ(K), K compact, K ⊂ A};

3. régulière si elle est à la fois extérieurement et intérieurement régulière.

46
La proposition suivante, si elle ne conclut pas exactement à la régularité des mesures finie, donne un
résultat proche.
Proposition 2.2.35. Soit µ une mesure finie sur la tribu de Borel B(X) d’un espace métrique (X, d).
Alors, pour tout A ∈ B(X) et tout ε > 0, il existe un ouvert O et un fermé F tels que
F ⊂A⊂O et µ(O \ F ) < ε.
Démonstration. On va montrer que
T = {A ∈ B(X) : ∀ε > 0, ∃ O ouvert et F fermé t.q. F ⊂ A ⊂ O et µ(O \ F ) < ε}
est une tribu qui contient les ouverts et par conséquent la tribu borélienne. n o
Soit A un ouvert de X et ε > 0. On pose O = A et pour tout δ > 0, Fδ = x ∈ X : d(x, A∁ ) ≥ δ .
Puisque la fonction x → d(x, A∁ ) est continue, l’ensemble Fδ est fermé. On considère alors la réunion
croissante [ n o
F1/p = x ∈ X : d(x, A∁ ) > 0 .
p≥1

Comme A est ouvert, la réunion contient A (c’est même la définition), mais comme Fδ est trivialement
contenu dans A, la réunion est exactement égale à A.
Par continuité des mesures positives,
 
[
µ(O) = µ(A) = µ  F1/p  = lim µ(F1/p ).
p→∞
p≥1

Comme µ est finie, limp→∞ µ(O \ F1/p ) = 0 donc pour p assez grand, nous avons µ(O \ F1/p ) < ε. Et de
plus F1/p ⊂ A ⊂ O. On a donc montré que T contient les ouverts de X.
Vérifions que T est une tribu. Il est évident que ∅, qui est à la fois ouvert et fermé, est un élément
de T . De plus, si A ∈ T , alors pour tout ε > 0, on peut trouver F fermé, O ouvert tel que F ⊂ A ⊂ O
et µ(O \ F ) < ε. Mais alors O∁ est fermé, F ∁ est ouvert, O∁ ⊂ A∁ ⊂ F ∁ et, comme O \ F = F ∁ \ O∁ , on
obtient µ(F ∁ \ O∁ ) < ε.

Il reste donc à vérifier la stabilité par union dénombrable. Soient (An )n≥1 ∈ T N et ε > 0. Alors pour
tout n ≥ 1, on peut trouver un fermé Fn ⊂ An et un ouvert On ⊃ An tels que µ(On \ Fn ) < ε2−n−1 . Or,
[ [ [
Fn ⊂ An ⊂ On ,
n≥1 n≥1 n≥1

et comme
       ∁  
[ [ [ [ [ \ [
∁
 On  \  Fn  =  On  ∩  Fm  =  O n ∩ Fm ⊂ (On \ Fn ),
n≥1 n≥1 n≥1 m≥1 n≥1 m≥1 n≥1

il vient par σ-sous-additivité de µ


  !
[ [ X
µ  On  \ Fn  ≤ µ(On \ Fn ) = ε/2.
n≥1 n n≥1

D’autre part, comme ∪n≥1 Fn = ∪n≥1 ∪nk=1 Fk , il existe nε tel que, par continuité de la mesure µ,
  !
[ nε
[
µ Fn  ≤ µ Fk + ε/2.
n≥1 k=1
S S nε
Posons alors, O = n≥1 On et F = k=1 Fk . Alors, O ⊂ A est ouvert et F ⊂ A est fermé. De plus,
comme µ est finie
     
[ [ [
µ(O \ F ) = µ(O) − µ(F ) = µ  On  − µ  Fn  + µ  Fn  − µ(F ) ≤ ε/2 + ε/2 = ε.
n≥1 n≥1 n≥1

47
Théorème 2.2.36. Soit µ une mesure σ-finie sur la tribu de Borel B(X) d’un espace métrique (X, d).
Alors,
∀A ∈ B(X), µ(A) = sup{µ(F ), F fermé, F ⊂ A}.
S
Si, de plus, X = n≥1 Int En pour une famille croissante de boréliens (En )n≥1 telle que µ(En ) < ∞
pour tout n ≥ 1, alors la mesure est extérieurement régulière. Enfin, si l’on peut choisir les boréliens
(En )n≥1 compacts, la mesure µ est intérieurement régulière.
Exemple 18. La mesure de Lebesgue est régulière.
Démonstration. On montre les trois points dans l’ordre.
1. Supposons d’abord S µ(A) < ∞. Soit ε > 0. Nous pouvons réécrire sous la forme d’une réunion
croissante A = n≥1 A ∩ En . Par continuité de µ, on peut trouver nε ≥ 1 tel que µ(A) =
µ(A ∩ En ) + ε/2 (c’est à dire µ(A ∩ En∁ ) ≤ ε/2). On pose µ
e(·) = µ(· ∩ En ). On se retrouve dans le
cas d’une mesure µ e finie, on peut appliquer la proposition précédente : il existe un fermé F ⊂ A
e(A \ F ) < ε/2. Ainsi,
tel que µ

µ(A \ F ) = µ((A \ F ) ∩ Enε ) + µ((A \ F ) ∩ En∁ε ) ≤ µ


e(A \ F ) + µ(A ∩ En∁ε ) ≤ ε.

On considère le cas µ(A) = ∞. Toujours par continuité à gauche de µ, µ(A) = limn→∞ µ(A ∩ En ),
or d’après le cas µ(A) < ∞, nous avons

µ(A ∩ En ) = sup{µ(F ), F ⊂ A ∩ En , F fermé} ≤ sup{µ(F ), F ⊂ A, F fermé}.

D’où µ(A) ≤ sup{µ(F ), F ⊂ A, F fermé}. L’autre inégalité est immédiate.


2. On pose pour tout n ≥ 1, µn = µn (· ∩ En ). Soit A ∈ B(X) et ε > 0. D’après la proposition
précédente, il existe donc, pour tout n ≥ 1, un ouvert On tel que A ⊂ On et µ(On \ A) ≤ ε2−n ,
soit encore
A ⊂ On et µ(On ∩ En ) ≤ µ(A ∩ En ) + ε2−n .
On montre la propriété Pn suivante par récurrence
n
! n
[ X ε
Pn : µ (Ok ∩ Ek ) ≤ µ(A ∩ En ) + .
2k
k=1 k=1

La propriété P1 est
Simmédiate avec  ce qui a été fait un peu plus haut. On suppose Pn et on montre
n+1
Pn+1 . Comme µ k=1 (Ok ∩ Ek ) est fini, on peut utiliser la formule de Poincaré (ou formule du
crible), on obtient
n+1
! n
!
[ [
µ (Ok ∩ Ek ) = µ(On+1 ∩ En+1 ) + µ (Ok ∩ Ek )
k=1 k=1
n
!
[
− µ (On+1 ∩ En+1 ) ∩ (Ok ∩ Ek ) .
k=1

Puis, par hypothèse de récurrence,


n+1
! n
[ X
µ (Ok ∩ Ek ) ≤ µ(A ∩ En+1 ) + ε2−n−1 + µ(A ∩ En ) + ε2−k
k=1 k=1
n
!
[
− µ (On+1 ∩ En+1 ) ∩ (Ok ∩ Ek ) .
k=1

Or, on observe que


n
[ n
[
A ∩ En ⊂ (A ∩ Ek ) ⊂ (Ok ∩ Ek ) et A ∩ En ⊂ A ∩ En+1 ⊂ On+1 ∩ En+1 ,
k=1 k=1

48
d’où !
n
[
µ(A ∩ En ) ≤ µ (On+1 ∩ En+1 ) ∩ (Ok ∩ Ek ) < ∞,
k=1
ce qui montre Pn+1 .
S S
L’ouvert n≥1 (On ∩ Int En ) étant contenu dans n≥1 (On ∩ En ), le passage à la limite dans
l’inégalité Pn implique
   
[ [
µ (On ∩ Int En ) ≤ µ  (On ∩ En ) ≤ µ(A) + ε.
n≥1 n≥1
S S
Il reste à montrer que n≥1 (On ∩ Int En ) contient A. Ceci découle du fait que X = n≥1 Int En
puisque [ [
A= (A ∩ Int En ) ⊂ (On ∩ Int En ).
n≥1 n≥1

3. On remarque que les ensembles F ∩ En sont compacts comme fermés dans des compacts et que
µ(F ) = supn≥1 µ(F ∩ En ).

Définition 2.2.37 (Mesure de Borel). Une mesure µ sur la tribu borélienne d’un espace métrique est
appelée mesure de Borel si elle est finie sur les parties compacts.
Définition 2.2.38 (Espace localement compact). Un espace métrique (X, d) est dit localement compact
si tout point x ∈ X admet un voisinage compact, i.e. il existe un compact K tel que x ∈ Int K.
Théorème 2.2.39. Sur un espace métrique localement compact et séparable, toute mesure de Borel µ
est régulière.
Remarque 31. Ce qu’on montre en substance c’est que dans un espace métrique séparable on peut trouver
une suite exhaustive croissante d’ouverts relativement compact.
Démonstration. Par le théorème 2.2.36 précédant, il s’agit de construire une suite croissante (Ln )n≥1 de
compacts telle que X = ∪n≥1 Int Ln .

Étape 1 : Soit (X, d) un espace métrique localement compact et séparable, montrons l’existence d’une
suite croissante exhaustive de compacts.

Comme (X, d) est séparable, il existe une suite (xn )n≥0 dense dans X. Soit I = {(n, r) ∈ N∗ × Q∗+ :
B(xn , r) compact}. Comme ISest au plus dénombrable, on peut trouver une suite croissante d’ensembles
finis Ip , p ≥ 1, telle que I = p≥1 Ip .
Soit x ∈ X, alors x admet un voisinage compact Kx . Donc il existe n ∈ N∗ et r ∈ Q∗+ tel que
S S
x ∈ B(xn , r) ⊂ Int Kx . Par conséquent, X = (n,r)∈I B(xn , r). On pose alors Kp = (n,r)∈Ip B(xn , r). Il
S
est immédiat que X = p≥1 Kp et que les compacts Kp sont compacts comme réunion finie de compacts.
Ceci achève l’étape 1.

Étape 2 : Construction des Ln par récurrence.

On pose L1 = K1 puis l’on suppose construits des compacts L1 , . . . , Ln tels que Kk ⊂ Lk , 1 ≤ k ≤ n


et Lk−1 ⊂ Int Lk , 2 ≤ k ≤ n. L’ensemble Kn+1 ∪ Ln est compact et, par locale compacité de X, tout
x ∈ Kn+1 ∪Ln a un voisinage compact Vx . Or, x ∈ Int Vx par hypothèse donc la famille (Int Vx )x∈Kn+1 ∪Ln
est un recouvrement ouvert du compact Kn+1 ∪ Ln dont on peut extraire un recouvrement fini Int Vx1 ∪
· · · ∪ Int Vxp . On pose alors Ln+1 = Vx1 ∪ · · · ∪ Vxp . L’ensemble Ln+1 ainsi construit est compact comme
réunion finie de compacts, Kn+1 ⊂ Ln+1 et Ln ⊂ Int Vx1 ∪ · · · ∪ Int Vxp ⊂ Int Ln+1 .
La suite de compacts ainsi construite vérifie finalement
[ [ [ [
X= Kn ⊂ Ln ⊂ Int Ln+1 ⊂ Int Ln ⊂ X.
n≥1 n≥1 n≥1 n≥1

49
Théorème 2.2.40. Soit (X, d) un espace polonais. Toute mesure µ finie sur (X, B(X)) vérifie
1. pour tout ε > 0, il existe Kε ⊂ X compact tel que µ(Kε∁ ) ≤ ε.
2. µ est régulière.

Démonstration. On montre d’abord le point (i). Soient (xn )n≥0 une suite dense et ε > 0. Pour tout
p ≥ 1, il existe np ∈ N∗ tel que
 !∁ 
np
[ [
µ B(xn , 1/p)  ≤ ε/2p car X = B(xn , 1/p) et µ(X) < ∞.
n=1 n≥1

On pose alors
\ [
Kε = B(xn , 1/p).
p≥1 n≤np

Aussi, Kε ⊂ ∪n≤np B(xn , 1/p) pour tout p ≥ 1, ainsi Kε est pré-compacte Or, Kε est fermé dans un
espace complet, il est lui-même complet. Donc, Kε est compact. D’autre part,
  ∁ 
[ [  X
µ(Kε ) ≤ µ  B(xn , 1/p)  ≤ ε/2p = ε.
 
p≥1 n≤np p≥1

Le deuxième point de la proposition est une conséquence directe de la proposition 2.2.35 et du fait
que F ∩ K est compact dès que F est fermé et K compact.

50
Chapitre 3

Intégrale au sens de Lebesgue

Dans ce chapitre est définie l’intégrale de Lebesgue contre une mesure sur un espace mesurable
abstrait. Après avoir donné les propriétés essentielles de l’intégrale de Lebesgue, on s’attachera à donner
des méthodes pratiques de calcul. On considérera notamment le cas des mesures discrètes et des mesures
à densité. Il sera également évoqué le comportement de l’intégrale lorsque l’on transporte une mesure.
Enfin, on étudiera le lien entre intégrale de Riemann et intégrale de Lebesgue.

3.1 Construction de l’intégrale de Lebesgue


La construction de l’intégrale de Lebesgue se fait en trois étapes. Tout d’abord nous la définissons pour
les fonctions étagées positives, puis pour les fonctions positives en utilisant l’approximation monotone des
fonctions positives par des fonctions étagées positives. Notons que la valeur de l’intégrale d’une fonction
positive peut valoir l’infini, on dit qu’elle est à valeurs dans R+ . Toute les propriétés usuelles telles la
linéarité ou la croissance de l’intégrale restent vraies pour l’intégrale des fonctions positives qui peut
prendre des valeurs infinies ! La dernière étape consiste à définir l’intégrale pour des fonctions réelles en
les écrivant comme la différence de leur partie négative et partie positive. Dans ce cas, il est nécessaire
de faire une hypothèse d’intégrabilité car, contrairement au cas des fonctions positives, certaine forme
indéterminée de type +∞ − ∞ peuvent apparaı̂tre. Enfin, les fonctions à valeurs complexes ou plus
généralement à valeurs dans Kn seront traitées.

3.1.1 Intégration des fonctions étagées positives


Définition 3.1.1. Soit f une fonction étagée positive prenant les valeurs distinctes α1 , . . . , αn . On
R note
Ai = f −1 ({αi }) pour tout i = 1, . . . , n. On appelle intégrale de f contre la mesure µ, et on note f dµ,
le nombre dans R+ défini par
Z Xn
f dµ = αi µ(Ai ),
i=1
avec la convention usuelle en théorie de la mesure 0 × ∞ = 0.
Proposition 3.1.2. L’intégrale de fonctions étagées positives vérifie les propriétés suivantes.
1. Si f et g sont deux fonctions étagées positives et λ > 0, alors
Z Z Z
(λf + g) dµ = λ f dµ + g dµ.

2. Si f et g sont deux fonctions étagées positives telles que f ≤ g, alors


Z Z
f dµ ≤ g dµ.

Démonstration. On montre le point (i) lorsque λ = 1. Le cas général s’en déduit immédiatement. On
pose
X n Xm
f= αi 1Ai et g = βj 1Bj
i=1 j=1

51
où α1 , . . . , αn (resp. β1 , . . . , βm ) sont distincts et les A1 , · · · , An (resp. B1 , . . . , Bm ) sont des ensembles
mesurables disjoints. On note γ1 , . . . , γℓ les valeurs distinctes prises par f + g et
[
Ck = (f + g)−1 (γk ) = (Ai ∩ Bj ),
(i,j)∈Ik

où Ik = {(i, j), αi + βj = γk }. Puisque les ensembles Ai ∩ Bj , i = 1, . . . , n, j = 1, . . . , m, sont deux à


deux disjoints,
X
µ(Ck ) = µ(Ai ∩ Bj ).
(i,j)∈Ik

On calcule l’intégrale de f + g
Z ℓ
X ℓ
X X
f + g dµ = γk µ(Ck ) = (αi + βj )µ(Ai ∩ Bj )
k=1 k=1 (i,j)∈Ik
n X
X m m X
X n
= αi µ(Ai ∩ Bj ) + βj µ(Ai ∩ Bj )
i=1 j=1 j=1 i=1
Xn m
X
= αi µ(Ai ) + βj µ(Bj )
i=1 j=1
Z Z
= f dµ + g dµ.

Pour le point (ii), on remarque que g − f est une fonction étagée positive, son intégrale est positive,
d’où, en utilisant le point (i)
Z Z Z Z Z
f dµ ≤ f dµ + g − f dµ = f + g − f dµ = g dµ.

P
Remarque 32. Soit f = i αi 1Ai où les αRi ne sont P
pas nécessairement distincts — mais les Ai tout de
même deux à deux disjoints. On a encore f dµ = i αi µ(Ai ).

3.1.2 Intégration des fonctions mesurables positives


Définition 3.1.3.
R Soit f une fonction mesurable à valeurs dans R+ . On appelle intégrale de f contre
µ, et on note f dµ l’élément de R+ défini par
Z Z 
f dµ = sup u dµ, u ∈ mE+ : u ≤ f ,

où mE+ désigne l’ensemble des fonctions étagées positives.

Remarque 33. Cette définition est consistante avec celle de l’intégrale d’une fonction étagées positives.
Dans ce cas, le supremum est un maximum et on choisit u = f .

Proposition 3.1.4 (Croissance de l’intégrale). Soient f, g des fonctions mesurables positives telles que
f ≤ g, alors Z Z
f dµ ≤ g dµ.

Démonstration. C’est une conséquence immédiate de l’inclusion

{u ∈ mE+ : u ≤ f } ⊂ {u ∈ mE+ : u ≤ g}

et de la définition de l’intégrale.

52
Théorème 3.1.5 (Théorème de convergence monotone de Beppo-Lévy). Soit (fn )n≥0 une suite mo-
notone croissante de fonctions mesurables positives, i.e. 0 ≤ fn ≤ fn+1 pour tout n ≥ 0. Alors f =
limn→∞ fn = supn≥0 fn est mesurable positive et
Z Z
lim fn dµ = f dµ.
n→∞

Démonstration.
R D’aprèsR la proposition 2.1.25, on sait que la fonction supremum
R est mesurable.
 Comme
fn ≤ f , on a fn dµ ≤ f dµ. La croissance de l’intégrale assure que la suite fn dµ n≥0 est elle-même
croissante et donc convergente dans R+ . On obtient donc
Z Z
lim fn dµ ≤ f dµ.
n→∞

Démontrons l’inégalité opposée. Soit u une fonction étagée positive inférieure à f et λ ∈ (0, 1). Posons,
En = {x ∈ X : fn (x) ≥ λu(x)}.
La suite (En )n≥0 est une suite croissante d’ensembles mesurables. Soit x ∈ X. Si u(x) = 0 alors x ∈ En
pour tout n ≥ 0. Si u(x) > 0 alors
lim fn (x) = f (x) ≥ u(x) > λu(x),
n→∞

et ainsi x ∈ En pour n ≥ 0 assez grand de sorte que ∪n≥0 En = X. D’autre part, par définition de En ,
fn ≥ λu1En et donc pour tout n ≥ 0, par croissance de l’intégrale
Z Z
fn dµ ≥ λu1En dµ.
Pk
La fonction λu1En est étagée positive, on sait calculer sont intégrale. Si u = i=1 αi 1Ai alors
Z X k Z Xk
u dµ = αi µ(Ai ) et u1En dµ = αi µ(Ai ∩ En ).
i=1 i=1
R
ROr pour tout i = 1, . . . , k, µ(Ai ∩ En ) converge en croissant vers µ(Ai ) donc u1En dµ converge vers
u dµ. On a donc établi que, pour tout u ∈ mE+ telle que u ≤ f et tout λ ∈ (0, 1),
Z Z Z
lim fn dµ ≥ lim λ u1En dµ = λ u dµ.
n→∞ n→∞

En prenant le supremum sur λ ∈ (0, 1), on obtient que l’intégrale de toute fonction étagée positive u
majorée par f est inférieure à la limite des intégrales des fonctions fn . Il en va de même pour l’intégrale
de f : Z Z  Z
f dµ = sup u dµ, u ∈ mE+ : u ≤ f ≤ lim fn dµ.
n→∞

ce qui est l’inégalité recherchée.


R R R
Corollaire 3.1.6. Si f, g ∈ mX+ , alors (f + g) dµ = f dµ + g dµ.
Démonstration. D’après le théorème 2.1.27, il existe des suites (fn )n≥0 et (gn )n≥0 croissantes de fonctions
étagées positives qui converge simplement vers f et g respectivement. Alors (fn + gn )n≥0 est une suite
croissante de fonctions étagées positives qui converge simplement vers f + g. La linéarité de l’intégrale
pour les fonctions étagées assure alors pour tout n ≥ 0
Z Z Z
fn + gn dµ = fn dµ + gn dµ.

Le théorème de convergence monotone permet de conclure.


Corollaire 3.1.7. Soit (fn )n≥0 une suite de fonctions mesurables positives. Alors, l’égalité suivante a
lieu dans R+
∞ ∞ Z
Z X !
X
fn dµ = fn dµ.
n=0 n=0
Démonstration. Immédiat.

53
3.1.3 Intégration des fonctions mesurables
Définition 3.1.8. R Une application f de (X, X , µ) à valeurs dans K est dite intégrable contre µ si elle
est mesurable et |f | dµ < ∞.
On notera L1K (X, X , µ), ou plus simplement L1K (µ) si il ’y a pas d’ambiguı̈tés, l’ensemble des fonctions
intégrables à valeurs dans K.

Proposition 3.1.9. Soit f une fonction mesurable à valeurs réelles. Alors f est intégrable si et seulement
si f + et f − le sont.

Démonstration. Il suffit de remarquer que |f | = f + + f − ≥ 0 et donc par linéarité de l’intégrale pour


des fonctions mesurables positives
Z Z Z
|f | dµ = f + dµ + f − dµ.

Définition 3.1.10. Soit f ∈ L1R (µ). On appelle intégrale de f contre µ et on note


R
f dµ le nombre réel
Z Z Z
f dµ = f + dµ − f − dµ.

Remarque 34. Remarquons que la définition a toujours un sens dans R lorsque f + ou f − est intégrable.
Dans ce cas, il faut toutefois être attentif lorsque l’on calcule l’intégrale de la somme de deux fonctions,
certaines indéterminations peuvent apparaı̂tre.
On note parfois lorsque l’on veut spécifier la variable muette
Z Z
f dµ = f (x) µ(dx).
R
On rencontre parfois f (x) dµ(x) que nous éviterons d’employer du fait de la confusion possible avec
les mesures de Stieltjes qui sont introduites par le Théorème 2.2.33.

Proposition
R 3.1.11. L’ensemble L1R (µ) est un espace vectoriel sur R et l’application qui à f associe
f dµ est une forme linéaire sur cet espace. De plus, on a
1. si f ∈ L1R (µ) et f ≥ 0 alors f dµ ≥ 0 ;
R

2. si f, g ∈ L1R (µ) et f ≤ g alors f dµ ≤ g dµ ;


R R

3. si f ∈ L1R (µ), alors


R R
f dµ ≤ |f | dµ.

Démonstration. On sait déjà que l’ensemble des fonctions réelles mesurables est un espace vectoriel sur
R. De plus, si f, g ∈ L1R (µ) et λ ∈ R, alors |λf + g| ≤ |λ||f | + |g|. On en déduit, par la croissance des
intégrales pour les fonctions positives
Z Z Z
|λf + g| dµ ≤ |λ| |f | dµ + |g| dµ < ∞.

La fonction mesurable identiquement nulle est évidemment intégrable, ainsi l’ensemble L1R (µ) est un
espace vectoriel sur R.
Soient f, g ∈ L1R (µ). On a 
 f + g = (f + g)+ − (f + g)−

 f + g = f + − f − + g+ − g−

d’où l’égalité (f + g)+ + f − + g − = (f + g)− + f + + g + . On intègre cette égalité en remarquant que tous
les termes sont des fonctions mesurables positives. Il vient donc
Z Z Z Z Z Z
(f + g) dµ + f dµ + g dµ = (f + g) dµ + f dµ + g − dµ.
+ − − − +

54
Toutes ces quantités sont finies, donc on obtient
Z Z Z Z Z Z
(f + g)+ dµ − (f + g)− dµ = f + dµ − f − dµ + g + dµ − g − dµ .
| R
{z } | R
{z }
= f dµ = g dµ

On montre de la même manière que Z Z


λf dµ = λ f dµ.
Ceci montre la linéarité de l’intégrale.
Pour le point (1), il suffit de remarquer que si f ∈ L1R (µ) est positive alors f dµ = f + dµ où
R R

f + est évidemment positive.


R Ainsi, la définition de l’intégrale de f coı̈ncide avec celle d’une fonction
mesurable positive et f dµ ≥ 0.
Le point (2) est une conséquence immédiate du point (1) appliqué à la fonction intégrable positive
g − f.
Enfin, pour le point (3), on écrit simplement
Z Z Z Z Z Z
f dµ = f + dµ − f − dµ ≤ f + dµ + f − dµ = |f | dµ.

Proposition 3.1.12. Soit f une fonction mesurable à valeurs dans C. Alors f est intégrable si et
seulement si les parties réelle et imaginaire de f sont intégrables.
Démonstration. Il suffit d’intégrer les inégalités |f | ≤ |Re f | + |Im f | ≤ 2|f |.
Définition 3.1.13. Soit f ∈ L1C (µ). On appelle intégrale de f contre µ, et on note
R
f dµ, le nombre
complexe Z Z Z
f dµ = Re f dµ + i Im f dµ.

Proposition 3.1.14. L’ensemble L1C est un C-espace vectoriel et l’application qui à f associe
R
f dµ
est une forme linéaire sur cet espace. De plus,
Z Z
f dµ ≤ |f | dµ.

Démonstration. Le fait que l’intégrale d’une fonction intégrable à valeurs complexes définisse une forme
linéaire se montre de la même manière que dans le cas réel. R R
Montrons la deuxième partie de la proposition. Soit α ∈ C tel que f dµ = α f dµ. On peut
toujours choisir α de module 1 et, en utilisant le fait qu’un nombre réel est plus petit que sa valeur
absolue,
Z Z Z Z
f dµ = αf dµ = Re (αf ) dµ + i Im (αf ) dµ
| {z }
=0
Z Z Z Z
≤ Re (αf ) dµ ≤ |Re (αf )| dµ ≤ |αf | dµ = |f | dµ.

Définition 3.1.15. Une application mesurable f à valeurs dans un K-espace vectoriel normé (E, ∥ · ∥)
de dimension finie est dite intégrable si ∥f ∥ ∈ L1K (µ), on note f ∈ L1E (µ). De plus, si {e1 , . . . , ed } est une
base de E, alors
Z X d Z 
f dµ = fi dµ ei ,
i=1
où (fi )i=1,...,d sont les coordonnées de f dans la base (ei )i=1,...,d .
En général, cette notion d’intégrale vectorielle est utilisée dans le contexte E = Rd muni de n’importe
qu’elle norme et on choisit la base canonique. Notons que si la valeur de l’intégrale ou, plus précisément,
sa représentation vectorielle dépend effectivement de la base choisie, le morphisme linéaire exhibé dans
la proposition précédente n’en dépend pas, de même que l’intégrabilité de f .

55
3.2 L’intégrale de Lebesgue en pratique
Au delà de l’aspect théorique de l’intégrale de Lebesgue, cette section s’intéresse à son aspect pratique.
Les idées des quatre sous-sections suivantes sont très utiles en pratique dans le calcul des probabilités.

3.2.1 L’intégrale de Lebesgue contre des mesures discrètes


On considère un espace mesurable (X, X ), une suite (ak )k≥0 de points de X telle que {ak } ∈ X et
(αk )k≥0 des réels positifs. On peut définir une mesure µ sur (X, X ) par
X
µ= αk δak .
k≥0

f dµ pour f ∈ L1K (µ).


R
On souhaite comprendre ce que signifie

Proposition 3.2.1. Soit µ définie comme ci-dessus.


1. Soit f une fonction mesurable de (X, X ) dans R+ . Alors, dans R+ ,
Z ∞
X
f dµ = αk f (ak ).
k=0

P∞
2. Une fonction f mesurable de (X, X ) dans K est intégrable si et seulement si k=0 αk |f (ak )| < ∞.
Dans ce cas,
Z X∞
f dµ = αk f (ak ).
k=0

De ce point de vue, une série numérique ou complexe n’est rien d’autre qu’une intégrale contre une
mesure discrète. Aussi, tous les résultats s’appliquent en particulier aux séries numériques ou complexes.
Notons cependant que la notion d’intégrabilité correspond à l’absolue convergence.

Démonstration. On commence par le point (1). On procède en trois étapes. Supposons d’abord que
f = 1A avec A ∈ X . Alors
Z X X
f dµ = µ(A) = αk 1A (ak ) = αk f (ak ).
k≥0 k≥0

Pn
Si f est à présent étagée positive, alors f = i=1 βi 1Ai . Par linéarité de l’intégrale
Z n
X n
X X X n
X X
f dµ = βi µ(Ai ) = βi αk 1Ai (ak ) = αk βi 1Ai (ak ) = αk f (ak ).
i=1 i=1 k≥0 k≥0 i=1 k≥0

Enfin, si f est mesurable positive, il existe une suite croissante (fn )n≥0 de fonctions étagées positives qui
converge simplement vers f . Par le théorème de convergence monotone et le lemme 2.2.11 il vient que
Z Z Z X X
f dµ = lim fn (x) dµ = lim fn dµ = lim αk fn (ak ) = αk f (ak ).
n→∞ n→∞ n→∞
k≥0 k≥0

Pour le point (2), soit f mesurable


R P le point (i) à la fonction |f | : f est
à valeur dans C. Appliquons
intégrable si et seulement si |f | dµ est finie si et seulement si k αk |f (ak )| est finie. Si tel est le cas,
on écrit
f = (Re f )+ − (Re f )− + i(Im f )+ − i(Im f )− .
Les quatre fonctions sont mesurables positives et intégrables (puisque majorées par |f |). D’après le point
(i), on obtient la relation annoncée.
R
Exercice 19. Exprimer f dµ lorsque µ est l’une des mesures discrètes des exemples 16 du chapitre 2.

56
3.2.2 Mesures à densité
Étant donné un espace mesuré (X, X , µ), on peut construire de nombreuses mesures à partir de µ
comme le montre la proposition suivante.

Proposition 3.2.2. Soit (X, X , µ) un espace mesuré et g une application mesurable positive sur (X, X ).
Soit ν l’application de X dans R+ définie par
Z Z
ν(A) = 1A g dµ = g dµ.
A

Alors ν est une mesure sur (X, X ).

Démonstration. On va utiliser la définition alternative d’une mesure donnée par la proposition 2.2.4. On
a bien évidemment ν(∅) = 0 puisque 1∅ g = 0. Soient A, B ∈ X disjoints, alors par linéarité de l’intégrale,
ν(A ∪ B) = ν(A) + ν(B). Soit (Bn )n≥0 une suite croissante d’ensembles mesurables, alors, pour tout
n ≥ 0, 1Bn ≤ 1Bn+1 et 1Bn g ≤ 1Bn+1 g et

lim 1Bn g = 1∪n≥0 Bn g.


n→∞

Ainsi, par le théorème de convergence monotone


Z Z Z
ν(∪n≥0 Bn ) = 1∪n≥0 Bn g dµ = lim 1Bn g dµ = lim 1Bn g dµ = lim ν(Bn ).
n→∞ n→∞ n→∞

Remarque 35. Si on considère la définition initiale d’une mesure, alors il faut utiliser le corollaire du
théorème de Beppo-Lévy permettant d’intervertir somme et intégrale.

Définition 3.2.3. La mesure ν est dite à densité g par rapport à µ. On note ν = g · µ. On dit que g est
la densité de ν par rapport µ.

Exemple 19. Typiquement, les lois de probabilités à densité sont des mesures de probabilités ν qui sont
à densité par rapport à la mesure de Lebesgue sur R. Par exemple, la fonction g pour la loi normale
centrée et réduite est définie pour tout x ∈ R par
2
e−x /2
g(x) = √ .

Si A ∈ B(R) alors la mesure gaussienne de A est


2
e−x /2
Z
ν(A) = 1A √ λ(dx).

En anticipant légèrement les résultats du paragraphe 3.2.4, si A est un intervalle (a, b) par exemple :
2 b 2
e−x /2 e−x /2
Z Z
ν((a, b)) = 1(a,b) √ λ(dx) = √ dx.
2π a 2π

Ce n’est rien d’autre que la probabilité qu’une variable aléatoire de loi normale centrée réduite prenne
une valeur dans (a, b).

Proposition 3.2.4 (Intégration par rapport à une mesure à densité). En utilisant les notations de la
proposition précédente
1. Soit f une fonction mesurable positive sur (X, X ). Alors, dans R+ ,
Z Z
f dν = (f g) dµ.

57
2. Soit f une fonction mesurable à valeurs complexes sur (X, X ). Alors f est intégrable pour ν si et
seulement si f g est intégrable pour µ et on a alors
Z Z
f dν = (f g) dµ.

Démonstration. Pour montrer le point (i), on procède en trois étapes. Si f = 1A avec A ∈ X , alors
l’égalité est une conséquence immédiate de la définition de ν. Si f est étagée positive, elle se déduit de la
linéarité de l’intégrale. Soient f mesurable positive et (fn )n≥0 une suite croissante de fonctions étagées
positives qui converge simplement vers f . Le théorème de convergence monotone donne
Z Z Z Z
f dν = lim fn dν = lim fn g dµ = f g dµ.
n→∞ n→∞

Pour le pointR (ii), on applique le point (i) à la fonction |f | : f est ν-intégrable si et seulement si et
seulement si |f |g dµ est finie si et seulement si f g est µ-intégrable. Si tel est le cas, on écrit

f = (Re f )+ − (Re f )− + i(Im f )+ − i(Im f )− .

Les quatre fonctions sont mesurables positives et intégrables (puisque majorées par |f |). D’après le point
(i), on obtient la relation annoncée.

3.2.3 Mesure image et théorème de transfert


Proposition 3.2.5 (Mesure image). Soient (X, X ) et (Y, Y) deux espaces mesurables et ϕ une application
mesurable de X dans Y. Soit µ une mesure sur (X, X ). L’application ν qui à B ∈ Y associe ν(B) =
µ(ϕ−1 (B)) définit une mesure sur (Y, Y) appelée mesure image de µ par ϕ que l’on notera ϕ∗ µ.
Démonstration. Nous avons ν(∅) = 0 puisque ϕ−1 (∅) = ∅. Soit (An )n≥0 une famille d’ensembles Y-
mesurables deux à deux disjoints, alors ϕ−1 (Ai ) ∩ ϕ−1 (Aj ) = ϕ−1 (Ai ∩ Aj ) = ∅ dès que i ̸= j. Ainsi,
(ϕ−1 (An ))n≥0 est une collection d’ensembles deux à deux disjoints qui sont X -mesurables puisque ϕ est
mesurable et
      
[ [ [ X X
ν An  = µ ϕ−1  An  = µ  ϕ−1 (An ) = µ(ϕ−1 (An )) = ν(An ).
n≥0 n≥0 n≥0 n≥0 n≥0

Théorème 3.2.6 (Théorème de transfert). À l’aide des mêmes notations,


1. soit f une fonction mesurable positive définie sur (Y, Y). Alors dans R+ ,
Z Z
f dϕ∗ µ = f ◦ ϕ dµ. (3.1)

2. Soit f une fonction à valeurs complexes définies sur (X, X ). Alors f est intégrable par rapport à
ϕ∗ µ si et seulement si f ◦ ϕ est intégrable par rapport à µ. Dans ce cas,
Z Z
f dϕ∗ µ = f ◦ ϕ dµ.

Démonstration. Si f est mesurable positive, alors f est limite monotone de fonctions étagées positives.
Par convergence monotone, il suffit donc de vérifier l’égalité (3.1) pour les fonctions étagées positives. Si
g est une telle fonction, alors elle s’écrit pour A1 , . . . , An ∈ E
n
X
g= αi 1Ai , α1 , . . . , αn ≥ 0.
i=1

Par définition, l’intégrale de g se calcule comme suit


Z X n n
X Z
−1
g dϕ∗ µ = αi ϕ∗ µ(Ai ) = αi µ(ϕ Ai ) = g ◦ ϕ dν,
E i=1 i=1 Ω

58
en remarquant que 1ϕ−1 Ai = 1Ai ◦ ϕ.
Pour des fonctions f mesurables à valeurs réelles, au vu de l’égalité précédente, il est clair que
f ◦ ϕ est µ-intégrable si et seulement si f est ϕ∗ µ-intégrable. De plus, en écrivant f = f + − f − , on a
f ◦ ϕ = (f ◦ ϕ)+ − (f ◦ ϕ)− et le résultat suit immédiatement. Le cas des fonctions à valeurs complexes
se montrent comme d’habitude en décomposant en partie réelle et imaginaire.

3.2.4 Intégrale de Riemann et intégrale de Lebesgue


En substance, cette sous section permet de montrer que les fonctions intégrables au sens de Riemann
sont intégrables au sens de Lebesgue et que les intégrales coı̈ncident dans ce cas là. Dans cette partie,
on va également généraliser le théorème fondamental du calcul intégral.

Intégration sur un intervalle compact


Soient f une fonction réelle bornée sur [a, b] et σ : a = x0 < x1 < · · · < xn+1 = b une subdivision de
[a, b]. Le nombre δ(σ) = max{xk − xk−1 , 1 ≤ k ≤ n + 1} est appelé pas de la subdivision σ. On pose
mk = inf{f (t), t ∈ [xk , xk+1 ]} et Mk = sup{f (t), t ∈ [xk , xk+1 ]}.
Les sommes de Darboux associées à la subdivision σ sont
Xn n
X
s(σ) = mk (xk+1 − xk ) et S(σ) = Mk (xk+1 − xk ).
k=1 k=1

Définition 3.2.7. On dit qu’une fonction réelle f sur un intervalle [a, b] est intégrable au sens de
Riemann s’il existe un nombre réel I tel que les sommes s(σ) et S(σ) tendent vers I quand δ(σ) tend
vers 0 :
∀ε > 0, ∃η > 0, ∀σ : δ(σ) < η =⇒ |s(σ) − I| + |S(σ) − I| < ε.
Rb
Le nombre I est alors appelé l’intégrale de Riemann de f sur [a, b] et on le note a f (t) dt.
Considérons à nouveau la subdivision σ et, pour chaque k = 1, . . . , n + 1, choisissons ξk ∈ [xk−1 , xk ].
La somme de Riemann définie par σ et ξ = (ξ1 , . . . , ξn ) est par définition
n
X
S(σ, ξ) = f (ξk )(xk − xk−1 ).
k=1

Il est alors facile de voir que si f est intégrable au sens de Riemann, les sommes de Riemann converge
Rb
vers a f (t) dt lorsque δ(σ) tend vers 0, uniformément par rapport au choix de ξ. Plus précisément,
Z b
∀ε > 0, ∃η > 0, ∀σ : δ(σ) < η, ∀ξ associé à σ, S(σ, ξ) − f (t) dt < ε.
a

Théorème 3.2.8 (Théorème fondamental du calcul intégrale). Tout fonction continue par morceaux
Rx sur
[a, b] est intégrable au sens de Riemann. De plus, si f est continue, la fonction x → F (x) = a f (t) dt
est dérivable sur [a, b] de dérivée F ′ = f .
Démonstration. Exercice.

Intégrale généralisée
Soit f : [a, b) −→ R, où b peut valoir +∞, localement intégrable au sens de Riemann : c’est à dire
f 1[a,c] est Riemann intégrable pour intervalle compacte [a, c] ⊂ [a, b).
Rx
On dit que f admet une intégrale généralisée sur [a, b) si la fonction x → a f (t) dt admet une limite
lorsque x tends vers b, x < b. On pose alors
Z b Z x
f (t) dt = lim f (t) dt.
a x→b,x<b a

Dans ce cas, on dit aussi que l’intégrale est convergente. On dira que l’intégrale généralisée est absolument
Rb
convergente si a |f (t)| dt est convergente. On rappelle que l’absolue convergence implique la convergence
R∞
mais que la réciproque est fausse (penser à l’exemple classique 0 sin(t) t dt).

59
Comparaison de l’intégrale de Riemann et de l’intégrale de Lebesgue pour une fonction
bornée sur un intervalle compact
Proposition 3.2.9. Soit f une fonction continue sur [a, b]. Alors si λ désigne la mesure de Lebesgue
sur R, f 1[a,b] ∈ L1R (λ) et
Z Z b
f 1[a,b] dλ = f (t) dt.
R a

Démonstration. Il est immédiat que f 1[a,b] est borélienne. De plus, comme f est continue sur le compact
[a, b], elle est bornée sur [a, b]. Nous obtenons, en posant M = supt∈[a,b] |f (t)|, que |f 1[a,b] | ≤ M 1[a,b] qui
est manifestement LebesgueR intégrable. De même, pour tout x ∈ [a, b], f 1[a,x] est Lebesgue intégrable.
Posons donc F (x) = f 1[a,x] dλ et montrons que F est dérivable sur [a, b] de dérivée f . Soit x0 ∈ [a, b]
et h > 0. On calcule
F (x0 + h) − F (x0 )
Z
1
1[a,x0 +h] f = 1[a,x0 ] f + 1(x0 ,x0 +h] f =⇒ = 1(x0 ,x0 +h] f dλ,
h h
d’où
F (x0 + h) − F (x0 )
Z
1
− f (x0 ) = 1(x0 ,x0 +h] (f − f (x0 )) dλ
h h
Soit ε > 0. Puisque f est continue en x0 , il existe η > 0 tel que pour tout x satisfaisant |x − x0 | ≤ η
implique |f (x) − f (x0 )| ≤ ε. Ainsi si h ∈ (0, η) alors

F (x0 + h) − F (x0 )
Z
1
− f (x0 ) = ε1(x0 ,x0 +h] dλ = ε.
h h

Le cas h < 0 se traite de Rfaçon analogue. Donc F est dérivable sur [a, b] de dérivée f . Or F (a) = 0 car
x
λ({a}) = 0, d’où F (x) = a f (t) dt pour tout x ∈ [a, b] et notamment
Z b Z
F (b) = f (t) dt = f 1[a,b] dλ. (3.2)
a R

R
Remarque 36. Il faut bien noter qu’a priori l’intégrale de Lebesgue de f 1[a,b] , notée f dλ, et l’intégrale
Rb
de Riemann de f sur [a, b], notée a f (t) dt, sont deux objets différents, elles sont construites de façon radi-
calement différentes. La proposition 3.2.9 ci-dessus, ainsi que le raffinement donné par le théorème 3.2.10
ci-dessous, permet de conclure que pour une grande classe de fonction les deux intégrales coı̈ncident. Il est
R R Rb
très commode de faire la confusion entre les notations f 1[a,b] dλ, f (x)1[a,b] (x) λ(dx) et a f (x) dx :
sauf mention contraire, ces notations désigneront toujours l’intégrale au sens de Lebesgue. Cet abus
n’apporte pas de problème particulier en pratique.
Théorème 3.2.10 (Critère de Lebesgue). Une fonction f : [a, b] → R bornée est intégrable au sens de
Riemann si et seulement si il existe N ⊂ [a, b] de mesure de Lebesgue nulle tel que f est continue en tout
x ∈ [a, b] \ N . Dans ce cas, il y a coı̈ncidence entre les deux intégrables
Z b Z
f (t) dt = f 1[a,b] dλ.
a

Intégrale de Riemann généralisée et intégrale de Lebesgue


La proposition suivante est très utile pour alléger le traitement des intégrales généralisées sous la
condition d’absolue convergence. Les intégrales généralisées simplement convergentes devront toutefois
être traitée de façon plus classique.
Proposition 3.2.11. Soit f : [a, b) −→ R une fonction continue. Alors f 1[a,b) ∈ L1R (λ) si et seulement
Rb
si a f (t) dt est absolument convergente et, dans ce cas, on a
Z Z b
f 1[a,b) dλ = f (t) dt.
a

60
Remarque 37. En pratique cela autorise à écrire des choses comme ceci :
Z ∞ −x Z ∞
e 2
√ dx = 2 e−y dy,
0 x 0

là où, dans le contexte de l’intégrale de Riemann, nous devrions écrire pour être tout à fait rigoureux

∞ B B
e−x √
Z Z Z
2
−x
√ dx = lim e x dx = lim √ 2e−y dy,
0 x A→0,B→∞ A A→0,B→∞ A

en justifiant tous les passages à la limite.


De même pour une intégration par parties, on peut écrire les bornes infinies directement, sous la
condition bien entendu que l’intégrale généralisée est absolument convergente.
Démonstration. Supposons d’abord f positive. Soit (bn )n≥0 une suite croissante de points de [a, b) qui
converge vers b. Pour tout n ≥ 0,
Z Z bn
f 1[a,bn ] dλ = f (t) dt.
a

Le théorème de convergence monotone (pour l’intégrale de Lebesgue), on obtient


Z Z Z bn
f 1[a,b) dλ = lim f 1[a,bn ] dλ = lim f (t) dt ∈ R+ .
n→∞ n→∞ a

Or, par définition, f 1[a,b) est Lebesgue intégrable si et seulement si cette limite est finie donc si et
seulement si f est Riemann intégrable. De plus, ces deux intégrables coı̈ncident.
Dans le cas général, on sait que f est Lebesgue intégrable si et seulement si |f | l’est, donc si et
Rb
seulement si a f (t) dt est absolument convergente. Si tel est le cas, nous écrivons f = f + − f − . On a
f + ≤ |f | et f − ≤ |f | si bien que f + , f − sont positives et intégrables aussi bien dans le ses de Lebesgue
que dans le sens de Riemann. Or,
Z Z b Z Z b
f + 1[a,b) dλ = f + (t) dt et f − 1[a,b) dλ = f − (t) dt,
a a

et la linéarité de l’intégrale permet de conclure.

61
62
Chapitre 4

Théorèmes limites

4.1 Lemme de Fatou


Lors de la construction de l’intégrale, nous avons établi un théorème limite fondamental : le théorème
de Beppo-Lévy également appelé le théorème de convergence monotone.
Théorème 4.1.1 (Théorème de Beppo-Lévy). Soit (fn )n≥0 une suite monotone croissante de fonctions
mesurables positives, i.e. 0 ≤ fn ≤ fn+1 pour tout n ≥ 0. Alors f = limn→∞ fn = supn≥0 fn est mesurable
positive et Z Z
lim fn dµ = f dµ.
n→∞

Théorème 4.1.2 (Lemme de Fatou). Si (fn )n≥0 est une suite de fonctions mesurables positives, alors
Z Z
lim inf fn dµ ≤ lim inf fn dµ.
n→∞ n→∞

Démonstration. Posons g = lim inf n→∞ fn , cette fonction est mesurable et prend ses valeurs dans R+ .
On pose également gn = inf k≥n fk pour tout n ≥ 0. Par définition, g = limn→∞ gn . De plus, (gn )n≥0 est
croissante. Le théorème de croissance monotone assure donc
Z Z Z
lim gn dµ = lim gn dµ = lim inf fn dµ.
n→∞ n→∞ n→∞
R R
D’autre part, pour tout n ≥ 0, gn ≤ fn et par suite gn dµ ≤ fn dµ. En particulier, pour tout n ≥ 0,
il vient que Z Z
gn dµ ≤ lim inf fn dµ.
n→∞

Le second membre de l’inégalité ne dépend plus de n, d’où en passant à la limite dans le premier membre
(cette limite existe par le théorème de Beppo-Lévy), on obtient
Z Z Z
lim inf fn dµ = lim gn dµ ≤ lim inf fn dµ.
n→∞ n→∞ n→∞

4.2 Ensembles et fonctions mesurables négligeables


Définition 4.2.1. Soit (X, X , µ) un espace mesuré.
1. On dit qu’une partie N de X est négligeable pour µ s’il existe A ∈ X tel que N ⊂ A et µ(A) = 0.
2. On dit que la σ-algèbre X est complète pour µ si tout partie négligeable pour µ appartient à X .
Il est toujours possible d’ajouter les ensembles négligeables à une tribu non complète pour la rendre
complète. Nous supposerons désormais que les tribus considérées sont complètes.

63
Définition 4.2.2. Soit (X, X , µ) un espace mesuré. On dit qu’une propriété P sur X est vraie presque
partout (en abrégé p.p. ou µ-p.p.) si l’ensemble des points de X où elle est fausse est négligeable.
Une fonction définie sur X à valeurs réelles ou complexes est dite µ-négligeable si {f ̸= 0} est
négligeable.
Deux fonctions f et g définies sur X et à valeurs dans un même espace mesurable Y sont dites égales
presque partout si {f ̸= g} est négligeable.
On dit qu’une suite (fn )n≥0 de fonctions définies sur X à valeurs dans un espace topologique (séparé)
converge vers f presque partout si il existe un ensemble négligeable N tel que pour tout x ∈ / N,
limn fn (x) = f (x).
Lemme 4.2.3 (Inégalité de Markov). Soit f une fonction mesurable positive sur (X, X ). Alors pour tout
λ > 0, on a Z
1
µ({f ≥ λ}) ≤ f dµ.
λ
Démonstration. Par positivité de f , pour tout λ > 0, λ1f ≥λ ≤ f . Par croissance de l’intégrale, on obtient
le résultat.
Proposition 4.2.4. Si f ∈ L1R (µ), alors f est finie µ-p.p..
de Markov, µ({|f | ≥ n}) ≤ n1 |f | dµ. La suite An = {|f | > n} est
R
Démonstration. Par l’inégalité
R
décroissante et µ(A1 ) ≤ |f | dµ < ∞. Par la continuité à droite de la mesure µ :
 
\
µ({|f | = ∞}) = µ  An  = lim µ(An ) = 0.
n→∞
n≥1

Exercice 20. Montrer que la réciproque est fausse. Donner au moins un exemple dans le cas d’une mesure
µ finie.
Proposition 4.2.5. R Soit f une fonction mesurable sur (X, X ) à valeurs complexes. Alors f est négligeable
si et seulement si |f | dµ = 0.
Démonstration. L’inégalité de Markov encore implique que µ({|f | > n1 }) ≤ n |f | dµ = 0 pour tout
R

n ≥ 1. Or, la suite An = {|f | > n1 } est croissante, par la continuité à gauche de µ on obtient
 
[
µ({|f | > 0}) = µ  An  = lim µ(An ) = 0.
n→∞
n≥1

Réciproquement, soit n ≥ 1 alors |f | est limite monotone de |f | ∧ n, le théorème de convergence


monotone implique
Z Z Z Z
|f | dµ = lim |f | ∧ n dµ = lim |f | ∧ n1N dµ + |f | ∧ n1N ∁ dµ ≤ nµ(N ∁ ) = 0,
n→∞ n→∞

où N = {|f | = 0}.


Proposition 4.2.6. Soit (X, X , µ) un espace mesuré.
R
1. Soient
R f et g deux fonctions mesurables positives telles f ≤ g presque partout. Alors f dµ ≤
g dµ.
R
2. Soient
R f et g deux fonctions mesurables positives telles que f = g presque partout. Alors f dµ =
g dµ.
3. Soient f et g deux fonctions mesurables complexes telles queR f = g presque
R partout. Alors f est
intégrable si et seulement si g est intégrable et, dans ce cas, f dµ = g dµ.
Démonstration. 1. Il suffit d’appliquer la proposition 4.2.5 à la fonction (f − g)+ . Celle-ci est nulle
presque-partout, |(f − g)+ | = (f − g)+ et donc
Z Z Z Z
+ −
0 = (f − g) dµ = (f − g) dµ + (f − g) dµ ≥ (f − g) dµ.

64
2. C’est une conséquence d’une double application du point précédant car f = g presque-partout si
et seulement si f ≤ g presque partout et g ≤ f presque partout.
3. Il suffit de poser h = f − g alors h = 0 presque partout et donc
Z Z
0 = |h| dµ ≥ h dµ .

4.3 Théorème de convergence dominée


Théorème 4.3.1 (Théorème de convergence dominée). Soif (fn )n≥0 une suite de fonctions mesurables
sur (X, X ) à valeurs dans R ou C telle que :
1. (fn )n≥0 converge µ-presque partout vers une fonction f mesurable,
2. il existe une fonction g ∈ L1R (µ) positive telle que pour tout n ≥ 0, |fn | ≤ g µ-presque partout.
Alors les fonctions (fn )n≥0 et f sont intégrables et
Z Z Z
lim fn dµ = f dµ et lim |fn − f | dµ = 0.
n→∞ n→∞

Exemple 20. Considérons par exemple la suite de fonctions (fn )n≥1 définie pour tout n ≥ 1 et tout x ∈ R
n
par fn (x) = sin(x)
x(1+x) 1[0,∞) (x). On vérifie que pour tout x ∈ R \ (π/2 + πZ :

sin(x)n
lim fn (x) = lim 1[0,∞) (x) = 0.
n→∞ n→∞ x(1 + x)

Comme λ(π/2 + πZ) = 0, la suite (fn )n≥1 converge presque partout vers la fonction nulle. D’autre part,
en utilisant l’inégalité sin(x) ≤ x pour tout x ≥ 0, on obtient :
xn−1 1 1 1
|fn (x)| ≤ 1[0,1] (x) + 1[1,∞) (x) ≤ 1[0,1] (x) + 1[1,∞) (x) ≤ g(x).
1+x x(1 + x) 2 x(1 + x)

Les deux termes sont mesurables positifs, l’intégrale de Lebesgue a donc un sens dans R+ . L’intégrale
contre la mesure de Lebesgue du premier terme vaut 12 alors que le second terme est un O(x−2 1[1,∞) )
qui est intégrable également. Le théorème de convergence dominée implique donc
Z ∞
sin(x)n
lim dx = 0.
n→∞ 0 x(1 + x)
Dans la pratique, on peut se permettre d’aller un peu plus vite, l’idée étant toujours d’utiliser les indi-
catrices pour décomposer le domaine et majorer uniformément sur chaque sous-domaine par la fonction
adéquate.
Notons que l’on ne s’occupe absolument pas des points pathologiques pour lesquelles le sinus vaut 1
ou −1. D’autre part, ces points pathologiques sont exactement ceux qui empêche la convergence uniforme
de la suite (fn )n≥1 . Avec des techniques de type Riemann, il faudrait procéder autrement en enlevant
des petits voisinages ouverts autour de ces points pathologiques puis justifier le passage à la limite. C’est
possible mais bien plus pénible.
Remarque 38. Remarquons que nous ne disons rien sur la limite de la suite de fonction contrairement
au théorème de convergence dominée que l’on énonce dans le cadre Riemann. Ceci est dû au fait que,
dans le contexte de la théorie de la mesure, la limite est automatiquement mesurable et la condition
de domination implique qu’elle est intégrable. Dans le cadre riemannien, la limite de fonction Riemann
intégrables n’est pas nécessairement Riemann intégrable.
Démonstration. Supposons tout d’abord que la convergence de (fn )n≥0 vers f ait lieu partout et que
l’inégalité du deuxième point est vraie pour tout x ∈ X. Posons gn = 2g − |fn − f | Alors (gn )n≥0 est une
suite de fonctions mesurables positives et d’après le lemme de Fatou,
Z Z Z Z Z
2 g dµ = lim inf gn dµ ≤ lim inf gn dµ = 2 g dµ − lim sup |fn − f | dµ.
n→∞ n→∞

65
R R
Puisque g dµ < ∞, on déduit que lim supn→∞ |fn − f | dµ ≤ 0. On en déduit donc que
Z Z Z
lim |fn − f | dµ = 0 et lim fn dµ = f dµ.
n→∞ n→∞

Passons à présent au cas général. Par définition, il existe N ∈ X tel que, si x ∈


/ N , limn→∞ fn (x) = f (x)
et µ(N ) = 0. Il existe également des ensembles Nn ∈ X , n ≥ 0, tel que, si x ∈ / Nn , |fn (x)| ≤ g(x) et
µ(Nn ) = 0. Posons M = N ∪ (∪n≥0 Nn ) ∈ X . On a encore µ(M ) = 0. On pose hn = fn 1M ∁ et h = f 1M ∁ .
Alors, pour tout x ∈ X et tout n ≥ 0,

lim hm (x) = h(x) et |hn (x)| ≤ g(x).


m→∞
R
La première partie de la preuve assure donc que limn→∞ |hn − h| dµ = 0. Pour conclure, il suffit de
remarquer que hn = fn µ-p.p. et h = f µ-p.p. si bien que |hn − h| = |fn − f | µ-p.p. et donc leurs
intégrales sont égales.
Remarque 39. En utilisant le même principe de preuve, on peut montrer un théorème de convergence
monotone presque-partout ou un lemme de Fatou presque-partout.
Corollaire 4.3.2. Soit (fn )n≥0 une suite de fonctions mesurables sur (X, X ) à valeurs sur R ou C telle
que
XZ
|fn | dµ < ∞.
n≥0

Alors les fonctions (fn )n≥0 sont intégrables, la série n fn converge µ-p.p. et il existe f ∈ L1K (µ) telle
P
que

X Z Xn Z X∞ Z
f= fn µ − p.p., lim f− fk dµ = 0, f dµ = fn dµ.
n→∞
n=0 k=0 n=0

Démonstration. Le théorème de convergence monotone pour les séries à termes positifs implique
Z X XZ
|fn | dµ = |fn | dµ.
n≥0 n≥0
P
Par la proposition 4.2.4, on déduit que n≥0 fn est absolument convergente. L’application du théorème
de convergence dominée à la suite des sommes partielles achève la preuve du corollaire.

4.4 Intégrale à paramètres


On termine ce chapitre par des cas particuliers d’interversion de limites, à savoir continuité et
dérivation sous le signe intégral.
Théorème 4.4.1 (Continuité d’une intégrale à paramètre). Soient (X, X , µ) un espace mesuré, (E, d)
un espace métrique et f une fonction définie sur X × E à valeurs réelles ou complexes. On suppose que
1. pour µ-presque tout x ∈ X, la fonction α → f (x, α) est continue sur E ;
2. pour tout α ∈ E, la fonction x → f (x, α) est mesurable sur (X, X ) ;
3. il existe une fonction g sur (X, X ) mesurable, positive et intégrable telle que pour tout α ∈ E,
|f (x, α)| ≤ g(x) µ-presque partout.
R
Alors F : α → X f (x, α) µ(dx) est définie et continue sur E.
Démonstration. Pour tout α ∈ E, la fonction x → f (x, α) est intégrable par rapport à µ donc F est
bien définie sur E. Soit α ∈ E et montrons que F est continue au point α. Pour cela, on va utiliser
la caractérisation séquentielle de la continuité. Soit donc (αn )n≥0 une suite de E convergente vers α.
Notons pour tout x ∈ E, fn (x) = f (x, αn ), puis on applique le théorème de convergence dominée. On
obtient que F (αn ) converge vers F (α).
Théorème 4.4.2 (Dérivabilité d’une intégrale à paramètre). Soient (X, X , µ) un espace mesuré, I un
intervalle ouvert de R et f une fonction définie sur X × I à valeurs réelles ou complexes. On suppose que

66
1. pour µ-presque tout x ∈ X, la fonction α → f (x, α) est dérivable sur I ;
2. pour tout α ∈ I, la fonction x → f (x, α) est µ-intégrable ;
3. il existe une fonction g sur (X, X ) intégrable et positive telle que pour µ-presque tout x ∈ E

∂f
∀α ∈ I, (x, α) ≤ g(x).
∂α

∂f
R
Alors pour tout α ∈ I, la fonction x → ∂α est intégrable. De plus, la fonction F : α → f (x, α) µ(dx)
est dérivable sur I et Z
∂f
∀α ∈ I, F ′ (α) = (x, α) µ(dx).
∂α
Démonstration. Par hypothèse, il existe un ensemble de mesure nulle N ∈ X tel que si x ∈
/ N , la dérivée
∂f
∂α (x, α) existe pour tout point α ∈ I et

∂f
(x, α) ≤ g(x).
∂α
∂f
Il en résulte que x → ∂α (x, α) est µ-intégrable pour tout α ∈ I. Étudions la dérivabilité de F en α ∈ I.
Soit (αn )n≥0 une suite de I qui converge vers α mais telle que αn ̸= α pour tout n ≥ 0. Le théorème des
accroissements finis implique pour tout x ∈ / N que

∂f
|f (x, αn ) − f (x, α)| ≤ |αn − α| sup (x, α) ≤ |αn − α|g(x).
α∈I ∂α

On introduit la suite (hn )n≥0 où la fonction hn est définie sur X par

f (x, αn ) − f (x, α)
hn (x) = .
αn − α
∂f
Cette suite converge simplement sur X \ N vers la fonction x → ∂α (x, α). De plus (hn )n≥0 est uni-
formément bornée en valeur absolue par g, d’où par le théorème de convergence dominée

f (x, αn ) − f (x, α) F (αn ) − F (α)


Z Z
∂f
(x, α) dµ = lim dµ = lim .
∂α n→∞ αn − α n→∞ αn − α
Il en résulte que F est dérivable en α de dérivée
Z
∂f
F ′ (α) = (x, α) dµ.
∂α

67
68
Chapitre 5

Mesure produit

Dans ce chapitre, on souhaite construire une mesure m sur un produit d’espaces mesurables (E ×
F, X ⊗ Y) tel que m(A × B) = µ(A)ν(B) où µ et ν sont des mesures prescrites sur X et Y.
En fait, une telle mesure m existe et est unique sous la condition de σ-finitude de µ et ν. L’unicité
de la mesure produit découlera du théorème de caractérisation des mesures σ-finies. Pour l’existence,
on donnera une preuve “constructive” au sens où l’on ne fera pas usage du théorème d’extension de
Carathéodory. La raison pour laquelle on préférera cette preuve directe est qu’elle nous permettra, au
delà de l’existence de la mesure produit, de montrer les théorèmes de Tonelli et Fubini qui permettent
de ramener un calcul d’intégrale multiple en autant d’intégrales simples successives

5.1 Mesure produit


Soient (X, X , µ) et (Y, Y, ν) deux espaces σ-finis. On dispose déjà d’une tribu naturelle sur X × Y
construite à partir de X et Y, c’est la tribu produit X ⊗ Y, i.e la tribu engendrée par les pavés A × B
où A ∈ X et B ∈ Y.
Soit C ∈ X ⊗ Y. On note Cx = {y ∈ Y : (x, y) ∈ C} la section verticale et C y = {x ∈ X : (x, y) ∈ C}
la section horizontale.

Lemme 5.1.1. Soit C ∈ X ⊗ Y. Alors pour tout x ∈ X et tout y ∈ Y, Cx ∈ Y et C y ∈ X .

Remarque 40. Si C et D sont des éléments de X ⊗ Y alors pour tout x ∈ X

(Cx )∁ = (C ∁ )x , Cx ∪ Dx = (C ∪ D)x et Cx ∩ Dx = (C ∩ D)x .

Il en va de même pour les unions et intersections dénombrables.

Démonstration. Soit C l’ensemble des parties C ∈ X ⊗ Y telles que, pour tout x ∈ X et tout y ∈ Y,
Cx ∈ Y et C y ∈ X . Alors C est clairement une tribu. Soit C = A × B un rectangle, alors pour tout
x ∈ X, y ∈ Y,  
 B si x ∈ A
  A si y ∈ B

y
Cx = ∈ Y et C = ∈ X.
 ∅ si x ∈

/A  ∅ si y ∈

/B

Ainsi, C est une tribu qui contient les rectangles, elle contient donc la tribu produit X ⊗ Y.

Théorème 5.1.2. Soient (X, X , µ) et (Y, Y, ν) deux espaces mesurés σ-finis.


1. Il existe une unique mesure m sur (X × Y, X ⊗ Y) telle que, pour tout A ∈ X et B ∈ Y,

m(A × B) = µ(A)ν(B),

avec la convention 0 × ∞ = 0. Cette mesure est σ-finie. On la note généralement µ ⊗ ν et on


l’appelle mesure produit de µ et ν.

69
2. Pour tout C ∈ X ⊗ Y, les applications x → ν(Cx ) et y → µ(C y ) sont respectivement X -mesurable
et Y-mesurable et Z Z
µ ⊗ ν(C) = ν(Cx ) µ(dx) = µ(C y ) ν(dy). (5.1)
X Y

Démonstration. L’unicité de la mesure produit est une conséquence du théorème 2.2.20 de caractérisation
des mesures. Supposons qu’il existe une autre mesure produit m′ , alors pour tout A ∈ X et B ∈ Y, on a

m′ (A × B) = µ(A)ν(B) = m(A × B).

L’algèbre de Boole engendrée par les rectangles est constituées des réunions finies de rectangles disjoints,
donc m′ et m coı̈ncident sur l’algèbre de Boole engendrée par les rectangles.
Les mesures µ et ν sont σ-finies, ainsi il existe (Xn )n≥0 et (Yn )n≥0 des suites croissantes d’ensembles
mesurables dans X et Y respectivement tels que µ(Xn ) < ∞ et ν(Yn ) < ∞ pour tout n ≥ 0, X = ∪n≥0 Xn
et Y = ∪n≥0 Yn . La suite (Xn × Yn )n≥0 est elle-même croissante exhaustive et satisfait

m(Xn × Yn ) = µ(Xn )ν(Yn ) = m′ (Xn × Fn ) < ∞.

Les mesures m et m′ sont donc σ-finies et donc coı̈ncident sur la tribu engendrée par les rectangles, c’est
à dire la tribu produit.
Pour l’existence de la mesure produit, nous allons considérer la fonction d’ensembles suivante
Z
∀C ∈ X ⊗ Y, m(C) = ν(Cx ) µ(dx). (5.2)
X

Pour que cette application soit bien définie, il faut tout d’abord montrer le lemme suivant qui correspond
à la première partie du deuxième point du théorème.
Lemme 5.1.3. Si C ∈ X ⊗ Y, l’application x → ν(Cx ) est mesurable sur (X, X ) et l’application y →
µ(C y ) est mesurable sur (Y, Y).

Démonstration. Il suffit de montrer la première assertion. Supposons dans un premier temps que ν est
finie. Soit C l’ensemble des parties C ∈ X ⊗ Y telles que x → ν(Cx ) soit mesurable. Nous allons montrer
que C est un λ-système contenant l’algèbre de Boole, notée B, engendrée par les rectangles. En effet,
comme le plus petit λ-système contenant B (qui est stable par intersections finies) est la tribu engendrée
par B (mais aussi par les rectangles), c’est donc que C = X ⊗ Y.

Étape 1 : B ⊂ C.

Si C = A × B ∈ X ⊗ Y, alors ν(Cx ) = 1A (x)ν(B) et donc C ∈ PC. Si C = ∪ni=1 C i où les (C i )1≤i≤n sont
i
des rectangles mesurables deux à deux disjoints, on a ν(Cx ) = i ν(Cx ) et x → ν(Cx ) est mesurable en
tant que somme de fonctions mesurables. D’où B ⊂ C.

Étape 2 : C est un λ-système.

Il est clair que C = X × Y ∈ C car alors Cx = Y et donc x → ν(Cx ) = ν(Y) est mesurable.
Soit (C n )n≥0 une suite croissante d’éléments de C et C sa réunion. Pour tout x ∈ X, le théorème de
convergence monotone appliqué à la suite croissante (1Cxn )n≥0 implique que (ν(Cxn ))n≥0 converge vers
ν(Cx ). Donc x → ν(Cx ) est mesurable en tant que limite simple d’une suite de fonctions mesurables.
Enfin, si C et D sont dans C avec C ⊂ D, alors (D \ C)x = Dx \ Cx et comme ν est supposée finie,
x → ν((D \ C)x ) = ν(Dx ) − ν(Cx ) est mesurable comme différence de fonctions mesurables.
Si ν est seulement σ-finie, soit (Yn )n≥0 une suite croissante exhaustive d’éléments de Y telle que
ν(Yn ) < ∞ pour tout n ≥ 0. Soit C ∈ X ⊗ Y et, pour tout n ≥ 0, posons C n = C ∩ (X ∩ Yn ). D’après la
première partie de la démonstration l’application x → ν(Cxn ) est mesurable. Par convergence monotone,
il en est de même pour x → ν(Cx ).

Désormais, on a justifié que la quantité donnée dans (5.2) est bien définie. Montrons qu’il s’agit d’une
mesure. Il est clair que m(∅) = 0. Soit (C n )n≥0 une suite d’éléments de X ⊗ Y deux à deux disjoints et
C leur réunion. On a Cx = ∪n Cxn avec (Cxn )n≥0 deux à deux disjoints dans Y, d’où ν(Cx ) = n ν(Cxn ).
P

70
Encore une
P fois, le théorème de convergence monotone appliqué aux sommes partielles de la séries de
fonctions n 1Cxn implique
Z XZ X
ν(Cx ) µ(dx) = ν(Cxn ) µ(dx) = m(C n ).
X n≥0 X n≥0

Ainsi, m est une mesure et il reste à vérifier qu’elle affecte la mesure souhaitée aux rectangles. Si
C = A × B ∈ X ⊗ Y, on a
Z Z
m(C) = ν(Cx ) µ(dx) = 1A (x)ν(B) µ(dx) = µ(A)ν(B).
X X

y
R
De même, on montre que C → Y µ(C ) ν(dy) définit une mesure sur X ⊗ Y qui coı̈ncide avec m sur
les rectangles. Par unicité, cette mesure est égale à m et l’on obtient la relation (5.1).

QSi (Xi , X i , µi )1≤i≤N sont N espaces mesurés σ-finis, on peut vouloir définir une mesure produit π sur
N 
N
i=1 Xi , Xi telle que, pour tout A = A1 ×· · ·×AN , Ai ∈ Xi , 1 ≤ i ≤ N , π(A) = µ1 (A1 ) · · · µN (AN ).
Pour se faire, on peut procéder par étapes : pour le cas N = 3, on peut commencer par construire µ1 ⊗µ2 ,
puis (µ1 ⊗ µ2 ) ⊗ µ3 . On peut cependant procéder différemment et construire µ2 ⊗ µ3 , puis µ1 ⊗ (µ2 ⊗ µ3 ).
Ces deux constructions définissent-elles une même mesure ? La réponse est heureusement oui.
Proposition 5.1.4. Le produit tensoriel de mesure est associatif.
Exercice 21. Démontrer la proposition 5.1.4. On pourra pour cela utiliser le théorème de caractérisation
des mesures.
Si X et Y sont des espaces topologiques, on peut les munir de leurs tribus boréliennes. Sur le produit
X × Y, on peut donner a priori plusieurs structures mesurables : soit on munit le produit de la tribu
produit des tribus boréliennes, c’est à dire B(X) ⊗ B(Y) ; soit on munit le produit de la tribu borélienne
issue de la topologie produit. Ces deux tribus sont-elles identiques ?
Proposition 5.1.5. Soient X et Y deux espaces métriques séparables. Alors B(X) ⊗ B(Y) = B(X × Y)
où X × Y est muni de la topologie produit.
Exercice 22. Démontrer la proposition 5.1.5. On pourra montrer que tout ouvert est réunion dénombrable
de pavés ouverts.
Théorème 5.1.6 (Mesure de Lebesgue sur Rd ). Il existe une unique mesure λd sur (Rd , B(Rd )) telle
que, pour tout produit d’intervalles I1 × · · · × Id , λd (I1 × · · · × Id ) soit égal au produit des longueurs des
intervalles (Ij )j=1,...,d . De plus, λd est le produit tensoriel répété d fois de la mesure de Lebesgue λ sur
(R, B(R)), on note λd = λ⊗d . Cette mesure est appelée mesure de Lebesgue sur Rd . Enfin, la mesure λd
est l’unique mesure sur B(Rd ) telle que
1. λd ([0, 1]d ) = 1,
2. pour tout a ∈ Rd et B ∈ B(Rd ), λd (a + B) = λd (B).

5.2 Théorèmes de Fubini-Tonelli et de Fubini-Lebesgue


On remarque que l’égalité (5.1) s’écrire encore
Z Z Z  Z Z 
1C dµ ⊗ ν = 1C (x, y) ν(dy) µ(dx) = 1C (x, y) µ(dy) ν(dx). (5.3)
X×Y X Y Y X

Ainsi, calculer l’intégrale de la fonction indicatrice d’un élément de la tribu produit revient à intégrer
l’intégrale des sections, l’ordre d’intégration ne jouant aucun rôle.
Le théorème de Fubini-Tonelli, qu’on appellera plus simplement théorème de Tonelli, montre que ce
fait reste vrai pour les fonctions mesurables positives, ce qui ne devrait pas nous étonner au vu de la
construction de l’intégrale de Lebesgue.
Théorème 5.2.1 (Fubini-Tonelli). Soit f une fonction mesurable de (X × Y, X ⊗ Y) dans R+ et soient
µ et ν deux mesures σ-finies respectivement sur (X, X ) et (Y, Y). Alors,

71
R R
1. les fonctions partout définies x −→ Y
f (x, y)ν(dy) et y −→ X
f (x, y)µ(dx) sont respectivement
X et Y-mesurables.
2. les égalités suivantes ont lieu dans R+ :
Z Z Z  Z Z 
f dµ ⊗ ν = f (x, y)ν(dy) µ(dx) = f (x, y)µ(dx) ν(dy). (5.4)
X×Y X Y Y X

Démonstration. Nous montrons dans un même temps le point (1) pour la première fonction et la première
égalité du point (2). La stratégie de preuve est similaire à ce qu’elle était pour la construction de
l’intégrale, elle se fait en trois étapes (indicatrices, fonction étagées positives et mesurables positives). À
chaque étape, on doit montrer
1. pour tout x ∈ X, y → f (x, y) est Y-mesurable et positive,
R
2. x → Y f (x, y) ν(dy) est X -mesurable et positive,
3. la relation (5.4) est vérifiée par f .
Étape 1 : Si f est l’indicatrice d’un élément C de X ⊗ Y, alors le point (1) est assuré par le lemme
5.1.1 puisque y → f (x, y) est en fait l’application y → 1Cx (y) ; le point (2) est assuré par le lemme 5.1.3
et l’égalité (5.3) n’est rien d’autre que l’égalité (5.1) montrée dans le théorème 5.1.2.
Étape 2 : Si f est une fonction étagée positive, le résultat découle de la linéarité de l’intégrale et de
la stabilité de la mesurabilité par combinaison linéaire.
Étape 3 : Si f est mesurable positive, il existe une suite (fn )n≥0 croissante de fonctions étagées
positives qui converge simplement vers f . Donc, pour tout x ∈ X, (y → fn (x, y))n≥0 est suite de fonctions
mesurables positives qui converge vers y → f (x, y). Le théorème de convergence monotone assure
Z Z Z
f (x, y) ν(dy) = fn (x, y) ν(dy) = lim fn (x, y) ν(dy).
Y Y n→∞ Y
R
Pour chaque nR ≥ 0, par l’étape 2, la fonction x → Y fn (x, y) ν(dy) est mesurable positive. Donc, la
fonction x → Y f (x, y) ν(dy) est mesurable positive comme limite de fonctions mesurables positives. De
plus,
Z Z Z Z 
CM étape 2
f dµ ⊗ ν = lim fn dµ ⊗ µ = lim fn (x, y) ν(dy) µ(dx)
X×Y n→∞ X×Y n→∞ X Y
Z Z  Z Z 
CM CM
= lim fn (x, y) ν(dy) µ(dx) = f (x, y) ν(dy) µ(dx),
X n→∞ Y X Y

ce qui achève la preuve.

Corollaire 5.2.2. Soit f une fonction mesurable sur (X × Y, X ⊗ Y) à valeurs complexes. Alors f est
intégrable pour la mesure µ ⊗ ν si seulement si l’une des deux conditions suivantes est satisfaite
Z Z  Z Z 
|f (x, y)|ν(dy) µ(dx) < ∞ ou |f (x, y)|µ(dx) ν(dy) < ∞.
X Y Y X

Démonstration. C’est l’application du théorème de Tonelli à la fonction positive |f |.

Théorème 5.2.3 (Fubini-Lebesgue). Soit f une fonction intégrable sur (X × Y, X ⊗ Y, µ ⊗ ν). Alors,
1. pour
R presque tout x ∈ X, la fonction y 7→ f (x, y) est dans L1 (ν) ; de plus la fonction x 7→
Y
f (x, y)ν(dy), définie µ-p.p., est µ-intégrable.
2. Rpour presque tout y ∈ X, la fonction x 7→ f (x, y) est dans L1 (µ) ; de plus la fonction y 7→
X
f (x, y)µ(dy), définie ν-p.p., est ν-intégrable.
3. Enfin,
Z Z Z  Z Z 
f dµ ⊗ ν = f (x, y)ν(dy) µ(dx) = f (x, y)µ(dx) ν(dy).
X×Y X Y Y X

72
Démonstration. On montre le point (1) et la première égalité de (3) pour une fonction à valeur dans R.
D’après le théorème de Tonelli et l’hypothèse d’intégrabilité, on a
Z Z Z 
∞> |f | dµ ⊗ ν = |f (x, y)| ν(dy) µ(dx).
X×Y X Y
R
L’inégalité de Markov implique que l’application x → Y |f (x, y)| ν(dy) est µ-presque partout finie, on
note N l’ensemble négligeable sur lequel elle est infinie. Si x ∈ / N , l’application y → f (x, y) est ν-
intégrable. On décompose f en la différence de la partie positive et de la partie négative : f = f + − f − .
Si x ∈/ N , les applications y → f + (x, y) et y → f − (x, y) sont ν-intégrables et on a
Z Z Z
∀x ∈ N ∁ , f (x, y) ν(dy) = f + (x, y) ν(dy) − f − (x, y) ν(dy).

D’après le théorème de Tonelli, les fonctions x → f ± (x, y) ν(dy) sont mesurables sur X \ N muni de la
R

tribu induite et
Z Z  Z Z  Z
f ± (x, y) ν(dy) µ(dx) = f ± (x, y) ν(dy) µ(dx) = f ± dµ ⊗ ν < ∞.
X\N Y X Y X×Y
R
Par conséquent, l’application x → f (x, y) ν(dy) définie sur X \ N est intégrable comme combinaison
linéaire de deux fonctions intégrables. On a enfin
Z Z Z
f dµ ⊗ ν = f + dµ ⊗ ν − f − dµ ⊗ ν
X×Y X×Y X×Y
Z Z  Z Z 
= f + (x, y) ν(dy) µ(dx) − f − (x, y) ν(dy) µ(dx)
X\N Y X\N Y
Z Z Z 
= f + (x, y) ν(dy) − f − (x, y) ν(dy) µ(dx)
X\N Y Y
Z Z  Z Z 
= f (x, y) ν(dy) µ(dx) = f (x, y) ν(dy) µ(dx).
X\N Y X Y

Ceci termine la preuve du théorème.

5.3 La mesure produit en application


Exemple 21 (Normalisation de la gaussienne). On se propose de montrer que
Z ∞ r
2 π
I= e−x /2 dx = . (5.5)
0 2
On définit f sur R2+ par f (x, y) = y exp(y 2 (1 + x2 )/2). La fonction f est continue donc mesurable, de
plus elle est positive sur R2+ donc le théorème de Tonelli s’applique. Or, d’une part,
∞
exp(−y 2 (1 + x2 )/2)
Z 
1
f (x, y) dy = 2
= .
R+ 1 + x 0 1 + x2
Donc Z Z ! Z
1 π
f (x, y) dy dx = 2
= .
R+ R+ R+ 1+x 2
D’autre part, pour y > 0, à l’aide du changement de variable u = xy
Z Z Z
2 2 2 2 2
f (x, y) dx = e−y /2 e−(xy) /2 ydx = e−y /2 e−u /2 du = Ie−y /2 .
R+ R+ R+

En intégrant par rapport à la variable y, on obtient


Z Z !
f (x, y) dx dy = I 2 .
R+ R+

73
Le théorème de Tonelli implique I 2 = π/2 et par positivité de l’intégrande dans (5.5) on obtient le
résultat.
Remarque 41. Dans le calcul, nous avons supposé, pour que le changement de variable soit inversible,
que y > 0. Il n’est pas nécessaire de considérer le cas y = 0 puisque
Z Z
f (x, y) dx 1R+ (y) = f (x, y) dx 1R∗+ (y), p.p..
R+ R+

Si dans l’exemple ci-dessus, on a profité de la positivité de la fonction f pour appliquer le théorème


de Tonelli, on considère ci-dessous un exemple de fonction à intégrer qui n’est pas de signe constant.
Dans ce cas, on commence par étudier l’intégrabilité de la valeur absolue de la fonction à intégrer en
utilisant le théorème de Tonelli. Une fois l’intégrabilité assurée, on applique le théorème de Fubini.
Exemple 22. On veut calculer Z
sin(xy) exp{−(x + y)} dxdy.
R2+

On trouve facilement une majoration de la valeur absolue


Z Z
| sin(xy)| exp{−(x + y)} dxdy ≤ exp{−(x + y)} dxdy.
R2+ R2+

Dans l’intégrale de droite, on peut appliquer le théorème de Tonelli, d’où


Z Z ! Z !
exp{−(x + y)} dxdy = e−x dx e−y dy = 1.
R2+ R+ R+

On en déduit l’intégrabilité de la fonction de départ. Par le théorème de Fubini, on obtient (c’est un


exemple, on peut bien sûr intervertir le rôle de x et y si le calcul est facilité)
Z Z "Z #
sin(xy) exp{−(x + y)} dxdy = sin(xy) exp{−(x + y)}dx dy
R2+ R+ R+

En intégrant par parties deux fois (on intègre l’exponentielle), on montre que
Z
y
J(y) = sin(xy)e−x dx = .
R+ 1 + y2

Ainsi, on obtient finalement


e−y y
Z Z
sin(xy) exp{−(x + y)} dxdy = dy.
R2+ R+ 1 + y2

Exemple 23. On veut calculer Z


sin(y) exp{−(x + y)} dxdy.
R2+

On trouve facilement une majoration de la valeur absolue


Z Z
| sin(y)| exp{−(x + y)} dxdy ≤ exp{−(x + y)} dxdy.
R2+ R2+

Dans l’intégrale de droite, on peut appliquer le théorème de Tonelli, d’où


Z Z ! Z !
−x −y
exp{−(x + y)} dxdy = e dx e dy = 1.
R2+ R+ R+

On en déduit l’intégrabilité de la fonction de départ. Par le théorème de Fubini, on obtient


Z Z ! Z !
sin(y) exp{−(x + y)} dxdy = sin(y)e−y dy e−x dx .
R2+ R+ R+

74
De plus, en intégrant par partie deux fois, on obtient
Z Z
1
sin(y)e−y dy = 1 − sin(y)e−y dy = .
R+ R+ 2

L’intégrale voulue initialement vaut donc 1/2.


Exemple 24. Soit f (x, y) = xy 2 et ∆ le domaine intérieur au triangle ABC avec A = (0, −1), B = (1, 3)
et C = (0, 1). La fonction f est continue sur ∆ compact donc f est bornée disons par M ≥ 0. On voit
facilement par croissance de l’intégrale
Z
|f (x, y)| dxdy ≤ M λ(∆) < ∞.

On peut donc appliquer le théorème de Fubini. Un calcul simple donne


3
Z Z Z 1 Z 2 (x+1)
1∆ (x, y)f (x, y) dxdy = 1[−1,1] (x)1[0, 23 (x+1)] (y)f (x, y) dxdy = x y 2 dydx.
R2 R2 −1 0

Ainsi,
1
x5 x4 x2
Z Z  
9 27
1∆ (x, y)f (x, y) dxdy = + 3 + x3 + dx = .
R2 8 −1 5 4 2 10

5.4 Mesure image et changement de variables


On commence par rappeler le théorème de transfert.
Théorème 5.4.1 (Théorème de transfert). Soient ϕ : (Ω, F, ν) → (X, E). Soit f : (X, E) → R+ mesu-
rable. Alors, Z Z
f dϕ∗ ν = f ◦ ϕ dν. (5.6)
X Ω
Si f est à valeurs complexes, alors f est ϕ∗ ν-intégrable si et seulement si f ◦ ϕ est ν-intégrable et on a
l’égalité 5.6 dans C.
Le théorème de transfert donne donc une formule de changement de variable théorique. Cependant,
cela reste peu exploitable en pratique puisque la mesure ϕ∗ ν n’est pas explicite.
Définition 5.4.2 (Mesures absolument continues). Soit (X, X ) un espace mesurable et µ et ν deux
mesures sur (X, X ). La mesure ν est dite absolument continue par rapport à µ si, pour tout A ∈ X ,
µ(A) = 0 implique ν(A) = 0. On note ν ≺ µ.
Proposition 5.4.3. Soit (X, X , µ) un espace mesuré et f une fonction mesurable positive sur (X, X ).
Si ν est à densité f par rapport à µ, alors ν est absolument continue par rapport à µ.
Démonstration. Si A ∈ X est tel que µ(A) = 0 alors f 1A est nulle µ-presque partout et
Z
ν(A) = f 1A dµ = 0.

Le théorème de Radon-Nikodỳm énoncé et démontré au chapitre 6 établit une réciproque à cette


proposition dans le cas σ-fini : si ν ≺ µ alors ν est à densité par rapport à µ.
Lorsque ν est absolument continue par rapport à la mesure de Lebesgue et ϕ un C 1 -difféomorphisme,
on peut donner une expression explicite de ϕ∗ ν. Le lemme suivant, utile pour démontrer le théorème
de changement de variable général, donne une telle expression pour le cas où ϕ est un automorphisme
linéaire.
Lemme 5.4.4. Soient A une matrice inversible de taille d × d et b ∈ Rd un vecteur. Soit f : Rd → R+
une fonction mesurable positive. Alors
Z Z
1
f (Ax + b)λ(dx) = f (x) dλ(x).
Rd |det A| Rd

75
Remarque 42. Ce lemme est aussi valable pour une fonction mesurable à valeurs dans C sous condition
d’intégrabilité.
Remarque 43. En d’autres termes, le lemme établit que la mesure image de la mesure de Lebesgue λd
par l’application affine ϕ : x → Ax + b est donnée par

ϕ∗ λd = |det A|−1 λd .

Démonstration. Puisque la mesure de Lebesgue est invariant par translation et que A est linéaire, on
peut supposer d’abord b = 0. Il s’agit d’identifier la mesure ν = ϕ∗ λd . On commence par montrer qu’elle
est proportionnelle à la mesure de Lebesgue λd .
Soient a ∈ Rd et B ∈ B(Rd ), alors

ν(a + B) = λ(A−1 a + A−1 B) = λ(A−1 B) = ν(B).

Ainsi, ν est invariante par translation. D’autre part, ν([0, 1]d ) ̸= 0 car
X X
ν(Rd ) = λ(Rd ) = ∞ et ν(Rd ) ≤ ν(n + [0, 1]d ) = ν([0, 1]d ).
n∈Zd n∈Zd

Enfin, on montre que ν([0, 1]d ) = λ(A−1 [0, 1]d ) < ∞ car A−1 [0, 1]d est compact. Ceci montre que la
mesure µ = ν/ν([0, 1]d ) est invariante par translation et vérifie µ([0, 1]d ) = 1, il s’agit donc de la mesure
de Lebesgue. Aussi il existe une constante c(A) ∈ R∗+ telle que ν = cλd . Il s’agit de montrer que
c(A) = |det A|−1 . Si A est inversible, la méthode du pivot de Gauss consiste à multiplier à gauche par
des matrices élémentaires M1 , · · · Mk de sorte que Mk · · · M1 A = I et donc que A−1 = Mk · · · M1 . Les
matrices élémentaires permettent de permuter des lignes (type 1), multiplier une ligne par un scalaire
non nul (type 2), ajouter une ligne à une autre ligne (type 3). On remarque que

A−1 B = Mk · · · M1 B et donc c(A) = c(Mk−1 ) · · · c(M1−1 ).

La preuve sera terminée si l’on montre que c(M ) = |det M |−1 dans le cas où M est une matrice de type
1,2 et 3. Il faut en effet juste remarquer que si M est de type 1 (resp. de type 2) alors M −1 est de type
1 (resp. de type 2) alors que si M est de type 3, M −1 est le produit d’une matrice de type 2 et de type
3. Or,
1. si A est matrice de type 1, alors

ν(A) = λd (A−1 [0, 1]d ) = λd ([0, 1]d ) = 1 = |det A|−1 ;

2. si A est une matrice de type 2, α ∈ R∗+ , alors

ν(A) = λd (A−1 [0, 1]d ) = λ([0, 1]d−1 × [0, α−1 ]) = |α|−1 = |det A|−1 ;

Si α ∈ R∗− , par le même raisonnement, on obtient le même résultat.


3. si A est une matrice de type 3, alors, à une permutation de la base de Rd près, c’est à dire à des
permutations de lignes près,
     
P 0  1 0 1 1
A=  avec P =   ou P =  
0 I 1 1 0 1

De plus, on calcule A[0, 1]d = D × [0, 1]d−2 avec D le parallélogramme de R2 dont les sommets ont
pour coordonnées (0, 0), (0, 1), (1, 1) et (1, 2) pour le premier cas et (0, 0), (1, 0), (1, 1) et (2, 1)
dans le second cas. Dans chacun des cas, ces parallélogrammes sont la réunion de deux triangles
isocèles rectangle de côté 1. De fait,

ν([0, 1]d ) = λd (A−1 [0, 1]d ) = λ2 (D)λd−2 ([0, 1]d−2 ) = 1 = |det (A)|−1 .

76
Définition 5.4.5. Soient U un ouvert de Rp et ϕ : U ⊂ Rp → Rq une application C 1 , i.e. les dérivées
partielles de ϕ existes et sont continues sur U . On note ϕ = (ϕ1 , . . . ϕq ). Le jacobien de ϕ au point a ∈ U ,
noté Jacϕ (a), est une application linéaire de Rp dans Rq dont la matrice dans la base canonique est
donnée par
 
∂1 ϕ1 (a) · · · ∂p ϕ1 (a)
 .. .. 
Jacϕ (a) = 
 . . 

 
∂1 ϕq (a) · · · ∂p ϕq (a)

Remarque 44. Rappelons que la matrice jacobienne d’une application ϕ de classe C 1 est la matrice
représentant le morphisme linéaire de Rp dans Rq au sens suivant :

ϕ(a + h) = ϕ(a) + Jacϕ (a)h + o(∥h∥)

avec h ∈ Rp suffisamment petit de sorte que a+h ∈ U . Cette remarque donne un moyen mnémotechnique
pour se rappeler de la forme de la jacobienne lorsque dimension de départ et dimension à l’arrivée
diffèrent.
Avant d’énoncer le théorème de changement de variables, rappelons deux théorèmes importants du
calcul différentiel : le théorème d’inversion locale et la caractérisation des difféomorphismes. Le lecteur
trouvera la démonstration de ces deux théorèmes dans [Car67].

Théorème 5.4.6 (Inversion locale). Soit D un ouvert de Rd et ϕ : D −→ Rd une application de classe


C 1 sur D. Si a ∈ D est tel que Jacϕ (a) est inversible, alors il existe un voisinage ouvert Va de a dans D
tel que ϕ|Va soit un difféomorphisme de Va sur son image ouverte ϕ(Va ).

Théorème 5.4.7. Soit D un ouvert de Rd . La fonction ϕ : D −→ Rd est C 1 -difféomorphisme sur son


image ∆ = ϕ(D) si et seulement si elle vérifie
1. ϕ est injective sur D,
2. ϕ est de classe C 1 sur D,
3. Jacϕ est inversible en tout point a ∈ D.
Dans ce cas, ∆ est un ouvert de Rd et, pour tout a ∈ ∆, Jacϕ−1 (a) = Jacϕ (ϕ−1 (a))−1 .

Théorème 5.4.8. Soient D, ∆ deux ouverts non vides de Rd et ϕ un C 1 -difféomorphisme de D dans


∆. Si f : ∆ → R est mesurable positive alors,
Z Z
f (u) du = f (ϕ(v))|det Jacϕ (v)| dv. (5.7)
∆ D

Si f : ∆ → C est mesurable, alors f ◦ ϕ |det Jacϕ | est intégrable si et seulement si f est intégrable et
l’égalité (5.7) a lieu dans C.

Remarque 45. Formellement, si u = ϕ(v) est un changement de variable alors

du = dϕ(v) = |Jacϕ (v)| dv.

Démonstration. Le changement de variable pour un automorphisme linéaire n’est rien d’autre que le
lemme 5.4.4. La preuve dans le cadre générale est longue et fastidieuse (voir [BP04] par exemple), on
peut néanmoins en donner une heuristique :
1. recouvrir le domaine D par des pavés de diamètre < δ petit ;
2. approcher la fonction ϕ sur chaque pavé par son jacobien ;
3. appliquer le théorème de transfert au jacobien à l’aide du lemme 5.4.4 ;
4. faire tendre δ vers 0 en contrôlant uniformément les restes.

77
2 √
Exemple 25 (Densité gaussienne). On cherche à montrer que I = R e−x /2 dxdy = 2π. Pour cela, une
R

application du théorème de Tonelli implique


Z 2 2
Z Z
− x +y −x2 /2 2

|e {z } dxdy =
2 e dx e−y /2 dy = I 2
R2 R R
=f (x,y)

D’autre part, on fait le changement de variable (x, y) = ϕ(ρ, θ) = (ρ cos(θ), ρ sin(θ)). L’application ϕ
est un C 1 -difféomorphisme de R∗+ × [0, 2π) dans R2 \ {0}. De plus,
 
cos(θ) −ρ sin(θ)
Jacϕ (ρ, θ) =   =⇒ |det Jacϕ (ρ, θ)| = |ρ| = ρ.
sin(θ) ρ cos(θ)

La formule du changement variable donne


Z 2 2
Z 2 2
Z Z ∞
− x +y − x +y −ρ2 /2 2
e 2 dxdy = e 2 dxdy = ρe dρdθ = 2π ρe−ρ /2
dρ,
R2 R2 \{0} R∗
+ ×[0,2π) 0

par le théorème de Tonelli encore une fois. Finalement, I 2 = 2π.


Remarque 46. Si il est primordial que ϕ soit un C 1 -difféomorphisme pour éviter les effets de type courbe
de Peano, il est parfois possible d’enlever des points au domaine pour obtenir un tel C 1 -difféomorphisme.
Typiquement, dans l’exemple ci-dessus, ϕ est un C 1 -difféomorphisme de R∗+ × [0, 2π) dans R2 \ {0} et
non de R∗+ × [0, 2π) dans R2 . Ce problème est levé en remarquant que f 1R2 = f 1R2 \{0} presque partout.

78
Chapitre 6

Espaces Lp et Lp

Dans ce chapitre, K désigne indifféremment le corps des réels ou des complexes.

6.1 Généralités
Définition 6.1.1. Pour tout réel p > 0, on définit
 Z 
LpK (X, X , µ) = f : (X, X ) → (K, B(K)) mesurable : |f |p dµ < ∞ .

Si il n’y a pas d’ambiguı̈tés, on notera plus simplement LpK (µ) voir Lp .

Remarque 47. Si m désigne la mesure de comptage sur (S, P(S)) où S est un ensemble dénombrable,
alors ( )
X
LpK (m) = ℓpK (S) = (as )s∈S : |as |p < ∞ .
s∈S

Proposition 6.1.2. Pour tout p > 0, LpK (µ) est un K-espace vectoriel.

Démonstration. On vérifie que LpK (µ) est un sous espace vectoriel du K-espace vectoriel des fonctions
mesurables sur (X, X ) à valeurs dans K. Il est immédiat que la fonction nulle est dans LpK (µ). Soient
λ ∈ K et f, g ∈ LpK (µ). Les majorations

|λf + g|p ≤ (|λ||f | + |g|)p ≤ (2 max{|λ||f |, |g|})p ≤ 2p |λ|p |f |p + 2p |g|p

assurent que λf + g ∈ LpK (µ).

Proposition 6.1.3. Si µ(X) < ∞, alors, pour tout p ∈ (0, q], LqK (µ) ⊂ LpK (µ).

Démonstration. Si p ∈ (0, q], alors |f |p ≤ |f |q 1|f |>1 + 1|f |≤1 . Ainsi, dès que f ∈ LqK (µ), on obtient
Z Z
|f |p dµ ≤ |f |q dµ + µ({|f | ≤ 1}) < ∞.

Exercice 23. Montrer que les inclusions sont strictes en général. Montrer que l’hypothèse de mesure finie
est primordiale.

Proposition 6.1.4. Pour tout p ∈ (0, q], ℓpK (S) ⊂ ℓqK (S).

Démonstration. Soient p ∈ (0, q] et P(as )s∈S alors S = {s ∈ S : |as | > 1}∁ est fini. Comme pour tout
s ∈ S , |as | ≤ |as | , on obtient que s∈S |as |q < ∞.
∁ q p

79
Définition 6.1.5 (p-Norme). Soient f : (X, X , µ) → K et p ≥ 1. On définit la quantité
Z 1/p
∥f ∥p = |f |p ∈ R+ ,
X

avec la convention (+∞)1/p = +∞.


Pour p = ∞, on définit la quantité
∥f ∥∞ = inf{r ≥ 0 : µ({|f | > r}) = 0} = ess sup|f |.
Remarque 48. On peut aussi considérer le cas p ∈ (0, 1) mais alors l’appellation “p-norme” est abusive
car l’inégalité triangulaire n’est plus valide. On parle alors de quasi-norme que l’on éludera pour notre
part.

6.2 Inégalités de Hölder et de Minkowski


1 1
Deux réels p, q ∈ [1, ∞] sont dits conjugués si p + q = 1 avec la convention 1/∞ = 0.
Théorème 6.2.1 (Inégalité de Hölder). Soient f, g : (X, X , µ) → K et p, q ∈ [1, ∞] deux indices
conjugués.
1. Si f, g sont positives, alors dans R+
Z
0 ≤ f g dµ ≤ ∥f ∥p ∥g∥q .

En outre, si p, q ∈ (1, ∞) et ∥f ∥p et ∥g∥q sont finis, l’inégalité est une égalité si et seulement il
existe α, β > 0 tels que αf p = βg q µ-presque partout.
2. Si f ∈ LpK (µ) et g ∈ LqK (µ), alors f g ∈ L1K (µ) et
∥f g∥1 ≤ ∥f ∥p ∥g∥q .
En outre, si p, q ∈ (1, ∞), l’inégalité est une égalité si et seulement si il existe α, β > 0 tels que
α|f |p = β|g|q µ-presque partout.
Démonstration. Si p = 1 et q = ∞ (ou l’inverse en échangeant les rôles de p et q), il suffit de remarquer
que 0 ≤ f g ≤ f ∥g∥∞ µ-p.p. et d’intégrer cette inégalité.
Si p, q ∈ (1, ∞), on commence par établir une inégalité utile dans la suite. Soient α ∈ (0, 1) et x ∈ R+ ,
on pose ϕα (x) = xα − αx. La fonction ϕα est dérivable sur R∗+ et ϕ′α (x) = α(xα−1 − 1). D’où, ϕ′α < 0 sur
(1, ∞) et ϕ′α > 0 sur (0, 1). Donc pour tout x ∈ R+ , ϕα (x) ≤ ϕα (1) avec égalité si et seulement si x = 1.
Aussi, xα ≤ αx + 1 − α avec égalité si et seulement si x = 1. En posant x = u/v avec u ≥ 0 et v > 0, il
vient
uα v 1−α ≤ αu + (1 − α)v avec égalité si et seulement si u = v. (6.1)
Cette inégalité est encore vraie pour u, v ∈ R+ .
On revient à la preuve du premier point. Si ∥f ∥p ou ∥g∥q est nulle alors f ou g est nulle µ-presque
partout et il en va de même pour f g. L’inégalité est alors triviale. De même si ∥f ∥p ou ∥g∥q vaut ∞. On
suppose donc que ces deux quantités sont strictement positives et finies. On pose
1 1 fp gq
α= , d’où 1 − α = , u= et v = .
p q ∥f ∥pp ∥g∥qq
D’après l’inégalité (6.1),
fg 1 fp 1 gq
≤ p + .
∥f ∥p ∥g∥p p ∥f ∥p q ∥g∥qq
En intégrant de chaque côté de l’inégalité contre µ, il vient
fp gq
Z  Z Z 
1 1
0 ≤ f g dµ ≤ ∥f ∥p ∥g∥q dµ + dµ = ∥f ∥p ∥g∥q .
p ∥f ∥pp q ∥g∥qq
L’égalité a lieu si et seulement si f /∥f ∥p = g/∥g∥q µ-presque partout. Le deuxième point du théorème
est immédiat.

80
Corollaire 6.2.2. Si µ est une mesure de probabilité, l’application r → ∥f ∥r est croissante.

Théorème 6.2.3 (Inégalité de Minkowski). Si p ∈ [1, ∞], alors, pour tout f, g ∈ LpK (µ),

∥f + g∥p ≤ ∥f ∥p + ∥g∥p .

L’égalité a lieu si et seulement si


— f = 0 µ-presque partout ou g = αf µ-presque partout, pour α ≥ 0 si p > 1
— f = 0 µ-presque partout ou f ḡ ≥ 0 µ-presque partout si p = 1.

Démonstration. Si ∥f + g∥p = 0, l’inégalité est triviale. Sinon, on intègre par rapport à µ l’inégalité

|f + g|p ≤ |f ||f + g|p−1 + |g||f + g|p−1 avec la convention x0 = 1 pour x ≥ 0.

On obtient alors Z Z
∥f + g∥pp ≤ |f ||f + g|p−1 dµ + |g||f + g|p−1 dµ.

Si p = 1, l’inégalité est établie. Sinon, puisque (p − 1)q = p, l’inégalité de Hölder assure que
Z Z 1/q
|f ||f + g|p−1 dµ ≤ ∥f ∥p |f + g|(p−1)q dµ = ∥f ∥p ∥f + g∥p/q
p .

Ainsi,
∥f + g∥pp ≤ (∥f ∥p + ∥g∥p ) ∥f + g∥p/q
p .

p/q
Il ne reste plus qu’à simplifier par ∥f + g∥p qui est strictement positif et à remarquer p − p/q = 1 pour
obtenir l’inégalité souhaitée.
L’inégalité pour p = ∞ est une conséquence immédiate de l’inégalité triangulaire pour la valeur
absolue.

Remarque 49. L’inégalité de Minkowski n’est rien d’autre que l’inégalité triangulaire pour la p-norme.
L’homogénéité est immédiate. Ainsi, ∥ · ∥p est une semi-norme. Pour que ce soit une norme, il faudrait
que ∥f ∥p = 0 implique f = 0, or f n’est nulle que µ-presque partout.
Il existe une façon simple de construire un espace vectoriel normé à partir de Lp et ∥ · ∥p : il suffit de
considérer l’espace quotient Lp /∼ où ∼ est la relation d’équivalence d’égalité µ-presque partout : f ∼ g
si et seulement si f = g µ-presque partout.

Définition 6.2.4 (Espaces Lp ). L’espace LpK (µ) est défini comme l’espace LpK (µ) modulo l’égalité µ-
presque partout : LpK (µ) = LpK (µ)/∼. L’espace LpK (µ) muni de l’application ∥ · ∥p est un K-espace vectoriel
normé.

Théorème 6.2.5. Pour tout p ≥ 1, l’espace vectoriel normé (LpK (µ), ∥ · ∥p ) est un espace de Banach.

Démonstration. Fixons p ∈ [1, ∞) et considérons une suite de Cauchy (fn )n≥0 d’éléments dans LpK (µ).
On peut trouver une sous-suite (fnk )k≥0 telle que pour tout k ≥ 0 : ∥fnk+1 − fnk ∥p ≤ 2−k . Pour prouver
que (fn )n≥0 converge, il suffit de montrer que (fnk )k≥0 converge car les suites de Cauchy ont au plus
une valeur d’adhérence (voir la proposition 1.2.83). Pour cela, posons
X
g= |fnk+1 − fnk |.
k≥0

La fonction g est mesurable et par convergence monotone ainsi que l’inégalité de Minkowski :
X
∥g∥p ≤ ∥fnk+1 − fnk ∥p < ∞.
k≥0

p
La fonction g est donc finie µ-presque partout commeP toute fonction dans LK (µ). Ainsi, hors d’un certain
ensemble négligeable, la série numérique gn (x) = k≥0 (fnk+1 −fnk )(x) est absolument convergente, donc

81
convergente. Ainsi, en dehors de cet ensemble négligeable, la suite (gn )n≥0 converge donc simplement
vers une certaine fonction f qui est, de ce fait, mesurable. On conclut en remarquant que f vérifie
X
∥f − fnk ∥p ≤ ∥fnℓ+1 − fnℓ ∥p ≤ 2−k+1 ,
ℓ≥k

si bien que f est dans LpK (µ) et que (fnk )k≥0 ainsi que (fn )n≥0 converge vers f dans cet espace.
Considérons le cas p = ∞ et soit (fn )n≥0 une suite de Cauchy. Soit ε > 0, alors il existe N ≥ 0 tel que
pour tout n, m ≥ N , ∥fn − fm ∥∞ ≤ ε. Cela implique l’existence d’ensemble Nn,m tel que µ(Nn,m ) = 0
et si x ∈
/ Nn,m , |fn (x) − fm (x)| ≤ ε. Posons N = ∪n,m≥N Nn,m , alors µ(N ) = 0 et pour tout n, m ≥ 0 et
tout x ∈ N ∁ , |fn (x) − fm (x)| ≤ ε. Ainsi, pour tout x ∈ N ∁ , (fn (x))n≥0 est une suite de Cauchy dans K
complet, elle converge donc vers un réel f (x). Or,

|f (x)| ≤ |f (x) − fn (x)| + |fn (x)| ≤ ε + sup ∥fn ∥∞ , n ≥ N, x ∈ N ∁ .


n≥N

Pour conclure, il suffit de remarquer que |∥fn ∥∞ − ∥fm ∥∞ | ≤ ε ainsi (∥fn ∥∞ )n≥0 est convergente donc
bornée.

Remarque 50. On a montré au passage le fait suivant : si (fn )n≥0 est une suite de Cauchy dans LpK (µ),
p ∈ [1, ∞), alors il existe une suite extraite qui converge µ-presque partout.

6.3 Théorème de Radon-Nikodym


6.3.1 Un peu d’espace de Hilbert
Dans toute la suite K = R ou C.

Définition 6.3.1. Un produit scalaire sur un K-espace vectoriel E est une application ⟨·, ·⟩ : E × E → K
satisfaisant
1. pour tout y ∈ E, l’application de E dans K qui à x ∈ E associe ⟨x, y⟩ est linéaire ;
2. — si K = R alors ⟨x, y⟩ = ⟨y, x⟩ pour tout x, y ∈ E ;
— si K = C alors ⟨x, y⟩ = ⟨y, x⟩ pour tout x, y ∈ E ;
3. pour tout x ∈ E, ⟨x, x⟩ ∈ R+ ;
4. ⟨x, x⟩ = 0 si et seulement si x = 0.
Autrement dit, un produit scalaire est une forme bilinéaire (ou hermitienne si K = C) symétrique définie
positive.
Un espace vectoriel E muni d’un produit scalaire est appelée espace préhilbertien.

Proposition 6.3.2 (Inégalité de Cauchy-Schwarz). Un (E, ⟨·, ·⟩) un espace préhilbertien. Alors pour
tout x, y ∈ E, |⟨x, y⟩|2 ≤ ⟨x, x⟩⟨y, y⟩.

Démonstration. Soit u ∈ K unitaire (|u| = 1) tel que u⟨x, y⟩ = |⟨x, y⟩|. Alors, par définition, pour tout
t ∈ R, ⟨ux + ty, ux + ty⟩ ≥ 0. Or

⟨ux + ty, ux + ty⟩ = ⟨ux, ux⟩ + 2tRe ⟨ux, y⟩ + t2 ⟨y, y⟩ = ⟨x, x⟩ + 2t|⟨x, y⟩| + t2 ⟨y, y⟩.

Ce polynôme du second degré est positif pour tout t ∈ R si bien que son discriminant est négatif ou nul.
C’est à dire |⟨x, y⟩|2 ≤ ⟨x, x⟩⟨y, y⟩.
p
Corollaire 6.3.3. Soit (E, ⟨·, ·, ⟩) un espace préhilbertien alors ∥x∥ = ⟨x, x⟩ est une norme sur E.

Démonstration. Notons tout d’abord que ⟨x, x⟩ ≥ 0 si bien que la racine est correctement définie, en
particulier ∥x∥ ∈ R+ . On vérifie les troisq
axiomes d’une norme :
p
— Soit λ ∈ K, ∥λx∥ = ⟨λx, λx⟩ = λλ⟨x, x⟩ = |λ|∥x∥.
— Soit x ∈ E, ∥x∥ = 0 si et seulement si ⟨x, x⟩ = 0 si et seulement si x = 0.

82
— Enfin, pour tout x, y ∈ E :

⟨x + y, x + y⟩ = ⟨x, x⟩ + ⟨y, y⟩ + ⟨x, y⟩ + ⟨x, y⟩ ≤ ⟨x, x⟩ + ⟨y, y⟩ + 2|⟨x, y⟩|


p p 2
≤ ⟨x, x⟩ + ⟨y, y⟩ .

Proposition 6.3.4 (Identité du parallélogramme). Soient x, y ∈ E préhilbertien, alors


2 2
x+y x−y 1
∥x∥2 + ∥y∥2 .

+ =
2 2 2
Démonstration. Exercice.
Définition 6.3.5. Un espace préhilbertien complet pour la norme issue du produit scalaire est appelé
espace de Hilbert.
Exemple 26. On munit L2µ (Rd ), l’espace des fonctions de carré intégrable sur Rd muni d’une mesure µ,
du produit scalaire Z
⟨f, g⟩ = f (x)g(x)µ(dx), f, g ∈ L2µ (Rd ).
Rd
La norme associée est la norme L usuelle et, muni de cette norme, on sait que L2µ (Rd ) est complet.
2

Ainsi, muni du produit scalaire défini ci-dessus, c’est un espace de Hilbert.


Définition 6.3.6. Si E est un espace préhilbertien, alors x est dit orthogonal à y et on note x ⊥ y si
⟨x, y⟩ = 0. Si A est une partie de E, l’orthogonal de A noté A⊥ est défini par
A⊥ = {x ∈ E : ∀y ∈ A, x ⊥ y}
⊥ ⊥
Proposition 6.3.7. 1. Si A ⊂ B ⊂ E alors B ⊂A ;

2. A est un s.e.v. fermé de E ;
Démonstration. 1. Soit x ∈ B ⊥ . Alors pour tout y ∈ B, ⟨x, y⟩ = 0. Or A ⊂ B donc pour tout y ∈ A,
⟨x, y⟩ = 0. Ainsi, B ⊥ ⊂ A⊥ .
2. On observe A⊥ = y∈A {x ∈ E : ⟨x, y⟩ = 0}. Or, pour tout y ∈ E, l’application x → ⟨x, y⟩ est
T
continue. Par conséquent, {x ∈ E : ⟨x, y⟩ = 0} est un fermé comme l’image réciproque de {0} par
une application continue. D’où A⊥ est fermé.

Théorème 6.3.8 (Théorème de Pythagore). Soient x, y ∈ E tels que x ⊥ y, alors ∥x+y∥2 = ∥x∥2 +∥y∥2 .
Exemple 27. Dans L2µ ([0, 2π]d ) où µ est une probabilité, les fonctions en : x → ei⟨z,x⟩ , z ∈ Zd , sont deux
à deux orthogonales.
Démonstration. Soient x, y ∈ E tels que x ⊥ y alors
∥x + y∥2 = ⟨x + y, x + y⟩ = ⟨x, x⟩ + ⟨y, y⟩ + 2⟨x, y⟩ = ∥x∥2 + ∥y∥2 .

Définition 6.3.9. Soit (E, ∥ · ∥) un espace vectoriel normé. Une partie C ⊂ E est dite convexe si pour
tout x, y ∈ C le segment [x, y] = {tx + (1 − t)y : t ∈ [0, 1]} est inclue dans C.
Exemple 28. Dans un espace vectoriel normé, les boules ouvertes, les boules fermés, les sous-espace
vectoriels sont convexes.
Théorème 6.3.10 (Projection sur un convexe). Soient (E, ⟨·, ·⟩) un espace de Hilbert et C un sous-
ensemble convexe fermé non vide de E. Alors, pour tout x ∈ E, il existe un unique y ∈ C tel que
∥x − y∥ = d(x, C). On note PC (x) = y le projeté de x sur C. Le projeté PC (x) est aussi l’unique élément
y ∈ C tel que
Re ⟨x − y, z − y⟩ ≤ 0, ∀z ∈ C.
Le projecteur PC est 1-lipschitzien

83
Démonstration. On commence par l’existence. Soit x ∈ E, on choisit une suite (yn )n≥0 d’éléments de
C telle que ∥x − yn ∥ converge vers d(x, C) = δ et plus précisément δ 2 ≤ ∥x − yn ∥2 ≤ δ 2 + 1/n. Alors
(yn )n≥0 est une suite de Cauchy. En effet, par l’identité du parallélogramme,
2 2
x − yn x − ym x − yn x − ym 1
∥x − yn ∥2 + ∥x − ym ∥2 ,

+ + − =
2 2 2 2 2

et donc  
yn + ym 2
∥yn − ym ∥2 = 2 ∥x − yn ∥2 + ∥x − ym ∥2  − 4 ∥x − ∥ .
 
| {z } | {z } | {z2 }
2 ≤δ +1/n2 ≤δ +1/m
≥δ 2

Puisque C est un fermé dans un espace complet, il est complet et cela assure l’existence d’un élément
y ∈ C tel que yn → y. De plus, ∥x − y∥ = δ = d(x, C) par continuité.
Pour l’unicité, on suppose qu’il existe y ̸= z vérifiant l’égalité ∥x − y∥ = ∥x − z∥ = d(x, C). En
remplaçant, yn et ym par y et z dans le calcul précédant, on constate que
y+z 2
∥y − z∥2 = 2(∥x − y∥2 + ∥x − z∥2 ) − 4∥x − ∥ ≤ 0,
2
et z = y.
On peut donc poser y = PC (x). Montrons que pour tout z ∈ C, Re ⟨x − y, z − y⟩ ≤ 0. Soit z ∈ C et
t ∈ (0, 1], par convexité, (1 − t)y + tz ∈ C et donc, puisque t ∈ R

0 ≤ ∥x − y∥2 ≤ ∥x − [(1 − t)y + tz]∥2 = ∥(x − y) − t(z − y)∥2 = ∥x − y∥2 − 2tRe ⟨x − y, z − y⟩ + t2 ∥y − z∥2 .

Il vient, pour tout t ∈ (0, 1],


2tRe ⟨x − y, z − y⟩ ≤ t2 ∥y − z∥2 ,
d’où le résultat.
Réciproquement, si y ∈ C vérifie, pour tout z ∈ C, Re⟨x − y, z − y⟩ ≤ 0, alors pour tout z ∈ C

∥x − z∥2 = ∥(x − y) − (z − y)∥2 = ∥x − y∥2 − 2Re ⟨x − y, z − y⟩ + ∥z − y∥2 ≥ ∥x − y∥2 .

Reste à montrer que PC est 1-lipschitzien. Soient x, y ∈ E alors

Re ⟨x − y, PC (x) − PC (y)⟩ = Re ⟨(x − PC (x)) + (PC (x) − PC (y)) + (PC (y) − y), PC (x) − PC (y)⟩
= Re ⟨x − PC (x), PC (x) − PC (y)⟩ + ∥PC (x) − PC (y)∥2 (6.2)
2
+ Re ⟨PC (y) − y, PC (x) − PC (y)⟩ ≥ ∥PC (x) − PC (y)∥ ,

en utilisant la caractérisation du projeté démontrée au dessus impliquant que le premier et troisième


termes sont négatifs. L’inégalité de Cauchy-Schwarz appliqué au membre de gauche de (6.2) implique

∥PC (x) − PC (y)∥2 ≤ Re ⟨x − y, PC (x) − PC (y)⟩ ≤ ∥x − y∥∥PC (x) − PC (y)∥. (6.3)

De deux choses l’une, ou bien PC (x) = PC (y) et 0 = ∥PC (x) − PC (y)∥ ≤ ∥x − y∥ quoiqu’il arrive ; ou
bien PC (x) ̸= PC (y) et en simplifiant (6.3) on obtient ∥PC (x) − PC (y)∥ ≤ ∥x − y∥.

Remarque 51. Si E est seulement préhilbertien, le résultat reste valable si C est complet pour la norme
induite par le produit scalaire.
Théorème 6.3.11 (Projeté sur un s.e.v. fermé). Soit F un s.e.v. fermé d’un espace de Hilbert E. Alors
le projecteur PF est linéaire et si x ∈ E, PF (x) est l’unique élément y ∈ F tel que x − y ∈ F ⊥ .
Démonstration. Par le théorème 6.3.10, PF (x) est l’unique élément y ∈ E tel que
 
 y∈F
  y∈F

⇐⇒
 Re ⟨x − y, z − y⟩ ≤ 0 ∀z ∈ F
  Re ⟨x − y, λz⟩ ≤ 0 ∀z ∈ F

∀λ ∈ C

84
car z − y ∈ F . Or si Re λ⟨x − y, z⟩ ≤ 0 pour tout λ ∈ C alors pour λ = ⟨x − y, z⟩, on obtient que
|⟨x − y, z⟩|2 ≤ 0 d’où ⟨x − y, z⟩ = 0.
Il reste à montrer que PF est linéaire : soient x1 , x2 ∈ E et λ ∈ K. Notons y1 = PF (x1 ) ∈ F et
y2 = PF (x2 ) ∈ F . Or
(x1 + λx2 ) − (y1 + λy2 ) = (x1 − y1 ) +λ (x2 − y2 ) . (6.4)
| {z } | {z }
∈F ⊥ ∈F ⊥

Ainsi y1 + λy2 est un élément de F tel que (x1 + λx2 ) − (y1 + λy2 ) ∈ F ⊥ , par unicité du projeté,
y1 + λy2 = PF (x1 + λx2 ). Ceci montre que PF (x1 ) + λPF (x2 ) = PF (x1 + λx2 ).

Corollaire 6.3.12. 1. Tout s.e.v. fermé F de E admet un supplémentaire orthogonal, i.e. E =


F ⊕ F ⊥ et l’identité satisfait I = PF + (I − PF ) avec PF (I − PF ) = (I − PF )PF = 0 et PF le
projecteur linaire sur F ;
2. Pour tout s.e.v. F de E, E = F ⊕ F ⊥ ;
3. Un s.e.v. F est dense dans E si et seulement si F ⊥ = {0} ;
4. Pour tout s.e.v. F de E, (F ⊥ )⊥ = F .

Exemple 29. Le s.e.v. F = {en : n ∈ Zd } ⊂ L2µ ([0, 2π]d ) est dense. C’est donc une base orthonormée.
L’analyse de Fourier dans le contexte L2 consiste en fait à décomposé les fonctions le long d’une base
orthonormée. En exercice, on pourra retrouver le théorème de Parseval qui est une extension du théorème
de Pythagore. Attention toutefois, les convergences des séries ont lieu dans L2 et ne préjuge en rien de
la convergence dans des topologies autres (convergence simple par exemple).

Démonstration. 1. Il est immédiat par le théorème 6.3.11 que

x = PF (x) + x − PF (x) . (6.5)


| {z } | {z }
∈F ∈F ⊥

De plus, si x ∈ F ∩ F ⊥ alors x ⊥ x donc ⟨x, x⟩ = 0 d’où x = 0. Ceci montre que E = F ⊕ F ⊥ .


L’équation (6.5) implique que I = PF + (I − PF ) et de plus que Im PF = F et Im (I − PF ) = F ⊥
d’où PF (I − PF ) = (I − PF )PF = 0.
2. On applique le point précédent à F en remarquant que (F )⊥ = F ⊥ par la proposition 6.3.7.
3. Le s.e.v. F est dense dans E si et seulement si E = F si et seulement si F ⊥ = {0}.
4. Soient x ∈ F et y ∈ F ⊥ alors ⟨x, y⟩ = 0 donc x ∈ (F ⊥ )⊥ par définition et F ⊂ (F ⊥ )⊥ . Par la
proposition 6.3.7, (F ⊥ )⊥ est fermé ainsi W = (F ⊥ )⊥ est un espace de Hilbert pour le produit
hermitien restreint à W . L’orthogonale de V dans W est V ⊥ ∩W = V ⊥ ∩(V ⊥ )⊥ = {0}. Autrement
dit, V est dense dans W , i.e. V = (V ⊥ )⊥ .

Remarque 52. Tous ces résultat restent valides dans un espace E préhilbertien pour autant que F est
complet.

6.3.2 Lemme de Fréchet-Riesz


Définition 6.3.13. Soit E un K-espace vectoriel. Une forme linéaire est une application linéaire de E
dans K. Si E est muni d’une norme, une forme linéaire sur E est dite continue si elle est continue de
(E, ∥ · ∥) dans (K, | · |).

Théorème 6.3.14 (Lemme de Fréchet-Riesz). Soient (E, ⟨·, ·⟩) un espace de Hilbert et ϕ une forme
linéaire continue sur E. Alors il existe un unique y ∈ E tel que ϕ(x) = ⟨x, y⟩ pour tout x ∈ E. De
plus, ∥ϕ∥L(E,K) = ∥y∥E . Autrement dit, l’application qui à y ∈ E associe la forme linéaire continue
E ∋ x → ⟨x, y⟩ ∈ K est une isométrie surjective — une isométrie est en effet toujours injective.

Démonstration. Notons ϕy = ⟨·, y⟩. Cette application est linéaire continue et plus précisément, pour tout
x ∈ E, |ϕy (x)| ≤ ∥x∥∥y∥ et ϕy (y) = ∥y∥2 . On en déduit ∥ϕy ∥ = ∥y∥. Ceci montre que y → ϕy est une
isométrie, reste à montrer qu’elle est surjective.

85
Considérons ϕ une forme linéaire continue. Si ϕ = 0, alors y = 0 convient (et c’est la seule !).
Supposons donc ϕ ̸= 0. Par continuité, Ker ϕ = ϕ−1 ({0}) est un s.e.v. fermé et par le théorème du
rang (infini dimensionnel) il est de codimension 1. Ainsi, nous avons la décomposition en somme directe
E = Ker ϕ⊕(Ker ϕ)⊥ . Puisque ϕ ̸= 0, il existe e ∈ (Ker ϕ)⊥ non nul et de norme 1. On pose y = ϕ(e)e ̸= 0.
Puis pour x ∈ E et x0 + x1 sa décomposition en somme directe. Alors
— ϕ(x0 ) = 0 = ⟨x0 , y⟩ = ϕy (x0 ),
— ϕy (e) = ⟨e, y⟩ = ⟨e, ϕ(e)e⟩ = ϕ(e)∥e∥2 = ϕ(e), et donc ϕy (x1 ) = ϕ(x1 ) car x1 ∈ (Ker ϕ)⊥ qui est
de dimension 1.
Finalement, pour tout x ∈ E, ϕy (x) = ϕ(x).

6.3.3 Théorème de Radon-Nikodym, cas des mesures positives


On commence par rappeler la définition d’une mesure à densité.
Définition 6.3.15 (Mesure à densité). Soit (X, X , µ) un espace mesuré. UneR mesure ν sur (X, X ) est à
densité par rapport à µ s’il existe f : X → [0, ∞] mesurable telle que ν(A) = 1A f dµ pour tout A ∈ X .
On appelle f la densité de ν par rapport à µ. On note ν = f · µ ou dν = f dµ.
Définition 6.3.16 (Mesure absolument continue). Soient (X, X ) un espace mesurable et µ, ν deux
mesures sur (X, X ). On dit que ν est absolument continue par rapport à µ si pour tout A ∈ X , µ(A) = 0
implique ν(A) = 0. On note ν ≺ µ.
Proposition 6.3.17. Soit (X, X , µ) un espace mesuré. Si ν est une mesure sur (X, X ) à densité par
rapport à µ, alors ν est absolument continue par rapport à µ
Démonstration. Il existe f : X → [0, ∞] mesurable telle que ν = f · µ. Soit A ∈ X tel que µ(A) = 0.
Ainsi 1A = 0 µ-presque partout, d’où 1A f = 0 µ-presque partout. Donc,
Z
ν(A) = 1A f dµ = 0 =⇒ ν ≺ µ.

Le théorème de Radon-Nikodym établit la réciproque : si ν ≺ µ alors ν est à densité par rapport à µ.


Théorème 6.3.18 (Radon-Nikodym). Soit (X, X , µ) un espace mesuré. On suppose que µ est σ-finie.
Soit ν une mesure sur (X, X ), alors les assertions suivantes sont équivalentes :
1. ν est finie et est absolument continue par rapport à µ ;
2. ν est à Rdensité intégrable par rapport à µ, c’est à dire qu’il existe f ∈ L1 (µ) positive telle que
ν(A) = 1A f dµ.
De plus f est unique, on l’appelle dérivée de Radon-Nikodym de ν par rapport à µ, on la note f = dν/dµ.
Démonstration. Si on suppose que ν est à densité f positive et intégrable par rapport à µ alors ν est
clairement finie et est absolument continue par la proposition précédente
En ce qui concerne l’unicité de la densité, si g est une densité de ν par rapport à µ, on pose An =
{f ≥ g + 1/n} et il vient par l’inégalité de Markov que
Z Z Z
ν(An ) = f dµ = g dµ =⇒ 0 = (f − g) dµ ≥ µ(An )/n.
An An An

D’où µ(An ) = 0 et µ(∪n≥1 An ) = 0 si bien que f ≤ g µ-p.p.. De la même manière, on montre que g ≥ f
µ-p.p.. Enfin, f = g dans L1 (µ).
Soit ρ = ν + µ, c’est à dire, ρ(A) = ν(A) + µ(A) pour tout A ∈ X . Alors ρ est σ-finie et pour tout f
mesurable positive Z Z Z
f dρ = f dν + f dµ.

De plus, f ∈ Lp (ρ) si et seulement si f ∈ Lp (ν) ∩ Lp (µ). Enfin, comme ρ(A) = 0 si et seulement si


ν(A) = µ(A) = 0, il vient que f ∈ Lp (ρ) si et seulement si f ∈ Lp (ν) ∩ Lp (µ).

86
Étape 1 : Lemme de Riesz-Fisher
Soit g ∈ L2 (ρ), alors g ∈ L2 (ν) puis par l’inégalité de Cauchy-Schwartz et le fait que ν soit finie
Z p
|g| dν ≤ ∥g∥2 ν(X).

T : L2 (ρ) → R définie par T g = g dν. C’est une forme linéaire


R
On peut donc définir l’application
p
continue (sa norme est ν(X)). D’après le lemme de Riesz-Fisher, il existe un unique ϕ ∈ L2 (ρ) tel que
pour tout g ∈ L2 (ρ) : Z Z Z Z
T (g) = g dν = gϕ dρ = gϕ dν + gϕ dµ.

Remarquons que la fonction ϕ est nulle si et seulement si ν = 0, mais dans ce cas le résultat est évident.
Heuristiquement, en posant g = 1A (1 − ϕ)−1 on a
Z Z
ϕ
ν(A) = 1A dν = 1A dµ.
1−ϕ
Il s’agit de justifier cette heuristique.

Étape 2 : Bornes sur ϕ


1. Montrons que ϕ ≥ 0 µ-p.p. et donc ν-p.p.. Soit (En )n≥0 ∈ X N une suite croissante d’ensembles
tels que µ(En ) < ∞ et X = ∪n≥0 En , puis notons Bn = {ϕ < 0} ∩ En . Clairement, g = 1Bn ∈
L2 (µ) ∩ L2 (ν) et donc g ∈ L2 (ρ). La représentation de Riesz-Fisher donne
Z Z
1Bn (1 − ϕ) dν = 1Bn ϕ dµ.

On remarque que l’intégrande à gauche est positive alors que celle de droite est négative si bien
que les deux intégrales doivent être nulles. Ainsi :

1Bn ϕ = 0, µ − p.p. et 1Bn (1 − ϕ) = 0, ν − p.p..

Or par définition de Bn , 1Bn ϕ < 0 et 1Bn (1−ϕ) > 1 partout. En particulier, il vient que µ(Bn ) = 0
et ν(Bn ) = 0. Ceci montre que ϕ ≥ 0 µ-p.p. et ν-p.p.. De plus, la positivité de ϕ ν-p.p. ne requiert
pas d’hypothèses particulières.
2. Montrons que ϕ < 1 µ-p.p. et ν-p.p.. Cette fois-ci, on pose

Cn = {ϕ ≥ 1} ∩ En ,

et on obtient par la représentation de Riesz-Fisher


Z Z
1Cn (1 − ϕ) dν = 1Cn ϕ dµ.

Là-encore, l’intégrande à gauche est négative alors que celle de droite est positive. On en déduit
0 = 1Cn ϕ ≥ 1Cn µ-p.p. donc µ(Cn ) = 0. En particulier, puisque ν ≺ µ, on a aussi ν(Cn ) = 0.
Contrairement au point précédent, l’hypothèse d’absolue continuité est essentielle, c’est ici qu’elle
apparaı̂t.
Quitte à modifier ϕ sur un ensemble ρ-négligeable, on peut considérer que ϕ(x) ∈ [0, 1) pour tout x ∈ X.
On pose alors f = ϕ/(1 − ϕ) qui est mesurable positive.

Étape 3 : Montrons que dν = f dµ. Pour cela, on utilise à nouveau l’égalité provenant de la représen-
tation de Riesz-Fisher pour tout g ∈ L2 (ρ)
Z Z
g(1 − ϕ) dν = gϕ dµ. (6.6)

Soit A ∈ X tel que µ(A) < ∞ et posons g = 1A . Alors g ∈ L2 (ρ) et


Z Z
1A (1 − ϕ) dν = 1A ϕ dµ. (6.7)

87
Si µ(A) = ∞, on pose An = A ∩ En et par convergence monotone l’égalité (6.7) est toujours vérifiée,
éventuellement dans R+ .
Ce qui est vrai pour les indicatrices reste vraie pour les fonctions étagées positives en utilisant la
linéaire de l’intégrale pour les fonctions positives. C’est également vrai pour les fonctions mesurables
positives en utilisant le théorème de convergence monotone. Ainsi, l’égalité 6.6 déduite du lemme de
Riesz-Fisher est satisfaite pour toute fonction g mesurable positive. En particulier, pour tout A ∈ X , la
fonction g = 1A /(1 − ϕ) est mesurable positive et on obtient
Z Z Z
1A ϕ
(1 − ϕ) dν = 1A dµ ⇐⇒ ν(A) = 1A f dµ.
1−ϕ 1−ϕ
Comme ν est supposée finie, la fonction f est intégrable positive.
Définition 6.3.19 (Mesures étrangères). Deux mesures µ et ν sont dites étrangères s’il existe un en-
semble E ∈ X tel que µ(E ∁ ) + ν(E) = 0. On dit que µ est concentrée sur E et ν sur E ∁ .

6.3.4 Théorème de Radon-Nikodym, cas des mesures signées


Définition 6.3.20 (Mesure signée). Soit (X, X ) un espace mesurable. Une mesure signée µ est une
application σ-additive dePX dans R, i.e. pour toute suite (An )n≥0 d’ensembles mesurables deux à deux
disjoints, µ(∪n≥0 An ) = n≥0 µ(An ).
Si µ est une mesure signée, on peut lui associer sa variation totale, notée |µ|, définie pour tout A ∈ X
 
X [ 
|µ(A)| = sup |µ(En )| : i ̸= j ⇒ Ei ∩ Ej = ∅, En = A .
 
n≥0 n≥0

Remarque 53. Une mesure signée µ vérifie en particulier, par définition, µ(X) < ∞. Il n’est de même
P En effet, ∅ = ∪n≥0 ∅ qui est une réunion
pas nécessaire de supposer µ(∅) = 0 pour les mesures signées.
d’ensembles deux à deux disjoints. Si µ(∅) ̸= 0, on aurait n≥0 µ(∅) = ±∞ ce qui est exclu.
Proposition 6.3.21. Soit µ une mesure signée sur un espace mesurable (X, X ). Alors,
1. |µ| est une mesure positive,
2. |µ| est une mesure finie,
3. Pour tout A ∈ X , |µ(A)| ≤ |µ|(A).
Démonstration. 1. Suivant la remarque précédente, nous avons déjà que µ(∅) = 0 d’où il vient
facilement que |µ|(∅) = 0. Soit (An )n≥0 une famille d’ensembles mesurables deux à deux disjoints.
On note A = ∪n≥0 An et on se donne une partition (Ek )k≥0 de A. On remarque que Ek =
∪n≥0 Ek ∩ An qui est une réunion disjointe. C’est à dire (Ek ∩ An )n≥0 est une partition de Ek
pour tout k ≥ 0. D’où

X X X
|µ(Ek )| = µ(Ek ∩ An )
k≥0 k≥0 n≥0
XX
≤ |µ(An ∩ Ek )| ≤ |µ|(An ),
n≥0 k≥0

en intervertissant
P les sommes et en remarquant que (Ek ∩ An )k≥0 est une partition de An . Donc,
|µ|(A) ≤ n≥0 |µ|(An ).
Réciproquement, on considère pour tout n ≥ 0 une partition (En,k )k≥0 de An . Manifestement,
(En,k )n,k≥0 est une partition de A. Donc,
 
X X X
 |µ(En,k )| = |µ(En,k )| ≤ |µ|(A).
n≥0 k≥0 k,n≥0

En passant à la borne supérieure pour tout n ≥ 0, on obtient l’inégalité inverse.

88
2. Ce deuxième résultat nécessite deux lemmes.
PN
Lemme 6.3.22. Pour x1 , . . . , xN ∈ R, on pose S = k=1 |xk |. Alors il existe I ⊂ {1, 2, . . . , N }
tel que
X
xi ≥ S/2.
i∈I

Démonstration. Immédiat.
Lemme 6.3.23. Si E ∈ X est tel que |µ|(E) = ∞ alors il existe une partition de E en deux
ensembles mesurables A et B tels que |µ(A)| ≥ 1 et |µ|(B) = ∞.

Démonstration. Nous avons µ(E) ∈ R et donc |µ(E)| < ∞. Posons M = 2(1 + |µ(E)|). Si
|µ|(E) = ∞ alors il existe E1 , E2 , . . . , EN disjoints et contenu dans E tels que
N
X
|µ(Ek )| ≥ M.
k=1

Par le lemme 6.3.22, il existe I ⊂ {1, . . . , N } tel que

X
µ(Ek ) ≥ M/2.
k∈I

On pose alors A = ∪k∈I Ek , et nous avons

X
|µ(A)| = µ(Ek ) ≥ M/2 ≥ 1.
k∈I

D’autre part, en posant B = E \ A, on obtient µ(E) = µ(A) + µ(B) et donc |µ(B)| ≥ |µ(E)| −
|µ(A)| ≥ M/2 − |µ(E)| = 1. De plus, |µ| est σ-additive donc

∞ = |µ|(E) = |µ|(A) + |µ|(B),

d’où |µ|(A) = ∞ ou |µ|(B) = ∞. C’est le résultat du lemme quitte à modifier le rôle de A et


B.

Si |µ|(X) = ∞, on construit par récurrence grâce au lemme 6.3.23 une suite (An )n≥0 d’ensembles
mesurables deux à deux disjoints tel que |µ(An )| ≥ 1 pour tout n ≥ 0. Or
 
X [
µ(An ) = µ  An  ∈ R
n≥0 n≥0

est une série convergente, donc µ(An ) tend vers 0 quand n tend vers l’infini. C’est une contradic-
tion.
3. Ce point est immédiat en remarquant que {A, ∅, ∅, . . .} est une partition de A donc vérifie en
particulier |µ(A)| ≤ |µ|(A).

Si µ est une mesure signée sur un espace mesurable (X, X ) alors, en posant,

|µ| + µ |µ| − µ
µ+ = et µ− = .
2 2
on vérifie que µ = µ+ − µ− . De plus, µ+ et µ− sont des mesures positives.
Théorème 6.3.24 (Décomposition de Hahn). Si µ est une mesure signée sur (X, X ), alors il existe une
partition de X en deux ensembles N et P tels que
— pour tout A ⊂ P mesurable, µ(A) ≥ 0,

89
— et pour tout B ⊂ N mesurable, µ(B) ≤ 0.
De plus, µ+ et µ− sont caractérisées par µ+ (·) = µ(· ∩ P ) et µ− = −µ(· ∩ N ). En particulier, µ+ et µ−
sont étrangères.
Démonstration. Admis.
Théorème 6.3.25 (Théorème de Radon-Nikodym). Soit (X, X , µ) un espace mesuré avec µ une mesure
positive σ-finie. Soit ν une mesure signée sur (X, X ), alors les assertions suivantes sont équivalentes.
1. ν est absolument continue par rapport à µ ;
2. νR est à densité intégrable par rapport à µ, i.e. il existe une unique f ∈ L1 (µ) telle que ν(A) =
1A f dµ pour tout A ∈ X .
Démonstration. Si ν est à densité intégrable alors ν est absolument continue par rapport µ, c’est
immédiat.
Réciproquement, supposons ν est absolument continue par rapport à µ, et commençons par montrer
que |ν| est absolument continue par rapport à µ. En effet, soit A ∈ X tel que µ(A) = 0 et soit (En )n≥0
une partition de A. Pour tout n ≥ 0, En ⊂ A donc µ(En ) = 0 et donc ν(En ) = 0. Puis,
X
|ν(En )| = 0 =⇒ |ν|(A) = 0.
n≥0
+ −
Les mesures ν et ν sont donc aussi absolument continue par rapport à µ. Elles sont également finies.
On applique donc le théorème de Radon-Nikodym pour les mesures positives qui nous assure l’existence
de deux fonctions f + et f − positives intégrables telles que dν ± = f ± dµ. Ainsi, f = f + − f − ∈ L1 (µ)
et par linéarité de l’intégrale pour les fonctions intégrables, on obtient dν = f dµ.
Définition 6.3.26. On note M(X, X , R) = {µ mesures signées sur (X, X )}. C’est un R-espace vectoriel.
On peut le munir de la norme de la variation totale définie par ∥µ∥V T = |µ|(X).
Théorème 6.3.27 (Cohn). L’espace vectoriel normé (M(X, X , R), ∥ · ∥V T ) est un espace de Banach.
Remarque 54. Les mesures signées apparaissent comme une généralisation naturelle des mesures positives.
Nous ne l’avons pas évoqué ici, mais il existe également une notion de mesure à valeurs complexes. Ces
deux généralisations, bien qu’utile en théorie de la mesure, ne sont plus interprétables en termes de
mesure d’aire ou de volume.

6.4 Approximation dans les espaces Lp , p ∈ [1, ∞)


L’espaces L∞ est particulièrement gros et possède peu de bonnes propriétés. C’est le cas notamment
en théorie de l’approximation : hormis le paragraphe 6.4.1, les autres ne concernent que le cas p fini.
Lemme 6.4.1. Si (fn )n≥0 et (gn )n≥0 converge respectivement vers f et g dans LpK (µ) et que (λn )n≥0
converge vers λ, alors (λn fn + gn )n≥0 converge dans LpK (µ) vers λf + g.
Démonstration. Le lemme se déduit de l’inégalité suivante
∥λf + g − λn fn − gn ∥p = ∥λf − λn f + λn f + g − λn fn − gn ∥p ≤ |λ − λn |∥f ∥p + |λn |∥f − fn ∥ + ∥g − gn ∥p .

6.4.1 Approximation par des fonctions étagées mesurables


Proposition 6.4.2. L’espace vectoriel des fonctions étagées intégrables est dense dans l’espace LpK (µ)
pour la norme ∥ · ∥p , p ∈ [1, ∞].
Démonstration. Soit f ∈ LpK (µ). Si f est à valeurs dans K, on a la décomposition f = Re f + − Re f − +
iIm f + − iIm f − . Aussi, on peut supposer f positive sans perte de généralité.
On sait qu’il existe une suite (fn )n≥0 monotone croissante de fonctions étagées positives vérifiant
0 ≤ fn ≤ f pour tout n ≥ 0 et limn→∞ fn = f µ-presque partout. Alors |f − fn |p converge vers 0 µ-
presque partout et |f − fn |p ≤ 2f p . Par le théorème de convergence dominée, on obtient le résultat.
Remarquons enfin que, si ϕ est étagée, ϕ est intégrable si et seulement si ϕp est intégrable si et
seulement µ({ϕ ̸= 0}) < ∞.

90
6.4.2 Approximation par des fonctions continues à support compact
Comme annoncé, on se restreint ici aux espaces Lp avec p fini. Dans cette partie, sauf mention
contraire, on suppose de plus que (X, d) est un espace métrique et (X, X , µ) est un espace mesuré où
X = B(X) est la tribu borélienne. Les théorèmes ci-dessous s’appliquent typiquement pour (Rd , B(Rd ), λ).
Définition 6.4.3 (Fonctions en escalier). Une fonction mesurable sur X est dite en escalier si il existe
des ouverts Oi , i = 1, . . . , n, deux à deux disjoints et des αi ∈ K, i = 1, . . . , n tels que
n
X
f= αi 1Oi .
i=1

Le support (topologique) d’une fonction f est l’adhérence de l’ensemble {f ̸= 0}, on note supp f =
{f ̸= 0}.
Proposition 6.4.4. Soient (X, T ) un espace topologique et µ une mesure extérieurement régulière sur
(X, B(X)). Alors les fonctions en escaliers intégrables sont denses dans Lp (µ), p ∈ [1, ∞).
Démonstration. Les fonctions en escaliers sont évidemment mesurables et dans Lp (µ) si et seulement si
elles sont intégrables.
Soit A ∈ B(X) tel que 1A ∈ Lp (µ) (i.e. µ(A) < ∞). Par régularité de la mesure µ, on peut trouver
une suite (On )n≥0 contenant A tel que µ(On ) tende vers µ(A). En particulier, pour tout n assez grand,
µ(On ) < ∞ et donc 1On ∈ Lp (µ). Puis, on calcule
∥1A − 1On ∥pp = µ(On ) − µ(A) → 0, quand n → ∞.

Remarque 55. La preuve met en évidence l’obstruction pour le cas p = ∞. Puisque ∥1On − 1A ∥∞ = 1
sauf si µ(On \ A) = 0 à partir d’un certain rang, c’est à dire A est, à ensemble de mesure nulle près,
ouvert.
Proposition 6.4.5. Soient (X, d) un espace métrique et µ est une mesure sur (X, B(X)). On suppose
qu’il existe une suite croissante (Kn )n≥0 de compacts de µ-mesure finie telle que X = ∪n≥0 Int Kn . Alors
µ est une mesure de Borel régulière et les fonctions en escaliers à support compact sont denses dans
Lp (µ), p ∈ [1, ∞).
Démonstration. La régularité de µ provient du théorème 2.2.36. Soit K un compact, alors on peut extraire
du recouvrement d’ouvert (Int Kn )n≥0 un sous-recouvrement fini. Il existe donc n0 tel que K ⊂ Kn0 et
µ(K) < ∞, c’est une mesure de Borel.
Soit O un ouvert tel que µ(O) < ∞, on pose On = O ∩ Int Kn alors par continuité à gauche µ(On )
converge vers µ(O) et donc 1On converge vers 1O dans Lp (µ). De plus, On ⊂ Kn . Le résultat découle du
lemme 6.4.1 et de la proposition 6.4.4
Proposition 6.4.6. Soient (X, d) un espace métrique et µ est une mesure sur (X, B(X)). On suppose
qu’il existe une suite croissante (Kn )n≥0 de compacts de µ-mesure finie telle que X = ∪n≥0 Int Kn . Alors
µ est une mesure de Borel régulière et les fonctions continues à support compact sont denses dans Lp (µ),
p ∈ [1, ∞).
Démonstration. Du fait de la proposition 6.4.5 et le lemme 6.4.1, on doit montrer que pour tout O ouvert
de X relativement compact, 1O ∈ LpK (µ) est limite dans Lp de fonctions continues à support compact. Si
O est vide, alors la suite de fonctions constante égale à la fonction nulle convient. Supposons donc O non
vide relativement compact, alors la régularité de µ implique pour tout ε > 0 l’existence d’un compact
K ⊂ O tel que µ(O \ K) < ε. On pose

d(x, O∁ )
∀x ∈ X, fε (x) = .
d(x, O∁ ) + d(x, K)

C’est une fonction qui vaut 1 sur K et 0 sur O∁ , elle est à support dans O qui est compact. La fonction fε
est continue. En effet, pour toute partie A ⊂ X non vide, x → d(x, A) est continue (même lipschitzienne)
et d(x, O∁ ) + d(x, K) = 0 si et seulement si x ∈ O∁ ∩ K = ∅ puisque K et O∁ sont fermés. Enfin,
∥fε − 1O ∥p ≤ µ(O \ K) ≤ ε.

91
Remarque 56. Les hypothèses des propositions 6.4.5 et 6.4.6 sont satisfaites si (X, d) est un espace
métrique séparable et µ une mesure σ-finie sur B(X) d’après la démonstration du théorème 2.2.39.
Remarque 57. Il pourrait sembler de prime abord que la métrisabilité de l’espace est essentielle pour
exhiber la fonction fε . En fait l’existence d’une telle fonction est assurée dans un cadre plus général.
Lemme 6.4.7. Soit (X, T ) un espace topologique séparé localement compact. Pour tout ouvert U et tout
compact K ⊂ U , il existe une fonction continue f : X → [0, 1] tel que

∀x ∈ K, f (x) = 1 et ∀x ∈ U ∁ , f (x) = 0.

Proposition 6.4.8. Soient (X, T ) un espace topologique séparé localement compact et µ une mesure sur
B(X) régulière extérieurement. Alors l’espaces des fonctions continues intégrables est dense dans Lp (µ).
Démonstration. C’est une conséquence des lemmes 6.4.1 et 6.4.7 ainsi que de la proposition 6.4.4
Exercice 24. Soient (X, d) un espace métrique et µ une mesure sur B(X) extérieurement régulière. Montrer
que pour tout p ∈ [1, ∞) l’espace des fonctions Lipschitz bornées et intégrables est dense dans Lp (µ).
Exercice 25. En utilisant la proposition 6.4.4, montrer que si (X, d) un espace métrique séparable et µ
une mesure extérieurement régulière, alors l’espace Lp (X, µ) est séparable.
Proposition 6.4.9. Soit (X, X , µ) un espace mesuré. On définit l’application ρ : X × X → R+ pour
A, B ∈ X par ρ(A, B) = µ(A∆B). Muni de ρ, l’ensemble X est un espace métrique. La tribu X est dite
séparable si l’espace métrique (X , ρ) est lui-même séparable. Une tribu X est séparable si et seulement si
il existe une famille (Bn )n≥0 ∈ X N telle que X = σ(Bn )µ .
Proposition 6.4.10. Soit (X, X , µ) un espace mesuré. Si la tribu X est séparable alors, pour tout
p ∈ [0, ∞), l’espace Lp (X, X , µ) est séparable.
Exercice 26. Montrer que ces résultats sont faux pour p = ∞.

6.4.3 Convolution
Définition et propriétés élémentaires
Dans cette partie, on se place exclusivement sur (Rd , B(Rd ), λd ). La convolution se généralise très
bien aux groupes topologiques localement compact, mais cela nous emmènerait trop loin par rapport à
l’objectif de ce cours. Dans tout ce qui suit, on utilise effectivement de manière crucial la structure de
groupe additif de Rd ainsi que l’invariance par translation de la mesure de Lebesgue (que l’on appelle
mesure de Haar pour les groupes topologiques localement compact).
On se permettra de noter plus simplement l’espace Lp (Rd , λd ) par Lp .
Proposition 6.4.11. Soient f, g ∈ L1 . La fonction ϕ : x → Rd f (x − y)g(y) dy est définie µ-presque
R

partout, mesurable et intégrable par rapport à λd . De plus, ∥ϕ∥1 ≤ ∥f ∥1 ∥g∥1 .


La fonction ϕ s’appelle la convolée de f et g et est notée f ∗ g.
Démonstration. On pose ψ(x, y) = f (x−y)g(y). La fonction ψ est mesurable sur Rd ×Rd . Puis on calcule
en utilisant Tonelli puis l’invariance par translation de λd
Z Z
|ψ(x, y)| dxdy = |f (x − y)||g(y)| dxdy
Z Z 
= |g(y)| |f (x − y)| dx dy
Z Z
= |f (x)| dx |g(y)| dy = ∥f ∥1 ∥g∥1 < ∞.

Ainsi ψ est intégrable et le théorème de Fubini implique que x → ϕ(x) est mesurable et intégrable. Puis
par un calcul très similaire on obtient la majoration de ∥ϕ∥1 .
On définit ainsi une loi de composition interne sur L1 qui a (f, g) ∈ L1 × L1 associe le produit de
convolution f ∗ g ∈ L1 .

92
Proposition 6.4.12. Le produit de convolution est commutatif, associatif, distributif par rapport à
l’addition et homogène par multiplication par un scalaire. Il n’admet pas d’éléments neutre.
L’espace L1 (+, ∗) une algèbre de Banach sans unité.
Démonstration. On commence par la commutativité. Soient f, g ∈ L1 , alors
Z Z
f ∗ g(x) = f (x − y)g(y) dy = f (u)g(x − u) du = g ∗ f (x),

en faisant le changement de variable affine y = x − u. Cette égalité est satisfaite pour tout x ∈ Rd pour
lequel g ∗ f et f ∗ g sont définies, c’est à dire pour presque tout x ∈ Rd .
La distributivité et l’homogénéité reflètent la linéarité de l’intégrale. Pour l’associativité, on utilise le
théorème de Fubini : soient f, g, h ∈ L1 et calculons, d’une part,
Z
[(f ∗ g) ∗ h] (x) = (f ∗ g)(x − y)h(y) dy
Z Z 
= f (x − y − z)g(z) dz h(y) dy
Z Z
= f (x − y − z)g(z)h(y) dydz

et d’autre part
Z
[f ∗ (g ∗ h)] (x) = f (x − u)g ∗ h(y) dy
Z Z
= f (x − u) g(u − v)h(v) dvdu
Z
= f (x − u)g(u − v)h(v) dudv.

On conclut en effectuant dans la deuxième expression, le changement de variable affine u = y + z et


v = y.
On termine la proposition en montrant qu’il n’existe pas d’élément neutre pour le produit de convo-
lution. Pour cela, supposons au contraire qu’il existe g ∈ L1 tel que pour tout f ∈ L1 on ait g ∗ f = f .
2
Pour n ∈ N, on définit fn par fn (x) = e−n∥x∥ . Les fonctions fn sont continues et dans L1 . Le produit
de convolution entre fn est g est donné par
Z
2
fn ∗ g(x) = e−n∥x−y∥ g(y) dy.

L’intégrande est continue en tout x ∈ Rd et est bornée en valeur absolue par y → |g(y)| qui est intégrable.
Ainsi, fn ∗ g est continue sur Rd .
D’autre part, fn ∗ g = fn presque partout, mais en fait partout par continuité. Donc, en particulier,
fn (0) = fn ∗ g(0) c’est à dire Z
2
1= g(y)e−n∥y∥ dy.

Puis le théorème de convergence dominée appliquée à l’intégrale à droite donne la contradiction cherchée.

Exercice 27. Deux fonctions continues égales presque partout sont égales.

Approximation de l’identité
Si notre algèbre de convolution est sans unité, il existe une notion d’approximation de l’unité.
Définition 6.4.13 (Approximation de l’identité). Une suite (ϕn )n≥0 d’éléments de L1 est une approxi-
mation de l’unité si
R
1. pour tout n ≥ 0, ϕn dλd = 1 ;

93
2. supn≥0 |ϕn | dλd < ∞, on dit que (ϕn )n≥0 est bornée dans L1 ;
R
R
3. pour tout ε > 0, limn→∞ ∥x∥>ε |ϕn | dλd = 0.

Théorème 6.4.14. Si (ϕn )n≥0 est une suite d’approximations de l’unité, alors ϕn ∗ f converge vers f
dans L1 .
Exemple 30 (de suite d’approximations de l’unité). Soit ϕ ∈ L1 telle que ϕ dλd = 1. Pour tout n ≥ 1,
R
d
on définit
R ϕn par ϕn (x)
R d= n ϕ(nx). Alors
R (ϕn )n≥1 est une suite d’approximation de l’unité. En effet,
— ϕn (x)Rdx = n ϕ(nx) dx = ϕ(x) dx = 1,
— supn≥1 |ϕn | dλd ≤ ∥ϕ∥1 ,
— pour tout ε > 0, Z Z
|ϕn (x)| dx = |ϕ(x)| dx →n→∞ 0
∥x∥>ε ∥x∥>nε

par convergence dominée.


Remarque 58. La convolution d’une fonction par une approximation de l’unité a pour effet de prendre
des moyennes de f localement autour de chaque point x. Cela a pour effet de régulariser la fonction f et
la régularité obtenue est celle de l’approximation de l’unité. Par exemple, dans l’exemple précédent, si
on choisit ϕ infiniment dérivable à support compact, alors f peut être approchée par f ∗ ϕn dans L1 qui
est également infiniment dérivable à support compact. La convolution permet de montrer de nombreux
résultats de densité dans L1 . Néanmoins, rappelons que nous utilisons de manière crucial la structure de
Rd
Avant de montrer le théorème, montrons le lemme suivant.
Lemme 6.4.15. Soit p ∈ [1, ∞). Si y ∈ Rd et f ∈ Lp , on définit τy f ∈ Lp , la translatée de f , par
τy f (x) = f (x + y). Alors, limy→0 ∥τy f − f ∥p = 0.
Démonstration. Supposons d’abord f continue à support compact. Si f (x+y)−f (x) ̸= 0, alors x ∈ supp f
ou x ∈ (supp f ) − y. Il existe donc un compact K de Rd tel que si ∥y∥ ≤ 1 alors supp (τy f − f ) ⊂ K.
Ainsi, si ∥y∥ ≤ 1, nous avons
Z 1/p
∥τy f − f ∥p = |f (x + y) − f (x)|p dx .
K

Puisque f est continue sur K, f est uniformément continue :

∀ε > 0, ∃η ∈ (0, 1), ∥y∥ ≤ η =⇒ ∀x ∈ K, |f (x + y) − f (y)| < ε.

Aussi, si ∥y∥ ≤ η, ∥τy f − f ∥p ≤ (λ(K)εp )1/p = λ(K)1/p ε.


Maintenant, si f ∈ Lp , alors on peut trouver une suite (fn )n≥0 de fonctions continue à support
compact convergeant vers f dans Lp . De plus, pour tout n ≥ 0 et tout y ∈ Rd , nous avons
∥τy f − f ∥p = ∥τy f − τy fn + τy fn − fn + fn − f ∥p
≤ ∥τy f − τy fn ∥p + ∥τn fn − fn ∥p + ∥fn − f ∥p
≤ 2∥f − fn ∥p + ∥τy fn − fn ∥p .

Soit ε > 0, il existe n0 ≥ 0 tel que ∥f − fn0 ∥p ≤ ε/4. D’après ce qui précède, on peut trouver η > 0 tel
que ∥y∥ ≤ η implique ∥τy fn0 − fn0 ∥ ≤ ε/2. Ce qui conclut la preuve du lemme.
Revenons à la preuve du théorème.
Démonstration. On cherche R à montrer la convergence vers zéro de la quantité (∗) = ∥ϕn ∗ f − f ∥1 . On
utilise d’abord le fait que ϕn (x) dx = 1, on obtient
Z Z Z Z
∥ϕn ∗ f − f ∥1 = |ϕn ∗ f (x) − f (x)| dx = f (x − y)ϕn (y) − f (x)ϕn (y) dy dx.

Des majorations standards ainsi que le théorème de Tonelli implique


Z Z  Z
∥ϕn ∗ f − f ∥1 ≤ |ϕn (y)| |τ−y f (x) − f (x)| dx dy ≤ |ϕn (y)|∥τ−y f − f ∥1 dy.

94
Soit ε > 0. On écrit 1 = 1∥y∥≤ε + 1∥y∥>ε . Nous avons alors d’une part, par l’inégalité de Hölder
Z Z !
|ϕn (y)|∥τ−y f − f ∥1 dy ≤ sup ∥τy f − f ∥1 × sup |ϕn (y)| dy = O sup ∥τy f − f ∥1 .
∥y∥≤ε ∥y∥≤ε n≥0 ∥y∥≤ε

D’autre part, Z Z
|ϕn (y)|∥τ−y f − f ∥1 dy ≤ 2∥f ∥1 |ϕn (y)| dy.
∥y∥>ε ∥y∥>ε

Ceci implique que !


lim sup ∥ϕn ∗ f − f ∥1 = O sup ∥τy f − f ∥1 .
n→∞ ∥y∥≤ε

Comme ε > 0 peut être choisi arbitrairement petit, cela termine la preuve du théorème.

Régularisation par convolution


Le théorème suivant et surtout son corollaire n’est qu’un exemple parmi tant d’autre de l’intérêt de
l’effet régularisant de la convolution.
Théorème 6.4.16. On fixe k ∈ N ∪ {∞}. Soient g ∈ L1 et f ∈ Cbk (Rd ), i.e. f est k fois continûment
dérivable et toutes ses dérivées partielles jusqu’à l’ordre k sont bornées. Alors g ∗ f a un sens et g ∗ f ∈
Cnk (Rd ). Pour α ∈ Nd , on note ∂α = ∂1α1 . . . ∂dαd . Alors pour tout α ∈ Nd , |α| ≤ k, ∂α (f ∗ g) = (∂α f ) ∗ g.
Démonstration. Soient g ∈ L1 et f ∈ Cbk (Rd ). Par l’inégalité de Hölder, f ∗g est bien définie. L’application
qui à (x, y) → f (x − y)g(y) est mesurable en y et de classe C k en Rla variable x. Soit α ∈ Nd tel que
|α| ≤ k, alors |∂α f (x − y)g(y)| = O(|g(y)|), ce qui implique que x → f (x − y)g(y) dy est de classe Cbk .
De plus, Z
∀α ∈ Nd , |α| ≤ k, ∂α g ∗ f (x) = ∂α f (x − y)g(y) dy.

D’où le résultat.
Corollaire 6.4.17. L’espaces Cc∞ (Rd ) ∩ L1 (ainsi que tous les espaces Cck (Rd )) est dense dans L1 .
Exercice 28. Montrer le corollaire. On pourra utiliser comme fonction de base la fonction ϕ suivante :
 h i
 exp − 1 2

si ∥x∥ < 1,
1−∥x∥
ϕ(x) =
 0

sinon.

95
96
Deuxième partie

Probabilités générales

97
Chapitre 7

Variables aléatoires réelles et


vecteurs aléatoires

Dans ce chapitre et les suivants, on se donne un espace probabilisé (Ω, F, P). Nous allons définir les
notions de variables aléatoires et étudier plus précisément les notions de variables aléatoires réelles et
vecteurs aléatoires.
Le formalisme des probabilités est le même que celui de la théorie de la mesure : une variable aléatoire
n’est rien d’autre qu’une application mesurable. Toujours en termes de terminologie, en probabilité, les
ensembles mesurables A ∈ F s’appellent traditionnellement des événements.

7.1 Variables aléatoires


Définition 7.1.1 (Variable aléatoire). Soient (Ω, F, P) un espace probabilisé et (E, E) un espace mesu-
rable. Une variable aléatoire à valeurs dans E est une application mesurable X : (Ω, F, P) → (E, E).

Exemple 31 (Pile ou face). On pose Ω = {0, 1} muni de la tribu P(Ω) et on pose P = 21 δ0 + 12 δ1 . On


pose également E = {p, f } muni de la tribu P(E). Alors l’application X : Ω → E définie par X(0) = p
et X(1) = f est une variable aléatoire. Elle modélise l’expérience aléatoire du pile ou face.
Exemple 32 (Le dé à 6 faces). On pose Ω = {1, 2, . . . , 6}, F = P(Ω) et P la mesure uniforme sur Ω. De
même, on pose (E, E) = (Ω, F). Alors l’application X : Ω → E qui à ω ∈ Ω associe X(ω) = ω est une
variable aléatoire. Elle modélise l’expérience le lancé d’un dé équilibré.
Une variable aléatoire n’est donc rien de plus qu’une application mesurable entre deux espaces me-
surables. Traditionnellement, on utilise des lettres capitales X, Y, Z . . . pour désigner de telles variables
aléatoires.

Définition 7.1.2 (Loi d’une variable aléatoire). Soit X une variable aléatoire à valeurs dans E. La
loi de X, notée PX , est la mesure image par X de la probabilité P. Autrement dit, c’est la mesure de
probabilité sur (E, E) définie pour tout A ∈ E par PX (A) = P(X −1 (A)).

En termes de notations, on préférera souvent écrire P(X ∈ A) en lieu et place de la notation un peu
lourde P(X −1 (A)).
Une grande partie du travail en théorie des probabilités consiste à caractériser la loi d’une variable
aléatoire X, c’est à dire, stricto sensu, renseigner la valeur de P(X ∈ A) ∈ [0, 1] pour tout A ∈ E.
Remarquons que si X est à valeurs dans E fini et si E = P(E) alors card E = 2card E . Il paraı̂t alors
vite inenvisageable d’énumérer les valeurs de P(X ∈ A) pour tout A ∈ E. Dans la suite, on explicitera
d’autres méthodes permettant de caractériser la loi de X de manière plus compacte sans faire cette
énumération fastidieuse. À titre d’illustration, il est clair que dans le cas E fini ci-dessus il est suffisant
de renseigner P(X = k) = P(X ∈ {k}) pour tout k ∈ E puisque si A ∈ P(E), alors
!
[ X
P(X ∈ A) = P X ∈ {k} = P(X = k),
k∈A k∈A

99
du fait de la σ-additivité de la mesure P.
Pour l’exemple 31, la loi de X est même complètement caractérisée par P(X = f ) car P(X = p) =
1 − P(X = f ).
Le choix du triplet probabiliste n’est pas unique mais il n’est pas complètement arbitraire non plus. En
particulier, il faut choisir un espace suffisamment gros pour exprimer les variables aléatoires modélisant le
problème idoine. Par exemple, considérons le problème du pile ou face. Outre le choix fait dans l’exemple
31, nous aurions pu poser (Ω, F, P) = ([0, 1], B([0, 1]), λ) et définir Y : Ω → E = {p, f } par

 p si ω ∈ [0, 1/2)

Y (ω) = .
 f si ω ∈ [1/2, 1]

Remarquons finalement que P(Y = f ) = 1 − P(Y = p) = λ([0, 1/2)) = 1/2. Autrement dit, pour ces
deux choix de triplets probabilistes, les variables aléatoires X et Y ont même loi.
La proposition suivante, qui découle directement de la définition de la loi d’une variable aléatoire,
donne une façon de caractériser la loi d’une variable aléatoire.

Proposition 7.1.3. Soient (Ω, F, P) et (Ω′ , F ′ , P′ ) deux espaces probabilisés et (E, E) un espace me-
surable. Alors deux variables aléatoires X et Y à valeurs dans E ont même loi si et seulement si pour
toute fonction borélienne f : (E, E) → R bornée
Z Z
f (X) dP = f (Y ) dP′ .
Ω Ω′

Remarque 59. En probabilité, on note


Z Z
E(f (X)) = f (X) dP = f (x) PX (dx),
Ω E

où la seconde inégalité est obtenue par le théorème 3.2.6 de transfert.

Démonstration. C’est une condition suffisante car pour A ∈ E, l’égalité appliquée à f = 1A implique
PX (A) = PY (A).
Réciproquement, par hypothèse, pour f = 1A , à l’aide du théorème de transfert, on a
Z Z
1A (z) PX (dz) = 1A (z) PY (dz).
E E

La preuve s’achève en remarquant que l’égalité est satisfaite pour les fonctions étagées positives, les
fonctions boréliennes positives et enfin les fonctions boréliennes bornées.

Remarque 60. On remarque que X et Y peuvent être définies sur deux espaces probabilisés différents,
ce qui reflète encore une fois l’idée que le choix du triplet probabiliste (Ω, F, P) n’est pas unique.
Supposons que l’espace (E, E) soit muni d’une mesure σ-finie µ telle que PX ≺ µ alors le théorème
6.3 de Radon-Nikodym garantie l’existence d’une fonction f : (E, E) → R mesurable positive telle que
Z
PX (A) = P(X ∈ A) = 1A f dµ. (7.1)
R
Remarquons que PX (E) = 1 si bien que f dµ = 1.
Une variable aléatoire
R X dont la loi PX satisfait l’équation (7.1) pour une fonction f mesurable
positive et telle que f dµ = 1 sera dite à densité de probabilité par rapport à µ ou plus simplement à
densité si il n’y a aucune ambiguı̈té. La fonction f sera appelée la densité de X par rapport à µ.
Lorsqu’une variable aléatoire X est à densité par rapport à une mesure de référence µ fixée, cette
densité caractérise la loi de X.

Proposition 7.1.4. Soient (Ω, F, P) et (Ω′ , F ′ , P′ ) deux espaces probabilisés et (E, E, µ) un espace me-
suré σ-fini. Alors deux variables aléatoires X et Y à valeurs dans E et à densité fX et fY respectivement
par rapport à µ ont même loi, i.e. PX = P′Y , si et seulement si fX = fY µ-p.p..

100
Démonstration. C’est évidemment une condition suffisante car pour tout A ∈ E
Z Z
PX (A) = fX 1A dµ = fY 1A dµ = P′Y (A).
E E

C’est également une condition nécessaire puisque PX = P′Y . Ces deux mesures (finies) sont absolument
continue par rapport à µ, qui est σ-finie, et l’unicité de la densité dans le théorème de Radon-Nikodym
implique que fX = dPX /dµ et fY = dP′Y /dµ sont égales µ-p.p..
Remarque 61. Lorsque E est dénombrable (muni de la tribu idoine), la mesure de comptage est une
mesure de référence de choix. Dans ce cas, la proposition ci-dessus dit que X et Y ont même loi si et
seulement si P(X = x) = P′ (Y = x) pour tout x ∈ E.

7.2 Variables aléatoires réelles


On s’intéresse ici aux variables aléatoires à valeurs dans R qui est muni de la tribu borélienne.
Définition 7.2.1. Une variable aléatoire réelle est une application mesurable X de (Ω, F, P) dans
(R, B(R)).
On se réfère à l’annexe 13.7.2 pour un tableau de quelques lois usuelles.

7.2.1 Intégration des variables aléatoires réelles


Moment d’ordre 1, Moment d’ordre p
Tout ce qui suit est la transposition des définitions de l’analyse fonctionnelle au contexte des variables
aléatoires ainsi que des applications du théorème de transfert.
Définition 7.2.2. Une v.a.r est dite intégrable si
Z Z
|X| dP = |x| PX (dx) < ∞.

Définition 7.2.3. Soit X une v.a.r positive ou intégrable. L’espérance de X, notée E(X) est définie par
Z Z
E(X) = X dP = x PX (dx).

Soit X une variable aléatoire à valeurs dans N, alors PX est absolument continue par rapport à la
mesure de comptage sur N et X
PX = P(X = k)δk .
k∈N

Ainsi, Z X
E(X) = X dP = k P(X = k).
Ω k≥0

Si X est une variable de densité f par rapport à la mesure de Lebesgue, cette fois-ci on calcule l’espérance
par Z Z
E(X) = X dP = xf (x)dx.
Ω R
Remarque 62. Souvent, la mesure de référence ne sera pas spécifiée et devra être comprise implicitement
à l’aide du contexte. Concrètement, ce sera la mesure de comptage sur les espaces discrets et la mesure
de Lebesgue sur R. Cela conduira à parler de v.a. discrètes et de v.a.r. à densité.
Exemple 33. Soient X, Y et Z des v.a.r. de loi uniforme standard U[0,1] , exponentielle E(λ) et de Cauchy
C(1) respectivement. Alors, X et Y sont intégrables. En effet,
Z Z
E(|X|) = 1[0,1] (x)|x| dx = 1/2 < ∞ et E(|Y |) = 1R+ (x)λe−λx |x| dx < ∞.
R R

101
De plus,
E(X) = 1/2 et E(Y ) = 1/λ.
Quant à la variable de Cauchy Z, on remarque que

|x| dx
Z
E(|Z|) = = ∞.
R π(1 + x2 )

Définition 7.2.4. Une v.a.r. X admet un moment d’ordre p, p ∈ [1, ∞), et on note X ∈ Lp , si
p
R
|X| dP < ∞. Dans ce cas, le moment d’ordre p de X est défini par
Z
E(X p ) = X p dP.

Définition 7.2.5. Soit X une v.a.r. admettant un moment d’ordre 2. La variance de X, notée V(X),
est définie par
V(X) = E[X − E(X)]2

Si l’espérance est un paramètre dit de position, la variance est un paramètre de dispersion. Il existe
d’autre paramètre en statistique (médiane, quantile, intervalle interquartile etc), cependant moyenne et
variance restent centraux eût égard notamment à la loi des grands nombres et le théorème central limite
que l’on démontrera au chapitre 12.

Proposition 7.2.6. Soit X une v.a.r. admettant un moment d’ordre 2, alors

V(X) = E(X 2 ) − E(X)2 .

Covariance et coefficient de corrélation linéaire


Définition 7.2.7. Soient X, Y deux v.a.r. admettant un moment d’ordre 2, on appelle covariance entre
X et Y la quantité Cov(X, Y ) définie par

Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))].

Le coefficient de corrélation linéaire entre les variables X et Y , noté ρ(X, Y ), est donné par

Cov(X, Y )
ρ(X, Y ) = p
V(X)V(Y )

Proposition 7.2.8. Soient X et Y deux v.a.r. admettant un moment d’ordre 2. La covariance est une
application bilinéaire symétrique vérifiant V(X) = Cov(X, X). De plus, ρ(X, Y ) ∈ [−1, 1] et ρ(X, X) = 1.
Enfin,
Cov(X, Y ) = E(XY ) − E(X)E(Y ).

Inégalité de Markov et inégalité de Bienaymé-Tchebychev


Proposition 7.2.9 (Inégalité de Markov). Soit X une v.a.r. positive. Alors pour tout λ > 0

E(X)
P(X > λ) ≤ .
λ
Proposition 7.2.10 (Inégalité de Bienaymé-Tchebychev). Soit X une v.a.r. admettant un moment
d’ordre 2. Alors pour λ > 0
V(X)
P(|X − E(X)| > λ) ≤ .
λ2
Démonstration. Remarquer que

P(|X − E(X)| > λ) = P(|X − E(X)|2 > λ2 )

et appliquer l’inégalité de Markov.

102
Proposition 7.2.11. Soit X une v.a.r. et φ : R → R une fonction convexe telles que X et φ(X) soient
intégrables. Alors φ(E(X)) ≤ E(φ(X)).
Lemme 7.2.12 (des trois cordes). Soit I un intervalle et φ : I → R une fonction convexe. Alors pour
tout a, b, c ∈ I tels que a < c < b
φ(c) − φ(a) φ(b) − φ(a) φ(b) − φ(c)
≤ ≤ .
c−a b−a b−c

x=a x=c x=b


3.5
3.0
φ(x)

2.5
2.0

0.0 0.2 0.4 0.6 0.8 1.0

Figure 7.1 – La corde “rouge” a une pente plus grande que la corde “jaune” et plus petite que la corde
“bleu”.

Démonstration. Il est assez facile de voir que ces inégalités sont en fait équivalentes à l’unique inégalité
b−c c−a
φ(c) ≤ φ(a) + φ(b).
b−a b−a
b−c
En posant t = b−a on obtient facilement que c = ta + (1 − t)b — remarquons que a ̸= b. L’inégalité
ci-dessus n’est alors qu’une traduction de la propriété de convexité.
Remarque 63. Remarquons que les inégalités des trois cordes caractérise la convexité.

Démonstration. Soit a ∈ R et définissons la fonction τa : x → φ(x)−φ(a)


x−a . Notons que τa est bien définie
sauf peut-être en a. D’après le lemme 7.2.12 des trois cordes appliqués aux trois cas a < x < y, x < a < y
et x < y < a, la fonction τa est croissante. Puisque τa (2a) et τa (a/2) sont des réels, il vient que τa admet
une limite en a à gauche φ′g (a) > −∞ et une limite à droite φ′d (a) < ∞. Il est également claire que
φ′d (a) ≥ φ′g (a) par croissance de τa .
Par définition de φ′d , pour tout x > a,
φ(x) − φ(a)
≥ φ′d (a) ⇐⇒ φ(x) ≥ φ(a) + φ′d (a)(x − a).
x−a
D’autre part, pour tout x < a :
φ(x) − φ(a)
≤ φ′g (a) ≤ φ′d (a) ⇐⇒ φ(x) ≥ φ(a) + φ′d (a)(x − a).
x−a
En posant a = E(X) et x = X, on obtient par croissance de l’intégrale
φ(X) ≤ φ(E(X)) + φ′d (E(X))(X − E(X)) =⇒ E(φ(X)) ≥ φ(E(φ(X)).

103
7.2.2 Caractérisation de la loi d’une v.a.r.
Dans cette partie, on explicite différente façon de caractériser la loi d’une v.a.r..

Fonction de répartition
Définition 7.2.13 (Fonction de répartition). Soit X une v.a.r., on appelle fonction de répartition de X
la fonction FX : R −→ [0, 1] définie pour t ∈ R par

FX (t) = PX ((−∞, t]) = P(X ∈ (−∞, t]) = P(X ≤ t).

Proposition 7.2.14. La fonction de répartition FX d’une v.a.r X est :


1. croissante à valeurs dans [0, 1] ;
2. continue à droite ;
3. limt→−∞ FX (t) = 0 et limt→∞ FX (t) = 1.
Réciproquement, pour toute fonction F vérifiant les propriétés 1,2 et 3 ci-dessus il existe une v.a.r. X
telle que FX = F .

Remarque 64. Toute fonction f : R → R croissante admet une limite à gauche et une limite à droite. En
particulier, une fonction de répartition est limitée à gauche.
Remarque 65. La réciproque de cette proposition signifie la chose suivante : si on se donne une fonction
F vérifiant les points 1,2 et 3, alors il existe un espace de probabilité (Ω, F, P) et une variable aléatoire
X de (Ω, F, P) dans (R, B(R)) tel que P(X ≤ t) = F (t) pour tout t ∈ R.

Démonstration. Vérifions les trois points.


1. Tout d’abord, puisque FX (t) = PX ((−∞, t]) est une probabilité, FX est à valeurs dans [0, 1]. La
croissance de FX est une conséquence de la croissance des mesures : si A ⊂ B, alors PX (A) ≤
PX (B).
2. La continuité à droite provient de la continuité à droite des mesures. En effet, soient t ∈ R et
(tn )n≥0 une suite de réels tels que tn > t et limn→∞ tn = t. La fonction FX est croissante donc
quitte à considérer une sous-suite, on peut supposer (tn )n≥0 décroissante. Posons An = (−∞, tn ].
La suite d’ensembles mesurables (An )n≥0 est décroissante et PX (A0 ) < ∞ puisque PX est une
probabilité. Ainsi,
 
\
PX ((−∞, t]) = PX  An  = lim PX (An ) = lim PX ((−∞, tn ]).
n→∞ n→∞
n≥0

Cela montre la continuité à droite de FX .


3. On peut considérer An avec tn = −n pour tout n ≥ 0. Alors,
 
\
lim FX (t) = PX  An  = 0.
t→−∞
n≥0

Pour la limite en ∞, on peut poser Bn = (−∞, n] et utiliser la continuité à gauche des mesures.
La réciproque est un corollaire du théorème de Stieltjes 2.2.33.

Exemple 34. La fonction de répartition X donnant la valeur numérique de la face d’une dé équilibré à
six faces est donnée pour t ∈ R par
 
1 2 3 4 5
FX (t) = 1[1,2) (t) + 1[2,3) (t) + 1[3,4) (t) + 1[4,5) (t) + 1[5,6) (t) + 1[6,∞) (t) .
6 6 6 6 6

Proposition 7.2.15. La fonction de répartition caractérise la loi d’une v.a.r. : si X et Y sont deux
v.a.r., alors FX = FY si et seulement si X et Y ont même loi.

104
Démonstration. C’est une conséquence directe du théorème 2.2.20 car

S = {(−∞, a], a ∈ R}

est un π-système (non vide et stable par intersection finie).


Lemme 7.2.16. Soit h une fonction croissante de R dans R. Alors h admet un nombre dénombrable de
discontinuités.
Les limites à gauche et à droite de h au point t ∈ R sont communément notée h(t− ) et h(t+ ). En
particulier, h est continue à droite (resp. à gauche, resp. continue) si et seulement si h(t) = h(t+ ) (resp.
h(t) = h(t− ), resp. h(t) = h(t+ ) = h(t− )).
Démonstration. L’ensemble des points de discontinuités de h s’écrit
[ [ 1

{t ∈ R : h(t+ ) − h(t− ) > 0} = t ∈ [−M, M ] : h(t+ ) − h(t− ) > .
n
M ∈N n≥1

Or supt∈[−M,M ] h(t+ ) − h(t− ) ≤ h(M + 1) − h(−M − 1) = K < ∞, donc le nombre de discontinuités de


[−M, M ] plus grande que n1 est majoré par Kn. Ainsi l’ensemble des points de discontinuités de h est
réunion dénombrable d’ensembles finis, il est dénombrable.
En particulier, l’ensemble DF = {t ∈ R : F (t)−F (t− ) > 0} des points de discontinuités de la fonction
de répartition F est dénombrable.
Définition 7.2.17 (Variables aléatoires discrètes, continues). 1. Une v.a.r. X est dite discrète si il
existe un ensemble A ⊂ R au plus dénombrable tel que P(X ∈ A) = 1.
2. Une v.a.r. X est dite continue ou diffuse si pour tout a ∈ R, P(X = a) = 0.
Ces deux propriétés peuvent être caractérisée à l’aide de la fonction de répartition.
Proposition 7.2.18. 1. Une v.a.r. X est discrète si et seulement si la somme des sauts de FX vaut
1, i.e. X
F (t) − F (t− ) = 1.
t∈DFX

2. Une v.a.r. X est continue si et seulement si la fonction de répartition FX est continue.


Démonstration. Soit X une v.a.r. et posons A = {s ∈ R : P(X = s) > 0}. Il se trouve que P(X =
s) = F (s) − F (s− ) pour tout s ∈ R, aussi A n’est rien d’autre que l’ensemble de discontinuité de FX .
De là, la v.a.r. X est continue si et seulement si P(X ∈ A) = 0 ; elle est discrète si et seulement si
P(X ∈ A) = 1.

Densité de probabilité
Une v.a.r. X est dite à densité si elle est à densité par rapport à la mesure de Lebesgue. Pour une
v.a.r. X à densité f , sa fonction de répartition FX se calcule, par définition d’une mesure à densité, pour
t ∈ R par Z Z t
FX (t) = PX ((−∞, t]) = 1(−∞,t] f dλ = f (x) dx.
−∞

Proposition 7.2.19. Soit X une v.a.r. à densité f . On note F sa fonction de répartition. Alors F est
continue sur R et est dérivable presque-partout. Sa dérivée est presque partout égale à f .
Démonstration. Puisque F est une fonction de répartition, F est continue à droite. Il reste donc à montrer
que F est continue à gauche. Soit t ∈ R et (tn )n≥0 une suite de réels qui converge vers t et telle que
tn ≤ x pour tout n ≥ 0. Alors, on vérifie facilement que f 1(−∞,tn ] converge simplement vers f 1(−∞,t)
donc vers f 1(−∞,t] presque partout (par rapport à la mesure de Lebesgue). De plus, 0 ≤ f 1(−∞,tn ] ≤ f
qui est intégrable (c’est une densité de probabilité). Le théorème de convergence dominée implique
Z Z
lim F (tn ) = lim f 1(−∞,tn ] dλ = f 1(−∞,t] dλ = F (t).
n→∞ n→∞

105
La seconde partie de la proposition n’est en fait rien d’autre que le théorème de différentiation de
Lebesgue. Sa preuve est un peu plus fine et fait intervenir l’inégalité maximale de Hardy-Littlewood. On
pourra se référer à [Rud87] pour la preuve complète.

Exemple 35. La loi d’une variable aléatoire X exponentielle de paramètre λ > 0, notée E(λ) est ca-
ractérisée par sa densité définie par

fX (x) = 1R+ (x) λe−λx , x ∈ R.

Sa fonction de répartition est donc


Z t
fX (x) dx = 1R+ (t) 1 − e−λt ,
 
FX (t) = t ∈ R.
−∞

Proposition 7.2.20. La loi d’une v.a.r. X à densité est caractérisée par sa densité de probabilité : si
X et Y ont pour densité fX et fY respectivement alors fX = fY presque partout si et seulement si X et
Y ont même loi.

Démonstration. Ce résultat est un corollaire de la proposition 7.1.4.

Puisqu’une fonction de répartition est dérivable presque partout, on pourrait penser de prime abord
que la dérivée (définie seulement presque partout néanmoins) est une densité de probabilité. Ceci n’est
pas vrai en général comme le montre l’exemple suivant.
Exemple 36. Soit F la fonction réelle définie par :

 0,

t<0
F (t) =
 1, t ≥ 0.

On vérifie facilement que c’est une fonction de répartition. Elle est dérivable presque partout (en fait
partout sauf en 0) et la dérivée est la fonction nulle presque partout (sauf en 0 également). Il est bien
évident que cette fonction dérivée n’est pas une densité de probabilité.
La fonction de répartition de l’exemple 36 est celle de la masse de Dirac en 0. Autrement dit, une
v.a.r. X admettant la fonction de répartition F de l’exemple 36 satisfait P(X = 0) = 1, c’est une variable
purement discrète.
L’exemple suivant est encore plus fin : on construit une fonction de répartition continue dont la v.a.r.
correspondante n’est pas à densité.
Exemple 37 (Escalier de Cantor). L’escalier du diable, ou l’escalier de Cantor se construit comme une
limite uniforme de fonctions continues. Plus précisément, on définit (fn )n≥0 une suite de fonction continue
sur [0, 1] par récurrence — c.f. Figure 7.2 :
— f0 (x) = x, x ∈ [0, 1] ;
— on construit fn+1 à partir de fn en remplaçant fn sur chaque intervalle d’intérieur non vide [u, v]
qui ne contient pas de plateaux de fn par une fonction affine par morceaux qui est constante égale
à fn (u)+f
2
n (v)
sur le tiers central de [u, v].
Par construction, fn+1 et fn ne différent que sur les intervalles non vides [u, v] ne contenant pas de
plateaux de fn . Un tel intervalle sépare les extrémités de deux plateaux successifs de fn dont la hauteur
est de 2−n (on divise par 2 étape par étape). Ainsi, pour tout x ∈ [0, 1] et tout n ∈ N,

|fn+1 (x) − fn (x)| ≤ 2−n .


P
Il vient que la séries (fn+1 − fn ) converge donc uniformément. Ainsi, la suite (fn )n≥0 converge uni-
formément vers une fonction f continue monotone croissante. La fonction f est appelée escalier du
diable.
Soit F : R −→ R supposée nulle sur (−∞, 0], constante égale à 1 sur [1, ∞) et égale à l’escalier du
diable, c’est à dire f , sur [0, 1]. Du fait de ce que l’on vient de montrer, F est une fonction de répartition.

106
1.0

1.0
0.8

0.8
0.6

0.6
0.4

0.4
0.2

0.2
0.0

0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

(a) Étape 0. (b) Étape 1.


1.0

1.0
0.8

0.8
0.6

0.6
0.4

0.4
0.2

0.2
0.0

0.0

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

(c) Étape 2. (d) Étape 3.


1.0

1.0
0.8

0.8
0.6

0.6
0.4

0.4
0.2

0.2
0.0

0.0

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

(e) Étape 4. (f) Étape 5.

Figure 7.2 – La fonction f0 est l’identité de [0, 1] dans [0, 1]. À l’étape n + 1, on subdivise chaque
intervalle sur lesquels fn n’est pas constante en trois sous-intervalles de même longueur. Alors fn+1 est
constante sur le sous-intervalle central alors qu’elle est affine sur les deux autres sous-intervalles de sorte
que fn+1 soit continue.

107
La fonction F est la fonction de répartition d’une v.a.r. X continue mais comme on va le montrer
tout de suite elle n’est pas à densité. En effet, la fonction f est dérivable au moins sur les plateaux Pn
des fonctions fn . Or,  
[ X 1  2 n
λ  Pn = ,
3 3
n≥0 n≥0

ce qui montre que f est dérivable presque partout et f ′ est presque partout nulle.
En fait, il faut revenir au théorème de Radon-Nikodym : la mesure PX admet une densité de pro-
babilité par rapport à la mesure de Lebesgue (qui est σ-finie) si PX ≺ λ. Il est d’ailleurs clair que la
mesure définie par l’exemple 37 n’est pas absolument continue par rapport à la mesure de Lebesgue, on
dit qu’elle est singulière. Rappelons la notion d’absolue continuité pour les fonctions.
Définition 7.2.21. Soit I = [a, b] un intervalle. La fonction F : [a, b] → R est dite absolument continue
si pour tout réel ε > 0, il existe δ > 0 et ([an , bn ])n≥0 des sous-intervalles de I d’intérieurs disjoints tels
que X X
(bn − an ) ≤ δ =⇒ |F (an ) − F (bn )| ≤ ε.
n≥0 n≥0

Proposition 7.2.22. Une v.a.r. X admet une densité si et seulement si sa fonction de répartition FX
est localement absolument continue.

Remarque 66. En pratique, le plus simple reste donc de vérifier que le candidat naturel, à savoir FX , qui
existe presque partout, est effectivement une densité.

Caractérisation fonctionnelle d’une loi


La caractérisation suivante est très utile pour, connaissant la loi d’une v.a.r. X, déterminer la loi
d’une nouvelle variable aléatoire φ(X) où φ est une fonction numérique réelle donnée.
Proposition 7.2.23. Deux v.a.r. X et Y suivent la même loi si et seulement si pour toute fonction
g : R → R mesurable bornée
E(g(X)) = E(g(Y )).
Démonstration. C’est un corollaire immédiat de 7.1.3.

Fonctions génératrices
Lorsque X est une variable aléatoire à valeurs dans N, on peut définir la notion de fonction génératrice
X
∀z ∈ C : GX (z) = E(z X ) = P(X = k)z k .
k≥0

Le rayon de convergence de cette série entière est plus grand que 1.


Proposition 7.2.24. Si X et Y sont deux variables aléatoires à valeurs dans N, alors X et Y ont même
loi si et seulement si GX (z) = GY (z) pour tout z ∈ C tel que |z| < 1.
Démonstration. Il suffit de montrer que, pour tout k ≥ 0, P(X = k) = P(Y = k). Ces quantités sont les
coefficients d’une série entière et peuvent s’exprimer à l’aide des dérivées successives
Exercice 29. Soit X une variable aléatoire à valeurs dans N admettant un moment d’ordre 2. Exprimer
les moments d’ordre 1 et d’ordre 2 en fonction des fonctions génératrices.

7.2.3 Exemples de calcul de lois


L’objectif de ce paragraphe est de donner quelques méthodes de calcul de lois de probabilité : on se
donne une v.a.r. X de loi connue et une fonction φ : R −→ R — a priori arbitraire même si en général
on la suppose assez régulière — et on cherche à calculer la loi de φ(X).
La méthode de calcul dépend essentiellement de la caractérisation de la loi que l’on choisit, laquelle
dépend du problème que l’on traite. On donne ici deux exemples concrets.

108
À l’aide de la fonction de répartition
Commençons par un exemple très simple : on se donne une variable aléatoire X de loi uniforme sur
[0, 1] et on cherche à calculer la loi de X 2 .
La fonction de répartition de X est donnée par FX définie pour t ∈ R




 0 t<0

FX (t) = t t ∈ [0, 1)



 1 t≥1

On cherche à calculer la fonction de répartition de X 2 :


√ √ √ √
FX 2 (t) = P(X 2 ≤ t) = 1[0,∞) (t)P(X ∈ [− t; t]) = 1[0,∞) (t)P(X ≤ t) = 1[0,∞) (t)FX ( t).
Il arrive parfois que l’on tombe sur une loi remarquable, ce n’est pas le cas ici. Il n’en reste pas moins
que la loi a été caractérisée : la fonction FX est déterminée.
Notons que la fonction de répartition de X 2 est continue, on peut se poser la question de l’existence
d’une densité. En dérivant 



 0 t<0
 √
′ −1
f (t) = FX 2 (t) = t ∈ [0, 1)
 (2 t)


 0 t≥0

On vérifie facilement que f est une densité.


Rappelons que la fonction de répartition — on la notera φ dans toute la suite — de la loi normale
centrée réduite n’est pas explicite, néanmoins il est possible de calculer la densité de X 2 lorsque X suit
une N (0, 1) à l’aide de la méthode impliquant la fonction de répartition. En effet,
√ √ √ √
 
FX 2 (t) = P(X 2 ≤ t) = 1[0,∞) (t)P(X ∈ [− t; t]) = 1[0,∞) (t) φ( t) − φ(− t) .

Puis on dérive :
′ 1[0,∞) (t) −t/2
f (t) = FX 2 (t) =√ e
2πt
On vérifie que f est une densité. En fait c’est la densité d’une loi connue appelée loi du χ2 (1). On
généralisera ce résultats dans un prochain chapitre ce qui fera apparaı̂tre la loi du chi-deux à d degrés
de liberté notée χ2 (d).

À l’aide de la densité
Cette méthode consiste à utiliser le résultat de la proposition 7.2.23 qui caractérise la loi d’une variable
aléatoire à l’aide de fonctions tests. Reprenons l’exemple d’une v.a.r. X de loi normale centrée réduite
2
dont on cherche à calculer la loi du carré X 2 . La densité de N (0, 1) est donnée par f (x) = (2π)−1/2 e−x /2 ,
x ∈ R.
Soit g : R −→ R une fonction borélienne bornée et calculons en utilisant un argument de parité
Z Z ∞
E(g(X 2 )) = g(x2 )f (x) dx = 2 g(x2 )f (x) dx.
R 0
2
Par le théorème de changement de variable en posant y = x , on obtient
Z ∞ Z ∞
e−y/2
Z
p dy
2 g(x2 )f (x) dx = 2 g(y)f ( (y)) √ = 1[0,∞) (y)g(y) √ dy.
0 0 2 y R 2πy
On identifie alors à l’aide de la proposition 7.2.23 la densité de X 2 , à savoir
e−y/2
h(y) = 1[0,∞) (y) √ ,
2πy
soit le résultat montré dans la section précédente

109
Remarque 67. À la première ligne de calcul, l’intégrale sur R a été coupée en deux de sorte que la fonction
x −→ x2 est un difféomorphisme de (0, ∞) −→ (0, ∞) et (−∞, 0) −→ (0, ∞) respectivement. Ainsi, il
n’est pas utile que la fonction φ considérée soit un difféomorphisme globale.
Notons également que, quoiqu’il arrive, x −→ x2 n’est pas un difféomorphisme en 0, c’est pourquoi
il a été retiré du domaine. Cela ne pose pas de problème car P(X = 0) = 0 donc la valeur de l’intégrale
ne change pas.

7.2.4 Classification des lois de probabilités sur R


La preuve de 7.2.18 a montré que la loi de toute v.a.r. est un mélange d’une loi discrète et d’une
loi continue. L’exemple 37, quant à lui, illustre qu’une loi continue peut être singulière à la mesure de
Lebesgue. Cette section vise à donner la décomposition d’une loi en une partie absolument continue (i.e.
à densité par rapport à Lebesgue), une partie discrète et une partie singulière.

Théorème 7.2.25. Soient µ et ν deux probabilités sur (R, B(R)). Alors ν = f · µ + µ0 où µ0 ⊥ µ. De
plus, cette décomposition est unique.

Démonstration. C’est unR peu la même idée que pour le théorème 6.3 de Radon-Nikodym : on considère
2
la forme linéaire f → R f dν continue sur L (ν + µ). Nous obtenons donc l’existence d’une fonction
g ∈ L2 (ν + µ) telle que f dν = f g d(ν + µ) si bien que
R

Z Z
f (1 − g) dν = f g dµ.

En considérant des fonctions bien choisies, on monte que g, 1 − g ≥ 0, (ν + µ)-p.p. si bien que g(x) ∈ [0, 1]
pour tout x quitte à la modifier sur un ensemble de mesure nulle. En posant B = {g = 1} on déduit
Z Z Z
ν(B) = 1B dν = g1B d(ν + µ) = 1B d(µ + µ) = µ(B) + ν(B),

et µ(B) = 0. On pose µ0 = ν(· ∩ B) alors µ0 et µ sont étrangères. On vérifie alors facilement que ν(· ∩ B ∁ )
g
est à densité f = 1−g 1B ∁ .

Corollaire 7.2.26. Soit µ une mesure σ-finie sur (R, B(R)). Alors toute mesure de probabilité ν sur
(R, B(R)) s’écrit de façon unique comme f · µ + µ0 où f ∈ L1R (µ) est positive et µ0 ⊥ µ.

Démonstration. Il s’agit de généraliser le théorème précédant à une mesure de référence σ-finie. Cela se
fait comme dans le théorème 6.3 de Radon-Nikodym.

En posant µ = λ la mesure de Lebesgue, l’application de ce corollaire à la loi ν = PX d’une v.a.r.


implique l’existence d’une fonction f positive λ-intégrable et d’une mesure positive µ0 étrangère à λ telle
que PX = f · λ + µ0 . En appliquant les arguments de 7.2.18 à µ0 on montre facilement que toute mesure
de probabilité ν sur (R, B(R)) se décompose de façon unique en une combinaison convexe de trois lois
étrangères : une loi absolument continue par rapport à la mesure de Lebesgue, une loi discrète et une loi
singulière.

7.2.5 Simulation de lois


Commençons par un cas simple : soit F une fonction de répartition supposée continue strictement
croissante. On considère U une variable aléatoire uniforme sur [0, 1] et on pose X = F −1 (U ). Alors, pour
t∈R
P(X ≤ t) = P(F −1 (U ) ≤ t) = P(U ≤ F (t)) = F (t),
car F est croissante. Ainsi, pour générer des nombres aléatoires suivant une loi dont la fonction de
répartition est continue strictement croissante, il suffit de savoir générer des nombres suivant une loi
uniforme dans [0, 1].
Exemple 38. Soit X ∼ E(λ) alors sa fonction de répartition est donnée, pour tout t ∈ R, par F (t) =
(1−e−λt )1[0,∞) (t). Pour p ∈ (0, 1), on obtient F −1 (p) = − 1−p
λ et Y = F
−1
(U ), où U est une loi uniforme
sur [0, 1], suit une loi exponentielle de paramètre λ > 0.

110
Remarque 68. Si F est une fonction croissante de R dans R alors

lim F (x) = sup F (x) ∈ R ∪ {±∞} et lim F (x) = inf F (x) ∈ R ∪ {±∞}.
x→∞ x∈R x→−∞ x∈R

On notera ces limites F (∞) et F (−∞) respectivement.


Afin de généraliser à une fonction de répartition arbitraire F , il est nécessaire d’introduire la fonction
quantile notée H et définie pour tout p ∈ [0, 1] par

H(p) = inf{x ∈ R : F (x) ≥ p}, inf ∅ = ∞ et inf R = −∞.

En particulier, H(0) = −∞, H(1) ∈ R ∪ {∞} et pour tout p ∈ (0, 1), H(p) ̸= ±∞.
Proposition 7.2.27. Soit F une fonction de répartition et H la fonction quantile associée. Alors,
1. La fonction H est croissante et continue à gauche sur (0, 1]. De plus, pour tout x ∈ R et p ∈ [0, 1],
F (x) ≥ p si et seulement si x ≥ H(p).
2. Pour tout p ∈ [0, 1], F ◦ H(p) ≥ p avec égalité si H(p) > −∞ et F continue en H(p).
3. Soit U une variable aléatoire de loi uniforme sur [0, 1]. Alors la fonction de répartition de H(U )
est égale à F .
4. Soit X une variable aléatoire à valeurs dans R de fonction de répartition F . Si F est continue
alors F (X) suit une loi uniforme sur [0, 1].
Démonstration. Pour tout p ∈ [0, 1], on note Ap = {x ∈ R : F (x) ≥ p}.
1. On commence par démontrer l’équivalence du point 1 : soit x ∈ R et p ∈ (0, 1]. Par définition
de H(p), si F (x) ≥ p alors x ≥ H(p). Réciproquement, soient x ≥ H(p) et (xn )n≥0 une suite de
points de Ap qui converge vers H(p). Alors, ou bien x > H(p) et il existe N ≥ 0 tel que, pour tout
n ≥ N , H(p) ≤ xn ≤ x si bien que p ≤ F (xn ) ≤ F (x) par croissance de F ; ou bien x = H(p) et
par continuité à droite de F , p ≤ F (xn ) → F (x).
Si p, q ∈ [0, 1] sont tels que p ≤ q, alors par croissance de F , Aq ⊂ Ap et H(p) ≤ H(q).
Soit (pn )n≥0 une suite croissante de points de [0, 1] convergeant vers p ∈ (0, 1]. Par croissance
de H, la suite (H(pn ))n≥0 est croissante et admet une limite ℓ ≤ H(p). Il s’agit de montrer que
ℓ = H(p). Supposons au contraire que ℓ < H(p). Alors, d’une part F (ℓ) < p et d’autre part
par l’équivalence ci-dessus F (ℓ) ≥ pn pour tout n ≥ 0. En passant à la limite, on obtient la
contradiction voulue.
2. Soit p ∈ [0, 1] tel que H(p) ∈ R alors partant de H(p) ≥ H(p), on obtient de l’inégalité précédente
F ◦ H(p) ≥ p. Nous avons par ailleurs H(p) = ∞ lorsque p = 1 et l’inégalité est trivialement
satisfaite. De même, si H(p) = −∞ alors p = 0 et encore une fois l’inégalité est trivialement
satisfaite.
Supposons que H(p) > −∞. Soit ε > 0, puisque H(p) minore Ap , H(p) − ε ∈ / Ap . Par conséquent,
F (H(p)−ε) ≤ p. Puisque F est supposée continue en H(p), on obtient F (H(p)) = limε→0 F (H(p)−
ε) ≤ p.
3. Soit U une variable aléatoire de loi uniforme sur [0, 1]. D’après l’équivalence du point 1, pour tout
x∈R:
P(H(U ) ≤ x) = P(U ≤ F (x)) = F (x).
4. Les variables aléatoires X et H(U ) sont identiquement distribuées. Ainsi, F (X) a même loi que
F (H(U )), or F (H(U )) = U car F est continue et X est finie presque-sûrement.

Exemple 39. Considérons le cas le plus simple d’une variable aléatoire X suivant une loi de Bernoulli de
paramètre q ∈ (0, 1). Alors sa fonction de répartition est donnée par

F (t) = (1 − q)1[0,1) (t) + 1[1,∞) (t) et H(p) = (−∞)1p=0 + 1(1−q,1] (p).

Si U ∼ U[0, 1], P(U = 0) = 0 si bien que l’on peut considérer H(U


e ) où H(p)
e = 1(1−q,1] (p). De même on
pourra fermer l’intervalle dans l’indicatrice sans changer la loi.
Dans cet exemple très simple, on constate que H(U ) est à valeurs dans {0, 1} et P(H(U ) = 1) =
P(U ∈ (1 − q, 1]) = q.

111
7.3 Vecteurs aléatoires
Très souvent il est utile de considérer non pas des variables aléatoires réelles unidimensionnelles mais
des vecteurs aléatoires de Rd . Soit parce que le problème considéré fait naturellement intervenir un
vecteur (une position dans l’espace), soit parce que l’on répète d fois une expérience aléatoire. La suite
de ce chapitre consiste simplement à adapter les notions au cadre multidimensionnel.

7.3.1 Généralités
Définition 7.3.1. On appelle vecteur aléatoire ou variable aléatoire multivariée toute application me-
surable X : (Ω, F, P) −→ (Rd , B(Rd )).

Sauf mention contraire, la base de Rd choisie sera la base canonique. Comme dans le cas déterministe,
on peut écrire, dans la base canonique {ei , i = 1, . . . , d},
d
X
X= Xi ei
i=1

où la i-ième coordonnée Xi est une v.a.r..


Dans toute la suite, en terme de notation, on choisit la convention vecteur colonne comme c’est l’usage
en algèbre linéaire. Cependant, pour des raisons typographiques on écrira souvent X = (X1 , . . . , Xd ). Si
A est une matrice représentant un morphisme linéaire de Rd dans Rq , alors AX est un vecteur de Rq .
L’adjoint d’une matrice (ou d’un vecteur vu comme une matrice) sera noté A∗ .
Rappelons que la tribu borélienne de Rd est engendrée par les pavés de la forme (a1 , b1 )×· · ·×(ad , bd ),
ai , bi ∈ R, i = 1, . . . , d. Autrement dit, B(Rd ) = B(R)⊗d .

7.3.2 Loi d’un vecteur aléatoire, lois marginales


Définition 7.3.2. La loi d’un vecteur aléatoire X est la probabilité sur (Rd , B(R)⊗d ), notée PX , définie
par
PX (A) = P(X ∈ A), A ∈ B(R)⊗n .

Soit X = (X1 , . . . , Xn ) un vecteur aléatoire dans Rd de loi PX . La ième loi marginale, notée PXi est
la probabilité image réciproque de PX par la projection sur la ième coordonnée. Plus concrètement, si
A ∈ B(R),
Xi−1 (A) = R × · · · × R ×A × R × · · · × R
| {z } | {z }
i−1 d−i

et PXi (A) = PX (Xi−1 (A)). Ainsi, connaissant la loi d’un vecteur aléatoire X, on peut déterminer la loi
de chaque marginale Xi .
Par contre, on ne peut pas, connaissant chaque loi marginale, déterminer la loi du vecteur aléatoire
X. La loi PX possède intrinsèquement plus d’information que les PXi prises toutes ensembles. En fait,
il manque de l’information sur la façon dont les marginales dépendent les unes des autres.

7.3.3 Moments
On munit Rd d’une norme notée | · | ou | · |p , p ∈ [1, ∞] si l’on veut préciser.

Définition 7.3.3. Un vecteur aléatoire X ∈ Rd admet un moment d’ordre q ≥ 1 si


Z
q
E(|X| ) = |X|q dP < ∞

Définition 7.3.4 (Moyenne, Variance-Covariance). Si un vecteur aléatoire X ∈ Rd admet un moment


d’ordre 1, l’espérance de X, notée E(X) est définie par
Z
E(X) = X dP ∈ Rd .

112
Si X admet un moment d’ordre 2, la matrice de Variance-Covariance, ou plus simplement matrice de
covariance, est définie par
Σ(X) = E[(X − E(X))(X − E(X))∗ ] ∈ Md (R).
Remarque 69. Rappelons que nous utilisons la notation des vecteurs en colonne si bien que Σ(X) est
bien une matrice de taille d × d.
Remarque 70. Les moments d’ordre supérieurs, en général moins utilisé, ne peuvent s’écrire aussi syn-
thétiquement.

7.3.4 Lois à densité


L’espace mesurable (Rd , B(Rd )) est naturellement muni de la mesure de Lebesgue d-dimensionnelle
notée λd . La définition suivante découle directement de ce fait.
Définition 7.3.5. Un vecteur aléatoire X = (X1 , . . . , Xd ) est dit à densité si il existe une fonction
f ∈ L1 (λd ) positive vérifiant Z
f dλd = 1
Rd
telle que pour tout borélien A ∈ B(Rd )
Z
PX (A) = P(X ∈ A) = 1A f dλd .
Rd

Proposition 7.3.6. La loi d’un vecteur aléatoire à densité est caractérisé par sa densité de probabilité :
si X et Y sont deux vecteurs aléatoires de Rd de densités respectives fX et fY alors X et Y ont même
loi si et seulement si fX = fY λd -p.p..
Démonstration. C’est un corollaire de la proposition 7.1.4.
Proposition 7.3.7. Soit X = (X1 , . . . , Xd ) ∈ Rd un vecteur aléatoire à densité fX . Alors pour tout
i = 1, . . . , d, la marginale Xi est une v.a.r. à densité. De plus la densité fXi de Xi est donnée par
Z
fXi (x) = fX (x1 , . . . , xi−1 , x, xi+1 , . . . , xd ) λd−1 (dx1 , . . . , dxi−1 , dxi+1 , . . . , dxd ).
Rd−1

Démonstration. Il suffit évidemment de considérer le cas d = 2. Soit A ∈ B(R), alors le théorème de


Fubini implique
Z Z Z
PX1 (A) = PX (A × R) = 1A×R (x, y)fX (x, y) λ2 (dx, dy) = 1A f (x, y) λ(dy) λ(dx).
R2 R
|R {z }
=fX1 (x)

La densité fX2 se calcule de la même façon.

7.3.5 Fonction de répartition


On peut en dimension supérieure définir une notion de fonction de répartition même si celle-ci n’est
que peu utile bien souvent car Rd , pour d ≥ 2, n’admet plus d’ordre total naturel.
Définition 7.3.8. La fonction de répartition d’un vecteur X ∈ Rd est la fonction FX : Rd −→ [0, 1]
définie pour t = (t1 , . . . , td ) ∈ Rd par
FX (t1 , . . . , td ) = PX (X1 ≤ t1 , . . . , Xd ≤ td ).
Remarque 71. Dans ce cas encore, il y a une distinction entre variable à densité et variable continue.
Comme dans le cas unidimensionnel, une variable à densité est continue mais la réciproque est fausse.
Proposition 7.3.9. Deux vecteurs aléatoires X, Y ∈ Rd ont même loi si et seulement si FX = FY .
Démonstration. C’est une conséquence directe du théorème 2.2.20 car
S = {(−∞, a1 ] × · · · × (−∞, ad ], (a1 , . . . , ad ) ∈ Rd }
est un π-système (non vide et stable par intersection finie).

113
7.3.6 Transformation des vecteurs aléatoires à densité
Comme dans le cas des variables aléatoires réelles, se donnant un vecteur aléatoire X = (X1 , . . . , Xd )
de loi connue et une fonction φ : Rd → Rp , on cherche à déterminer la loi de φ(X). Pour ce faire, on
peut faire usage du théorème de changement de variable comme l’illustre l’exemple suivant.
Exemple 40. Soit (X, Y ) un vecteur aléatoire dont la loi est donnée par sa densité
h(x, y) = 1R+ ×R+ (x, y)λµe−λx e−µy .
On verra par la suite qu’en fait c’est un couple de variables aléatoires indépendantes de lois exponentielles
d’intensités λ et µ respectivement. On cherche à calculer la loi de (X + Y, X − Y ). Autrement dit, si
Z = (X, Y ) et φ : R2 → R2 est définie par φ(x, y) = (x + y, x − y), on cherche à déterminer la loi de
φ(Z).
On utilise la caractérisation fonctionnelle de la loi. Pour cela, notons (u, v) = φ(x, y) = (x + y, x − y)
et donnons nous une fonction g : R2 → R mesurable bornée. On calcule,
Z
E[g(φ(Z))] = E(g(X + Y, X − Y )) = g(x + y, x − y)h(x, y) dxdy.
R2

On fait le changement de variables (u, v) = (x + y, x − y) qui s’inverse par (x, y) = ((u + v)/2, (u − v)/2).
Il est clair que φ est un C 1 -difféomorphisme de R2 , c’est en fait un automorphisme linéaire. Le jacobien
de φ−1 est donné par  
1/2 1/2 
det Jacφ−1 (u, v) =  
1/2 −1/2
Le théorème de changement de variable donne
 
u+v u−v
Z
dudv
E[g(φ(Z))] = g(u, v)h , .
R2 2 2 2
Par la caractérisation avec des fonctions tests, on identifie la densité de (U, V ) = (X + Y, X − Y ) : elle
est donnée par
 
u+v u−v λµ
h(X+Y,X−Y ) (u, v) = h , = 1u+v≥0 (u)1u−v≥0 e−(λ+µ)u/2 e−(λ−µ)v/2
2 2 8
que l’on peut simplifier en
λµ −(λ+µ)u/2 −(λ−µ)v/2
h(X+Y,X−Y ) (u, v) = 1u≥0 1−u≤v≤u e e .
2
En exercice complémentaire, on peut donner la densité de X + Y , pour ce faire il suffit d’intégrer par
rapport à v. Lorsque λ ̸= µ,
Z
λµ
hX+Y (u) = 1u≥0 1−u≤v≤u e−(λ+µ)u/2 e−(λ−µ)v/2 dv
R 2
λµ −(λ+µ)u/2 u −(λ−µ)v/2
Z
= 1u≥0 e e dv
2 −u
λµ h i λµ  −µu
e−(λ+µ)u/2 e(λ−µ)u/2 − e−(λ−µ)u/2 = 1u≥0 − e−λu .

= 1u≥0 e
(λ − µ) (λ − µ)
Lorsque λ = µ, on obtient :
µ2 −µu u
Z Z
λµ −(λ+µ)u/2
hX+Y (u) = 1u≥0 1−u≤v≤u e dv = 1u≥0 e dv = 1u≥0 µ2 ue−µu .
R 2 2 −u

On finit cette partie sur une proposition dans laquelle est insérée une remarque importante. Si au
lieu de déterminer la loi (X + Y, X − Y ), on se pose la question de la loi de X + Y seulement, le
théorème de changement variables n’est pas applicable directement du fait d’un problème de dimension :
(x, y) → x + y n’est pas injective. La solution consiste à ajouter une dimension en étudiant, par exemple,
la loi de (X + Y, X) et à intégrer par rapport à la seconde variable pour obtenir la loi de X + Y . Le
choix de l’ajout de variable n’est pas unique mais il faut bien entendu rester dans la simplicité tout en
conservant l’injectivité du changement de variable.

114
Chapitre 8

Indépendance

8.1 Tribus indépendantes


Définition 8.1.1. Une famille (Fi )i∈I de sous-tribus de F est dite indépendante si pour tout J ⊂ I fini
et  
Y \ Y
∀(Aj )j∈J ∈ Fj =⇒ P  Aj  = P(Aj ).
j∈J j∈J j∈J

Une famille (Ai )i∈I d’événements est indépendante si la famille des tribus correspondantes (σ(Ai ))i∈I
est indépendante.

À toute fin utile, on rappelle que pour A ∈ F on a σ(A) = {∅, Ω, A, A∁ }.


Remarque 72. Il existe une notion plus faible appelée indépendance deux à deux. Des événements (Ai )i∈I
sont indépendants deux à deux si pour tout i ̸= j ∈ I

P(Ai ∩ Aj ) = P(Ai )P(Aj ).

La notion d’indépendance de la définition 8.1.1 est parfois appelée indépendance mutuelle. Sauf mention
contraire, lorsque nous parlerons d’indépendance sans autre précision, il s’agira toujours de la notion
définie en 8.1.1
Exemple 41. On lance deux fois une pièce de monnaie. On considère les événements

A = {“pile au 1er lancé”}, B = {“face au 2e lancé”}, C = {“même tirage au deux lancés”}.

On vérifie facilement que


— P(A) = P(B) = P(C) = 1/2,
— P(A ∩ B) = P(A)P(B), P(A ∩ C) = P(A)P(C) et P(B ∩ C) = P(B)P(C),
mais que P(A ∩ B ∩ C) = 0.
La proposition suivante, très utile en pratique, introduit une notion d’indépendance par paquet.

Proposition 8.1.2. Soit (Fi )i∈I une famille de tribus indépendantes. Soit (Ik )k∈K une partition de I.
On note Uk la tribu engendrée par les la famille (Fi )i∈Ik , k ∈ K, autrement dit Uk = σ(Fi , i ∈ Ik ).
Alors, la famille (Uk )k∈K est indépendante.

Démonstration. On utilise les deux lemmes ci-dessous

Lemme 8.1.3. Soit (Fi )i∈I une famille de sous-tribus. On suppose que pour tout i ∈ I, la tribu Fi est
engendré par un π-système Ci contenant Ω. La famille (Fi )i∈I est indépendante si et seulement si pour
tout J ⊂ I fini  
Y \ Y
∀(Aj )j∈J ∈ Cj : P Aj  = P(Aj ). (8.1)
j∈J j∈J j∈J

115
Démonstration. Soit J ⊂ I un sous-ensemble fini d’indices. Si J = ∅ alors l’égalité (8.1) est trivialement
satisfaite. Supposons donc J ̸= ∅. On se donne une énumération de J, c’est à dire J = {j1 , . . . , jk } où
k = card J. Pour r = 0, . . . , k, on définit la propriété (Pr ) suivante : l’égalité (8.1) est satisfaite pour
tout Ai ∈ Fi , 1 ≤ i ≤ r, et tout Ai ∈ Ci , r < i ≤ k. On va montrer que la propriété (Pr ) est vraie pour
tout r ∈ {0, . . . , k}.
La propriété (P0 ) est vraie par hypothèse. Supposons que (Pr−1 ) est vraie et montrons que (Pr ) est
vraie. Pour cela, considérons
( r−1 k
Y Y
D = B ∈ Fr : ∀(Ai )1≤i≤r−1 ∈ Fi , (Ai )r+1≤i≤k ∈ Ci ,
i=1 i=r+1
r−1 k
! r−1
! k
!)
Y Y Y Y
P Ai × B × Ai = P(Ai ) P(B) P(Ai ) .
i=1 i=r+1 i=1 i=r+1

Montrons que D est un λ-système. Par hypothèse de récurrence (Pr−1 ) et puisque Ω ∈ Cr , on déduit que
Ω ∈ D. Soient B, C ∈ D tels que B ⊂ C. On note
r−1
\ k
\
A− = Ai et A+ = Ai .
i=1 i=r+1

Alors,
P(A− ∩ (C \ B) ∩ A+ ) = P(A− ∩ C ∩ A+ ) − P(A− ∩ B ∩ A+ ).
Puis, comme B, C ∈ D, on obtient
Y Y
P(A− ∩ (C \ B) ∩ A+ ) = [P(C) − P(B)] P(Ai ) = P(C \ B) P(Ai ),
i̸=r i̸=r

d’où C \ B ∈ D. Soit maintenant (Bn )n≥0 ∈ DN une suite croissante, en notant B = ∪n≥0 Bn , on a
Y Y
P(A− ∩ B ∩ A+ ) = lim P(A− ∩ Bn ∩ A+ ) = lim P(Bn ) P(Ai ) = P(B) P(Ai ).
n→∞ n→∞
i̸=r i̸=r

Ainsi, B ∈ D. On conclut que D est un λ-système qui contient le π-système Cr , donc contient σ(Cr ) = Fr .
La propriété (Pr ) est donc vraie. Par récurrence, (Pk ) est vraie et ce indépendamment de l’énumération
de J choisie. Ceci finit la preuve du lemme.

et
Lemme 8.1.4. Soit (Fi )i∈I une famille de sous-tribus. Alors,
 
\ 
C= Aj : Aj ∈ Fj , J ⊂ I fini (8.2)
 
j∈J

est un π-système, contenant Ω, qui engendre la tribu σ(Fi : i ∈ I).


Démonstration. Puisque Ω ∈ Fi pour tout i ∈ I, on déduit que Ω ∈ C si bien que C ̸= ∅. Soit A, B ∈ C,
alors, il existe JA , JB ⊂ I des sous-ensembles finis d’indices et des ensembles Cj ∈ Fj , j ∈ JA , et des
ensembles Dℓ ∈ Fℓ , ℓ ∈ JB tels que
\ \
A= Cj et B = Dℓ .
j∈JA ℓ∈JB

Par conséquent, \ \
A∩B = Cj ∩ Dℓ ∈ C,
j∈JA ℓ∈JB

quitte à rassembler les ensembles qui sont dans la même sous-tribus. Donc C est un π-système qui contient
Ω. Clairement, Fi ⊂ C pour tout i ∈ I si bien que σ(Fi , i ∈ I) ⊂ σ(C).

116
Plus précisément, pour tout k ∈ K, Uk est engendré par le π-système Ck définit par (8.2) où l’on a
remplacé I par Ik . Ces π-systèmes contiennent Ω. Soit J ⊂ K un sous-ensemble fini, par indépendance
de la famille (Fi )i∈I , l’égalité (8.1) est satisfaite. Ceci conclut la preuve de la proposition.

8.2 Lemme de Borel-Cantelli


On rappelle les définitions pour (Bn )n≥0 une suite d’événements mesurables
\ [ [ \
lim sup Bn = Bk et lim inf Bn = Bn ,
n≥0 k≥n n≥0 k≥n

ainsi que le premier lemme de Borel-Cantelli — c.f. la proposition 2.2.7.

Proposition 8.2.1 (Premier lemme de Borel-Cantelli). Soit (Bn )n≥0 ∈ F N une suite d’événements.
Alors X
P(Bn ) < ∞ =⇒ P(lim sup Bn ) = 0.
n≥0

P(Bn∁ ) < ∞ alors


P
Remarque 73. On remarque si n≥0

P(lim inf Bn ) = 1, car (lim inf Bn )∁ = lim sup Bn∁ .

Proposition 8.2.2 (Deuxième lemme de Borel-Cantelli). Soit (Bn )n≥0 ∈ F N une suite d’événements
indépendants. Alors
X
P(Bn ) = ∞ =⇒ P(lim sup Bn ) = 1.
n≥0

Remarque 74. Sous les mêmes hypothèses


X
P(Bn∁ ) = ∞ =⇒ P(lim inf Bn ) = 0.
n≥0

Ainsi dans le cas d’événements (Bn )n≥0 indépendants, l’événement lim sup Bn est de probabilité 0
ou 1 et on a le critère suivant
X
P(lim sup Bn ) = 0 si et seulement si P(Bn ) < ∞.
n≥0

Démonstration. On remarque que P(lim sup Bn ) = 1 − P(lim inf Bn∁ ) et on va montrer que P(lim inf Bn∁ )
est nulle. Puisque lim inf Bn∁ = ∪n≥0 ∩k≥n Bk∁ , il suffit donc de montrer que, pour tout n ≥ 0, P(∩k≥n Bk )
est nulle. Fixons n ≥ 0. Par définition les tribus σ(Bn ) sont indépendantes et donc les événements Bn∁
sont aussi indépendants. Par conséquent
   
\ \ Y
P ↓ Bk∁  = lim P  Bk∁  = lim P(Bk∁ ).
p→∞ p→∞
k≥n n≤k≤p n≤k≤p

D’autre part, notant que P(Bn∁ ) = 1 − P(Bn ) et que 1 − x ≤ e−x pour tout x ≥ 0, on a
 
Y Y Y  X 
P(Bk∁ ) = e−P(Bk ) = exp −

1 − P(Bk ) ≤ P(Bk ) .
 
n≤k≤p n≤k≤p n≤k≤p n≤k≤p

P
Pour finir, n étant fixé, n≤k≤p P(Bk ) tend vers ∞ lorsque p → ∞.

117
8.3 Variables aléatoires indépendantes
8.3.1 Définition et caractérisation élémentaire
Si X : (Ω, F, P) → (E, E) est une variable aléatoire, on note σ(X) ⊂ F la sous-tribu engendrée par
X, c’est à dire la plus petite tribu — au sens de l’inclusion — rendant mesurable l’application X.
Définition 8.3.1. Une famille de variables aléatoires (Xi )i∈I , Xi à valeurs dans (Ei , Ei ), i ∈ I, est
indépendante si et seulement si la famille de tribus (σ(Xi ))i∈I est indépendante.
Proposition 8.3.2. Une famille de variables aléatoires (Xi )i∈I est indépendante si et seulement pour
tout sous-ensemble J ⊂ I fini l’assertion suivante est satisfaite
 
Y \ Y
∀(Aj )j∈J ∈ Ej =⇒ P  {Xj ∈ Aj } = P(Xj ∈ Aj ).
j∈J j∈J j∈J

Démonstration. Immédiat.

8.3.2 Constructions de variables aléatoires indépendantes


On peut se poser la question de la construction de variables aléatoires indépendantes (ou de tribus) :
étant données deux espaces probabilisés (Ω1 , F1 , µ1 ) et (Ω2 , F2 , µ2 ), peut-on construire deux variables
indépendantes X1 et X2 de loi respective µ1 et µ2 ?
Pour ce faire, on considère l’espace probabilisé

(Ω, F, P) = (Ω1 × Ω2 , F1 ⊗ F2 , µ1 ⊗ µ2 )

et on pose X1 la projection sur Ω1 et X2 la projection sur Ω2 . Concrètement,

∀ω = (x1 , x2 ) ∈ Ω1 × Ω2 , X1 (ω) = x1 , X2 (ω2 ) = x2 .

Les variables aléatoires X1 et X2 sont alors des variables aléatoires indépendantes à valeurs dans Ω1
et Ω2 respectivement ; X1 a pour loi µ1 et X2 a pour loi µ2 . En effet, pour tout B1 ∈ F1 et B2 ∈ F2 ,

P(X1 ∈ B1 , X2 ∈ B2 ) = µ1 ⊗ µ2 (B1 × B2 ) = µ1 (B1 )µ2 (B2 ).

Prenant successivement B1 = Ω1 et B2 = Ω2 , on s’aperçoit que X1 et X2 suivent respectivement la loi


µ1 et µ2 .
Jusqu’ici, on a donc utilisé essentiellement la structure d’espace probabilisé produit. Le passage à une
famille quelconque se fait sans trop de problèmes mais repose tout de même sur le théorème 2.2.24 de
Carathéodory. Ce dernier théorème donne alors un sens à l’assertion “soit (Xn )n≥1 une suite de variables
aléatoires indépendantes”. Pour cela, nous devons introduire la notion de classe compacte.
Définition 8.3.3 (Classe compacte d’ensembles). Une classe K de parties d’un ensemble E est dite
T TN
compacte si, pour toute famille (Kn )n≥0 ∈ KN telle que n≥0 Kn = ∅ il existe N ≥ 0 tel que n=0 Kn =
∅.
Théorème 8.3.4. Soit, pour tout i ∈ I, (Ei , Fi , µi ) un espace probabilisé. On suppose que, pour tout
i ∈ I, il existe une classe compacte Ki ⊂ Fi telle que

∀A ∈ Fi , µi (A) = sup µi (C), C ∈ Ki .
Q N  N
Alors, il existe
Q une unique probabilité µ sur i∈I Ei , i∈I Fi , notée i∈I µi , telle que pour tout
(Bi )i∈I ∈ i∈I Fi avec Bi = Ei sauf pour un nombre fini de i ∈ I,
! !
O Y Y
µi Bi = µi (Bi ).
i∈I i∈I i∈I

La famille (Xi )i∈I des projections est une famille de variables aléatoires indépendantes telles que, pour
tout i ∈ I, Xi soit de loi µi .

118
Démonstration. On introduit
Q Q l’algèbre de Boole C constitués des cylindres c’est à dire les ensembles
Ni∈I B i où (B i )i∈I ∈ F
i∈I i tels que Bi = Ei sauf pour un nombre fini. Par définition, la tribu
i∈I F i est la plus petite tribu rendant les projections Xi mesurables. On montre facilement que C
engendre cette tribu. Ensuite, pour un cylindre C ∈ C, alors il existe J ⊂ I fini tel que
Y Y
C= Cj × Ej , avec Cj ∈ Fj , j ∈ J.
j∈J j∈I\J

Pour ce cylindre C, on pose


Y
µ(C) = µj (Cj ).
j∈J

Il est alors clair que µ(∅) = 0 et que µ est finiment additive. Il reste donc à montrer le dernier point de
la définition 2.2.21.

Lemme 8.3.5. La classe Y



D= C× Ej , C ∈ Ki , i ∈ I
j̸=i

est compacte. De même, la classe K formée des intersections dénombrables d’éléments de D est compacte.

Démonstration. Voir [Nev70, p.78].


T
Soit (An )n≥0 une suite de cylindre telle que An+1 ⊂ An et n≥0 An = ∅. Soit également ε > 0. Pour
chaque n ≥ 0, il existe Jn ⊂ I fini tel que
Y Y
An = An,j × Ej .
j∈Jn j∈I\Jn

Pour chaque n ≥ 0 et j ∈ Jn , rappelant que Jn est fini, on peut choisir Cn,j ∈ Kj de sorte que
Y
µ(An ) ≤ µj (Cn,j ) + ε. (8.3)
j∈Jn

Q Q
On note Cn = j∈Jn Cn,j × j∈I\Jn Ej . Observons que la condition de décroissance sur (An ) implique
que Jn ⊂ Jn+1 et que pour tout j ∈ Jn , An+1,j ⊂ An,j . Ainsi, sans perte de généralité, on peut supposer
que Cn+1 ⊂ Cn .
T T
Maintenant, n≥0 An = ∅ implique n≥0 Cn = ∅. Par propriété de compacité et décroissance de
(Cn ), il existe N ≥ 0 tel que, pour tout n ≥ N , Cn = ∅ et µ(Cn ) = 0. Finalement, pour tout n ≥ 0,
µ(An ) ≤ µ(Cn ) + ε = ε. Ceci montre que limn→∞ µ(An ) = 0. Le théorème est alors une conséquence du
théorème 2.2.24.

Le théorème ci-dessus admet le corollaire suivant sous l’hypothèse polonaise certes plus restrictive
mais néanmoins largement suffisante dans la presque totalité des applications.

Corollaire 8.3.6. Soit, pour tout i ∈ I, (Ei , Fi , µi ) un espace probabilisé. On suppose que, pour tout
i ∈ I,
— Ei est un espace polonais,
— Fi est la tribu borélienne sur Ei ,
— µi est une mesure borélienne. 
Q N N
Alors, il existe
Q une unique probabilité µ sur i∈I Ei , i∈I Fi , notée i∈I µi , telle que pour tout
(Bi )i∈I ∈ i∈I Fi avec Bi = Ei sauf pour un nombre fini de i ∈ I,
! !
O Y Y
µi Bi = µi (Bi ).
i∈I i∈I i∈I

Démonstration. Il suffit de de poser Ki l’ensemble des parties compactes de Ei .

119
Remarque 75. Dans le chapitre 5, nous avons construit la mesure de produit de façon différente bien que le
théorème de Carathéodory nous donne facilement l’existence et l’unicité de la mesure produit. Cependant,
de ce théorème nous ne pouvions déduire le théorème de Fubini qui explicite l’intégrale multiple en termes
d’intégrales itérées. Dans le cas d’un produit infini, il n’existe plus de telle formulation, en particulier, le
calcul de l’intégrale Z O
Q
f d µi
i∈I Ei i∈I

n’a rien d’évident.

8.3.3 Caractérisation de l’indépendance de v.a.r.


L’indépendance peut se caractériser à l’aide des trois caractérisations de lois, à savoir, fonctions tests,
fonctions de répartition, densités de probabilité. Ces résultats découlent facilement des définitions.

Proposition 8.3.7. Soient (Xi )i∈I une famille de v.a.r et fi : Ei → R, i ∈ I, des fonctions mesurables
bornées. Alors la famille (Xi )i∈I est indépendante si et seulement si pour tout J ⊂ I fini
 
Y Y
E fi (Xi ) = E[fi (Xi )].
j∈J j∈J

Proposition 8.3.8. Soit (Xi )i∈I une famille de v.a.r.. Alors (Xi )i∈I est indépendante si et seulement
si pour tout J ⊂ I fini et pour tout (tj )j∈J ∈ RJ
 
 \ Y Y
F(Xj )j∈J (tj )j∈J = P  {Xj ≤ tj } = P(Xj ≤ tj ) = FXj (tj ).
j∈J j∈J j∈J

Proposition 8.3.9. Soit (Xi )i∈I une famille de v.a.r.. On suppose que les v.a.r. Xi , i ∈ I, admettent
une densité pi . Alors la famille (Xi )i∈I est indépendante si et seulement si pour tout j ∈ J fini le vecteur
(Xj )j∈J ∈ RJ admet pour densité la fonction p : RJ → R+ telle que
Y
p(x) = p((xj )j∈J ) = pj (xj ).
j∈J

Exercice 30. Démontrer les quatre propositions ci-dessus, notamment dans le cas d’une famille finie (Xi )
de variables aléatoires.
On note Ud = {z ∈ Cd : |z1 |2 + · · · + |zd |2 ≤ 1}. Si X ∈ Nd est un vecteur aléatoire à coordonnées
entières, alors sa fonction génératrice est définie pour tout z = (z1 , · · · , zd ) ∈ Ud par

GX (z) = E(z1X1 · · · zdXd ) = E(z X ).

Proposition 8.3.10. Soit (Xi )i∈I une famille de variables aléatoires à valeurs dans N. Alors la famille
(Xi )i∈I est indépendante si et seulement si pour tout J ⊂ I fini,
Y
∀(zj )j∈J ∈ UJ , G(Xj )j∈J ((zj )j∈J ) = GXj (zj ).
j∈J

Dans le chapitre 9, un résultat similaire impliquant les fonctions caractéristiques sera énoncé pour les
vecteurs aléatoires de Rd .
Le corollaire suivant est immédiat mais particulièrement utile en pratique.

Corollaire 8.3.11. Si X1 , . . . , Xn sont des variables aléatoires réelles indépendantes de densités respec-
tives fXi , alors la densité du vecteur (X1 , . . . , Xn ) est donnée par

f(X1 ,...,Xn ) (x1 , . . . , xn ) = fX1 (x1 ) · · · fXn (xn ).

120
Remarque 76. Soient X et Y deux v.a.r. indépendantes de densités respectives fX et fY . Le corollaire
précédant implique que la densité f(X,Y ) du couple (X, Y ) est f(X,Y ) (x, y) = fX (x)fY (y). Comme nous
l’avons dit au chapitre précédant, la connaissance de la loi du couple permet de déduire la loi des
marginales mais la réciproque est généralement fausse. Si on suppose en outre que les deux variables X
et Y du couple (X, Y ) sont indépendantes alors on peut déduire des lois marginales la loi du couple.
Corollaire 8.3.12. Soit (X, Y ) un couple de variables aléatoires de densité
R h = h(X,Y ) = hX hY — i.e.
X et Y admettent une densité et sont indépendantes. Alors hX+Y (u) = R hX (v)hY (u − v) dv est la
densité de X + Y . Cette transformation est appelée produit de convolution entre hX et hY et est noté
hX ∗ hY .
Démonstration. Soit g : R2 → R2 une fonction continue bornée.
Z
E(g(X + Y, X)) = g(x + y, x)hX (x)hY (y) dxdy.
R2

On pose u = x + y et v = x donc x = v et y = u − v. Le déterminant de la jacobienne vaut en module


1. Après le changement de variable, on obtient
Z
E(g(X + Y, X)) = g(u, v)hX (v)hY (u − v) dudv.
R2

On vérifie facilement, après intégration par rapport à v que la densité de X + Y est donnée par
Z
h(X+Y ) (u) = hX (v)hY (u − v) dv.
R

Remarque 77. Ce corollaire donne une expression explicite de la densité de la somme de deux v.a.r..
Pour n v.a.r. à densité, il faut itérer ces produits de convolution, soit itérer n − 1 intégrales. Ce procédé
devient vite infernal, on donnera au chapitre suivant une façon plus facile de calculer la loi d’une somme
de v.a.r indépendantes.
Proposition 8.3.13. Soient X et Y deux v.a.r. indépendantes alors cov(X, Y ) = 0.
La réciproque est fausse sauf dans le cas où le couple (X, Y ) est gaussien, c’est à dire pour tout
t, s ∈ R la variable tX + sY est gaussienne (voir le chapitre 10 pour un contre-exemple).
Si (Xn )n≥0 est suite de variables aléatoires admettant chacune un moment d’ordre 1, alors il vient
facilement que !
XN XN
E Xn = E(Xn ).
n=0 n=0

Sous l’hypothèse d’indépendance, on peut également expliciter la variance.


Proposition 8.3.14. Soit (Xn )n≥0 une suite v.a.r. indépendantes admettant chacune un moment d’ordre
2. Alors, !
X n Xn
V Xk = V(Xn ).
k=0 k=0

Démonstration. Calculons
!  !2  " #!2
Xn Xn n
X X X
V Xk = E  Xk  − E Xk = E(Xi Xj ) − E(Xi )E(Xj ).
k=0 k=0 k=0 0≤i,j≤n 0≤i,j≤n

Par indépendance, E(Xi Xj ) = E(Xi )E(Xj ) sauf lorsque i = j. Et donc, après simplification
n
! n n
X X  X
E(Xk2 ) − E(Xk )2 =

V Xk = V(Xk ).
k=0 k=0 k=0

121
8.4 Une application du second lemme de Borel-Cantelli
Soit A = {0, 1} un alphabet fini et (Xn )n≥1 une suite de variables indépendantes. On suppose que
pour tout n ≥ 1, P(Xn = 1) = 1 − P(Xn = 0) = p pour p ∈ (0, 1). Autrement dit les variables aléatoires
Xn sont identiquement distribuées de loi commune la loi de Bernoulli de paramètre p ∈ (0, 1) notée B(p).
On dit que (Xn )n≥1 est une suite de v.a. indépendantes et identiquement distribuées, on note souvent
i.i.d..

On définit la variable aléatoire τ à valeurs dans N par

τ = inf{n ≥ 1 : Xn = 1} et inf ∅ = ∞.

Pour tout n ≥ 1, P(τ = n) = (1 − p)n−1 p. Autrement dit, τ suit une loi géométrique de paramètre p.
Cette variable aléatoire τ est finie p.s. :
 
q
!
\ \
P(τ = ∞) = P  {Xn = 0} = lim P {Xn = 0} = lim (1 − p)q p = 0.
q→∞ q→∞
n≥1 n=1

Le lemme de Borel-Cantelli implique que


X
P(lim sup{Xn = 1}) = 1 ⇐⇒ P(Xn = p) = ∞.
n≥1

Autrement dit, l’événement {Xn = 1} arrive infiniment souvent.


En fait, en notant An = {Xn = 1, Xn+1 = 1, . . . , Xn+(k−1) = 1} pour k ≥ 1 et n ≥ 1. Les événements
(An )n≥1 ne sont pas indépendants à cause du chevauchement. Par contre les événements (Akn )n≥1 sont
k
indépendants en utilisant P la propriété d’indépendance par blocs. De plus P(Akn ) = p pour tout n ≥ 1
et k ≥ 1 si bien que n P(Akn ) = ∞ pour tout k ≥ 1. Par conséquent, pour tout k ≥ 1, l’événement
Akn se réalise infiniment souvent. Comme {Akn i.s. } ⊂ {An i.s. }, il vient que P(lim sup An ) = 1.
Concrètement, cela signifie que dans l’expérience du pile/face (prendre p = 1/2 par exemple), on trouve
infiniment souvent des sous-suites de k faces consécutives, k étant fixé mais pouvant être arbitrairement
grand. Notons τ k (ω) = inf{n ≥ 1 : ω ∈ An } la première occurrence de l’événement An . La loi de cette
variable aléatoire est plutôt difficile à calculer, car avant cette première occurrence il peut se passer à peu
près n’importe quoi sauf, bien entendu, l’occurrence d’un k-bloc de faces. En particulier, il peut y avoir
des ℓ-blocs de faces avec ℓ < k. Si nous étions en mesure de calculer son espérance, nous constaterions que
celle-ci croı̂t très vite avec k de sorte qu’il faille attendre très longtemps en moyenne pour voir apparaı̂tre
ces grands blocs.
Pour terminer, à l’aide de l’inégalité de Bienaymé-Tchebychev, pour tout ε > 0,
n
!
1X V(X1 )
P Xn − p ≥ ε ≤ → 0.
n ε2 n
k=1

Cela donne un premier résultat de type loi des grands nombres (on l’appellera loi faible des grands
nombres) : la moyenne arithmétique des Xn est avec grande probabilité dans un intervalle de largeur
2ε > 0 centrée en p = E(X1 ) ; cette probabilité est d’autant plus grande que n est grande.

122
Chapitre 9

Fonctions caractéristiques

La notion de fonction caractéristique provient de l’analyse et plus précisément de la théorie de Fourier.


Cette théorie, dont les prémices remontent à un peu plus de deux siècles, est très riches et fait intervenir un
grand nombre de concept d’analyse et d’analyse fonctionnelle. Nous nous restreindrons ici aux propriétés
utiles dans le cadre des probabilités et des statistiques, lesquelles pour la plupart ne seront pas démontrées.

9.1 Fonction caractéristique d’une v.a.r.


Définition 9.1.1. Soit X une v.a.r.. La fonction caractéristique de X ou transformée de Fourier de X
est la fonction φX : R −→ C définie pour t ∈ R par
Z
itX
φX (t) = E(e ) = eitx PX (dx). (9.1)
R

Si X est une variable discrète — pour fixer les idées, à valeurs dans N —, l’équation (9.1) se réécrit
X
φX (t) = eitn P(X = n).
n≥0

Remarque 78. La fonction génératrice de X est donnée par


X
GX (z) = z n P(X = n), z ∈ U.
n≥0

Ainsi, au moins formellement, la fonction caractéristique de X n’est rien d’autre que la fonction généra-
trice évaluée en z = eit , t ∈ R.
Si X est une v.a.r. de densité f , alors l’équation (9.1) se réécrit
Z
φX (t) = eitx f (x) dx.
R

Eu égard au théorème central limite que l’on démontrera au chapitre 12, il est important de connaı̂tre
la fonction caractéristique de la loi normale centrée réduite.
Proposition 9.1.2. Soit X ∼ N (0, 1). Alors
2
φX (t) = e−t /2
, t ∈ R.

Démonstration. On souhaite calculer


Z
2 dx
φX (t) = e−x /2 itx
e √ .
R 2π
1
Il est facile de montrer que φX est C et la dérivée est donnée par
Z
′ 2 dx
φX (t) = ixe−x /2 eitx √ .
R 2π

123
Une intégration par partie (par rapport à x donc) donne
Z i∞ Z
−x2 /2 itx dx dx
h
′ itx −x2 /2 2
φX (t) = ixe e √ = −e e − t eitx e−x /2 √ .
R 2π −∞ R 2π
Ainsi, la fonction φX satisfait l’équation différentielle linéaire du premier ordre à coefficient non constant
φ′X (t) + tφX (t) = 0. Une solution est donnée par
Rt 2
φX (t) = φX (0)e− 0
s ds
= e−t /2
.
La théorie des équations différentielles linéaires implique que c’est l’unique solution.
Proposition 9.1.3. Soit X une v.a.r.. Alors la fonction caractéristique de X est une fonction continue
bornée vérifiant, pour t ∈ R,
1. |φX (t)| ≤ 1 ;
2. φX (−t) = φX (t) ;
3. φaX+b (t) = eitb φX (at), a, b ∈ R ;
4. Si X est supposée symétrique — X et −X ont même loi — alors φX (t) ∈ R.
Démonstration. La continuité de φX est une conséquence du théorème de convergence dominée avec une
fonction de domination constante égale à 1 et de la continuité pour tout ω ∈ Ω de la fonction t → eitX .
1. Pour tout t ∈ R,
|φX (t)| = E(eitX ) ≤ E|eitX | = 1.
2. Pour tout t ∈ R,
φX (−t) = E(e−itX ) = E(eitX ).
3. Pour tout t ∈ R
φaX+b (t) = E(eit(aX+b) ) = eitb E(ei(ta)X ) = eitb φX (at).
4. Puisque X et −X ont même loi alors
φX (t) = E(eitX ) = E(e−itX ),
et donc par le point 2), φX (t) ∈ R.

Remarque 79. On vérifie facilement que si X ∼ N (0, 1) alors Y = σX + µ, µ ∈ R et σ ≥ 0, suit une loi
normale N (µ, σ 2 ). À l’aide de la proposition et de l’expression de la fonction caractéristique d’une loi
normale centrée réduite, on obtient
2 2 2 2
φY (t) = eitµ e−σ t /2
= eitµ−σ t /2
.
Comme son nom l’indique, la fonction caractéristique caractérise la loi d’une v.a.r..
Théorème 9.1.4. Deux v.a.r. X et Y ont même loi si et seulement si leurs fonctions caractéristiques
coı̈ncident, i.e. φX = φY .
Ce théorème donne une quatrième méthode pour calculer la loi d’une v.a.r.. Là encore, cela dépendra
de la problématique.
Démonstration. Si X et Y ont même loi, il est clair que leurs fonctions caractéristiques coı̈ncident.
La réciproque est un peu subtile et provient de la formule d’inversion de Fourier, nous admettrons ce
résultat.
Il peut être utile parfois de savoir reconnaı̂tre qu’une fonction est une fonction caractéristique.
Théorème 9.1.5 (Bochner). Une fonction φ : R −→ C est la fonction caractéristique d’une v.a.r. si et
seulement si les trois conditions suivantes sont satisfaites :
1. |φ(t)| ≤ 1 pour t ∈ R et φ(0) = 1 ;
2. φ est uniformément continue ;
3. φ est définie positive :
X
∀n ∈ N∗ , ∀(t1 , . . . tn ) ∈ Rn , ∀(z1 , . . . , zn ) ∈ Cn : φ(tk − tl ) zk z̄l ≥ 0
k,l

Démonstration. Admis.

124
9.2 Fonctions caractéristiques et moments
Comme avec les séries génératrices, il existe une relation entre dérivée de la fonction caractéristique
et moment d’une variable aléatoire réelle.

Théorème 9.2.1. Soit X une v.a.r. admettant un moment d’ordre p ∈ N. Alors, la fonction ca-
ractéristique est de classe C p . De plus,
(k)
φX (t) = ik E(X k eitX ), 0 ≤ k ≤ p.

En particulier,
(k)
φX (0)
E(X k ) = , 0 ≤ k ≤ p.
ik
Démonstration. Il s’agit d’une conséquence du théorème de convergence dominée de Lebesgue et plus
spécifiquement du théorème de dérivation sous le signe intégral.

Remarque 80. La réciproque est en général fausse : φ′X (0) peut exister sans pour autant que X admette
un premier moment (voir l’exemple 42 ci-dessous). Par contre, si φX est C 2 alors X admet un second
moment (voir [Spi76]).
Exemple 42. Sur Z on considère
P µ(z) = c/(z 2 log z) pour z ≥ 2 (et 0 sinon) où c > 0 est une constante
convenable. Clairement, z∈Z zµ(z) = ∞. Pourtant, on montre que µ̂ est dérivable en 0.
Par définition, pour tout t ∈ R,

b(t) − 1
µ X eitk − 1 c X 1 − cos(nt)
= = −2c .
t t k 2 ln(k) tn2 ln(n)
|k|≥2 n≥2

Considérons la séries à termes positifs



1 X 1 − cos(nt)
. (9.2)
t n=2 n2 ln(n)

Pour tout t ∈ (0, 21 ), nous découpons la série suivant que n est plus grand ou plus petit que 1/t. En
remarquant que x → (ln(x))−1 et x → x−2 sont décroissantes, on obtient d’une part
Z ∞
1 X 1 − cos(nt) 2 X 1 2 dx
≤− ≤−
t n2 ln(n) t ln(t) 1
n 2 t ln(t) ⌊t⌋ x
1 2
n≥1/t n≥⌊ t ⌋

2 ⌊1⌋ + 1 1
=− ≤ −2 1t →t→0 0.
⌊ 1t ⌋

t − 1 ln(t) ⌊ t ⌋ − 1 ln(t)

x2
D’autre part, en utilisant l’inégalité, 1 − cos(x) ≤ 2 , x ∈ R, il vient
1
n
1 − cos(nt)
Z Z
1 X X 1 t X dx t t dx
≤t ≤ +t ≤ +t .
t n2 ln(n) ln(n) ln(2) n−1 ln(x) ln(2) 0 ln(x)
2≤n<1/t 2≤n<1/t 3≤n≤⌊ 1t ⌋

Il reste donc à montrer que le second terme tend vers 0. Pour cela, il suffit de remarque
Z y
dx
→y→∞ ∞
2 ln(x)

si bien que la règle de l’Hôpital implique


Ry dx
2 ln(x) 1
∼y→∞ →y→∞ 0.
y ln(y)

125
9.3 Fonctions caractéristiques de vecteurs aléatoires
Soit X un vecteur aléatoire dans Rd . La fonction caractéristique de X est la fonction φX : Rd → C
définie pour tout t ∈ Rd par
φX (t) = E(ei⟨t,X⟩ ),
où ⟨·, ·⟩ est le produit scalaire usuel sur Rd .
Ainsi si X est un vecteur aléatoire de densité f : Rd → R+ , alors
Z
φX (t) = ei⟨t,x⟩ f (x) dx.
Rd

Proposition 9.3.1. Soit X un vecteur aléatoire dans Rq . Alors sa fonction caractéristique φX est une
fonction continue bornée vérifiant, pour tout t ∈ Rq ,
1. |φX (t)| ≤ 1 ;
2. φX (−t) = φX (t) ;
3. si A ∈ Mp,q (R) et B ∈ Rp alors

φAX+B (t) = ei⟨t,B⟩ φX (A∗ t), ∀t ∈ Rp ,


où A∗ est l’adjoint de A.
4. si X est supposée symétrique, alors φX est à valeurs réelles.
Théorème 9.3.2. Deux vecteurs aléatoires X et Y ont même loi si et seulement si leurs fonctions
caractéristiques coı̈ncident i.e. φX = φY .
Si φ : Rd → R est C 1 , on note ∇φ le gradient de φ.
Proposition 9.3.3. Soit X = (X1 , . . . , Xd ) un vecteur aléatoire.
1. Si X admet un moment d’ordre 1, alors φX est C 1 et
E(X) = −i∇∗ φX (0).

2. Si X admet un moment d’ordre 2, alors φX est C 2 et


2
Cov (Xi , Xj ) = −∂ij φX (0) + ∂i φX (0)∂j φX (0).

3. de manière générale, à l’aide de multi-indices, si X admet un moment d’ordre p, alors φX est de


classe C p et pour tout α = (α1 , . . . , αd ) ∈ Nd tel que |α| = α1 + · · · + αd ≤ p
E(X α ) = i−|α| ∂1α1 . . . ∂dαd φX (0),
où X α = X1α1 · · · Xdαd .
Remarque 81. Il faut encore une fois faire attention au notation. En général, l’opérateur ∇ est représenté
en ligne : ∇ = (∂1 , . . . , ∂d ). Pour être cohérent avec notre convention de vecteur colonne, on doit prendre
la transposée ∇∗ .
Démonstration. Exercice.

9.4 Fonctions caractéristiques et indépendance


Théorème 9.4.1. Deux v.a.r. X et Y sont indépendantes si et seulement si φ(X,Y ) = φX φY .
Démonstration. Si X et Y sont indépendantes, le résultat suit directement de la proposition 8.3.7. La
réciproque fait appel à l’analyse de Fourier et dépasse un peu le cadre de ces notes.
Exemple 43. Soit (Xn )n≥1 une suite de v.a.r i.i.d. et posons Sn = X1 + · · · + Xn . Alors, pour tout n ≥ 1,
et tout t ∈ R,
" n # n
h i Y Y
it(X1 +···Xn ) itXi
E eitXi = φX1 (t)n
 
φSn (t) = E e =E e =
i=1 i=1

126
Chapitre 10

Vecteurs gaussiens

10.1 Manipulation des vecteurs gaussiens


Le rôle central de la loi normale en statistique et notamment dans le théorème central limite que l’on
montrera au chapitre 12 motive l’étude des vecteurs gaussiens qui sont en quelque sorte l’équivalent en
dimension supérieure de la loi normale. On parle d’ailleurs parfois de loi normale sur Rd .
Rappelons tout d’abord que si X ∼ N (m, σ 2 ) alors
(x−m)2
— elle a pour densité la fonction x → √2πσ1
2
e− 2σ2 lorsque σ 2 > 0 ;
— elle est presque sûrement égale à m lorsque σ 2 = 0 ;
— sa fonction caractéristique est donnée par

σ 2 t2
 
φX (t) = exp imt − .
2

On se place dans la base canonique de Rd . Si X est un vecteur aléatoire à valeurs dans Rd , on


considérera toujours X comme un vecteur colonne (même si, encore une fois, X est écrit en ligne pour
des raisons typographiques), c’est à dire en notant u∗ la transposée de u, X = (X1 , . . . , Xd )∗ .
Si A est une matrice réelle de taille q × d et b un vecteur de Rq , le vecteur aléatoire Y = AX + b
appartient à L2 dès qu’il en va de même pour X. On vérifie facilement que

E(AX + b) = AE(X) + b et Cov (AX + b) = ACov (X)A∗ .

En particulier, si u ∈ Rd , la variable réelle u∗ X a pour moyenne u∗ E(X) et pour variance V(u∗ X) =


u∗ Cov (X)u. Par conséquent, Cov (X) est une matrice réelle symétrique semi-définie positive.

Définition 10.1.1. Soit X un vecteur aléatoire dans Rd . Le vecteur aléatoire X est dit gaussien si, pour
tout t ∈ Rd , t∗ X est v.a.r. gaussienne.

Remarque 82. Si X est un vecteur gaussien, chacune de ses coordonnées sont des variables aléatoires
gaussiennes.
Exemple 44. Il ne suffit pas que chacune des coordonnées d’un vecteur aléatoire soit gaussienne pour que le
vecteur soit gaussien. En effet, si X et ε sont deux v.a.r. indépendantes, X ∼ N (0, 1) et P(ε = ±1) = 1/2,
alors εX suit une N (0, 1) mais le couple (X, εX) n’est pas un vecteur gaussien. En effet, d’un côté, en
utilisant l’indépendance,

E(eitX ) + E(e−itX ) 2
E(eitεX ) = E(eitεX 1ε=1 + eitεX 1ε=−1 ) = = e−t /2 ,
2
où l’on reconnaı̂t la fonction caractéristique d’une v.a.r. gaussienne. D’un autre côté, toujours en utilisant
l’indépendance et en décomposant selon les valeurs que peut prendre ε, on obtient

φX (t + s) + φX (t − s)
E(exp(itX + isεX)) = ̸= φX (t)φX (s).
2

127
Proposition 10.1.2. Soient X1 , . . . , Xd des v.a.r. gaussiennes et indépendantes, alors X = (X1 , . . . , Xd )
est un vecteur gaussien.
Pd
Démonstration. Soit t ∈ Rd , on vérifie que t∗ X = j=1 tj Xj suit une loi normale. En effet, par indé-
pendance, en supposant que Xj ∼ N (mj , σj2 ), on calcule
 
d d 2 Xd
∗ Y X s
φX (s) = E(eist X
)= E(eistj Xj ) = exp is mj tj − σj2 t2j  ,
j=1 j=1
2 j=1

où l’on reconnaı̂t la fonction caractéristique d’une v.a.r. gaussienne de moyenne m et de variance σ 2
données par
X d Xd
m= tj mj et σ 2 = σj2 t2j .
j=1 j=1

Théorème 10.1.3. Un vecteur aléatoire X est gaussien dans Rd si et seulement si sa fonction ca-
ractéristique est de la forme
t∗ Γt
 

t −→ exp it m −
2

où m ∈ Rd et Γ est matrice d × d semi-définie positive.

Démonstration. Supposons X gaussien alors t∗ X est une v.a.r. gaussienne pour tout t ∈ Rd . Ainsi,

V(t∗ X) t∗ Cov (X)t


   
∗ ∗
φX (t) = φt∗ X (1) = exp iE(t X) − = exp it E(X) − .
2 2
n o
t∗ Γt
Réciproquement, on suppose que φX (t) = exp it∗ m − 2 alors pour tout c ∈ R

t∗ Γt 2
 

φt∗ X (c) = φX (ct) = exp it mc − c .
2

Ceci montre, pour tout t ∈ Rd , que t∗ X est une v.a.r. gaussienne de moyenne t∗ m et de variance t∗ Γt.
D’autre part, comme pour tout vecteur aléatoire, nous avons, pour tout t ∈ Rd , E(t∗ X) = t∗ E(X) et
V(t∗ X) = t∗ Cov (X)t. Ceci montre que m = E(X) et Γ = Cov (X).

Corollaire 10.1.4. Si X ∈ Rd est gaussien alors sa loi est complètement caractérisée à l’aide de son
espérance et sa matrice de covariance.

Corollaire 10.1.5. Soit X = (X1 , · · · , Xd ) ∈ Rd un vecteur gaussien. Alors les composantes X1 , . . . , Xd


sont des v.a.r. indépendantes si et seulement si la matrice de covariance de X est diagonale.

Proposition 10.1.6. Soient X un vecteur gaussien de Rd , b ∈ Rq et A une matrice réelle de taille q × d.


Alors Y = AX + b est un vecteur gaussien de Rq et de matrice de covariance ACov (X)A∗ .

Démonstration. Soit t ∈ Rq , alors t∗ Y = t∗ (AX) + t∗ b = (t∗ A)X + t∗ b est gaussien car t∗ A ∈ Rd et


t∗ b ∈ R et X ∈ Rd est gaussien. Le reste de la proposition est immédiat.

Proposition 10.1.7. Soient X un vecteur gaussien, A et B deux matrices réelles de tailles respectives
q × d et r × d. Alors AX et BX sont indépendants si et seulement si ACov (X)B ∗ = 0.

Remarque 83. Notons que AX et BX sont des vecteurs de Rq et Rr respectivement. Ceci reste cohérent
avec la définition d’indépendance de deux variables aléatoires puisqu’il n’est pas nécessaire que celles-ci
prennent leurs valeurs dans un même espace.

128
Démonstration. Notons m = E(X) et Γ = Cov (X). Soit C la matrice réelle de taille (q + r) × d définie
par C = ( BA ) et soit Y ∈ Rq+r défini par Y = CX = ( AX ). D’après la proposition 10.1.6, Y est un
BX
vecteur gaussien et on a E(Y ) = Cm, Cov Y = CΓC ∗ . Le théorème 10.1.3 implique
 
q+r ∗ 1 ∗ ∗
∀u ∈ R , φY (u) = exp iu Cm − u CΓC u .
2

Écrivons u = ( st ) avec s ∈ Rq et t ∈ Rr . On a u∗ C = s∗ A + t∗ B et donc

u∗ CΓC ∗ u = s∗ AΓA∗ + t∗ BΓB ∗ t + s∗ AΓB ∗ t + t∗ BΓA∗ s = s∗ AΓA∗ s + t∗ BΓB ∗ t + 2s∗ AΓB ∗ t.

Finalement, on calcule
   
1 1
φY (u) = exp is∗ Am − s∗ AΓA∗ s exp it∗ Bm − t∗ BΓB ∗ t exp{−s∗ AΓB ∗ t}.
2 2
Or AX et BX sont naturellement des vecteurs gaussiens et d’après le théorème 10.1.3 l’égalité ci-dessus
se réécrit
φY (u) = φAX (s)φBX (t) exp{−s∗ AΓB ∗ t}.
Par conséquent, AX et BX sont indépendants si et seulement si pour tous s ∈ Rq , t ∈ Rr , s∗ AΓB ∗ t = 0.
Autrement dit, si et seulement si AΓB ∗ = 0.
Remarque 84. Si X, Y sont deux vecteurs gaussiens indépendants à valeurs dans Rq et Rr respectivement,
q+r
alors Z = ( X
Y ) est un vecteur gaussien de R .
Théorème 10.1.8. Soient m ∈ Rd et Γ une matrice d × d réelle symétrique semi-définie positive.
1. Il existe un vecteur gaussien X à valeurs dans Rd de loi N (m, Γ) c’est à dire tel que E[X] = m
et Cov (X) = Γ.
2. X admet une densité si et seulement si Γ est non dégénérée. Dans ce, la densité de X s’écrit
(x − m)∗ Γ−1 (x − m)
 
d 1
∀x ∈ R , p(x) = √ exp − .
(2π)d/2 det Γ 2

Sinon X est concentrée sur l’espace affine m + (ker Γ)⊥ .


2
3. Il existe α > 0 tel que E(eα|X| ).
Démonstration. Soient Y1 , . . . , Yd des variables indépendantes de loi N (0, 1) et notons Y = (Y1 , . . . , Yd )∗ .
Alors Y est un vecteur gaussien d’espérance nulle et de matrice de covariance Cov Y = I.
La matrice Γ est symétrique semi-définie positive, aussi notant Σ2 = diag (σ12 , . . . , σd2 ) la matrice
diagonale constituée des valeurs propres (toutes réelles positives) de Γ, il existe une matrice orthogonale
A telle que Γ = AΣ2 A∗ .
Pour le point 1, on pose X = m + AΣY . Alors X est un vecteur gaussien comme la transformation
affine d’un vecteur gaussien. De plus, E(X) = AΣE(Y ) + m = m et Cov (X) = AΣCov (Y )Σ∗ A∗ =
AΣ2 A∗ = Γ.
Pour le point 2, supposons Γ inversible si bien que Σ est également inversible ou encore les valeurs
propres de Γ sont toutes strictement positives. D’autre part, les composantes de Y étant indépendantes
et gaussiennes, la densité de Y est donnée par
1 ∥y∥2
− 22
fY (y) = e .
(2π)d/2

Soit g : Rd → R+ mesurable positive, alors


∥y∥2
Z
1 2
E[f (X)] = E[f (m + AΣY )] = f (m + AΣy)e− 2 dy.
(2π)d/2 Rd

Effectuons le changement de variable x = m + AΣy, i.e. y = Σ−1 A−1 (x − m). On a alors,

∥Σ−1 A−1 (x − m)∥22


Z  
1
E[f (X)] = exp − |det Σ−1 A−1 | dx.
(2π)d/2 Rd 2

129
On remarque pour conclure que, A étant orthogonale, |det Σ−1 A−1 | = (det Γ)−1/2 . De plus, A∗ = A−1
ainsi
∥Σ−1 A−1 (x − m)∥22 = (x − m)∗ AΣ−1 Σ−1 A∗ (x − m) = (x − m)∗ Γ−1 (x − m).
Par conséquent,
(x − m)∗ Γ−1 (x − m)
Z  
1
E[f (X)] = p f (x) exp − dx,
(2π)d det Γ Rd 2
où l’on identifie la densité de X.
Si Γ n’est pas inversible, considérons u1 , . . . , ur , 1 ≤ r ≤ d, une base orthonormale de ker Γ. On a
donc
\r
X ∈ m + (ker Γ)⊥ = {u∗i (X − m) = 0}.

j=1

Or, pour tout u ∈ ker Γ, on a V(u (X − m)) = u Cov(X)u = 0. Par conséquent la v.a.r. u∗ (X − m) est
∗ ∗

presque sûrement égale à sa moyenne qui est nulle. D’où P(u∗i (X − m) = 0) = 1 pour tout i = 1, . . . , r
et donc P(u∗i (X − m) = 0, ∀i = 1, . . . , r) = 1. Dans ce cas la loi de X est supportée par l’espace affine
m + (ker Γ)⊥ de dimension strictement plus petite que d. En particulier, X n’admet pas de densité par
rapport à λd .
√ si G est une v.a.r. de loi N (0, 1), alors pour tout s < 1/2, en faisant
Pour le point 3, remarquons que
le changement de variable z = x 1 − 2s, on a
Z Z
sG2 1 sx2 −x2 /2 1 x2 (1−2s) 1
β(s) = E(e ) = √ e e dx = √ e− 2 dx = √ .
2π R 2π R 1 − 2s
Pour s ≥ 1/2, β(s) = ∞. Puisque A est orthogonale, on a
h 2
i h 2
i h Pd 2 2 i
E eα∥X−m∥2 = E eα∥ΣY ∥2 = E eα j=1 σj Yj ,

et comme les variables Yi sont i.i.d. de loi commune une N (0, 1) on obtient
h d
i Y h 2 2i Y d
2
E eα∥X−m∥2 = E eασj Yj = β(ασj2 ).
j=1 j=1

Cette dernière quantité est donc finie lorsque α maxi≤d σi2 < 1/2. Pour finir, remarquons que ∥X∥22 ≤
4∥X − m∥22 + 4∥m∥22 et donc que
h 2
i 2
h 2
i
E eα∥X∥2 = e4α∥m∥2 E e4α∥X−m∥2 .

D’où l’existence d’un moment exponentiel d’ordre α > 0.

10.2 Loi du χ2 , moyenne et variance empiriques


Définition 10.2.1. Soit X = (X1 , . . . , Xd ) un vecteur gaussien centrée réduit, c’est à dire m = 0 et
Γ = Id . La loi de |X|2 = X12 + . . . Xd2 s’appelle la loi du chi-deux à d degrés de libertés ; on note χ2 (d)
ou χ2d .
Exemple 45. On rappelle que la loi gamma de paramètres α > 0 et s > 0, notée Γs,α , admet pour densité
Z ∞
αs s−1 −αx
γs,α (x) = x e 1R∗+ (x), x ∈ R, avec Γ(s) = xs−1 e−x dx.
Γ(s) 0

Si X ∼ Γs,α et Y ∼ Γt,α sont indépendantes alors la loi de X + Y est une Γs+t,α . Pour montrer ce
fait, on peut par exemple utiliser le corollaire 8.3.12 :
αs s−1 −αy αt
Z
γs,α ∗ γt,α (x) = y e 1R+ (y) (x − y)t−1 e−α(x−y) 1R+ (x − y) dy
R Γ(s) Γ(t)
αs+t −αx x s−1 αs+t s+t−1 −αx
Z
= e y (x − y)t−1 dy = x e ,
Γ(s)Γ(t) 0 Γ(s + t)

130
la dernière égalité étant obtenue à l’aide du changement de variable y = xu et en utilisant l’égalité
B(a, b) = Γ(a)Γ(b)
Γ(a+b) — c.f. par exemple l’exercice 6 de la planche de TD1.

Lemme 10.2.2. La loi du chi-deux à n degrés de liberté est la loi Γn/2,1/2 donc de densité

2−n/2 n/2−1 −x/2


x→ x e 1R+ (x).
Γ(n/2) ∗

Démonstration. On commence par remarquer que si G ∼ N (0, 1) alors G2 suit une loi Γ1/2,1/2 . Donc si
X1 , . . . , Xn sont des variables aléatoires indépendantes gaussiennes centrées et réduites, alors la loi de
X12 + · · · + Xn2 suit une loi Γn/2,1/2 .

Théorème 10.2.3 (Théorème de Cochran, version simple). Soient X un vecteur gaussien de Rd de


loi N (0, I). L’espace Rn peut s’écrire comme la somme directe de F et F ⊥ . Notons PF la projection
orthogonale sur F . Alors
1. les vecteurs aléatoires PF X et (I−PF )X sont indépendants de loi respectives N (0, PF ) et N (0, (I−
PF )) ;
2. les variables aléatoires ∥PF X∥2 et ∥(I − PF )X∥2 sont indépendantes et de lois respectives χ2 (q)
et χ2 (d − q) où q est la dimension de F ;

Remarque 85. À toute fin utile, rappelons que (I − PF ) est la projection orthogonale sur F ⊥ .

Démonstration. 1. Soit (u1 , . . . , uq ) une base orthonormée de F et (uq+1 , . . . , ud ) une base ortho-
normée de F ⊥ . Alors (u1 , . . . , ud ) est une base orthonormée de Rd . Notons U la matrice de passage
de la base standard à la base (u1 , . . . , ud ). La matrice U est orthogonale, en particulier U −1 = U ∗ .
Les projections orthogonales sur F et F ⊥ s’expriment comme suit dans la base (u1 , . . . , ud )

PF = U I q U ∗ et (I − PF ) = U (I − Iq )U ∗ .
Pd
En effet, si x = i=1 xi ui , on calcule

d
X q
X q
X
PF x = U Iq U ∗ x = U Iq xi ei = U xi ei = xi ui .
i=1 i=1 i=1

On pose Y = U ∗ X. C’est encore un vecteur gaussien de moyenne E(U ∗ X) = U ∗ E(X) = 0 et de


matrice de covariance Cov (Y ) = U ∗ IU = I. Notons que le vecteur Y n’est rien d’autre que le
vecteur X exprimée dans la nouvelle base.
On remarque immédiatement que PF X = U Iq Y et (I − PF )X = U (I − Iq )Y sont des vecteurs
gaussien centrées de covariance respectives U Iq Iq∗ U ∗ = PF et U (I − Iq )(I − Iq )∗ U ∗ = (I − PF ). De
plus, par la proposition 10.1.7, PF (I − PF )∗ = U Iq U ∗ U (I − Iq )∗ U ∗ = 0 donc PF X et (I − PF )X
sont indépendants.
2. Pour le deuxième point, en utilisant la nature orthogonale de U , les normes des projections sont
données par
∥PF X∥22 = ∥U Iq U ∗ X∥22 = ∥U Iq Y ∥22 = ∥Iq Y ∥22 ∼ χ2q
et
∥(I − PF )X∥22 = ∥(I − Iq )Y ∥22 ∼ χ2d−q ,
car les variables aléatoires Y1 , . . . , Yd sont indépendantes et de loi gaussiennes centrées réduites.

Remarque 86. Ce théorème est un analogue en “loi” du théorème de Pythagore. L’identité ∥x∥22 =
d
∥PF x∥22 + ∥(I − PF )x∥22 pour x ∈ Rd devient en effet ∥X∥22 = ∥PF X∥22 + ∥(I − PF )X∥22 .
Le théorème précédent se dérive en de multiples corollaires plus ou moins importants ou utile. À titre
d’exemple, nous en donnons deux, le deuxième étant particulièrement intéressant en statistique.

131
Corollaire 10.2.4 (Théorème de Cochran généralisé). Soit X un vecteur gaussien de Rd de moyenne
µ ∈ Rd et de matrice de covariance σ 2 I pour σ 2 > 0. Soit F1 , · · · , Fk des sous espaces vectoriels, de
dimensions respectives d1 , · · · dk , deux à deux orthogonaux tels que Rd = F1 ⊕ · · · ⊕ Fk . On note PFi les
projeteurs orthogonaux sur Fi . Alors
1. les vecteurs aléatoires Yi = σ −1 PFi (X − µ), 1 ≤ i ≤ k sont deux à deux indépendants de lois
respectives N (0, σ −1 PFi ) ;
2. les variables aléatoires réelles ∥Yi ∥2 , 1 ≤ i ≤ k, sont deux à deux indépendantes de lois respectives
χ2 (di ).
X−µ
Démonstration. On pose X̃ = σ ∼ N (0, I) et on procède par induction l’aide du théorème de Cochran
simplifié.
Corollaire 10.2.5. Soit X un n-échantillon de loi N (µ, σ 2 ). On définit la moyenne et la variance
empiriques non biaisée de X
n n
1X 1 X
Mn = Xi , Vn = (Xi − Mn )2 .
n i=1 n − 1 i=1

Alors Mn suit une loi N (µ, σ 2 /n), Mn et Vn sont indépendantes et (n − 1)Vn /σ 2 suit la loi du χ2n−1 .
Démonstration. Soit Y = (Y1 , . . . , Yn )∗ un vecteur gaussien centré réduit. On note
n n
1X 1 X
Y = Yi et R2 = (Yi − Y )2 .
n i=1 n − 1 i=1
1 1 1
La variable Y = n 1Y , c’est l’image de Y par la transformation linéaire A = n (1, . . . , 1) = n. Ainsi, Y
| {z }
n
est une v.a.r. gaussienne centrée de variance 1/n.
On pose
PnF = vect 1. On vérifie que la projection orthogonale sur F notée PF est définie par PF y = y1
où y = n1 i=1 yi . En effet, y1 ∈ F et
n
X
⟨y − y1, 1⟩ = (yi − y) = 0,
i=1


si bien que y − y1 ∈ F . Par conséquent PF Y = Y et Y − Y 1 = (I − PF )Y . En appliquant le théorème
de Cochran en remarquant que F ⊥ est de dimension n − 1. Ainsi la variable
n
X
∥Y − Y 1∥2 = (Yi − Y )2 = (n − 1)R2 ∼ χ2n−1
i=1

et est indépendante de Y . Ceci montre le théorème dans le cas centré et réduit.


Si X est un n-échantillon de loi N (µ, σ 2 ), alors Y = σ −1 (X1 − µ, . . . , Xn − µ) est un vecteur gaussien
centrée réduit et X = µ1 + σY . Il s’en suit immédiatement que X1 ∈ F et X suit une loi gaussienne de
moyenne µ et de variance σ 2 . De plus, X − X1 = σ(Y − Y 1) ∈ F ⊥ si bien que
1
(n − 1)Vn /σ 2 = ∥X − X1∥2 = ∥Y − Y 1∥2 ∼ χ2n−1 .
σ2
Enfin, Vn et X sont indépendantes car (I − PF )X et PF X sont indépendantes et Vn ainsi que X sont
respectivement (I − PF )X et PF X mesurables.
Remarque 87. La loi de Student Tn à n degrés de liberté est la loi de la variable √X où X ∼ N (0, 1)
Y /n
est indépendante de Y ∼ χ2n . Par conséquent, le résultat précédent montre que
√ Mn − µ
n √ ∼ Tn−1 .
Vn
Attention toutefois, nous sommes dans le contexte gaussien ! En particulier, moyenne empirique et
variance empirique ne sont en général pas indépendantes.

132
Chapitre 11

Convergences de suites de variables


aléatoires

11.1 Convergences trajectorielles


Soit (Ω, F, P) un espace probabilisé et on considère (Xn )n≥1 une suite de variables aléatoires à valeurs
dans Rd . Un certain nombre des résultats suivants s’adaptent sans difficulté majeure aux cas des variables
aléatoires à valeurs dans un espace métrique, nous ne considérerons pas ce niveau de détails.

11.1.1 Convergence presque sûre ou presque partout


Définition 11.1.1. On dit que (Xn )n≥1 converge vers X presque-sûrement si

P( lim Xn = X) = P({ω ∈ Ω : lim Xn (ω) = X(ω)}) = 1.


n→∞ n→∞

Proposition 11.1.2. Une suite de v.a.r. (Xn )n≥1 converge presque sûrement vers X si et seulement si

∀ε > 0, P(lim sup{|Xn − X| > ε}) = 0.

Remarque 88. Attention, il s’agit de l’ensemble limite supérieure. Autrement dit, pour tout ε > 0, avec
probabilité 1, |Xn − X| ≤ ε pour tout n ≥ 1 sauf pour un nombre fini.
En probabilité on parle de convergence presque-sûre là où en analyse on parle de convergence presque-
partout. Bien entendu, dans le dernier cas, la mesure considérée n’est pas nécessairement une probabilité
mais les deux notions n’en restent pas moins identiques.
Démonstration. C’est une condition nécessaire. Fixons ε > 0. Si ω ∈ lim sup {|Xn − X| > ε}, il existe
une infinité de n pour lesquels |Xn (ω)−X(ω)| > ε et la suite ne converge pas. Aussi, lim sup {|Xn −X| >
ε} ⊂ {limn→∞ Xn = X}∁ et donc

P(lim sup {|Xn − X| > ε}) ≤ 1 − P( lim Xn = X) = 0.


n→∞

Pour la réciproque, considérons l’ensemble N = k≥0 lim sup {|Xn − X| > 2−k }. Il vient facilement
S
que X
P(N ) ≤ P(lim sup {|Xn − X| > 2−k }) = 0.
k≥1

Si ω ∈ N ∁ , pour tout k ≥ 1, ω ∈ lim inf {|Xn − X| ≤ 2−k } et par suite, il existe un entier N = N (ω) tel
que pour tout n ≥ N , |Xn (ω) − X| ≤ 2−k . Xn (ω) converge donc vers X(ω) pour tout ω ∈ N ∁ qui est de
mesure pleine. (Remarquons tout de même que la convergence n’est pas uniforme).
P
Corollaire 11.1.3. Si, pour tout ε > 0, n≥1 P(|Xn − X| > ε) < ∞ alors (Xn )n≥1 converge presque
sûrement vers X.
Démonstration. C’est une conséquence du lemme 8.2.1 de Borel-Cantelli et de la proposition 11.1.2.

133
Exemple 46. Rappelons que si X est une variable aléatoire positive alors
X
E(X) < ∞ ssi P(X > n) < ∞.
n≥0

Ce résultat a été vu en exercice


R∞ lors du cours d’intégration, donnons-en une démonstration alternative.
Tout d’abord, X = 0 1(t,∞) (X) dt (le vérifier pour les fonctions étagées positives) et en prenant
l’espérance le théorème de Fubini implique
Z ∞  Z ∞ Z ∞
E(X) = E 1(t,∞) (X) dt = E(1(t,∞) (X)) dt = P(X > t) dt.
0 0 0

D’autre part, comme t → P(X > t) est décroissante,


X Z ∞ XZ n+1 X
P(X > n + 1) ≤ P(X > t) dt = P(X > t) dt ≤ P(X > n). (11.1)
n≥0 0 n≥0 n n≥0

Si (Xn )n≥1 est une suite variables aléatoires réelles identiquement distribuées alors Xn /n converge
vers 0 p.s. dès que X1 ∈ L1 . En effet, pour tout ε > 0
X X X
P(|Xn | > nε) = P(|X1 | > εn) = P(ε−1 |X1 | > n)
n≥1 n≥1 n≥1

qui est finie si E(ε−1 |X1 |) est finie ou E|X1 | < ∞. Si les Xn sont de plus supposées indépendantes
P le second lemme de Borel-Cantelli implique que P(lim sup{|Xn | > nε}) = 0 si et seulement si
alors
n≥1 P(|Xn | > nε) = ∞.
Le lemme suivant est utile lorsque l’on veut montrer qu’une suite converge presque sûrement sans
connaı̂tre la limite a priori.
P
Lemme 11.1.4. Soit (εn )n≥1 une suite de réels positifs tels que n≥1 εn < ∞. Supposons que
X
P(|Xn+1 − Xn | > εn ) < ∞,
n≥1

alors (Xn )n≥1 converge presque sûrement.


Pn−1
Démonstration. On écrit Xn sous la forme Xn = X0 + k=0 Xk+1 − Xk . Par le lemme de Borel-Cantelli
8.2.1, P(lim sup{|Xn+1 − Xn | > εn }) = 0. Or si ω ∈ lim inf{|Xn+1 (ω) − Xn (ω)| ≤ εn }, il existe un entier
N = N (ω) tel que pour tout k ≥ N , |Xk+1 (ω) − Xk (ω)| ≤ εk . D’où la convergence de la séries.
Proposition 11.1.5. Soit (Xn )n≥0 est une suite de variables aléatoires à valeurs dans Rd . Alors (Xn )n≥0
converge vers X ∈ Rd presque sûrement si et seulement si pour tout i ∈ {1, . . . , d}, la suite de la ième
(i)
coordonnées Xn converge presque sûrement vers la ième coordonnées X (i) de X. Si f : Rd → Rp est
une fonction continue, alors (f (Xn ))n≥0 converge presque sûrement vers f (X).

Démonstration. Élémentaire.

11.1.2 Convergence dans Lp


Définition 11.1.6. Une suite de variables aléatoires (Xn )n≥0 ⊂ Lp converge vers X en moyenne d’ordre
p si
lim E(|Xn − X|p ) = 0.
n→∞

Autrement dit, c’est la convergence en norme dans Lp .


Théorème 11.1.7. (Convergence dominée) Soit (Xn )n≥1 une suite de variables aléatoires convergeant
vers X p.s. et telle qu’il existe une variable aléatoire Y satisfaisant

∀n ≥ 0, ∥Xn ∥ ≤ Y P − p.s., avec Y ∈ Lp .

Alors, (Xn )n≥1 ⊂ Lp et converge vers X dans Lp .

134
Remarque 89. Notons qu’une suite Xn bornée convergeant presque-sûrement vers X converge également
dans Lp en choisissant Y = c presque-sûrement pour un c ≥ 0 convenable.
Proposition 11.1.8. Soit (Xn )n≥0 ⊂ Lq . Si (Xn )n≥0 converge vers X dans Lq alors (Xn )n≥0 converge
vers X dans Lp pour tout p ≤ q.
Démonstration. Inégalité de Hölder
Remarque 90. En fait, comme P est une probabilité et donc que les constantes sont intégrables, on a
que Lp ⊂ Lq pour tout p ≤ q.
Les cas les plus utiles de la convergence en moyenne sont p = 1 et p = 2.
Exemple 47. Soit (Xn )n≥0 une suite de variables aléatoires réelles d’espérance µn et de variance σn2 . On
suppose que
σn2
lim |µn | = ∞ et lim = 0.
n→∞ n→∞ |µn |

Alors, Xn /µn converge vers 1 dans L2 . En effet, par définition :

1 σ2
E(|Xn /µn − 1|2 ) = 2
E|Xn − µn |2 = n2 −→n→∞ 0.
µn µn
On remarque que par un calcul très similaire et en appliquant l’inégalité de Cauchy-Schwartz, on obtient
la converge dans L1 sous les mêmes hypothèses. Mais ce résultat découle bien entendu également de
l’emboı̂tement des espaces Lp .

11.1.3 Convergence en probabilité


Définition 11.1.9. Une suite (Xn )n≥1 converge vers X en probabilité si

∀ε > 0, lim P(|Xn − X| > ε) = 0.


n→∞

Remarque 91. Remarquons que le symbole lim est à l’extérieur de la probabilité contrairement au cas de la
convergence presque-sûre. C’est la raison pour laquelle la convergence en probabilité est plus faible (c.f. la
proposition 11.1.11). Étant plus faible, il est souvent plus facile de montrer une convergence en probabilité
qu’une convergence presque-sûre. Cependant, cette convergence apporte moins d’informations.
Proposition 11.1.10. Soient (Xn )n≥0 une suite de vecteurs aléatoires et f : Rd → Rp une fonction
continue. Alors
(i)
1. Xn converge vers X en probabilité si et seulement si Xn converge vers X (i) pour tout i ∈
{1, · · · , d} ;
2. si Xn converge vers X en probabilité alors f (Xn ) converge vers f (X).
Démonstration. La preuve du point i) est élémentaire. Pour ii), ce n’est plus aussi immédiat que dans
le cadre de la convergence presque-sûre. Puisque f est continue, elle est uniformément continue sur les
compacts. Fixons ε > 0 et a > 0, alors il existe η = ηa,ε tel que

|x| ≤ a et |x − y| ≤ η =⇒ |f (x) − f (y)| ≤ ε.

Aussi, {|X| ≤ a} ∩ {|Xn − X| ≤ η} ⊂ {|f (Xn ) − f (X)| ≤ ε} et il vient, en passant au complémentaire


que

P(|f (Xn ) − f (X)| > ε) ≤ P({|X| > a} ∪ {|Xn − X| > η}) ≤ P(|X| > a) + P(|Xn − X| > η)

qui conduit à

lim sup P (|f (Xn ) − f (X)| > ε) = P(|X| > a) + lim sup P(|Xn − X| > η).
n→∞ n→∞

Nous avons ε > 0, a > 0 et η > 0 et comme Xn converge en probabilité vers X, le second terme à droite
est nul. D’un autre côté, lorsque a tend vers ∞, P(|X| > a) → 0 et donc la limite supérieure à gauche
de l’inégalité est en fait une limite laquelle est nulle. Ce qui montre le résultat.

135
La proposition suivante implique que la convergence en probabilité est la plus faible des convergences
trajectorielles.
Proposition 11.1.11. Si (Xn )n≥0 converge vers X presque-sûrement ou dans Lp , p ≥ 1, alors (Xn )n≥0
converge vers X en probabilité.
Démonstration. Supposons tout d’abord que Xn converge p.s. vers X alors
P(|Xn − X| > ε) = E(1(ε,∞) (|Xn − X|)).
Or, 1(ε,∞) (|Xn − X|) converge presque sûrement vers 0 et reste bornée donc par le théorème de conver-
gence dominée, on obtient la convergence en probabilité. Si Xn converge vers X dans Lp alors l’inégalité
de Markov donne
P(|Xn − X| > ε) = P(|Xn − X|p > εp ) ≤ ε−p E(|Xn − X|p ) −→ 0.

Remarque 92. Si Xn converge en probabilité à la fois vers X et vers Y alors X = Y presque sûrement.
En effet, soit ε > 0
P(|X − Y | > ε) ≤ P(|X − Xn | + |Xn − Y | > ε) ≤ P(|Xn − X| > ε/2) + P(|Xn − Y | > ε/2).
Ainsi, sans préjuger de l’éventuelle convergence presque-sûre ou dans Lp , si Xn converge en probabilité
vers X, le bon candidat pour la limite presque-sûre ou dans Lp est également X.
Proposition 11.1.12. Soit (Xn )n≥0 une suite de vecteurs aléatoires dans L2 telles que
lim E(Xn ) = a ∈ Rd et lim V(Xn ) = 0.
n→∞ n→∞

Alors Xn converge vers a en probabilité.


Démonstration. Soit ε > 0, par hypothèse, on peut trouver N ≥ 0 tel que pour tout n ≥ N , |E(Xn )−a| <
ε/2. On remarque alors, par l’inégalité triangulaire, que pour tout n ≥ 0
{|Xn − a| > ε} ⊂ {|Xn − E(Xn )| > ε/2}.
Appliquant l’inégalité de Bienaymé-Tchebychev
2V(Xn )
P(|Xn − a| > ε) ≤ P(|Xn − E(Xn )| > ε/2) ≤ → 0.
ε

La réciproque de la proposition 11.1.11 est généralement fausse. Toutefois, dans certaines circons-
tances, la convergence en probabilité implique la convergence presque-sûre et sous des conditions de
domination la convergence dans Lp . C’est l’objet des deux propositions suivantes.
Proposition 11.1.13. Si une suite de variables aléatoires (Xn )n≥0 converge en probabilité vers X, alors
il existe une sous-suite (Xnr )r≥0 qui converge presque-sûrement.
Remarque 93. En particulier, toute valeur d’adhérence en probabilité d’une suite (Xn )n≥0 est valeur
d’adhérence presque-sûre.
Démonstration. Pour tout r ≥ 0, limn→∞ P(|Xn − X| > 2−r−1 ) = 0. Il existe donc un entier nr tel que
∀n ≥ nr , P(|Xn − X| > 2−r−1 ) ≤ 2−r−1 .
On peut supposer la suite nr strictement croissante puisque si nr convient alors nr +1 convient également.
Ainsi pour tout r ≥ 0,
P(|Xnr+1 − Xnr | > 2−r ) ≤ P(|Xnr+1 − X| > 2−r−1 ) + P(|Xnr − X| > 2−r−1 ) ≤ 2−r .
Alors le lemme 11.1.4 implique la convergence presque-sûre de (Xnr )r≥0 . Notons Y la limite. La conver-
gence presque-sûre implique la convergence en probabilité, donc du fait de la remarque 92, X = Y
presque-sûrement.

136
Proposition 11.1.14. Si Xn est une suite de variables aléatoires réelles décroissante et convergente
vers 0 en probabilité, alors Xn converge presque-sûrement (vers 0).

Démonstration. Puisque (Xn )n≥0 converge en probabilité, par la proposition 11.1.13, il existe une sous-
suite nℓ ↑ ∞ d’entiers telle que (Xnℓ )ℓ≥0 qui converge presque-sûrement et la limite est nécessairement
0. Pour k ≥ 0, on introduit Nk = sup{ℓ ≥ 0 : nℓ ≤ k}. Alors, l’hypothèse de décroissance implique

XnNk −1 ≤ Xk ≤ XnNk .

Or, lorsque k → ∞, Nk → ∞ puisque nℓ ↑ ∞ et Xk → 0 presque-sûrement.

11.1.4 Convergence trajectorielle et critère de type Cauchy


Rappelons qu’une suite (xn )n≥0 dans (Rd , | · |) est dite de Cauchy si

∀ε > 0, ∃N ≥ 0 : n, m ≥ N =⇒ |xn − xm | ≤ ε.

Rappelons également que dans un espace métrique complet les suites de Cauchy sont exactement les
suites convergentes. La proposition suivante donne un tel critère de type Cauchy dans le cadre de la
convergence trajectorielle.

Proposition 11.1.15. Soit (Xn )n≥0 une suite variable aléatoire dans Rd .
1. (Xn )n≥0 converge presque-sûrement si et seulement si

∀ε > 0 : lim P(sup |Xn+r − Xn | > ε) = 0 ;


n→∞ r≥0

2. (Xn )n≥0 converge en probabilité si et seulement si

∀ε > 0 : lim sup P(|Xn+r − Xn | > ε) = 0 ;


n→∞ r≥0

3. (Xn )n≥0 converge dans Lp , p ∈ [1, ∞) si et seulement si

lim sup E(|Xn+r − Xn |p ) = 0.


n→∞ r≥0

Remarque 94. Le symbole sup est à l’intérieur de la probabilité pour la convergence presque-sûre là où il
est à l’extérieur pour la convergence en probabilité. Cela illustre encore une fois le fait que la convergence
en probabilité est plus faible que la convergence presque-sûre.
Remarque 95. Pour le dernier point, il s’agit en fait de la complétude des espaces Lp , p ∈ [1, ∞). L’espace
L∞ est également complet, on rappelle que la norme sur L∞ est la norme du supremum essentiel :

∥X∥∞ = inf{c > 0 : P(|X| > c) = 0}.

Démonstration. 1. Si (Xn )n≥0 converge presque-sûrement, elle est donc presque-sûrement de Cauchy,
c’est à dire que la variable aléatoire supr≥0 |Xn+r − Xn | converge vers 0 presque-sûrement donc
en probabilité. Aussi,
∀ε > 0 : lim P(sup |Xn+r − Xn | > ε) = 0.
n→∞ n≥r

D’où le résultat. Réciproquement, supposons cette dernière condition satisfaite et introduisons la


variable aléatoire Vn définie par
Vn = sup |Xp − Xq |.
p≥n,q≥n

La suite (Vn )n≥0 est décroissante (pour tout ω ∈ Ω soit dit en passant) et converge vers 0 en
probabilité par hypothèse. Ainsi, elle converge vers 0 presque-sûrement par la proposition 11.1.14.
Avec probabilité 1, la suite (Xn ) est donc de Cauchy, elle converge presque-sûrement car Rd est
complet.

137
2. Si (Xn )n≥0 converge vers X en probabilité, il vient, pour tout r ∈ N, puisque |Xn+r − Xn | ≤
|Xn+r − X| + |Xn − X|,

P(|Xn+r − Xn | > ε) ≤ P(|Xn+r − X| > ε/2) + P(|Xn − X| > ε/2) ≤ 2 sup P(|Xk − X| > ε/2).
k≥n

Le majorant, qui ne dépend plus de r ≥ 0, à droite tend vers la plus grande d’adhérence de
P(|Xk − X| > ε/2), c’est à dire 0 par hypothèse de convergence en probabilité. Réciproquement,
si
∀ε > 0, lim sup P(|Xn+r − Xn | > ε) = 0,
n→∞ r≥0

on peut donc construire une suite strictement croissante d’entiers nr telle que

sup P(|Xnr +k − Xnr | > 2−r ) ≤ 2−r .


k≥0

En particulier, P(|Xnr +1 −Xnr | > 2−r ) ≤ 2−r . D’après le lemme 11.1.4, la suite (Xnr )r≥0 converge
presque-sûrement donc en probabilité vers une certaine variable aléatoire X. On a alors

P(|Xk − X| > ε) ≤ P(|Xnk − Xk | > ε/2) + P(|Xnk − X| > ε/2)


≤ sup P(|Xk+r − Xk | > ε/2) + P(|Xnk − X| > ε/2),
r≥0

car k ≤ nk . Lorsque k → ∞, à droite de l’inégalité, le premier terme tend vers 0 par hypothèse et
le second par la convergence en probabilité de (Xnk )k≥0 .
3. Pour le troisième point, il s’agit de la complétude des espaces Lp . Il est clair que (Xn )n≥0 converge
en norme Lp alors (Xn )n≥0 est de Cauchy dans Lp . Réciproquement, soit (Xn )n≥0 une suite de
Cauchy dans Lp , p ∈ [1, ∞]. Afin d’avoir une notation unifiée, on travaille avec les normes plutôt
qu’avec les espérances. Soit (Xn )n≥0 une suite de Cauchy dans Lp , alors on peut trouver une
sous-suite nk strictement croissante tel que pour tout k ≥ 0

∥Xnk+1 − Xnk ∥p ≤ 2−k .


P
On pose Y = k≥0 |Xnk+1 − Xnk |, c’est une fonction mesurable positive. De plus, on vérifie
facilement, à l’aide du théorème de convergence de Beppo-Lévy et de l’inégalité de Minkowski,
que X
∥Y ∥p ≤ ∥Xnk+1 − Xnk ∥p < ∞.
k≥0
P
Ainsi, la série de variable aléatoire k≥0 (Xnk+1 − Xnk )p converge absolument et donc presque-
sûrement. La suite de variable aléatoire Xnk converge également presque-sûrement vers un point
d’adhérence presque-sûre de Xn , que l’on notera X̄. De plus,
X
∥X̄ − Xnk ∥p ≤ ∥Xnk+1 − Xnk ∥p ≤ 2−n+1 .
k≥n

Ainsi, X̄ est également une valeur d’adhérence de Xn dans Lp . Finalement, on conclut en remar-
quant qu’une suite de Cauchy admet au plus une valeur d’adhérence

Remarque 96. Dans le troisième point, on montre au passage qu’une suite convergente dans Lp admet
une sous-suite convergente presque-sûrement.

11.2 Convergence étroite et convergence en loi


Les différents modes de convergence de la section précédente concernaient les variables aléatoires :
ce sont des modes de convergence de suites de fonctions, les variables aléatoires sont vues comme des
fonctions. Dans cette partie, on s’intéresse à la convergence des lois de variables aléatoires.

138
11.2.1 Convergence étroite
Définition 11.2.1. Soit (µn )n≥0 une suite de probabilités sur (Rd , B(Rd )). On dit que (µn )n≥0 converge
étroitement vers µ si pour toute fonction continue bornée f : Rd → R
Z Z
lim f dµn = f dµ.
n→∞ Rd Rd

Remarque 97. La continuité des fonctions f est essentielle : si (µn )n→∞ converge étroitement vers µ, il
est en général faux de dire que µn (B) converge vers µ(B) pour B un borélien quelconque. Par exemple,
δ1/n converge étroitement vers δ0 et δ1/n ({0}) = 0 pour tout n ≥ 1 tandis que δ0 ({0}) = 1.
Remarque 98. Une suite de probabilité (µn )n≥1 converge étroitement vers µ, alors µ est une probabilité.

∥·∥∞
Théorème 11.2.2. Soit H ⊂ Cb (Rd ) tel que Cc (Rd ) ⊂ H . Une suite (µn )n≥0 de probabilités converge
étroitement vers µ si et seulement si
Z Z
∀f ∈ H : f (x) dµn (x) = f (x) dµ(x).
Rd Rd

Démonstration. Montrons tout d’abord le résultat dans le cas où H est l’espace des fonctions à support
compact. On utilise un argument de troncature. Considérons, pour r > 0, la fonction θr : R+ → [0, 1]
suivante : θr (x) = 1 si x ∈ [0, r], θr (x) = 0 si x ≥ 2r et θr est affine sur [r, 2r] — c.f. Figure 11.1.
1.0

1.0
0.8

0.8
0.6

0.6
1 − θr(x)
θr(x)

0.4

0.4
0.2

0.2
0.0

0.0

0 1 2 3 4 0 1 2 3 4

x x

(a) Graphe de θr . (b) Graphe de 1 − θr .

Figure 11.1 – La fonction θr impliquée dans l’argument de troncature permet d’approcher une fonction
continue bornée par une fonction continue à support compact.

Si f est une fonction continue bornée et ν une probabilité sur Rd , on peut écrire
Z Z Z
f (x) ν(dx) = f (x)θr (|x|) ν(dx) + f (x)[1 − θr (|x|)] ν(dx),
Rd Rd Rd

et  
Z Z
f (x)[1 − θr (|x|)] ν(dx) ≤ ∥f ∥∞ 1 − θr (|x|) ν(dx) .
Rd Rd

Appliquée aux mesure µn et µ, on obtient l’inégalité


Z Z Z Z
f (x) µn (dx) − f (x) µ(dx) ≤ f (x)θr (|x|) µn (dx) − f (x)θr (|x|) µ(dx)
Rd Rd Rd Rd
 Z Z 
+ ∥f ∥∞ 2 − θr (|x|) µn (dx) − θr (|x|) µ(dx) . (11.2)
Rd Rd

139
On remarque que pour tout r > 0, les fonctions x → θr (|x|) et x → f (x)θr (|x|) sont continues à support
compact si bien que, par hypothèse,
Z Z
lim f (x)θr (|x|) µn (dx) = f (x)θr (|x|) µ(dx)
n→∞ Rd Rd
Z Z
lim θr (|x|) µn (dx) = θr (|x|) µ(dx). (11.3)
n→∞ Rd Rd

Par conséquent, pour tout r > 0,


Z Z  Z 
lim sup f (x) µn (dx) − f (x) µ(dx) ≤ 2∥f ∥∞ 1 − θr (|x|) µ(dx) .
n→∞ Rd Rd Rd

Pour conclure, il suffit d’appliquer le théorème de convergence dominée : limr→∞ θr (|x|) = 1 avec la
domination 0 ≤ θr (|x|) ≤ 1, la fonction constante égale à 1 étant intégrable puisque µ est une probabilité.
Ceci implique que Z
lim θr (|x|) µ(dx) = µ(Rd ) = 1.
r→∞ Rd
∥·∥∞
On considère désormais le cas d’un H ⊂ Cb (Rd ) et tel que Cc (Rd ) ⊂ H . Soit f ∈ Cc (Rd ), alors
pour tout h ∈ H
Z Z Z Z
f (x) µn (dx) − f (x) µ(dx) ≤ h(x) µn (dx) − h(x) µ(dx) + 2∥f − h∥∞ .
Rd Rd Rd Rd

Ainsi, pour toute fonction h ∈ H,


Z Z
lim sup f (x) µn (dx) − f (x) µ(dx) ≤ 2∥f − h∥∞ .
n→∞ Rd Rd

Cette inégalité est donc valide pour tout h ∈ H si bien que le membre de droite est majoré par inf h∈H ∥f −
∥·∥∞ ∥·∥∞
h∥∞ = d(f, H) = d(f, H ) = 0 puisque Cc (Rd ) ⊂ H .
Théorème 11.2.3 (Portmanteau). Soient (µn )n≥0 une suite de probabilités sur (Rd , B(Rd )) et µ une
probabilité sur (Rd , B(Rd )) Les assertions suivantes sont équivalentes.
1. La suite µn converge étroitement vers µ.
2. Pour tout fermé F , lim supn→∞ µn (F ) ≤ µ(F ).
3. Pour tout ouvert G, µ(G) ≤ lim inf n→∞ µn (G).
4. Pour tout borélien tel que µ(B̄ \ Int B) = 0, limn→∞ µn (B) = µ(B).
5. Pour toute fonction bornée telle que µ(Df ) = 0, où Df est l’ensemble des points de discontinuité
de f Z Z
lim f (x) dµn (x) = f (x) dµ(x).
n→∞ Rd Rd

Démonstration. 1. Supposons que µn converge étroitement vers µ et donnons nous un fermé F de


Rd . La fonction fk (x) = (1 + d(x, F ))−k est continue et bornée pour tout k ≥ 1. De plus, fk
converge en décroissant vers 1F . On a donc pour tout k ≥ 1
Z Z Z
lim sup µn (F ) = lim sup lim fk (x) dµn (x) ≤ lim sup fk (x) dµn (x) = fk (x) dµ(x).
n→∞ n→∞ Rd k→∞ n→∞ Rd Rd
R
Par convergence dominée, limk→∞ Rd
fk (x) dµ(x) = µ(F ) et donc lim supn→∞ µn (F ) ≤ µ(F ).
2. Les points 2 et 3 sont équivalent par passage au complémentaire.
3. Les points 2 et 3 implique le point 4. En effet, Int B ⊂ B ⊂ B pour tout borélien B. Par
conséquent,

µ(Int B) ≤ lim inf µn (Int B) ≤ lim inf µn (B) ≤ lim sup µn (B) ≤ lim sup(B) ≤ µ(B).
n→∞ n→∞ n→∞ n→∞

140
4. La partie plus délicate consiste à montrer que 4 implique 5. Soit f : Rd → R une fonction
bornée. Par le lemme 7.2.16, l’ensemble Df = {t ∈ R : µ({x ∈ Rd : f (x) = t}) > 0} des
points de discontinuités de la fonction de répartition de la variable aléatoire réelle f définie sur
(Rd , B(Rd ), µ) est au plus dénombrable. Son complémentaire D = Df∁ est donc dense. Soit c > 0
tel que ∥f ∥∞ ≤ c. Soit ε > 0 ; il existe un nombre fini de points t1 , t2 , . . . , tr de D tels que t1 < −c,
tr > c et max1≤i≤r |ti − ti−1 | ≤ ε. Considérons la fonction

r−1
X
g(x) = ti 1[ti ,ti+1 ) (f (x)).
i=1

Alors, pour tout x ∈ Rd , |f (x) − g(x)| ≤ maxi≤r |ti − ti−1 | ≤ ε, de sorte que
Z Z Z Z
f (x) dµn (x) − f (x) dµ(x) ≤ g(x)dµn (x) − g(x) dµ(x) + 2ε.
Rd Rd Rd Rd

D’autre part, pour tout n ≥ 0,


Z r−1
X
g(x)dµn (x) = ti µn (f ∈ [ti , ti+1 )),
Rd i=1

et de même pour l’intégrale de g contre µ. Il reste donc à montrer, pour conclure, que pour tout
1 ≤ i ≤ r −1, la frontière de Bi = {f ∈ [ti , ti+1 )} est de µ-mesure nulle. Remarquons pour cela que
{x ∈ Df∁ : ti < f (x) < ti+1 } est l’image réciproque d’un ouvert par une fonction continue (x ∈ Df∁ )
qui est contenu dans Bi donc dans Int B. De même, B ⊂ {x ∈ Df∁ : ti ≤ f (x) ≤ ti+1 } ∪ Df . Par
conséquent,
B \ Int B ⊂ ∪ri=1 {x ∈ Rd : f (x) = ti } ∪ Df
et comme les ti sont dans D, le résultat s’en suit.
5. le fait que le point 5 implique le point 1 est immédiat.

Définition 11.2.4 (Tension). Une famille de probabilités M = (µi )i∈I sur (Rd , B(Rd )) est dite tendue
si pour tout ε > 0 on peut trouver un compact K ⊂ Rd tel que, pour tout i ∈ I, µi (K ∁ ) ≤ ε.

Exemple 48. Si la famille M = {µ} ne contient qu’un élément alors M est trivialement tendue. Il en va
de même pour toute famille finie, ou pour toute réunion finie de famille tendue. Si K est un compact non
vide de Rd , on note M1 (K) l’espace des probabilité sur K. Cette famille de probabilité est trivialement
tendue.
Remarque 99. Cette notion se généralise très facilement aux espaces topologiques. Un cas très important
que l’on ne verra malheureusement pas dans ce cours est l’espace C 0 ([0, 1]) qui intervient naturellement
lorsqu’on étudie des processus stochastique continu (le mouvement brownien). La tension n’est alors rien
d’autre que la compacité faible sur l’espace des probabilités sur C 0 ([0, 1]).

Théorème 11.2.5 (Prokhorov). Toute famille de probabilité M sur Rd tendue est relativement compact
pour la topologie de la convergence étroite. Autrement dit, de toute suite (µn )n≥0 ⊂ M, on peut extraire
une sous-suite (µnk )k≥0 qui converge étroitement.

Remarque 100. Le théorème de Prokhorov énonce en fait qu’une famille tendue est compact (pour la
topologie de la convergence étroite) si et seulement si elle est fermée. Il se trouve que M1 (K) est fermée
(utiliser le théorème de Portmanteau avec l’ouvert G = K ∁ ) et tendue, elle est donc compacte.
Ce théorème peut se montrer en appliquant le théorème de Helly sur les fonctions de répartition.
Ce théorème, énoncé et montré ici en dimension 1, se généralise facilement en munissant Rd d’un ordre
partiel ad-hoc ce qui permet notamment de définir la notion de continuité à droite.

Théorème 11.2.6 (Helly). De toute suite de fonction de répartition (Fn )n≥0 , on peut extraire une
sous-suite (Fnk )k≥0 telle qu’il existe une fonction F croissante continue à droite avec Fnk (x) → F (x) en
chaque point de continuité de F .

141
Démonstration. À l’aide du procédé d’extraction diagonale, on commence par construire une suite (nk )
croissante telle que Fnk (x) converge en tout point x rationnel. On note G(x) la limite obtenue. C’est une
fonction croissante. On définit alors

F (x) = inf{G(r), r ∈ Q ∩ (x, ∞)}.

Il est clair que F est croissante. Montrons que F est continue à droite. Soit x ∈ R et ε > 0. Par définition
de F , il existe r > x, r ∈ Q tel que G(r) < F (x) + ε. Il vient que

∀y ∈ [x, r) F (x) ≤ F (y) ≤ G(r) < F (x) + ε,

ce qui montre la continuité à droite de F . Reste à montrer que Fnk converge en chaque point de continuité
de F . Soit un x un tel point et soit ε > 0. Prenons un y < x tel que F (x) − ε < F (y). Il existe des
rationnels r et s vérifiant y < r < x < s, F (y) ≤ G(r) et G(s) < F (x) + ε. Aussi, on obtient en mettant
tout bout à bout
F (x) − ε < G(r) ≤ G(s) < F (x) + ε.
De même, pour tout n ≥ 0, Fn (r) ≤ Fn (x) ≤ Fn (s), et le long de la sous-suite (nk ) construite
précédemment, il vient que

F (x) − ε < G(r) = lim Fnk (r) ≤ lim inf Fnk (x)
k→∞ k→∞
≤ lim sup Fnk (x) ≤ lim Fnk (s) = G(s) < F (x) + ε.
k→∞

D’où limk→∞ Fnk (x) = F (x) ce qui achève la preuve.

On peut désormais montrer le théorème de Prokhorov

Démonstration. Soit (µn )n≥0 une suite de probabilité de M supposée tendue. On note Fn la fonction de
répartition de µn . D’après le théorème de Helly, on peut trouver une suite strictement croissante nk et une
fonction continue à droite croissante telle que Fnk (x) converge vers F (x) pour tout point de continuité x
de F . Une telle fonction F définit une mesure µ telle que pour tout réels a < b, F (b) − F (a) = µ((a, b]).
Il s’agit de montrer que µ est une mesure de probabilité.
Par construction (limite de fonctions de répartition), F prend ses valeurs dans [0, 1] et donc µ(R) =
limn→∞ µ((−n, n]) ≤ 1.
Pour l’inégalité inverse, on se donne ε > 0. Par l’hypothèse de tension, il existe K compact de R tel
que µ(K) ≥ 1 − ε pour tout µ ∈ M. Posons M = sup{|x| : x ∈ K}. Comme l’ensemble des points de
discontinuité d’une fonction croissante est au plus dénombrable, il existe a < −M et b > M tels que F
soit continue en a et en b. Ainsi pour tout k ≥ 1

Fnk (b) − Fnk (a) = µnk ((a, b]) ≥ µnk (K) ≥ 1 − ε.

Comme a, b sont des points de continuité de F , en faisant tendre k vers l’infini, on obtient que F (b) −
F (a) ≥ 1 − ε et donc µ(R) ≥ µ((a, b]) ≥ 1 − ε pour ε > 0 qui peut être choisi arbitrairement petit. Donc
µ(R) = 1. Comme Fnk (x) converge vers F (x) en chaque point de continuité de F , on conclut que µnk
converge en étroitement vers µ.

Remarque 101. Si par ailleurs, il n’y a qu’un seul point limite — ce qui est souvent pas trop difficile à
vérifier — alors (µn )n≥1 converge étroitement vers µ, l’unique point limite.

Proposition 11.2.7. Soit (µn )n≥1 une suite de probabilité gaussienne sur Rd . Pour tout n ≥ 1, on note
respectivement mn ∈ Rd et Σ2n ∈ Md (R) la moyenne et la matrice de covariance de µn . Alors, la famille
(µn )n≥1 est tendue si et seulement si les familles (mn )n≥0 et (Σ2n )n≥0 sont bornées dans Rd et Md (R)
respectivement.

Démonstration. Exercice.

142
Nous avons vu la notion de fonction caractéristique d’une variable aléatoire. En réalité, ce n’est rien
d’autre que la transformée de Fourier d’une mesure de probabilité. On note notamment
Z
µ̂ : Rd ∋ t → ei⟨t,x⟩ µ(dx) ∈ C.
Rd

Les preuves des deux théorèmes suivants sont assez longues et ne seront pas présenter ici.
Théorème 11.2.8 (Paul Lévy). Soit (µn )n≥1 une suite de probabilités sur Rd . Si la suite de fonction
(µ̂n )n≥1 converge simplement vers une fonction ϕ continue en 0, alors il existe une probabilité µ sur Rd
telle que ϕ = µ̂ et (µn )n≥0 converge étroitement vers µ.
Corollaire 11.2.9. Une suite de probabilité (µn )n≥0 converge étroitement vers µ si et seulement si
(µ̂n )n≥1 converge simplement vers µ̂.

11.2.2 Convergence en loi


Soient (Xn )n≥1 et X des variables aléatoires dans Rd .
Définition 11.2.10. La suite (Xn )n≥1 converge vers X en loi si la suite de probabilités (PXn )n≥1
converge étroitement vers PX .
De manière équivalente, (Xn )n≥1 converge en loi vers X si et seulement si pour toute fonction continue
bornée
lim E(f (Xn )) = E(f (X)),
n→∞
ou encore que
∀t ∈ Rd , lim ϕXn (t) = E(ei⟨t,Xn ⟩ ) → ϕX (t) = E(ei⟨t,X⟩ ).
n→∞
Notons que la convergence en loi concerne bien la loi de Xn et ne dit rien en général sur le compor-
tement de Xn (ω), ω ∈ Ω. Du reste, il n’est pas nécessaire que tous les Xn partagent le même espace de
probabilité.
Proposition 11.2.11. Soient (Xn )n≥1 et X des v.a.r.. La suite (Xn )n≥1 converge en loi vers X si et
seulement si, pour tout t ∈ R où FX est continue, limn→∞ FXn (t) = FX (t).
Remarque 102. En fait l’existence d’une fonction F telle que la condition soit vérifiée implique l’existence
d’une variable aléatoire X telle que Xn converge en loi vers X.
Démonstration. C’est une conséquence de la remarque précédente et du théorème de Portmanteau.
Exemple 49. Soit (Un )n≥0 une suite v.a. i.i.d. de loi uniforme sur [0, θ], θ > 0. On pose pour n ≥ 1,
Xn = max{Ui : 1 ≤ i ≤ n}. D’une part, on montre que Xn converge en probabilité vers θ. En effet, soit
ε > 0,  n
θ−ε
P(|Xn − θ| > ε) = P(Xn < θ − ε) = → 0,
θ
lorsque n → ∞.
Autrement dit, Xn est un estimateur consistant 1 de θ > 0. On peut s’intéresser à la vitesse de
convergence de cet estimateur. Pour cela, on doit établir une convergence en loi. Soit Zn = n(θ − Xn )
pour tout n ≥ 0. On calcule la fonction de répartition de Zn . Soit t ∈ R
FZn (t) = P(Zn ≤ t) = P(Xn ≥ θ − t/n)
= 1 − P(Xn < θ − t/n)
 n
t
= 1 − 1[0,nθ] (t) 1 − .

Lorsque n → ∞, FZn (t) converge simplement vers F (t) = 1 − 1[0,∞] (t)e−t/θ (sauf peut-être en 0). On
reconnaı̂t la fonction de répartition d’une loi exponentielle de paramètre 1/θ.
1. Ces notions seront abordées de manière plus approfondis dans le cours de Statistiques inférentielles. Un estimateur
n’est ni plus ni moins qu’une fonction mesurable d’un échantillon, noté ici (U1 , . . . , Un ). Il est dit faiblement consistant car
il converge en probabilité vers θ. Il est même fortement consistant, c’est à dire que la convergence est presque sûre, car
(Xn ) est croissante.

143
Proposition 11.2.12. Si (Xn )n≥1 converge en loi vers X et si g : Rd → Rq est continue alors
(g(Xn ))n≥1 converge en loi vers g(X).

Démonstration. Trivial.

Remarque 103. En particulier, si ((Xn , Yn ))n≥0 converge en loi vers (X, Y ) alors (Xn )n≥0 converge en
loi vers X et (Yn )n≥0 converge en loi vers Y ; de même que (Xn + Yn )n≥0 et (Xn Yn )n≥0 converge en loi
vers X + Y et XY respectivement.
La proposition suivante montre que la convergence en loi est le mode de convergence le plus faible
parmi ceux évoqués jusqu’ici.

Proposition 11.2.13. Si (Xn )n≥1 converge en probabilité vers X alors (Xn )n≥1 converge en loi vers
X.

Démonstration. Signalons que toutes les variables aléatoires sont définies sur le même espace de proba-
bilité et montrons que ϕXn converge simplement vers ϕX . Soit t ∈ Rd alors

|ϕXn (t) − ϕX (t)| ≤ E|ei⟨t,Xn ⟩ − ei⟨t,X⟩ | ≤ E(min(2, |t||Xn − X|)),

de sorte que, pour tout ε > 0 en écrivant 1 = 1[0,ε] (|Xn − X|) + 1(ε,∞) (|Xn − X|),

|ϕXn (t) − ϕX (t)| ≤ ε|t|P(|Xn − X| ≤ ε) + 2P(|Xn − X| > ε) ≤ ε|t| + 2P(|Xn − X| > ε).

Par conséquent, pour tout ε > 0, lim supn→∞ |ϕXn (t) − ϕX (t)| ≤ ε|t| d’où le résultat.

Il y a en réalité une réciproque partielle à ce résultat.

Proposition 11.2.14. On suppose les variables (Xn )n≥1 définies sur le même espace probabilisé. Soit
c ∈ Rd . Si (Xn )n≥1 converge vers c en loi, alors la convergence a aussi lieu en probabilité.

Remarque 104. Il est ici nécessaire de supposer les Xn sur un même espace de probabilité de sorte que
la convergence en probabilité fasse sens.

Démonstration. On se ramène au cas réel en considérant les composantes de Xn . Soit ε > 0.

P(|Xn − c| > ε) = P(Xn < c − ε) + P(Xn > c + ε) = FXn (c − ε) + 1 − FXn (c + ε).

Puisque Xn converge en loi vers c, d’après la proposition 11.2.11, pour tout t ̸= c, FXn (t) converge vers
1R+ (t − c). Ceci montre que P(|Xn − c| > ε) tend vers 0 pour tout ε > 0.

La convergence en loi des marginales ne permet pas en général de conclure à la convergence en loi du
vecteur. Encore ici, il existe une réponse partielle.

Lemme 11.2.15 (Lemme de Slutsky). Soit ((Xn , Yn ))n≥0 une suite de vecteurs aléatoire définis sur un
même espace de probabilité. Si (Xn )n≥1 converge en loi vers X et que (Yn )n≥1 converge en probabilité
vers c, alors ((Xn , Yn ))n≥1 converge en loi vers (X, c).

Exemple 50. En anticipant légèrement sur le chapitre 12, considérons une suite (Xn )n≥1 de variables
aléatoires réelles i.i.d. admettant un moment d’ordre 2 et notons
n n n
1X 1 X 1 X 2 n
Mn = Xk et Vn = (Xk − Mn )2 = Xk − M 2.
n n−1 n−1 n−1 n
k=1 k=1 k=1

À la fin du chapitre 10, le corollaire 10.2.5 établit que si (X1 , . . . , Xn ) est un vecteur gaussien, alors
Mn et Vn sont indépendantes de loi respectives N (0, 1/n) et χ2 (n − 1) si bien que

√ Mn − E(X1 )
n √ ∼ Tn−1 .
Vn

144

Sous l’hypothèse plus faible où l’échantillon n’est plus gaussien, nous avons que n Mn −E(X

Vn
1)
converge
en loi vers une N (0, 1). Nous avons en effet par la loi des grands nombre Mn converge en probabilité
vers E(X1 ), de même que Vn converge presque-sûrement vers V(X1 ). Nous pouvons donc écrire
s !
√ Mn − E(X1 ) √ Mn − E(X1 ) V(X1 ) √ Mn − E(X1 ) V(X1 )
n √ = n p =f n p ,
Vn V(X1 ) Vn V(X1 ) Vn
√ √ n −E(X1 )
où f (x, y) = x y. Par le théorème central limite que n M√ converge en loi vers une N (0, 1) et
V(X1 )
le rapport V(X Vn
1)
converge vers 1 presque-sûrement donc en probabilité. Le lemme de Slutsky permet de
déduire la convergence en loi du couple, on conclut en remarquant que f est continue.
Ce résultat permet d’écrire un intervalle de confiance pour E(X1 ) lorsque la variance n’est pas
connue, ce qui est pratiquement toujours le cas. La contrainte étant que le résultat est asymptotique
donc l’échantillon doit être suffisamment grand.
Pour établir un tel intervalle de confiance, on se fixe a priori un niveau confiance α ∈ [0, 1]. En
général, on peut prendre α = 0.95. Puis on cherche t ≥ 0 de sorte que pour n assez grand :
r r !
√ Mn − E(X1 )
 
Vn Vn
α = P −t ≤ n √ ≤ t = P Mn − t ≤ E(X1 ) ≤ Mn + t
Vn n n
Z t
1
≈√ exp(−x2 /2) dx.
2π −t
On trouve alors t ≈ 1.96. Aussi, avec une probabilité supérieur à α p
= 0.95, la valeur depla vraie moyenne
E(X1 ) se trouve dans l’intervalle de confiance IC0.95 = [Mn − 1.96 Vn /n; Mn + 1.96 Vn /n].
Remarquons enfin que lorsque n est grand, la loi de Student à n − 1 degrés de libertés se rapproche
d’une gaussienne. Ainsi, lorsque la variance est inconnue, ou bien nous pouvons faire une hypothèse
gaussienne et on obtient un intervalle de confiance à l’aide de la loi de Student, ou bien l’échantillon est
suffisamment grand et cette fois-ci l’intervalle de confiance est obtenu à l’aide de la loi normale.
Exemple 51. Outre l’exemple traité ci-dessus, le lemme de Slutsky intervient régulièrement en statistiques
par exemple dans la ∆-méthode.
Pour fixer les idées, considérons une suite (Xn )n≥1 de variables aléatoires i.i.d. toute de loi exponen-
tielle E(λ), λ > 0. La loi (faible) des grands nombres donne que
n
1X
Xn = Xk →n→∞ E(X1 ) = 1/λ,
n
k=1

la convergence ayant lieu en probabilité. Ainsi, nous disposons non pas d’un estimateur de λ mais de 1/λ.
Notons θ = 1/λ et posons f (θ) = 1/θ = λ. Alors c’est un exercice de montrer que f (X n ) = 1/X n → λ en
probabilité. On cherche alors à établir un théorème central limite afin d’établir un intervalle de confiance
par exemple. Pour cela, on calcule un développement de Taylor à l’ordre 2 de f en θ :
1
f (X n ) = f (θ) + f ′ (θ)(X n − θ) + f ′′ (θ)(X n − θ)2 + o((X n − θ)2 ).
2
Ainsi,
√ √ 1 √ √
n(f (X n ) − f (θ)) = f ′ (θ) n(X n − θ) + f ′′ (θ) n(X n − θ)2 + o( n(X n − θ)2 ). (11.4)
2
Une première
√ application du lemme de Slutsky, du théorème central limite et de la loi des grands nombres
implique n(X n − θ)2 converge vers 0 en probabilité. En effet, on écrit
√ √
n(X n − θ)2 = n(X n − θ) (X n − θ) .
| {z } | {z }
(I) (II)

Alors le facteur (I) converge en loi vers N (0, V(X1 )) par le théorème central limite ; le facteur (II) quant
à lui converge vers 0 en probabilité par la loi faible des grands nombres. Ainsi, le produit converge vers
0 en probabilité par le lemme de Slutsky.

145
Ceci implique en particulier que les deux derniers termes de l’équation (11.4) convergent vers 0 en
probabilité. Le premier terme de (11.4) lui converge en loi vers N (0, [f ′ (θ)]2 V(X1 )). A l’aide du lemme
de Slutsky, on obtient que
√ √
 
1
n(f (X n ) − f (θ)) = n −λ converge en loi vers N (0, [f ′ (θ)]2 V(X1 )).
Xn
La loi asymptotique dépend encore du paramètre λ et par conséquent il faudrait encore arranger un peu
les choses à la manière de l’exemple précédant. Ceci devrait convaincre du caractère “boı̂te à outils” du
lemme de Slutsky.
Terminons par remarquer que les hypothèses sur f sont relativement faibles : f doit être C 2 au
voisinage de θ et f ′ (θ) ̸= 0. Par ailleurs, on établira au chapitre 12 un théorème central limite multivarié.
Cette méthodologie s’étend alors très facilement au cas multivarié.
Démonstration. Notons que la fonction caractéristique de (X, c) est ϕ(X,c) (s, t) = ϕX (s)ei⟨t,c⟩ . On a alors

ϕ(Xn ,Yn ) (s, t) − ϕX (s)ei⟨t,c⟩ = E(ei⟨s,Xn ⟩ (ei⟨t,Yn ⟩ − ei⟨t,c⟩ ) + ei⟨t,c⟩ (ϕXn (s) − ϕX (s))
≤ E|ei⟨t,Yn ⟩ − ei⟨t,c⟩ | + |ϕXn (s) − ϕX (s)|.
Comme dans la preuve de la proposition précédentes, on a pour tout ε > 0

ϕ(Xn ,Yn ) (s, t) − ϕX (s)ei⟨t,c⟩ ≤ ε|t| + 2P(|Yn − c| > ε) + |ϕXn (s) − ϕX (s)|.

Et il suffit de prendre la limite supérieure pour conclure.


Corollaire 11.2.16. Soit (Xn )n≥0 et (Yn )n≥0 deux suites de variables aléatoires à valeurs dans Rd
définies sur le même espace probabilisé. On suppose que (Xn )n≥0 converge en loi vers X et que |Xn − Yn |
converge vers 0 en probabilité. Alors (Yn )n≥0 converge en loi vers X.
Démonstration. C’est un corollaire immédiat du lemme de Slutsky en posant Yn = Xn − (Xn − Yn ) et
l’application continue g(x, d) = x + d.
On termine cette partie par un analogue du lemme de Fatou qui permet de donner une condition
intégrabilité de la limite en loi.
Proposition 11.2.17. Si (Xn )n≥0 convergent en loi vers X, alors
E|X| ≤ lim inf E|Xn |.
n→∞

Démonstration. Puisque Xn converge en loi vers X, |Xn | converge en loi vers |X| par continuité de | · |.
Soit k ≥ 1 un entier,
E(|X| ∧ k) = lim E(|Xn | ∧ k) = lim inf E(|Xn | ∧ k) ≤ lim inf E|Xn |.
n→∞ n→∞ n→∞

On conclut par convergence monotone.


Remarque 105. On peut bien entendu on peut remplacer la valeur absolue par n’importe quelle fonction
continue positive.

11.3 Loi du 0-1 de Kolmogorov et séries aléatoires


On s’intéresse dans cette partie à la convergence (dans R) des séries aléatoires réelles indépendantes
(non nécessairement de même loi). Ces résultats seront utiles pour démontrer la loi des grands nombres
dite forte. La convergence a alors lieu presque-sûrement et non plus en probabilité comme pour la loi
faible. On commence par énoncer la loi du 0-1 de Kolmogorov. Pour ce faire, il est nécessaire d’introduire
la notion de tribu asymptotique.
Soit (Xn )n≥0 une suite de variables aléatoires. On note An = σ(Xn , Xn+1 , . . .) la tribu engendrée par
les variables Xm pour tout m ≥ n. La tribu asymptotique, notée A∞ , est définie comme l’intersection
des tribus An : A∞ = ∩n≥0 An . Intuitivement, un événement A ∈ A∞ si il dépend du comportement
asymptotique de (Xn )n≥0 , ou encore si l’occurrence de A ne dépend pas de la valeur prise par un nombre
fini de Xn . Par exemple, si Sn = X1 + · · · + Xn ,

146
1. {limn→∞ Sn existe } est un événement asymptotique : la modification de la valeur de Xk pour un
nombre fini de k ne modifie pas la nature convergente ou divergente de la série ;
2. {lim supn→∞ Sn ≥ 0} n’est pas un événement asymptotique car il dépend de toute les variables
Xn .
3. soit (Bn )n≥0 une suite événements, i.e. Bn ∈ F pour tout n ≥ 0. Alors les événements

lim sup{Xn ∈ Bn } et lim inf{Xn ∈ Bn }

sont des événements asymptotiques.


Théorème 11.3.1 (Loi du 0-1 de Kolmogorov). Soient (Xn )n≥0 une suite variables aléatoires indépen-
dantes et A ∈ A∞ un événement asymptotique. Alors P(A) ∈ {0, 1}.
Démonstration. On va montrer que A est indépendant de lui-même, i.e. P(A ∩ A) = P(A)P(A), d’où
l’on déduit P(A) ∈ {0, 1}.
Pour cela, notons que A∞ ⊂ σ(Xk+n , k ≥ 0) pour tout n ≥ 0 et que ∪k≥0 σ(X0 , . . . , Xk ) et A∞ sont
des π-systèmes contenant Ω qui engendrent respectivement σ(Xn , n ≥ 0) et A∞ . Par le lemme 8.1.3,
pour vérifier l’indépendance de ces deux tribus, il suffit de vérifier l’indépendance sur les π-systèmes les
engendrant. Or, il est clair par la proposition 8.1.2 que pour tout n ≥ 0, la tribu σ(X0 , . . . , Xn ) et la
tribu σ(Xn+k+1 , k ≥ 0) sont indépendantes.
Ainsi, les tribus σ(Xn , n ≥ 0) et A∞ sont indépendantes. Or, si A ∈ A∞ alors A ∈ σ(Xn , n ≥ 0) et par
conséquent l’événement A appartient à deux tribus indépendantes, il est indépendant de lui-même.
Le lemme suivant fait partie du folklore probabiliste et donne une information sur les fluctuations de
somme de variables indépendantes.
Lemme 11.3.2 (Inégalité de Lévy-Ottoviani).
P Soient ξ1 , . . . , ξp des variables aléatoires indépendantes.
On note, pour r = 1, . . . , p, Zr = 1≤i≤r ξi . Alors pour tout η > 0 et δ ≥ 0,

inf P(|Zp − Zr | ≤ δ) × P( sup |Zr | > η + δ) ≤ P(|Zp | > η).


1≤r<p 1≤r≤p

Démonstration. Notons τ = inf{i = 1, . . . , p : |Zi | > η + δ} avec la convention inf ∅ = ∞. On cherche


donc à majorer la probabilité de l’événement {sup1≤r≤p |Zr | > η + δ} = {τ ≤ p} par celle de l’événement
{|Zp | > η}. On remarque que {τ = 1} = {|Z1 | > η + δ} et, pour 1 < r ≤ p,

{τ = r} = {|Z1 | ≤ η + δ} ∩ · · · ∩ {|Zr−1 | ≤ η + δ} ∩ {|Zr | > η + δ}.

Ceci implique que {τ = p} ⊂ {|Zp | > η + δ} ⊂ {|Zp | > η} et, pour r = 1, . . . , p − 1,

{τ = r} ∩ {|Zp − Zr | ≤ δ} ⊂ {|Zr | > η + δ} ∩ {|Zp − Zr | ≤ δ} ⊂ {|Zp | > η},

car |Zr | ≤ |Zp | + |Zr − Zp |. Il s’en suit que


p−1
X
P(|Zp | > η) ≥ P(τ = p) + P(τ = r, |Zp − Zr | ≤ δ).
r=1

Les événements {τ = r} et {|Zp − Zr | ≤ δ} sont indépendants car {τ = r} est dans la tribu σ(ξ1 , . . . , ξr )
et {|Zp − Zr | ≤ δ} est dans la tribu σ(ξr+1 , . . . , ξp ). D’où, l’inégalité
p−1
X p
X
P(|Zp | > η) ≥ P(τ = p) + P(τ = r)P(|Zp − Zr | ≤ δ) ≥ α P(τ = r),
r=1 r=1
Pp
où α = inf 1≤r<p P(|Zp − Zr | ≤ δ). Il suffit alors de remarquer que P(τ ≤ p) = r=1 P(τ = r) pour
conclure.

Théorème 11.3.3 (Paul Lévy). Soit (Xn )n≥1 une suite de v.a.r. indépendantes. Pour n ≥ 1, on note
Sn = X1 + · · · + Xn . Les assertions suivantes sont équivalentes

147
1. (Sn )n≥1 converge presque sûrement vers une variable aléatoire réelle ;
2. (Sn )n≥1 converge en probabilité vers une variable aléatoire réelle ;
3. (Sn )n≥1 converge en loi vers une variable aléatoire réelle.
Démonstration. Montrons tout d’abord que si (Sn )n≥0 converge en probabilité alors elle converge presque
sûrement. Pour ce faire, on utilise le critère de type Cauchy du théorème 11.1.15. Soit ε > 0 alors, par
monotonie,
P(sup |Sn+r − Sn | > ε) = lim P( sup |Sn+r − Sn | > ε).
r≥0 p→∞ 0≤r≤p

On cherche à appliquer l’inégalité de Lévy-Ottoviani. On remarque que


n+r
X r
X r
X
∀1 ≤ r ≤ p, Sn+r − Sn = Xj = Xn+i = ξi ,
j=n+1 i=1 i=1

avec ξ = Xi+n . Avec ces notations, Sn+r − Sn joue le rôle de Zr de l’inégalité de Lévy-Ottoviani qu’on
peut appliquer au couple (η, δ) = (ε/2, ε/2). On obtient alors

inf P(|Zp − Zr | ≤ ε/2) × P( sup |Zr | > ε) ≤ P(|Zp | > ε/2).


1≤r<p 1≤r≤p

Puisque Zr = Sn+r − Sn , cette inégalité se réécrit

inf P(|Sn+p − Sn+r | ≤ ε/2) × P( sup |Sn+r − Sn | > ε) ≤ P(|Sn+p − Sn | > ε/2).
1≤r<p 1≤r≤p

On pose βn = sup{P(|Sq+n − Sp+n | > ε/2) : p, q ≥ 0}. On a, pour tout p ≥ 1,

P(|Sn+p − Sn | > ε/2) ≤ βn , et inf P(|Sn+p − Sn+r | ≤ ε/2) ≥ 1 − βn ,


1≤r<p

d’où (1 − βn )P(sup1≤r≤p |Sn+r − Sn | > ε) ≤ βn . D’autre part, comme

P(|Sn+p − Sn+q | > ε/2) ≤ P(|Sn+p − Sn | > ε/4) + P(|Sn+q − Sn | > ε/4),

βn ≤ 2 supr≥0 P(|Sn+r −Sn | > ε/4). Pour conclure, puisque (Sn )n≥0 converge en probabilité, le critère de
type Cauchy pour la convergence en probabilité de la proposition 11.1.15 implique que limn→∞ βn = 0.
Ainsi, pour tout n ≥ 1 suffisamment grand de sorte que 1 − βn > 0, on a pour tout p ≥ 1,
βn
P( sup |Sn+r − Sn | > ε) ≤
1≤r≤p 1 − βn

et donc
βn
P(sup |Sn+r − Sn | > ε) = sup P( sup |Sn+r − Sn | > ε) ≤ .
r≥0 p≥1 1≤r≤p 1 − βn
Ceci montre que (Sn )n≥1 converge presque sûrement.
Il reste à montrer que la convergence en loi implique la convergence en probabilité. Supposons au
contraire que (Sn )n≥1 ne converge pas en probabilité. Encore une fois, la proposition 11.1.15 implique
qu’il existe ε > 0 et α > 0 tel que

∀n ≥ 1, ∃(pn , qn ) ∈ N2 , n ≤ pn < qn , P(|Sqn − Spn | > ε) > α. (11.5)

Posons Zn = Sqn − Spn et montrons que (Zn )n≥1 converge en loi vers 0. Puisque Spn est indépendante
de Zn , on a en écrivant Sqn = Spn + Zn ,

∀t ∈ R, ϕSqn (t) = ϕSpn (t)ϕZn (t).

Puisque (Sn )n≥1 converge en loi vers S∞ , ϕSn converge simplement vers la fonction caractéristique ϕ de
S∞ . La fonction ϕ est continue sur R et ϕ(0) = 1. Il existe donc une constante c > 0 tel que |t| ≤ c
implique |ϕ(t)| > 0. Comme n ≤ pn < qn , les suites ϕSpn et ϕSqn convergent simplement vers ϕ lorsque
n → ∞ si bien que pour |t| ≤ c implique limn→∞ ϕZn (t) = 1.

148
Puisque, pour tout x ∈ R, 1 − cos(2x) ≤ 4(1 − cos(x)), on a,

∀t ∈ R, 0 ≤ 1 − Re ϕZn (2t) ≤ 4 [1 − Re ϕZn (t)] .

Par conséquent, pour tout t ∈ R, il existe n ≥ 0 tel que 2−n |t| ≤ c et donc limn→∞ Re ϕZn (t) = 1.
Finalement, puisque |ϕZn (t)| ≤ 1, on déduit que limn→∞ ϕZn (t) = 1. Ceci implique Zn converge en
loi vers δ0 . La convergence en loi vers une v.a.r constante presque sûrement implique la convergence
probabilité vers cette constante. Contradiction avec (11.5).

La proposition suivante est une application du théorème de Lévy ci-dessus. Elle sera par ailleurs utile
dans la démonstration de la loi forte des grands nombres de Kolmogorov au chapitre suivant.

Proposition 11.3.4 (Séries centrées). Soit (XPn )n≥1 une suite de v.a.r. indépendantes. On suppose que,
pour tout n ≥ 1, Xn ∈ L2 et E(Xn ) = 0. Alors n≥1 E[Xn2 ] < ∞ implique que (Sn )n≥1 converge presque
sûrement et dans L2 vers une variable aléatoire réelle.

Démonstration. Puis les variables aléatoires Xn sont centrées, E(Xn2 ) = V(Xn ). Puis, pour tout n, r ∈
N∗ , par indépendance des Xn ,

n+r
! n+r n+r
X X X X
2
E(Xi2 ) ≤ E(Xi2 ),
 
E |Sn+r − Sn | =V Xi = V(Xi ) =
i=n+1 i=n+1 i=n+1 i>n

qui est le reste d’une série convergente. La suite (Sn )n≥1 est donc de Cauchy dans L2 , elle converge
dans L2 vers S∞ . La convergence en moyenne quadratique implique la convergence en probabilité et

le théorème de Paul Lévy implique la convergence presque sûre vers une variable aléatoire S∞ . Enfin,

S∞ = S∞ puisque (Sn )n≥1 converge en probabilité vers S∞ et presque sûrement, donc en probabilité,

vers S∞ .

On termine cette partie par l’énoncé du théorème des trois séries de Kolmogorov. Celui-ci est une
conséquence de l’inégalité maximale de Kolmogorov suivante et du théorème des deux séries.

Proposition 11.3.5 (Inégalité maximale de Kolmogorov). Soit (Xn )n≥1 une suite de v.a.r. indépen-
dantes, de carré intégrable et centrées. On note, pour tout k ≥ 1, Sk = X1 + · · · + Xk . Alors, pour tout
a > 0 et tout n ≥ 1,
V(Sn )
P(sup{Sk : k = 1, . . . , n} ≥ a) ≤ .
a2 + V(Sn )

De plus,
E[Sn2 ]
P( sup |Sk | ≥ a) ≤ .
1≤k≤n a2

Démonstration. Soient a > 0 et τ = inf k≥1 {Sk ≥ t} alors les ensembles Ak = {τ = k}, k = 1, . . . , n, sont
deux à deux disjoints et
[n  
A= Ak = sup{Sk : k = 1, . . . , n} ≥ t .
k=1

Soit c ≥ 0. La variable aléatoire (Sk +c)1Ak est σ(X1 , . . . , Xk )-mesurable et Sn −Sk est σ(Xk+1 , . . . , Xn )-
mesurable. Ces deux variables sont donc indépendantes et

E [(Sk + c)1Ak (Sn − Sk )] = E [(Sk + c)1Ak ] E[Sn − Sk ] = 0.

149
Pn
Puisque les Ak sont disjoints, 1Ak = 1A ≤ 1. On obtient donc
k=1

V(Sn ) + c2 = E(Sn2 ) + 2c E(Sn ) +c2 = E (Sn + c)2


 
| {z }
=0
" n # n n
X X  X
2
E (Sn + c)2 1Ak = E (Sk + c + Sn − Sk )2 1Ak
  
≥E (Sn + c) 1Ak =
k=1 k=1 k=1
n
X
(Sk + c)2 + 2(Sk + c)(Sn − Sk ) + (Sn − Sk )2 1Ak
  
= E
k=1
n
X n
 X
E (Sk + c)2 1Ak + E (Sn − Sk )2 1Ak
  
=
k=1 k=1
n
X
E (Sk + c)2 1Ak . (11.6)
 

k=1
2 2
Comme c ≥ 0 et par définition de τ , nous avons (Sk + c) 1Ak ≥ (t + c) 1Ak . Ainsi, le calcul précédent
donne
Xn
V(Sn ) + c2 ≥ E (t + c)2 1Ak = (t + c)2 P(A).
 

k=1
Pour obtenir la première inégalité maximale, il suffit de poser c = V(Sn )/t ≥ 0.
Pour l’autre inégalité, on pose τ̄ = inf k=1,...,n {|Sk | ≥ t}, Āk = {τ̄ = k} ainsi que Ā = {τ̄ ≤ n}. On
ne peut plus faire aboutir le calcul ci-dessus pour c > 0 mais il est encore valide pour c = 0. Dans ce cas,
Sk2 1Āk ≥ t2 1Āk . Le même calcul donne P(Ā) ≤ V(Sn )/t2 .
Exercice 31. Soit (Xn )n≥1 une suite de variables aléatoires indépendantes dans L2 telles que E(Xn ) = 0
pour tout n ≥ 1 et V = supn≥1 V(Xn ) < ∞ (famille bornée dans L2 ). Alors pour tout ε > 0,
|Sn |
lim sup = 0, p.s..
n→∞ n1/2 (ln n)1/2+ε
Théorème 11.3.6 (des deux P séries de Kolmogorov).
P Soit (Xn )n≥1 une suite de v.a.r.
Pindépendantes de
carré intégrable telles que n≥1 E(Xn ) et n≥1 V(Xn ) convergent dans R. Alors n≥1 Xn converge
presque sûrement vers une v.a.r..
Démonstration. Sans perte de P
généralité, on peut supposer E(Xn ) = 0, car en recentrant on ne change
n
pas la variance. On pose Sn = k=1 Xk et on va montrer que
 
P lim sup Sn − lim inf Sn = 0 = 1.
n→∞ n→∞

Soit m ≥ 0, on a
k
X
lim sup Sn − lim inf Sn = lim sup(Sn − Sm ) − lim inf (Sn − Sm ) ≤ 2 sup Xm+i .
n→∞ n→∞ n→∞ n→∞ k≥1 i=1

Ainsi, pour tout m ≥ 1 et tout ε > 0,


  k
!
X
P lim sup(Sn − Sm ) − lim inf (Sn − Sm ) ≥ ε ≤ P 2 sup Xm+i ≥ ε
n→∞ n→∞ k≥1 i=1

k
!
X
≤P max Xm+i ≥ ε/2
k=1,...,p
i=1
m+p
X X
−2
≤ lim sup 4ε V(Xi ) ≤ 4ε−2 V(Xi ), (11.7)
p→∞
i=m+1 i>m

par l’inégalité maximale de Kolmogorov. En faisant tendre m → ∞, on obtient que lim sup Sn = lim inf Sn
donc (Sn )n≥0 converge presque sûrement.

150
Théorème 11.3.7 P(des trois séries de Kolmogorov). Soit (Xn )n≥1 une suite de v.a.r. indépendantes.
La série aléatoire n≥1 Xn converge presque sûrement dans R si et seulement si pour un certain A > 0
les trois séries suivantes convergent :
X X X
P(|Xn | ≥ A), E[Xn 1|Xn |≤A ], et V(Xn 1|Xn |≤A ).
n≥1 n≥1 n≥1

Dans ce théorème, il s’agit bien d’une équivalence. Néanmoins, la preuve de la nécessité de ces
conditions est unPpeu technique, nous nous contenterons de montrer qu’elles sont suffisantes. Remarquons

toutefois que si n=1 Xn converge presque sûrement alors la première condition est satisfaite, car sinon,
par le deuxième lemme de Borel-Cantelli, on aurait que le terme général de la série ne tend pas vers 0.
Démonstration. Soit A > 0 tel que les trois conditions soient vérifiées. On pose Yn = Xn 1|Xn |≤A . La
convergence de la première série et le premier lemme de Borel-Cantelli implique que |Xn | ≤ A sauf pour
un
P∞nombre (aléatoire) fini. Ainsi, pour Ptout n suffisamment grand, Xn = Yn presque sûrement et donc

n=1 Xn converge si et seulement si n=1 Yn converge.
Par le théorème
P∞des deux séries de Kolmogorov, les deux dernières conditions impliquent la conver-
gence de la série n=1 Yn .

151
152
Chapitre 12

Loi des grands nombres et Théorème


Central Limite

Ce chapitre traite des deux principaux théorèmes en théorie des probabilités. À eux deux, ils justifient
le bon choix de l’axiomatique de Kolmogorov pour appréhender les phénomènes aléatoires.

12.1 Loi des grands nombres


On commence par la loi faible des grands nombres dans le contexte L2 .

Théorème 12.1.1 (Loi Faible des Grands Nombres dans L2 ). Soit (Xn )n≥1 une suite de v.a.r. i.i.d.
admettant un moment d’ordre 2. Alors, la convergence suivante a lieu dans L2 et en probabilité
n
1X
Xk −→ E(X1 ).
n
k=1

Démonstration. On montre d’abord la convergence dans L2 en utilisant le caractère i.i.d. :


 !2 
n n
1X = 1
X V(X1 )
E Xk − E(X1 ) E[(Xk − E(X1 ))2 ] = → 0.
n n2 n
k=1 k=1

Comme la convergence dans L2 implique la convergence en probabilité en utilisant l’inégalité de Bie-


naymé-Tchebychev, le théorème est montré.

L’hypothèse L2 semble un peu forte et surtout ne semble pas naturelle puisque dans la convergence
établie la variance n’apparaı̂t pas, d’où le corollaire.

Corollaire 12.1.2 (Loi faible des grands nombres dans L1 ). Soit (Xn )n≥1 une suite de variables
aléatoires i.i.d. à valeurs dans Rd et admettant un moment d’ordre 1. Alors la convergence suivante
a lieu en probabilité et dans L1 .
n
1X
lim Xk = E(X1 ).
n→∞ n
k=1

Démonstration. Sans perte de généralité, on peut supposer les variables Xk positives. En effet, nous
avons
E|Xn − E(X1 )| ≤ E|Xn+ − E(X1+ )| + E|Xn− − E(X1− )|.

Ainsi, si on montre la convergence, dans L1 , de la moyenne empirique des parties positives et négatives
des variables Xk , on obtiendra le résultat du corollaire. Soit M > 0, et considérons les variables Xk ∧ M .

153
Il est facile de voir que
n n
1X 1X
E Xk − E(X1 ) ≤ E (Xk − Xk ∧ M )
n n
k=1 k=1
n
1X
+E Xk ∧ M − E(X1 ∧ M )
n
k=1
+ |E(X1 ∧ M ) − E(X1 )|
≤ 2E|X1 ∧ M − X1 |
n
1X
+E Xk ∧ M − E(X1 ∧ M ) .
n
k=1

Prenant la limite supérieure en n → ∞, on a, par la loi faible des grands nombres dans L2 du théorème
12.1.1, pour tout M > 0
n
1X
lim sup E Xk − E(X1 ) ≤ 2E|X1 ∧ M − X1 |.
n→∞ n
k=1

On remarque ensuite que |X1 ∧ M − X1 | tend presque-sûrement vers 0 lors M → ∞. De plus, pour tout
M ≥ 0,
|X1 ∧ M − X1 | = 1X1 >M |M − X1 | ≤ M 1X1 >M + X1 ≤ 2X1 ,
et le théorème de convergence dominée implique que
n
1X
lim sup E Xk − E(X1 ) = 0.
n→∞ n
k=1

La convergence dans L1 impliquant la convergence en probabilité, cela termine la preuve du corollaire.


Théorème 12.1.3 (Loi Forte des Grands Nombres dans le cadre L2 ). Soit (Xn )n≥1 une suite de v.a.r.
i.i.d. admettant un moment d’ordre 2. Alors,
n
1X
Xk −→ E(X1 ), P − p.s..
n
k=1

Démonstration. Supposons dans un premier temps que pour tout n ≥ 1, Xn ≥ 0. On introduit la notation
n
1X
Mn = Xk .
n
k=1

Pour montrer la convergence presque sûre de (Mn )n≥1 vers E(X1 ), on établit d’abord la convergence
presque sûre de (Mn2 )n≥1 vers E(X1 ), puis nous passerons à la suite toute entière. Ce faisant, par un
calcul très similaire à celui de la preuve du théorème 12.1.1, on a pour tout n ≥ 1, E(Mn ) = E(X1 ) et
V(Mn ) = n−2 V(X1 ). Soit ε > 0, on utilise à nouveau l’inégalité de Bienaymé-Tchebychev pour estimer
la probabilité
E(|Mn2 − E(X1 )|2 ) V(X1 )
P(|Mn2 − E(X1 )| > ε) ≤ = 2 2 . (12.1)
ε2 n ε
En sommant sur n ≥ 1 de part et d’autre de l’inégalité (12.1), le corollaire 11.1.3 montre que Mn2
converge presque sûrement vers E(X1 ).
Montrons désormais que la suite (Mn )n≥0 converge presque-sûrement
√ √ vers
√ E(X1 ), c’est ici qu’on se
sert de√la positivité des incréments. Pour tout n > 1, ⌊ n⌋ ≤ n ≤ ⌊ n + 1⌋ et donc, en notant
qn = ⌊ n⌋, qn2 ≤ n ≤ (qn + 1)2 . Comme les variables sont positives, on obtient les inégalités

Sqn2 ≤ Sn ≤ S(qn +1)2 et n−1 Sqn2 ≤ Mn ≤ n−1 S(qn +1)2 .

Par conséquent,
n−1 qn2 Mqn2 ≤ Mn ≤ n−1 (qn + 1)2 M(qn +1)2 .

154

Rappelant que qn / n tend vers 1 et que Mn2 converge vers E(X1 ), on obtient la convergence voulue
pour (Mn )n≥1 .
Pour le cas général, il suffit d’écrire Xk = Xk+ − Xk− et de vérifier que Xk+ et Xk− vérifie les conditions
du résultat que l’on vient de montrer.

Remarque 106. Remarquons que dans la preuve, l’hypothèse d’indépendance intervient pour montrer la
convergence en probabilité et la convergence presque-sûre est obtenue par monotonie. Pour cette dernière,
nous aurions pu invoquer la proposition 11.1.14.
De la même façon que pour la loi faible, on peut affaiblir l’hypothèse L2 et considérer X1 dans L1 .

Théorème 12.1.4 (Loi forte des grands nombres de Kolmogorov). Soit (Xn )n≥1 une suite de v.a.r.
i.i.d. ; on note pour tout n ≥ 1, Mn = n−1 (X1 + · · · + Xn ).
1. Si X1 est intégrable, (Mn )n≥1 converge presque sûrement et dans L1 vers E(X1 ).
2. Si X1 n’est pas intégrable, au moins un des deux événements {lim sup Mn = ∞} ou {lim inf Mn =
−∞} est de probabilité 1.

La démonstration de ce théorème nécessite trois lemmes usuels d’analyse que le lecteur assidu n’aura
pas manqué de démontrer dans la première planche de TD de théorie de la mesure.

Lemme 12.1.5 (Lemme de Stolz-Cesàro). Soient (bn )n≥1 une suite croissante de réels strictement
positifs telle que limn→∞ bn = ∞ et (xn )n≥0 une suite de réels convergeant vers x ∈ R. Alors, en posant
b0 = 0,
n
1 X
lim (bi − bi−1 )xi = x.
n→∞ bn
i=1

Démonstration. Exercice.

Lemme 12.1.6 (Lemme de Kronecker). Soient (bn )n≥1 une suite croissante de réels strictement positifs
et (xn )n≥1 une suite de réels. Si la série n≥1 b−1
P
n xn est convergente (dans R) alors

n
X
lim b−1
n xi = 0.
n→∞
i=1

Démonstration. Exercice.

Enfin, les estimées suivantes sont des conséquences standards des comparaisons séries/intégrales.

Lemme 12.1.7. Pour tout α > 1 et k ≥ 1, n≥k+1 n−α ≤ k 1−α /(α − 1).
P

Démonstration. Exercice.

Preuve de la LGN de Kolmogorov. On suppose dans un premier temps que X1 admet un moment d’ordre
1 et que E(X1 ) = 0. Introduisons quelques notations : pour tout n ≥ 1,
n n
cn = 1 fn = 1
X X
X
bn = Xn 1|X |<n , M X
bi , X bn − E(X
en = X bn ), et M X
ei .
n
n i=1 n i=1

Notons que les suites (X


bn )n≥1 et (X
en )n≥1 sont constituées de variables aléatoires i.i.d..
Pour montrer la convergence presque sûre de (Mn )n≥0 , nous allons procéder en deux temps :
1. tout d’abord, nous établirons que
p.s. p.s. p.s.
Mn −→ 0 ⇐⇒ cn −→
M 0 ⇐⇒ fn −→
M 0;

2. puis nous montrerons que (M


fn )n≥1 converge vers 0 presque sûrement.

155
en montrant que Mn − M
Considérons la première équivalence du point 1 P cn converge presque sûrement
−1 n
vers 0. On a, pour tout n ≥ 1, Mn − Mn = n c
i=1 Xi 1|Xi |>i . Or, les variables aléatoires (Xn )n≥1
étant i.i.d., il vient que
X X
P(|Xn | ≥ n) = P(|X1 | ≥ n) ≤ 1 + E|X1 | < ∞.
n≥1 n≥1

Ainsi, d’après le premier lemme de Borel-Cantelli, P(lim sup{|Xn | ≥ n}) = 0. Ainsi, il existe N =
lim sup{|Xn | ≥ n} négligeable tel que, pour tout ω ∈/ N , il existe un entier nω ≥ 1 tel que n ≥ nω
implique |Xn (ω)| < n implique Xn (ω) = Xn (ω). D’où, pour tout ω ∈
b / N,
ω n
cn (ω) = 1
X
∀n ≥ nω , Mn (ω) − M Xi 1|Xi |≥i .
n i=1

Il s’agit d’une somme finie renormalisée par n ce qui établit la première équivalence.
Pour la seconde équivalence, en utilisant la même démarche, on obtient
n
fn = 1
X
∀n ≥ 1, cn − M
M E[|X1 |1|X1 |<i ],
n i=1

car les variables aléatoires Xi sont identiquement distribuées. Puisque X1 est intégrable, X1 est fi-
nie presque sûrement et donc X1 1|X1 |<i converge presque sûrement vers X1 . De plus, |X1 1|X1 |<i | ≤
|X1 | pour tout i ≥ 1 et comme X1 est intégrable, le théorème de convergence dominée implique que
limi→∞ E(X1 1|X1 |<i ) = E(X1 ) = 0. Le lemme de Cesàro implique que M cn − M fn tends vers 0.
Montrons désormais le second point : (Mn )n≥1 converge presque sûrement vers 0. Nous appliquons
f
Pn e
le lemme de Kronecker : pour montrer que n−1 i=1 X i converge vers 0 presque sûrement, il suffit
Pn −1 e
de montrer que la série i=1 i Xi converge presque sûrement dans R. Or les variables aléatoires
(n−1 X en )n≥1 sont indépendantes et, pour tout n ∈ N∗ , |n−1 X en | ≤ 2 donc de carré intégrable et fi-
nalement E[n−1 X e ] = 0. D’après le résultat sur les séries centrées de la proposition 11.3.4, il suffit de
P n −2 e 2
vérifier que n≥1 n E(Xn ) < ∞ pour obtenir la convergence presque sûre de n≥1 n−1 X
P en dans R.
On calcule
X X  2  X X
−2 −2
2
n E(Xn ) =
e n E Xn − E[Xn ]
b b = n−2 V(X bn ) ≤ n−2 E[Xb 2 ].
n
n≥1 n≥1 n≥1 n≥1

Or, les variables (Xn )n≥1 sont i.i.d. si bien que

∀n ≥ 1, bn2 ) = E(Xn2 1|X |<n ) = E(X12 1|X |<n ).


E(X n 1

Par convergence monotone, on trouve finalement que


 
X X X
n−2 E(X
en2 ) ≤ n−2 E(X12 1|X1 |<n ) = E  n−2 X12 1|X1 |<n  .
n≥1 n≥1 n≥1

Or, pour tout x ≥ 0, on obtient par le lemme de comparaison séries/intégrales


X X x2 X x2 x2
n−2 x2 1x<n = x2 n−2 = + x2 n−2 ≤ + ≤ 2x.
(⌊x⌋ + 1)2 (⌊x⌋ + 1)2 ⌊x⌋ + 1
n≥1 n≥⌊x⌋+1 n≥⌊x⌋+2

Par conséquent, n≥1 n−2 E(X en2 ) ≤ 2E|X1 | < ∞. On a donc convergence presque sûre de (M
P fn )n≥0 vers
0 et donc de (Mn )n≥1 vers 0.
Il s’agit de montrer que (Mn )n≥1 converge également dans L1 . Soit k ∈ N∗ et écrivons |Mn | =
min(|Mn |, k) + (|Mn | − k)+ . La fonction x → (x − k)+ est convexe et croissante si bien que
n
1X
(|Mn | − k)+ ≤ (|Xi | − k)+ .
n i=1

156
Puisque les variables sont identiquement distribuées, il vient que
n
1X 
E (|Xi | − k)+ = E[min(|Mn |, k)] + E (|X1 | − k)+ .
  
E|Mn | ≤ E[min(|Mn |, k)] +
n i=1

On remarque alors que min(|Mn |, k) converge presque sûrement vers 0 quand n → ∞. De même, ces
variables aléatoires sont uniformément bornée en n par k et le théorème de convergence dominée montre
que le premier terme à droite de l’inégalité tends vers 0 lorsque n → ∞ si bien que

∀k ∈ N∗ , lim sup E|Mn | ≤ E (|X1 | − k)+ .


 
n→∞

Comme |X1 | est intégrable, (|X1 | − k)+ converge presque sûrement vers 0 lorsque k → ∞. De plus,
(|X1 | − k)+ ≤ |X1 | et par convergence dominée

lim sup E|Mn | ≤ lim E (|X1 | − k)+ = 0,


 
n→∞ k→∞

d’où la convergence L1 . Ceci termine la démonstration dans le cas X1 intégrable d’espérance nulle.
Supposons désormais X1 intégrable mais m = E(X1 ) ̸= 0. Observons que, en notant X n = Xn − m
pour tout n ≥ 1, on a
n n
1X 1X
Mn − m = (Xi − m) = X n = M n.
n i=1 n i=1

Or les variables aléatoires (X n )n≥1 sont i.i.d., X 1 est intégrable et EX 1 = 0. Ainsi, M n converge presque
sûrement et dans L1 vers 0. D’où l’on déduit que Mn converge presque sûrement et dans L1 vers m.
On considère désormais le cas où X1 n’est pas intégrable. Les variables aléatoires lim inf Mn et
lim sup Mn sont des variables asymptotiques de la suite de variables indépendantes (Xn )n≥1 . D’après
la loi du 0-1 de Kolmogorov 11.3.1, les événements {lim inf Mn = −∞} et {lim sup Mn = ∞} sont de
probabilité 0 ou 1. En fait, il existe c∗ et c∗ ∈ R ∪ {±∞} tels que, presque sûrement, lim inf Mn = c∗ et
lim sup Mn = c∗ .
Supposons que les deux événements {lim sup Mn = ∞} et {lim inf Mn = −∞} soient négligeables,
alors −∞ < c∗ ≤ c∗ < ∞. Il vient alors que Xnn = Mn − n−1 n Mn−1 si bien que

Xn Xn
lim sup ≤ c∗ − c∗ et lim inf ≥ c∗ − c∗ .
n n
Soit c > c∗ − c∗ . Comme lim sup{Xn ≥ cn} ⊂ lim sup Xnn ≥ c , on déduit que P(lim sup{Xn ≥


cn}) = 0. Puis, les variables (Xn )n≥1 étant i.i.d., le deuxième lemme de Borel-Cantelli implique
X X X
P(X1+ ≥ cn) = P(X1 ≥ cn) = P(Xn ≥ cn) < ∞.
n≥1 n≥1 n≥1

Ainsi, X1+ est intégrable. De même, lim sup{Xn ≤ −cn} ⊂ lim inf Xnn ≤ −c , et en utilisant un argu-


ment similaire, on obtient que X − est intégrable. C’est une contradiction.


Remarque 107. Si (Xn )n≥1 est une suite de variables aléatoires positives i.i.d. avec E(X1 ) = ∞, alors,
presque sûrement, limn→∞ Mn = ∞. Pn Pn
En effet, pour tout k ∈ N∗ , lim inf n1 i=1 Xi ≥ lim inf n1 i=1 min(Xi ; k). D’après la loi forte des
grands nombres, il existe Nk négligeable tel que
n
1X
∀ω ∈
/ Nk , lim min(Xi ; k) = E[min(X1 ; k)].
n→∞ n
i=1

Posons N = ∪k≥1 Nk . On vérifie que N est négligeable et


n n
1X 1X
∀ω ∈
/ N, ∀k ≥ 1, lim inf Xi (ω) ≥ lim inf min(Xi ; k) = E[min(X1 ; k)].
n i=1 n i=1

Par convergence monotone, l’espérance à droite tend vers ∞ lorsque k → ∞.

157
En fait, on peut même supprimer l’hypothèse de positivité et supposer que la partie positive X1+ ou
la partie négative X1− dans L1 . La moyenne empirique converge alors vers −∞ ou ∞ respectivement.
Dans le cas X1+ et X1− non intégrable, on peut également dire quelque chose sur le comportement de
la moyenne empirique, mais cette fois-ci il faut comparer les queues de distribution de la partie positive
et négative. On renvoie à [Kes70] et [Eri73] pour ces considérations.

12.2 Théorème Central Limite


Théorème 12.2.1. Soit (Xn )n≥0 une suite de v.a.r. i.i.d. avec X1 de carré intégrable ; on note m =
E(X1 ) et σ 2 = V(X1 ). Considérons, pour tout n ≥ 1,

 
Sn
Tn = n − m , où Sn = X1 + · · · + Xn .
n
Alors la suite (Tn )n≥1 converge en loi, lorsque n → ∞, vers une v.a.r. de loi N (0, σ 2 ).
Démonstration. On calcule la fonction caractéristique de Tn et on simplifie en utilisant le caractère i.i.d. :

ϕTn (t) = E(eitTn ) = ϕX1 −m (t/ n)n . (12.2)
Or, ϕ(0) = 1, ϕ′ (0) = 0, car X1 − m est centrée, et ϕ′′ (0) = −σ 2 . Donc le développement de Taylor à
l’ordre 2 de ϕTn donne n
t2 σ 2 t2 √

ϕTn (t) = 1 − + ε(t/ n) .
2n n
Lemme 12.2.2. Soit (zn )n≥0 est une suite de nombre complexe telle que limn→∞ nzn = z alors
limn→∞ (1 + zn )n = ez .
 2 2 2 √  2 2
Comme n − t 2n σ
+ tn ε(t/ n) → − t 2σ on obtient que

t2 σ 2
∀t ∈ R, lim ϕTn (t) = e− 2 .
n→∞

On reconnaı̂t ici la fonction caractéristique d’une N (0, σ 2 ).

12.3 TCL multivarié


Le TCL univarié se généralise facilement à la dimension supérieure. C’est en fait un corollaire.
Théorème 12.3.1. Soit (Xn )n≥1 une suite de vecteurs aléatoires dans Rd , i.i.d. avec X1 ∈ L2 . On note
m = E(X1 ) et Γ la matrice de covariance de X1 . Alors la suite de vecteurs aléatoires (Tn )n≥1 définis
pour tout n ≥ 1 par

 
X1 + · · · + Xn
Tn = n −m
n
converge en loi vers un vecteur gaussien de loi N (0, Γ).
Démonstration. En utilisant les fonctions caractéristiques, on a pour tout t ∈ Rd
h ∗ i
ϕTn (t) = E eit Tn = ϕt∗ Tn (1)

et
√ t∗ X1 + · · · + t∗ Xn
 
t∗ Tn = n − t∗ m .
n
La suite de v.a.r. (t∗ Xn )n≥1 est i.i.d. et de carré intégrable avec E(t∗ X1 ) = t∗ m et V(t∗ X1 ) = t∗ Γt.
D’après le TCL univarié, lorsque n → ∞, t∗ Tn converge en loi vers une variable réelle de loi N (0, t∗ Γt).
Par conséquent,  ∗ 
t Γt
lim ϕTn (t) = lim ϕt∗ Tn (1) = exp − .
n→∞ n→∞ 2
D’où le résultat.

158
12.4 Applications de la loi des grands nombres
Théorème 12.4.1 (fondamental de la Statistique). Soit (Xn )n≥1 une suite de v.a.r. indépendantes et
identiquement distribuées suivant la loi µ sur Rd . Pour tout n ≥ 1, on note
n
1X
µω
n = δX (ω) , ω ∈ Ω,
n i=1 i

la mesure empirique. Alors, presque sûrement, (µn )n≥1 converge étroitement vers µ.

Remarque 108. Précisons sa signification : pour tout borélien B ∈ Rd et tout ω ∈ Ω,


n n
1X 1X
µω
n (B) = δXi (ω) (B) = 1B (Xi (ω)).
n i=1 n i=1

De façon plus générale, si f : Rd → R est borélienne bornée ou borélienne positive, nous pouvons écrire
Z n
1X
f (x) µω
n (dx) = f (Xi (ω)).
Rd n i=1

/ N , (µω
Le théorème précédant affirme qu’il existe un ensemble négligeable N tel que pour tout ω ∈ n )n≥1
converge vers µ étroitement, i.e.
Z n Z
1X
∀ω ∈ N ∁ , ∀f ∈ Cb (Rd ), f (x) µω
n (dx) = f (Xi (ω)) → f (x) µ(dx).
Rd n i=1 Rd

Démonstration. L’espace Cc (Rd ) des fonctions continues à support compact est séparable. C’est une
conséquence du théorème de Stone-Weierstrass établissant la densité des fonctions polynomiales pour
∥ · ∥∞ dans l’espace des fonctions continues sur un compact. Il existe ainsi une famille dénombrable
H = (hr )r∈N ⊂ Cc dense dans Cc pour ∥ · ∥∞ .
Soit r ∈ N, nous avons
Z n
1X
hr (x) µω
n (dx) = hr (Xi (ω)).
Rd n i=1

Les variables aléatoires réelles (hr (Xn ))n≥1 sont indépendantes, identiquement distribués, bornées et
donc de carré intégrable. Par la loi forte des grands nombres dans le cadre L2 , il existe Nr négligeable
tel que si ω ∈
/ Nr , Z Z
lim hr (x) µω
n (dx) = E[hr (X1 )] = hr (x) µ(dx).
n→∞ Rd Rd

Comme la famille H est dénombrable, on peutPmême définir universellement un tel ensemble négligeable.
En effet, notons N = ∪r∈N Nr , alors P(N ) ≤ r≥0 P(Nr ) = 0. De plus, si ω ∈ / N , on a
Z Z
∀r ∈ N, lim hr (x) µω
n (dx) = hr (x) µ(dx).
n→∞ Rd Rd

D’après le théorème 11.2.2, il vient que, pour tout ω ∈ N ∁ ,


Z Z
ω
∀f ∈ Cb , lim f (x) µn (dx) = f (x) µ(dx).
n→∞ Rd Rd

Ceci termine la preuve du théorème.

Le théorème fondamentale de la Statistique établit donc que la mesure empirique a tendance à


converger (étroitement) vers la loi théorique sauf peut-être pour certains n-échantillons exceptionnels.
Dans le contexte des v.a.r., ce théorème peut se traduire en terme de fonction de répartition.

159
Théorème 12.4.2 (Glivenko-Cantelli). Soit (Xn )n≥1 une suite de v.a.r. indépendantes et identiquement
distribuées. On note F la fonction de répartition de X1 et, pour tout n ≥ 1, Fn la fonction de répartition
empirique, i.e.
n
1X
∀ω ∈ Ω, ∀t ∈ R, Fnω (t) = 1]−∞,t] (Xi (ω)).
n i=1

Alors, presque sûrement, (Fn )n≥1 converge vers F uniformément sur R.


Remarque 109. Ce théorème signifie qu’il existe N négligeable tel que

∀ω ∈ N ∁ , lim sup |Fnω (t) − F (t)| = 0.


n→∞ t∈R

Remarque 110. La fonction (aléatoire) de répartition empirique est en fait la fonction de répartition de
la mesure (aléatoire) empirique : pour tout ω ∈ Ω, Fnω est la fonction de répartition de µω
n.

Démonstration. Le fait que (Fnω (t))n≥1 converge presque sûrement pour tout t ∈ R fixé est simplement
une conséquence de la loi forte des grands nombres. En effet, les variables aléatoires (1]−∞,t] (Xn ))n≥1 sont
indépendantes, identiquement distribuées, de loi commune la loi de Bernoulli de paramètre P(X1 ≤ t),
et bornées donc de carré intégrable. Ceci établit donc l’existence pour tout t ∈ R d’un ensemble Nt
négligeable tel que dès que ω ∈/ Nt , limn→∞ Fnω (t) = F (t). De la même manière, il existe pour chaque

t ∈ R un ensemble Nt négligeable tel que
n
X
P(X1 < t) = F (t− ) = lim 1]−∞,t[ (Xi (ω)) = lim Fnω (t− ).
n→∞ n→∞
i=1

La suite de la preuve consiste en deux choses : d’abord il s’agit de montrer que la convergence est
uniforme ; d’autre part, il faut construire un ensemble N négligeable universel (indépendant de t ∈ R).
Pour ce faire, considérons deux fonctions de répartitions F et Fn ainsi qu’une subdivision finie τ =
(ti )i=1,...,p avec t1 ≤ t2 ≤ · · · ≤ tp , p ∈ N∗ . On note
 
− −
δF (τ ) = max 1 − F (tp ), (F (t− p ) − F (t p−1 )) +
, . . . , (F (t2 ) − F (t1 ))+
, F (t1 ) ,

et  
Rn (τ ) = max (F (ti ) − Fn (ti )) +
, (Fn (t−
i ) − F (t−
i ))
+
.
i=1,...,p

On va montrer que ∥F − Fn ∥∞ = supt∈R |F (t) − Fn (t)| ≤ δF (t) + Rn (τ ). En effet, les fonctions F et


Fn étant croissantes et positives,
1. si t < t1 , F (t) − Fn (t) ≤ F (t−
1 ) ≤ δF (τ ) et

Fn (t) − F (t) ≤ Fn (t− − − −


1 ) ≤ Fn (t1 ) − F (t1 ) + F (t1 ) ≤ Rn (τ ) + δF (t);

2. si t ∈ [ti−1 , ti [, i = 2, . . . , p, alors d’une part

F (t) − Fn (t) ≤ F (t− − − −


i ) − Fn (ti−1 ) ≤ F (ti ) − F (ti−1 ) + F (ti−1 ) − Fn (ti−1 ) ≤ δF (τ ) + Rn (τ ),

et, d’autre part,

Fn (t) − F (t) ≤ Fn (t− − − −


i ) − F (ti−1 ) ≤ Fn (ti ) − F (ti ) + F (ti ) − F (ti−1 ) ≤ Rn (τ ) + δF (τ );

3. enfin, si t ≥ tp , Fn (t) − F (t) ≤ 1 − F (tp ) ≤ δF (τ ) et

F (t) − Fn (t) ≤ 1 − Fn (tp ) ≤ 1 − F (tp ) + F (tp ) − Fn (tp ) ≤ δF (τ ) + Rn (τ ).

Notons, pour tout x ∈ ]0, 1[,


C(x) = inf{u ∈ R : F (u) ≥ x}.
Puisque limt→∞ F (t) = 1, l’ensemble Ax = {u ∈ R : F (u) ≥ x} est non vide. Comme limt→−∞ F (t) = 0,
Ax est minoré. Ceci montre l’existence de C(x) pour tout x ∈ (0, 1). Puisque F est croissante, la

160
fonction C est elle-même croissante. De plus, Ax est une demi-droite et comme F est continue à droite,
F (C(x)) ≥ x et donc C(x) ∈ Ax . Autrement dit, Ax = [C(x), ∞) d’où

C(x) ≤ t ⇐⇒ x ≤ F (t).

En particulier, F (C(x)− ) ≤ x puisque pour s < C(x), F (s) < x.


On considère l’ensemble N définit par
[  

N= NC(q) ∪ NC(q) .
q∈Q∩(0,1)

/ N ∁,
Il est immédiat que P(N ) = 0. D’autre part si ω ∈

∀q ∈ Q ∩ (0, 1), Fnω (C(q)) → F (C(q)), et Fnω (C(q)− ) → F (C(q)− ).

On va montrer que la convergence a lieu uniformément en t ∈ R pour tout ω ∈ N ∁ . Soit donc ω ∈ N ∁


fixé et p ∈ N∗ . Pour tout i = 1, . . . , p, on pose ti = C(i(p + 1)−1 ). On remarque que F (t− i ) ≤ i/(p + 1)
et F (ti ) ≥ i/(p + 1) pour tout i = 1, . . . , p. Par conséquent, δF (τ ) ≤ 1/(p + 1) et par l’inégalité établie
plus haut, ∥Fnω − F ∥∞ ≤ 1/(p + 1) + Rn (τ ).
Par définition de Rn (τ ), pour tout ω ∈ N ∁ fixé et tout p ∈ N∗ fixé, Rn (τ ) → 0 si n → ∞ si bien que

lim sup ∥F − Fnω ∥∞ ≤ 1/(p + 1) + lim sup Rn (τ ) = 1/(p + 1).


n→∞ n→∞

Le membre de gauche de l’inégalité ne dépend plus de p et l’inégalité est valable pour tout p ≥ 1 donc
la limite supérieure à gauche est nulle. Ceci achève la preuve de ce résultat.

Ce théorème peut être affiner en précisant la vitesse de convergence des fonctions de répartition em-
pirique vers la fonction de répartition théorique. Ce dernier résultat est à la base du test de Kolmogorov-
Smirnov — on pourra pour cela se référer à [Bil68, Théorème 13.5, p.105].

161
162
Chapitre 13

Espérance conditionnelle

Dans ce chapitre, sauf mention contraire, on considère un espace probabilisé (Ω, F, P) et X à valeurs
dans Rd une variable aléatoire définie sur (Ω, F, P).

13.1 Conditionnement par un événement


Définition 13.1.1 (Probabilité conditionnelle). Soit B ∈ F. La probabilité conditionnelle sachant B
est une fonction d’ensemble, notée P(·|B), de la tribu F dans [0, 1] définie par :

 P(A∩B) si P(B) > 0,

P(B)
∀A ∈ F : P(A|B) =
 0

sinon.

Remarque 111. La spécification de la probabilité conditionnelle lorsque P(B) = 0 est arbitraire est sans
importance particulière.

Proposition 13.1.2. Soit B ∈ F tel que P(B) > 0. La fonction d’ensemble P(·|B) : F → [0, 1] est une
probabilité sur F.

Démonstration. On vérifie facilement que P(Ω|B) = 1. De plus, si (An )n≥0 est une famille dénombrable
d’éléments de F deux à deux disjoints, alors il en va de même de la famille (An ∩ B)n≥0 . Ainsi,
! !
S
 P
n≥0 An ∩B
 S 
[ P n≥0 (A n ∩ B) X P(An ∩ B) X
P An B  = = = = P(An |B).
P(B) P(B) P(B)
n≥0 n≥0 n≥0

Remarque 112. La probabilité conditionnelle par rapport à un événement B est parfois notée PB . Cette
notation a l’avantage de mettre en exergue le fait que la probabilité conditionnelle est une probabilité,
cependant elle est peu pratique.

Proposition 13.1.3. Soit B ∈ F tel que P(B) > 0. Pour tout événement A ∈ F indépendant de B on
a P(A|B) = P(A). De manière plus générale, si A, B ∈ F sont tels que P(A)P(B) > 0 alors A et B
sont indépendants si et seulement si P(A|B) = P(A) si et seulement si P(B|A) = P(B).

Démonstration. Le premier point est immédiat puisque par hypothèse P(A ∩ B) = P(A)P(B). Pour le
deuxième point, il suffit de remarquer que P(A ∩ B) = P(A|B)P(B) = P(A)P(B).

Proposition 13.1.4 (Formule des probabilités totales). Soit (Bn )n≥0 ∈ F N une partition (modulo 0)
de Ω. Alors pour tout A ∈ F : X
P(A) = P(A|Bn )P(Bn ).
n≥0

163
 est une partition, les ensembles A ∩ Bn , n ≥ 0, sont deux à deux
Démonstration. Puisque (Bn )n≥0
disjoints et A = A ∩ ∪n≥0 Bn , ainsi
X X
P(A) = P(A ∩ Bn ) = P(A|Bn )P(Bn ).
n≥0 n≥0

Proposition 13.1.5 (Formule de Bayes). Soit (Bn )n≥0 une famille d’événements de F formant une
partition (modulo 0) de Ω. Alors pour tout A ∈ F tel que P(A) > 0 et tout n ≥ 0 :

P(A|Bn )P(Bn )
P(Bn |A) = P .
k≥0 P(A|Bk )P(Bk )

Démonstration. Par la formule des probabilités totales :

P(Bn ∩ A) P(A|Bn )P(Bn )


P(Bn |A) = =P .
P(A) k≥0 P(A|Bk )P(Bk )

Comme la probabilité conditionnelle P(·|B) est en particulier une probabilité, on peut calculer la
moyenne d’une variable aléatoire intégrable par rapport à cette nouvelle probabilité. Cette espérance est
appelée espérance conditionnelle.

Définition 13.1.6. Soient X est une v.a. P-intégrable à valeurs dans Rd et B ∈ F un événement tel que
P(B) > 0. L’espérance conditionnelle de X sachant B, notée E(X|B), est l’espérance de X par rapport
à la probabilité P(·|B). Ainsi, par définition,
Z
E(X|B) = X(ω)P(dω|B).

Proposition 13.1.7. Soient X une v.a. P-intégrable à valeurs dans Rd et B ∈ F. Alors,



 E(X1B ) , si P(B) > 0

P(B)
E(X|B) =
 0,

sinon.

De plus, si A ∈ F, alors P(A|B) = E(1A |B).

Démonstration. Là encore, lorsque P(B) = 0, on définit la valeur de l’espérance conditionnelle de manière
arbitraire. Si P(B) > 0, l’égalité P(A|B) = E(1A |B) provient de la définition. Puis, on commence par
vérifier l’égalité pour des fonctions en escaliers positives.
! !
X X 1 X
E αi 1Ai = αi P(Ai |B) = E αi 1Ai 1B .
P(B)
i∈I i∈I i∈I

Pour des variables aléatoires X intégrables, on procède par approximation, puis, si X ∈ Rd , on raisonne
composantes par composantes.

Soit (Bi )i∈I une partition dénombrable (modulo 0) de Ω formée d’ensembles F-mesurables et posons
G = σ(Bi , i ∈ I). Pour une variable aléatoire X supposée P-intégrable, on définit la variable aléatoire à
valeurs dans Rd et définie sur (Ω, F, P) par l’égalité
X
E(X|G)(ω) = E(X|Bi )1Bi (ω).
i∈I

Dans cette expression, si P(Bi ) = 0, alors on pose arbitrairement E(X|Bi ) = 0. In fine, cette égalité est
définie presque-sûrement.

164
Proposition 13.1.8. La variable aléatoire E(X|G) est G-mesurable. De plus, si X est P-intégrable,
alors il en va de même de E(X|G). De plus, pour toute variable aléatoire G-mesurable bornée Z, on a
Z Z
ZE(X|G) dP = ZX dP ⇐⇒ E(ZE(X|G)) = E(ZX).
Ω Ω

Démonstration. L’application notée E(X|G) est (limite d’) une fonction étagée sur des ensembles F-
mesurables et même G-mesurables, c’est donc une variable aléatoire G-mesurable. L’égalité des espérances
est triviale si Z est G-étagée bornée.
On a ainsi défini une espérance conditionnellement à une sous-tribu engendrée par une partition qui
est consistante avec la définition de probabilité conditionnelle. Peut-on faire de même avec une sous-tribu
arbitraire ? La réponse est oui.

13.2 Espérance conditionnelle


On se sert des propriétés de l’espérance conditionnelle sachant une sous-tribu engendré par une par-
tition pour proposer une définition de l’espérance conditionnelle en général, i.e., pour des sous-tribus
arbitraires. Puis, on vérifie que cette définition est consistante dans le sens qu’une telle espérance condi-
tionnelle existe effectivement et qu’elle est caractérisée par les conditions de la définition (unicité en un
certain sens).
On ne montrera pas dans ce cours le résultat de dualité entre partitions mesurables et σ-algèbres,
mais il est important d’avoir conscience qu’il s’agit peu ou prou de la même notion.
Définition 13.2.1 (Espérance conditionnelle). Soient G ⊂ F une sous-tribu et X une variable aléatoire
P-intégrable. Une variable aléatoire Y est appelée espérance conditionnelle de X sachant G, et on note
Y = E(X|G) si
1. Y est G-mesurable ;
2. pour toute variable aléatoire G-mesurable bornée Z, E(Y Z) = E(XZ).
Si B ∈ F, alors P(B|G) = E(1B |G) est appelée probabilité conditionnelle de B sachant G.
La proposition suivante donne une caractérisation équivalente de l’espérance conditionnelle. Elle
s’avère parfois plus commode.
Proposition 13.2.2. Soient G ⊂ F une sous-tribu et X une variable aléatoire P-intégrable. Alors une
variable aléatoire G-mesurable Y est l’espérance conditionnelle de X sachant G si et seulement si, pour
tout A ∈ G, E(1A Y ) = E(1A X).
Démonstration. Dans la définition de l’espérance conditionnelle, en posant Z = 1A , l’égalité E(1A Y ) =
E(1A X) est immédiate.
Réciproquement, si pour tout A ∈ G, E(1A Y ) = E(1AP X), alors il en va de même pour toute variable
n
aléatoire G-mesurable Z étagée positive, c’est à dire Z = i=1 αi 1Ai avec Ai ∈ G et αi ≥ 0, i = 1, . . . , n.
Par le théorème de convergence monotone, cette égalité reste valide pour les variables aléatoires G-
mesurables positives. On conclut pour toute variable aléatoire G-mesurable Z en décomposant Z =
Z + − Z − , les parties positives et négatives étant trivialement G-mesurables.
Théorème 13.2.3. Si G ⊂ F est une sous-tribu et X une variable aléatoire P-intégrable, alors E(X|G)
existe et est unique.
Démonstration. On commence par montrer l’unicité. Soit Y et Y ′ satisfaisant la condition de l’espérance
conditionnelle, i.e. pour toute variable aléatoire Z G-mesurable bornée
 E(XZ) = E(Y  Z). On pose
Z = 1Y >Y ′ qui est G-mesurable et bornée. On obtient que 0 = E (Y − Y ′ )1Y >Y ′ , d’où Y = Y ′
presque-sûrement en intervertissant les rôles de Y et Y ′ .
Pour l’existence, quitte à raisonner composantes par composantes, on peut supposer X à valeurs
réelles. On décompose alors X = X + − X − en partie positive et négative. Traitons le cas de la partie
positive et définissons la mesure positive Q par

Q(A) = E(X + 1A ), A ∈ G.

165
Alors, Q est absolument continue par rapport à P et le théorème de Radon-Nikodym implique qu’il
existe une densité G-mesurable Y + tel que Q(A) = E(Y + 1A ) = E(X + 1A ). On a de même une densité
G-mesurable Y − tel que E(Y − 1A ) = E(X − 1A ). Ainsi, il existe une variable aléatoire G-mesurable
Y = Y + − Y − tel que pour tout A ∈ G, E(Y 1A ) = E(X1A ).
Notons que si G ⊂ F est une sous-tribu, alors la probabilité conditionnelle sachant G est définie comme
P(B|G) = E(1B |G) pour tout B ∈ F. Si X est une variable aléatoire de Rd , on appelle loi conditionnelle
de X sachant G la probabilité sur Rd qui à chaque borélien A assigne la probabilité P(A|G). Notez que
c’est une variable aléatoire.
Définition 13.2.4. Si X, Y sont deux variables aléatoires telles que X ∈ L1 , on définit l’espérance
conditionnelle de X sachant Y , notée E(X|Y ), comme l’espérance conditionnelle de X sachant la tribu
engendrée par Y , i.e. E(X|Y ) = E(X|σ(Y )).

13.3 Propriétés de l’espérance conditionnelle


Théorème 13.3.1. Soient G ⊂ H ⊂ F des sous-tribus et X, Y des variables aléatoires P-intégrables et
Z une variable aléatoire. Alors,
1. E[E(X|G)] = E[X] (formule des probabilités totales) ;
2. pour tout λ ∈ R, E(λX + Y |G) = λE(X|G) + (Y |G) p.s. (linéarité) ;
3. si Y ≤ X presque-sûrement, alors E(Y |G) ≤ E(X|G) p.s. (monotonie) ;
4. si E|XY | < ∞ et Y est G-mesurable alors

E(XY |G) = Y E(X|G) p.s. et E(Y |G) = E(Y |Y ) = Y p.s.;


   
5. E E(X|G) H = E E(X|H) G = E(X|G) p.s. (conditionnements emboı̂tés) ;
6. |E(X|G)| ≤ E(|X||G) p.s. (inégalité triangulaire) ;
7. si σ(X) et G sont deux tribus indépendantes, alors E(X|G) = E(X) p.s. ;
8. Si pour tout A ∈ G, P(A) ∈ {0, 1}, alors E(X|G) = E(X) p.s..
Démonstration. 1. C’est la caractérisation de l’espérance conditionnelle appliquée à la variable aléa-
toire bornée Z = 1Ω .
2. Il est clair que λE(X|G) + E(Y |G) est G-mesurable. Soit Z une application G-mesurable bornée.
Alors, par linéarité de l’espérance et définition de l’espérance conditionnelle

E(Z(λE(X|G) + E(Y |G))) = λE(ZE(X|G)) + E(ZE(Y |G))


= λE(ZX) + E(ZY )
= E(Z(λX + Y )).

3. Soit Z = 1E(X|G)<E(Y |G) . Clairement, Z est G-mesurable bornée. En particulier, par définition de
l’espérance conditionnelle, et puisque X ≥ Y presque-sûrement

0 ≥ E(Z(E(X|G) − E(Y |G))) = E(Z(X − Y )) ≥ 0.

Ainsi, Z = 0 presque-sûrement.
4. Soit A ∈ G, et supposons d’abord que Y = 1B pour un B ∈ G. Alors,

E(1A E(1B X|G)) = E(1A 1B X) = E(1A 1B E(X|G))

car 1A 1B est G-mesurable borné. Par linéarité de l’espérance (classique), cette relation est toujours
satisfaite si Y est étagée positive, puis par convergence dominée en utilisant l’hypothèse E|XY | <
∞, c’est encore vrai lorsque Y est G-mesurable. Puisque A ∈ G est arbitraire, presque-sûrement
E(XY |G) = Y E(X|G).
Pour la deuxième égalité, on utilise la première égalité avec X = 1Ω et on remarque que E(1Ω |G) =
1 presque-sûrement (1Ω est trivialement G-mesurable et la variable aléatoire constante égale à 1
vérifie l’égalité de la définition de l’espérance conditionnelle).

166
5. Soit Z une variable aléatoire G-mesurable bornée. Alors Z est également H-mesurable bornée,
ainsi, par les points 1) et 4),

E(ZE(E[X|H]|G)) = E(E(E[ZX|H]|G)) = E(ZX)

Par définition de l’espérance conditionnelle, on obtient

E(E[X|H]|G) = E(X|G).

Pour l’autre égalité, on utilise le point 4) et le fait qu’une variable aléatoire G-mesurable est
H-mesurable si G ⊂ H.
6. C’est une conséquence du point 1) et 2) en posant X = X + − X − .
7. Soit Z une variable aléatoire G-mesurable bornée, alors σ(X) et G étant indépendantes, Z est une
variable aléatoire indépendante de X. Ainsi,

E(ZE(X|G)) = E(ZX) = E(Z)E(X) = E(ZE(X)).

Et il vient que E(X|G) = E(X) presque-sûrement.


8. Si G est trivial, c’est à dire tout A ∈ G vérifie P(A) ∈ {0, 1}, alors une variable aléatoire G-
mesurable bornée est presque-sûrement constante.

E(ZE(X|G)) = E(ZX) = ZE(X) = E(ZE(X)),

car Z et ZE(X) sont constantes presque-sûrement.

Les théorèmes de convergences de type Beppo-Lévy, Fatou et convergence dominée de Lebesgue se


généralisent facilement aux espérances conditionnelles.
Théorème 13.3.2 (Beppo-Lévy, Fatou, convergence dominée de Lebesgue). Soit G ⊂ F une sous-tribu
de (Ω, F, P)
1. Convergence monotone conditionnelle : Soit (Xn )n≥0 une suite croissante de variables aléatoires
à valeurs réelles positives et P-intégrables. Alors limn→∞ Xn existe dans [0, ∞] et

lim E(Xn |G) = E(X|G), p.s..


n→∞

2. Lemme de Fatou conditionnel : Soit (Xn )n≥0 une suite de variables aléatoires positives et P-
intégrables. Alors
E(lim inf Xn |G) ≤ lim inf E(Xn |G).
n→∞ n→∞

3. Soient Y une variable positive P-intégrable et (Xn )n≥0 une suite de variables aléatoires telles que
|Xn | ≤ Y pour tout n ≥ 0 et Xn converge vers X presque-sûrement. Alors

lim E(Xn |G) = E(X|G)


n→∞

presque-sûrement et dans L1 .
Remarque 113. La version conditionnelle des lemmes de convergence monotone et de Fatou suppose que
les variables Xn sont P-intégrables, ceci pour assurer l’existence de l’espérance conditionnelle.
Démonstration. 1. On considère, pour tout n ≥ 0, Yn = E(Xn |G). La suite (Yn )n≥0 est monotone
croissante de variable aléatoires positives par monotonie de l’espérance conditionnelle. Ainsi, la
suite (Yn )n≥0 converge presque sûrement vers une variable aléatoire que l’on note Y . Il s’agit
donc de montrer que Y = E(X|G). Pour ce faire, considérons A ∈ G, alors par le théorème de
convergence monotone classique, en notant X = limn→∞ Xn

E(X1A ) = lim E(Xn 1A ) = lim E(Yn 1A ) = E(Y 1A ).


n→∞ n→∞

2. On applique le point 1) à la suite Yn = inf k≥n Xn et la monotonie de l’espérance conditionnelle.

167
3. On définit Wn = supk≥n |Xk − X|. Alors 0 ≤ Wn ≤ 2Y et Wn converge vers 0 presque-sûrement.
Donc E(Wn ) converge vers 0. Par l’inégalité triangulaire

E|E(Xn |G) − E(X|G)| ≤ E(E(|Xn − X||G)) = E(|Xn − X|) = E(Wn ),

si bien E(Xn |G) converge vers E(X|G) dans L1 . Comme (Wn )n≥0 est décroissante, la monotonie
de l’espérance conditionnelle implique que (E(Wn |G))n≥0 est également décroissante et converge
presque-sûrement vers une variable aléatoire W ≥ 0. Alors par le lemme de Fatou

0 ≤ E(W ) ≤ lim inf EE(Wn |G) = lim E(Wn ) = 0.


n→∞ n→∞

Par conséquent, W = 0 presque-sûrement et E(Wn |G) converge vers 0 presque-sûrement. Mais,

|E(Xn |G) − E(X|G)| ≤ E(Wn |G).

13.4 Inégalité de Jensen et de Markov conditionnelles


Proposition 13.4.1. Soit φ : R → R une fonction convexe et X une v.a.r. telle que X et φ(X) ∈ L1 ,
alors φ(E(X|G)) ≤ E(φ(X)|G).

Remarque 114. Pour ne pas se tromper dans le sens de l’inégalité, penser à la fonction valeur absolue.

Démonstration. La version conditionnelle de l’inégalité de Jensen se montre de la même façon que la


version classique.
Il est connu que pour tout x0 ∈ R il existe a, b ∈ R (qui dépendent de x0 et non nécessairement
uniques) tels que
∀x ∈ R, φ(x) ≥ ax + b et φ(x0 ) = ax0 + b.
Choisissons x0 = E(X|G) et x = X puis après passage aux espérances conditionnelles, il vient par
linéarité de l’espérance conditionnelle

φ (E(X|G)) = aE(X|G) + b = E(aX + b|G) ≤ E(φ(aX + b)|G).

Proposition 13.4.2 (Inégalité de Markov conditionnelle). Soit G ⊂ F une sous-tribu et X une variable
aléatoire réelle positive. Alors,

E(X|G)
∀λ > 0 : P(X > λ|G) ≤ .
λ
Remarque 115. Bien entendu, comme dans le cas de l’espérance classique, on peut aussi montrer une
inégalité de Bienaymé-Tchebychev conditionnelle.

Démonstration. Encore une fois, La preuve est très identique à celle donnée dans le cas l’espérance clas-
sique. En fait, X > λ1X>λ presque-sûrement, puis en utilisant la monotonie de l’espérance conditionnelle,
on obtient E(X|G) ≥ E(λ1X>λ |G) = P(X > λ|G).

13.5 Conditionnement des vecteurs gaussiens


Proposition 13.5.1. Soit (Y, X1 , . . . , Xd ) un vecteur gaussien de Rd+1 tel que X = (X1 , . . . , Xd ) possède
une matrice de variance inversible Σ. Notons a = Σ−1 (cov (Y, X1 ), . . . , cov (Y, Xd )), alors

E(Y |X1 , . . . , Xd ) = E(Y ) + a∗ (X − EX).

En particulier, une variable (ou vecteur) gaussienne conditionnée par rapport à un vecteur gaussien est
encore gaussienne.

168
Démonstration. On suppose que (Y, X1 , . . . , Xd ) est centré et on note Ŷ = a∗ X. On vérifie facilement que
cov (Y − Ŷ , Xi ) = E[(Y − Ŷ )Xi ] = 0 pour tout i = 1, . . . , d. Ainsi, puisque le vecteur (X1 , . . . , Xd , Y − Ŷ )
est gaussien, que (Y − Ŷ ) est indépendant de (X1 , . . . Xd ), on obtient que

E(Y |X1 , . . . , Xd ) = E(Y − Ŷ |X1 , · · · , Xd ) + Ŷ = E(Y − Ŷ ) + Ŷ = Ŷ .

13.6 Point de vue hilbertien des espérances conditionnelles


L’espérance conditionnelle lorsque X est de carré intégrable s’interprète géométriquement dans le
cadre de la théorie des espaces de Hilbert. L’application de la théorie des espaces de Hilbert aux espérance
conditionnelles est illustrée par le théorème suivant.
Théorème 13.6.1. Soient X une variable aléatoire de carré P-intégrable et G ⊂ F une sous-tribu.
L’espace des variables aléatoires G-mesurables de carré P-intégrable est un s.e.v. fermé noté FG , et
l’espérance conditionnelle de X sachant G est la projection orthogonale de X sur FG .
Démonstration. On doit montrer que pour toute variable aléatoire G-mesurable Y telle que E|Y |2 < ∞,
on a
E((X − Y )2 ) ≥ E((X − E(X|G))2 ),
avec égalité si Y = E(X|G).
On vérifie tout d’abord que E[E(X|G)2 ] < ∞ par l’inégalité de Jensen. Soit Y une variable aléatoire
G-mesurable telle que E(Y 2 ) < ∞, alors par Cauchy-Schwarz, XY est intégrable. Alors, d’une part
E(XY ) = E(Y E(X|G)) et d’autre part,

E(XE(X|G)) = E[E(XE{X|G}|G)] = E(E[X|G]2 ).

En utilisant ces deux égalités, le calcul suivant termine la preuve

E[(X − Y )2 ] − E[(X − E(X|G))2 ] = E[X 2 − 2XY + Y 2 − X 2 + 2XE(X|G) − E(X|G)2 ]


= E[Y 2 − 2Y E(X|G) + E(X|G)2 ]
= E[(Y − E(X|G))2 ] ≥ 0.

Remarque 116. Dans la littérature il existe deux points de vues équivalents pour construire l’espérance
conditionnelle : ou bien, on utilise le théorème de Radon-Nikodym, ou bien on utilise le théorème de
projection dans un Hilbert qui permet de définir l’espérance conditionnelle pour des variables aléatoires
de carré intégrable. La second méthode s’étend facilement aux variables aléatoires intégrables. En réalité,
les deux méthodes sont strictement équivalentes puisque le théorème de Radon-Nikodym découle du
théorème de projection. Néanmoins, les deux points de vues restent intéressants pour eux-même, l’un est
très centré sur la théorie de la mesure alors que l’autre est plus géométrique.

13.7 Lois conditionnelles régulières


13.7.1 Densité conditionnelle
Lorsque la variable aléatoire par rapport à laquelle on conditionne, que l’on note Y ici, est à valeurs
discrète, disons dans N pour simplifier, il est facile de définir la notion de loi conditionnelle de X sachant
Y : c’est la famille de lois {PX|Y =y , y ∈ N} telle que si P(Y = y) > 0,

PX|Y =y (B) = P(X ∈ B|Y = y), B ∈ B(R),

et dans le cas contraire, PX|Y =y est une probabilité quelconque.


Malheureusement, lorsque la variable aléatoire Y n’est plus à valeurs discrètes, ce procédé ne s’étend
pas aussi simplement : si par exemple Y est de loi continue, P(Y = y) = 0 pour tout y ∈ R. L’objet

169
de cette section est de contourner ce problème et plus spécifiquement d’énoncer le théorème 13.7.3 dont
la démonstration (partielle) sera donnée à la fin de cette section. Ce théorème permet de généraliser la
formule de Bayes aux lois à densités. On commence par un lemme technique qui peut être également
utile dans d’autres contextes.

Lemme 13.7.1. Soit X une variable aléatoire à valeurs dans Rd et soit Z une variable aléatoire σ(X)-
mesurable à valeurs dans Rp . Alors il existe une application h : Rd → Rp mesurable telle que Z = h(X).
De plus h est définie PX -p.s..

Rappelons que σ(X) est la plus petite tribu sur Ω rendant X mesurable. En particulier, puisque X
est F-mesurable (c’est une variable aléatoire), nous avons σ(X) ⊂ F.

Démonstration. Si Z = h(X) alors Z est clairement σ(X)-mesurable puisque, pour tout borélien A ∈
B(Rp ), h−1 A ∈ B(Rd ) et donc, puisque X est σ(X)-mesurable par définition, il vient que X −1 h−1 (A) ∈
σ(X).
Pour la réciproque, il suffit de montrer que tout A ∈ σ(X) s’écrit X −1 B pour B ∈ B(Rd ). Pour ce
faire, notons
A = {A ∈ σ(X) : ∃ B ∈ B(Rd ), X −1 B = A}.

Clairement, A ⊂ σ(X). De plus, ∅ = X −1 ∅ ∈ A alors que A est stable par passage au complémentaire et
réunion dénombrable, ce sont les propriétés de l’image réciproque. Ainsi, A est une tribu contenu dans
σ(X). Cependant, il est facile de voir que X est A-mesurable, donc A = σ(X).
Ce résultat montre que si Z est une application σ(X)-mesurable étagée positive, alors il existe
α1 , . . . , αn ∈ R+ et des boréliens B1 , . . . , Bn de B(Rd ) tels que
n
X n
X
Z= αi 1X −1 Bi = αi 1Bi ◦ X.
i=1 i=1

Pn
Il suffit alors de poser h = i=1 αi 1Bi qui est une application borélienne étagée positive de Rd dans R+ .
L’extension du cas Z étagée positive à Z à valeurs dans Rp se fait comme d’habitude : Z positive par
approximation, Z réelle en décomposant en partie positive et partie négative, Z à valeurs dans Rp en
raisonnant composantes par composantes.

Ce lemme permet de donner un sens à la notation E(X|Y = y), d’où la définition suivante.

Définition 13.7.2. Soit X à valeurs dans Rp et P-intégrable et soit Y une variable aléatoire à valeurs
dans Rq . On définit l’espérance conditionnelle de X sachant Y = y par E(X|Y = y) = φ(y) où φ est
une fonction mesurable satisfaisant φ(Y ) = E(X|Y ). De même, pour A ∈ F, on définit P(A|Y = y) =
E(1A |Y = y).

Théorème 13.7.3. Supposons que la loi jointe de (X, Y ) admette une densité f par rapport à la mesure
de Lebesgue λp+q . Alors, Y admet une densité fY et la loi conditionnelle régulière de X sachant Y = y
admet une densité pour PY -p.t. y ∈ Rq , notée fX|Y =y , définie pour x ∈ Rp par

f (x, y)
fX|Y =y (x) = 1{fY >0} .
fY (y)

De plus, pour toute fonction réelle φ mesurable telle que φ(X) ∈ L1 et pour PY -p.t. y ∈ Rq ,
Z
E(φ(X)|Y = y) = φ(x)fX|Y =y (x) dx.
Rp
R
Remarque 117. Le PY -p.p. provient du fait que fY (y) = Rp f (x, y) λp (dx) est seulement définie PY -p.p..
Dans les faits, elle est souvent définie partout — typiquement si y → f (x, y) est continue pour presque
tout x ∈ Rp , mais pas seulement. Dans ce cas, l’expression de fX|Y =y est toujours valide.

170
Exemple 52. Soit (X, Y ) ∈ R2 de loi jointe f(X,Y ) (x, y) = 1R+ ×R+ (x)ye−yx e−y . Alors, Y admet pour
densité Z ∞
−y
fY (y) = 1R+ (y)e ye−yx dx = 1R+ (y)e−y .
0
La densité conditionnelle fX|Y =y est donnée pour presque tout y ∈ R+ par

fX|Y =y (x) = 1R+ (x)ye−yx .

Autrement dit, Y suit une loi exponentielle de paramètre 1 et la loi de X sachant Y est une loi expo-
nentielle de paramètre (aléatoire) Y , on note L(X|Y ) = E(Y ).
Corollaire 13.7.4. Supposons X et Y indépendantes et de densités respectives, par rapport à λp et λq ,
fX et fY . Alors la loi conditionnelle régulière de X sachant Y admet fX pour densité.

13.7.2 Noyau de transition et loi conditionnelle régulière


Dans toute la suite, X et Y sont des variables aléatoires définies sur un même espace probabilisé
(Ω, F, P) et à valeurs dans Rp et Rq respectivement. Tous ces résultats restent valables si X et Y sont à
valeurs dans un espace polonais, le lemme 13.7.1 étant même vrai si elles sont à valeurs dans un espace
mesurable.
Définition 13.7.5. Une application K : Rq × B(Rp ) → [0, 1] est appelée noyau de transition si les deux
conditions suivantes sont satisfaites :
1. pour tout x ∈ Rq , K(x, ·) est une probabilité sur B(Rp ) ;
2. pour tout A ∈ B(Rp ), l’application x → K(x, A) est B(Rq )-mesurable.
Si K est un noyau de transition, alors on peut faire agir une probabilité µ à gauche et une fonction
mesurable bornée f à droite de telle sorte que
Z
⟨µK, f ⟩ = ⟨µ, Kf ⟩ = µ(dx)K(x, dy)f (y).
Rq ×Rp

Plus directement, on définit la probabilité µK pour tout A ∈ B(Rp ) par


Z
µK(A) = µ(dx)K(x, A),
Rq

et on définit la fonction Kf pour tout x ∈ Rq


Z
Kf (x) = K(x, dy)f (y).
Rp

Définition 13.7.6. Soient X et Y des variables aléatoires à valeurs dans Rp et Rq respectivement. Un


noyau de transition K : Rq × B(Rp ) → [0, 1] est appelée loi conditionnelle régulière de X sachant Y si
pour presque tout y ∈ Rq

P(X ∈ B|Y = y) = K(y, B) ou E(φ(X)|Y = y) = Kφ(y).

où B ∈ B(Rp ) et φ : Rp → R borélienne bornée.


Au vu du lemme de factorisation 13.7.1, on voit tout de suite que pour chaque fonction φ borélienne
bornée on peut associer une fonction hφ telle que E(φ(X)|Y = y) = hφ (y). Cela définit un opérateur
linéaire (dans un sens généralisé), c’est à dire un sous-espace linéaire de mMb (Rp ) × mMb (Rq ), où
mMb (Rd ) représente l’espace des fonctions mesurables (partout) bornées sur Rd . Cependant, la fonction
hφ n’est définie que PY -presque partout et l’ensemble négligeable N correspondant dépend a priori de
φ et X. Mais l’espace des fonctions φ boréliennes bornées n’est en général pas dénombrable, ainsi on
ne peut pas trouver un ensemble négligeable N universel, c’est à dire valable pour chaque fonction φ.
Néanmoins, on vérifie facilement que si φ est PX -intégrable alors hφ est PY -intégrable. En effet :

E|hφ (Y )| = E|E(φ(X)|Y )| ≤ E|φ(X)|.

171
Ainsi, on peut restreindre l’opérateur linéaire à l’espace L1PX (Rq ) × L1PY (Rq ). Or il se trouve que L1
est séparable, c’est à dire contient un sous-ensemble dénombrable dense (c’est le cas dès que la tribu
est engendré par une famille dénombrable de parties). Ainsi, pour chacune des fonctions dans cette
partie dense, il sort un certain ensemble négligeable, leur réunion dénombrable est toujours négligeable
et convient à toutes les fonctions de la partie dense. Finalement, à l’aide d’un argument de continuité, on
peut choisir l’ensemble négligeable de façon universelle. C’est ce que raconte le théorème suivant (admis),
il implique l’existence de la loi conditionnelle de X sachant Y .
Théorème 13.7.7. Soient X et Y des variables aléatoires à valeurs dans Rp et Rd respectivement.
Alors, il existe un noyau de transition K : Rq × B(Rp ) → [0, 1] tel que PX = PY K.

Ce théorème permet de donner un sens à l’écriture PX|Y =y puisqu’en l’espèce

PX|Y =y (A) = P(X ∈ A|Y = y) = K(y, A), A ∈ B(Rp ).

De même, pour une fonction φ : Rp → R, on aura


Z
E(φ(X)|Y = y) = K(y, dx)φ(x).
Rp

On peut désormais montrer le théorème 13.7.3.

Preuve du théorème 13.7.3. Calculons pour h × g : Rp × Rq → R borélienne bornée


Z
h × g(x, y)f (x, y) dxdy = E(h × g(X, Y ))
Rp+q
= E(g(Y )E(h(X)|Y ))
= E(g(Y )Kh(Y ))
Z Z
= g(y)fY (y) h(x)K(y, dx) dy
q Rp
ZR
= h × g(x, y)fY (y)K(y, dx) dy,
Rp+q

où la dernière égalité provient du théorème de Fubini. Ainsi, presque-partout, K(y, ·) est absolument
continue par rapport à λp , on note fX|Y =y sa densité. Alors f(X,Y ) (x, y) = fY (y)fX|Y =y (x) presque-
partout.

172
Lois usuelles

13.8 Lois discrètes

Nom de la loi Support P(X = k) E(X) V(X)


1 n+1 n2 −1
Uniforme {1, . . . , n} n 2 12

Bernoulli, B(p) {0, 1} {1 − p, p} p p(1 − p)


n

Binomiale, B(n, p) {0, . . . , n} k pk (1 − p)n−k np np(1 − p)
N1 N2
( )( ) nN1 nN1 N2 (N1 +N2 −n)
Hypergéométrique {0, . . . , n} k n−k
N1 +N2 N1 +N2 (N1 +N2 )2 (N1 +N2 −1)
( n )
1−p
Géométrique, G(p) N \ {0} = N∗ p(1 − p)k−1 1
p p2
k
Poisson, P(a) N e−a ak! a a

13.9 Lois continues

Nom de la loi Support Densité f (x) E(X) V(X)


1 a+b (b−a)2
Uniforme, U[a, b] [a, b] b−a 1[a,b] (x) 2 12
(x−µ)2
Gaussienne, N (µ, σ 2 ) R √ 1 e− 2σ 2 µ σ2
2πσ

Exponentielle, E(λ) R+ λe−λx 1R+ (x) 1


λ
1
λ2
θ a −θx a−1
Gamma, Γ(a, θ) R∗+ Γ(a) e x 1R∗+ (x) a
θ
a
θ2

Chi-deux, χ2 (d) R+ 1
2d/2 Γ(d/2)
xd/2−1 e−x/2 1R+ (x) d 2d
a
Cauchy (centrée), C(a) R π(a2 +x2 ) Non définie Non définie

R∞
Fonction Gamma : Γ(z) := 0
tz−1 e−t dt, Re z > 0.

173
174
Bibliographie

[Bil68] Patrick Billingsley. Convergence of probability measures. John Wiley & Sons, Inc., New York-
London-Sydney, 1968.
[BP04] M. Briane and G. Pagès. Théorie de l’intégration : Cours et exercices, licence & master de
mathématiques. Vuibert, 2004.
[Car67] Henri Cartan. Calcul différentiel. Hermann, Paris, 1967.
[Eri73] K. Bruce Erickson. The strong law of large numbers when the mean is undefined. Trans. Amer.
Math. Soc., 185 :371–381 (1974), 1973.
[Kes70] Harry Kesten. The limit points of a normalized random walk. Ann. Math. Statist., 41 :1173–
1205, 1970.
[Kin73] J. F. C. Kingman. Subadditive ergodic theory. Ann. Probability, 1 :883–909, 1973. With
discussion by D. L. Burkholder, Daryl Daley, H. Kesten, P. Ney, Frank Spitzer and J. M.
Hammersley, and a reply by the author.
[Nev70] Jacques Neveu. Bases mathématiques du calcul des probabilités. Masson et Cie, Éditeurs, Paris,,
1970. Préface de R. Fortet, Deuxième édition, revue et corrigée.
[Rud87] Walter Rudin. Real and complex analysis. McGraw-Hill Book Co., New York, third edition,
1987.
[Spi76] Frank Spitzer. Principles of random walks. Springer-Verlag, New York, second edition, 1976.
Graduate Texts in Mathematics, Vol. 34.

175

Vous aimerez peut-être aussi