0% ont trouvé ce document utile (0 vote)

11 vues187 pages

Notes IP

Ce document traite de la théorie de la mesure et des probabilités, en abordant des concepts fondamentaux tels que la topologie, les tribus, les mesures, et l'intégrale de Lebesgue. Il présente également des théorèmes limites, la mesure produit, et les espaces Lp. La structure du document est organisée en chapitres détaillant les principes et applications de ces concepts mathématiques.

Transféré par

dj D

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

11 vues187 pages

Notes IP

Transféré par

dj D

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Théorie de la mesure et probabilité

Basile de Loynes

25 septembre 2023

Ce document est mis à disposition selon les termes de la licence Creative

Commons “Attribution – Partage dans les mêmes conditions 4.0 Internatio-
nal”.
ii
Table des matières

Introduction vii

I Topologie et théorie de la mesure 1

1 Rappels et compléments d’analyse 3

1.1 Espaces vectoriels normés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Espaces métriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Métrique, boule ouverte, boule fermée, parties bornées . . . . . . . . . . . . . . . . 4
1.2.2 Topologie des espaces métriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.3 Notion de limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.4 Continuité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2.5 Topologies et opérations ensemblistes . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2.6 Compacité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.7 Espaces métriques complets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.3 Espaces polonais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2 Tribus, applications mesurables et mesures 25

2.1 Tribus et Applications mesurables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.1 Tribu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.2 Tribu borélienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.3 La droite achevée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.1.4 Applications mesurables, applications boréliennes . . . . . . . . . . . . . . . . . . . 29
2.1.5 Approximation des fonctions mesurables . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2 Mesures positives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.1 Définitions et propriétés élémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.2 Quelques exemples de mesures : mesures discrètes et mesure de Lebesgue . . . . . 35
2.2.3 Théorème des classes monotones, caractérisation des mesures et théorème de pro-
longement de Carathéodory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.2.4 Régularité des mesures, mesures de Borel et espaces polonais . . . . . . . . . . . . 46

3 Intégrale au sens de Lebesgue 51

3.1 Construction de l’intégrale de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.1 Intégration des fonctions étagées positives . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.2 Intégration des fonctions mesurables positives . . . . . . . . . . . . . . . . . . . . . 52
3.1.3 Intégration des fonctions mesurables . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2 L’intégrale de Lebesgue en pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2.1 L’intégrale de Lebesgue contre des mesures discrètes . . . . . . . . . . . . . . . . . 56
3.2.2 Mesures à densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.2.3 Mesure image et théorème de transfert . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.2.4 Intégrale de Riemann et intégrale de Lebesgue . . . . . . . . . . . . . . . . . . . . 59

iii
4 Théorèmes limites 63
4.1 Lemme de Fatou . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.2 Ensembles et fonctions mesurables négligeables . . . . . . . . . . . . . . . . . . . . . . . . 63
4.3 Théorème de convergence dominée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.4 Intégrale à paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

5 Mesure produit 69
5.1 Mesure produit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.2 Théorèmes de Fubini-Tonelli et de Fubini-Lebesgue . . . . . . . . . . . . . . . . . . . . . . 71
5.3 La mesure produit en application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.4 Mesure image et changement de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

6 Espaces Lp et Lp 79
6.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.2 Inégalités de Hölder et de Minkowski . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
6.3 Théorème de Radon-Nikodym . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
6.3.1 Un peu d’espace de Hilbert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
6.3.2 Lemme de Fréchet-Riesz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6.3.3 Théorème de Radon-Nikodym, cas des mesures positives . . . . . . . . . . . . . . . 86
6.3.4 Théorème de Radon-Nikodym, cas des mesures signées . . . . . . . . . . . . . . . . 88
6.4 Approximation dans les espaces Lp , p ∈ [1, ∞) . . . . . . . . . . . . . . . . . . . . . . . . 90
6.4.1 Approximation par des fonctions étagées mesurables . . . . . . . . . . . . . . . . . 90
6.4.2 Approximation par des fonctions continues à support compact . . . . . . . . . . . 91
6.4.3 Convolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

II Probabilités générales 97

7 Variables aléatoires réelles et vecteurs aléatoires 99

7.1 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
7.2 Variables aléatoires réelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
7.2.1 Intégration des variables aléatoires réelles . . . . . . . . . . . . . . . . . . . . . . . 101
7.2.2 Caractérisation de la loi d’une v.a.r. . . . . . . . . . . . . . . . . . . . . . . . . . . 104
7.2.3 Exemples de calcul de lois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
7.2.4 Classification des lois de probabilités sur R . . . . . . . . . . . . . . . . . . . . . . 110
7.2.5 Simulation de lois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
7.3 Vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
7.3.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
7.3.2 Loi d’un vecteur aléatoire, lois marginales . . . . . . . . . . . . . . . . . . . . . . . 112
7.3.3 Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
7.3.4 Lois à densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
7.3.5 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
7.3.6 Transformation des vecteurs aléatoires à densité . . . . . . . . . . . . . . . . . . . 114

8 Indépendance 115
8.1 Tribus indépendantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
8.2 Lemme de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
8.3 Variables aléatoires indépendantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
8.3.1 Définition et caractérisation élémentaire . . . . . . . . . . . . . . . . . . . . . . . . 118
8.3.2 Constructions de variables aléatoires indépendantes . . . . . . . . . . . . . . . . . 118
8.3.3 Caractérisation de l’indépendance de v.a.r. . . . . . . . . . . . . . . . . . . . . . . 120
8.4 Une application du second lemme de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . . . 122

iv
9 Fonctions caractéristiques 123
9.1 Fonction caractéristique d’une v.a.r. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
9.2 Fonctions caractéristiques et moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
9.3 Fonctions caractéristiques de vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . 126
9.4 Fonctions caractéristiques et indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

10 Vecteurs gaussiens 127

10.1 Manipulation des vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
10.2 Loi du χ2 , moyenne et variance empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . 130

11 Convergences de suites de variables aléatoires 133

11.1 Convergences trajectorielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
11.1.1 Convergence presque sûre ou presque partout . . . . . . . . . . . . . . . . . . . . . 133
11.1.2 Convergence dans Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
11.1.3 Convergence en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
11.1.4 Convergence trajectorielle et critère de type Cauchy . . . . . . . . . . . . . . . . . 137
11.2 Convergence étroite et convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
11.2.1 Convergence étroite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
11.2.2 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
11.3 Loi du 0-1 de Kolmogorov et séries aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . 146

12 Loi des grands nombres et Théorème Central Limite 153

12.1 Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
12.2 Théorème Central Limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
12.3 TCL multivarié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
12.4 Applications de la loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

13 Espérance conditionnelle 163

13.1 Conditionnement par un événement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
13.2 Espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
13.3 Propriétés de l’espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
13.4 Inégalité de Jensen et de Markov conditionnelles . . . . . . . . . . . . . . . . . . . . . . . 168
13.5 Conditionnement des vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
13.6 Point de vue hilbertien des espérances conditionnelles . . . . . . . . . . . . . . . . . . . . 169
13.7 Lois conditionnelles régulières . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
13.7.1 Densité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
13.7.2 Noyau de transition et loi conditionnelle régulière . . . . . . . . . . . . . . . . . . . 171

Lois usuelles 173

13.8 Lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
13.9 Lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

v
vi
Introduction

Ces notes constituent le support d’un cours dispensé en première année de l’Ensai. L’objectif principal
de ce cours est d’introduire le formalisme moderne de la théorie des probabilités. Un cours de probabilité
moderne ne saurait se dispenser des bases solides données par la théorie de la mesure. C’est ainsi que ce
cours est découpé en deux parties : la première est dédiée la construction de l’intégrale de Lebesgue dans
le formalisme de la théorie de la mesure ; la seconde quant à elle s’attachera à introduire les concepts
fondamentaux de probabilité.
Dans l’axiomatique de la théorie de la mesure, on se donne un triplet (X, X , µ) où
— X est un ensemble ;
— X est une collection de parties de X dites parties mesurables ;
— µ est une fonction d’ensembles de X dans R+ .
On s’attachera dans la première partie du cours à définir proprement la notion de partie mesurable et
mesure. Puis, on donnera un sens aux notations
Z Z Z
f dµ, f (x) µ(dx) ou encore f (x) dx.
X R R

Au vu de la notation utilisée ci-dessus à droite, on peut s’interroger sur l’utilité de construire une
nouvelle intégrale. D’autant plus que, comme nous le verrons, toute fonction numérique réelle, intégrable
au sens de Riemann sur un intervalle [a, b] de R, est en particulier intégrable au sens de Lebesgue et
les deux intégrales coı̈ncident. Avant de décrire le contenu de ce cours, prenons le temps de discuter les
raisons nous poussant à construire une nouvelle intégrale.
Pour cela, rappelons succinctement la construction de l’intégrale de Riemann. Soit f : [a, b] → R une
fonction bornée que l’on supposera positive pour simplifier. On considère une subdivision de l’intervalle
[a, b], notée σ, a = t0 < t1 < · · · < tn−1 < tn = b. Les sommes de Darboux inférieure et supérieure
relativement à la subdivision σ sont définies respectivement par
n−1
X n−1
X
s(f, σ) = (ti+1 − ti ) inf f (x) et S(f, σ) = (ti+1 − ti ) sup f (x).
x∈[ti ,ti+1 ] x∈[ti ,ti+1 ]
i=0 i=0

En notant S l’ensemble des subdivisions de l’intervalle [a, b], une fonction f : [a, b] → R est dite intégrable
au sens de Riemann si
inf{S(f, σ) : σ ∈ S} ≤ sup{s(f, σ) : σ ∈ S}.
Rb
La valeur commune de cet infimum et ce supremum est alors notée a f (x) dx.
Cette construction a l’avantage de la simplicité, quelques lignes suffisent à définir l’intégrale de Rie-
mann. Cette simplicité est aussi son principal défaut : l’ensemble des fonctions intégrables au sens de
Riemann est trop restreint. La raison en est que l’intégrabilité au sens de Riemann impose une cer-
taine régularité sur la fonction f , celle-ci ne doit pas trop osciller au risque que les sommes de Darboux
inférieure et supérieure ne puissent coı̈ncider à la limite. C’est le cas par exemple pour f = 1[0,1]∩Q . Nous
verrons que cette dernière fonction est intégrable au sens de Lesbesgue et d’intégrale nulle. D’une manière
plus générale, pratiquement toute fonction positive peut être intégrée (dans un sens large, c’est à dire
l’intégrale peut être infinie) au sens de Lebesgue ; de telles fonctions sont dites mesurables positives ; en
fait, il y a bien un exemple de fonction de non mesurable mais sa construction utilise l’axiome du choix.
Cependant, s’il n’était seulement question que d’intégrer plus de fonctions, ce serait un peu court.
Le réel défaut de la notion d’intégrale au sens de Riemann est qu’elle n’est pas préservée par passage à
la limite : on peut exhiber une suite (fn )n≥0 croissante de fonctions Riemann intégrables qui converge

vii
simplement vers une fonction non intégrable au sens de Riemann 1 . Dans le contexte de l’intégrale de
Lebesgue, la positivité des fonctions fn suffira à donner un sens à l’intégrale de la limite. Une condition
tout aussi simple pour des fonctions non partout positives existe bien entendu. Dans le contexte Riemann,
la bonne hypothèse est en général la continuité et la convergence uniforme ; celle-ci est beaucoup trop
technique et surcharge souvent inutilement les preuves.
Ses bonnes propriétés de convergence sont sans doute à mettre à l’actif de ce que l’intégrale de
Lesbesgue est définie comme une borne supérieure ; en ce sens, on approche l’intégrale de Lebesgue par
valeurs inférieures, contrairement à l’intégrale de Riemann qui est définie via la convergence de deux suites
adjacentes. Notons en outre que lors de la démonstration du théorème de convergence monotone, nous
introduisons la fonction v = u1u≤f . Lorsque u est une fonction étagée (la fonction u admet un nombre
fini de valeurs distinctes) alors v sera également une fonction étagée. Au contraire, si u est une fonction
en escalier, c’est à dire une combinaison linéaire d’indicatrice d’ouverts, et que f est raisonnablement
pathologique il est à peu près sûr que v n’héritera pas de cette propriété.
L’intégrale de Lebesgue est aussi plus maniable pour traiter le cas de fonctions présentant des sin-
gularités ou lorsque l’intervalle [a, b] considéré n’est plus borné. Considérons l’exemple de la fonction
f (x) = √1x que l’on souhaite intégrer sur [0, 1]. Dans le contexte de l’intégrale de Riemann, on définit

Z 1 Z 1
dx dx
√ = lim √ ,
0 x ε→0 ε x

dès que la limite à droite existe. Dans ce cas précis, le théorème fondamental de l’analyse montre que
cette limite existe effectivement. Dans le contexte de l’intégrale de Lebesgue, la positivité et la régularité
R1 √
de f 2 sur ]0, 1] suffit à donner un sens à 0 dx/ x ∈ [0, ∞) ∪ {∞} 3 . Le principe consiste à approcher f
par en-dessous par des fonctions étagées positives et passer à la limite. En approchant f par en-dessous,
la singularité en 0 n’est plus véritablement un problème.
La théorie de Lebesgue date du début du siècle dernier, l’axiomatique de Kolmogorov formalisant
la théorie des probabilités dates des années trente (évidemment, nous avons pas attendu ce formalisme
pour faire du calcul de probabilités). Cette formalisation a le très grand avantage de rendre transparente
la distinction artificielle entre les probabilités discrètes et diffuses (ou continues). Ceci a coût, celui de
l’appréhension de ce morceau conceptuel que l’on appelle théorie de la mesure. Outre cette unification, ce
formalisme est rendu nécessaire lorsque les modèles probabilistes deviennent plus complexes : comment
faire du calcul de probabilités proprement sur des espaces tels que {0, 1}N ou encore sur l’espace de
fonctions C 0 ([0, 1], R) ? La théorie de la mesure met ainsi à disposition des concepts clairs pour définir
et manipuler proprement des objets aléatoires comme le mouvement brownien — Figure 1a — qui est à
la base de beaucoup de modèle de dynamiques réelles perturbées et/ou bruitées — Figures 1b, 1c et 1d.
Si nous devions citer un inconvénient de l’intégrale de Lebesgue, ce serait l’absence en tant que tel
d’un théorème fondamental de l’analyse. En réalité, c’est un faux problème puisque nous verrons que
toute fonction Riemann intégrable est Lebesgue intégrable et les intégrales coı̈ncident. Cela donne un
moyen simple de calculer explicitement, dans certains cas, l’intégrale de Lebesgue d’une fonction réelle.
Dans les cas concrets, l’ensemble X est naturellement muni d’une topologie permettant de définir les
notions de parties ouvertes, fermées, compactes ou encore les notions de convergences. La plupart du
temps, la topologie et la mesure sont définies de manière consistante si bien que des propriétés liées aux
mesures et des propriétés de nature topologique se trouvent mêlées. Nous insisterons ici essentiellement
sur le cas un peu plus restrictif mais souvent largement suffisant des espaces métriques. Néanmoins,
afin de bien distinguer les notions intrinsèquement topologiques de celles propres aux espaces métriques,
nous définirons la notion d’espace topologique et démontrerons autant que possible les résultats dans
le contexte général des espaces topologiques. Ces notions sont introduites dans le chapitre 1 donnant
quelques rappels et des compléments d’analyse. On rappelle en particulier la notion d’espace vectoriel
normé. Les espaces vectoriels normés sont en particulier des espaces métriques. On termine ce chapitre
par considérer la propriété de compacité ainsi que la notion d’espace complet.

1. Soit en effet (qn )n≥0 une énumération de [0, 1] ∩ Q et posons, pour tout n ≥ 0, fn = n
P
k=0 1{qn } . La suite (fn )n≥0
est bien monotone croissante et pour chaque n ≥ 0 est intégrable au sens de Riemann d’intégrale nulle. Enfin, la suite
(fn )n≥0 converge simplement vers 1[0,1]∩Q .
2. La fonction f est continue, mais le raisonnement est valide plus généralement pour des fonctions qui seront dites
mesurables. La fonction 1Q∩[0,1] est un exemple de telle fonction.
3. Dans la suite, l’intervalle semi-ouvert [a, b[ sera toujours noté à la mode anglo-saxonne [a, b).

viii
1.0

10
8
0.5

6
0.0
W

4
−0.5

2
0
−1.0

0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 5

Time Time

(a) Processus de Wiener. (b) Processus d’Orstein-Uhlenbeck.

25000
20000

20000
Indice Dow Jones
X

15000

15000
10000

10000

0 2 4 6 8 10 2010 2012 2014 2016 2018 2020

Time Date

Figure 1 – (a) Cinq réalisations du mouvement brownien W = (Wt )t≥0 aussi appelé processus de
Wiener. La variable aléatoire W est à valeurs dans l’espace des fonctions continue muni de la topologie
de la convergence uniforme sur les compacts. Le processus de Wiener est la loi limite naturelle du théorème
central limite fonctionnelle, il a un rôle similaire à la loi normale dans le cas réel. (b) Processus d’Orstein-
Uhlenbeck : (Xt )t≥0 satisfait l’Équation Différentielle Stochastique dXt = −θ(Xt − µ)dt + σdWt (θ = 2,
µ = 3, σ = 3). Le paramètre θ définit l’intensité de la force de rappel vers µ. En bleu, la version sans bruit
(σ = 0). (c) Modèle de Black-Scholes : l’EDS définissant cette dynamique est dXt = τ Xt dt + σXt dWt
(τ = 0.1, σ = 0.07). Le paramètre τ modélise le taux d’intérêt. En bleu, la version non bruitée, i.e. σ = 0.
(d) Indice du Dow Jones sur la période août 2009 à août 2019.

Le chapitre 2 est consacrée à la théorie de la mesure abstraite. Les axiomes ensemblistes de cette
théorie sont pour l’essentielle la traduction de propriétés intuitives du calcul d’aire ou de volume. L’un
des axiomes de la théorie de la mesure traduit cette assertion bien connue énonçant que le tout est la
somme de ses parties. En substance, cela signifie que pour calculer l’aire de la réunion de deux parties
disjointes il suffit de sommer les aires de chacune des deux parties. La théorie de la mesure tire toute
sa puissance de ses théorèmes limites. Ces derniers sont en réalité conséquence directe la propriété de
σ-additivité qui n’est autre que l’extension du dicton ci-dessus à des réunions dénombrables d’ensembles
disjoints. On pourra se questionner sur cette restriction aux réunions dénombrables qui paraı̂t de prime
abord arbitraire. Il s’agit en fait d’un compromis : cette restriction est suffisante car elle permet de
déduire les théorèmes limites usuels et elle est nécessaire pour des questions de consistance de la théorie.
Pour ce dernier point, sans cet artifice, il arrive que le tout ne soit pas la somme de ses parties.
À ce stade, nous avons donc à disposition une collection de parties mesurables et une mesure qui
permet de les mesurer. Ces deux ingrédients permettent de construire de façon abstraite une intégrale. Il
est important de préciser que cette construction ne donne pas de moyen pratique de calculer l’intégrale
d’une fonction arbitraire ; celle-ci est définie comme une limite qui peut être ardue à calculer explicite-
ment. Par contre cette construction est complètement agnostique quant à la nature discrète ou diffuse de
la mesure considérée ce qui permet une théorie unifiée de l’intégrale. On termine ce chapitre par préciser

ix
le sens que l’on donne à cette intégrale lorsque la mesure sous-jacente est discrète ou diffuse. Dans le
premier cas, il s’agit simplement d’une somme (une série) et dans le second, on peut considérer très
grossièrement qu’il s’agit de la l’intégrale au sens usuel. En particulier, les résultats d’interversion de
limites, d’intégration par parties etc sont valables à la fois dans le cas diffus et dans le cas discret. Il est
du reste assez remarquable que la méthode d’intégration par partie soit très souvent bien connue dans
le cas des fonctions numériques réelles mais que sa contre-partie pour les suites, appelée transformée
d’Abel, soit si souvent ignorée. Le lien entre ces deux outils sera clairement établi en exercice.
Le chapitre 4 est certainement le plus important en pratique puisqu’il établit les théorèmes d’in-
terversion limite/intégrale les plus importants : théorème de convergence monotone ou théorème de
Beppo-Lévy 4.1.1, lemme de Fatou 4.1.2 et théorème de convergence dominée de Lebesgue 4.3.1. Le
premier d’entre eux est une conséquence directe de l’hypothèse de σ-additivité dans la définition d’une
mesure. Ce théorème constitue le socle de nombreux théorème d’intégration dont le lemme de Fatou et
le théorème de convergence dominée.
Le chapitre 5 permet de munir d’une mesure un espace mesurable produit. Cette mesure est à la racine
de la notion d’intégrale multiple. De cette construction, qui n’a rien de complètement triviale, on déduit
le théorème de Fubini qui permet d’écrire l’intégrale contre la mesure produit comme une intégrale itérée
contre des mesures unidimensionnelles. On termine ce chapitre par quelques calculs pratiques d’intégrales
multiples et l’énoncé du théorème de changement de variables multidimensionnels. Cette notion de mesure
produit est à la racine de la notion d’indépendance en probabilité et sera donc retrouvée au chapitre 8.
Le dernier chapitre de cette partie (chapitre 6) est une introduction à l’analyse fonctionnelle. Outre
les inégalités usuelles, on s’intéressera au caractère complet des espaces Lp . On énoncera également le
théorème de Radon-Nikodym particulièrement important pour le formalisme des modèles paramétriques
en statistique. Ce théorème permet également de prouver l’existence de l’espérance conditionnelle qui est
la généralisation de la notion de probabilité conditionnelle aux variables aléatoires diffuses : elle donne
un sens au conditionnement par rapport à un événement de probabilité nulle (voir le chapitre 13). On
étudiera enfin les propriétés d’approximation dans les espaces Lp . À cette occasion on introduira la notion
de convolution et d’approximation de l’identité. Ce dernier chapitre utilisera intensivement les propriétés
vues au chapitre 1.
Le premier objectif de cette deuxième partie du cours est de démontrer deux théorèmes essentiels de
la théorie des Probabilités : la loi des grands nombres (Figure 2a) et le théorème central limite (Figure
2b). Ces deux théorèmes justifie a posteriori l’axiomatique introduite par Kolmogorov.
1.0

8
6
0.8

Fréquence
Sn/n

4
0.6

2
0.4

0 20 40 60 80 100 0.4 0.5 0.6 0.7

n Sn/n

(a) Loi des grands nombres (LGN). (b) Théorème central limite (TCL).

Figure 2 – (a) Loi des grands nombres : trajectoire de la moyenne Sn /n, n = 1, . . . , 100, où Sn est
le nombre de face d’une pièce équilibrée. La moyenne théorique est matérialisée en bleu. (b) Théorème
(1) (N )
central limite : la distribution empirique de (S100 /100, . . . , S100 /100), N = 104 , se rapproche d’une
distribution normale. En bleu est représentée la densité de la loi normale N (µ, σ 2 ), µ = 12 , σ 2 = 4 · 10−3 ,
2 2
e−(x−µ) /2σ
x→ √
σ 2π
.

Une notion centrale en théorie des probabilités est celle de variables aléatoires. Une variable aléatoire
n’est rien d’autre qu’une application mesurable. Une problématique récurrente en probabilité consiste
à caractériser la loi d’une variable aléatoire. Partant d’un espace probabilisé (Ω, F, P), la loi PX d’une

x
variable aléatoire X : (Ω, F, P) → (E, E) est la mesure de probabilité image de P par X. Le chapitre
7 est dédié à la caractérisation par différentes méthodes de la loi d’une variable aléatoire en particulier
lorsque celle-ci est à valeur dans R ou Rd . Il sera fait usage d’un grand nombre de notions vues dans la
première partie de ce cours.
Notons enfin que la notion de variable aléatoire est identique à celle d’observable en physique (clas-
sique). Lors d’une expérience aléatoire (ou de physique classique) l’expérimentateur n’a en général pas
accès au triplet probabiliste mais plutôt à une observation. Le triplet (Ω, F, P) est purement théorique et
doit être considéré comme une “boı̂te noire” : ce que l’expérimentateur observe réellement est la valeur
de la variable aléatoire X définie sur (Ω, F, P). En ce sens, le triplet probabiliste n’est pas un objet
canonique, plusieurs choix sont possibles : il est facile, par exemple, de construire deux triplets distincts
et une variable aléatoire sur chacun des triplets décrivant la même expérience aléatoire du pile ou face.
Le chapitre 8 introduit la notion d’indépendance. Cette notion là-encore est purement théorique en
ce sens qu’elle est difficile à exhiber dans la nature. Quoiqu’il en soit, c’est une hypothèse suffisante à
la LGN et au TCL du chapitre 12. Néanmoins, d’autres hypothèses plus faibles peuvent être faites pour
l’établissement de ces théorèmes comme par exemple dans [Kin73].
Le chapitre 9 introduit la notion de fonction caractéristique. Il s’agit ni plus ni moins de la notion de
transformée de Fourier en analyse fonctionnelle appliquée à la théorie des probabilités. La démonstration
du TCL au chapitre 12 utilise pleinement les fonctions caractéristiques. Elles permettent également
de simplifier les calculs ainsi que l’établissement de résultats théoriques telles des convergences en loi.
Au-delà de son usage en probabilités, l’analyse de Fourier ainsi que l’analyse en ondelettes, que l’on
regroupe sous la terminologie analyse du signal, trouvent de nombreuses applications en ingénierie telles
le débruitage d’un son, d’une image, la compression, l’analyse statistique de processus stochastiques.
Le chapitre 10 traite de vecteurs aléatoires, appelés vecteurs gaussiens, aux propriétés remarquables.
Ceux-ci apparaissent naturellement en de nombreuses occasions et tout particulièrement dans le TCL
multivarié énoncé au chapitre 12.
Le chapitre 11 introduit les notions de convergences trajectorielles de variables aléatoires ainsi que
celles de convergences des mesures et lois de probabilité. La première intervient dans la LGN alors
que la seconde apparaı̂t dans le TCL. De manière plus générique, la convergence trajectorielle permet
d’établir la convergence d’estimateurs statistiques et la convergence en loi permet d’établir les intervalles
de confiances correspondants. En outre, le TCL est parfois interprété comme une vitesse de convergence
dans la loi des grands nombres.
Enfin, le dernier chapitre introduit l’espérance conditionnelle. Ce chapitre est quelque peu à l’écart
des autres. C’est également un outils primordiale en théorie des probabilités et théorie des processus.
Cela permet notamment d’étudier des processus non i.i.d..

xi
xii
Première partie

Topologie et théorie de la mesure

1
Chapitre 1

Rappels et compléments d’analyse

Sauf mention contraire, dans la suite, K représente le corps des nombres réels R ou le corps des
nombres complexes C. On notera indifféremment | · | la valeur absolue ou le module selon que K = R ou
K = C.

1.1 Espaces vectoriels normés

Définition 1.1.1 (Norme). Soit E un K-espace vectoriel. Une norme sur E est une application ∥ · ∥ :
E → R+ satisfaisant
1. ∥x∥ = 0 si et seulement si x = 0 ;
2. pour tout λ ∈ K et tout x ∈ E, ∥λx∥ = |λ|∥x∥ ;
3. pour tout x, y ∈ E, ∥x + y∥ ≤ ∥x∥ + ∥y∥.
Un espace vectoriel normé est la donnée d’un couple (E, ∥ · ∥) où E est un K-espace vectoriel et ∥ · ∥
une norme sur E.
Exemple 1. 1. K muni de | · | sont des espaces vectoriels normés.
2. Pour p ≥ 1, on note ∥ · ∥p l’application définie pour tout x = (x1 , . . . , xn ) ∈ Kn

n
!1/p
X
p
∥x∥p = |xi | .
i=1

Et si p = ∞,
∥x∥∞ = max |xi |.
1≤i≤n
n
Alors l’espace K muni de ∥ · ∥p est un espace vectoriel normé.
3. Plus généralement, si S est un ensemble dénombrable, sur KS , on définit les normes
!1/p
X
p
∥x∥p = |xs | et ∥x∥∞ = sup |xs |.
s∈S
s∈S

Alors l’ensemble ℓpK = {x ∈ KS : ∥x∥p < ∞}, p ∈ [1, ∞], muni de la norme ∥ · ∥p est un espace
vectoriel normé.
4. Soit (E, ∥ · ∥E ) et (F, ∥ · ∥F ) deux espaces vectoriels normés et A : E → F un opérateur linéaire.
On définit ∥ · ∥E→F par
∥Ax∥F
∥A∥E→F = sup .
x∈E\{0} ∥x∥E

On note L(E, F ) = {A : E → F, A linéaire , ∥A∥E→F < ∞} l’espace vectoriel des opérateurs

linéaires continus de E dans F . On montre que ∥ · ∥E→F est une norme sur L(E, F ) appelée
norme subordonnée.

3
Exercice 1. Montrer que les exemples données ci-dessus définissent bien des normes.
Exercice 2. Soit (G, ∥ · ∥G ) est un troisième espace vectoriel normé. Montrer, pour tout A ∈ L(E, F ) et
B ∈ L(F, G), l’inégalité
∥BA∥E→G ≤ ∥B∥F →G ∥A∥E→F .

1.2 Espaces métriques

1.2.1 Métrique, boule ouverte, boule fermée, parties bornées
Définition 1.2.1. Soit E un ensemble. Une distance (ou métrique) d sur E est une application d :
E × E → R+ telle que :
1. d(x, y) = 0 si et seulement si x = y ;
2. pour tout x, y ∈ E, d(x, y) = d(y, x) (symétrie) ;
3. pour tout x, y, z ∈ E, d(x, y) ≤ d(x, z) + d(z, y) (inégalité triangulaire).
Un espace métrique est la donnée d’un couple (E, d) où E est un ensemble et d une distance sur E.
Proposition 1.2.2 (Deuxième inégalité triangulaire). Soit (E, d) un espace métrique, alors pour tout
x, y, z ∈ E
|d(x, z) − d(y, z)| ≤ d(x, y).
Démonstration. Nous avons par l’inégalité triangulaire et la propriété de symétrie

d(x, z) ≤ d(x, y) + d(y, z) et d(y, z) ≤ d(y, x) + d(x, z) = d(x, y) + d(x, z).

De ces deux inégalités, on déduit

−d(x, y) ≤ d(x, z) − d(y, z) ≤ d(x, y) =⇒ |d(x, z) − d(y, z)| ≤ d(x, y).

Exemple 2. 1. Si (E, ∥ · ∥) est un espace vectoriel normé alors (E, d) avec d(x, y) = ∥x − y∥, x, y ∈ E,
est un espace métrique.
2. R muni de la métrique d(x, y) = | arctan x − arctan y |, x, y ∈ E, est espace métrique.
3. R2 muni de la métrique

 ∥x − y∥2

si 0, x et y sont alignés,
δ(x, y) =
 ∥x∥2 + ∥y∥2

sinon.

4. Un ensemble E muni de la métrique discrète


 1 si x ̸= y,

d(x, y) =
 0

sinon.

5. Soit G = (V, E) un graphe fini simple non dirigé, i.e. V est un ensemble fini de nœuds et E est un
ensemble de paires {x, y} ⊂ V × V appelées arêtes. Un chemin est une suite finie (x1 , x2 , . . . , xn )
de nœuds satisfaisant, pour tout i = 1, . . . , n − 1, {xi , xi+1 } ∈ E. L’entier n est la longueur du
chemin. On note Πx,y l’ensemble des chemins de longueur finie de x à y, i.e. x1 = x et xn = y avec
les notations précédentes Si p ∈ Πx,y , on note |p| la longueur de p. On définit pour tout x, y ∈ V

d(x, y) = inf{|p| : p ∈ Πx,y }.

Alors, (V, d) est un espace métrique. Un chemin p ∈ Πx,y tel que |p| = d(x, y) est appelé géodésique.
Le graphe G est dit complet si pour tout x, y ∈ V , {x, y} ∈ E. Dans ce cas, la métrique définie
ci-dessus est la métrique discrète sur V .

4
Exercice 3. Vérifier que les exemples ci-dessus sont des espaces métriques.
Exercice 4. Montrer l’inégalité de Hölder et de Minkowski : soit p ∈ [1, ∞), soit ai , bi , i = 1, . . . , n, des
nombres réels ou complexes
Pn Pn 1/p Pn 1/q
1. Hölder : | i=1 ai bi | ≤ ( i=1 |ai |p ) ( i=1 |bi |q ) avec p1 + 1q = 1 ;
Pn 1/p Pn 1/p Pn 1/p
2. Minkowski : ( i=1 |ai + bi |p ) ≤ ( i=1 |ai |p ) + ( i=1 |bi |p ) .
Soit (E, d) un espace métrique. La boule ouverte de centre a ∈ E et de rayon r > 0, notée B(a, r) est
définie par
B(a, r) = {x ∈ E : d(a, x) < r}.
La boule fermée sera notée B(a, r) et est définie par

B(a, r) = {x ∈ E : d(a, x) ≤ r}.

Si A, B ⊂ E sont deux parties, la distance entre ces deux parties est donnée par

d(A, B) = inf{d(x, y) : x ∈ A, y ∈ B}.

On utilise en général la convention inf ∅ = ∞ si bien que cette distance vaut l’infini si et seulement si
l’une des deux parties est vide.
Proposition 1.2.3. Soit A ⊂ E une partie non vide. Alors pour tout x, y ∈ E,

|d(x, A) − d(y, A)| ≤ d(x, y).

Démonstration. C’est immédiat à partir de la proposition 1.2.2.

Le diamètre d’une partie A de E est défini par Diam A = sup{d(x, y) : x, y ∈ A}. Par convention, le
diamètre d’une partie vide est égale à −∞. Cette convention est cependant moins utile en pratique. Une
partie A ⊂ E est dite bornée si Diam A < ∞. En particulier, l’ensemble vide est borné.

1.2.2 Topologie des espaces métriques

Définition 1.2.4 (Topologie). Soit X un ensemble. Une topologie sur X est une famille de parties de X,
notée T , satisfaisant
1. ∅ ∈ T et X ∈ T ;
2. pour toute famille (Oi ∈ T )i∈I , la réunion ∪i∈I Oi ∈ T ;
3. pour toute famille finie O1 , . . . , On ∈ T , l’intersection ∩ni=1 Oi ∈ T .
Les éléments de T sont appelés les ouverts.
Exemple 3. Soit X un ensemble. Les familles T1 = {∅, X} et T2 = P(X) (ensemble des parties de X) sont
des topologies sur X appelée respectivement la topologie grossière et la topologie discrète.
Définition 1.2.5 (Ouvert). Soit (E, d) un espace métrique. Une partie A ⊂ E est ouverte si pour tout
x ∈ A, il existe r > 0 tel que B(x, r) ⊂ A.
Remarque 1. L’ensemble vide est ouvert !
Proposition 1.2.6. La boule ouverte est ouverte.
Démonstration. Soient x ∈ E, r > 0 et y ∈ B(x, r). On pose r0 = d(x, y) < r et ρ = r − r0 > 0,
alors B(y, ρ) ⊂ B(x, r). En effet, si z ∈ B(y, ρ) alors d(x, z) ≤ d(x, y) + d(y, z) < r0 + (r − r0 ) = r et
z ∈ B(x, r).
Proposition 1.2.7. Soit (E, d) un espace métrique. Une partie A ⊂ E est ouverte si et seulement si
elle est réunion de boule ouverte.
Démonstration. Une réunion arbitraire d’ouverts étant ouverte et la boule ouverte étant ouverte, la
condition est évidemment suffisante. Réciproquement, pour tout x ∈ A, il existe rx > 0 tel que B(x, rx ) ⊂
A. Alors, il est immédiat que A = ∪x∈A B(x, rx ).

5
Proposition 1.2.8. Soit (E, d) un espace métrique. La famille T = {O ⊂ E, O ouvert } définie une
topologie sur E.
Démonstration. On vérifie facilement que ∅, E ∈ T . Soit x ∈ ∪i∈I Oi , alors il existe i ∈ I tel que
x ∈ Oi . Puisque que Oi est ouvert, il existe r > 0 tel que B(x, r) ⊂ Oi ⊂ ∪i∈I Oi , d’où le résultat.
Soit x ∈ ∩i=1,...,n Oi , alors x ∈ Oi pour tout i = 1, . . . , n. Pour chaque i = 1, . . . , n, il existe ri > 0
tel que B(x, ri ) ⊂ Oi . Posons r = min ri , alors B(x, r) ⊂ B(x, ri ) pour tout i = 1, . . . , n et donc
B(x, r) ⊂ ∩i=1,...,n Oi .
Exercice 5. Soit E un ensemble. Montrer que la topologie associée à la métrique discrète est discrète.
Remarque 2. Il existe des topologies non métrisables qui peuvent être néanmoins intéressantes. Le
contexte des espaces métriques est cependant très souvent suffisant mais les énoncés s’écrivent par-
fois plus facilement dans le langage de la topologie. Dans la suite, on jonglera avec les deux notions selon
les cas.
Définition 1.2.9 (Voisinage ouvert, voisinage). Soient (X, T ) un espace topologie et A ⊂ X non vide.
1. Un voisinage ouvert de A est un ouvert contenant A ;
2. Un voisinage de A est un ensemble contenant un voisinage ouvert de A.
Si A = {x} on parle de voisinage ouvert (resp. de voisinage) de x. On notera V(x) l’ensemble des
voisinages de x.
Proposition 1.2.10. Soit (X, T ) un espace topologique. Un ensemble V ⊂ X est ouvert si et seulement
si V est voisinage de chacun de ses points.
Démonstration. La condition est évidemment suffisante. Réciproquement, pour tout x ∈ V , il existe Ux
ouvert tel que x ∈ Ux ⊂ V . Ainsi, V = ∪x∈V Ux ce qui montre que V est ouvert.
Proposition 1.2.11. Soient (E, d) un espace métrique et x ∈ E. Un ensemble V est un voisinage de x
si et seulement si il existe n ∈ N∗ tel que B(x, 1/n) ⊂ V .
Démonstration. Par définition, il existe un ouvert V ′ tel que x ∈ V ′ ⊂ V . Puisque V ′ est ouvert, il existe
r > 0 tel que B(x, r) ⊂ V ′ , donc pour tout n ∈ N∗ tel que 1/n < r, on a B(x, 1/n) ⊂ V ′ ⊂ V . La
réciproque est immédiate puisque x ∈ B(x, 1/n) ⊂ V .
Définition 1.2.12 (Base de voisinage). Soient (X, T ) un espace topologique et x ∈ X. Une collection B
est appelée base de voisinage de x si pour tout V ∈ V(x), il existe U ∈ B tel que x ∈ U ⊂ V .
La proposition 1.2.11 exprime que, dans le contexte des espaces métriques, {B(x, 1/n), n ≥ 1} est
une base de voisinage de x. En particulier, un espace métrique est à base de voisinages dénombrable :
chacun de ses points admet une base de voisinages dénombrable. C’est une des propriétés importantes
que n’ont pas les topologies en générale. Une notion duale est celle de base d’ouverts.
Définition 1.2.13 (Base d’ouverts). Une famille d’ouverts O est une base d’ouverts pour la topologie
T si tout O ∈ T est réunion d’éléments de O.
Exemple 4. Soit (E, d) un espace métrique, alors tout ouvert O ⊂ E s’écrit comme réunion de boules
ouvertes : [
O= B(x, r) où S = {(x, r) ∈ E × R+ ∗ : B(x, r) ⊂ O}.
(x,t)∈S

L’ensemble des boules ouvertes de E est donc une base d’ouverts de E.

Définition 1.2.14 (Intérieur). Soit A ⊂ E, l’intérieur de A est le plus grand ouvert contenu dans A
noté Int A.
Définition 1.2.15. L’extérieur de A ⊂ E est l’intérieur de A∁ .
Une notion duale est celle de fermé.
Définition 1.2.16 (Fermé). Une partie F ⊂ E est fermée si F ∁ est ouverte.
Proposition 1.2.17. Soit (X, T ) un espace topologique. Alors,

6
1. ∅, E sont fermés ;
2. Si (Fi )i∈I est famille infinie de fermés, alors ∩i∈I Fi est fermée.
3. Si F1 , . . . , Fn sont des fermés, alors ∪ni=1 Fi est fermé.
Démonstration. Immédiat.
Définition 1.2.18. L’adhérence d’une partie A ⊂ E est le plus petit fermé contenant A, noté A.
Remarque 3. Dans le cas d’un espace vectoriel normé sur K, l’adhérence de la boule ouverte est la boule
fermée. Dans le cas des espaces métriques, il se peut que l’adhérence de la boule ouverte ne soit pas la
boule fermée. Pour voir cela, il suffit de considérer l’ensemble E = {0, 1} muni de la métrique discrète.
Dans ce cas, la boule ouverte B(0, 1) = {0} et le plus petit fermé contenant la boule ouverte est {0}. En
revanche la boule fermée B(0, 1) = {0, 1}.
Proposition 1.2.19. Soient (X, T ) un espace topologique et A ⊂ X une partie de X. Alors

A = {x ∈ X, ∀V ∈ V(x), V ∩ A ̸= ∅} = (Ext A)∁ .

Démonstration. L’égalité suivante est immédiate :

 ∁
[ \
(Ext A)∁ =  O = O∁ .
A∁ ⊃O∈T A⊂O ∁ ∈T

En effet, il est facile de voir que la réunion sur des ouverts contenus dans A∁ n’est autre que l’intérieur de
A∁ (c’est un ouvert contenu dans A∁ et tous les ouverts contenu dans A∁ sont inclus dans la réunion), soit
l’extérieur de A. De même, l’intersection à droite est un fermé contenant A et tous les fermés contenant
A contiennent cette intersection, c’est l’adhérence de A. Ceci montre A = (Ext A)∁ .
Montrons la seconde égalité qui peut se réécrire :

{x ∈ X, ∀V ∈ V(x), V ∩ A ̸= ∅}∁ = Ext A.

Comme Ext A est ouvert, il est voisinage de chacun de ses points y ∈ Ext A, or Ext A ∩ A = ∅ puisque
Ext A ⊂ A∁ et A ∩ A∁ = ∅. On a donc trouver un voisinage de y ∈ Ext A qui n’intersecte pas A si bien
que
Ext A ⊂ {x ∈ X, ∀V ∈ V(x), V ∩ A ̸= ∅}∁ . (1.1)
Inversement, si x ∈ X est tel qu’il existe V ∈ V(x) tel que V ∩ A = ∅ alors il existe un ouvert U tel
que x ∈ U ⊂ V et U ∩ A = ∅ d’où U ⊂ A∁ si bien que U ⊂ Ext A. Ceci montre l’inclusion inverse de
(1.1).
Proposition 1.2.20. Soient (X, T ) un espace topologique et A, B ⊂ X. Alors
1. A ⊂ A,
2. A = A,
3. A ∪ B = A ∪ B,
4. A ∩ B ⊂ A ∩ B.
Exercice 6. Montrer qu’en général l’inclusion du quatrième point est stricte.
Démonstration. Le premier point découle directement de la définition puisque A est un fermé contenant
A. Pour le deuxième point, il suffit de remarquer qu’un ensemble est fermé si et seulement si il est égale
à son adhérence.
Montrons le point (3). On remarque que A∪B ⊂ A∪B par le point (1). Puisque A∪B est fermé comme
la réunion de deux fermés, c’est donc un fermé qui contient A ∪ B, ainsi A ∪ B ⊂ A ∪ B. Réciproquement,
nous avons A ⊂ A ∪ B ⊂ A ∪ B, donc A ∪ B est un fermé qui contient A. Il contient B également. Ainsi
A et B sont tout deux contenus dans A ∪ B, leur réunion l’est donc aussi : A ∪ B ⊂ A ∪ B.
Pour le point (4), nous avons A ∩ B ⊂ A ⊂ A qui est fermé. De même, A ∩ B ⊂ B ⊂ B. Comme
A ∩ B est fermé, il vient que A ∩ B ⊂ A ∩ B.

7
Proposition 1.2.21. Soient (X, T ) un espace topologique et A, B ⊂ X. Alors
1. Int A ⊂ A,
2. Int Int A = Int A,
3. Int (A ∩ B) = Int A ∩ Int B,
4. Int A ∪ Int B ⊂ Int (A ∪ B).
Exercice 7. Montrer que la dernière inclusion est stricte en général.
Démonstration. Le premier point découle directement de la définition. Pour le deuxième point, il suffit
de remarquer qu’une partie est ouverte si et seulement si elle est égale à son intérieur.
Montrons (3). Puisque Int A ⊂ A et Int B ⊂ B, il vient que l’ouvert Int A ∩ Int B est contenu dans
A ∩ B. Ainsi, Int A ∩ Int B ⊂ Int (A ∩ B) par définition de l’intérieur Réciproquement, Int (A ∩ B) ⊂
A ∩ B ⊂ A mais il est aussi contenu dans B. Puisque Int (A ∩ B) est ouvert, il est contenu dans Int A et
dans Int B, il est donc contenu dans Int A ∩ Int B.
Pour le point (4) on remarque que Int A ⊂ A ⊂ A ∪ B et Int B ⊂ B ⊂ A ∪ B. Ainsi l’ouvert
Int A ∪ Int B est contenu dans A ∪ B donc dans Int (A ∪ B).
Proposition 1.2.22. Soient (X, T ) un espace topologique et A ⊂ X. Alors
1. X \ Int A = X \ A,
2. X \ A = Int (X \ A).
Démonstration. Pour le point (1), il suffit de remarquer que si un ouvert O est contenu dans A, alors
O∁ est un fermé qui contient A∁ . Le complémentaire du plus grand ouvert contenu dans A correspond
au plus petit fermé contenant A∁ .
Le point (2) est immédiat par passage au complémentaire dans (i) appliqué à B = X \ A.

Définition 1.2.23. La frontière d’une partie A ⊂ E, notée Fr A, est définie par Fr A = A ∩ A∁ .

Proposition 1.2.24. Soit (X, T ) un espace topologique. Alors pour toute partie A ⊂ X, le triplet
(Int A, Fr A, Ext A) forme une partition de X.
Démonstration. Du fait de la définition de la frontière et de la proposition 1.2.22, on a

Fr A = A ∩ X \ A = A ∩ (X \ Int A) = A \ Int A.

Clairement X = Int A ∪ A \ Int A ∪ X \ A est une réunion disjointe dont le deuxième ensemble est Fr A
et le troisième ensemble n’est autre que Ext A puisque X \ A = Int (X \ A) par la proposition 1.2.22.
Définition 1.2.25 (Partie dense). Soit (X, T ) un espace topologique. Une partie D ⊂ X est dite dense
si D = X.
Proposition 1.2.26. Une partie D est dense dans un espace topologique (X, T ) si et seulement si pour
tout x ∈ X et tout voisinage V de x, V ∩ D ̸= ∅.
Démonstration. C’est une conséquence de la définition et de la proposition 1.2.19.
Remarque 4. Notons qu’on peut se restreindre aux voisinages ouverts.
Théorème 1.2.27 (Sous-groupe de (R, +)). Soit G un sous-groupe de (R, +). Alors G = aZ pour un
certain réel a, ou G est dense dans R.
Démonstration. Soit G un sous-groupe de (R, +). Évacuons d’entrée le cas où G est le groupe trivial
{0}. Alors il existe g ∈ G \ {0} et ou bien g > 0 ou bien g < 0. Dans ce second cas, puisque G est un
groupe, −g ∈ G et −g > 0. Aussi, G ∩ R∗+ est une partie non vide. Elle est également minorée et on note
a = inf G ∩ R∗+ qui est positif car 0 est un minorant.
Supposons d’abord a > 0 et montrons que a ∈ G. Supposons au contraire que a ∈ / G. Nous avons
2a > a si bien que 2a n’est pas un minorant de G ∩ R∗+ . Il existe donc b ∈ G tel que a < b < 2a. Mais
b n’est pas plus un minorant de G ∩ R∗+ et il existe donc de même c ∈ G tel que a < c < b < 2a. Ainsi,
b − c ∈ G ∩ R∗+ et b − c < a. C’est une contradiction au fait a est la borne inférieure de G ∩ R∗+ . Par
conséquent, a ∈ G et donc aZ ⊂ G. Il reste à montrer l’inclusion opposée.

8
Soit g ∈ G et posons n = ⌊g/a⌋ la partie entière de g/a. Par définition n ≤ g/a < n + 1 ou encore
na ≤ g < a(n + 1). Alors, 0 ≤ g − na < a. Puisque a ∈ G, na ∈ G et donc g − na ∈ G. Supposons
g ̸= na, alors 0 < g − na < a et donc g − na ∈ G ∩ R∗+ et g − na < a. C’est la même contradiction que
précédemment, donc g = na. Finalement, G ⊂ aZ.
Soit maintenant a = 0. Il s’agit de montrer que G est dense dans R. Soit x, y ∈ R avec x < y. Puisque
a = 0, il existe g ∈ G tel que 0 < g < y −x. Posons désormais n = ⌊x/g⌋+1 On obtient (n−1)g ≤ x < ng.
Alors :
x < ng = (n − 1)g + g ≤ x + g < x + (y − x) = y.
Autrement dit, pour tout x, y ∈ R tels que x < y, il existe g ∈ G tel que x < g < y. Donc G est dense
dans R par la proposition 1.2.26.

1.2.3 Notion de limites

Convergence de suite
Définition 1.2.28 (Convergence dans les espaces topologiques). Soient (X, T ) un espace topologique,
(xn )n≥0 une suite de points de X et x ∈ X. On dit que la suite (xn )n≥0 converge vers x dans (X, T ) si
pour tout voisinage V de x, il existe N ≥ 0 tel que si n ≥ N alors xn ∈ V .
Exemple 5. Si on munit X de la topologie grossière, alors toutes les suites sont convergentes. Pour la
topologie discrète, les seules suites convergentes sont les suites constantes à partir d’un certain rang.
Dans le cas des espaces métriques, nous avons la définition suivante.
Proposition 1.2.29 (Convergence dans les espaces métriques). Soit (xn )n≥0 une suite à valeurs dans
(E, d) et x ∈ E. La suite (xn )n≥0 converge vers x si et seulement si

∀ε > 0, ∃N ≥ 0 : n ≥ N =⇒ d(xn , x) < ε.

Démonstration. Exercice.
Définition 1.2.30 (Topologie séparée). Un espace topologique (X, T ) est dite séparé si pour tout x, y ∈
X, x ̸= y, il existe Vx un voisinage de x et Vy un voisinage de y tel que Vx ∩ Vy = ∅.
Lorsque la topologie sépare les points, le point vers lequel une suite converge est unique.
Proposition 1.2.31. Soit (xn )n≥0 qui converge vers x et y dans un espace topologique séparé (X, T ).
Alors x = y. Le point x est appelé limite de (xn )n≥0 et on note limn→∞ xn = x.
Démonstration. Exercice.
Proposition 1.2.32. La topologie définie par une métrique sépare les points.
Démonstration. Immédiat.
Remarque 5. Les espaces métriques jouissent de deux propriétés remarquables : l’une d’elle est le fait
que la topologie associée sépare les points ; l’autre est que chaque point admet une base de voisinage
dénombrable.
Proposition 1.2.33. Soit X un ensemble. Si T et T ′ sont deux topologies sur X telle que T ⊂ T ′ , alors
toute suite (xn )n≥0 qui converge vers x pour la topologie T ′ converge vers x pour la topologie T .
Démonstration. Immédiat.
Remarque 6. Cette proposition élémentaire est très régulièrement utilisée en probabilité mais aussi en
analyse fonctionnelle : l’idée est qu’en supprimant des ouverts (ou des fermés) à une topologie, nous
trouverons plus de suite convergente, la contrepartie étant que la convergence est plus faible : elle donne
moins d’informations.
Proposition 1.2.34 (Caractérisation séquentielle des points adhérents). Soient (E, d) un espace mé-
trique, A ⊂ E et x ∈ E. Alors, x ∈ A si et seulement il existe une suite (xn )n≥0 de points de A qui
converge vers x dans (X, d).

9
Démonstration. Soit x ∈ A, alors par la proposition 1.2.19, pour tout n ≥ 1, la boule ouverte B(x, 1/n) ∩
A ̸= ∅, il suffit donc de choisir xn dans cette intersection. De fait, d(x, xn ) → 0, d’où (xn )n≥0 converge
vers x.
Réciproquement, soit (xn )n≥0 une suite de points de A qui converge vers x ∈ X. Alors pour tout
voisinage V de x, il existe N ≥ 0 tel que pour tout n ≥ N , xn ∈ V . En particulier V ∩A ̸= ∅ et x ∈ A.
Remarque 7. Notons que la condition reste suffisante dans des espaces topologiques généraux.

Points d’accumulation, points isolés, valeurs d’adhérence

Nous avons déjà évoquer l’adhérence d’une partie A d’un espace topologie (X, T ). Un point est dit
adhérent si il est dans l’adhérence de A. Ci-dessous, nous définissons les notions de point d’accumulation,
de point isolés et de valeur d’adhérence.
Définition 1.2.35 (Points d’accumulation, points isolés). Soit (X, T ) un espace topologique et soit
A ⊂ X.
1. un point x ∈ X est un point d’accumulation si pour tout voisinage V de x, V ∩ A \ {x} =
̸ ∅;
2. un point x ∈ A est isolé dans A si il existe un voisinage V de x tel que V ∩ A = {x}.
Lorsque A est l’image d’une suite, c’est à dire A = {xn : n ≥ 0}, il existe une notion plus forte que
celle de points adhérents : ce sont les valeurs d’adhérences.
Définition 1.2.36 (Valeur d’adhérence). Soient (X, T ) un espace topologique et (xn )n≥0 une suite de
points de X. Un point x ∈ X est une valeur d’adhérence (ou point limite) si pour tout voisinage V de x,
xn ∈ V pour une infinité de n ∈ N.
Exemple 6. — La suite ((−1)n )n≥0 admet deux valeurs d’adhérences qui sont −1 et 1.
— Soient p ∈ Z, q ∈ N∗ , alors l’ensemble des valeurs d’adhérences de la suite (cos(2πnp/q))n≥0 est
{0, cos(2πp/q), . . . , cos(2πp(n − 1)/q)}.
— Ces deux exemples font intervenir des suites périodiques. Mais, on peut considérer des exemples
plus élaborés : si α ∈ / Q alors l’ensemble des valeurs d’adhérence de la suite (cos(2παn))n≥0 est
[−1, 1].
On remarque d’abord en utilisant la parité de cos que {cos(2παn), n ≥ 0} = cos(2παZ + 2πZ).
Comme la fonction x → cos(x) est une surjection continue de R dans [−1, 1]. Il suffit de montrer
que 2παZ + 2πZ est dense dans R. Or, 2παZ + 2πZ est un sous-groupe de R. Par le théorème
1.2.27, il est soit dense soit de la forme aZ pour un certain a ∈ R. Supposons qu’il soit de cette
seconde forme, alors il existe p, q ∈ Z tel que 2πα = pa et 2π = qa d’où α = p/q puisque aq ̸= 0.
C’est une contradiction avec α ∈ / Q donc 2παZ + 2πZ est dense dans R.
Le même genre de résultat est vrai pour la fonction sin à l’aide d’un déphasage d’angle π/2.
Proposition 1.2.37. Soit (xn )n≥0 une suite de (E, d). L’ensemble des valeurs d’adhérence de (xn )n≥0
est le fermé \
F = {xn , n ≥ N }.
N ≥0

Pour tout a ∈ F , il existe une suite nk qui tend vers l’infini lorsque k tend vers l’infini telle que
limk→∞ xnk = a. En particulier, une valeur d’adhérence est un point adhérent.
Démonstration. Notons AN = {xn : n ≥ N }. Par la proposition 1.2.19
\
AN = {x ∈ X : ∀ε > 0, B(x, ε) ∩ AN ̸= ∅} = {x ∈ X : B(x, ε) ∩ AN ̸= ∅}.
ε>0

D’où \ \ \ \
F = {x ∈ X : B(x, ε) ∩ AN ̸= ∅} = {x ∈ X : B(x, ε) ∩ AN ̸= ∅}.
N ≥0 ε>0 ε>0 N ≥0

C’est à dire, x ∈ F si et seulement si pour tout ε > 0, tout N ≥ 0, il existe n ≥ N tel que xn ∈ B(x, ε)
si et seulement si x est une valeur d’adhérence.
Pour la deuxième partie de la proposition, si a ∈ F alors pour k ≥ 1, on peut trouver au moins xnk
tel que d(a, xnk ) < 1/k. D’où le résultat.

10
Limites et fonctions
Définition 1.2.38. Soient (X1 , T1 ), (X2 , T2 ) deux espaces topologiques. On dit que f : X1 → X2 tend
vers b ∈ X2 quand x tend vers a ∈ X1 si pour tout voisinage W de b dans X2 il existe un voisinage V de
a dans X1 tel que f (V ) ⊂ W .

Il arrive bien souvent qu’une fonction ne soit pas définie sur tout le domaine X1 mais plutôt sur un
sous-ensemble strict A ⊂ X1 . On peut alors chercher à définir une notion de limite vers un point en
dehors de A. Typiquement, la fonction x → sin(x)/x est définie sur A = R \ {0}. Il est alors naturelle
de chercher à définir la notion de limite lorsque x tend vers 0 ce qui n’est pas possible avec la définition
donnée ci-dessus. De même, on s’intéresse souvent aux limites en +∞ ou −∞ sans pour autant que la
fonction soit définie en ces points.
La définition suivante est celle considérée classiquement : il ne s’agit de rien d’autre que la définition
ci-dessus appliquée à l’espace topologique induit (A, TA ) — voir la proposition 1.2.46 — à ceci près qu’il
faut ajouter l’hypothèse a est adhérent à A afin d’assurer que V ∩ A soit non vide — la notion serait
alors triviale.

Définition 1.2.39. Soient (X1 , T1 ), (X2 , T2 ) deux espaces topologiques et A ⊂ X1 . On dit qu’une fonction
f : A → X2 tend vers b ∈ X2 quand x tend vers a ∈ A dans X1 , x ∈ A, si pour tout voisinage W de b
dans X2 , il existe un voisinage V de a dans X1 tel que f (V ∩ A) ⊂ W .

Exemple 7. Il faut être vigilant et remarquer qu’il s’agit de la limite quand x tends vers a dans A et que
cette limite dépend a priori de A comme l’illustre l’exemple suivant.
Soit f : [0, 2] → R définie pour x ∈ [0, 2) par f (x) = x2 et f (2) = 5. Alors, limx→2,x∈[0,1]∪{2} f (x) = 5
bien que limx→2,x∈[0,2] f (x) = 4.
En effet, soit W un voisinage de 5, alors on peut poser V = B(2, 1/2) alors f (V ∩ A) = f ({2}) =
{5} ⊂ W . On montre de même la seconde limite. Les topologies étant séparées, la limite est unique et
on observe l’importance du choix de A.
Exercice 8. Une suite (xn )n≥0 à valeurs dans un espace topologique (X, T ) peut être vue comme une
fonction x : N → X. Montrer que la notion de convergence pour les fonctions coı̈ncide avec celle des
suites, en posant a = ∞ et A = N et en munissant N ∪ {∞} de la topologie dont les ouverts sont les
singletons et les complémentaires de parties finies.
Si (X2 , T2 ) est séparé, la limite d’une fonction est unique et on note : limx→A,x∈A f (x) = b.

Proposition 1.2.40. Soient (E, d) et (E ′ , d′ ) deux espaces métriques, A ⊂ E une partie de E, f : A →

E ′ une application et a ∈ A. On dit que f tend vers b ∈ E ′ quand x tend vers a dans X, x ∈ A si

∀ε > 0, ∃δ > 0, ∀x ∈ A : d(x, a) < δ =⇒ d(f (x), b) < ε.

Démonstration. Exercice.

La proposition suivante est très utile en pratique. Par simplicité, on se restreint au cadre des espaces
métriques même si certaines propriétés reste vraie dans un cadre plus général.

Proposition 1.2.41 (Caractérisation séquentielle). Soient (E, d) et (E ′ , d′ ) deux espaces métriques,

A ⊂ E une partie de E, f : A → E ′ une fonction, a ∈ A et b ∈ E ′ . Alors b = limx→a,x∈A f (x) si et
seulement si pour toute suite (xn )n≥0 ∈ AN telle que limn→∞ xn = a alors limn→∞ f (xn ) = b.

Démonstration. On se donne une suite (xn )n≥0 de points de A qui converge vers a ∈ A et on veut
montrer que (f (xn ))n≥0 converge vers b ∈ E ′ . Soit W un voisinage de b, puisque limx→a,x∈A f (x) = b, il
existe V un voisinage de a tel que f (A ∩ V ) ⊂ W . Puisque V est un voisinage de a, il existe N ≥ 0 tel
que pour tout n ≥ N , xn ∈ V et donc pour tout n ≥ N , f (xn ) ∈ W car xn ∈ V ∩ A.
Réciproquement, on suppose que f ne tend pas vers b quand x ∈ A tend vers a. C’est à dire qu’il
existe W un voisinage de b tel que pour tout voisinage de a, f (V ∩ A)∁ ∩ W ̸= ∅. En particulier, posons
Vn = B(a, 1/n), n ≥ 1, alors il existe xn ∈ B(a, 1/n) ∩ A tel que f (xn ) ∈
/ W . Mais alors, (xn )n≥0 est une
suite de points de A qui converge vers a tel que pour tout n ≥ 1, f (xn ) ∈ / W , donc (f (xn ))n≥0 ne peut
converger vers b.

11
1.2.4 Continuité
Définition 1.2.42 (Continuité ponctuelle, continuité). Soient (X, T ), (X′ , T ′ ) deux espaces topologiques
et f : X → X′ une fonction.
1. La fonction f est dite continue en x ∈ X si pour tout voisinage W de f (x) il existe un voisinage
V de x tel que f (V ) ⊂ W ;
2. La fonction f est dite continue si elle est continue en tout point x ∈ X.
Remarque 8. La continuité d’une fonction f en a ∈ X est équivalente à l’égalité limx→a,x∈A f (x) = f (a)
avec A = X.
Exercice 9. Donner une caractérisation séquentielle de la continuité.
Proposition 1.2.43. Soit (E, d) et (E ′ , d′ ) deux espaces métriques et f une application de (E, d) dans
(E ′ , d′ ). L’application f est dite continue en x ∈ E si

∀ε > 0, ∃δ > 0 : ∀y ∈ E, d(x, y) < δ =⇒ d′ (f (x), f (y)) < ε.

L’application f sera dite continue si f est continue pour tout x ∈ E.

Démonstration. C’est une condition suffisante. Soit W un voisinage de f (x), alors il existe un ouvert
O tel que f (x) ∈ O ⊂ W , et on peut trouver ε > 0 tel que f (x) ∈ B(f (x), ε) ⊂ O ⊂ W . Cela assure
l’existence d’un δ > 0 tel f (B(x, δ)) ⊂ B(f (x), ε) ⊂ W . Or, B(x, δ) est un voisinage de x.
C’est une condition nécessaire. Soit ε > 0, comme B(f (x), ε) est un voisinage de f (x), il existe un
voisinage V de x tel que f (V ) ⊂ B(f (x), ε). Or, par définition, il existe δ > 0 tel que x ∈ B(x, δ) ⊂ V
et on conclut f (B(x, δ)) ⊂ B(f (x), ε).
Proposition 1.2.44. Soient (X, T ) et (X′ , T ′ ) deux espaces topologiques. Les assertions suivantes sont
équivalentes :
1. f : X → X′ est continue ;
2. pour tout ouvert O de X′ , f −1 (O) est un ouvert de X ;
3. pour tout fermé F de X′ , f −1 (F ) est un fermé de X ;
4. pour toute partie A ⊂ X, f (A) ⊂ f (A).
Démonstration. Montrons que (i) implique (ii). Clairement, f −1 (∅) = ∅. Si O est un ouvert non vide de
X′ , alors ou bien f −1 (O) = ∅ et f −1 (O) est un ouvert de X, ou bien f −1 (O) est non vide et on peut
choisir x0 ∈ f −1 (O), autrement dit f (x0 ) ∈ O. Comme O est ouvert, c’est en particulier un voisinage de
f (x0 ). La continuité de f donne l’existence d’un voisinage V de x0 tel que x0 ∈ V ⊂ f −1 (O). Il existe
donc un ouvert Wx0 de X tel que x0 ∈ Wx0 ⊂ V ⊂ f −1 (O). On pose
[
U= Wx ,
x∈f −1 (O)

où Wx est un ouvert tel que x ∈ Wx ⊂ f −1 (O). Ainsi, U est un ouvert contenu dans f −1 (O) qui recouvre
f −1 (O) : c’est exactement f −1 (O).
Réciproquement, soient x0 ∈ X et W un voisinage de f (x0 ), il existe donc O un ouvert de X′ tel que
f (x0 ) ∈ O ⊂ W . Par hypothèse, f −1 (O) est un ouvert. De plus, x0 ∈ f −1 ({f (x0 )}) ⊂ f −1 (O), donc
f −1 (O) est un voisinage de x0 .
Il est clair que (ii) est équivalent à (iii). Il reste à montrer que (i) est équivalent à (iv). On suppose
f continue. Soit A ⊂ X, f (A) est un fermé, donc f −1 (f (A)) est un fermé par continuité. Puisque
f (A) ⊂ f (A), f −1 (f (A)) contient A, donc il contient A. Ainsi, pour tout x ∈ A, il existe y ∈ f (A) tel
que f (x) = y. Autrement dit, f (A) ⊂ f (A).
Réciproquement, soit F un fermé de X′ . On note A = f −1 (F ). Alors f (A) = f (f −1 (F )) ⊂ F . Par
hypothèse, f (A) ⊂ f (A) ⊂ F = F puisque F est fermé. Donc, A = f −1 (f (A)) ⊂ f −1 (F ) = A par
définition. Donc A = A et A est fermé.
Proposition 1.2.45. Soient (X1 , T1 ), (X2 , T2 ) et (X2 , T2 ) trois espaces topologiques. Soient f : X1 → X2
continue en x0 ∈ X1 et g : X2 → X3 continue en f (x0 ). Alors g ◦ f est continue en x0 .
Démonstration. Immédiat.

12
1.2.5 Topologies et opérations ensemblistes
Topologie induite
Proposition 1.2.46 (Topologie induite). Soient (X, T ) un espace topologique et Y une partie de X.
Alors, l’ensemble de parties donné par

TY = {O ∩ Y, O ∈ Y}

définit une topologie sur Y appelée topologie induite.

Démonstration. Immédiat.

Proposition 1.2.47 (Sous-espace métrique). Soit (E, d) un espace métrique et F ⊂ E une partie de E.
L’application d restreinte à F × F définit encore une métrique appelée métrique induite sur F . L’espace
(F, d) est appelé sous-espace métrique.

Démonstration. Immédiat.

Proposition 1.2.48. La topologie définie par la métrique induite coı̈ncide avec la topologie induite.

Démonstration. Soit O un ouvert de (F, d), alors pour tout x ∈ O, il existe ρx > 0 tel que B(x, ρx ) ∩ F ⊂
O. Ainsi, O = ∪x∈O [B(x, ρx ) ∩ F ] = (∪x∈O B(x, ρx )) ∩ F . De plus, pour tout x ∈ O, B(x, ρx ) est ouvert
dans (E, d) d’où O ∈ TF .
Réciproquement, si O ∈ TF , alors il existe O e un ouvert de (E, d) tel que O = O e ∩ F . Soit donc
x∈O=O e ∩ F alors il existe ρ > 0 tel que B(x, ρ) ⊂ O
e et donc B(x, ρ) ∩ F ⊂ O. Or B(x, ρ) ∩ F n’est
rien d’autre que la boule ouverte centrée en x ∈ F et de rayon ρ > 0 dans l’espace métrique (F, d). Ainsi,
O est un ouvert de (F, d).

De même que pour la notion de limite, une fonction définie sur une partie A d’un espace topologique
est dite continue sur A si la restriction f|A de f à A est continue sur l’espace topologique induit (A, TA ).
Le théorème suivant est alors une conséquence immédiate des définitions.

Proposition 1.2.49 (Prolongement par continuité). Soient (E, d) et (E ′ , d′ ) deux espaces métriques,
f : A ⊂ E → E ′ une fonction et a ∈ A. Alors, les assertons suivantes sont équivalentes
1. il existe une unique application continue f˜ : A ∪ {a} → E ′ qui coı̈ncident avec f sur A ;
2. f est continue sur A et limx→a,x∈A f (x) existe.

Démonstration. Exercice.

Topologie initiale, topologie produit

Définition 1.2.50 (Comparaison de topologies). Soient X un ensemble, T1 et T2 deux topologies sur X.
On dit que T2 est plus fine que T1 si T1 ⊂ T2 . On dit aussi que T1 est moins fine que T2 .

Proposition 1.2.51 (Topologie engendrée). Soit X un ensemble et O un ensemble de parties. Alors il

existe une topologie T , contenant O, qui est moins fine que toute autre topologie vérifiant cette propriété.
La topologie T est dite engendrée par O.

Démonstration. On remarque que l’intersection d’une famille arbitraire de topologie est encore une to-
pologie. On conclut en considérant la topologie définie comme l’intersection des topologies contenant
O : elle est non vide (la topologie discrète contient O) et elle est moins fine que toute autre topologie
contenant O.

Définition 1.2.52 (Topologie initiale). Soit X un ensemble et (fi )i∈I une famille d’applications chacune
définie sur X et à valeurs dans un espace topologique (Yi , Ti ). La topologie la moins fine rendant les
applications fi : X → Yi continues est appelée topologie initiale.

La topologie initiale est donc la topologie sur X engendrée par O = {fi−1 (O), i ∈ I, O ∈ Ti }. Cette
définition s’applique directement à la notion d’espace produit.

13
Q
Définition 1.2.53. Soit ((Xi , Ti ))i∈I une collection d’espaces topologique. On note X = i∈I Xi et
pi : X → Xi la projection sur la coordonnée i ∈ I qui à x = (xi )i∈I associe p(x) = xi ∈ Xi . La topologie
produit est la topologie initiale associée à la famille de projections (pi )i∈I .
Remarquons que si O est un ouvert de Xi0 alors p−1
Q
i0 (O) = i∈I Oi où Oi = Xi pour tout i ∈ I \ {i0 }.
D’autre part, une intersection finie d’ouvert
Q étant ouverte, cela mène à la définition de cylindre ouvert.
Un cylindre ouvert est une partie O = i∈I Oi , Oi ∈ Ti pour tout i ∈ I, vérifiant Oi = Xi sauf pour un
nombre fini de i ∈ I. On note T la collection des parties de X qui sont réunions de cylindre ouverts.
Proposition 1.2.54 (Topologie produit). L’ensemble T est la topologie produit sur X.
Démonstration. Il est immédiat que les projections pi , i ∈ I, sont continues de (X, T ) dans (Xi , Ti ) car,
pour tout i ∈ I, p−1 ′
i (O) est un cylindre ouvert pour tout O ∈ Ti . Soit T une topologie sur X telle que,
pour tout i ∈ I, pi est continue et considérons O ∈ T . Il est immédiat que si C est un cylindre ouvert
alors il existe un ensemble I0 ⊂ I fini et des ouverts Oi ∈ Xi , i ∈ I0 , tels que C = ∩i∈I0 p−1i (Oi ). Comme
O est par définition une réunion de tels cylindres, il vient que O est réunion d’intersections finies d’images
réciproques d’ouverts par les applications pi donc O ∈ T ′ par continuité des pi : (X, T ′ ) −→ (Xi , Ti ).
Exemple 8. Soit ((En , dn ))n∈N P une famille d’espaces métriques au
Q plus dénombrable. Soit (αn )n≥0 une
suite de réels positifs telle que n≥0 αn < ∞. On pose sur E = n∈N En la distance
X dn (xn , yn ) Y
d(x, y) = αn , x = (xn )n≥0 , y = (yn )n≥0 ∈ E = En .
1 + dn (xn , yn )
n≥0 n≥0

On définit également
1 Y
δ(x, y) = sup dn (xn , yn ) ∧ , x = (xn )n≥0 , y = (yn )n≥0 ∈ E = En . (1.2)
n≥0 1+n
n≥0

Exercice 10. Montrer que d et δ définissent des métriques sur E. Montrer que ces métriques définissent
la même topologie sur E. Quelle est-elle ?
Q
Proposition 1.2.55. Soit ((Xi , Ti ))i∈I une collection d’espaces topologiques. On note X = i∈I Xi et
pi : X → Xi la projection sur la coordonnée i ∈ I qui à x = (xi )i∈I associe pi (x) = xi ∈ Xi . Une suite
(xn )n≥0 ∈ XN converge vers x dans X muni de la topologie produit si et seulement si pour tout i ∈ I, la
suite (pi (xn ))n≥0 converge vers xi dans Xi .
Exemple 9. Soit F = R[0,1] l’ensemble des fonctions de [0, 1] dans R. On munit R de sa topologie usuelle
associée à | · | et F de la topologie produit.
Par la proposition 1.2.55, une suite de fonctions (fn )n≥0 de F converge vers f si et seulement si, pour
tout x ∈ [0, 1], fn (x) converge vers f (x). La topologie produit dans ce contexte n’est rien d’autre que la
topologie de la converge simple.
Cette topologie est séparée : si x, y ∈ F sont tels que x ̸= y alors il existe i ∈ [0, 1] tel que xi ̸= yi .
Puisque (R, | · |) est un espace métrique, c’est un espace séparé : il existe un voisinage Vxi de xi et un
voisinage Vyi de yi vérifiant Vxi ∩ Vyi = ∅. Par continuité de la projection pi , p−1 −1
i (Vxi ) et pi (Vyi ) sont
−1 −1 −1
des voisinages de x et y tels que pi (Vxi ) ∩ pi (Vyi ) = pi (Vxi ∩ Vyi ) = ∅.
Notons que l’espace F muni de la topologie produit n’est par contre pas métrisable. Pour montrer ce
fait, on cherche à contredire la caractérisation séquentielle des points adhérents.
On appelle fonction simple un élément x ∈ F tel que xi = 0 pour Q tout i ∈ [0, 1] sauf peut-être un
nombre fini. L’ensemble des fonctions simples est dense dans F : si O = i∈[0,1] Oi est un cylindre ouvert
non vide, alors seul un nombre fini d’ouverts Oi0 , . . . , OiJ , tous non vides, ne sont pas R tout entier.
Soient a0 ∈ Oi0 , . . . , aJ ∈ OiJ et posons xij = aj pour tout j = 0, . . . , J alors que xi = 0 partout ailleurs.
On constate que x est une fonction simple. Ainsi, l’ensemble des fonctions simples intersecte tous les
cylindres ouverts et donc tous les ouverts : l’ensemble des fonctions simples est dense dans F pour la
topologie produit. D’autre part, soient y ∈ F limite d’une suite de fonctions simples (y (n) )n≥0 . Alors
(m)
[
A = {i ∈ [0, 1] : yi ̸= 0} ⊂ {i ∈ [0, 1] : |yi | ≥ 2−n }.
n≥0,m≥0

Ainsi, l’ensemble A est inclus dans une réunion dénombrable d’ensembles finis et est donc dénombrable.
Ceci montre qu’une fonction non nulle sur un ensemble indénombrable ne peut être limite d’une suite de
fonctions simples. La topologie de la convergence simple ne peut donc être métrisable.

14
Démonstration. Exercice.

Proposition 1.2.56. Q Soient ((Xi , Ti ))i∈I une collection d’espaces topologique et (Y, U) un espace topo-
logique. On note X = i∈I Xi et pi : X → Xi la projection sur la coordonnée i ∈ I qui à x = (xi )i∈I
associe p(x) = xi ∈ Xi . Alors, X muni de la topologie produit, une fonction f : Y → X est continue si et
seulement si pi ◦ f : Y → Xi est continue pour tout i ∈ I.

Démonstration. Exercice.

Topologie finale, topologie quotient

Proposition 1.2.57 (Topologie finale). Soient X un ensemble, ((Xi , Ti ))i∈I une famille d’espace topolo-
giques et pour chaque i ∈ I une application fi : Xi −→ X. La topologie finale sur X associée à la famille
(fi )i∈I est la topologie
T = {O ⊂ X : ∀i ∈ I, fi−1 (O) ∈ Ti }.
C’est la topologie la plus fine rendant les applications fi continues.

Démonstration. C’est un exercice de montrer que T est la topologie la plus fine rendant les applications
fi continues.

Soit (X, T ) un espace topologique et R une relation d’équivalence sur X. On note X/R l’ensemble
quotient et π : X → X/R la projection canonique.

Définition 1.2.58 (Topologie quotient). La topologie quotient sur X/R est la topologie finale associée
à l’unique application π.

Proposition 1.2.59. Soient (X, T ) et (Y, U) deux espaces topologiques, R une relation d’équivalence
sur X et f : X/R → Y. Alors, si on munit X/R de la topologie quotient, l’application f : X/R → Y est
continue si et seulement si f ◦ π : X → Y est continue.

Démonstration. Exercice.

1.2.6 Compacité
Propriété de Borel-Lebesgue et théorème de Bolzano-Weierstrass
Définition 1.2.60 (Recouvrement ouvert). Soit (X, T ) un espace topologique. Un recouvrement ouvert
de X est une famille (Oi )i∈I d’ouverts tels que X ⊂ ∪i∈I Oi . Un sous-recouvrement ouvert est un recou-
vrement ouvert donné par une famille (Oj )j∈J avec J ⊂ I. Un recouvrement ouvert est dit fini si I est
lui-même fini.

Définition 1.2.61 (Compacité). Un espace topologique séparé (X, T ) est dit compact s’il vérifie l’une
des deux propriétés suivantes :
1. de tout recouvrement ouvert de X, on peut extraire un sous-recouvrement fini de X ;
2. de toute famille de fermés dont l’intersection est vide, on peut extraire une sous famille finie
d’intersection vide.
Une partie X ⊂ X est compacte si, muni de la topologie induite, X est un espace topologique compact.

Remarque 9. Les deux propriétés ci-dessus, appelées propriétés de Borel-Lebesgue, sont évidemment
équivalente par passage au complémentaire.
Exemple 10. Quelques exemples et contre-exemples :
— L’ensemble ∅ est compact (pour n’importe quelle métrique) ;
— (R, | · |) n’est pas compact ;
— un ensemble discret (c’est à dire muni de la métrique discrète) est compact si et seulement si il
est fini.
Remarque 10. Remarquons que la compacité est une notion purement topologique. Par conséquent, si
deux espaces topologiques sont homéomorphes — c.f. la définition 1.2.79 — alors ils sont simultanément
compacts ou non compacts.

15
Proposition 1.2.62 (Propriétés des fermés emboı̂tés). Soit (X, T ) compact et (Fn )n∈N une suite décroissante
de fermés ( i.e. Fn+1 ⊂ Fn pour tout n ≥ 0) d’intersection vide. Alors il existe N ≥ 0 tel que FN = ∅.
Remarque 11. La contraposée est particulièrement intéressante : si (Fn )n≥0 est une famille décroissante
de fermés non vides dans un espace topologique (X, T ) compact, alors ∩n≥0 Fn est (fermé) non vide.
C’est la propriétés bien connues des segments emboı̂tés dans R.
Démonstration. Soit (Fn )n≥0 une suite décroissante de fermés non vides d’un espace topologique (X, T )
compact. Par la seconde caractérisation de Borel-Lebesgue, il existe des indices n0 , . . . , nk tels que
∩kℓ=0 Fnk = ∅. Soit alors n le plus grand de ces indices, alors par décroissance ∩kℓ=0 Fnk = Fn , d’où
le résultat.
Le théorème de Bolzano-Weierstrass énoncé ci-dessous ne s’applique que dans le contexte des espaces
métriques. La deuxième assertion, appelée propriété de Bolzano-Weierstrass, est parfois posée comme
définition de la compacité.
Théorème 1.2.63 (Théorème de Bolzano-Weierstrass). Soit (E, d) un espace métrique et A ⊂ E. Alors
les assertions suivantes sont équivalentes :
1. A est compact ;
2. (BW) de toute suite (xn )n≥0 de points de A on peut extraire une sous-suite (xnk )k≥0 convergente
vers un point de A
3. tout ensemble infini B ⊂ A admet au moins un point d’accumulation dans A.
Lemme 1.2.64 (Lemme de Lebesgue). Soient (E, d) un espace métrique et (Oi )i∈I un recouvrement
ouvert de E. On suppose que (E, d) vérifie la propriété de Bolzano-Weierstrass : toute suite à valeur
dans E admet une valeur d’adhérence dans E. Alors il existe ρ > 0 tel que pour tout x ∈ E il existe
i = i(x) ∈ I tel que B(x, ρ) ⊂ Oi .
Preuve du lemme de Lebesgue. On suppose qu’un tel ρ > 0 n’existe pas. En particulier, pour tout n ≥ 1,
il existe un point xn ∈ E tel que pour tout i ∈ I, B(xn , 1/n) ∩ Oi∁ ̸= ∅. Par la propriété de Bolzano-
Weierstrass, on peut trouver une sous-suite (xnk )k≥1 qui converge vers un point x de E.
Puisque (Oi )i∈I est un recouvrement de E, il existe i ∈ I tel que x ∈ Oi . Or, Oi est ouvert donc on
peut trouver r > 0 tel que B(x, r) ⊂ Oi . De plus, par convergence de (xnk )k≥1 il existe K ≥ 1 tel que
pour tout k ≥ K, xnk ∈ B(x, r). Choisissons k ≥ K tel que 1/nk ≤ r/2 alors

B(xnk , 1/nk ) ⊂ B(x, r) ⊂ Oi .

C’est une contradiction.

Preuve du théorème de Bolzano-Weierstrass. On ne montre que l’équivalence entre les deux premiers
points. L’équivalence entre les deux derniers points est immédiate.
Montrons que (1) implique (2). Soient A compact et (xn )n≥0 une suite de points de A. On pose, pour
tout n ≥ 0, An = {xp : p > n}. Ainsi, An ⊂ A et An+1 ⊂ An . On note, pour tout n ≥ 0, Fn la fermeture
de An dans A si bien que Fn ⊂ A. Clairement, Fn+1 ⊂ Fn . Par la propriété des fermés emboı̂tés dans
les compacts, on obtient ∩n≥0 Fn ̸= ∅. Soit x ∈ ∩n≥0 Fn ⊂ A, alors x ∈ F0 = A0 . Ainsi, B(x, 1) ∩ A0 ̸= ∅
et il existe xn0 tel que d(x, xn0 ) < 1. De même, x ∈ Fn0 = An0 si bien que B(x, 1/2) ∩ An0 ̸= ∅. On
peut donc trouver n1 > n0 tel que d(x, xn1 ) < 1/2, et ainsi de suite. Nous construisons ainsi une suite
1
(xnk )k≥0 extraite de (xn )n≥0 telle que d(x, xnk ) < k+1 . Ainsi, xnk → x ∈ A.
Montrons que (2) implique (1). Soit A ⊂ E, alors puisque (E, d) est un espace métrique, E est séparé
de même que ses parties. Montrons que A satisfait la première caractérisation de Borel-Lebesgue. Soit
(Oi )i∈I un recouvrement d’ouvert (pour la topologie définie par (E, d)) de A. Soit ρ > 0 le rayon de
Lebesgue, donné par le lemme 1.2.64 de Lebesgue, associé à ce recouvrement.
Par hypothèse, A vérifie la propriété de Bolzano-Weierstrass. Soit x1 ∈ A, alors : ou bien A ⊂ B(x1 , ρ)
et c’est terminé puisque par le lemme de Lebesgue B(x1 , ρ) ⊂ Oi(x1 ) , la caractérisation de Borel-Lebesgue
est satisfaite ; sinon, il existe x2 ∈ A tel que d(x1 , x2 ) ≥ ρ. À nouveau : ou bien A ⊂ B(x1 , ρ) ∪ B(x2 , ρ),
i.e. Borel-Lebesgue est satisfaite ; ou bien il existe x3 ∈ A tel que d(xi , xj ) ≥ ρ dès i ̸= j. Au besoin,
on peut réitérer ce procédé indéfiniment, mais alors cela signifie que l’on a construit une suite (xn )n≥0
de point de A tel que d(xi , xj ) ≥ ρ dès que i ̸= j. C’est une contradiction avec la propriété de Bolzano-
Weierstrass.

16
Quelques propriétés et conséquences de la compacité
Proposition 1.2.65. Soit (X, T ) un espace topologique compact. Toute partie F ⊂ X fermée est com-
pacte.
Démonstration. La partie F ⊂ X est séparée puisque X l’est. Soit (Fi )i∈I une famille de fermés contenus
dans F et d’intersection vide. Si F est fermé, (Fi )i∈I = (F ∩ Fi )i∈I est également une famille de fermés
de X d’intersection vide. On peut donc en extraire une sous-famille finie F1 , . . . , Fn tels que ∩N
i=1 Fi , d’où
le résultat.
Proposition 1.2.66. Soient (X, T ) un espace topologique séparé et K ⊂ X un compact. Alors K est
fermé.
Démonstration. Il s’agit de montrer que X\K est ouvert. Soit x ∈ X\K. Pour tout y ∈ K, par hypothèse
de séparation, il existe un voisinage ouvert Ox,y de x et Oy de y tel que Ox,y ∩Oy = ∅. Aussi K ⊂ ∪y∈K Oy ,
puis par compacité, on peut trouver y1 , . . . , yN tel que K ⊂ ∪N N
i=1 Oyi . On pose Ox = ∩i=1 Ox,yi qui est
un voisinage ouvert de x vérifiant
N
!
[
∅ = Ox ∩ Oyi ⊃ Ox ∩ K.
i=1

D’où le résultat.
Proposition 1.2.67 (Théorème de Borel-Lebesgue). Tout segment [a, b] est compact dans R muni de
sa topologie usuelle.
Démonstration. Soit (Oi )i∈I un recouvrement ouvert de [a, b]. On note

A = {x ∈ [a, b] : [a, x] soit recouvert par un nombre fini de Oi , i ∈ I}.

Alors, A satisfait les trois assertions suivantes :

1. A ⊂ [a, b] ;
2. A ̸= ∅ ;
3. A est majoré par b.
Les premiers et troisièmes points sont des conséquences directes de la définition. Le second point, quant
à lui, s’obtient en remarquant que a ∈ A puisqu’il existe ia ∈ I tel que a ∈ Oia . On note m = sup A. On
va montrer que m ∈ A, puis que m = b.
Comme m ∈ [a, b] ⊂ ∪i∈I Oi , il existe im ∈ I tel que m ∈ Oim . Ainsi, on peut trouver ε > 0 tel que
(m − ε, m + ε) ⊂ Oim et par définition de la borne supérieure, il existe x ∈ A ∩ (m − ε, m + ε). Ensuite,
en observant que [a, m] = [a, x] ∪ [x, m] et que x ∈ A, on obtient que le premier intervalle peut être
recouvert par un nombre fini de Oi et le deuxième intervalle par l’ouvert Oim . Finalement, m ∈ A.
Supposons que m < b et choisissons ε > 0 tel que m + ε < b et m ∈ (m − ε, m + ε) ⊂ Oim . Soit
x ∈ (m, m + ε), puis on décompose comme précédemment l’intervalle [a, x] = [a, m] ∪ [m, x]. On constate
que [m, x] est recouvert par Oim et que [a, m] peut être recouvert par un nombre fini Oi puisque m ∈ A.
Manifestement, m < sup A, d’où m = b.
Corollaire 1.2.68. Soit E un K-espace vectoriel normé de dimension finie. Les parties compacts de E
sont les parties fermés bornés.
Démonstration. On considère seulement R muni de la norme | · |. L’extension aux K-espaces vectoriels
normés de dimension finie est élémentaire.
Soit K une partie compacte
S de R qui est séparé. Alors K est fermée par la proposition 1.2.66. De
plus, on observe que K ⊂ m≥0 B(0, m). Par compacité, de ce recouvrement par des ouverts, on peut
extraire un sous-recouvrement fini. Ainsi, il existe m0 ≥ 0 tel que K ⊂ B(0, m0 ) et K est une partie
bornée.
Réciproquement, si K est fermé et borné, alors K ⊂ [a, b] pour certains réels a < b. Les propositions
1.2.67 et 1.2.65 permettent de conclure.
Proposition 1.2.69. Soit (X, T ) un espace topologique séparé. Alors

17
1. toute réunion finie de compacts est compacte ;
2. toute intersection de compacts est compacte.

Démonstration. Puisque (X, T ) est séparé, il en va de même pour toutes ses parties.
Soient K1 , . . . , KN des compacts et (Oi )i∈I un recouvrement ouvert de ∪N j=1 Kj . C’est aussi un re-
couvrement d’ouvert de Kj pour tout j = 1, . . . , N . Pour chaque j = 1, . . . , N , on peut trouver un sous
recouvrement fini O1j , . . . ON
j
j
de Kj . Alors,

N Nj
N [
[ [
Kj ⊂ Oℓj ,
j=1 j=1 ℓ=1

si bien que (Oℓj )j=1,...,N,ℓ=1,...,Nj est un recouvrement ouvert finie de l’union.

Soient (Ki )i∈I une famille de compacts et (Fj )j∈J des fermés contenus dans ∩i∈I Ki tel que ∩j∈J Fj =
∅. Soit i0 ∈ I, alors (Fj )j∈J est une famille de fermés contenus dans Ki0 , par compacité, on peut en
extraire une sous-famille finie F1 , . . . , FN de fermés tels que ∩N
j=1 Fj = ∅. Ainsi ∩i∈I Ki est compact.

Proposition 1.2.70. Soient (X1 , T1 ) un espace topologique, (X2 , T2 ) un espace topologique séparé et
f : X1 → X2 une application continue. Alors f (K) est compacte pour tout compact K ⊂ X1 .

Démonstration. Tout d’abord, f (K) est séparée puisque T2 sépare les points. Soit (Oi )i∈I un recouvre-
ment ouvert de f (K), alors par continuité, (f −1 (Oi ))i∈I est recouvrement ouvert de K. On peut extraire
un recouvrement ouvert fini f −1 (O1 ), . . . , f −1 (ON ) de K. On montre que les ouverts O1 , . . . , ON recouvre
−1 −1
f (K) : soit x ∈ f (K) tel que x ∈ ∩N ∁
i=1 Oi , alors f ({x}) ⊂ ∩N
i=1 f (Oi )∁ . On a ainsi trouvé y ∈ K tel
−1
∁
que y ∈ ∪N i=1 f (Oi ) . Contradiction.

Corollaire 1.2.71. Soit f : (X, T ) → R une application continue où (X, T ) est un espace topologique
compact non vide. Alors f est bornée et atteint ses bornes.

Démonstration. La fonction f est à valeurs dans R un espace métrique donc séparé, il s’ensuit que f (X)
est séparé. Par la proposition précédente, f (X) est donc compacte, or les compacts de R sont les fermés
bornées. Ainsi, f est bornée. De plus supx∈X f (x) et inf x∈X f (x) sont dans f (X) = f (X), ainsi f atteint
ses bornes.

Exercice 11. Soit f : (E, d) → R une fonction continue strictement positive, c’est à dire {x ∈ E : f (x) ≤
0} = ∅. Montrer que si (E, d) est compact, il existe δ > 0 tel que f (x) ≥ δ pour tout x ∈ E.

Définition 1.2.72 (Espace topologique séparable). Un espace topologique (X, T ) est dit séparable si il
existe une partie dense au plus dénombrable.

Remarque 12. Il ne faut pas confondre “séparable” et “séparé”.

Corollaire 1.2.73. Tout espace métrique compact est séparable.

Démonstration. Pour tout n ≥ 1, la famille O = {B(x, 1/n) : x ∈ X} est certainement un recouvrement

ouvert, par compacité, on peut extraire un sous-recouvrement fini : il existe pn points x1 , . . . , xpn tels que
la famille finie d’ouverts {B(xi , 1/n), i = 1, . . . , pn } soit un recouvrement. On note pour chaque n ≥ 1,
Cn l’ensemble des points xi choisis. Alors, D = ∪n≥1 Cn est dénombrable. Montrons qu’il est dense : soit
x ∈ X alors pour tout n ≥ 1, il existe yn ∈ Cn ⊂ D tel que x ∈ B(yn , 1/n). Autrement dit, d(x, yn ) < 1/n
et (yn )n≥1 converge vers x.

Q Soit ((Xi , Ti ))i∈I une famille d’espaces topologiques com-

Théorème 1.2.74 (Théorème de Tychonoff).
pacts, alors, muni de la topologie produit, i∈I Xi est compact.

Exemple 11. Soit K un compact de R. L’ensemble F = K [0,1] des fonctions à valeurs dans un compact
K, muni de la topologie de la convergence simple, est compact.

18
Démonstration. On va se contenter de montrer le théorème dans le cas d’une famille dénombrable
((En , dn ))n≥0 d’espaces métriques. Si la famille est non dénombrable, la preuve de ce théorème fait
appel à l’axiome du choix. Le cas non métrique est également un peu pénible car on ne peut pas utiliser
la caractérisation de Bolzano-Weierstrass. Q
On considère donc l’espace produit E = n≥0 En muni de la topologie produit (associée par exemple
à la métrique δ définie par (1.2)) et on cherche à montrer la propriété de Bolzano-Weierstrass. Soit
(n)
(xk )k≥0 une suite de points de E, pour chaque k ≥ 0, on note xk la n-ième coordonnée de xk .
(0)
Puisque E0 est compact, on peut trouver ϕ0 : N → N strictement croissante telle que xϕ0 (k) converge
vers x(0) . De même, puisque E1 est compact, la propriété de Bolzano-Weierstrass appliquée à (xϕ0 (k) )k≥0
(1) (0)
donne l’existence de ϕ1 : N → N telle que xϕ1 (k) converge vers x(1) mais également xϕ1 (k) converge vers
x(0) .
En répétant le procédé indéfiniment, nous construisons ϕn : N → N, n ≥ 0, strictement croissante telle
(ℓ) (ℓ)
que pour tout n ≥ 0 et tout ℓ = 0, . . . , n, xϕn (k) converge vers x(ℓ) . On vérifie facilement que (xϕn (n) )n≥0
converge pour tout ℓ ∈ N, c’est à dire (xϕn (n) )n≥0 converge dans la topologie produit.

Remarque 13. Ce principe d’extraction successive s’appelle principe de la suite diagonale de Cantor.

Théorème de Heine et digression

Définition 1.2.75 (Continuité uniforme). Une fonction f : (E, d) → (E ′ , d′ ) est uniformément continue
si
∀ε > 0, ∃δ > 0 : ∀x, y ∈ E, d(x, y) < δ =⇒ d′ (f (x), f (y)) < ε.

Définition 1.2.76 (Application lipschitzienne). Une application f : (E, d) → (E ′ , d′ ) est dite lipschit-
zienne si il existe K > 0 tel que pour tout x, y ∈ E, d′ (f (x), f (y)) ≤ Kd(x, y). Une telle fonction est dite
K-lipschitzienne.

On remarque que si f est K-lipschitzienne, alors elle est K ′ -lipschitzienne pour toute K ′ ≥ K. La
plus petite constante K telle que f est K-lipschitzienne est appelée constante de Lipschitz.

Proposition 1.2.77. Soit f : (E, d) → (E ′ , d′ ). Alors,

1. si f est lipschitzienne, f est uniformément continue ;
2. si f est uniformément continue, f est continue.

Démonstration. Immédiat.

Exemple 12. Soit (E, d) un espace métrique et A ⊂ E non vide. Alors, l’application qui à x ∈ E associe
à d(x, A) dans R muni de la métrique | · | est 1-lipschitzienne.

Définition 1.2.78. Une application f : (E, d) → (E ′ , d′ ) est une isométrie si pour tout x, y ∈ E,
d′ (f (x), f (y)) = d(x, y).

Définition 1.2.79. Une application f : (E, d) → (E ′ , d′ ) est un homéomorphisme si f est bijective et f

et f −1 sont continues. On dit que (E, d) et (E ′ , d′ ) sont homéomorphes.
Si l’application identité id : (E, d) → (E, d′ ) est continue, on dit que d définit une topologie plus fine
que d′ . Si id est un homéomorphisme alors on dit que d et d′ sont topologiquement équivalente. Si id
et sa réciproque sont uniformément continue, on dit que d et d′ sont uniformément équivalente. Enfin, si
id et sa réciproque sont lipschitziennes, on dit que d et d′ sont métriquement équivalente.

Proposition 1.2.80. Si d et d′ sont métriquement équivalente alors d et d′ sont uniformément équiva-

lente.

Démonstration. Exercice.

Théorème 1.2.81 (Théorème de Heine). Soient (E, d) un espace métrique compact, (E ′ , d′ ) un espace
métrique et f : E → E ′ une application continue. Alors f est uniformément continue sur E.

Démonstration. Exercice.

19
1.2.7 Espaces métriques complets
Si les notions de limites, de continuité, de compacité peuvent se définir dans le contexte général des
espaces topologiques, la notion de suite de Cauchy est spécifique aux espaces métriques.

Définition 1.2.82 (Suite de Cauchy). Soit (E, d) un espace métrique. Une suite (xn )n≥0 à valeur dans
E est dite de Cauchy si elle vérifie la propriété suivante, appelée propriété de Cauchy,

∀ε > 0, ∃N ∈ N : p, q ≥ N =⇒ d(xp , xq ) < ε.

Remarque 14. Une autre formulation pour une suite de Cauchy est la suivante : (xn )n≥0 est de Cauchy
si et seulement si limn→∞ supp≥0 d(xn+p , xn ) = 0.
Exemple 13. Toute suite convergente à valeurs dans un espace métrique vérifie la propriété de Cauchy.

Proposition 1.2.83. Toute suite de Cauchy a au plus une valeur d’adhérence.

Démonstration. Soient x, y ∈ X deux valeurs d’adhérences d’une suite de Cauchy (xn )n≥0 . Alors, pour
tout n, m ∈ N
d(x, y) ≤ d(x, xn ) + d(xn , xm ) + d(xm , y).
Soit ε > 0, il existe N ≥ 0 tel que n, m ≥ N implique d(xn , xm ) < ε/3. Puisque x, y sont des valeurs
d’adhérence, il existe n ≥ N tel que d(x, xm ) < ε/3, de même il existe m ≥ N tel que d(y, xn ) < ε/3.
Finalement, d(x, y) < ε. Comme ε > 0 peut être choisis arbitrairement petit, on obtient d(x, y) = 0 et
x = y.

Définition 1.2.84 (Espace métrique complet). Un espace métrique (E, d) est complet si toute suite de
Cauchy est convergente.

Exercice 12. Montrer que (Q, | · |) n’est pas complet.

Proposition 1.2.85 (Propriété fondamentale des espaces de Baire). Soient (E, d) un espace métrique
complet et (Fn )n≥0 est une suite décroissante de fermés non vides dont le diamètre tend vers 0, alors
∩n≥0 Fn est un singleton.

Démonstration. Pour chaque n ≥ 0, on choisit un point xn ∈ Fn . Soit ε > 0, il existe N ≥ 0 tel que
n ≥ N implique Diam Fn < ε, mais alors n, m ≥ N implique d(xn , xm ) ≤ Diam Fn < ε. Autrement dit,
(xn )n≥0 est une suite de Cauchy donc admet une unique valeur d’adhérence x ∈ X. Par la proposition
1.2.37, \ \
{x} = {xm : m ≥ n} ⊂ Fn .
n≥0 n≥0

Pour l’inclusion inverse, il suffit de voir que si y ∈ ∩n≥0 Fn alors d(x, y) ≤ Diam Fn pour tout n ≥ 0.
D’où x = y.

Proposition 1.2.86. (R, | · |) est complet.

Démonstration. Soit (xn )n≥0 une suite réelle vérifiant la propriété de Cauchy, alors An = {xk : k ≥ n}
est une suite décroissante de parties de R. De plus, An est borné pour tout n ≥ 0. En effet, pour tout
ε > 0, il existe N ≥ 0 tel que |xp − xN | < ε dès que p ≥ N , d’où

sup |xk | ≤ max max |xi |, ε + |xN | = rε , An ∈ B(0, rε ).
k≥0 i=0,...,N

On note αn = inf An et βn = sup An alors Diam An = βn − αn . Comme (xn )n≥0 est une suite de Cauchy,
Diam An → 0.
La suite (αn )n≥0 est croissante majorée, (βn )n≥0 est décroissante minorée, elles sont convergentes.
On note α et β leurs limites respectives. Comme Diam An = βn − αn tend vers 0, on a en fait α = β.
D’où xn → α = β.

Remarque 15. C’est donc la propriété du supremum et de l’infimum dans R qui permet de conclure.

20
Remarque 16. La notion de complétude dépend explicitement de la métrique, aussi la complétude est
une notion métrique et non topologique. En particulier, on peut trouver des exemples de métriques
définissant la même topologie sans être pour autant simultanément complète ou non complète.

Définition 1.2.87. Un K-espace vectoriel normé E est un espace de Banach s’il est complet pour la
métrique associée à la norme sur E.

Les démonstrations des trois propositions suivantes sont renvoyées en exercice de travaux dirigés.

Proposition 1.2.88. Tout K-espace vectoriel normé de dimension finie est un espace de Banach.

Proposition 1.2.89. L’espace (CK ([0, 1]), ∥ · ∥∞ ) est un espace de Banach.

Proposition 1.2.90. Soit p ∈ [1, ∞] et S un ensemble discret. Alors ℓp (S) est un espace de Banach.

Définition 1.2.91. Soit (un )n≥0 une suite d’élément d’un espace vectoriel normé (E, ∥ · ∥). On dit que
la série de terme général un converge si la suite des sommes partielles converge au sens de la topologie
induit par la norme. On dit qu’elle converge absolument si la série de terme général ∥un ∥ converge dans
R.

Proposition 1.2.92. Un espace vectoriel normé (E, ∥ · ∥) est un espace de Banach si et seulement si
toute série absolument convergente converge.

C’est précisément cette caractérisation que l’on utilisera dans le chapitre 6 pour montrer la complétude
des espaces Lp .

Démonstration. Supposons que E est un espace de Banach, alors on vérifie que la suite (Sn )n≥0 des
sommes partielles est de Cauchy, pour q > p ≥ n :

q
X q
X ∞
X
∥Sq − Sp ∥ ≤ uk ≤ ∥uk ∥ ≤ ∥uk ∥ →n→∞ 0.
k=p+1 k=p+1 k=n+1

La propriété de complétude implique la convergence de la série.

Réciproquement, considérons une suite de Cauchy (un )n≥0 . On peut en extraire une sous-suite (vn )n≥0
telle que ∥vn+1 − vn ∥ ≤ 2−n . Ainsi, la série de terme générale vn+1 − vn est absolument convergente donc
convergente par hypothèse. Autrement dit, la suite extraite (vn )n≥0 converge, or une suite de Cauchy
admet au plus une valeur d’adhérence donc la suite (xn )n≥0 converge également. Ainsi, (E, ∥ · ∥) est
complet.

La proposition suivante montre que la complétude est une notion métrique en opposition à la com-
pacité qui était une notion topologique.

Proposition 1.2.93. Soit (E, d) un espace métrique complet. Alors, pour toute métrique δ métriquement
équivalente à d sur E, (E, δ) est complet.

Démonstration. Immédiat.

Proposition 1.2.94. Tout produit dénombrable d’espaces métriques ((En , dn ))n≥0 complets est complet
pour la métrique
∞
X dn (xn , yn ) Y
d(x, y) = 2−n , (x, y) = ((xn )n≥0 , (yn )n≥0 ) ∈ En .
n=0
1 + dn (xn , yn )
n≥0

Q
Démonstration. Si (xk )k≥0 est une suite de Cauchy à valeurs dans n≥0 En , alors pour tout n ≥ 0,
(n) (n)
(xk )k≥0 est de Cauchy dans (En , dn ) complet donc converge vers x . Il est immédiat que (xk )k≥0
converge vers x = (x(n) )n≥0 .

Proposition 1.2.95. Tout espace métrique compact est complet.

21
Démonstration. Une suite de Cauchy admet au plus une valeur d’adhérence. Or dans un espace métrique
compact, par Bolzano-Weierstrass, toute suite admet au moins une valeur d’adhérence. Donc une suite de
Cauchy dans un espace métrique compact admet exactement une valeur d’adhérence, elle est convergente.

Proposition 1.2.96. Dans un espace métrique complet, les parties complètes sont exactement les parties
fermées.
Démonstration. Exercice.
Définition 1.2.97. Un espace métrique (E, d) est pré-compact si
Nε
[
∀ε > 0, ∃x1 , . . . , xNε ∈ E : E⊂ B(xi , ε).
i=1

Proposition 1.2.98. Tout espace métrique pré-compact complet est compact.

Démonstration. On va montrer la propriété de Bolzano-Weierstrass, on considère donc (xn )n≥0 une
suite dans l’espace pré-compact (E, d). Soit ε = 1/2, alors il existe y1 ∈ E tel que B(y1 , 1/2) contient
une infinité de points xn , on note (xϕ1 (n) )n≥0 cette suite extraite. Elle vérifie, pour tout n, m ≥ 0,
d(xϕ1 (n) , xϕ1 (m) ) ≤ 1.
On réitère le procédé avec ε = 1/4 : on trouve une suite (xϕ2 (n) )n≥0 de (xϕ1 (n) )n≥0 vérifiant
d(xϕ2 (n) , xϕ2 (m) ) ≤ 1/2 pour tout n, m ≥ 0.
Ainsi, nous construisons successivement des sous-suites (xϕk (n) )n≥0 satisfaisant, pour tout n, m,
d(xϕk (n) , xϕk (m) ) < 1/k. On considère la suite diagonale (xϕn (n) )n≥0 extraite de (xn )n≥0 et les termes
d’indices n ≥ k sont extraits de la suite (xϕk (n) )n≥0 donc d(xϕn (n) , xϕm (m) ) < 1/k dès que m, n ≥ k.
Par conséquence, c’est une suite de Cauchy dans un espace complet donc elle converge. La propriété de
Bolzano-Weierstrass est vérifiée.
Proposition 1.2.99. Soient E, F deux K-espace vectoriel normés. On suppose que F est un espace de
Banach, alors LK (E, F ) muni de la norme subordonnée est complet. En particulier, le dual topologique
d’un K-espace vectoriel normé est un espace de Banach.
Cette proposition est démontrée en travaux dirigés.
Théorème 1.2.100 (Prolongement). Soient (E, d), (E ′ , d′ ) deux espaces métriques, A ⊂ E une partie
dense dans E, f : A → E ′ une application uniformément continue. Si (E ′ , d′ ) est complet alors f se
prolonge de manière unique en une fonction f˜ : E → E ′ (uniformément) continue sur E.
Démonstration. Unicité : Si f, g : E → E ′ sont deux fonctions continues qui coı̈ncident sur A, alors
f = g. En effet, soit x ∈ E, il existe une suite (xn )n≥0 de points de A qui converge vers x. Pour tout
n ≥ 0, f (xn ) = g(xn ). En faisant tendre n vers l’infini, la continuité de f et g implique f (x) = g(x).
Existence : Soit x ∈ E, alors pour tout n ≥ 1, B(x, 1/n) ∩ A ̸= ∅ par hypothèse de densité. On
note An = f (B(x, 1/n) ∩ A) ⊂ E ′ . Alors An+1 ⊂ An et Diam An → 0 par uniforme continuité de f .
La propriété fondamentale des espaces de Baire implique ∩n≥0 An est réduite à un singleton, on note
∩n≥0 An = {f˜(x)}. Notons que ∩n≥0 An ⊂ f ({x} ∩ A) et donc si x ∈ A, on obtient f (x) = f˜(x).
En fait, on a mieux, si (xℓ )ℓ≥0 est une suite de points de A convergente vers x, alors pour tout n ≥ 0,
il existe ℓ0 tel que pour tout ℓ ≥ ℓ0 , xℓ ∈ B(x, 1/n) ∩ A si bien que f (xℓ ) ∈ An . Donc (f (xℓ ))ℓ≥0 est de
Cauchy convergente vers f˜(x). Cela nous permet de montrer l’uniforme continuité de f˜. En effet, soient
x, y ∈ X, (xℓ )ℓ≥0 ∈ AN et (yℓ )ℓ≥0 ∈ AN deux suites qui convergent respectivement vers x et y, alors pour
tout ℓ ≥ 0
d(f˜(x), f˜(y)) ≤ d(f˜(x), f (xℓ )) + d(f (xℓ ), f (yℓ )) + d(f (yℓ ), f˜(y)).
Soit ε > 0. On peut trouver L ≥ 0 tel que pour tout ℓ ≥ L,

d(f˜(x), f (xℓ )) < ε/3 et d(f˜(y), f (yℓ )) < ε/3.

De plus, on peut trouver η > 0 tel que d(xℓ , yℓ ) < 3η implique d(f (xℓ ), f (yℓ )) < ε/3. Enfin, comme

d(xℓ , yℓ ) ≤ d(xℓ , x) + d(x, y) + d(y, yℓ ),

22
choisissons L′ ≥ 0 tel que ℓ ≥ L′ implique d(xℓ , x) < η et d(yℓ , y) < η, si bien que d(x, y) < η implique
d(xℓ , yℓ ) < 3η. Finalement, pour tout ε > 0, il existe η > 0 tel que pour tout ℓ ≥ L ∨ L′ et tout x, y ∈ X
avec d(x, y) < η alors

d(f˜(x), f˜(y)) ≤ d(f˜(x), f (xℓ )) + d(f (xℓ ), f (yℓ )) + d(f (yℓ ), f˜(y)) ≤ ε.

Théorème 1.2.101 (Complétion d’un espace métrique). Tout espace métrique (E, d) est isométrique à
un sous-espace dense d’un espace métrique complet (E,
b d)
b unique à isométrie près et appelé le complété
de (E, d).

1.3 Espaces polonais

Nous nous bornons ici à définir ce qu’est un espace polonais qui est l’archétype des espaces que l’on
croise souvent en théorie de la mesure.

Définition 1.3.1 (Espace polonais). Un espace métrique séparable complet est appelé espace polonais.

23
24
Chapitre 2

Tribus, applications mesurables et

mesures

L’objet de ce chapitre est d’introduire les concepts fondamentaux de la théorie de la mesure. La théorie
de la mesure donne un formalisme robuste aux notions de longueur, aire ou volume. Il est cependant
important de noter que la théorie de la mesure ne se cantonne pas aux espaces euclidien mais peut tout
à fait s’appliquer à des espaces de fonctions ! Il ne s’agit pas là d’un ésotérisme mathématique mais bel
et bien des fondations permettant la construction du mouvement brownien lequel apparaı̂t comme la
brique élémentaire dans de nombreux domaines applications (théorie cinétique des gaz, mathématiques
financières. . .).

2.1 Tribus et Applications mesurables

2.1.1 Tribu
Dans toute la suite, X désigne un ensemble. On notera P(X) l’ensemble des parties de X.

Définition 2.1.1. Une tribu sur X est un sous-ensemble non vide de P(X), noté X , tel que
1. ∅ ∈ X ;
2. A ∈ X implique A∁ ∈ X (stable par passage au complémentaire) ;
S
3. si (An )n≥1 ⊂ X alors n≥1 An ∈ X (stable par réunion dénombrable).

Proposition 2.1.2. Si X est une tribu alors

1. X ∈ X ,
T
2. (An )n≥1 ⊂ X implique n≥1 An ∈ X (stable par intersection dénombrable),
3. A, B ∈ X alors A \ B ∈ X ,
4. A, B ∈ X alors A∆B ∈ X .

Démonstration. Immédiat.

Exemple 14. On peut mentionner deux tribus particulières la tribu la plus grossière X = {∅, X} et la
tribu la plus fine X = P(X). Lorsque X est finie ou dénombrable, on choisira la plupart du temps la tribu
la plus fine. Si X est non dénombrable, le choix de la tribu n’est plus aussi naturel.
Exercice 13. Vérifier que la tribu grossière et la tribu la plus fine sont effectivement des tribus.

Définition 2.1.3. Un espace mesurable est la donnée d’un couple (X, X ) constitué d’un ensemble X et
d’une tribu X sur X.
T
Proposition 2.1.4. Soit (Xi )i∈I une famille de tribus sur X alors X = i∈I Xi est une tribu sur X.

Remarque 17. Il s’agit bien d’une intersection quelconque, il n’est pas nécessaire qu’elle soit dénombrable !

25
Démonstration. Pour i ∈ I, Xi est une tribu, donc ∅ ∈ Xi pour tout i ∈ I et il vient ∅ ∈ X . Soit (Aj )j≥0
une famille dénombrable d’éléments de X , alors pour tout i ∈ I, ∪j≥0 Aj ∈ Xi et donc ∪j≥0 Aj ∈ X . La
stabilité par passage au complémentaire se démontre de façon analogue.
Cette proposition permet de définir la notion de tribu engendrée.
Proposition 2.1.5 (Tribu engendrée). Soit C ⊂ P(X). Il existe une plus petite tribu (au sens de l’in-
clusion) contenant C. Cette tribu est appelée tribu engendrée par C et est notée σ(C).
Démonstration. Soit S l’ensemble des tribus sur X qui contiennent C. Alors
\
X = S = {A ⊂ X : ∀S ∈ S, A ∈ S}
S∈S

est une tribu qui contient C. Par définition, cette tribu est contenue dans toutes les tribus contenant
C.
Exemple 15. Un autre exemple de tribu classique est celle engendrée par un sous-ensemble A ⊂ X, par
définition
σ({A}) = {∅, A, A∁ , X}.
Proposition 2.1.6 (Image réciproque d’une tribu). Soient X et Y deux ensembles, f : X → Y une
application et Y une tribu sur Y. Alors

f −1 (Y) = {f −1 (A), A ∈ Y}

est une tribu sur X appelée tribu image réciproque de Y par f .

Démonstration. Le résultat est conséquence directe du lemme ci-dessous dont la preuve est laissée en
exercice.
Lemme 2.1.7. Soit F un ensemble et P(F ) l’ensemble de ses parties. Soient A ∈ P(F ) et (Bi )i∈I une
famille d’éléments de P(F ). Alors pour toute application f : E −→ F
! !
[ [ \ \
−1 −1 −1
f Bi = f (Bi ), f Bi = f −1 (Bi ), f −1 (A∁ ) = f −1 (A)∁ .
i∈I i∈I i∈I i∈I

Proposition 2.1.8. Soient f une application de X dans Y, C un sous-ensemble de P(Y). Alors

f −1 (σ(C)) = σ(f −1 (C)).

Démonstration. Comme C ⊂ σ(C), on a f −1 (C) ⊂ f −1 (σ(C)) qui est une tribu par la proposition
précédente Ainsi, σ(f −1 (C)) est inclus dans f −1 (σ(C)).
Montrons l’inclusion inverse. Notons A l’ensemble des parties de A ⊂ Y telle f −1 (A) ∈ σ(f −1 (C)).
Alors A est une tribu : ∅ ∈ A et la stabilité de l’image inverse par réunion et passage au complémentaire
permet de conclure. De plus A contient C, donc σ(C). Il en résulte que f −1 (σ(C)) ⊂ f −1 (A). Puis, par
définition, f −1 (A) ⊂ σ(f −1 (C)), d’où le résultat f −1 (σ(C)) ⊂ σ(f −1 (C)).
Proposition 2.1.9 (Tribu induite). Soient (X, X ) un espace mesurable et B ⊂ X, l’ensemble XB =
{A ∩ B, A ∈ X } est une tribu sur B appelée tribu induite par X sur B.
Remarque 18. Notez que la partie B n’est pas supposée mesurable.
Démonstration. On vérifie les axiomes d’une tribu :
1. évidemment ∅ ∈ XB puisque ∅ = ∅ ∩ B ;
2. soit A ∈ XB , il existe par définition A
e ∈ X tel que A = A e ∩ B. Or le complémentaire de A dans
B est
A∁ ∩ B = (Ae∁ ∪ B ∁ ) ∩ B = Ae∁ ∩ B.

Ainsi, A∁ ∈ XB puisque A
e∁ ∈ X .

26
3. Soit (An )n≥1 des éléments de XB , alors pour chaque n ≥ 1 on peut trouver A
en ∈ X tels que
An = Aen ∩ B. Alors
 
[ [ [
An = (Aen ∩ B) =  en  ∩ B.
A
n≥1 n≥1 n≥1

Ceci montre la stabilité par réunion dénombrable puisque ∪n≥1 A

en ∈ X .

Définition 2.1.10 (Tribu produit). Soient (X, X ) et (Y, Y) deux espaces mesurables. La tribu engendrée
par les parties de X × Y s’écrivant comme A × B avec A ∈ X et B ∈ Y est appelée tribu produit et on
la note X ⊗ Y.

2.1.2 Tribu borélienne

Définition 2.1.11. Soit (X, T ) un espace topologique. La tribu borélienne sur X, notée B(X) est la tribu
engendrée par les ouverts de (X, T ). Autrement dit, B(X) = σ(T ). Les éléments de B(X) sont appelés les
boréliens.
A priori, si (X, d) est un espace métrique, la tribu engendrée par les boules ouvertes ne coı̈ncident
pas avec la tribu borélienne. On montre cependant que c’est vrai pour un espace métrique séparable en
utilisant le lemme suivant.
Lemme 2.1.12. Soit (X, d) un espace métrique séparable. Alors tout ouvert est réunion dénombrable de
boules ouvertes.
Démonstration. Sous l’hypothèse de séparabilité, il existe une suite (xn )n≥0 dense dans X. Soit O un
ouvert et posons
I = {(n, ρ) ∈ N × Q+ ∗ : B(xn , ρ) ⊂ O},

et montrons [
O= B(xn , ρ).
(n,ρ)∈I

La réunion est par définition inclue dans O. Réciproquement, soit x ∈ O. Comme O est ouvert, il existe
r > 0 tel B(x, r) ⊂ O. On a même pour tout ρ ∈ Q ∩ (0, r), B(x, ρ) ⊂ B(x, r) ⊂ O. De plus, comme
(xn )n≥0 est dense dans X, il est existe une sous-suite (xnk )k≥0 qui converge vers x. Autrement dit, il
existe K ≥ 0 tel que k ≥ K implique xnk ∈ B(x, ρ/4). Par symétrie d’une métrique, x ∈ B(xnk , ρ/4).
Finalement, par l’inégalité triangulaire, pour tout y ∈ B(xnk , ρ/4)

d(x, y) ≤ d(x, xnk ) + d(xnk , y) ≤ ρ/2 =⇒ x ∈ B(xnk , ρ/4) ⊂ B(x, ρ/2) ⊂ O.

Corollaire 2.1.13. Si (X, d) est un espace métrique séparable, alors la tribu engendrée par les boules
ouvertes coı̈ncident avec la tribu borélienne.
Démonstration. En utilisant le lemme 2.1.12, la preuve est immédiate.
On appliquera très souvent cette notion de tribu borélienne à Rd muni de sa topologie usuelle,
typiquement celle donnée par une métrique issue d’une norme.
Proposition 2.1.14. Sur R muni de sa topologie usuelle, la tribu borélienne est engendrée par
1. les intervalles ouverts bornés,
2. la classe des intervalles de la forme (−∞, a) avec a ∈ R,
3. la classe des intervalles de la forme (−∞, a] avec a ∈ R.
Démonstration. 1. Notons E l’ensemble des intervalles ouverts bornés de R et O les ouverts de R.
On a bien entendu E ⊂ O si bien que σ(E) ⊂ σ(O).
Pour l’inclusion inverse, il suffit de remarquer que (R, | · |) est séparable, ainsi tout ouvert est
réunion dénombrable d’intervalles ouverts bornés. Ainsi O ⊂ σ(E) et donc σ(O) ⊂ σ(E).

27
2. Soit E ′ la classe des intervalles de la forme (−∞, a). Encore une fois, σ(E ′ ) ⊂ σ(O) puisque E ′ ⊂ O.
Pour l’inclusion inverse, il suffit de montrer que E ⊂ σ(E ′ ), puisque par le point précédant, nous
aurons σ(E) ⊂ σ(E ′ ) ⊂ σ(O). Soit (a, b) ∈ E. On a

(a, b) = (−∞, b) ∩ (a, ∞) = (−∞, b) ∩ (−∞, a]∁ .

Puis, comme (−∞, a] = ∩n≥1 (−∞, a + 1/n), nous avons montré que l’on peut écrire (a, b) comme
l’intersection dénombrable d’éléments de E ′ .
3. Ce point se démontre de la même manière que le précédant.

Corollaire 2.1.15. La tribu borélienne sur Rd muni de sa topologie usuelle est engendrée par
Qd
1. les pavés ouverts i=1 (ai , bi ) ;
Qd
2. les pavés ouverts semi-infinis i=1 (−∞, ai ) ;
Qd
3. les pavés fermés semi-infinis i=1 (−∞, ai ].

Démonstration. C’est une application immédiate du lemme 2.1.12.

2.1.3 La droite achevée

Pour diverses raisons, nous auront à considérer la compactification, généralement notée R, de la droite
réelle R. Pour se faire, il est possible de construire un homéomorphisme de R dans ] − 1, 1[. L’intervalle
ouvert ] − 1, 1[ se compactifie en [−1, 1] : c’est le plus petit compact de R qui contient ] − 1, 1[. Par
exemple, les applications suivantes réalisent un tel homéomorphisme :

f :R → ] − 1, 1[ g:R → ] − 1, 1[
et
x → f (x) = √ x . x → g(x) = 2
arctan(x).
x2 +1 π

L’adhérence de l’intervalle ouvert (−1, 1) dans la topologie R est alors l’intervalle [−1, 1]. Il est alors
possible de prolonger les homéomorphismes f et g à R = R ∪ {−∞, ∞}. Les points −∞ et +∞ sont alors
les antécédents de −1 et par 1 par ces homémorphismes. On note dans la suite fe et ge les prolongements
de f et g à R.
Posons, pour tout x, y ∈ R,

δfe(x, y) = |fe(x) − fe(y)| et δge(x, y) = |e

g (x) − ge(y)|.

Ces deux applications sont des métriques sur R. L’application identité entre (R, δfe) et (R, δge) est un
homéomorphisme. Par ailleurs, la topologie résultant de la restrictions de ces métriques à R coı̈ncident
avec la topologie usuelle sur R associée à la valeur absolue. De plus, les espaces métriques (R, δfe) et
(R, δge) sont compacts. Ainsi, R muni de l’une ou l’autre de ces métriques peut être vue comme une
extension compacte de la droite réelle munie de la valeur absolue.
Notons qu’une base d’ouvert pour cette topologie est constituée des intervalles ouverts de la forme
(a, b), (a, ∞] et [−∞, b) avec a, b ∈ R. Une base de voisinage dénombrable de +∞ (resp. −∞) est données
par (n, +∞] (resp. [−∞, −n)), n ≥ 0.
On démontre de façon analogue que la tribu borélienne de R est engendrée par les classes {[−∞, a), a ∈
R} ou {[−∞, a], a ∈ R}.
Enfin, il est à noter l’ordre total de R peut également être étendu à R puisque les homéomorphismes fe
et ge sont monotones croissants. Les opérations algébriques tels que l’addition et la multiplication peuvent
également être étendues dans une certaine mesure. Il subsiste néanmoins des indéterminations tels que
+∞−∞. C’est une obstruction à la possibilité de définir une structure de groupe. A priori, les opérations
0 × ±∞ sont également indéterminées, néanmoins, par convention en théorie de la mesure, nous poserons
0 × ±∞ = 0. Cette convention n’est pas source d’erreur et la raison apparaı̂tra plus clairement dans la
suite.

28
2.1.4 Applications mesurables, applications boréliennes
Définition 2.1.16 (Applications mesurables). Soient (X, X ) et (Y, Y) deux espaces mesurables. Une
application f : X → Y est dite mesurable si

f −1 (Y) ⊂ X ,

ou de manière plus explicite

A∈E =⇒ f −1 (A) ∈ X .

Définition 2.1.17. Soient X, Y deux espaces topologiques. Une application mesurable de (X, B(X)) dans
(Y, B(Y)) est dite borélienne.

Pour A ⊂ X, on définit l’application indicatrice de A, notée 1A , de X dans {0, 1} pour x ∈ X par


 1 x∈A

1A (ω) =
 0 x∈

/A

On munit {0, 1} de la topologie discrète (l’ensemble des ouverts n’est rien d’autre que l’ensemble des
parties de {0, 1}). La tribu borélienne correspondante est la tribu grossière. De fait, l’application 1A est
mesurable dès que A est mesurable. Réciproquement, toute application de f de X dans {0, 1} s’écrit
1supp f . De plus supp f = {x ∈ X : f (x) = 1} est mesurable dès que f est mesurable.

Proposition 2.1.18. Soient (X, X ) et (Y, Y) deux espaces mesurables, f une application de X dans Y
et B un ensemble de parties sur Y telle que σ(B) = Y. Alors f est mesurable si et seulement si l’image
réciproque de tout élément de B est dans X .

Démonstration. La condition est évidemment nécessaire. Réciproquement, si X contient l’image réciproque

de B, elle contient également la tribu engendrée par l’image réciproque de B, i.e. σ(f −1 (B)). Par la Pro-
position 2.1.8, σ(f −1 (B)) = f −1 (σ(B)) = f −1 (Y).

Corollaire 2.1.19. Soient X, Y deux espaces topologiques munis de leurs tribus boréliennes. Toute ap-
plication continue de X dans Y est mesurable.

Démonstration. La continuité implique que l’image inverse de tout ouvert est ouverte. D’où le résultat.

Exercice 14. Donner un exemple d’application borélienne non continue.

Proposition 2.1.20. Une application f : (X, X ) → R est mesurable si

1. ∀a ∈ R, {x ∈ X : f (x) ≤ a} ∈ X ,
2. ∀a ∈ R, {x ∈ X : f (x) < a} ∈ X ,
3. ∀a ∈ R, {x ∈ X : f (x) ≥ a} ∈ X ,
4. ∀a ∈ R, {x ∈ X : f (x) > a} ∈ X .

Démonstration. C’est une application directe des propositions 2.1.14 et 2.1.18.

Propriétés de stabilité
Proposition 2.1.21 (Composition). Soient (X, X ), (Y, Y) et (Z, Z) trois espaces mesurables, f une
application mesurable de (X, X ) dans (Y, Y) et g une application mesurable de (Y, Y) dans (Z, Z). Alors
f ◦ g est mesurable de (X, X ) dans (Z, Z).

Démonstration. Immédiat.

Proposition 2.1.22. Soient (X1 , X1 ) et (X2 , X2 ) deux espaces mesurables et p1 , p2 les projections de
X1 × X2 sur X1 et X2 respectivement. On munit X1 × X2 de la tribu produit X1 ⊗ X2 . Alors
1. les projections p1 et p2 sont mesurables ;

29
2. soient (Y, Y) un espace mesurable et f : Y → X1 × X2 une application. Alors f est mesurable si
et seulement si les composées p1 ◦ f : Y → X1 et p2 ◦ f : Y → X2 sont mesurables.

Démonstration. 1. Si B1 ∈ X1 , alors p1−1 (B1 ) = B1 × X2 ∈ X1 ⊗ X2 et p1 est mesurable. De la même

manière p2 est mesurable.
2. Si f est mesurable, par la proposition précédente, p1 ◦f et p2 ◦f sont mesurables. Réciproquement,
supposons p1 ◦ f et p2 ◦ f mesurables. Alors pour tout B1 ∈ X1 , f −1 (B1 × X2 ) = (p1 ◦ f )−1 (B1 )
est dans la tribu Y. De même, pour tout B2 ∈ X2 , f −1 (X1 × B2 ) ∈ Y. Ainsi

f −1 (B1 × B2 ) = f −1 ((B1 × X2 ) ∩ (X1 × B2 )) = f −1 (B1 × X2 ) ∩ f −1 (X1 × B2 ) ∈ Y.

Comme X1 ⊗ X2 est la tribu engendrée par les B1 × B2 pour B1 ∈ X1 et B2 ∈ X1 , on conclut à

l’aide de la Proposition 2.1.8.

Corollaire 2.1.23. Pour qu’une application à valeurs complexes soit mesurable il faut et il suffit que
sa partie réelle et sa partie imaginaire soient mesurables. Si f et g sont des applications mesurables de
(X, X ) à valeurs complexes, alors f + g, f g, |f |, . . . sont mesurables.

Démonstration. Il suffit d’appliquer les propositions 2.1.21 et 2.1.22 en remarquant que les applications
R2 ∋ (x, y) → x + y ∈ R, R2 ∋ (x, y) → xy et R ∋ x → |x| sont continues donc mesurables.

Définition 2.1.24. Soit (xn )n≥0 une suite à valeurs dans R. La plus grande (resp. la plus petite) valeur
d’adhérence de (xn )n≥0 est notée lim sup xn (resp. lim inf xn ) et est définie par

lim sup xn = inf sup xk (resp. lim inf xn = sup inf xk ).

n≥0 k≥n n≥0 k≥n

Remarque 19. On note parfois lim et lim en lieu et place de lim sup et lim inf.
Remarque 20. Les limites supérieures et inférieures sont a priori des éléments de R. Il est tout à fait
possible d’avoir lim sup xn = ∞ et lim inf xn = −∞, c’est le cas par exemple pour xn = (−1)n n. On a
toujours lim inf xn ≤ lim sup xn et (xn )n≥0 converge si et seulement si lim inf xn ≥ lim sup xn .
Pour une suite de fonctions (fn )n≥0 sur X à valeurs dans R, on note lim sup fn et lim inf fn les
fonctions qui à x ∈ X associe lim sup fn (x) et lim inf fn (x) respectivement.

Proposition 2.1.25 (Stabilité par passage à la limite). 1. Soit (fn )n≥0 une suite de fonctions me-
surables sur (X, X ) à valeur dans R. Les fonctions sup fn , inf fn , lim sup fn et lim inf fn sont
mesurables.
2. Soit (fn )n≥0 une suite de fonctions mesurables à valeurs dans C telle que pour tout x ∈ E,
limn fn (x) = f (x) existe. Alors f est mesurable.

Démonstration. 1. Par hypothèse, pour tout a ∈ R, l’ensemble {fn ≤ a} est dans X . Or, {sup fn ≤
a} = ∩n≥0 {fn ≤ a}. Par la Proposition 2.1.20, sup fn est mesurable. Comme inf fn = − sup −fn ,
inf fn est mesurable. Enfin, lim sup fn = inf n≥0 supk≥n fk et lim inf fn = supn≥ inf k≥n fk sont
mesurables par ce qui précède.
2. Il suffit de montrer que partie réelle et partie imaginaire de f est mesurable. Sans perte de
généralité, on peut donc supposer seulement le cas réel. Dans ce cas, f = lim sup fn = lim inf fn
et est donc mesurable.

Exercice 15. Soient f et g deux applications mesurables de (X, X ) dans R+ (muni de sa tribu borélienne).
Montrer que {f ≤ g} et {f < g} sont des ensembles mesurables.

30
2.1.5 Approximation des fonctions mesurables
Soit (X, X ) un espace mesuré. On notera mX l’ensemble des fonctions mesurables et par mX+ l’en-
semble des fonctions mesurables positives.
Définition 2.1.26 (Fonctions étagées). Une fonction mesurable sur (X, X ) à valeurs dans C est dite
étagée si elle ne prend qu’un nombre fini de valeurs distinctes. On notera mE et mE+ respectivement
l’ensemble des fonctions mesurables étagées bornées et mesurables étagées positives.
Soit f une fonction étagée et α1 , . . . , αn les n valeurs distinctes prises par f . Pour i ∈ {1, . . . , n}, on
pose Ai = {f = αi }. Puisque f est mesurable, les ensembles Ai sont mesurables et f se réécrit
n
X
f= αi 1Ai .
i=1

Réciproquement, toute combinaison linéaire finie à coefficients réels ou complexes de fonctions indi-
catrices d’ensembles mesurables est une fonction étagée. L’ensemble des fonctions étagées est K-espace
vectoriel (de dimension infinie).
Théorème 2.1.27. Soit f une fonction mesurable sur (X, X ) à valeurs dans R+ . Alors, il existe une suite
croissante (fn )n≥0 de fonctions étagées positives qui converge simplement vers f . De plus, la convergence
est uniforme sur tout ensemble B ∈ X sur lequel f est bornée.
Démonstration. Pour n ≥ 0 et k = 0, 1, . . . , n2n − 1, posons (c.f. Figure 2.1)

k k+1
An = {f ≥ n} et An,k = ≤f < .
2n 2n

k+1
2n
k
2n

An An,k An,k An

Figure 2.1 – Découpage dyadique tronqué d’une fonction mesurable f .

On définit alors la fonction fn par :

n
n2 −1
X k
fn = 1A + n1An .
2n n,k
k=0

Par définition, fn est une fonction étagée positive telle que fn ≤ f . D’autre part, on vérifie que si
x ∈ An,k , 
2k
fn (x) si 2n+1 ≤ f (x) < 2k+1


2n+1
fn+1 (x) =
 fn (x) + n+1 si n+1 ≤ f (x) < 2(k+1)
1 2k+1
2n+1 .

2 2

31
D’autre part, si x ∈ An ,

 n+1 si f (x) ≥ n + 1

fn+1 (x) =
ℓ ℓ ℓ+1
 n + n+1 si n + ≤ f (x) < n + 2n+1 , 0 ≤ ℓ ≤ 2n+1 − 1.

2 2n+1

Ainsi, pour tout n ≥ 0 et tout x ∈ X, fn (x) ≤ fn+1 (x) : la suite (fn )n≥0 est croissante. De plus, (An )n≥0
est une suite décroissante d’éléments de X . Donc si x ∈ A∁n0 , alors pour tout n ≥ n0 , x ∈ A∁n ou encore
pour tout n ≥ n0
1
0 ≤ f (x) − fn (x) ≤ n .
2
Ceci implique que (fn (x))n≥0 converge vers f (x). Ainsi, la suite (fn )n≥0 converge sur l’ensemble ∪n≥0 A∁n
qui n’est autre que {f < ∞}. Si x ∈ {f = ∞}, alors pour tout n ≥ 0, fn (x) = n qui tend vers ∞ quand
n tend vers ∞. Soit à présent B ∈ X tel que f soit bornée sur B. Il existe n1 tel que, pour tout x ∈ B,
f (x) < n1 . Alors B ∩ An1 = ∅ et ainsi
1
∀n ≥ n1 , ∀x ∈ B, 0 ≤ f (x) − fn (x) ≤ .
2n
La convergence est donc bien uniforme sur B.
Corollaire 2.1.28. Toute fonction f mesurable sur (X, X ) à valeurs dans R ( resp. Rd , resp. C) est
limite simple d’une suite (fn )n≥0 de fonctions étagées à valeurs dans R ( resp. Rd , resp. C).
Démonstration. Si f est à valeurs dans R, on peut l’écrire f = f + − f − avec f + = f ∨ 0 et f − = −f ∧ 0.
Comme f + et f − sont mesurables à valeurs dans R+ , il existe des suites (gn )n≥0 et (hn )n≥0 de fonctions
étagées positives tendant simplement vers f + et f − respectivement. La suite (fn )n≥0 , où fn = gn − hn ,
est formée de fonctions étagées et converge simplement vers f . Si f est à valeurs dans Rd , on raisonne
composante par composante. De même, si f est à valeurs complexes, on l’écrira comme somme de ses
parties réelle et imaginaire.

2.2 Mesures positives

2.2.1 Définitions et propriétés élémentaires
Définition 2.2.1 (Mesure positive). Soit (X, X ) un espace mesurable. Une mesure positive, ou simple-
ment une mesure, sur (X, X ) est une application µ : X → R+ satisfaisant
1. µ(∅) = 0,
2. si (An )n≥0 est une suite d’éléments deux à deux disjoints (i.e. An ∩ Am = ∅ dès que n ̸= m), alors
 
[ X
µ An  = µ(An ).
n≥0 n≥0

Cette deuxième propriété est appelée σ-additivité.

Une mesure positive vérifiant µ(X) < ∞ est dite finie. Si elle vérifie µ(X) = 1, c’est une mesure de
probabilité. Enfin, si il existe une suite (An )n≥0 d’éléments de X telle que X = ∪n≥0 An et, pour tout
n ∈ N, µ(An ) < ∞, on dit que µ est σ-finie.
Définition 2.2.2 (Espace mesuré). Un espace mesuré est la donnée d’un triplet (X, X , µ) où (X, X ) est
un espace mesurable et µ est une mesure positive sur (X, X ).
Lorsqu’il n’y aura pas d’ambiguı̈tés sur la tribu X nous écrirons simplement (X, µ). Ce sera notamment
le cas lorsque X est discret ou lorsque X est un espace topologique. Dans le premier cas, on munira
l’ensemble discret presqu’exclusivement de la tribu la plus fine, celle qui contient toutes les parties de X.
Dans le second cas, on considéra en générale la tribu borélienne.
Proposition 2.2.3. Soit (X, X , µ) un espace mesuré.

32
1. Si A1 , . . . , An ∈ X sont deux à deux disjoints, alors

µ(A1 ∪ . . . ∪ An ) = µ(A1 ) + · · · + µ(An ).

2. Soient A, B ∈ X tels que A ⊂ B, alors µ(A) ≤ µ(B). De plus, si µ(A) < ∞, alors µ(B \ A) =
µ(B) − µ(A).
3. Soient A, B ∈ X , µ(A ∪ B) + µ(A ∩ B) = µ(A) + µ(B).
Remarque 21. Une mesure µ est dite finiment additive si dans le deuxième point de la définition 2.2.1,
la famille d’ensemble (resp. la réunion, la somme) dénombrable est remplacée par une famille finie.
Démonstration. 1. On pose B1 = A1 , . . . , Bn = An et pour tout i ≥ n + 1, Bi = ∅. Alors (Bn )n≥0 est
une famille dénombrable d’ensembles deux à deux disjoints. On obtient l’additivité finie à l’aide
de la σ-additivité et du fait que µ(∅) = 0.
2. On écrit B = A ∪ (A∁ ∩ B), c’est la réunion de deux ensembles mesurables disjoints, d’où µ(B) =
µ(A) + µ(A∁ ∩ B) ≥ µ(A). De plus A∁ ∩ B = B \ A d’où, si µ(A) < ∞, l’égalité µ(B \ A) =
µ(B) − µ(A).
3. Comme A ∩ B ⊂ A, si µ(A ∩ B) = ∞ alors µ(A) = ∞ et l’égalité est vérifiée (en fait µ(B) = ∞
également). Si µ(A ∩ B) < ∞, on peut écrire A ∪ B = A \ (A ∩ B) ∪ A ∩ B ∪ B \ (A ∩ B) qui est
une réunion disjointe. D’où

µ(A ∪ B) = µ(A \ (A ∩ B)) + µ(A ∩ B) + µ(B \ (A ∩ B)) = µ(A) + µ(B) − µ(A ∩ B).

La proposition suivante donne une définition équivalente d’une mesure positive.

Proposition 2.2.4. Une application µ : X → R+ est une mesure si et seulement si
1. µ(∅) = 0 ;
2. si A, B ∈ X sont disjoints, alors µ(A ∪ B) = µ(A) + µ(B) ;
3. pour toute suite croissante (Bn )n≥0 d’éléments de X , µ(∪n≥0 Bn ) = limn→∞ µ(Bn ).
Remarque 22. Cette définition équivalente a l’avantage de faire apparaı̂tre explicitement une propriété
asymptotique des mesures (dans le point (3)). C’est cette propriété qui sera cruciale pour montrer le
théorème de convergence monotone qui fait toute la puissance de l’intégrale de Lebesgue.
Démonstration. Ce sont des conditions suffisantes. En effet, par récurrence sur le point (ii), pour toute
collection finie A1 , . . . , An d’ensembles mesurables deux à deux disjoints, on a

µ(A1 ∪ · · · ∪ An ) = µ(A1 ) + · · · + µ(An ).

Si (An )n≥1 est une collection d’ensembles mesurables deux à deux disjoints, en posant Bk = ∪1≤n≤k An ,
Pk
alors µ(Bk ) = n=1 µ(An ). De plus, (Bk )k≥1 est une suite croissante telle que ∪k≥1 Bk = ∪n≥1 An . Par
le point (3), on obtient
n
X ∞
X
µ(∪∞ ∞
n=1 An ) = µ(∪k≥1 Bk ) = lim µ(Bk ) = lim µ(Ak ) = µ(Ak ).
k→∞ n→∞
k=1 k=1

Réciproquement, supposons que µ soit une mesure. Soit (Bn )n≥0 une suite croissante d’ensembles me-
surables. Posons A0 = B0 et, pour tout n ≥ 1, An = Bn \ Bn−1 ∈ X . Alors (An )n≥0 est une suite
d’ensembles mesurables deux à deux disjoints et, pour tout n ≥ 0, Bn = ∪nk=0 Ak . Il en résulte que
∞
X n
X
µ(∪∞ ∞
n=0 Bn ) = µ(∪k=0 Ak ) = µ(Ak ) = lim µ(Ak ) = lim µ(Bn ).
n→∞ n→∞
k=0 k=0

Ceci achève la preuve de la proposition.

Proposition 2.2.5. Soit (X, X , µ) un espace mesuré.

33
P
1. Si (Bn )n≥0 est une famille d’éléments de X , alors µ(∪n≥0 Bn ) ≤ n≥0 µ(Bn ).
2. Si (Bn )n≥0 est une suite décroissante de X telle que µ(Bn0 ) < ∞ pour un certain n0 ≥ 0, alors
la suite (µ(Bn ))n≥ 0 converge en décroissant vers µ(∩n≥0 Bn ).

Remarque 23. Dans le deuxième point, l’existence d’un entier n0 tel que µ(Bn0 ) < ∞ est nécessaire. En
effet, si µ est la mesure de comptage sur N et Bn = {n, n + 1, . . .} alors µ(Bn ) = ∞ pour tout n ≥ 0 et
∩n≥0 Bn = ∅.

Démonstration. 1. On pose A0 = B0 et, pour tout n ≥ 1, An = Bn \ (∪n−1 n−1 ∁

k=0 Bk ) = Bn ∩ (∪k=0 Bk ) .
n n
Les ensembles (An )n≥0 sont deux à deux disjoints et ∪k=0 Bk = ∪k=0 Ak . D’où, puisque An ⊂ Bn
pour tout n ≥ 0.
∞
X ∞
X
µ(∪∞
n=0 B n ) = µ(∪∞
k=0 A k ) = µ(A k ) ≤ µ(Bn ).
k=0 n=0

2. Pour k ≥ n0 , on pose Ak = Bn0 \ Bk . La suite (Ak )k≥n0 est croissante et on a ∪k≥n0 Ak =

Bn0 \ (∩k≥n0 Bk ). Puisque ∩k≥n0 Bk ⊂ Bn0 et Bk ⊂ Bn0 , on a

µ(Bn0 \ (∩k≥n0 Bk )) = µ(Bn0 ) − µ(∩k≥n0 Bk ) et µ(Ak ) = µ(Bn0 ) − µ(Bk ),

d’où

µ(Bn0 ) − µ(∩k≥n0 Bk ) = µ(∪k≥n0 Ak ) = lim µ(Ak )

k→∞
= lim (µ(Bn0 ) − µ(Bk )) = µ(Bn0 ) − lim µ(Bk ),
k→∞ k→∞

et donc µ(∩k≥1 Bk ) = limk→∞ µ(Bk ).

Définition 2.2.6. Soient (X, X , µ) un espace mesuré et (An )n≥0 une famille d’éléments de X . On définit
la limite supérieure et inférieure de cette famille comme suit
\ [ [ \
lim sup An = Am et lim inf An = Am .
n≥0 m≥n n≥0 m≥n

Intuitivement, si x ∈ lim sup An , cela signifie que x est dans une infinité de An . Si x ∈ lim inf An , cela
signifie que x est dans tous les An à partir d’un certain rang n ≥ 0. Notons également que

(lim sup An )∁ = lim inf A∁n .

Proposition 2.2.7 (Borel-Cantelli). Soient (X, X , µ) un espace mesuré et (An )n≥0 une famille d’élé-
ments de X . Si, quitte à enlever un nombre fini de termes, la série des (µ(An ))n≥0 est finie, alors
µ(lim sup An ) = 0.

Démonstration. La suite (∪m≥n Am )n≥0 est décroissante, de plus il existe n0 ≥ 0 tel que
 
X [
∞> µ(An ) ≥ µ  An  .
n≥n0 n≥n0

D’où il vient que

   
\ [ [ X
µ Am  = lim µ  Am  ≤ lim µ(Am ) = 0.
n→∞ n→∞
n≥0 m≥n m≥n m≥n

34
2.2.2 Quelques exemples de mesures : mesures discrètes et mesure de Le-
besgue
Définition 2.2.8 (Masse de Dirac). Soient (X, X ) un espace mesuré et a ∈ X. Posons pour tout A ∈ X

 1 si a ∈ A

δa (A) =
 0 si a ∈

/A

L’application δa est une mesure de probabilité, appelée la mesure (ou masse) de Dirac au point a.

Exercice 16. Vérifier que la masse de Dirac en un point est bien une mesure.

Définition 2.2.9 (Mesure de Bernoulli). Soit p ∈ (0, 1). Sur (R, B(R)), la mesure de Bernoulli de
paramètre p est définie par µ = (1 − p)δ0 + pδ1 .

Remarque 24. La mesure de Bernoulli est ici définie sur X = R mais on aurait pu choisir X = {0, 1},
X = N ou encore X = [0, 1] . . .

Définition 2.2.10 (Mesures discrètes). Soit (X, X ) un espace mesurable. Soient (an )n≥0 une suite de
points de X et (αn )n≥0 une suite à valeurs dans R+ . Pour tout A ∈ X , on pose
X
µ(A) = αn δan (A).
n≥0

L’application µ : X → R+ est une mesure positive. Tout point an tel que αn > 0 est appelé atome de µ.

Lemme 2.2.11. Soit (an,m )n,m≥0 une suite double de réels positifs telle que
— pour tout n ≥ 0, an,m ≤ an,m+1 , et
— pour tout m ≥ 0, an,m ≤ an+1,m .
Alors
lim lim an,m = lim lim an,m ∈ R+ .
n→∞ m→∞ m→∞ n→∞

Démonstration. Immédiat.

Exercice 17. Soit (ak,n )k,n∈N est suite double de nombres positifs. Montrer que l’égalité suivante a lieu
dans R+
X∞ X∞ ∞ X
X ∞
ak,n = ak,n .
k=0 n=0 n=0 k=0

En déduire que toute mesure discrète est en effet une mesure.

Exemple 16. Les 4 premières mesures sont des probabilités.
1. La mesure uniforme µ sur {1, . . . , n} de paramètre n ≥ 1 est définie par
n
1X
µ= δk .
n
k=1

2. La mesure binomiale µ de paramètres p ∈ (0, 1) et n ≥ 1 est définie par

n
X n
µ= pk (1 − p)n−k δk .
k
k=0

3. La mesure géométrique µ de paramètre p ∈ (0, 1) est définie par

X
µ= p(1 − p)n−1 δn .
n≥1

35
4. La mesure de Poisson de paramètre λ > 0 est définie par
X λn
µ= e−λ .
n!
n≥0

5. La mesure de comptage associée à une suite (an )n≥0 de points de X.

X
µ= δ an .
n≥0

Théorème 2.2.12 (Mesure de Lebesgue). Il existe une unique mesure λ sur (R, B(R)) telle que
1. λ([0, 1]) = 1,
2. pour tout a ∈ R et tout B ∈ B(R), λ(a + B) = λ(B).
Elle est appelée mesure de Lebesgue sur R.
La mesure de Lebesgue est donc l’unique mesure invariante par translation qui affecte une masse 1 à
l’intervalle [0, 1]. C’est la mesure “qui correspond” à l’intégrale de Riemann.
La démonstration de ce théorème est loin d’être immédiate. C’est une conséquence du théorème de
Carathéodory donné à la fin de ce chapitre. On peut d’ores et déjà donner le résultat suivant.
Proposition 2.2.13. Pour tous a < b réels,
λ([a, b]) = λ((a, b)) = λ([a, b)) = λ((a, b]) = b − a.
Si I est un intervalle non borné, alors λ(I) = ∞.
Démonstration. Si I est un intervalle non borné, alors I = (−∞, a), I = (−∞, a], I = (a, ∞), I = [a, ∞)
ou I = R. Traitons le premier cas par exemple. On note na le plus grand entier plus petit que a. Alors,
na
[
(k − 1, k] ⊂ I,
k=∞

ainsi, par la première partie de la proposition et croissance d’une mesure, on obtient

na
! na na
[ X X
λ(I) ≥ λ (k − 1, k] = λ((k − 1, k]) = 1 = ∞.
k=−∞ k=−∞ k=−∞

Posons α = λ({0}), alors par invariance par translation de la mesure de Lebesgue et croissance des
mesures, il est facile de voir que nα = λ({1/k : 1 ≤ k ≤ n}) ≤ 1, et ce pour tout n ≥ 1 donc α = 0. De
même, pour tout x ∈ R, λ({x}) = 0. Cela permet de conclure pour les trois premières égalités.
Clairement,
1 2 3 n−1
(0, 1] = 0, ∪ , ∪ ··· ∪ ,1 .
n n n n
Par additivité et invariance par translation, on obtient que λ((0, 1/n]) = 1/n et même pour tout k1 ≤ k2

k1 k2 k2 − k1
λ , = .
n n n
De là, on
peut passer i à des bornes rationnelles en remarquant que si r = p1 /q1 et s = p2 /q2 alors
p1 q2 p2 q1
(r, s] = q1 q2 , q1 q2 . En fait, si a < b sont deux réels alors il existe (rn )n≥0 une suite décroissante de
rationnels et (sn )n≥0 une suite croissante de rationnels qui convergent respectivement vers a et b, de
sorte que [
(rn , sn ] = (a, b) et λ((a, b)) = lim λ((rn , sn ]) = b − a,
n→∞
n≥0

en utilisant la continuité à gauche d’une mesure.

Remarque 25. En remarquant (0, 1) = ∪x∈(0,1) {x}, il devient transparent qu’il est illusoire de considérer
une forme d’additivité
P plus générale que la σ-additivité car si nous pouvons bien donner un sens dans
ce cas précis à x∈(0,1) λ({x}) puisque tous les termes de cette somme sont nuls, il est bien entendu
P
que 1 = λ((0, 1)) ̸= x∈(0,1) λ({x}).

36
2.2.3 Théorème des classes monotones, caractérisation des mesures et théo-
rème de prolongement de Carathéodory
Théorème des classes monotones
Définition 2.2.14 (π-système). Une famille C de parties de X est un π-système si
1. C ̸= ∅,
2. si A, B ∈ C alors A ∩ B ∈ C.

La notion d’algèbre de Boole contient la notion de π-système. Le π-système est l’hypothèse minimale
apparaissant dans le théorème de classe monotone, mais la notion d’algèbre de Boole est plus naturelle.

Définition 2.2.15 (Algèbre de Boole). Une algèbre de Boole sur X est un ensemble de parties C vérifiant
1. X ∈ C,
2. A ∈ C alors A∁ ∈ C,
3. A, B ∈ C alors A ∪ B ∈ C.

Exercice 18. Vérifier que, sur R, l’ensemble des intervalles est un π-système. Vérifier que l’ensemble des
réunions finies d’intervalles deux à deux disjoints est une algèbre de Boole.
Remarque 26. Une tribu sur X est une algèbre sur X stable par union dénombrable :
[
(An )n≥0 ∈ C N =⇒ An ∈ C.
n≥0

Cette remarque explique la dénomination de σ-algèbre parfois employée qui est par ailleurs traduite en
σ-algebra en anglais.

Définition 2.2.16 (λ-système ou classe monotone). Une famille Λ de parties de X est appelée λ-système
si
1. X ∈ Λ,
2. si (An )n≥0 est suite croissante d’éléments de Λ alors ∪n≥0 An ∈ Λ,
3. si A, B ∈ Λ avec A ⊂ B alors B \ A ∈ Λ.

Remarque 27. Une tribu est en particulier une classe monotone.

Lemme 2.2.17. Soit Λ un λ-système stable par intersection finie. Alors Λ est une tribu.

Démonstration. Les points (1) et (3) de la définition d’un λ-système implique qu’un λ-système est stable
par passage au complémentaire. En particulier, ∅ ∈ Λ. Il reste donc à montrer que Λ est stable par union
dénombrable. Si A, B ∈ Λ alors A ∪ B = (A∁ ∩ B ∁ )∁ ainsi Λ est stable par union finie. Soit (An )n≥0 une
famille d’éléments de Λ alors
[ [ [ p
An = Ak .
n≥0 p≥0 k=0

Comme (∪pk=0 Ak )p≥0est une suite croissante de Λ, on montre la stabilité de Λ par union dénombrable,
ce qui termine la preuve du lemme.

Proposition 2.2.18. Si S est un ensemble de parties de X alors il existe un plus petit λ-système
contenant S noté Λ(S).

Démonstration. C’est la même idée que pour les tribus engendrées : il faut remarquer que l’intersection
de λ-systèmes est un λ-système.

Les λ-systèmes sont des classes beaucoup moins riches que les tribus. Le théorème suivant va permettre
de caractériser les mesures en se restreignant à ces λ-système.

Théorème 2.2.19 (des classes monotones). Si S est un π-système alors Λ(S) = σ(S).

37
Démonstration. Du fait du lemme 2.2.17, il suffit de montrer que Λ(S) est stable par intersection finie.
Soit B ∈ S fixé, posons
ΛB = {A ∈ Λ(S) : A ∩ B ∈ Λ(S)}.
On vérifie que ΛB est un λ-système :
— tout d’abord, puisque X ∩ B = B ∈ S ⊂ Λ(S), X ∈ ΛB ;
— d’autre part, si (An )n≥0 est une suite croissante d’éléments de ΛB alors An ∩ B ∈ Λ(S) pour tout
n ≥ 0. Or  
[ [
 An  ∩ B = (An ∩ B) (2.1)
n≥0 n≥0

si bien que, puisque Λ(S) est un λ-système et que (An ∩ B)n≥0 est une suite croissante d’éléments
de Λ(S), le membre de gauche est un élément de Λ(S). Ainsi, ∪n≥0 An ∈ ΛB ;
— enfin, (A1 \ A0 ) ∩ B = A1 ∩ B \ A0 ∩ B ∈ Λ(S) car A0 , A1 ∈ ΛB et Λ(S) est un λ-système.
Par ailleurs, S est un π-système, il est stable par intersection finie si bien que pour tout A ∈ S, A ∩ B ∈
S ⊂ Λ(S). Nous avons donc montré que ΛB est un λ-système qui contient S, par conséquent il contient
Λ(S). En particulier, on a montré que

∀B ∈ S, ∀A ∈ Λ(S), A ∩ B ∈ Λ(S). (2.2)

Soit maintenant C ∈ Λ(S) et posons

ΛC = {A ∈ Λ(S) : A ∩ C ∈ Λ(S)}

En procédant de la même façon que pour ΛB , nous pouvons montrer que ΛC est un λ-système. De plus
il contient S puisque si A ∈ S alors A ∩ C ∈ Λ(S) par (2.2). Le λ-système ΛC contient donc Λ(S). Mais
par définition, ΛC ⊂ Λ(S) donc pour tout C ∈ Λ(S), ΛC = Λ(S). Ceci implique en particulier que Λ(S)
est stable par intersection finie, c’est donc une tribu et σ(S) ⊂ Λ(S). Comme une tribu est un λ-système,
l’inclusion précédente est en fait une égalité.

Théorème 2.2.20 (Caractérisation des mesures). Soit S un π-système.

1. Soient µ et ν deux mesures finies sur σ(S) telles que
— µ(X) = ν(X),
— pour tout A ∈ S, µ(A) = ν(A).
Alors µ = ν.
2. Soient µ et ν deux mesures sur σ(S) telles que
— pour tout A ∈ S, µ(A) = ν(A),
— il existe une suite exhaustive croissante (Bn )n≥0 d’éléments de S telle que µ(Bn ) = ν(Bn ) < ∞
pour tout n ∈ N.
Alors µ = ν.

Remarque 28. Ainsi, si l’on veut vérifier que deux mesures de probabilités coı̈ncident sur (X, X ) il
suffit de vérifier qu’elles coı̈ncident sur un π-système (ou une algèbre de Boole) engendrant la tribu X .
Typiquement, pour les mesures boréliennes sur R, il suffira de le vérifier pour les intervalles (−∞, a] pour
tout a ∈ R.

Démonstration. On commence par le cas où µ et ν des mesures finies. On pose

Λ = {A ∈ σ(S) : µ(A) = ν(A)}.

Montrons que Λ est un λ-système. Par hypothèse, X ∈ Λ. De plus Λ est stable par union finie. Soit
(An )n≥0 une suite croissante d’éléments de Λ. Par stabilité par union finie et continuité de la mesure
  ! !  
[ n
[ n
[ [
µ An  = lim µ An = lim ν An =ν An  ,
n→∞ n→∞
n≥0 k=0 k=0 n≥0

38
si bien que ∪n≥0 An ∈ Λ. Soient A, B ∈ Λ avec A ⊂ B. Puisque µ(X) et ν(X) sont finis et que B ∈ Λ, on
a µ(B), ν(B) < ∞. De plus,

µ(B \ A) = µ(B) − µ(A) = ν(B) − ν(A) = ν(B \ A),

et donc B \ A ∈ Λ.
Ainsi Λ est un λ-système qui contient le π-système S donc Λ(S) ⊂ Λ. Par définition, Λ ⊂ σ(S) et
d’après le théorème des classes monotones, Λ(S) = σ(S). Finalement, on a montré

Λ ⊂ σ(S) = Λ(S) ⊂ Λ.

Supposons désormais que µ et ν soient seulement σ-finies et soit (Bn )n≥0 une suite exhaustive satis-
faisant aux hypothèses du théorème. Pour n ≥ 0, on définit les mesures µn et νn sur σ(S) par

∀A ∈ σ(S), µn (A) = µ(A ∩ Bn ), et νn (A) = ν(A ∩ Bn ).

Les mesures µn et νn sont finies et coı̈ncident sur S (qui rappelons le est stable par intersections finies)
donc sur σ(S) par le premier point. Enfin, pour tout A ∈ σ(S), puisque (A ∩ Bn )n≥0 est une suite
croissante d’éléments de σ(S),

µ(A) = lim µn (A) = lim µ(A ∩ Bn ) = lim ν(A ∩ Bn ) = lim νn (A) = ν(A).
n→∞ n→∞ n→∞ n→∞

Ceci achève la preuve.

Théorème d’extension de Carathéodory

Définition 2.2.21 (Mesure sur une algèbre de Boole). Soit C une algèbre de Boole sur X. Une mesure
sur C est une application
µ : C → R+ ∪ {∞}
satisfaisant
1. µ(∅) = 0,
2. µ est finiment additive : si A, B ∈ C et A ∩ B = ∅ alors µ(A ∪ B) = µ(A) + µ(B),
3. si (An )n≥0 est une suite décroissante d’élément de C telle que
\
µ(A0 ) < ∞ et An = ∅ =⇒ µ(An ) ↓ 0 quand n → ∞.
n≥0

Définition 2.2.22. Soit C une algèbre de Boole sur X et µ une mesure sur C. On dit que
1. µ est finie si µ(X) < ∞ ;
2. µ est σ-finie s’il existe une suite exhaustive (Bn )n≥0 d’éléments de C avec µ(Bn ) < ∞ pour tout
n ≥ 0 et telle que pour tout A ∈ C, µ(A) = limn→∞ µ(Bn ∩ A).
Proposition 2.2.23. Soit µ une mesure finie sur une algèbre de Boole C. Alors
1. µ est σ-additive : si (An )n≥0 est une suite d’éléments de C deux à deux disjoints et ∪n≥0 An ∈ C,
alors  
[ X
µ An  = µ(An ).
n≥0 n≥0

2. µ est continue à gauche : si (An )n≥0 est une suite croissante d’éléments de C et ∪n≥0 An ∈ C,
alors  
[
µ(An ) ↑ µ  An  quand n → ∞.
n≥0

3. µ est σ-sous-additive : si (An )n≥0 est une suite d’éléments de C et ∪n≥0 An ∈ C alors
 
[ X
µ An  ≤ µ(An ).
n≥0 n≥0

39
Démonstration. 1. Soit (An )n≥0 une suite d’éléments de C deux à deux disjoints tels que ∪n≥0 An ∈ C.
On pose  
n−1
!
[ [
Bn =  An  \ Ak .
n≥0 k=0

Comme C est une algèbre de Boole, il est stable par union finie et par passage au complémentaire
si bien que Bn ∈ C pour tout n ≥ 0. Les ensembles A0 , A1 , . . . , An−1 et Bn sont par ailleurs deux à
deux disjoints. Puisque µ est finiment additive (le point (2) définissant une mesure sur une algèbre
de Boole), on obtient
 
[
µ An  = µ(A0 ) + µ(A1 ) + · · · + µ(An−1 ) + µ(Bn ). (2.3)
n≥0

D’autre part, la suite (Bn )n≥0 est décroissante, ∩n≥0 Bn = ∅ et comme µ est finie µ(B0 ) < ∞. Par
conséquent, par le point (3) définissant une mesure sur une algèbre de Boole : limn→∞ µ(Bn ) = 0.
En faisant tendre n vers l’infini dans (2.3), on obtient
 
[ X
µ An  = µ(An ).
n≥0 n→∞

2. Soit (An )n≥0 une suite croissante d’éléments de C. Posons B0 = A0 et pour tout n ≥ 1, Bn =
An \ An−1 . Alors les Bn sont des éléments de C deux à deux disjoints et tels que pour tout n ≥ 0,
An = ∪nk=0 Bk . D’autre part ∪n≥0 Bn = ∪n≥0 An ∈ C par hypothèse. Le point précédent montre
   
[ [ X X n
µ An  = µ  Bn  = µ(Bn ) = lim ↑ µ(Bk )
n→∞
n≥0 n≥0 n≥0 k=0
n
!
[
= lim ↑ µ Bk = lim ↑ µ(An ).
n→∞ n→∞
k=0

3. On pose B0 = A0 et pour tout n ≥ 1,

n−1
[
B n = An \ Ak .
k=0

Les ensembles Bn sont des éléments de C deux à deux disjoints et Bn = ∪nk=0 Ak . De plus,
∪n≥0 Bn = ∪n≥0 An . D’où, puisque Bn ⊂ An si bien que µ(An ) = µ(Bn ) + µ(An \ Bn ),
   
[ [ X X
µ An  = µ  Bn  = µ(Bn ) ≤ µ(An ).
n≥0 n≥0 n≥0 n≥0

Remarque 29. Les points 2 et 3 de la proposition 2.2.23 se montrent en fait de la même façon que pour
les mesures sur une tribu. Cependant, une algèbre de Boole n’est pas stable par réunion dénombrable
contrairement à une tribu. Il faut ainsi s’assurer que tous les ensembles que l’on mesure soient bien dans
l’algèbre de Boole considérée, en dehors la mesure µ n’est a priori pas définie.
Théorème 2.2.24 (de prolongement de Carathéodory). Soit C une algèbre de Boole 1 et µ une mesure
1. L’hypothèse selon laquelle C est une algèbre de Boole est un peu forte. Le théorème reste vrai si C est un anneau
d’ensemble que l’on définit ci-dessous. Une algèbre de Boole est en particulier un anneau, la réciproque est fausse (considérer
R = {∅} par exemple). Étant donné que la plupart des familles d’ensembles génératrices que nous considérerons seront des
algèbres, il apparaissait naturel d’énoncer le théorème sous cette forme.
Définition 2.2.25 (Anneaux). Une famille R de parties de X est anneau d’ensemble si
1. R n’est pas vide ;
2. R est stable par différence ensembliste ;
3. R est stable par union finie.

40
σ-finie sur C. Alors, il existe une unique mesure µ
e sur σ(C) qui coı̈ncide avec µ sur C.
L’unicité dans le théorème de Carathéodory est une conséquence du théorème de caractérisation des
mesures de 2.2.20. Il s’agit donc de montrer l’existence du prolongement. L’idée est d’étendre µ à une
application, définie sur l’ensemble des parties P(X) de X, appelée mesure extérieure et qui sera notée µ∗ .
En général, µ∗ n’est pas une mesure parce que l’ensemble des parties P(X) est trop riche. La solution
consiste à enlever les parties de X pathologiques en construisant une tribu convenable, contenant l’algèbre
de Boole C, de sorte que, restreinte à cette tribu, la fonction d’ensembles µ∗ soit une mesure.
Définition 2.2.26 (Mesure extérieure). Une mesure extérieure sur X est une application µ∗ : P(X) →
X+ vérifiant
1. µ∗ (∅) = 0 ;
2. µ∗ est croissante : si A ⊂ B alors µ∗ (A) ≤ µ∗ (B) ;
3. µ∗ est σ-sous-additive : si (An )n≥0 est une famille de parties de X alors
 
[ X
µ∗  An  ≤ µ∗ (An ).
n≥0 n≥0

Nous aurons besoins des résultats suivants qui seront montrés en fin de section.
Lemme 2.2.27. Soit B ∈ P(X) et posons
 
X 
µ∗ (B) = inf µ(Bn ) : (Bn )n≥0 ∈ C N , B ⊂ ∪n≥0 Bn .
 
n≥0

Alors µ∗ est une mesure extérieure et µ∗ coı̈ncide avec µ sur C.

Proposition 2.2.28. Soit

U = {A ∈ P(X) : ∀B ∈ P(X), µ∗ (B) ≥ µ∗ (B ∩ A) + µ∗ (B ∩ A∁ )}.

Alors,
U = {A ∈ P(X) : ∀B ∈ P(X), µ∗ (B) = µ∗ (B ∩ A) + µ∗ (B ∩ A∁ )},
autrement dit, l’inégalité opposée est toujours vérifiée. De plus, U est une tribu et, restreint à cette tribu,
µ∗ est une mesure sur U.
Remarque 30. La tribu U est en quelque sorte la plus grande tribu sur laquelle la mesure extérieure µ∗
est une mesure.
Proposition 2.2.29. La tribu U contient l’algèbre de Boole C ainsi que σ(C).
Preuve du théorème de Carathéodory 2.2.24. L’unicité dans le théorème de Carathéodory est une consé-
quence directe du théorème 2.2.20 caractérisant les mesures puisque une algèbre de Boole est en particulier
un π-système.
Lorsque µ est finie, l’existence est une conséquence du lemme 2.2.27 ainsi que des propositions 2.2.28
et 2.2.29 : µe est simplement la restriction de la mesure extérieure µ∗ à σ(C) ⊂ U.
Supposons désormais que µ est σ-finie. Dans ce cas, il existe (En )n≥0 une suite croissante d’éléments
de C avec µ(En ) < ∞, X = ∪n≥0 En et pour tout A ∈ C, µ(A) = limn→∞ µ(En ∩ A). Pour tout n ≥ 0,
on définit la mesure µn pour tout A ∈ C par µn (A) = µ(A ∩ En ). Ainsi chaque mesure µn est finie sur
l’algèbre de Boole C donc se prolonge en une unique mesure µ en sur σ(C).
Comme µ en et µen+1 (· ∩ En ) coı̈ncident sur C, elles coı̈ncident sur σ(C) par le théorème 2.2.20 de
caractérisation des mesures finies. De plus, pour tout A ∈ σ(C) et tout n ≥ 0,

µ en+1 (A ∩ En ) ≤ µ
en (A) = µ en+1 (A).

On pose alors pour tout A ∈ σ(C)

µ
e(A) = lim µ
en (A) = sup µ
en (A).
n→∞ n≥0

41
e restreinte à C coı̈ncide avec µ. Montrons que µ
De fait, µ e est une mesure. Clairement µ
e(∅) = 0 puisque
∅ ∈ C, donc µe(∅) = µ(∅) = 0. Soit (An )n≥0 une famille d’éléments de σ(C) deux à deux disjoints. Alors,
puisque µ
en est une mesure
 
p p
!
[ [ X
µ
en  Ak ≥ µ
 en Ak = µ
en (Ak ).
k≥0 k=0 k=0

En faisant tendre n, puis p, vers l’infini, on obtient

 
[ X
µ
e An  ≥ µ
e(An ).
n≥0 n≥0

En outre,  
[ X X
µ
en  Ap  = en (Ap ) ≤
µ µ
e(Ap ).
p≥0 p≥0 p≥0

En faisant tendre n vers l’infini, on obtient l’inégalité inverse ce qui achève la preuve du théorème.

Preuve du lemme 2.2.27. On commence par montrer que, restreint à C, µ∗ coı̈ncide avec µ. Pour cela,
on se donne A ∈ C que l’on peut écrire
P comme une réunion A = ∪n≥0 Bn avec B0 = A et Bn = ∅ pour
tout n ≥ 1. Donc µ∗ (A) ≤ µ(A) = n≥0 µ(Bn ) en utilisant la σ-additivité de la mesure µ.
Soit ε > 0, alors on peut trouver une suite (Bn )n≥0 d’éléments de C tel que A ⊂ ∪n≥0 Bn et
X
µ(Bn ) ≤ µ∗ (A) + ε.
n≥0

Aussi, on peut réécrire A comme suit

 
[ [
A= Bn  ∩ A = Bn ∩ A.
n≥0 n≥0

Ainsi, la réunion à droite est un élément de C. De plus, pour chaque n ≥ 0, Bn est dans C qui est stable
par intersection finie. En utilisant la σ-sous-additivité de µ ainsi que sa croissance (points (i) et (ii) de
la proposition 2.2.23), on obtient
X X
µ(A) ≤ µ(Bn ∩ A) ≤ µ(Bn ) ≤ µ∗ (A) + ε.
n≥0 n≥0

On a donc montré que si A ∈ C, alors µ(A) = µ∗ (A).

Montrons désormais que µ∗ est une mesure extérieure. Tout d’abord, puisque ∅ ∈ C, nous avons
µ∗ (∅) = µ(∅) = 0. La croissance de µ∗ provient de la croissance de µ. Il reste donc à montrer que µ∗ est
σ-sous-additive. Soit (Ak )k≥0 un ensemble de parties de X et ε > 0. Pour chaque k ≥ 0, il existe une
suite (Bnk )n≥0 d’éléments de C tels que
[ X
Ak ⊂ Bnk et µ(Bnk ) ≤ 2−k ε + µ∗ (Ak ).
n≥0 n≥0

Il est clair que ∪k≥0 Ak ⊂ ∪k≥0 ∪n≥0 Bnk qui est une réunion dénombrable, donc par définition de µ∗
 
[ XX X X X
µ∗  Ak  ≤ µ(Bnk ) ≤ ε2−k + µ∗ (Ak ) = 2ε + µ∗ (Ak ),
k≥0 k≥0 n≥0 k≥0 k≥0 k≥0

et ce pour tout ε > 0, d’où la σ-sous-additivité de µ∗ . Ceci achève la preuve du lemme.

42
Preuve de la proposition 2.2.28. Soient A, B ⊂ X, alors B = (B ∩ A) ∪ (B ∩ A∁ ), par σ-sous-additivité
de la mesure extérieure µ∗ , µ∗ (B) ≤ µ∗ (B ∩ A) + µ∗ (B ∩ A∁ ), d’où l’égalité d’ensembles annoncée.
Montrons que U est une tribu. Clairement, ∅ ∈ U et si A ∈ U alors A∁ ∈ U. Reste à montrer la
stabilité par union dénombrable. On commence par la stabilité par réunion finie. Soient A0 , A1 ∈ U,
alors
µ∗ (B) = µ∗ (B ∩ A0 ) + µ∗ (B ∩ A∁0 )
= µ∗ (B ∩ A0 ∩ A1 ) + µ∗ (B ∩ A0 ∩ A∁1 ) + µ∗ (B ∩ A∁0 ∩ A1 ) + µ∗ (B ∩ A∁0 ∩ A∁1 ).

On remarque que A∁0 ∩ A∁1 = (A0 ∪ A1 )∁ et A0 ∪ A1 = (A0 ∩ A1 ) ∪ (A0 ∩ A∁1 ) ∪ (A∁0 ∩ A1 ). En utilisant la
σ-sous-additivité de µ∗ appliqué à B ∩ (A0 ∪ A1 ) = (B ∩ A0 ) ∪ (B ∩ A1 ), il vient que

µ∗ (B) ≥ µ∗ (B ∩ (A0 ∪ A1 )) + µ∗ (B ∩ (A0 ∪ A1 )∁ ).

Ainsi A0 ∪ A1 ∈ U. Nous avons donc montré que U est stable par passage au complémentaire et unions
finies. Pour montrer la stabilité par union dénombrable, nous aurons besoin du lemme suivant.
Lemme 2.2.30. Si C0 , . . . , Cn sont des éléments de U deux à deux disjoints alors pour tout B ⊂ X
n
X
µ∗ (B) ≥ µ∗ (B ∩ Ck ).
k=0

Démonstration. Soient C0 , C1 ∈ U tels que C0 ∩ C1 = ∅ si bien que B ∩ C1 ⊂ B ∩ C0∁ et

µ∗ (B) = µ∗ (B ∩ C0 ) + µ∗ (B ∩ C0∁ ) ≥ µ∗ (B ∩ C0 ) + µ∗ (B ∩ C1 ),
en utilisant la croissance de µ∗ . Par récurrence, on obtient l’inégalité du lemme pour des familles finies.
Soit (An )n≥0 une famille d’éléments de U. On pose A′0 = A0 et, pour tout n ≥ 1, A′n = An \ ∪n−1
k=0 Ak .
Comme U est stable par passage au complémentaire et par réunion finie, A′n ∈ U pour tout n ≥ 0. De
plus, les ensembles de la famille (A′n )n≥0 sont deux à deux disjoints et ∪n≥0 An = ∪n≥0 A′n .
Considérons B ⊂ X, puisque pour tout n ≥ 0, ∪nk=0 A′n ∈ U, il vient que
!  !∁ 
[n [n
µ∗ (B) = µ∗ B ∩ A′k + µ∗ B ∩ A′k  .
k=0 k=0

Pour le premier terme, on applique la sous-additivité finie de la mesure extérieure µ∗ que l’on a montré
plus haut, alors que pour le second terme on utilise la propriété de croissance. D’où
  ∁ 
Xn [
µ∗ (B) ≥ µ∗ (B ∩ A′k ) + µ∗ B ∩  A′p   .
 
k=0 p≥0

En faisant tendre n vers l’infini, on obtient

 ∁ 

X [
µ∗ (B) ≥ µ∗ (B ∩ A′p ) + µ∗ B ∩  A′p  
 
p≥0 p≥0

     ∁  (2.4)
[ [
≥ µ∗ B ∩  A′p  + µ∗ B ∩  A′p   ,
 
p≥0 p≥0

en utilisant la σ-sous-additivité de µ∗ . Ainsi, ∪k≥0 Ak = ∪k≥0 A′k ∈ U.

Il reste à montrer que µ∗ est σ-additive sur U. Si la suite (An )n≥0 considérée au-dessus est constituée
d’éléments deux à deux disjoints alors en fait An = A′n pour tout n ≥ 0. En posant B = ∪n≥0 A′n dans
(2.4), on trouve  
[ X
µ∗  A′n  ≥ µ∗ (A′n ).
n≥0 n≥0

43
Comme l’inégalité inverse est toujours vérifiée (c’est la σ-sous-additivité), on en déduit que µ∗ est une
mesure sur U.
Preuve de la proposition 2.2.29. Soient A ∈ C, B ∈ P(X). Alors pour tout ε > 0 il existe (Bn )n≥0 une
famille d’éléments de C telle que X
µ∗ (Bn ) ≤ µ∗ (B) + ε.
n≥0

Puisque pour tout n ≥ 0, Bn ∈ C et A ∈ C, Bn ∩ A ∈ C, et que, de plus, µ∗ coı̈ncident sur C avec µ qui

est finiment additive, on a
X X
µ∗ (B) + ε ≥ µ∗ (Bn ) ≥ µ∗ (Bn ∩ A) + µ∗ (Bn ∩ A∁ ) ≥ µ∗ (B ∩ A) + µ∗ (B ∩ A∁ ),
n≥0 n≥0

par σ-sous-additivité. Lorsque ε → 0, on obtient que A ∈ U. Ceci montre que U contient C et σ(C).

Construction effective de la mesure de Lebesgue et mesures de Stieltjes

Afin de rendre l’exposé de la construction de la mesure de Lebesgue plus lisible, nous introduisons la
notion plus faible de semi-algèbre.
Définition 2.2.31 (Semi-algèbre). Une famille S de parties de X est une semi-algèbre si
1. ∅ ∈ S,
2. pour tout A, B ∈ S, A ∩ B ∈ S,
Sn
3. pour tout A ∈ S, il existe n ≥ 1 et A1 , . . . , An ∈ S deux à deux disjoints tels que A∁ = i=1 Ai .
Exemple 17. L’ensemble des intervalles de R constitue une semi-algèbre.
Proposition 2.2.32. Soit S une semi-algèbre.

Sn
1. L’ensemble i=1 Ai , Ai ∈ S, deux à deux disjoints, n ≥ 1 , notée C(S), est la plus petite

algèbre de Boole contenant S.

2. Soit µ : S → R+ une application vérifiant µ(∅) = 0 et finiment additive au sens suivant
∀A, B ∈ S : A ∪ B ∈ S et A ∩ B = ∅ =⇒ µ(A ∪ B) = µ(A) + µ(B).
Alors µ admet un unique prolongement µ à C(S) vérifiant la propriété d’additivité finie au sens
d’une mesure sur une algèbre de Boole — c.f. le deuxième point de la définition 2.2.21.
Démonstration. 1. Par stabilité par réunion finie, toute algèbre de Boole contenant S contient C(S).
Reste à montrer que C(S) est une algèbre de Boole.
— ∅ ∈ S ⊂ C(S) ;
— C(S) est stable par intersection finie car, d’une part,
n
! m 
[ [ [
Ai ∩  Bj  = Ai ∩ B j ,
i=1 j=1 i,j

et d’autre part, les Ai ∩ Bj sont deux à deux disjoints dès que les Ai , 1 ≤ i ≤ n, respectivement
les Bj , 1 ≤ j ≤ m, sont deux à deux disjoints ; la stabilité par union finie de (S) se déduit par
passage au complémentaire que l’on montre ci-dessous ;
Sn Sm(i) (i)
— si A = i=1 Ai avec Ai ∈ S alors par hypothèse, pour chaque i ∈ {1, . . . , n}, A∁i = k=1 Bk
(i) (i)
où les Bk sont des parties de S deux à deux disjointes. Quitte à ajouter des Bk = ∅, on peut
remplacer les m(i) par m = max{m(i) : 1 ≤ i ≤ n}. D’où
n n m
! n
!
(i) (i)
\ \ [ [ \
∁ ∁
A = Ai = Bk = Bki .
i=1 i=1 k=1 1≤k1 ,...,kn ≤m i=1
| {z }
∈S
Tn (i)
Ainsi, A∁ ∈ C(S) car les ensembles i=1 Bki , 1 ≤ k1 , . . . , kn ≤ n, sont deux à deux disjoints.

44
Sn
2. Pour tout A = i=1 Ai ∈ C(S) on pose
n
X
µ(A) = µ(Ai ).
i=1

Rappelant
Sm que les Ai ∈ S sont deux à deux disjoints, cette définition est consistant : si A =
′
j=1 jA est une
S autre représentation de A alors les Ai ∩ A′j étant deux à deux disjoints, on peut
′
réécrire A = i,j Ai ∩ Aj et donc par additivité de µ sur S
n
X X m
X
µ(Ai ) = µ(Ai ∩ A′j ) = µ(A′j ).
i=1 i,j j=1

Finalement, µ étant complètement déterminée par les valeurs de µ sur S, µ est unique alors que
sa propriété d’additivité finie est évidente par définition.

Puisque µ est finiment additive, on a facilement pour tout A, B ∈ C(S) tels que A ⊂ B que µ(B) =
µ(B ∩ A) + µ(B ∩ A∁ ) ≥ µ(A), i.e. µ est croissante. De même, µ satisfait une formule du crible : pour
tout A, B ∈ C(S), µ(A ∪ B) + µ(A ∩ B) = µ(A) + µ(B). Enfin, µ est finiment sous-additive :

∀A1 , . . . , An ∈ C(S), µ(A1 ∪ · · · ∪ An ) ≤ µ(A1 ) + · · · + µ(An ).

Théorème 2.2.33 (Stieltjes). Soit F : R → R une fonction croissante continue à droite. Il existe une
unique mesure µF sur (R, B(R)) appelée mesure de Stieltjes associée à F vérifiant

∀a, b ∈ R, µF ((a, b]) = F (b) − F (a).

La mesure de Lebesgue n’est rien d’autre que la mesure de Stieltjes associée à la fonction continue
croissante x → x. C’est alors un exercice de montrer le théorème 2.2.12.
Démonstration. Étape 1 :
On pose S = {(a, b], (a, ∞), −∞ ≤ a ≤ b < ∞}. On vérifie facilement que S est une semi-algèbre. On
définit sur S l’application ℓ = ℓF par

ℓ((a, b]) = F (b) − F (a), et ℓ((a, ∞)) = F (+∞) − F (a),

où F (+∞) = limt→∞ F (t) qui existe dans R ∪ {+∞} par croissance de F . On vérifie facilement que ℓ
est finiment additive sur S :

ℓ((a, b] ∪ (b, c]) = ℓ((a, c]) = F (c) − F (a) = [F (c) − F (b)] + [F (b) − F (a)] = ℓ((a, b]) + ℓ((b, c]),

et de même pour (a, b] et (b, ∞) — notons que la contrainte selon laquelle la réunion doit être dans la
semi-algèbre réduit drastiquement les cas à vérifier. D’après la proposition 2.2.32, ℓ admet un unique
prolongement ℓ sur l’algèbre
C(S) = {I1 ∪ · · · ∪ In , Ik ∈ S, n ≥ 1}
qui soit finiment additive sur l’algèbre de Boole. Autrement dit, afin d’appliquer le théorème 2.2.24 d’ex-
tension de Carathéodory, il est nécessaire de montrer que ℓ satisfait le troisième axiome d’une mesure
sur une algèbre de Boole — c.f. la définition 2.2.21 — et qu’elle est σ-finie. Il suffira alors de remarquer
que B(R) = σ({(a, ∞), a ∈ R}) si bien que B(R) ⊂ σ(S) et donc que B(R) = σ(C(S)) pour conclure la
preuve du théorème.

Étape 2 : on suppose que F (±∞) = ±∞.

— Comme F (±∞) = ±∞, il vient que, pour tout A ∈ S, A est borné dans R si et seulement si
T < ∞. Soit donc (An )n≥0 une suite décroissante d’éléments de C(S) satisfaisant ℓ(A0 ) < ∞
ℓ(A)
et n≥0 An = ∅. Alors A0 est borné comme réunion finie d’intervalles bornés. Pour tout n ≥ 0,
on écrit
(n) (n) (n) (n)
An = I1 ∪ · · · ∪ Ip(n)
n
, où Ik = (αk , βk ] (2.5)

45
sont deux à deux disjoints.
Si pour un certain n, An = ∅, le résultat est évident puisque ℓ(∅) = 0. Sinon, tous les pn sont
non nuls, c’est à dire les réunions dans (2.5) contiennent au moins un éléments. Soit ε > 0, on
(n) (n) (n) (n) (n)
construit pour tout n et tout k un intervalle Jk = (α̃k , βk ] de façon que, d’un côté Jk ⊂ Ik
et de l’autre
(n) (n) ε
F (α̃k ) − F (αk ) ≤ .
pn 2n
Ceci est toujours possible par continuité à droite de F . Chaque intervalle, éventuellement vide,
(n) Spn (n)
Jk est compact. On pose alors pour tout n ≥ 0, A′n = k=0 Jk et il vient immédiatement que
A′n ∈ C(S), A′n ⊂ An et
pn
X ε ε
ℓ(An \ A′n ) ≤ n
= n.
pn 2 2
k=0

′ Spn (n) T ′
Par construction, les An = k=0
T Jk sont compacts donc fermés dans le compact A0 et An ⊂
A = ∅. Par la proposition 1.2.62 du chapitre 1, on peut donc exhiber un entier nε ≥ 0 tel que
T nε n ′ T nε ′
k=0 Ak ⊂ k=0 Ak = ∅. Finalement,
" n ! nε
!# nε
\ ε \ X
′
ℓ(Anε ) = ℓ Ak \ Ak ≤ ℓ(Ak \ A′k ) ≤ ε.
k=0 k=0 k=0

Ainsi, pour tout n ≥ nε , ℓ(Anε ) ≤ ε. Ceci termine la preuve de la convergence voulue.

— On montre maintenant que ℓ est σ-finie. On pose pour cela En = (−n, n]. La suite (En )n≥0 est
croissante et exhaustive. Soit A ∈ C(S). De deux chose l’une, soit A est borné et pour tout n
assez grand A ⊂ En si bien que limn→∞ ℓ(A ∩ En ) = ℓ(A) ; ou bien A est non borné et donc l’un
des intervalles constituant A n’est pas borné, il suffit donc de vérifier la σ-finitude de ℓ pour ces
intervalles non bornés. Or, pour tout n assez grand ℓ((a, ∞) ∩ En ) = ℓ((a, n]) = F (n) − F (a) qui
tend vers F (∞), c’est à dire ℓ((a, ∞)).
Étape 3 :
Supposons que F (∞) ∈ R et F (−∞) = −∞. Soit ε > 0, alors il existe un réel Lε tel F (∞) − F (Lε ) ≤ ε.
Alors, An ∩ (−∞, Lε ] est suite décroissante (en n) d’éléments de C(S) bornés, d’intersection vide. D’autre
part,
ℓ(An ) = ℓ(An ∩ (−∞, Lε ]) + ℓ(An ∩ (Lε , ∞]).
D’après l’étape précédente,
lim sup ℓ(An ) ≤ ℓ((Lε , ∞]) ≤ ε.
n→∞

Ceci achève la preuve de la convergence voulue. La σ-finitude se montre de façon analogue. Les cas
F (−∞) ∈ R et F (∞) = ∞ ainsi que F (±∞) ∈ R se montrent également de manière similaire

2.2.4 Régularité des mesures, mesures de Borel et espaces polonais

Cette section fait une usage intensive de notions topologiques. On se reporte au chapitre 1 pour une
introduction à toutes ces notions.

Définition 2.2.34 (Régularité d’une mesure). Soient (X, d) un espace métrique et µ une mesure sur
B(X). Alors µ est dite
1. extérieurement régulière si

∀A ∈ B(X), µ(A) = inf{µ(O), O ouvert, A ⊂ O};

2. intérieurement régulière si

∀A ∈ B(X), µ(A) = sup{µ(K), K compact, K ⊂ A};

3. régulière si elle est à la fois extérieurement et intérieurement régulière.

46
La proposition suivante, si elle ne conclut pas exactement à la régularité des mesures finie, donne un
résultat proche.
Proposition 2.2.35. Soit µ une mesure finie sur la tribu de Borel B(X) d’un espace métrique (X, d).
Alors, pour tout A ∈ B(X) et tout ε > 0, il existe un ouvert O et un fermé F tels que
F ⊂A⊂O et µ(O \ F ) < ε.
Démonstration. On va montrer que
T = {A ∈ B(X) : ∀ε > 0, ∃ O ouvert et F fermé t.q. F ⊂ A ⊂ O et µ(O \ F ) < ε}
est une tribu qui contient les ouverts et par conséquent la tribu borélienne. n o
Soit A un ouvert de X et ε > 0. On pose O = A et pour tout δ > 0, Fδ = x ∈ X : d(x, A∁ ) ≥ δ .
Puisque la fonction x → d(x, A∁ ) est continue, l’ensemble Fδ est fermé. On considère alors la réunion
croissante [ n o
F1/p = x ∈ X : d(x, A∁ ) > 0 .
p≥1

Comme A est ouvert, la réunion contient A (c’est même la définition), mais comme Fδ est trivialement
contenu dans A, la réunion est exactement égale à A.
Par continuité des mesures positives,
 
[
µ(O) = µ(A) = µ  F1/p  = lim µ(F1/p ).
p→∞
p≥1

Comme µ est finie, limp→∞ µ(O \ F1/p ) = 0 donc pour p assez grand, nous avons µ(O \ F1/p ) < ε. Et de
plus F1/p ⊂ A ⊂ O. On a donc montré que T contient les ouverts de X.
Vérifions que T est une tribu. Il est évident que ∅, qui est à la fois ouvert et fermé, est un élément
de T . De plus, si A ∈ T , alors pour tout ε > 0, on peut trouver F fermé, O ouvert tel que F ⊂ A ⊂ O
et µ(O \ F ) < ε. Mais alors O∁ est fermé, F ∁ est ouvert, O∁ ⊂ A∁ ⊂ F ∁ et, comme O \ F = F ∁ \ O∁ , on
obtient µ(F ∁ \ O∁ ) < ε.
∗
Il reste donc à vérifier la stabilité par union dénombrable. Soient (An )n≥1 ∈ T N et ε > 0. Alors pour
tout n ≥ 1, on peut trouver un fermé Fn ⊂ An et un ouvert On ⊃ An tels que µ(On \ Fn ) < ε2−n−1 . Or,
[ [ [
Fn ⊂ An ⊂ On ,
n≥1 n≥1 n≥1

et comme
       ∁  
[ [ [ [ [ \ [
∁
 On  \  Fn  =  On  ∩  Fm  =  O n ∩ Fm ⊂ (On \ Fn ),
n≥1 n≥1 n≥1 m≥1 n≥1 m≥1 n≥1

il vient par σ-sous-additivité de µ

  !
[ [ X
µ  On  \ Fn  ≤ µ(On \ Fn ) = ε/2.
n≥1 n n≥1

D’autre part, comme ∪n≥1 Fn = ∪n≥1 ∪nk=1 Fk , il existe nε tel que, par continuité de la mesure µ,
  !
[ nε
[
µ Fn  ≤ µ Fk + ε/2.
n≥1 k=1
S S nε
Posons alors, O = n≥1 On et F = k=1 Fk . Alors, O ⊂ A est ouvert et F ⊂ A est fermé. De plus,
comme µ est finie
     
[ [ [
µ(O \ F ) = µ(O) − µ(F ) = µ  On  − µ  Fn  + µ  Fn  − µ(F ) ≤ ε/2 + ε/2 = ε.
n≥1 n≥1 n≥1

47
Théorème 2.2.36. Soit µ une mesure σ-finie sur la tribu de Borel B(X) d’un espace métrique (X, d).
Alors,
∀A ∈ B(X), µ(A) = sup{µ(F ), F fermé, F ⊂ A}.
S
Si, de plus, X = n≥1 Int En pour une famille croissante de boréliens (En )n≥1 telle que µ(En ) < ∞
pour tout n ≥ 1, alors la mesure est extérieurement régulière. Enfin, si l’on peut choisir les boréliens
(En )n≥1 compacts, la mesure µ est intérieurement régulière.
Exemple 18. La mesure de Lebesgue est régulière.
Démonstration. On montre les trois points dans l’ordre.
1. Supposons d’abord S µ(A) < ∞. Soit ε > 0. Nous pouvons réécrire sous la forme d’une réunion
croissante A = n≥1 A ∩ En . Par continuité de µ, on peut trouver nε ≥ 1 tel que µ(A) =
µ(A ∩ En ) + ε/2 (c’est à dire µ(A ∩ En∁ ) ≤ ε/2). On pose µ
e(·) = µ(· ∩ En ). On se retrouve dans le
cas d’une mesure µ e finie, on peut appliquer la proposition précédente : il existe un fermé F ⊂ A
e(A \ F ) < ε/2. Ainsi,
tel que µ

µ(A \ F ) = µ((A \ F ) ∩ Enε ) + µ((A \ F ) ∩ En∁ε ) ≤ µ

e(A \ F ) + µ(A ∩ En∁ε ) ≤ ε.

On considère le cas µ(A) = ∞. Toujours par continuité à gauche de µ, µ(A) = limn→∞ µ(A ∩ En ),
or d’après le cas µ(A) < ∞, nous avons

µ(A ∩ En ) = sup{µ(F ), F ⊂ A ∩ En , F fermé} ≤ sup{µ(F ), F ⊂ A, F fermé}.

D’où µ(A) ≤ sup{µ(F ), F ⊂ A, F fermé}. L’autre inégalité est immédiate.

2. On pose pour tout n ≥ 1, µn = µn (· ∩ En ). Soit A ∈ B(X) et ε > 0. D’après la proposition
précédente, il existe donc, pour tout n ≥ 1, un ouvert On tel que A ⊂ On et µ(On \ A) ≤ ε2−n ,
soit encore
A ⊂ On et µ(On ∩ En ) ≤ µ(A ∩ En ) + ε2−n .
On montre la propriété Pn suivante par récurrence
n
! n
[ X ε
Pn : µ (Ok ∩ Ek ) ≤ µ(A ∩ En ) + .
2k
k=1 k=1

La propriété P1 est
Simmédiate avec ce qui a été fait un peu plus haut. On suppose Pn et on montre
n+1
Pn+1 . Comme µ k=1 (Ok ∩ Ek ) est fini, on peut utiliser la formule de Poincaré (ou formule du
crible), on obtient
n+1
! n
!
[ [
µ (Ok ∩ Ek ) = µ(On+1 ∩ En+1 ) + µ (Ok ∩ Ek )
k=1 k=1
n
!
[
− µ (On+1 ∩ En+1 ) ∩ (Ok ∩ Ek ) .
k=1

Puis, par hypothèse de récurrence,

n+1
! n
[ X
µ (Ok ∩ Ek ) ≤ µ(A ∩ En+1 ) + ε2−n−1 + µ(A ∩ En ) + ε2−k
k=1 k=1
n
!
[
− µ (On+1 ∩ En+1 ) ∩ (Ok ∩ Ek ) .
k=1

Or, on observe que

n
[ n
[
A ∩ En ⊂ (A ∩ Ek ) ⊂ (Ok ∩ Ek ) et A ∩ En ⊂ A ∩ En+1 ⊂ On+1 ∩ En+1 ,
k=1 k=1

48
d’où !
n
[
µ(A ∩ En ) ≤ µ (On+1 ∩ En+1 ) ∩ (Ok ∩ Ek ) < ∞,
k=1
ce qui montre Pn+1 .
S S
L’ouvert n≥1 (On ∩ Int En ) étant contenu dans n≥1 (On ∩ En ), le passage à la limite dans
l’inégalité Pn implique
   
[ [
µ (On ∩ Int En ) ≤ µ  (On ∩ En ) ≤ µ(A) + ε.
n≥1 n≥1
S S
Il reste à montrer que n≥1 (On ∩ Int En ) contient A. Ceci découle du fait que X = n≥1 Int En
puisque [ [
A= (A ∩ Int En ) ⊂ (On ∩ Int En ).
n≥1 n≥1

3. On remarque que les ensembles F ∩ En sont compacts comme fermés dans des compacts et que
µ(F ) = supn≥1 µ(F ∩ En ).

Définition 2.2.37 (Mesure de Borel). Une mesure µ sur la tribu borélienne d’un espace métrique est
appelée mesure de Borel si elle est finie sur les parties compacts.
Définition 2.2.38 (Espace localement compact). Un espace métrique (X, d) est dit localement compact
si tout point x ∈ X admet un voisinage compact, i.e. il existe un compact K tel que x ∈ Int K.
Théorème 2.2.39. Sur un espace métrique localement compact et séparable, toute mesure de Borel µ
est régulière.
Remarque 31. Ce qu’on montre en substance c’est que dans un espace métrique séparable on peut trouver
une suite exhaustive croissante d’ouverts relativement compact.
Démonstration. Par le théorème 2.2.36 précédant, il s’agit de construire une suite croissante (Ln )n≥1 de
compacts telle que X = ∪n≥1 Int Ln .

Étape 1 : Soit (X, d) un espace métrique localement compact et séparable, montrons l’existence d’une
suite croissante exhaustive de compacts.

Comme (X, d) est séparable, il existe une suite (xn )n≥0 dense dans X. Soit I = {(n, r) ∈ N∗ × Q∗+ :
B(xn , r) compact}. Comme ISest au plus dénombrable, on peut trouver une suite croissante d’ensembles
finis Ip , p ≥ 1, telle que I = p≥1 Ip .
Soit x ∈ X, alors x admet un voisinage compact Kx . Donc il existe n ∈ N∗ et r ∈ Q∗+ tel que
S S
x ∈ B(xn , r) ⊂ Int Kx . Par conséquent, X = (n,r)∈I B(xn , r). On pose alors Kp = (n,r)∈Ip B(xn , r). Il
S
est immédiat que X = p≥1 Kp et que les compacts Kp sont compacts comme réunion finie de compacts.
Ceci achève l’étape 1.

Étape 2 : Construction des Ln par récurrence.

On pose L1 = K1 puis l’on suppose construits des compacts L1 , . . . , Ln tels que Kk ⊂ Lk , 1 ≤ k ≤ n

et Lk−1 ⊂ Int Lk , 2 ≤ k ≤ n. L’ensemble Kn+1 ∪ Ln est compact et, par locale compacité de X, tout
x ∈ Kn+1 ∪Ln a un voisinage compact Vx . Or, x ∈ Int Vx par hypothèse donc la famille (Int Vx )x∈Kn+1 ∪Ln
est un recouvrement ouvert du compact Kn+1 ∪ Ln dont on peut extraire un recouvrement fini Int Vx1 ∪
· · · ∪ Int Vxp . On pose alors Ln+1 = Vx1 ∪ · · · ∪ Vxp . L’ensemble Ln+1 ainsi construit est compact comme
réunion finie de compacts, Kn+1 ⊂ Ln+1 et Ln ⊂ Int Vx1 ∪ · · · ∪ Int Vxp ⊂ Int Ln+1 .
La suite de compacts ainsi construite vérifie finalement
[ [ [ [
X= Kn ⊂ Ln ⊂ Int Ln+1 ⊂ Int Ln ⊂ X.
n≥1 n≥1 n≥1 n≥1

49
Théorème 2.2.40. Soit (X, d) un espace polonais. Toute mesure µ finie sur (X, B(X)) vérifie
1. pour tout ε > 0, il existe Kε ⊂ X compact tel que µ(Kε∁ ) ≤ ε.
2. µ est régulière.

Démonstration. On montre d’abord le point (i). Soient (xn )n≥0 une suite dense et ε > 0. Pour tout
p ≥ 1, il existe np ∈ N∗ tel que
 !∁ 
np
[ [
µ B(xn , 1/p)  ≤ ε/2p car X = B(xn , 1/p) et µ(X) < ∞.
n=1 n≥1

On pose alors
\ [
Kε = B(xn , 1/p).
p≥1 n≤np

Aussi, Kε ⊂ ∪n≤np B(xn , 1/p) pour tout p ≥ 1, ainsi Kε est pré-compacte Or, Kε est fermé dans un
espace complet, il est lui-même complet. Donc, Kε est compact. D’autre part,
  ∁ 
[ [  X
µ(Kε ) ≤ µ  B(xn , 1/p)  ≤ ε/2p = ε.
 
p≥1 n≤np p≥1

Le deuxième point de la proposition est une conséquence directe de la proposition 2.2.35 et du fait
que F ∩ K est compact dès que F est fermé et K compact.

50
Chapitre 3

Intégrale au sens de Lebesgue

Dans ce chapitre est définie l’intégrale de Lebesgue contre une mesure sur un espace mesurable
abstrait. Après avoir donné les propriétés essentielles de l’intégrale de Lebesgue, on s’attachera à donner
des méthodes pratiques de calcul. On considérera notamment le cas des mesures discrètes et des mesures
à densité. Il sera également évoqué le comportement de l’intégrale lorsque l’on transporte une mesure.
Enfin, on étudiera le lien entre intégrale de Riemann et intégrale de Lebesgue.

3.1 Construction de l’intégrale de Lebesgue

La construction de l’intégrale de Lebesgue se fait en trois étapes. Tout d’abord nous la définissons pour
les fonctions étagées positives, puis pour les fonctions positives en utilisant l’approximation monotone des
fonctions positives par des fonctions étagées positives. Notons que la valeur de l’intégrale d’une fonction
positive peut valoir l’infini, on dit qu’elle est à valeurs dans R+ . Toute les propriétés usuelles telles la
linéarité ou la croissance de l’intégrale restent vraies pour l’intégrale des fonctions positives qui peut
prendre des valeurs infinies ! La dernière étape consiste à définir l’intégrale pour des fonctions réelles en
les écrivant comme la différence de leur partie négative et partie positive. Dans ce cas, il est nécessaire
de faire une hypothèse d’intégrabilité car, contrairement au cas des fonctions positives, certaine forme
indéterminée de type +∞ − ∞ peuvent apparaı̂tre. Enfin, les fonctions à valeurs complexes ou plus
généralement à valeurs dans Kn seront traitées.

3.1.1 Intégration des fonctions étagées positives

Définition 3.1.1. Soit f une fonction étagée positive prenant les valeurs distinctes α1 , . . . , αn . On
R note
Ai = f −1 ({αi }) pour tout i = 1, . . . , n. On appelle intégrale de f contre la mesure µ, et on note f dµ,
le nombre dans R+ défini par
Z Xn
f dµ = αi µ(Ai ),
i=1
avec la convention usuelle en théorie de la mesure 0 × ∞ = 0.
Proposition 3.1.2. L’intégrale de fonctions étagées positives vérifie les propriétés suivantes.
1. Si f et g sont deux fonctions étagées positives et λ > 0, alors
Z Z Z
(λf + g) dµ = λ f dµ + g dµ.

2. Si f et g sont deux fonctions étagées positives telles que f ≤ g, alors

Z Z
f dµ ≤ g dµ.

Démonstration. On montre le point (i) lorsque λ = 1. Le cas général s’en déduit immédiatement. On
pose
X n Xm
f= αi 1Ai et g = βj 1Bj
i=1 j=1

51
où α1 , . . . , αn (resp. β1 , . . . , βm ) sont distincts et les A1 , · · · , An (resp. B1 , . . . , Bm ) sont des ensembles
mesurables disjoints. On note γ1 , . . . , γℓ les valeurs distinctes prises par f + g et
[
Ck = (f + g)−1 (γk ) = (Ai ∩ Bj ),
(i,j)∈Ik

où Ik = {(i, j), αi + βj = γk }. Puisque les ensembles Ai ∩ Bj , i = 1, . . . , n, j = 1, . . . , m, sont deux à

deux disjoints,
X
µ(Ck ) = µ(Ai ∩ Bj ).
(i,j)∈Ik

On calcule l’intégrale de f + g
Z ℓ
X ℓ
X X
f + g dµ = γk µ(Ck ) = (αi + βj )µ(Ai ∩ Bj )
k=1 k=1 (i,j)∈Ik
n X
X m m X
X n
= αi µ(Ai ∩ Bj ) + βj µ(Ai ∩ Bj )
i=1 j=1 j=1 i=1
Xn m
X
= αi µ(Ai ) + βj µ(Bj )
i=1 j=1
Z Z
= f dµ + g dµ.

Pour le point (ii), on remarque que g − f est une fonction étagée positive, son intégrale est positive,
d’où, en utilisant le point (i)
Z Z Z Z Z
f dµ ≤ f dµ + g − f dµ = f + g − f dµ = g dµ.

P
Remarque 32. Soit f = i αi 1Ai où les αRi ne sont P
pas nécessairement distincts — mais les Ai tout de
même deux à deux disjoints. On a encore f dµ = i αi µ(Ai ).

3.1.2 Intégration des fonctions mesurables positives

Définition 3.1.3.
R Soit f une fonction mesurable à valeurs dans R+ . On appelle intégrale de f contre
µ, et on note f dµ l’élément de R+ défini par
Z Z
f dµ = sup u dµ, u ∈ mE+ : u ≤ f ,

où mE+ désigne l’ensemble des fonctions étagées positives.

Remarque 33. Cette définition est consistante avec celle de l’intégrale d’une fonction étagées positives.
Dans ce cas, le supremum est un maximum et on choisit u = f .

Proposition 3.1.4 (Croissance de l’intégrale). Soient f, g des fonctions mesurables positives telles que
f ≤ g, alors Z Z
f dµ ≤ g dµ.

Démonstration. C’est une conséquence immédiate de l’inclusion

{u ∈ mE+ : u ≤ f } ⊂ {u ∈ mE+ : u ≤ g}

et de la définition de l’intégrale.

52
Théorème 3.1.5 (Théorème de convergence monotone de Beppo-Lévy). Soit (fn )n≥0 une suite mo-
notone croissante de fonctions mesurables positives, i.e. 0 ≤ fn ≤ fn+1 pour tout n ≥ 0. Alors f =
limn→∞ fn = supn≥0 fn est mesurable positive et
Z Z
lim fn dµ = f dµ.
n→∞

Démonstration.
R D’aprèsR la proposition 2.1.25, on sait que la fonction supremum
R est mesurable.
Comme
fn ≤ f , on a fn dµ ≤ f dµ. La croissance de l’intégrale assure que la suite fn dµ n≥0 est elle-même
croissante et donc convergente dans R+ . On obtient donc
Z Z
lim fn dµ ≤ f dµ.
n→∞

Démontrons l’inégalité opposée. Soit u une fonction étagée positive inférieure à f et λ ∈ (0, 1). Posons,
En = {x ∈ X : fn (x) ≥ λu(x)}.
La suite (En )n≥0 est une suite croissante d’ensembles mesurables. Soit x ∈ X. Si u(x) = 0 alors x ∈ En
pour tout n ≥ 0. Si u(x) > 0 alors
lim fn (x) = f (x) ≥ u(x) > λu(x),
n→∞

et ainsi x ∈ En pour n ≥ 0 assez grand de sorte que ∪n≥0 En = X. D’autre part, par définition de En ,
fn ≥ λu1En et donc pour tout n ≥ 0, par croissance de l’intégrale
Z Z
fn dµ ≥ λu1En dµ.
Pk
La fonction λu1En est étagée positive, on sait calculer sont intégrale. Si u = i=1 αi 1Ai alors
Z X k Z Xk
u dµ = αi µ(Ai ) et u1En dµ = αi µ(Ai ∩ En ).
i=1 i=1
R
ROr pour tout i = 1, . . . , k, µ(Ai ∩ En ) converge en croissant vers µ(Ai ) donc u1En dµ converge vers
u dµ. On a donc établi que, pour tout u ∈ mE+ telle que u ≤ f et tout λ ∈ (0, 1),
Z Z Z
lim fn dµ ≥ lim λ u1En dµ = λ u dµ.
n→∞ n→∞

En prenant le supremum sur λ ∈ (0, 1), on obtient que l’intégrale de toute fonction étagée positive u
majorée par f est inférieure à la limite des intégrales des fonctions fn . Il en va de même pour l’intégrale
de f : Z Z Z
f dµ = sup u dµ, u ∈ mE+ : u ≤ f ≤ lim fn dµ.
n→∞

ce qui est l’inégalité recherchée.

R R R
Corollaire 3.1.6. Si f, g ∈ mX+ , alors (f + g) dµ = f dµ + g dµ.
Démonstration. D’après le théorème 2.1.27, il existe des suites (fn )n≥0 et (gn )n≥0 croissantes de fonctions
étagées positives qui converge simplement vers f et g respectivement. Alors (fn + gn )n≥0 est une suite
croissante de fonctions étagées positives qui converge simplement vers f + g. La linéarité de l’intégrale
pour les fonctions étagées assure alors pour tout n ≥ 0
Z Z Z
fn + gn dµ = fn dµ + gn dµ.

Le théorème de convergence monotone permet de conclure.

Corollaire 3.1.7. Soit (fn )n≥0 une suite de fonctions mesurables positives. Alors, l’égalité suivante a
lieu dans R+
∞ ∞ Z
Z X !
X
fn dµ = fn dµ.
n=0 n=0
Démonstration. Immédiat.

53
3.1.3 Intégration des fonctions mesurables
Définition 3.1.8. R Une application f de (X, X , µ) à valeurs dans K est dite intégrable contre µ si elle
est mesurable et |f | dµ < ∞.
On notera L1K (X, X , µ), ou plus simplement L1K (µ) si il ’y a pas d’ambiguı̈tés, l’ensemble des fonctions
intégrables à valeurs dans K.

Proposition 3.1.9. Soit f une fonction mesurable à valeurs réelles. Alors f est intégrable si et seulement
si f + et f − le sont.

Démonstration. Il suffit de remarquer que |f | = f + + f − ≥ 0 et donc par linéarité de l’intégrale pour

des fonctions mesurables positives
Z Z Z
|f | dµ = f + dµ + f − dµ.

Définition 3.1.10. Soit f ∈ L1R (µ). On appelle intégrale de f contre µ et on note

R
f dµ le nombre réel
Z Z Z
f dµ = f + dµ − f − dµ.

Remarque 34. Remarquons que la définition a toujours un sens dans R lorsque f + ou f − est intégrable.
Dans ce cas, il faut toutefois être attentif lorsque l’on calcule l’intégrale de la somme de deux fonctions,
certaines indéterminations peuvent apparaı̂tre.
On note parfois lorsque l’on veut spécifier la variable muette
Z Z
f dµ = f (x) µ(dx).
R
On rencontre parfois f (x) dµ(x) que nous éviterons d’employer du fait de la confusion possible avec
les mesures de Stieltjes qui sont introduites par le Théorème 2.2.33.

Proposition
R 3.1.11. L’ensemble L1R (µ) est un espace vectoriel sur R et l’application qui à f associe
f dµ est une forme linéaire sur cet espace. De plus, on a
1. si f ∈ L1R (µ) et f ≥ 0 alors f dµ ≥ 0 ;
R

2. si f, g ∈ L1R (µ) et f ≤ g alors f dµ ≤ g dµ ;

R R

3. si f ∈ L1R (µ), alors

R R
f dµ ≤ |f | dµ.

Démonstration. On sait déjà que l’ensemble des fonctions réelles mesurables est un espace vectoriel sur
R. De plus, si f, g ∈ L1R (µ) et λ ∈ R, alors |λf + g| ≤ |λ||f | + |g|. On en déduit, par la croissance des
intégrales pour les fonctions positives
Z Z Z
|λf + g| dµ ≤ |λ| |f | dµ + |g| dµ < ∞.

La fonction mesurable identiquement nulle est évidemment intégrable, ainsi l’ensemble L1R (µ) est un
espace vectoriel sur R.
Soient f, g ∈ L1R (µ). On a 
 f + g = (f + g)+ − (f + g)−


 f + g = f + − f − + g+ − g−


d’où l’égalité (f + g)+ + f − + g − = (f + g)− + f + + g + . On intègre cette égalité en remarquant que tous
les termes sont des fonctions mesurables positives. Il vient donc
Z Z Z Z Z Z
(f + g) dµ + f dµ + g dµ = (f + g) dµ + f dµ + g − dµ.
+ − − − +

54
Toutes ces quantités sont finies, donc on obtient
Z Z Z Z Z Z
(f + g)+ dµ − (f + g)− dµ = f + dµ − f − dµ + g + dµ − g − dµ .
| R
{z } | R
{z }
= f dµ = g dµ

On montre de la même manière que Z Z

λf dµ = λ f dµ.
Ceci montre la linéarité de l’intégrale.
Pour le point (1), il suffit de remarquer que si f ∈ L1R (µ) est positive alors f dµ = f + dµ où
R R

f + est évidemment positive.

R Ainsi, la définition de l’intégrale de f coı̈ncide avec celle d’une fonction
mesurable positive et f dµ ≥ 0.
Le point (2) est une conséquence immédiate du point (1) appliqué à la fonction intégrable positive
g − f.
Enfin, pour le point (3), on écrit simplement
Z Z Z Z Z Z
f dµ = f + dµ − f − dµ ≤ f + dµ + f − dµ = |f | dµ.

Proposition 3.1.12. Soit f une fonction mesurable à valeurs dans C. Alors f est intégrable si et
seulement si les parties réelle et imaginaire de f sont intégrables.
Démonstration. Il suffit d’intégrer les inégalités |f | ≤ |Re f | + |Im f | ≤ 2|f |.
Définition 3.1.13. Soit f ∈ L1C (µ). On appelle intégrale de f contre µ, et on note
R
f dµ, le nombre
complexe Z Z Z
f dµ = Re f dµ + i Im f dµ.

Proposition 3.1.14. L’ensemble L1C est un C-espace vectoriel et l’application qui à f associe
R
f dµ
est une forme linéaire sur cet espace. De plus,
Z Z
f dµ ≤ |f | dµ.

Démonstration. Le fait que l’intégrale d’une fonction intégrable à valeurs complexes définisse une forme
linéaire se montre de la même manière que dans le cas réel. R R
Montrons la deuxième partie de la proposition. Soit α ∈ C tel que f dµ = α f dµ. On peut
toujours choisir α de module 1 et, en utilisant le fait qu’un nombre réel est plus petit que sa valeur
absolue,
Z Z Z Z
f dµ = αf dµ = Re (αf ) dµ + i Im (αf ) dµ
| {z }
=0
Z Z Z Z
≤ Re (αf ) dµ ≤ |Re (αf )| dµ ≤ |αf | dµ = |f | dµ.

Définition 3.1.15. Une application mesurable f à valeurs dans un K-espace vectoriel normé (E, ∥ · ∥)
de dimension finie est dite intégrable si ∥f ∥ ∈ L1K (µ), on note f ∈ L1E (µ). De plus, si {e1 , . . . , ed } est une
base de E, alors
Z X d Z
f dµ = fi dµ ei ,
i=1
où (fi )i=1,...,d sont les coordonnées de f dans la base (ei )i=1,...,d .
En général, cette notion d’intégrale vectorielle est utilisée dans le contexte E = Rd muni de n’importe
qu’elle norme et on choisit la base canonique. Notons que si la valeur de l’intégrale ou, plus précisément,
sa représentation vectorielle dépend effectivement de la base choisie, le morphisme linéaire exhibé dans
la proposition précédente n’en dépend pas, de même que l’intégrabilité de f .

55
3.2 L’intégrale de Lebesgue en pratique
Au delà de l’aspect théorique de l’intégrale de Lebesgue, cette section s’intéresse à son aspect pratique.
Les idées des quatre sous-sections suivantes sont très utiles en pratique dans le calcul des probabilités.

3.2.1 L’intégrale de Lebesgue contre des mesures discrètes

On considère un espace mesurable (X, X ), une suite (ak )k≥0 de points de X telle que {ak } ∈ X et
(αk )k≥0 des réels positifs. On peut définir une mesure µ sur (X, X ) par
X
µ= αk δak .
k≥0

f dµ pour f ∈ L1K (µ).

R
On souhaite comprendre ce que signifie

Proposition 3.2.1. Soit µ définie comme ci-dessus.

1. Soit f une fonction mesurable de (X, X ) dans R+ . Alors, dans R+ ,
Z ∞
X
f dµ = αk f (ak ).
k=0

P∞
2. Une fonction f mesurable de (X, X ) dans K est intégrable si et seulement si k=0 αk |f (ak )| < ∞.
Dans ce cas,
Z X∞
f dµ = αk f (ak ).
k=0

De ce point de vue, une série numérique ou complexe n’est rien d’autre qu’une intégrale contre une
mesure discrète. Aussi, tous les résultats s’appliquent en particulier aux séries numériques ou complexes.
Notons cependant que la notion d’intégrabilité correspond à l’absolue convergence.

Démonstration. On commence par le point (1). On procède en trois étapes. Supposons d’abord que
f = 1A avec A ∈ X . Alors
Z X X
f dµ = µ(A) = αk 1A (ak ) = αk f (ak ).
k≥0 k≥0

Pn
Si f est à présent étagée positive, alors f = i=1 βi 1Ai . Par linéarité de l’intégrale
Z n
X n
X X X n
X X
f dµ = βi µ(Ai ) = βi αk 1Ai (ak ) = αk βi 1Ai (ak ) = αk f (ak ).
i=1 i=1 k≥0 k≥0 i=1 k≥0

Enfin, si f est mesurable positive, il existe une suite croissante (fn )n≥0 de fonctions étagées positives qui
converge simplement vers f . Par le théorème de convergence monotone et le lemme 2.2.11 il vient que
Z Z Z X X
f dµ = lim fn (x) dµ = lim fn dµ = lim αk fn (ak ) = αk f (ak ).
n→∞ n→∞ n→∞
k≥0 k≥0

Pour le point (2), soit f mesurable

R P le point (i) à la fonction |f | : f est
à valeur dans C. Appliquons
intégrable si et seulement si |f | dµ est finie si et seulement si k αk |f (ak )| est finie. Si tel est le cas,
on écrit
f = (Re f )+ − (Re f )− + i(Im f )+ − i(Im f )− .
Les quatre fonctions sont mesurables positives et intégrables (puisque majorées par |f |). D’après le point
(i), on obtient la relation annoncée.
R
Exercice 19. Exprimer f dµ lorsque µ est l’une des mesures discrètes des exemples 16 du chapitre 2.

56
3.2.2 Mesures à densité
Étant donné un espace mesuré (X, X , µ), on peut construire de nombreuses mesures à partir de µ
comme le montre la proposition suivante.

Proposition 3.2.2. Soit (X, X , µ) un espace mesuré et g une application mesurable positive sur (X, X ).
Soit ν l’application de X dans R+ définie par
Z Z
ν(A) = 1A g dµ = g dµ.
A

Alors ν est une mesure sur (X, X ).

Démonstration. On va utiliser la définition alternative d’une mesure donnée par la proposition 2.2.4. On
a bien évidemment ν(∅) = 0 puisque 1∅ g = 0. Soient A, B ∈ X disjoints, alors par linéarité de l’intégrale,
ν(A ∪ B) = ν(A) + ν(B). Soit (Bn )n≥0 une suite croissante d’ensembles mesurables, alors, pour tout
n ≥ 0, 1Bn ≤ 1Bn+1 et 1Bn g ≤ 1Bn+1 g et

lim 1Bn g = 1∪n≥0 Bn g.

n→∞

Ainsi, par le théorème de convergence monotone

Z Z Z
ν(∪n≥0 Bn ) = 1∪n≥0 Bn g dµ = lim 1Bn g dµ = lim 1Bn g dµ = lim ν(Bn ).
n→∞ n→∞ n→∞

Remarque 35. Si on considère la définition initiale d’une mesure, alors il faut utiliser le corollaire du
théorème de Beppo-Lévy permettant d’intervertir somme et intégrale.

Définition 3.2.3. La mesure ν est dite à densité g par rapport à µ. On note ν = g · µ. On dit que g est
la densité de ν par rapport µ.

Exemple 19. Typiquement, les lois de probabilités à densité sont des mesures de probabilités ν qui sont
à densité par rapport à la mesure de Lebesgue sur R. Par exemple, la fonction g pour la loi normale
centrée et réduite est définie pour tout x ∈ R par
2
e−x /2
g(x) = √ .
2π

Si A ∈ B(R) alors la mesure gaussienne de A est

2
e−x /2
Z
ν(A) = 1A √ λ(dx).
2π

En anticipant légèrement les résultats du paragraphe 3.2.4, si A est un intervalle (a, b) par exemple :
2 b 2
e−x /2 e−x /2
Z Z
ν((a, b)) = 1(a,b) √ λ(dx) = √ dx.
2π a 2π

Ce n’est rien d’autre que la probabilité qu’une variable aléatoire de loi normale centrée réduite prenne
une valeur dans (a, b).

Proposition 3.2.4 (Intégration par rapport à une mesure à densité). En utilisant les notations de la
proposition précédente
1. Soit f une fonction mesurable positive sur (X, X ). Alors, dans R+ ,
Z Z
f dν = (f g) dµ.

57
2. Soit f une fonction mesurable à valeurs complexes sur (X, X ). Alors f est intégrable pour ν si et
seulement si f g est intégrable pour µ et on a alors
Z Z
f dν = (f g) dµ.

Démonstration. Pour montrer le point (i), on procède en trois étapes. Si f = 1A avec A ∈ X , alors
l’égalité est une conséquence immédiate de la définition de ν. Si f est étagée positive, elle se déduit de la
linéarité de l’intégrale. Soient f mesurable positive et (fn )n≥0 une suite croissante de fonctions étagées
positives qui converge simplement vers f . Le théorème de convergence monotone donne
Z Z Z Z
f dν = lim fn dν = lim fn g dµ = f g dµ.
n→∞ n→∞

Pour le pointR (ii), on applique le point (i) à la fonction |f | : f est ν-intégrable si et seulement si et
seulement si |f |g dµ est finie si et seulement si f g est µ-intégrable. Si tel est le cas, on écrit

f = (Re f )+ − (Re f )− + i(Im f )+ − i(Im f )− .

Les quatre fonctions sont mesurables positives et intégrables (puisque majorées par |f |). D’après le point
(i), on obtient la relation annoncée.

3.2.3 Mesure image et théorème de transfert

Proposition 3.2.5 (Mesure image). Soient (X, X ) et (Y, Y) deux espaces mesurables et ϕ une application
mesurable de X dans Y. Soit µ une mesure sur (X, X ). L’application ν qui à B ∈ Y associe ν(B) =
µ(ϕ−1 (B)) définit une mesure sur (Y, Y) appelée mesure image de µ par ϕ que l’on notera ϕ∗ µ.
Démonstration. Nous avons ν(∅) = 0 puisque ϕ−1 (∅) = ∅. Soit (An )n≥0 une famille d’ensembles Y-
mesurables deux à deux disjoints, alors ϕ−1 (Ai ) ∩ ϕ−1 (Aj ) = ϕ−1 (Ai ∩ Aj ) = ∅ dès que i ̸= j. Ainsi,
(ϕ−1 (An ))n≥0 est une collection d’ensembles deux à deux disjoints qui sont X -mesurables puisque ϕ est
mesurable et
      
[ [ [ X X
ν An  = µ ϕ−1  An  = µ  ϕ−1 (An ) = µ(ϕ−1 (An )) = ν(An ).
n≥0 n≥0 n≥0 n≥0 n≥0

Théorème 3.2.6 (Théorème de transfert). À l’aide des mêmes notations,

1. soit f une fonction mesurable positive définie sur (Y, Y). Alors dans R+ ,
Z Z
f dϕ∗ µ = f ◦ ϕ dµ. (3.1)

2. Soit f une fonction à valeurs complexes définies sur (X, X ). Alors f est intégrable par rapport à
ϕ∗ µ si et seulement si f ◦ ϕ est intégrable par rapport à µ. Dans ce cas,
Z Z
f dϕ∗ µ = f ◦ ϕ dµ.

Démonstration. Si f est mesurable positive, alors f est limite monotone de fonctions étagées positives.
Par convergence monotone, il suffit donc de vérifier l’égalité (3.1) pour les fonctions étagées positives. Si
g est une telle fonction, alors elle s’écrit pour A1 , . . . , An ∈ E
n
X
g= αi 1Ai , α1 , . . . , αn ≥ 0.
i=1

Par définition, l’intégrale de g se calcule comme suit

Z X n n
X Z
−1
g dϕ∗ µ = αi ϕ∗ µ(Ai ) = αi µ(ϕ Ai ) = g ◦ ϕ dν,
E i=1 i=1 Ω

58
en remarquant que 1ϕ−1 Ai = 1Ai ◦ ϕ.
Pour des fonctions f mesurables à valeurs réelles, au vu de l’égalité précédente, il est clair que
f ◦ ϕ est µ-intégrable si et seulement si f est ϕ∗ µ-intégrable. De plus, en écrivant f = f + − f − , on a
f ◦ ϕ = (f ◦ ϕ)+ − (f ◦ ϕ)− et le résultat suit immédiatement. Le cas des fonctions à valeurs complexes
se montrent comme d’habitude en décomposant en partie réelle et imaginaire.

3.2.4 Intégrale de Riemann et intégrale de Lebesgue

En substance, cette sous section permet de montrer que les fonctions intégrables au sens de Riemann
sont intégrables au sens de Lebesgue et que les intégrales coı̈ncident dans ce cas là. Dans cette partie,
on va également généraliser le théorème fondamental du calcul intégral.

Intégration sur un intervalle compact

Soient f une fonction réelle bornée sur [a, b] et σ : a = x0 < x1 < · · · < xn+1 = b une subdivision de
[a, b]. Le nombre δ(σ) = max{xk − xk−1 , 1 ≤ k ≤ n + 1} est appelé pas de la subdivision σ. On pose
mk = inf{f (t), t ∈ [xk , xk+1 ]} et Mk = sup{f (t), t ∈ [xk , xk+1 ]}.
Les sommes de Darboux associées à la subdivision σ sont
Xn n
X
s(σ) = mk (xk+1 − xk ) et S(σ) = Mk (xk+1 − xk ).
k=1 k=1

Définition 3.2.7. On dit qu’une fonction réelle f sur un intervalle [a, b] est intégrable au sens de
Riemann s’il existe un nombre réel I tel que les sommes s(σ) et S(σ) tendent vers I quand δ(σ) tend
vers 0 :
∀ε > 0, ∃η > 0, ∀σ : δ(σ) < η =⇒ |s(σ) − I| + |S(σ) − I| < ε.
Rb
Le nombre I est alors appelé l’intégrale de Riemann de f sur [a, b] et on le note a f (t) dt.
Considérons à nouveau la subdivision σ et, pour chaque k = 1, . . . , n + 1, choisissons ξk ∈ [xk−1 , xk ].
La somme de Riemann définie par σ et ξ = (ξ1 , . . . , ξn ) est par définition
n
X
S(σ, ξ) = f (ξk )(xk − xk−1 ).
k=1

Il est alors facile de voir que si f est intégrable au sens de Riemann, les sommes de Riemann converge
Rb
vers a f (t) dt lorsque δ(σ) tend vers 0, uniformément par rapport au choix de ξ. Plus précisément,
Z b
∀ε > 0, ∃η > 0, ∀σ : δ(σ) < η, ∀ξ associé à σ, S(σ, ξ) − f (t) dt < ε.
a

Théorème 3.2.8 (Théorème fondamental du calcul intégrale). Tout fonction continue par morceaux
Rx sur
[a, b] est intégrable au sens de Riemann. De plus, si f est continue, la fonction x → F (x) = a f (t) dt
est dérivable sur [a, b] de dérivée F ′ = f .
Démonstration. Exercice.

Intégrale généralisée
Soit f : [a, b) −→ R, où b peut valoir +∞, localement intégrable au sens de Riemann : c’est à dire
f 1[a,c] est Riemann intégrable pour intervalle compacte [a, c] ⊂ [a, b).
Rx
On dit que f admet une intégrale généralisée sur [a, b) si la fonction x → a f (t) dt admet une limite
lorsque x tends vers b, x < b. On pose alors
Z b Z x
f (t) dt = lim f (t) dt.
a x→b,x<b a

Dans ce cas, on dit aussi que l’intégrale est convergente. On dira que l’intégrale généralisée est absolument
Rb
convergente si a |f (t)| dt est convergente. On rappelle que l’absolue convergence implique la convergence
R∞
mais que la réciproque est fausse (penser à l’exemple classique 0 sin(t) t dt).

59
Comparaison de l’intégrale de Riemann et de l’intégrale de Lebesgue pour une fonction
bornée sur un intervalle compact
Proposition 3.2.9. Soit f une fonction continue sur [a, b]. Alors si λ désigne la mesure de Lebesgue
sur R, f 1[a,b] ∈ L1R (λ) et
Z Z b
f 1[a,b] dλ = f (t) dt.
R a

Démonstration. Il est immédiat que f 1[a,b] est borélienne. De plus, comme f est continue sur le compact
[a, b], elle est bornée sur [a, b]. Nous obtenons, en posant M = supt∈[a,b] |f (t)|, que |f 1[a,b] | ≤ M 1[a,b] qui
est manifestement LebesgueR intégrable. De même, pour tout x ∈ [a, b], f 1[a,x] est Lebesgue intégrable.
Posons donc F (x) = f 1[a,x] dλ et montrons que F est dérivable sur [a, b] de dérivée f . Soit x0 ∈ [a, b]
et h > 0. On calcule
F (x0 + h) − F (x0 )
Z
1
1[a,x0 +h] f = 1[a,x0 ] f + 1(x0 ,x0 +h] f =⇒ = 1(x0 ,x0 +h] f dλ,
h h
d’où
F (x0 + h) − F (x0 )
Z
1
− f (x0 ) = 1(x0 ,x0 +h] (f − f (x0 )) dλ
h h
Soit ε > 0. Puisque f est continue en x0 , il existe η > 0 tel que pour tout x satisfaisant |x − x0 | ≤ η
implique |f (x) − f (x0 )| ≤ ε. Ainsi si h ∈ (0, η) alors

F (x0 + h) − F (x0 )
Z
1
− f (x0 ) = ε1(x0 ,x0 +h] dλ = ε.
h h

Le cas h < 0 se traite de Rfaçon analogue. Donc F est dérivable sur [a, b] de dérivée f . Or F (a) = 0 car
x
λ({a}) = 0, d’où F (x) = a f (t) dt pour tout x ∈ [a, b] et notamment
Z b Z
F (b) = f (t) dt = f 1[a,b] dλ. (3.2)
a R

R
Remarque 36. Il faut bien noter qu’a priori l’intégrale de Lebesgue de f 1[a,b] , notée f dλ, et l’intégrale
Rb
de Riemann de f sur [a, b], notée a f (t) dt, sont deux objets différents, elles sont construites de façon radi-
calement différentes. La proposition 3.2.9 ci-dessus, ainsi que le raffinement donné par le théorème 3.2.10
ci-dessous, permet de conclure que pour une grande classe de fonction les deux intégrales coı̈ncident. Il est
R R Rb
très commode de faire la confusion entre les notations f 1[a,b] dλ, f (x)1[a,b] (x) λ(dx) et a f (x) dx :
sauf mention contraire, ces notations désigneront toujours l’intégrale au sens de Lebesgue. Cet abus
n’apporte pas de problème particulier en pratique.
Théorème 3.2.10 (Critère de Lebesgue). Une fonction f : [a, b] → R bornée est intégrable au sens de
Riemann si et seulement si il existe N ⊂ [a, b] de mesure de Lebesgue nulle tel que f est continue en tout
x ∈ [a, b] \ N . Dans ce cas, il y a coı̈ncidence entre les deux intégrables
Z b Z
f (t) dt = f 1[a,b] dλ.
a

Intégrale de Riemann généralisée et intégrale de Lebesgue

La proposition suivante est très utile pour alléger le traitement des intégrales généralisées sous la
condition d’absolue convergence. Les intégrales généralisées simplement convergentes devront toutefois
être traitée de façon plus classique.
Proposition 3.2.11. Soit f : [a, b) −→ R une fonction continue. Alors f 1[a,b) ∈ L1R (λ) si et seulement
Rb
si a f (t) dt est absolument convergente et, dans ce cas, on a
Z Z b
f 1[a,b) dλ = f (t) dt.
a

60
Remarque 37. En pratique cela autorise à écrire des choses comme ceci :
Z ∞ −x Z ∞
e 2
√ dx = 2 e−y dy,
0 x 0

là où, dans le contexte de l’intégrale de Riemann, nous devrions écrire pour être tout à fait rigoureux
√
∞ B B
e−x √
Z Z Z
2
−x
√ dx = lim e x dx = lim √ 2e−y dy,
0 x A→0,B→∞ A A→0,B→∞ A

en justifiant tous les passages à la limite.

De même pour une intégration par parties, on peut écrire les bornes infinies directement, sous la
condition bien entendu que l’intégrale généralisée est absolument convergente.
Démonstration. Supposons d’abord f positive. Soit (bn )n≥0 une suite croissante de points de [a, b) qui
converge vers b. Pour tout n ≥ 0,
Z Z bn
f 1[a,bn ] dλ = f (t) dt.
a

Le théorème de convergence monotone (pour l’intégrale de Lebesgue), on obtient

Z Z Z bn
f 1[a,b) dλ = lim f 1[a,bn ] dλ = lim f (t) dt ∈ R+ .
n→∞ n→∞ a

Or, par définition, f 1[a,b) est Lebesgue intégrable si et seulement si cette limite est finie donc si et
seulement si f est Riemann intégrable. De plus, ces deux intégrables coı̈ncident.
Dans le cas général, on sait que f est Lebesgue intégrable si et seulement si |f | l’est, donc si et
Rb
seulement si a f (t) dt est absolument convergente. Si tel est le cas, nous écrivons f = f + − f − . On a
f + ≤ |f | et f − ≤ |f | si bien que f + , f − sont positives et intégrables aussi bien dans le ses de Lebesgue
que dans le sens de Riemann. Or,
Z Z b Z Z b
f + 1[a,b) dλ = f + (t) dt et f − 1[a,b) dλ = f − (t) dt,
a a

et la linéarité de l’intégrale permet de conclure.

61
62
Chapitre 4

Théorèmes limites

4.1 Lemme de Fatou

Lors de la construction de l’intégrale, nous avons établi un théorème limite fondamental : le théorème
de Beppo-Lévy également appelé le théorème de convergence monotone.
Théorème 4.1.1 (Théorème de Beppo-Lévy). Soit (fn )n≥0 une suite monotone croissante de fonctions
mesurables positives, i.e. 0 ≤ fn ≤ fn+1 pour tout n ≥ 0. Alors f = limn→∞ fn = supn≥0 fn est mesurable
positive et Z Z
lim fn dµ = f dµ.
n→∞

Théorème 4.1.2 (Lemme de Fatou). Si (fn )n≥0 est une suite de fonctions mesurables positives, alors
Z Z
lim inf fn dµ ≤ lim inf fn dµ.
n→∞ n→∞

Démonstration. Posons g = lim inf n→∞ fn , cette fonction est mesurable et prend ses valeurs dans R+ .
On pose également gn = inf k≥n fk pour tout n ≥ 0. Par définition, g = limn→∞ gn . De plus, (gn )n≥0 est
croissante. Le théorème de croissance monotone assure donc
Z Z Z
lim gn dµ = lim gn dµ = lim inf fn dµ.
n→∞ n→∞ n→∞
R R
D’autre part, pour tout n ≥ 0, gn ≤ fn et par suite gn dµ ≤ fn dµ. En particulier, pour tout n ≥ 0,
il vient que Z Z
gn dµ ≤ lim inf fn dµ.
n→∞

Le second membre de l’inégalité ne dépend plus de n, d’où en passant à la limite dans le premier membre
(cette limite existe par le théorème de Beppo-Lévy), on obtient
Z Z Z
lim inf fn dµ = lim gn dµ ≤ lim inf fn dµ.
n→∞ n→∞ n→∞

4.2 Ensembles et fonctions mesurables négligeables

Définition 4.2.1. Soit (X, X , µ) un espace mesuré.
1. On dit qu’une partie N de X est négligeable pour µ s’il existe A ∈ X tel que N ⊂ A et µ(A) = 0.
2. On dit que la σ-algèbre X est complète pour µ si tout partie négligeable pour µ appartient à X .
Il est toujours possible d’ajouter les ensembles négligeables à une tribu non complète pour la rendre
complète. Nous supposerons désormais que les tribus considérées sont complètes.

63
Définition 4.2.2. Soit (X, X , µ) un espace mesuré. On dit qu’une propriété P sur X est vraie presque
partout (en abrégé p.p. ou µ-p.p.) si l’ensemble des points de X où elle est fausse est négligeable.
Une fonction définie sur X à valeurs réelles ou complexes est dite µ-négligeable si {f ̸= 0} est
négligeable.
Deux fonctions f et g définies sur X et à valeurs dans un même espace mesurable Y sont dites égales
presque partout si {f ̸= g} est négligeable.
On dit qu’une suite (fn )n≥0 de fonctions définies sur X à valeurs dans un espace topologique (séparé)
converge vers f presque partout si il existe un ensemble négligeable N tel que pour tout x ∈ / N,
limn fn (x) = f (x).
Lemme 4.2.3 (Inégalité de Markov). Soit f une fonction mesurable positive sur (X, X ). Alors pour tout
λ > 0, on a Z
1
µ({f ≥ λ}) ≤ f dµ.
λ
Démonstration. Par positivité de f , pour tout λ > 0, λ1f ≥λ ≤ f . Par croissance de l’intégrale, on obtient
le résultat.
Proposition 4.2.4. Si f ∈ L1R (µ), alors f est finie µ-p.p..
de Markov, µ({|f | ≥ n}) ≤ n1 |f | dµ. La suite An = {|f | > n} est
R
Démonstration. Par l’inégalité
R
décroissante et µ(A1 ) ≤ |f | dµ < ∞. Par la continuité à droite de la mesure µ :
 
\
µ({|f | = ∞}) = µ  An  = lim µ(An ) = 0.
n→∞
n≥1

Exercice 20. Montrer que la réciproque est fausse. Donner au moins un exemple dans le cas d’une mesure
µ finie.
Proposition 4.2.5. R Soit f une fonction mesurable sur (X, X ) à valeurs complexes. Alors f est négligeable
si et seulement si |f | dµ = 0.
Démonstration. L’inégalité de Markov encore implique que µ({|f | > n1 }) ≤ n |f | dµ = 0 pour tout
R

n ≥ 1. Or, la suite An = {|f | > n1 } est croissante, par la continuité à gauche de µ on obtient
 
[
µ({|f | > 0}) = µ  An  = lim µ(An ) = 0.
n→∞
n≥1

Réciproquement, soit n ≥ 1 alors |f | est limite monotone de |f | ∧ n, le théorème de convergence

monotone implique
Z Z Z Z
|f | dµ = lim |f | ∧ n dµ = lim |f | ∧ n1N dµ + |f | ∧ n1N ∁ dµ ≤ nµ(N ∁ ) = 0,
n→∞ n→∞

où N = {|f | = 0}.

Proposition 4.2.6. Soit (X, X , µ) un espace mesuré.
R
1. Soient
R f et g deux fonctions mesurables positives telles f ≤ g presque partout. Alors f dµ ≤
g dµ.
R
2. Soient
R f et g deux fonctions mesurables positives telles que f = g presque partout. Alors f dµ =
g dµ.
3. Soient f et g deux fonctions mesurables complexes telles queR f = g presque
R partout. Alors f est
intégrable si et seulement si g est intégrable et, dans ce cas, f dµ = g dµ.
Démonstration. 1. Il suffit d’appliquer la proposition 4.2.5 à la fonction (f − g)+ . Celle-ci est nulle
presque-partout, |(f − g)+ | = (f − g)+ et donc
Z Z Z Z
+ −
0 = (f − g) dµ = (f − g) dµ + (f − g) dµ ≥ (f − g) dµ.

64
2. C’est une conséquence d’une double application du point précédant car f = g presque-partout si
et seulement si f ≤ g presque partout et g ≤ f presque partout.
3. Il suffit de poser h = f − g alors h = 0 presque partout et donc
Z Z
0 = |h| dµ ≥ h dµ .

4.3 Théorème de convergence dominée

Théorème 4.3.1 (Théorème de convergence dominée). Soif (fn )n≥0 une suite de fonctions mesurables
sur (X, X ) à valeurs dans R ou C telle que :
1. (fn )n≥0 converge µ-presque partout vers une fonction f mesurable,
2. il existe une fonction g ∈ L1R (µ) positive telle que pour tout n ≥ 0, |fn | ≤ g µ-presque partout.
Alors les fonctions (fn )n≥0 et f sont intégrables et
Z Z Z
lim fn dµ = f dµ et lim |fn − f | dµ = 0.
n→∞ n→∞

Exemple 20. Considérons par exemple la suite de fonctions (fn )n≥1 définie pour tout n ≥ 1 et tout x ∈ R
n
par fn (x) = sin(x)
x(1+x) 1[0,∞) (x). On vérifie que pour tout x ∈ R \ (π/2 + πZ :

sin(x)n
lim fn (x) = lim 1[0,∞) (x) = 0.
n→∞ n→∞ x(1 + x)

Comme λ(π/2 + πZ) = 0, la suite (fn )n≥1 converge presque partout vers la fonction nulle. D’autre part,
en utilisant l’inégalité sin(x) ≤ x pour tout x ≥ 0, on obtient :
xn−1 1 1 1
|fn (x)| ≤ 1[0,1] (x) + 1[1,∞) (x) ≤ 1[0,1] (x) + 1[1,∞) (x) ≤ g(x).
1+x x(1 + x) 2 x(1 + x)

Les deux termes sont mesurables positifs, l’intégrale de Lebesgue a donc un sens dans R+ . L’intégrale
contre la mesure de Lebesgue du premier terme vaut 12 alors que le second terme est un O(x−2 1[1,∞) )
qui est intégrable également. Le théorème de convergence dominée implique donc
Z ∞
sin(x)n
lim dx = 0.
n→∞ 0 x(1 + x)
Dans la pratique, on peut se permettre d’aller un peu plus vite, l’idée étant toujours d’utiliser les indi-
catrices pour décomposer le domaine et majorer uniformément sur chaque sous-domaine par la fonction
adéquate.
Notons que l’on ne s’occupe absolument pas des points pathologiques pour lesquelles le sinus vaut 1
ou −1. D’autre part, ces points pathologiques sont exactement ceux qui empêche la convergence uniforme
de la suite (fn )n≥1 . Avec des techniques de type Riemann, il faudrait procéder autrement en enlevant
des petits voisinages ouverts autour de ces points pathologiques puis justifier le passage à la limite. C’est
possible mais bien plus pénible.
Remarque 38. Remarquons que nous ne disons rien sur la limite de la suite de fonction contrairement
au théorème de convergence dominée que l’on énonce dans le cadre Riemann. Ceci est dû au fait que,
dans le contexte de la théorie de la mesure, la limite est automatiquement mesurable et la condition
de domination implique qu’elle est intégrable. Dans le cadre riemannien, la limite de fonction Riemann
intégrables n’est pas nécessairement Riemann intégrable.
Démonstration. Supposons tout d’abord que la convergence de (fn )n≥0 vers f ait lieu partout et que
l’inégalité du deuxième point est vraie pour tout x ∈ X. Posons gn = 2g − |fn − f | Alors (gn )n≥0 est une
suite de fonctions mesurables positives et d’après le lemme de Fatou,
Z Z Z Z Z
2 g dµ = lim inf gn dµ ≤ lim inf gn dµ = 2 g dµ − lim sup |fn − f | dµ.
n→∞ n→∞

65
R R
Puisque g dµ < ∞, on déduit que lim supn→∞ |fn − f | dµ ≤ 0. On en déduit donc que
Z Z Z
lim |fn − f | dµ = 0 et lim fn dµ = f dµ.
n→∞ n→∞

Passons à présent au cas général. Par définition, il existe N ∈ X tel que, si x ∈

/ N , limn→∞ fn (x) = f (x)
et µ(N ) = 0. Il existe également des ensembles Nn ∈ X , n ≥ 0, tel que, si x ∈ / Nn , |fn (x)| ≤ g(x) et
µ(Nn ) = 0. Posons M = N ∪ (∪n≥0 Nn ) ∈ X . On a encore µ(M ) = 0. On pose hn = fn 1M ∁ et h = f 1M ∁ .
Alors, pour tout x ∈ X et tout n ≥ 0,

lim hm (x) = h(x) et |hn (x)| ≤ g(x).

m→∞
R
La première partie de la preuve assure donc que limn→∞ |hn − h| dµ = 0. Pour conclure, il suffit de
remarquer que hn = fn µ-p.p. et h = f µ-p.p. si bien que |hn − h| = |fn − f | µ-p.p. et donc leurs
intégrales sont égales.
Remarque 39. En utilisant le même principe de preuve, on peut montrer un théorème de convergence
monotone presque-partout ou un lemme de Fatou presque-partout.
Corollaire 4.3.2. Soit (fn )n≥0 une suite de fonctions mesurables sur (X, X ) à valeurs sur R ou C telle
que
XZ
|fn | dµ < ∞.
n≥0

Alors les fonctions (fn )n≥0 sont intégrables, la série n fn converge µ-p.p. et il existe f ∈ L1K (µ) telle
P
que
∞
X Z Xn Z X∞ Z
f= fn µ − p.p., lim f− fk dµ = 0, f dµ = fn dµ.
n→∞
n=0 k=0 n=0

Démonstration. Le théorème de convergence monotone pour les séries à termes positifs implique
Z X XZ
|fn | dµ = |fn | dµ.
n≥0 n≥0
P
Par la proposition 4.2.4, on déduit que n≥0 fn est absolument convergente. L’application du théorème
de convergence dominée à la suite des sommes partielles achève la preuve du corollaire.

4.4 Intégrale à paramètres

On termine ce chapitre par des cas particuliers d’interversion de limites, à savoir continuité et
dérivation sous le signe intégral.
Théorème 4.4.1 (Continuité d’une intégrale à paramètre). Soient (X, X , µ) un espace mesuré, (E, d)
un espace métrique et f une fonction définie sur X × E à valeurs réelles ou complexes. On suppose que
1. pour µ-presque tout x ∈ X, la fonction α → f (x, α) est continue sur E ;
2. pour tout α ∈ E, la fonction x → f (x, α) est mesurable sur (X, X ) ;
3. il existe une fonction g sur (X, X ) mesurable, positive et intégrable telle que pour tout α ∈ E,
|f (x, α)| ≤ g(x) µ-presque partout.
R
Alors F : α → X f (x, α) µ(dx) est définie et continue sur E.
Démonstration. Pour tout α ∈ E, la fonction x → f (x, α) est intégrable par rapport à µ donc F est
bien définie sur E. Soit α ∈ E et montrons que F est continue au point α. Pour cela, on va utiliser
la caractérisation séquentielle de la continuité. Soit donc (αn )n≥0 une suite de E convergente vers α.
Notons pour tout x ∈ E, fn (x) = f (x, αn ), puis on applique le théorème de convergence dominée. On
obtient que F (αn ) converge vers F (α).
Théorème 4.4.2 (Dérivabilité d’une intégrale à paramètre). Soient (X, X , µ) un espace mesuré, I un
intervalle ouvert de R et f une fonction définie sur X × I à valeurs réelles ou complexes. On suppose que

66
1. pour µ-presque tout x ∈ X, la fonction α → f (x, α) est dérivable sur I ;
2. pour tout α ∈ I, la fonction x → f (x, α) est µ-intégrable ;
3. il existe une fonction g sur (X, X ) intégrable et positive telle que pour µ-presque tout x ∈ E

∂f
∀α ∈ I, (x, α) ≤ g(x).
∂α

∂f
R
Alors pour tout α ∈ I, la fonction x → ∂α est intégrable. De plus, la fonction F : α → f (x, α) µ(dx)
est dérivable sur I et Z
∂f
∀α ∈ I, F ′ (α) = (x, α) µ(dx).
∂α
Démonstration. Par hypothèse, il existe un ensemble de mesure nulle N ∈ X tel que si x ∈
/ N , la dérivée
∂f
∂α (x, α) existe pour tout point α ∈ I et

∂f
(x, α) ≤ g(x).
∂α
∂f
Il en résulte que x → ∂α (x, α) est µ-intégrable pour tout α ∈ I. Étudions la dérivabilité de F en α ∈ I.
Soit (αn )n≥0 une suite de I qui converge vers α mais telle que αn ̸= α pour tout n ≥ 0. Le théorème des
accroissements finis implique pour tout x ∈ / N que

∂f
|f (x, αn ) − f (x, α)| ≤ |αn − α| sup (x, α) ≤ |αn − α|g(x).
α∈I ∂α

On introduit la suite (hn )n≥0 où la fonction hn est définie sur X par

f (x, αn ) − f (x, α)
hn (x) = .
αn − α
∂f
Cette suite converge simplement sur X \ N vers la fonction x → ∂α (x, α). De plus (hn )n≥0 est uni-
formément bornée en valeur absolue par g, d’où par le théorème de convergence dominée

f (x, αn ) − f (x, α) F (αn ) − F (α)

Z Z
∂f
(x, α) dµ = lim dµ = lim .
∂α n→∞ αn − α n→∞ αn − α
Il en résulte que F est dérivable en α de dérivée
Z
∂f
F ′ (α) = (x, α) dµ.
∂α

67
68
Chapitre 5

Mesure produit

Dans ce chapitre, on souhaite construire une mesure m sur un produit d’espaces mesurables (E ×
F, X ⊗ Y) tel que m(A × B) = µ(A)ν(B) où µ et ν sont des mesures prescrites sur X et Y.
En fait, une telle mesure m existe et est unique sous la condition de σ-finitude de µ et ν. L’unicité
de la mesure produit découlera du théorème de caractérisation des mesures σ-finies. Pour l’existence,
on donnera une preuve “constructive” au sens où l’on ne fera pas usage du théorème d’extension de
Carathéodory. La raison pour laquelle on préférera cette preuve directe est qu’elle nous permettra, au
delà de l’existence de la mesure produit, de montrer les théorèmes de Tonelli et Fubini qui permettent
de ramener un calcul d’intégrale multiple en autant d’intégrales simples successives

5.1 Mesure produit

Soient (X, X , µ) et (Y, Y, ν) deux espaces σ-finis. On dispose déjà d’une tribu naturelle sur X × Y
construite à partir de X et Y, c’est la tribu produit X ⊗ Y, i.e la tribu engendrée par les pavés A × B
où A ∈ X et B ∈ Y.
Soit C ∈ X ⊗ Y. On note Cx = {y ∈ Y : (x, y) ∈ C} la section verticale et C y = {x ∈ X : (x, y) ∈ C}
la section horizontale.

Lemme 5.1.1. Soit C ∈ X ⊗ Y. Alors pour tout x ∈ X et tout y ∈ Y, Cx ∈ Y et C y ∈ X .

Remarque 40. Si C et D sont des éléments de X ⊗ Y alors pour tout x ∈ X

(Cx )∁ = (C ∁ )x , Cx ∪ Dx = (C ∪ D)x et Cx ∩ Dx = (C ∩ D)x .

Il en va de même pour les unions et intersections dénombrables.

Démonstration. Soit C l’ensemble des parties C ∈ X ⊗ Y telles que, pour tout x ∈ X et tout y ∈ Y,
Cx ∈ Y et C y ∈ X . Alors C est clairement une tribu. Soit C = A × B un rectangle, alors pour tout
x ∈ X, y ∈ Y,  
 B si x ∈ A
  A si y ∈ B

y
Cx = ∈ Y et C = ∈ X.
 ∅ si x ∈

/A  ∅ si y ∈

/B

Ainsi, C est une tribu qui contient les rectangles, elle contient donc la tribu produit X ⊗ Y.

Théorème 5.1.2. Soient (X, X , µ) et (Y, Y, ν) deux espaces mesurés σ-finis.

1. Il existe une unique mesure m sur (X × Y, X ⊗ Y) telle que, pour tout A ∈ X et B ∈ Y,

m(A × B) = µ(A)ν(B),

avec la convention 0 × ∞ = 0. Cette mesure est σ-finie. On la note généralement µ ⊗ ν et on

l’appelle mesure produit de µ et ν.

69
2. Pour tout C ∈ X ⊗ Y, les applications x → ν(Cx ) et y → µ(C y ) sont respectivement X -mesurable
et Y-mesurable et Z Z
µ ⊗ ν(C) = ν(Cx ) µ(dx) = µ(C y ) ν(dy). (5.1)
X Y

Démonstration. L’unicité de la mesure produit est une conséquence du théorème 2.2.20 de caractérisation
des mesures. Supposons qu’il existe une autre mesure produit m′ , alors pour tout A ∈ X et B ∈ Y, on a

m′ (A × B) = µ(A)ν(B) = m(A × B).

L’algèbre de Boole engendrée par les rectangles est constituées des réunions finies de rectangles disjoints,
donc m′ et m coı̈ncident sur l’algèbre de Boole engendrée par les rectangles.
Les mesures µ et ν sont σ-finies, ainsi il existe (Xn )n≥0 et (Yn )n≥0 des suites croissantes d’ensembles
mesurables dans X et Y respectivement tels que µ(Xn ) < ∞ et ν(Yn ) < ∞ pour tout n ≥ 0, X = ∪n≥0 Xn
et Y = ∪n≥0 Yn . La suite (Xn × Yn )n≥0 est elle-même croissante exhaustive et satisfait

m(Xn × Yn ) = µ(Xn )ν(Yn ) = m′ (Xn × Fn ) < ∞.

Les mesures m et m′ sont donc σ-finies et donc coı̈ncident sur la tribu engendrée par les rectangles, c’est
à dire la tribu produit.
Pour l’existence de la mesure produit, nous allons considérer la fonction d’ensembles suivante
Z
∀C ∈ X ⊗ Y, m(C) = ν(Cx ) µ(dx). (5.2)
X

Pour que cette application soit bien définie, il faut tout d’abord montrer le lemme suivant qui correspond
à la première partie du deuxième point du théorème.
Lemme 5.1.3. Si C ∈ X ⊗ Y, l’application x → ν(Cx ) est mesurable sur (X, X ) et l’application y →
µ(C y ) est mesurable sur (Y, Y).

Démonstration. Il suffit de montrer la première assertion. Supposons dans un premier temps que ν est
finie. Soit C l’ensemble des parties C ∈ X ⊗ Y telles que x → ν(Cx ) soit mesurable. Nous allons montrer
que C est un λ-système contenant l’algèbre de Boole, notée B, engendrée par les rectangles. En effet,
comme le plus petit λ-système contenant B (qui est stable par intersections finies) est la tribu engendrée
par B (mais aussi par les rectangles), c’est donc que C = X ⊗ Y.

Étape 1 : B ⊂ C.

Si C = A × B ∈ X ⊗ Y, alors ν(Cx ) = 1A (x)ν(B) et donc C ∈ PC. Si C = ∪ni=1 C i où les (C i )1≤i≤n sont
i
des rectangles mesurables deux à deux disjoints, on a ν(Cx ) = i ν(Cx ) et x → ν(Cx ) est mesurable en
tant que somme de fonctions mesurables. D’où B ⊂ C.

Étape 2 : C est un λ-système.

Il est clair que C = X × Y ∈ C car alors Cx = Y et donc x → ν(Cx ) = ν(Y) est mesurable.
Soit (C n )n≥0 une suite croissante d’éléments de C et C sa réunion. Pour tout x ∈ X, le théorème de
convergence monotone appliqué à la suite croissante (1Cxn )n≥0 implique que (ν(Cxn ))n≥0 converge vers
ν(Cx ). Donc x → ν(Cx ) est mesurable en tant que limite simple d’une suite de fonctions mesurables.
Enfin, si C et D sont dans C avec C ⊂ D, alors (D \ C)x = Dx \ Cx et comme ν est supposée finie,
x → ν((D \ C)x ) = ν(Dx ) − ν(Cx ) est mesurable comme différence de fonctions mesurables.
Si ν est seulement σ-finie, soit (Yn )n≥0 une suite croissante exhaustive d’éléments de Y telle que
ν(Yn ) < ∞ pour tout n ≥ 0. Soit C ∈ X ⊗ Y et, pour tout n ≥ 0, posons C n = C ∩ (X ∩ Yn ). D’après la
première partie de la démonstration l’application x → ν(Cxn ) est mesurable. Par convergence monotone,
il en est de même pour x → ν(Cx ).

Désormais, on a justifié que la quantité donnée dans (5.2) est bien définie. Montrons qu’il s’agit d’une
mesure. Il est clair que m(∅) = 0. Soit (C n )n≥0 une suite d’éléments de X ⊗ Y deux à deux disjoints et
C leur réunion. On a Cx = ∪n Cxn avec (Cxn )n≥0 deux à deux disjoints dans Y, d’où ν(Cx ) = n ν(Cxn ).
P

70
Encore une
P fois, le théorème de convergence monotone appliqué aux sommes partielles de la séries de
fonctions n 1Cxn implique
Z XZ X
ν(Cx ) µ(dx) = ν(Cxn ) µ(dx) = m(C n ).
X n≥0 X n≥0

Ainsi, m est une mesure et il reste à vérifier qu’elle affecte la mesure souhaitée aux rectangles. Si
C = A × B ∈ X ⊗ Y, on a
Z Z
m(C) = ν(Cx ) µ(dx) = 1A (x)ν(B) µ(dx) = µ(A)ν(B).
X X

y
R
De même, on montre que C → Y µ(C ) ν(dy) définit une mesure sur X ⊗ Y qui coı̈ncide avec m sur
les rectangles. Par unicité, cette mesure est égale à m et l’on obtient la relation (5.1).

QSi (Xi , X i , µi )1≤i≤N sont N espaces mesurés σ-finis, on peut vouloir définir une mesure produit π sur
N
N
i=1 Xi , Xi telle que, pour tout A = A1 ×· · ·×AN , Ai ∈ Xi , 1 ≤ i ≤ N , π(A) = µ1 (A1 ) · · · µN (AN ).
Pour se faire, on peut procéder par étapes : pour le cas N = 3, on peut commencer par construire µ1 ⊗µ2 ,
puis (µ1 ⊗ µ2 ) ⊗ µ3 . On peut cependant procéder différemment et construire µ2 ⊗ µ3 , puis µ1 ⊗ (µ2 ⊗ µ3 ).
Ces deux constructions définissent-elles une même mesure ? La réponse est heureusement oui.
Proposition 5.1.4. Le produit tensoriel de mesure est associatif.
Exercice 21. Démontrer la proposition 5.1.4. On pourra pour cela utiliser le théorème de caractérisation
des mesures.
Si X et Y sont des espaces topologiques, on peut les munir de leurs tribus boréliennes. Sur le produit
X × Y, on peut donner a priori plusieurs structures mesurables : soit on munit le produit de la tribu
produit des tribus boréliennes, c’est à dire B(X) ⊗ B(Y) ; soit on munit le produit de la tribu borélienne
issue de la topologie produit. Ces deux tribus sont-elles identiques ?
Proposition 5.1.5. Soient X et Y deux espaces métriques séparables. Alors B(X) ⊗ B(Y) = B(X × Y)
où X × Y est muni de la topologie produit.
Exercice 22. Démontrer la proposition 5.1.5. On pourra montrer que tout ouvert est réunion dénombrable
de pavés ouverts.
Théorème 5.1.6 (Mesure de Lebesgue sur Rd ). Il existe une unique mesure λd sur (Rd , B(Rd )) telle
que, pour tout produit d’intervalles I1 × · · · × Id , λd (I1 × · · · × Id ) soit égal au produit des longueurs des
intervalles (Ij )j=1,...,d . De plus, λd est le produit tensoriel répété d fois de la mesure de Lebesgue λ sur
(R, B(R)), on note λd = λ⊗d . Cette mesure est appelée mesure de Lebesgue sur Rd . Enfin, la mesure λd
est l’unique mesure sur B(Rd ) telle que
1. λd ([0, 1]d ) = 1,
2. pour tout a ∈ Rd et B ∈ B(Rd ), λd (a + B) = λd (B).

5.2 Théorèmes de Fubini-Tonelli et de Fubini-Lebesgue

On remarque que l’égalité (5.1) s’écrire encore
Z Z Z Z Z
1C dµ ⊗ ν = 1C (x, y) ν(dy) µ(dx) = 1C (x, y) µ(dy) ν(dx). (5.3)
X×Y X Y Y X

Ainsi, calculer l’intégrale de la fonction indicatrice d’un élément de la tribu produit revient à intégrer
l’intégrale des sections, l’ordre d’intégration ne jouant aucun rôle.
Le théorème de Fubini-Tonelli, qu’on appellera plus simplement théorème de Tonelli, montre que ce
fait reste vrai pour les fonctions mesurables positives, ce qui ne devrait pas nous étonner au vu de la
construction de l’intégrale de Lebesgue.
Théorème 5.2.1 (Fubini-Tonelli). Soit f une fonction mesurable de (X × Y, X ⊗ Y) dans R+ et soient
µ et ν deux mesures σ-finies respectivement sur (X, X ) et (Y, Y). Alors,

71
R R
1. les fonctions partout définies x −→ Y
f (x, y)ν(dy) et y −→ X
f (x, y)µ(dx) sont respectivement
X et Y-mesurables.
2. les égalités suivantes ont lieu dans R+ :
Z Z Z Z Z
f dµ ⊗ ν = f (x, y)ν(dy) µ(dx) = f (x, y)µ(dx) ν(dy). (5.4)
X×Y X Y Y X

Démonstration. Nous montrons dans un même temps le point (1) pour la première fonction et la première
égalité du point (2). La stratégie de preuve est similaire à ce qu’elle était pour la construction de
l’intégrale, elle se fait en trois étapes (indicatrices, fonction étagées positives et mesurables positives). À
chaque étape, on doit montrer
1. pour tout x ∈ X, y → f (x, y) est Y-mesurable et positive,
R
2. x → Y f (x, y) ν(dy) est X -mesurable et positive,
3. la relation (5.4) est vérifiée par f .
Étape 1 : Si f est l’indicatrice d’un élément C de X ⊗ Y, alors le point (1) est assuré par le lemme
5.1.1 puisque y → f (x, y) est en fait l’application y → 1Cx (y) ; le point (2) est assuré par le lemme 5.1.3
et l’égalité (5.3) n’est rien d’autre que l’égalité (5.1) montrée dans le théorème 5.1.2.
Étape 2 : Si f est une fonction étagée positive, le résultat découle de la linéarité de l’intégrale et de
la stabilité de la mesurabilité par combinaison linéaire.
Étape 3 : Si f est mesurable positive, il existe une suite (fn )n≥0 croissante de fonctions étagées
positives qui converge simplement vers f . Donc, pour tout x ∈ X, (y → fn (x, y))n≥0 est suite de fonctions
mesurables positives qui converge vers y → f (x, y). Le théorème de convergence monotone assure
Z Z Z
f (x, y) ν(dy) = fn (x, y) ν(dy) = lim fn (x, y) ν(dy).
Y Y n→∞ Y
R
Pour chaque nR ≥ 0, par l’étape 2, la fonction x → Y fn (x, y) ν(dy) est mesurable positive. Donc, la
fonction x → Y f (x, y) ν(dy) est mesurable positive comme limite de fonctions mesurables positives. De
plus,
Z Z Z Z
CM étape 2
f dµ ⊗ ν = lim fn dµ ⊗ µ = lim fn (x, y) ν(dy) µ(dx)
X×Y n→∞ X×Y n→∞ X Y
Z Z Z Z
CM CM
= lim fn (x, y) ν(dy) µ(dx) = f (x, y) ν(dy) µ(dx),
X n→∞ Y X Y

ce qui achève la preuve.

Corollaire 5.2.2. Soit f une fonction mesurable sur (X × Y, X ⊗ Y) à valeurs complexes. Alors f est
intégrable pour la mesure µ ⊗ ν si seulement si l’une des deux conditions suivantes est satisfaite
Z Z Z Z
|f (x, y)|ν(dy) µ(dx) < ∞ ou |f (x, y)|µ(dx) ν(dy) < ∞.
X Y Y X

Démonstration. C’est l’application du théorème de Tonelli à la fonction positive |f |.

Théorème 5.2.3 (Fubini-Lebesgue). Soit f une fonction intégrable sur (X × Y, X ⊗ Y, µ ⊗ ν). Alors,
1. pour
R presque tout x ∈ X, la fonction y 7→ f (x, y) est dans L1 (ν) ; de plus la fonction x 7→
Y
f (x, y)ν(dy), définie µ-p.p., est µ-intégrable.
2. Rpour presque tout y ∈ X, la fonction x 7→ f (x, y) est dans L1 (µ) ; de plus la fonction y 7→
X
f (x, y)µ(dy), définie ν-p.p., est ν-intégrable.
3. Enfin,
Z Z Z Z Z
f dµ ⊗ ν = f (x, y)ν(dy) µ(dx) = f (x, y)µ(dx) ν(dy).
X×Y X Y Y X

72
Démonstration. On montre le point (1) et la première égalité de (3) pour une fonction à valeur dans R.
D’après le théorème de Tonelli et l’hypothèse d’intégrabilité, on a
Z Z Z
∞> |f | dµ ⊗ ν = |f (x, y)| ν(dy) µ(dx).
X×Y X Y
R
L’inégalité de Markov implique que l’application x → Y |f (x, y)| ν(dy) est µ-presque partout finie, on
note N l’ensemble négligeable sur lequel elle est infinie. Si x ∈ / N , l’application y → f (x, y) est ν-
intégrable. On décompose f en la différence de la partie positive et de la partie négative : f = f + − f − .
Si x ∈/ N , les applications y → f + (x, y) et y → f − (x, y) sont ν-intégrables et on a
Z Z Z
∀x ∈ N ∁ , f (x, y) ν(dy) = f + (x, y) ν(dy) − f − (x, y) ν(dy).

D’après le théorème de Tonelli, les fonctions x → f ± (x, y) ν(dy) sont mesurables sur X \ N muni de la
R

tribu induite et
Z Z Z Z Z
f ± (x, y) ν(dy) µ(dx) = f ± (x, y) ν(dy) µ(dx) = f ± dµ ⊗ ν < ∞.
X\N Y X Y X×Y
R
Par conséquent, l’application x → f (x, y) ν(dy) définie sur X \ N est intégrable comme combinaison
linéaire de deux fonctions intégrables. On a enfin
Z Z Z
f dµ ⊗ ν = f + dµ ⊗ ν − f − dµ ⊗ ν
X×Y X×Y X×Y
Z Z Z Z
= f + (x, y) ν(dy) µ(dx) − f − (x, y) ν(dy) µ(dx)
X\N Y X\N Y
Z Z Z
= f + (x, y) ν(dy) − f − (x, y) ν(dy) µ(dx)
X\N Y Y
Z Z Z Z
= f (x, y) ν(dy) µ(dx) = f (x, y) ν(dy) µ(dx).
X\N Y X Y

Ceci termine la preuve du théorème.

5.3 La mesure produit en application

Exemple 21 (Normalisation de la gaussienne). On se propose de montrer que
Z ∞ r
2 π
I= e−x /2 dx = . (5.5)
0 2
On définit f sur R2+ par f (x, y) = y exp(y 2 (1 + x2 )/2). La fonction f est continue donc mesurable, de
plus elle est positive sur R2+ donc le théorème de Tonelli s’applique. Or, d’une part,
∞
exp(−y 2 (1 + x2 )/2)
Z
1
f (x, y) dy = 2
= .
R+ 1 + x 0 1 + x2
Donc Z Z ! Z
1 π
f (x, y) dy dx = 2
= .
R+ R+ R+ 1+x 2
D’autre part, pour y > 0, à l’aide du changement de variable u = xy
Z Z Z
2 2 2 2 2
f (x, y) dx = e−y /2 e−(xy) /2 ydx = e−y /2 e−u /2 du = Ie−y /2 .
R+ R+ R+

En intégrant par rapport à la variable y, on obtient

Z Z !
f (x, y) dx dy = I 2 .
R+ R+

73
Le théorème de Tonelli implique I 2 = π/2 et par positivité de l’intégrande dans (5.5) on obtient le
résultat.
Remarque 41. Dans le calcul, nous avons supposé, pour que le changement de variable soit inversible,
que y > 0. Il n’est pas nécessaire de considérer le cas y = 0 puisque
Z Z
f (x, y) dx 1R+ (y) = f (x, y) dx 1R∗+ (y), p.p..
R+ R+

Si dans l’exemple ci-dessus, on a profité de la positivité de la fonction f pour appliquer le théorème

de Tonelli, on considère ci-dessous un exemple de fonction à intégrer qui n’est pas de signe constant.
Dans ce cas, on commence par étudier l’intégrabilité de la valeur absolue de la fonction à intégrer en
utilisant le théorème de Tonelli. Une fois l’intégrabilité assurée, on applique le théorème de Fubini.
Exemple 22. On veut calculer Z
sin(xy) exp{−(x + y)} dxdy.
R2+

On trouve facilement une majoration de la valeur absolue

Z Z
| sin(xy)| exp{−(x + y)} dxdy ≤ exp{−(x + y)} dxdy.
R2+ R2+

Dans l’intégrale de droite, on peut appliquer le théorème de Tonelli, d’où

Z Z ! Z !
exp{−(x + y)} dxdy = e−x dx e−y dy = 1.
R2+ R+ R+

On en déduit l’intégrabilité de la fonction de départ. Par le théorème de Fubini, on obtient (c’est un

exemple, on peut bien sûr intervertir le rôle de x et y si le calcul est facilité)
Z Z "Z #
sin(xy) exp{−(x + y)} dxdy = sin(xy) exp{−(x + y)}dx dy
R2+ R+ R+

En intégrant par parties deux fois (on intègre l’exponentielle), on montre que
Z
y
J(y) = sin(xy)e−x dx = .
R+ 1 + y2

Ainsi, on obtient finalement

e−y y
Z Z
sin(xy) exp{−(x + y)} dxdy = dy.
R2+ R+ 1 + y2

Exemple 23. On veut calculer Z

sin(y) exp{−(x + y)} dxdy.
R2+

On trouve facilement une majoration de la valeur absolue

Z Z
| sin(y)| exp{−(x + y)} dxdy ≤ exp{−(x + y)} dxdy.
R2+ R2+

Dans l’intégrale de droite, on peut appliquer le théorème de Tonelli, d’où

Z Z ! Z !
−x −y
exp{−(x + y)} dxdy = e dx e dy = 1.
R2+ R+ R+

On en déduit l’intégrabilité de la fonction de départ. Par le théorème de Fubini, on obtient

Z Z ! Z !
sin(y) exp{−(x + y)} dxdy = sin(y)e−y dy e−x dx .
R2+ R+ R+

74
De plus, en intégrant par partie deux fois, on obtient
Z Z
1
sin(y)e−y dy = 1 − sin(y)e−y dy = .
R+ R+ 2

L’intégrale voulue initialement vaut donc 1/2.

Exemple 24. Soit f (x, y) = xy 2 et ∆ le domaine intérieur au triangle ABC avec A = (0, −1), B = (1, 3)
et C = (0, 1). La fonction f est continue sur ∆ compact donc f est bornée disons par M ≥ 0. On voit
facilement par croissance de l’intégrale
Z
|f (x, y)| dxdy ≤ M λ(∆) < ∞.
∆

On peut donc appliquer le théorème de Fubini. Un calcul simple donne

3
Z Z Z 1 Z 2 (x+1)
1∆ (x, y)f (x, y) dxdy = 1[−1,1] (x)1[0, 23 (x+1)] (y)f (x, y) dxdy = x y 2 dydx.
R2 R2 −1 0

Ainsi,
1
x5 x4 x2
Z Z
9 27
1∆ (x, y)f (x, y) dxdy = + 3 + x3 + dx = .
R2 8 −1 5 4 2 10

5.4 Mesure image et changement de variables

On commence par rappeler le théorème de transfert.
Théorème 5.4.1 (Théorème de transfert). Soient ϕ : (Ω, F, ν) → (X, E). Soit f : (X, E) → R+ mesu-
rable. Alors, Z Z
f dϕ∗ ν = f ◦ ϕ dν. (5.6)
X Ω
Si f est à valeurs complexes, alors f est ϕ∗ ν-intégrable si et seulement si f ◦ ϕ est ν-intégrable et on a
l’égalité 5.6 dans C.
Le théorème de transfert donne donc une formule de changement de variable théorique. Cependant,
cela reste peu exploitable en pratique puisque la mesure ϕ∗ ν n’est pas explicite.
Définition 5.4.2 (Mesures absolument continues). Soit (X, X ) un espace mesurable et µ et ν deux
mesures sur (X, X ). La mesure ν est dite absolument continue par rapport à µ si, pour tout A ∈ X ,
µ(A) = 0 implique ν(A) = 0. On note ν ≺ µ.
Proposition 5.4.3. Soit (X, X , µ) un espace mesuré et f une fonction mesurable positive sur (X, X ).
Si ν est à densité f par rapport à µ, alors ν est absolument continue par rapport à µ.
Démonstration. Si A ∈ X est tel que µ(A) = 0 alors f 1A est nulle µ-presque partout et
Z
ν(A) = f 1A dµ = 0.

Le théorème de Radon-Nikodỳm énoncé et démontré au chapitre 6 établit une réciproque à cette

proposition dans le cas σ-fini : si ν ≺ µ alors ν est à densité par rapport à µ.
Lorsque ν est absolument continue par rapport à la mesure de Lebesgue et ϕ un C 1 -difféomorphisme,
on peut donner une expression explicite de ϕ∗ ν. Le lemme suivant, utile pour démontrer le théorème
de changement de variable général, donne une telle expression pour le cas où ϕ est un automorphisme
linéaire.
Lemme 5.4.4. Soient A une matrice inversible de taille d × d et b ∈ Rd un vecteur. Soit f : Rd → R+
une fonction mesurable positive. Alors
Z Z
1
f (Ax + b)λ(dx) = f (x) dλ(x).
Rd |det A| Rd

75
Remarque 42. Ce lemme est aussi valable pour une fonction mesurable à valeurs dans C sous condition
d’intégrabilité.
Remarque 43. En d’autres termes, le lemme établit que la mesure image de la mesure de Lebesgue λd
par l’application affine ϕ : x → Ax + b est donnée par

ϕ∗ λd = |det A|−1 λd .

Démonstration. Puisque la mesure de Lebesgue est invariant par translation et que A est linéaire, on
peut supposer d’abord b = 0. Il s’agit d’identifier la mesure ν = ϕ∗ λd . On commence par montrer qu’elle
est proportionnelle à la mesure de Lebesgue λd .
Soient a ∈ Rd et B ∈ B(Rd ), alors

ν(a + B) = λ(A−1 a + A−1 B) = λ(A−1 B) = ν(B).

Ainsi, ν est invariante par translation. D’autre part, ν([0, 1]d ) ̸= 0 car
X X
ν(Rd ) = λ(Rd ) = ∞ et ν(Rd ) ≤ ν(n + [0, 1]d ) = ν([0, 1]d ).
n∈Zd n∈Zd

Enfin, on montre que ν([0, 1]d ) = λ(A−1 [0, 1]d ) < ∞ car A−1 [0, 1]d est compact. Ceci montre que la
mesure µ = ν/ν([0, 1]d ) est invariante par translation et vérifie µ([0, 1]d ) = 1, il s’agit donc de la mesure
de Lebesgue. Aussi il existe une constante c(A) ∈ R∗+ telle que ν = cλd . Il s’agit de montrer que
c(A) = |det A|−1 . Si A est inversible, la méthode du pivot de Gauss consiste à multiplier à gauche par
des matrices élémentaires M1 , · · · Mk de sorte que Mk · · · M1 A = I et donc que A−1 = Mk · · · M1 . Les
matrices élémentaires permettent de permuter des lignes (type 1), multiplier une ligne par un scalaire
non nul (type 2), ajouter une ligne à une autre ligne (type 3). On remarque que

A−1 B = Mk · · · M1 B et donc c(A) = c(Mk−1 ) · · · c(M1−1 ).

La preuve sera terminée si l’on montre que c(M ) = |det M |−1 dans le cas où M est une matrice de type
1,2 et 3. Il faut en effet juste remarquer que si M est de type 1 (resp. de type 2) alors M −1 est de type
1 (resp. de type 2) alors que si M est de type 3, M −1 est le produit d’une matrice de type 2 et de type
3. Or,
1. si A est matrice de type 1, alors

ν(A) = λd (A−1 [0, 1]d ) = λd ([0, 1]d ) = 1 = |det A|−1 ;

2. si A est une matrice de type 2, α ∈ R∗+ , alors

ν(A) = λd (A−1 [0, 1]d ) = λ([0, 1]d−1 × [0, α−1 ]) = |α|−1 = |det A|−1 ;

Si α ∈ R∗− , par le même raisonnement, on obtient le même résultat.

3. si A est une matrice de type 3, alors, à une permutation de la base de Rd près, c’est à dire à des
permutations de lignes près,
     
P 0  1 0 1 1
A=  avec P =   ou P =  
0 I 1 1 0 1

De plus, on calcule A[0, 1]d = D × [0, 1]d−2 avec D le parallélogramme de R2 dont les sommets ont
pour coordonnées (0, 0), (0, 1), (1, 1) et (1, 2) pour le premier cas et (0, 0), (1, 0), (1, 1) et (2, 1)
dans le second cas. Dans chacun des cas, ces parallélogrammes sont la réunion de deux triangles
isocèles rectangle de côté 1. De fait,

ν([0, 1]d ) = λd (A−1 [0, 1]d ) = λ2 (D)λd−2 ([0, 1]d−2 ) = 1 = |det (A)|−1 .

76
Définition 5.4.5. Soient U un ouvert de Rp et ϕ : U ⊂ Rp → Rq une application C 1 , i.e. les dérivées
partielles de ϕ existes et sont continues sur U . On note ϕ = (ϕ1 , . . . ϕq ). Le jacobien de ϕ au point a ∈ U ,
noté Jacϕ (a), est une application linéaire de Rp dans Rq dont la matrice dans la base canonique est
donnée par
 
∂1 ϕ1 (a) · · · ∂p ϕ1 (a)
 .. .. 
Jacϕ (a) = 
 . . 

 
∂1 ϕq (a) · · · ∂p ϕq (a)

Remarque 44. Rappelons que la matrice jacobienne d’une application ϕ de classe C 1 est la matrice
représentant le morphisme linéaire de Rp dans Rq au sens suivant :

ϕ(a + h) = ϕ(a) + Jacϕ (a)h + o(∥h∥)

avec h ∈ Rp suffisamment petit de sorte que a+h ∈ U . Cette remarque donne un moyen mnémotechnique
pour se rappeler de la forme de la jacobienne lorsque dimension de départ et dimension à l’arrivée
diffèrent.
Avant d’énoncer le théorème de changement de variables, rappelons deux théorèmes importants du
calcul différentiel : le théorème d’inversion locale et la caractérisation des difféomorphismes. Le lecteur
trouvera la démonstration de ces deux théorèmes dans [Car67].

Théorème 5.4.6 (Inversion locale). Soit D un ouvert de Rd et ϕ : D −→ Rd une application de classe

C 1 sur D. Si a ∈ D est tel que Jacϕ (a) est inversible, alors il existe un voisinage ouvert Va de a dans D
tel que ϕ|Va soit un difféomorphisme de Va sur son image ouverte ϕ(Va ).

Théorème 5.4.7. Soit D un ouvert de Rd . La fonction ϕ : D −→ Rd est C 1 -difféomorphisme sur son

image ∆ = ϕ(D) si et seulement si elle vérifie
1. ϕ est injective sur D,
2. ϕ est de classe C 1 sur D,
3. Jacϕ est inversible en tout point a ∈ D.
Dans ce cas, ∆ est un ouvert de Rd et, pour tout a ∈ ∆, Jacϕ−1 (a) = Jacϕ (ϕ−1 (a))−1 .

Théorème 5.4.8. Soient D, ∆ deux ouverts non vides de Rd et ϕ un C 1 -difféomorphisme de D dans

∆. Si f : ∆ → R est mesurable positive alors,
Z Z
f (u) du = f (ϕ(v))|det Jacϕ (v)| dv. (5.7)
∆ D

Si f : ∆ → C est mesurable, alors f ◦ ϕ |det Jacϕ | est intégrable si et seulement si f est intégrable et
l’égalité (5.7) a lieu dans C.

Remarque 45. Formellement, si u = ϕ(v) est un changement de variable alors

du = dϕ(v) = |Jacϕ (v)| dv.

Démonstration. Le changement de variable pour un automorphisme linéaire n’est rien d’autre que le
lemme 5.4.4. La preuve dans le cadre générale est longue et fastidieuse (voir [BP04] par exemple), on
peut néanmoins en donner une heuristique :
1. recouvrir le domaine D par des pavés de diamètre < δ petit ;
2. approcher la fonction ϕ sur chaque pavé par son jacobien ;
3. appliquer le théorème de transfert au jacobien à l’aide du lemme 5.4.4 ;
4. faire tendre δ vers 0 en contrôlant uniformément les restes.

77
2 √
Exemple 25 (Densité gaussienne). On cherche à montrer que I = R e−x /2 dxdy = 2π. Pour cela, une
R

application du théorème de Tonelli implique

Z 2 2
Z Z
− x +y −x2 /2 2

|e {z } dxdy =
2 e dx e−y /2 dy = I 2
R2 R R
=f (x,y)

D’autre part, on fait le changement de variable (x, y) = ϕ(ρ, θ) = (ρ cos(θ), ρ sin(θ)). L’application ϕ
est un C 1 -difféomorphisme de R∗+ × [0, 2π) dans R2 \ {0}. De plus,
 
cos(θ) −ρ sin(θ)
Jacϕ (ρ, θ) =   =⇒ |det Jacϕ (ρ, θ)| = |ρ| = ρ.
sin(θ) ρ cos(θ)

La formule du changement variable donne

Z 2 2
Z 2 2
Z Z ∞
− x +y − x +y −ρ2 /2 2
e 2 dxdy = e 2 dxdy = ρe dρdθ = 2π ρe−ρ /2
dρ,
R2 R2 \{0} R∗
+ ×[0,2π) 0

par le théorème de Tonelli encore une fois. Finalement, I 2 = 2π.

Remarque 46. Si il est primordial que ϕ soit un C 1 -difféomorphisme pour éviter les effets de type courbe
de Peano, il est parfois possible d’enlever des points au domaine pour obtenir un tel C 1 -difféomorphisme.
Typiquement, dans l’exemple ci-dessus, ϕ est un C 1 -difféomorphisme de R∗+ × [0, 2π) dans R2 \ {0} et
non de R∗+ × [0, 2π) dans R2 . Ce problème est levé en remarquant que f 1R2 = f 1R2 \{0} presque partout.

78
Chapitre 6

Espaces Lp et Lp

Dans ce chapitre, K désigne indifféremment le corps des réels ou des complexes.

6.1 Généralités
Définition 6.1.1. Pour tout réel p > 0, on définit
Z
LpK (X, X , µ) = f : (X, X ) → (K, B(K)) mesurable : |f |p dµ < ∞ .

Si il n’y a pas d’ambiguı̈tés, on notera plus simplement LpK (µ) voir Lp .

Remarque 47. Si m désigne la mesure de comptage sur (S, P(S)) où S est un ensemble dénombrable,
alors ( )
X
LpK (m) = ℓpK (S) = (as )s∈S : |as |p < ∞ .
s∈S

Proposition 6.1.2. Pour tout p > 0, LpK (µ) est un K-espace vectoriel.

Démonstration. On vérifie que LpK (µ) est un sous espace vectoriel du K-espace vectoriel des fonctions
mesurables sur (X, X ) à valeurs dans K. Il est immédiat que la fonction nulle est dans LpK (µ). Soient
λ ∈ K et f, g ∈ LpK (µ). Les majorations

|λf + g|p ≤ (|λ||f | + |g|)p ≤ (2 max{|λ||f |, |g|})p ≤ 2p |λ|p |f |p + 2p |g|p

assurent que λf + g ∈ LpK (µ).

Proposition 6.1.3. Si µ(X) < ∞, alors, pour tout p ∈ (0, q], LqK (µ) ⊂ LpK (µ).

Démonstration. Si p ∈ (0, q], alors |f |p ≤ |f |q 1|f |>1 + 1|f |≤1 . Ainsi, dès que f ∈ LqK (µ), on obtient
Z Z
|f |p dµ ≤ |f |q dµ + µ({|f | ≤ 1}) < ∞.

Exercice 23. Montrer que les inclusions sont strictes en général. Montrer que l’hypothèse de mesure finie
est primordiale.

Proposition 6.1.4. Pour tout p ∈ (0, q], ℓpK (S) ⊂ ℓqK (S).

Démonstration. Soient p ∈ (0, q] et P(as )s∈S alors S = {s ∈ S : |as | > 1}∁ est fini. Comme pour tout
s ∈ S , |as | ≤ |as | , on obtient que s∈S |as |q < ∞.
∁ q p

79
Définition 6.1.5 (p-Norme). Soient f : (X, X , µ) → K et p ≥ 1. On définit la quantité
Z 1/p
∥f ∥p = |f |p ∈ R+ ,
X

avec la convention (+∞)1/p = +∞.

Pour p = ∞, on définit la quantité
∥f ∥∞ = inf{r ≥ 0 : µ({|f | > r}) = 0} = ess sup|f |.
Remarque 48. On peut aussi considérer le cas p ∈ (0, 1) mais alors l’appellation “p-norme” est abusive
car l’inégalité triangulaire n’est plus valide. On parle alors de quasi-norme que l’on éludera pour notre
part.

6.2 Inégalités de Hölder et de Minkowski

1 1
Deux réels p, q ∈ [1, ∞] sont dits conjugués si p + q = 1 avec la convention 1/∞ = 0.
Théorème 6.2.1 (Inégalité de Hölder). Soient f, g : (X, X , µ) → K et p, q ∈ [1, ∞] deux indices
conjugués.
1. Si f, g sont positives, alors dans R+
Z
0 ≤ f g dµ ≤ ∥f ∥p ∥g∥q .

En outre, si p, q ∈ (1, ∞) et ∥f ∥p et ∥g∥q sont finis, l’inégalité est une égalité si et seulement il
existe α, β > 0 tels que αf p = βg q µ-presque partout.
2. Si f ∈ LpK (µ) et g ∈ LqK (µ), alors f g ∈ L1K (µ) et
∥f g∥1 ≤ ∥f ∥p ∥g∥q .
En outre, si p, q ∈ (1, ∞), l’inégalité est une égalité si et seulement si il existe α, β > 0 tels que
α|f |p = β|g|q µ-presque partout.
Démonstration. Si p = 1 et q = ∞ (ou l’inverse en échangeant les rôles de p et q), il suffit de remarquer
que 0 ≤ f g ≤ f ∥g∥∞ µ-p.p. et d’intégrer cette inégalité.
Si p, q ∈ (1, ∞), on commence par établir une inégalité utile dans la suite. Soient α ∈ (0, 1) et x ∈ R+ ,
on pose ϕα (x) = xα − αx. La fonction ϕα est dérivable sur R∗+ et ϕ′α (x) = α(xα−1 − 1). D’où, ϕ′α < 0 sur
(1, ∞) et ϕ′α > 0 sur (0, 1). Donc pour tout x ∈ R+ , ϕα (x) ≤ ϕα (1) avec égalité si et seulement si x = 1.
Aussi, xα ≤ αx + 1 − α avec égalité si et seulement si x = 1. En posant x = u/v avec u ≥ 0 et v > 0, il
vient
uα v 1−α ≤ αu + (1 − α)v avec égalité si et seulement si u = v. (6.1)
Cette inégalité est encore vraie pour u, v ∈ R+ .
On revient à la preuve du premier point. Si ∥f ∥p ou ∥g∥q est nulle alors f ou g est nulle µ-presque
partout et il en va de même pour f g. L’inégalité est alors triviale. De même si ∥f ∥p ou ∥g∥q vaut ∞. On
suppose donc que ces deux quantités sont strictement positives et finies. On pose
1 1 fp gq
α= , d’où 1 − α = , u= et v = .
p q ∥f ∥pp ∥g∥qq
D’après l’inégalité (6.1),
fg 1 fp 1 gq
≤ p + .
∥f ∥p ∥g∥p p ∥f ∥p q ∥g∥qq
En intégrant de chaque côté de l’inégalité contre µ, il vient
fp gq
Z Z Z
1 1
0 ≤ f g dµ ≤ ∥f ∥p ∥g∥q dµ + dµ = ∥f ∥p ∥g∥q .
p ∥f ∥pp q ∥g∥qq
L’égalité a lieu si et seulement si f /∥f ∥p = g/∥g∥q µ-presque partout. Le deuxième point du théorème
est immédiat.

80
Corollaire 6.2.2. Si µ est une mesure de probabilité, l’application r → ∥f ∥r est croissante.

Théorème 6.2.3 (Inégalité de Minkowski). Si p ∈ [1, ∞], alors, pour tout f, g ∈ LpK (µ),

∥f + g∥p ≤ ∥f ∥p + ∥g∥p .

L’égalité a lieu si et seulement si

— f = 0 µ-presque partout ou g = αf µ-presque partout, pour α ≥ 0 si p > 1
— f = 0 µ-presque partout ou f ḡ ≥ 0 µ-presque partout si p = 1.

Démonstration. Si ∥f + g∥p = 0, l’inégalité est triviale. Sinon, on intègre par rapport à µ l’inégalité

|f + g|p ≤ |f ||f + g|p−1 + |g||f + g|p−1 avec la convention x0 = 1 pour x ≥ 0.

On obtient alors Z Z
∥f + g∥pp ≤ |f ||f + g|p−1 dµ + |g||f + g|p−1 dµ.

Si p = 1, l’inégalité est établie. Sinon, puisque (p − 1)q = p, l’inégalité de Hölder assure que
Z Z 1/q
|f ||f + g|p−1 dµ ≤ ∥f ∥p |f + g|(p−1)q dµ = ∥f ∥p ∥f + g∥p/q
p .

Ainsi,
∥f + g∥pp ≤ (∥f ∥p + ∥g∥p ) ∥f + g∥p/q
p .

p/q
Il ne reste plus qu’à simplifier par ∥f + g∥p qui est strictement positif et à remarquer p − p/q = 1 pour
obtenir l’inégalité souhaitée.
L’inégalité pour p = ∞ est une conséquence immédiate de l’inégalité triangulaire pour la valeur
absolue.

Remarque 49. L’inégalité de Minkowski n’est rien d’autre que l’inégalité triangulaire pour la p-norme.
L’homogénéité est immédiate. Ainsi, ∥ · ∥p est une semi-norme. Pour que ce soit une norme, il faudrait
que ∥f ∥p = 0 implique f = 0, or f n’est nulle que µ-presque partout.
Il existe une façon simple de construire un espace vectoriel normé à partir de Lp et ∥ · ∥p : il suffit de
considérer l’espace quotient Lp /∼ où ∼ est la relation d’équivalence d’égalité µ-presque partout : f ∼ g
si et seulement si f = g µ-presque partout.

Définition 6.2.4 (Espaces Lp ). L’espace LpK (µ) est défini comme l’espace LpK (µ) modulo l’égalité µ-
presque partout : LpK (µ) = LpK (µ)/∼. L’espace LpK (µ) muni de l’application ∥ · ∥p est un K-espace vectoriel
normé.

Théorème 6.2.5. Pour tout p ≥ 1, l’espace vectoriel normé (LpK (µ), ∥ · ∥p ) est un espace de Banach.

Démonstration. Fixons p ∈ [1, ∞) et considérons une suite de Cauchy (fn )n≥0 d’éléments dans LpK (µ).
On peut trouver une sous-suite (fnk )k≥0 telle que pour tout k ≥ 0 : ∥fnk+1 − fnk ∥p ≤ 2−k . Pour prouver
que (fn )n≥0 converge, il suffit de montrer que (fnk )k≥0 converge car les suites de Cauchy ont au plus
une valeur d’adhérence (voir la proposition 1.2.83). Pour cela, posons
X
g= |fnk+1 − fnk |.
k≥0

La fonction g est mesurable et par convergence monotone ainsi que l’inégalité de Minkowski :
X
∥g∥p ≤ ∥fnk+1 − fnk ∥p < ∞.
k≥0

p
La fonction g est donc finie µ-presque partout commeP toute fonction dans LK (µ). Ainsi, hors d’un certain
ensemble négligeable, la série numérique gn (x) = k≥0 (fnk+1 −fnk )(x) est absolument convergente, donc

81
convergente. Ainsi, en dehors de cet ensemble négligeable, la suite (gn )n≥0 converge donc simplement
vers une certaine fonction f qui est, de ce fait, mesurable. On conclut en remarquant que f vérifie
X
∥f − fnk ∥p ≤ ∥fnℓ+1 − fnℓ ∥p ≤ 2−k+1 ,
ℓ≥k

si bien que f est dans LpK (µ) et que (fnk )k≥0 ainsi que (fn )n≥0 converge vers f dans cet espace.
Considérons le cas p = ∞ et soit (fn )n≥0 une suite de Cauchy. Soit ε > 0, alors il existe N ≥ 0 tel que
pour tout n, m ≥ N , ∥fn − fm ∥∞ ≤ ε. Cela implique l’existence d’ensemble Nn,m tel que µ(Nn,m ) = 0
et si x ∈
/ Nn,m , |fn (x) − fm (x)| ≤ ε. Posons N = ∪n,m≥N Nn,m , alors µ(N ) = 0 et pour tout n, m ≥ 0 et
tout x ∈ N ∁ , |fn (x) − fm (x)| ≤ ε. Ainsi, pour tout x ∈ N ∁ , (fn (x))n≥0 est une suite de Cauchy dans K
complet, elle converge donc vers un réel f (x). Or,

|f (x)| ≤ |f (x) − fn (x)| + |fn (x)| ≤ ε + sup ∥fn ∥∞ , n ≥ N, x ∈ N ∁ .

n≥N

Pour conclure, il suffit de remarquer que |∥fn ∥∞ − ∥fm ∥∞ | ≤ ε ainsi (∥fn ∥∞ )n≥0 est convergente donc
bornée.

Remarque 50. On a montré au passage le fait suivant : si (fn )n≥0 est une suite de Cauchy dans LpK (µ),
p ∈ [1, ∞), alors il existe une suite extraite qui converge µ-presque partout.

6.3 Théorème de Radon-Nikodym

6.3.1 Un peu d’espace de Hilbert
Dans toute la suite K = R ou C.

Définition 6.3.1. Un produit scalaire sur un K-espace vectoriel E est une application ⟨·, ·⟩ : E × E → K
satisfaisant
1. pour tout y ∈ E, l’application de E dans K qui à x ∈ E associe ⟨x, y⟩ est linéaire ;
2. — si K = R alors ⟨x, y⟩ = ⟨y, x⟩ pour tout x, y ∈ E ;
— si K = C alors ⟨x, y⟩ = ⟨y, x⟩ pour tout x, y ∈ E ;
3. pour tout x ∈ E, ⟨x, x⟩ ∈ R+ ;
4. ⟨x, x⟩ = 0 si et seulement si x = 0.
Autrement dit, un produit scalaire est une forme bilinéaire (ou hermitienne si K = C) symétrique définie
positive.
Un espace vectoriel E muni d’un produit scalaire est appelée espace préhilbertien.

Proposition 6.3.2 (Inégalité de Cauchy-Schwarz). Un (E, ⟨·, ·⟩) un espace préhilbertien. Alors pour
tout x, y ∈ E, |⟨x, y⟩|2 ≤ ⟨x, x⟩⟨y, y⟩.

Démonstration. Soit u ∈ K unitaire (|u| = 1) tel que u⟨x, y⟩ = |⟨x, y⟩|. Alors, par définition, pour tout
t ∈ R, ⟨ux + ty, ux + ty⟩ ≥ 0. Or

⟨ux + ty, ux + ty⟩ = ⟨ux, ux⟩ + 2tRe ⟨ux, y⟩ + t2 ⟨y, y⟩ = ⟨x, x⟩ + 2t|⟨x, y⟩| + t2 ⟨y, y⟩.

Ce polynôme du second degré est positif pour tout t ∈ R si bien que son discriminant est négatif ou nul.
C’est à dire |⟨x, y⟩|2 ≤ ⟨x, x⟩⟨y, y⟩.
p
Corollaire 6.3.3. Soit (E, ⟨·, ·, ⟩) un espace préhilbertien alors ∥x∥ = ⟨x, x⟩ est une norme sur E.

Démonstration. Notons tout d’abord que ⟨x, x⟩ ≥ 0 si bien que la racine est correctement définie, en
particulier ∥x∥ ∈ R+ . On vérifie les troisq
axiomes d’une norme :
p
— Soit λ ∈ K, ∥λx∥ = ⟨λx, λx⟩ = λλ⟨x, x⟩ = |λ|∥x∥.
— Soit x ∈ E, ∥x∥ = 0 si et seulement si ⟨x, x⟩ = 0 si et seulement si x = 0.

82
— Enfin, pour tout x, y ∈ E :

⟨x + y, x + y⟩ = ⟨x, x⟩ + ⟨y, y⟩ + ⟨x, y⟩ + ⟨x, y⟩ ≤ ⟨x, x⟩ + ⟨y, y⟩ + 2|⟨x, y⟩|

p p 2
≤ ⟨x, x⟩ + ⟨y, y⟩ .

Proposition 6.3.4 (Identité du parallélogramme). Soient x, y ∈ E préhilbertien, alors

2 2
x+y x−y 1
∥x∥2 + ∥y∥2 .

+ =
2 2 2
Démonstration. Exercice.
Définition 6.3.5. Un espace préhilbertien complet pour la norme issue du produit scalaire est appelé
espace de Hilbert.
Exemple 26. On munit L2µ (Rd ), l’espace des fonctions de carré intégrable sur Rd muni d’une mesure µ,
du produit scalaire Z
⟨f, g⟩ = f (x)g(x)µ(dx), f, g ∈ L2µ (Rd ).
Rd
La norme associée est la norme L usuelle et, muni de cette norme, on sait que L2µ (Rd ) est complet.
2

Ainsi, muni du produit scalaire défini ci-dessus, c’est un espace de Hilbert.

Définition 6.3.6. Si E est un espace préhilbertien, alors x est dit orthogonal à y et on note x ⊥ y si
⟨x, y⟩ = 0. Si A est une partie de E, l’orthogonal de A noté A⊥ est défini par
A⊥ = {x ∈ E : ∀y ∈ A, x ⊥ y}
⊥ ⊥
Proposition 6.3.7. 1. Si A ⊂ B ⊂ E alors B ⊂A ;
⊥
2. A est un s.e.v. fermé de E ;
Démonstration. 1. Soit x ∈ B ⊥ . Alors pour tout y ∈ B, ⟨x, y⟩ = 0. Or A ⊂ B donc pour tout y ∈ A,
⟨x, y⟩ = 0. Ainsi, B ⊥ ⊂ A⊥ .
2. On observe A⊥ = y∈A {x ∈ E : ⟨x, y⟩ = 0}. Or, pour tout y ∈ E, l’application x → ⟨x, y⟩ est
T
continue. Par conséquent, {x ∈ E : ⟨x, y⟩ = 0} est un fermé comme l’image réciproque de {0} par
une application continue. D’où A⊥ est fermé.

Théorème 6.3.8 (Théorème de Pythagore). Soient x, y ∈ E tels que x ⊥ y, alors ∥x+y∥2 = ∥x∥2 +∥y∥2 .
Exemple 27. Dans L2µ ([0, 2π]d ) où µ est une probabilité, les fonctions en : x → ei⟨z,x⟩ , z ∈ Zd , sont deux
à deux orthogonales.
Démonstration. Soient x, y ∈ E tels que x ⊥ y alors
∥x + y∥2 = ⟨x + y, x + y⟩ = ⟨x, x⟩ + ⟨y, y⟩ + 2⟨x, y⟩ = ∥x∥2 + ∥y∥2 .

Définition 6.3.9. Soit (E, ∥ · ∥) un espace vectoriel normé. Une partie C ⊂ E est dite convexe si pour
tout x, y ∈ C le segment [x, y] = {tx + (1 − t)y : t ∈ [0, 1]} est inclue dans C.
Exemple 28. Dans un espace vectoriel normé, les boules ouvertes, les boules fermés, les sous-espace
vectoriels sont convexes.
Théorème 6.3.10 (Projection sur un convexe). Soient (E, ⟨·, ·⟩) un espace de Hilbert et C un sous-
ensemble convexe fermé non vide de E. Alors, pour tout x ∈ E, il existe un unique y ∈ C tel que
∥x − y∥ = d(x, C). On note PC (x) = y le projeté de x sur C. Le projeté PC (x) est aussi l’unique élément
y ∈ C tel que
Re ⟨x − y, z − y⟩ ≤ 0, ∀z ∈ C.
Le projecteur PC est 1-lipschitzien

83
Démonstration. On commence par l’existence. Soit x ∈ E, on choisit une suite (yn )n≥0 d’éléments de
C telle que ∥x − yn ∥ converge vers d(x, C) = δ et plus précisément δ 2 ≤ ∥x − yn ∥2 ≤ δ 2 + 1/n. Alors
(yn )n≥0 est une suite de Cauchy. En effet, par l’identité du parallélogramme,
2 2
x − yn x − ym x − yn x − ym 1
∥x − yn ∥2 + ∥x − ym ∥2 ,

+ + − =
2 2 2 2 2

et donc  
yn + ym 2
∥yn − ym ∥2 = 2 ∥x − yn ∥2 + ∥x − ym ∥2  − 4 ∥x − ∥ .
 
| {z } | {z } | {z2 }
2 ≤δ +1/n2 ≤δ +1/m
≥δ 2

Puisque C est un fermé dans un espace complet, il est complet et cela assure l’existence d’un élément
y ∈ C tel que yn → y. De plus, ∥x − y∥ = δ = d(x, C) par continuité.
Pour l’unicité, on suppose qu’il existe y ̸= z vérifiant l’égalité ∥x − y∥ = ∥x − z∥ = d(x, C). En
remplaçant, yn et ym par y et z dans le calcul précédant, on constate que
y+z 2
∥y − z∥2 = 2(∥x − y∥2 + ∥x − z∥2 ) − 4∥x − ∥ ≤ 0,
2
et z = y.
On peut donc poser y = PC (x). Montrons que pour tout z ∈ C, Re ⟨x − y, z − y⟩ ≤ 0. Soit z ∈ C et
t ∈ (0, 1], par convexité, (1 − t)y + tz ∈ C et donc, puisque t ∈ R

0 ≤ ∥x − y∥2 ≤ ∥x − [(1 − t)y + tz]∥2 = ∥(x − y) − t(z − y)∥2 = ∥x − y∥2 − 2tRe ⟨x − y, z − y⟩ + t2 ∥y − z∥2 .

Il vient, pour tout t ∈ (0, 1],

2tRe ⟨x − y, z − y⟩ ≤ t2 ∥y − z∥2 ,
d’où le résultat.
Réciproquement, si y ∈ C vérifie, pour tout z ∈ C, Re⟨x − y, z − y⟩ ≤ 0, alors pour tout z ∈ C

∥x − z∥2 = ∥(x − y) − (z − y)∥2 = ∥x − y∥2 − 2Re ⟨x − y, z − y⟩ + ∥z − y∥2 ≥ ∥x − y∥2 .

Reste à montrer que PC est 1-lipschitzien. Soient x, y ∈ E alors

Re ⟨x − y, PC (x) − PC (y)⟩ = Re ⟨(x − PC (x)) + (PC (x) − PC (y)) + (PC (y) − y), PC (x) − PC (y)⟩
= Re ⟨x − PC (x), PC (x) − PC (y)⟩ + ∥PC (x) − PC (y)∥2 (6.2)
2
+ Re ⟨PC (y) − y, PC (x) − PC (y)⟩ ≥ ∥PC (x) − PC (y)∥ ,

en utilisant la caractérisation du projeté démontrée au dessus impliquant que le premier et troisième

termes sont négatifs. L’inégalité de Cauchy-Schwarz appliqué au membre de gauche de (6.2) implique

∥PC (x) − PC (y)∥2 ≤ Re ⟨x − y, PC (x) − PC (y)⟩ ≤ ∥x − y∥∥PC (x) − PC (y)∥. (6.3)

De deux choses l’une, ou bien PC (x) = PC (y) et 0 = ∥PC (x) − PC (y)∥ ≤ ∥x − y∥ quoiqu’il arrive ; ou
bien PC (x) ̸= PC (y) et en simplifiant (6.3) on obtient ∥PC (x) − PC (y)∥ ≤ ∥x − y∥.

Remarque 51. Si E est seulement préhilbertien, le résultat reste valable si C est complet pour la norme
induite par le produit scalaire.
Théorème 6.3.11 (Projeté sur un s.e.v. fermé). Soit F un s.e.v. fermé d’un espace de Hilbert E. Alors
le projecteur PF est linéaire et si x ∈ E, PF (x) est l’unique élément y ∈ F tel que x − y ∈ F ⊥ .
Démonstration. Par le théorème 6.3.10, PF (x) est l’unique élément y ∈ E tel que
 
 y∈F
  y∈F

⇐⇒
 Re ⟨x − y, z − y⟩ ≤ 0 ∀z ∈ F
  Re ⟨x − y, λz⟩ ≤ 0 ∀z ∈ F

∀λ ∈ C

84
car z − y ∈ F . Or si Re λ⟨x − y, z⟩ ≤ 0 pour tout λ ∈ C alors pour λ = ⟨x − y, z⟩, on obtient que
|⟨x − y, z⟩|2 ≤ 0 d’où ⟨x − y, z⟩ = 0.
Il reste à montrer que PF est linéaire : soient x1 , x2 ∈ E et λ ∈ K. Notons y1 = PF (x1 ) ∈ F et
y2 = PF (x2 ) ∈ F . Or
(x1 + λx2 ) − (y1 + λy2 ) = (x1 − y1 ) +λ (x2 − y2 ) . (6.4)
| {z } | {z }
∈F ⊥ ∈F ⊥

Ainsi y1 + λy2 est un élément de F tel que (x1 + λx2 ) − (y1 + λy2 ) ∈ F ⊥ , par unicité du projeté,
y1 + λy2 = PF (x1 + λx2 ). Ceci montre que PF (x1 ) + λPF (x2 ) = PF (x1 + λx2 ).

Corollaire 6.3.12. 1. Tout s.e.v. fermé F de E admet un supplémentaire orthogonal, i.e. E =

F ⊕ F ⊥ et l’identité satisfait I = PF + (I − PF ) avec PF (I − PF ) = (I − PF )PF = 0 et PF le
projecteur linaire sur F ;
2. Pour tout s.e.v. F de E, E = F ⊕ F ⊥ ;
3. Un s.e.v. F est dense dans E si et seulement si F ⊥ = {0} ;
4. Pour tout s.e.v. F de E, (F ⊥ )⊥ = F .

Exemple 29. Le s.e.v. F = {en : n ∈ Zd } ⊂ L2µ ([0, 2π]d ) est dense. C’est donc une base orthonormée.
L’analyse de Fourier dans le contexte L2 consiste en fait à décomposé les fonctions le long d’une base
orthonormée. En exercice, on pourra retrouver le théorème de Parseval qui est une extension du théorème
de Pythagore. Attention toutefois, les convergences des séries ont lieu dans L2 et ne préjuge en rien de
la convergence dans des topologies autres (convergence simple par exemple).

Démonstration. 1. Il est immédiat par le théorème 6.3.11 que

x = PF (x) + x − PF (x) . (6.5)

| {z } | {z }
∈F ∈F ⊥

De plus, si x ∈ F ∩ F ⊥ alors x ⊥ x donc ⟨x, x⟩ = 0 d’où x = 0. Ceci montre que E = F ⊕ F ⊥ .

L’équation (6.5) implique que I = PF + (I − PF ) et de plus que Im PF = F et Im (I − PF ) = F ⊥
d’où PF (I − PF ) = (I − PF )PF = 0.
2. On applique le point précédent à F en remarquant que (F )⊥ = F ⊥ par la proposition 6.3.7.
3. Le s.e.v. F est dense dans E si et seulement si E = F si et seulement si F ⊥ = {0}.
4. Soient x ∈ F et y ∈ F ⊥ alors ⟨x, y⟩ = 0 donc x ∈ (F ⊥ )⊥ par définition et F ⊂ (F ⊥ )⊥ . Par la
proposition 6.3.7, (F ⊥ )⊥ est fermé ainsi W = (F ⊥ )⊥ est un espace de Hilbert pour le produit
hermitien restreint à W . L’orthogonale de V dans W est V ⊥ ∩W = V ⊥ ∩(V ⊥ )⊥ = {0}. Autrement
dit, V est dense dans W , i.e. V = (V ⊥ )⊥ .

Remarque 52. Tous ces résultat restent valides dans un espace E préhilbertien pour autant que F est
complet.

6.3.2 Lemme de Fréchet-Riesz

Définition 6.3.13. Soit E un K-espace vectoriel. Une forme linéaire est une application linéaire de E
dans K. Si E est muni d’une norme, une forme linéaire sur E est dite continue si elle est continue de
(E, ∥ · ∥) dans (K, | · |).

Théorème 6.3.14 (Lemme de Fréchet-Riesz). Soient (E, ⟨·, ·⟩) un espace de Hilbert et ϕ une forme
linéaire continue sur E. Alors il existe un unique y ∈ E tel que ϕ(x) = ⟨x, y⟩ pour tout x ∈ E. De
plus, ∥ϕ∥L(E,K) = ∥y∥E . Autrement dit, l’application qui à y ∈ E associe la forme linéaire continue
E ∋ x → ⟨x, y⟩ ∈ K est une isométrie surjective — une isométrie est en effet toujours injective.

Démonstration. Notons ϕy = ⟨·, y⟩. Cette application est linéaire continue et plus précisément, pour tout
x ∈ E, |ϕy (x)| ≤ ∥x∥∥y∥ et ϕy (y) = ∥y∥2 . On en déduit ∥ϕy ∥ = ∥y∥. Ceci montre que y → ϕy est une
isométrie, reste à montrer qu’elle est surjective.

85
Considérons ϕ une forme linéaire continue. Si ϕ = 0, alors y = 0 convient (et c’est la seule !).
Supposons donc ϕ ̸= 0. Par continuité, Ker ϕ = ϕ−1 ({0}) est un s.e.v. fermé et par le théorème du
rang (infini dimensionnel) il est de codimension 1. Ainsi, nous avons la décomposition en somme directe
E = Ker ϕ⊕(Ker ϕ)⊥ . Puisque ϕ ̸= 0, il existe e ∈ (Ker ϕ)⊥ non nul et de norme 1. On pose y = ϕ(e)e ̸= 0.
Puis pour x ∈ E et x0 + x1 sa décomposition en somme directe. Alors
— ϕ(x0 ) = 0 = ⟨x0 , y⟩ = ϕy (x0 ),
— ϕy (e) = ⟨e, y⟩ = ⟨e, ϕ(e)e⟩ = ϕ(e)∥e∥2 = ϕ(e), et donc ϕy (x1 ) = ϕ(x1 ) car x1 ∈ (Ker ϕ)⊥ qui est
de dimension 1.
Finalement, pour tout x ∈ E, ϕy (x) = ϕ(x).

6.3.3 Théorème de Radon-Nikodym, cas des mesures positives

On commence par rappeler la définition d’une mesure à densité.
Définition 6.3.15 (Mesure à densité). Soit (X, X , µ) un espace mesuré. UneR mesure ν sur (X, X ) est à
densité par rapport à µ s’il existe f : X → [0, ∞] mesurable telle que ν(A) = 1A f dµ pour tout A ∈ X .
On appelle f la densité de ν par rapport à µ. On note ν = f · µ ou dν = f dµ.
Définition 6.3.16 (Mesure absolument continue). Soient (X, X ) un espace mesurable et µ, ν deux
mesures sur (X, X ). On dit que ν est absolument continue par rapport à µ si pour tout A ∈ X , µ(A) = 0
implique ν(A) = 0. On note ν ≺ µ.
Proposition 6.3.17. Soit (X, X , µ) un espace mesuré. Si ν est une mesure sur (X, X ) à densité par
rapport à µ, alors ν est absolument continue par rapport à µ
Démonstration. Il existe f : X → [0, ∞] mesurable telle que ν = f · µ. Soit A ∈ X tel que µ(A) = 0.
Ainsi 1A = 0 µ-presque partout, d’où 1A f = 0 µ-presque partout. Donc,
Z
ν(A) = 1A f dµ = 0 =⇒ ν ≺ µ.

Le théorème de Radon-Nikodym établit la réciproque : si ν ≺ µ alors ν est à densité par rapport à µ.

Théorème 6.3.18 (Radon-Nikodym). Soit (X, X , µ) un espace mesuré. On suppose que µ est σ-finie.
Soit ν une mesure sur (X, X ), alors les assertions suivantes sont équivalentes :
1. ν est finie et est absolument continue par rapport à µ ;
2. ν est à Rdensité intégrable par rapport à µ, c’est à dire qu’il existe f ∈ L1 (µ) positive telle que
ν(A) = 1A f dµ.
De plus f est unique, on l’appelle dérivée de Radon-Nikodym de ν par rapport à µ, on la note f = dν/dµ.
Démonstration. Si on suppose que ν est à densité f positive et intégrable par rapport à µ alors ν est
clairement finie et est absolument continue par la proposition précédente
En ce qui concerne l’unicité de la densité, si g est une densité de ν par rapport à µ, on pose An =
{f ≥ g + 1/n} et il vient par l’inégalité de Markov que
Z Z Z
ν(An ) = f dµ = g dµ =⇒ 0 = (f − g) dµ ≥ µ(An )/n.
An An An

D’où µ(An ) = 0 et µ(∪n≥1 An ) = 0 si bien que f ≤ g µ-p.p.. De la même manière, on montre que g ≥ f
µ-p.p.. Enfin, f = g dans L1 (µ).
Soit ρ = ν + µ, c’est à dire, ρ(A) = ν(A) + µ(A) pour tout A ∈ X . Alors ρ est σ-finie et pour tout f
mesurable positive Z Z Z
f dρ = f dν + f dµ.

De plus, f ∈ Lp (ρ) si et seulement si f ∈ Lp (ν) ∩ Lp (µ). Enfin, comme ρ(A) = 0 si et seulement si

ν(A) = µ(A) = 0, il vient que f ∈ Lp (ρ) si et seulement si f ∈ Lp (ν) ∩ Lp (µ).

86
Étape 1 : Lemme de Riesz-Fisher
Soit g ∈ L2 (ρ), alors g ∈ L2 (ν) puis par l’inégalité de Cauchy-Schwartz et le fait que ν soit finie
Z p
|g| dν ≤ ∥g∥2 ν(X).

T : L2 (ρ) → R définie par T g = g dν. C’est une forme linéaire

R
On peut donc définir l’application
p
continue (sa norme est ν(X)). D’après le lemme de Riesz-Fisher, il existe un unique ϕ ∈ L2 (ρ) tel que
pour tout g ∈ L2 (ρ) : Z Z Z Z
T (g) = g dν = gϕ dρ = gϕ dν + gϕ dµ.

Remarquons que la fonction ϕ est nulle si et seulement si ν = 0, mais dans ce cas le résultat est évident.
Heuristiquement, en posant g = 1A (1 − ϕ)−1 on a
Z Z
ϕ
ν(A) = 1A dν = 1A dµ.
1−ϕ
Il s’agit de justifier cette heuristique.

Étape 2 : Bornes sur ϕ

1. Montrons que ϕ ≥ 0 µ-p.p. et donc ν-p.p.. Soit (En )n≥0 ∈ X N une suite croissante d’ensembles
tels que µ(En ) < ∞ et X = ∪n≥0 En , puis notons Bn = {ϕ < 0} ∩ En . Clairement, g = 1Bn ∈
L2 (µ) ∩ L2 (ν) et donc g ∈ L2 (ρ). La représentation de Riesz-Fisher donne
Z Z
1Bn (1 − ϕ) dν = 1Bn ϕ dµ.

On remarque que l’intégrande à gauche est positive alors que celle de droite est négative si bien
que les deux intégrales doivent être nulles. Ainsi :

1Bn ϕ = 0, µ − p.p. et 1Bn (1 − ϕ) = 0, ν − p.p..

Or par définition de Bn , 1Bn ϕ < 0 et 1Bn (1−ϕ) > 1 partout. En particulier, il vient que µ(Bn ) = 0
et ν(Bn ) = 0. Ceci montre que ϕ ≥ 0 µ-p.p. et ν-p.p.. De plus, la positivité de ϕ ν-p.p. ne requiert
pas d’hypothèses particulières.
2. Montrons que ϕ < 1 µ-p.p. et ν-p.p.. Cette fois-ci, on pose

Cn = {ϕ ≥ 1} ∩ En ,

et on obtient par la représentation de Riesz-Fisher

Z Z
1Cn (1 − ϕ) dν = 1Cn ϕ dµ.

Là-encore, l’intégrande à gauche est négative alors que celle de droite est positive. On en déduit
0 = 1Cn ϕ ≥ 1Cn µ-p.p. donc µ(Cn ) = 0. En particulier, puisque ν ≺ µ, on a aussi ν(Cn ) = 0.
Contrairement au point précédent, l’hypothèse d’absolue continuité est essentielle, c’est ici qu’elle
apparaı̂t.
Quitte à modifier ϕ sur un ensemble ρ-négligeable, on peut considérer que ϕ(x) ∈ [0, 1) pour tout x ∈ X.
On pose alors f = ϕ/(1 − ϕ) qui est mesurable positive.

Étape 3 : Montrons que dν = f dµ. Pour cela, on utilise à nouveau l’égalité provenant de la représen-
tation de Riesz-Fisher pour tout g ∈ L2 (ρ)
Z Z
g(1 − ϕ) dν = gϕ dµ. (6.6)

Soit A ∈ X tel que µ(A) < ∞ et posons g = 1A . Alors g ∈ L2 (ρ) et

Z Z
1A (1 − ϕ) dν = 1A ϕ dµ. (6.7)

87
Si µ(A) = ∞, on pose An = A ∩ En et par convergence monotone l’égalité (6.7) est toujours vérifiée,
éventuellement dans R+ .
Ce qui est vrai pour les indicatrices reste vraie pour les fonctions étagées positives en utilisant la
linéaire de l’intégrale pour les fonctions positives. C’est également vrai pour les fonctions mesurables
positives en utilisant le théorème de convergence monotone. Ainsi, l’égalité 6.6 déduite du lemme de
Riesz-Fisher est satisfaite pour toute fonction g mesurable positive. En particulier, pour tout A ∈ X , la
fonction g = 1A /(1 − ϕ) est mesurable positive et on obtient
Z Z Z
1A ϕ
(1 − ϕ) dν = 1A dµ ⇐⇒ ν(A) = 1A f dµ.
1−ϕ 1−ϕ
Comme ν est supposée finie, la fonction f est intégrable positive.
Définition 6.3.19 (Mesures étrangères). Deux mesures µ et ν sont dites étrangères s’il existe un en-
semble E ∈ X tel que µ(E ∁ ) + ν(E) = 0. On dit que µ est concentrée sur E et ν sur E ∁ .

6.3.4 Théorème de Radon-Nikodym, cas des mesures signées

Définition 6.3.20 (Mesure signée). Soit (X, X ) un espace mesurable. Une mesure signée µ est une
application σ-additive dePX dans R, i.e. pour toute suite (An )n≥0 d’ensembles mesurables deux à deux
disjoints, µ(∪n≥0 An ) = n≥0 µ(An ).
Si µ est une mesure signée, on peut lui associer sa variation totale, notée |µ|, définie pour tout A ∈ X
 
X [ 
|µ(A)| = sup |µ(En )| : i ̸= j ⇒ Ei ∩ Ej = ∅, En = A .
 
n≥0 n≥0

Remarque 53. Une mesure signée µ vérifie en particulier, par définition, µ(X) < ∞. Il n’est de même
P En effet, ∅ = ∪n≥0 ∅ qui est une réunion
pas nécessaire de supposer µ(∅) = 0 pour les mesures signées.
d’ensembles deux à deux disjoints. Si µ(∅) ̸= 0, on aurait n≥0 µ(∅) = ±∞ ce qui est exclu.
Proposition 6.3.21. Soit µ une mesure signée sur un espace mesurable (X, X ). Alors,
1. |µ| est une mesure positive,
2. |µ| est une mesure finie,
3. Pour tout A ∈ X , |µ(A)| ≤ |µ|(A).
Démonstration. 1. Suivant la remarque précédente, nous avons déjà que µ(∅) = 0 d’où il vient
facilement que |µ|(∅) = 0. Soit (An )n≥0 une famille d’ensembles mesurables deux à deux disjoints.
On note A = ∪n≥0 An et on se donne une partition (Ek )k≥0 de A. On remarque que Ek =
∪n≥0 Ek ∩ An qui est une réunion disjointe. C’est à dire (Ek ∩ An )n≥0 est une partition de Ek
pour tout k ≥ 0. D’où

X X X
|µ(Ek )| = µ(Ek ∩ An )
k≥0 k≥0 n≥0
XX
≤ |µ(An ∩ Ek )| ≤ |µ|(An ),
n≥0 k≥0

en intervertissant
P les sommes et en remarquant que (Ek ∩ An )k≥0 est une partition de An . Donc,
|µ|(A) ≤ n≥0 |µ|(An ).
Réciproquement, on considère pour tout n ≥ 0 une partition (En,k )k≥0 de An . Manifestement,
(En,k )n,k≥0 est une partition de A. Donc,
 
X X X
 |µ(En,k )| = |µ(En,k )| ≤ |µ|(A).
n≥0 k≥0 k,n≥0

En passant à la borne supérieure pour tout n ≥ 0, on obtient l’inégalité inverse.

88
2. Ce deuxième résultat nécessite deux lemmes.
PN
Lemme 6.3.22. Pour x1 , . . . , xN ∈ R, on pose S = k=1 |xk |. Alors il existe I ⊂ {1, 2, . . . , N }
tel que
X
xi ≥ S/2.
i∈I

Démonstration. Immédiat.
Lemme 6.3.23. Si E ∈ X est tel que |µ|(E) = ∞ alors il existe une partition de E en deux
ensembles mesurables A et B tels que |µ(A)| ≥ 1 et |µ|(B) = ∞.

Démonstration. Nous avons µ(E) ∈ R et donc |µ(E)| < ∞. Posons M = 2(1 + |µ(E)|). Si
|µ|(E) = ∞ alors il existe E1 , E2 , . . . , EN disjoints et contenu dans E tels que
N
X
|µ(Ek )| ≥ M.
k=1

Par le lemme 6.3.22, il existe I ⊂ {1, . . . , N } tel que

X
µ(Ek ) ≥ M/2.
k∈I

On pose alors A = ∪k∈I Ek , et nous avons

X
|µ(A)| = µ(Ek ) ≥ M/2 ≥ 1.
k∈I

D’autre part, en posant B = E \ A, on obtient µ(E) = µ(A) + µ(B) et donc |µ(B)| ≥ |µ(E)| −
|µ(A)| ≥ M/2 − |µ(E)| = 1. De plus, |µ| est σ-additive donc

∞ = |µ|(E) = |µ|(A) + |µ|(B),

d’où |µ|(A) = ∞ ou |µ|(B) = ∞. C’est le résultat du lemme quitte à modifier le rôle de A et

Si |µ|(X) = ∞, on construit par récurrence grâce au lemme 6.3.23 une suite (An )n≥0 d’ensembles
mesurables deux à deux disjoints tel que |µ(An )| ≥ 1 pour tout n ≥ 0. Or
 
X [
µ(An ) = µ  An  ∈ R
n≥0 n≥0

est une série convergente, donc µ(An ) tend vers 0 quand n tend vers l’infini. C’est une contradic-
tion.
3. Ce point est immédiat en remarquant que {A, ∅, ∅, . . .} est une partition de A donc vérifie en
particulier |µ(A)| ≤ |µ|(A).

Si µ est une mesure signée sur un espace mesurable (X, X ) alors, en posant,

|µ| + µ |µ| − µ
µ+ = et µ− = .
2 2
on vérifie que µ = µ+ − µ− . De plus, µ+ et µ− sont des mesures positives.
Théorème 6.3.24 (Décomposition de Hahn). Si µ est une mesure signée sur (X, X ), alors il existe une
partition de X en deux ensembles N et P tels que
— pour tout A ⊂ P mesurable, µ(A) ≥ 0,

89
— et pour tout B ⊂ N mesurable, µ(B) ≤ 0.
De plus, µ+ et µ− sont caractérisées par µ+ (·) = µ(· ∩ P ) et µ− = −µ(· ∩ N ). En particulier, µ+ et µ−
sont étrangères.
Démonstration. Admis.
Théorème 6.3.25 (Théorème de Radon-Nikodym). Soit (X, X , µ) un espace mesuré avec µ une mesure
positive σ-finie. Soit ν une mesure signée sur (X, X ), alors les assertions suivantes sont équivalentes.
1. ν est absolument continue par rapport à µ ;
2. νR est à densité intégrable par rapport à µ, i.e. il existe une unique f ∈ L1 (µ) telle que ν(A) =
1A f dµ pour tout A ∈ X .
Démonstration. Si ν est à densité intégrable alors ν est absolument continue par rapport µ, c’est
immédiat.
Réciproquement, supposons ν est absolument continue par rapport à µ, et commençons par montrer
que |ν| est absolument continue par rapport à µ. En effet, soit A ∈ X tel que µ(A) = 0 et soit (En )n≥0
une partition de A. Pour tout n ≥ 0, En ⊂ A donc µ(En ) = 0 et donc ν(En ) = 0. Puis,
X
|ν(En )| = 0 =⇒ |ν|(A) = 0.
n≥0
+ −
Les mesures ν et ν sont donc aussi absolument continue par rapport à µ. Elles sont également finies.
On applique donc le théorème de Radon-Nikodym pour les mesures positives qui nous assure l’existence
de deux fonctions f + et f − positives intégrables telles que dν ± = f ± dµ. Ainsi, f = f + − f − ∈ L1 (µ)
et par linéarité de l’intégrale pour les fonctions intégrables, on obtient dν = f dµ.
Définition 6.3.26. On note M(X, X , R) = {µ mesures signées sur (X, X )}. C’est un R-espace vectoriel.
On peut le munir de la norme de la variation totale définie par ∥µ∥V T = |µ|(X).
Théorème 6.3.27 (Cohn). L’espace vectoriel normé (M(X, X , R), ∥ · ∥V T ) est un espace de Banach.
Remarque 54. Les mesures signées apparaissent comme une généralisation naturelle des mesures positives.
Nous ne l’avons pas évoqué ici, mais il existe également une notion de mesure à valeurs complexes. Ces
deux généralisations, bien qu’utile en théorie de la mesure, ne sont plus interprétables en termes de
mesure d’aire ou de volume.

6.4 Approximation dans les espaces Lp , p ∈ [1, ∞)

L’espaces L∞ est particulièrement gros et possède peu de bonnes propriétés. C’est le cas notamment
en théorie de l’approximation : hormis le paragraphe 6.4.1, les autres ne concernent que le cas p fini.
Lemme 6.4.1. Si (fn )n≥0 et (gn )n≥0 converge respectivement vers f et g dans LpK (µ) et que (λn )n≥0
converge vers λ, alors (λn fn + gn )n≥0 converge dans LpK (µ) vers λf + g.
Démonstration. Le lemme se déduit de l’inégalité suivante
∥λf + g − λn fn − gn ∥p = ∥λf − λn f + λn f + g − λn fn − gn ∥p ≤ |λ − λn |∥f ∥p + |λn |∥f − fn ∥ + ∥g − gn ∥p .

6.4.1 Approximation par des fonctions étagées mesurables

Proposition 6.4.2. L’espace vectoriel des fonctions étagées intégrables est dense dans l’espace LpK (µ)
pour la norme ∥ · ∥p , p ∈ [1, ∞].
Démonstration. Soit f ∈ LpK (µ). Si f est à valeurs dans K, on a la décomposition f = Re f + − Re f − +
iIm f + − iIm f − . Aussi, on peut supposer f positive sans perte de généralité.
On sait qu’il existe une suite (fn )n≥0 monotone croissante de fonctions étagées positives vérifiant
0 ≤ fn ≤ f pour tout n ≥ 0 et limn→∞ fn = f µ-presque partout. Alors |f − fn |p converge vers 0 µ-
presque partout et |f − fn |p ≤ 2f p . Par le théorème de convergence dominée, on obtient le résultat.
Remarquons enfin que, si ϕ est étagée, ϕ est intégrable si et seulement si ϕp est intégrable si et
seulement µ({ϕ ̸= 0}) < ∞.

90
6.4.2 Approximation par des fonctions continues à support compact
Comme annoncé, on se restreint ici aux espaces Lp avec p fini. Dans cette partie, sauf mention
contraire, on suppose de plus que (X, d) est un espace métrique et (X, X , µ) est un espace mesuré où
X = B(X) est la tribu borélienne. Les théorèmes ci-dessous s’appliquent typiquement pour (Rd , B(Rd ), λ).
Définition 6.4.3 (Fonctions en escalier). Une fonction mesurable sur X est dite en escalier si il existe
des ouverts Oi , i = 1, . . . , n, deux à deux disjoints et des αi ∈ K, i = 1, . . . , n tels que
n
X
f= αi 1Oi .
i=1

Le support (topologique) d’une fonction f est l’adhérence de l’ensemble {f ̸= 0}, on note supp f =
{f ̸= 0}.
Proposition 6.4.4. Soient (X, T ) un espace topologique et µ une mesure extérieurement régulière sur
(X, B(X)). Alors les fonctions en escaliers intégrables sont denses dans Lp (µ), p ∈ [1, ∞).
Démonstration. Les fonctions en escaliers sont évidemment mesurables et dans Lp (µ) si et seulement si
elles sont intégrables.
Soit A ∈ B(X) tel que 1A ∈ Lp (µ) (i.e. µ(A) < ∞). Par régularité de la mesure µ, on peut trouver
une suite (On )n≥0 contenant A tel que µ(On ) tende vers µ(A). En particulier, pour tout n assez grand,
µ(On ) < ∞ et donc 1On ∈ Lp (µ). Puis, on calcule
∥1A − 1On ∥pp = µ(On ) − µ(A) → 0, quand n → ∞.

Remarque 55. La preuve met en évidence l’obstruction pour le cas p = ∞. Puisque ∥1On − 1A ∥∞ = 1
sauf si µ(On \ A) = 0 à partir d’un certain rang, c’est à dire A est, à ensemble de mesure nulle près,
ouvert.
Proposition 6.4.5. Soient (X, d) un espace métrique et µ est une mesure sur (X, B(X)). On suppose
qu’il existe une suite croissante (Kn )n≥0 de compacts de µ-mesure finie telle que X = ∪n≥0 Int Kn . Alors
µ est une mesure de Borel régulière et les fonctions en escaliers à support compact sont denses dans
Lp (µ), p ∈ [1, ∞).
Démonstration. La régularité de µ provient du théorème 2.2.36. Soit K un compact, alors on peut extraire
du recouvrement d’ouvert (Int Kn )n≥0 un sous-recouvrement fini. Il existe donc n0 tel que K ⊂ Kn0 et
µ(K) < ∞, c’est une mesure de Borel.
Soit O un ouvert tel que µ(O) < ∞, on pose On = O ∩ Int Kn alors par continuité à gauche µ(On )
converge vers µ(O) et donc 1On converge vers 1O dans Lp (µ). De plus, On ⊂ Kn . Le résultat découle du
lemme 6.4.1 et de la proposition 6.4.4
Proposition 6.4.6. Soient (X, d) un espace métrique et µ est une mesure sur (X, B(X)). On suppose
qu’il existe une suite croissante (Kn )n≥0 de compacts de µ-mesure finie telle que X = ∪n≥0 Int Kn . Alors
µ est une mesure de Borel régulière et les fonctions continues à support compact sont denses dans Lp (µ),
p ∈ [1, ∞).
Démonstration. Du fait de la proposition 6.4.5 et le lemme 6.4.1, on doit montrer que pour tout O ouvert
de X relativement compact, 1O ∈ LpK (µ) est limite dans Lp de fonctions continues à support compact. Si
O est vide, alors la suite de fonctions constante égale à la fonction nulle convient. Supposons donc O non
vide relativement compact, alors la régularité de µ implique pour tout ε > 0 l’existence d’un compact
K ⊂ O tel que µ(O \ K) < ε. On pose

d(x, O∁ )
∀x ∈ X, fε (x) = .
d(x, O∁ ) + d(x, K)

C’est une fonction qui vaut 1 sur K et 0 sur O∁ , elle est à support dans O qui est compact. La fonction fε
est continue. En effet, pour toute partie A ⊂ X non vide, x → d(x, A) est continue (même lipschitzienne)
et d(x, O∁ ) + d(x, K) = 0 si et seulement si x ∈ O∁ ∩ K = ∅ puisque K et O∁ sont fermés. Enfin,
∥fε − 1O ∥p ≤ µ(O \ K) ≤ ε.

91
Remarque 56. Les hypothèses des propositions 6.4.5 et 6.4.6 sont satisfaites si (X, d) est un espace
métrique séparable et µ une mesure σ-finie sur B(X) d’après la démonstration du théorème 2.2.39.
Remarque 57. Il pourrait sembler de prime abord que la métrisabilité de l’espace est essentielle pour
exhiber la fonction fε . En fait l’existence d’une telle fonction est assurée dans un cadre plus général.
Lemme 6.4.7. Soit (X, T ) un espace topologique séparé localement compact. Pour tout ouvert U et tout
compact K ⊂ U , il existe une fonction continue f : X → [0, 1] tel que

∀x ∈ K, f (x) = 1 et ∀x ∈ U ∁ , f (x) = 0.

Proposition 6.4.8. Soient (X, T ) un espace topologique séparé localement compact et µ une mesure sur
B(X) régulière extérieurement. Alors l’espaces des fonctions continues intégrables est dense dans Lp (µ).
Démonstration. C’est une conséquence des lemmes 6.4.1 et 6.4.7 ainsi que de la proposition 6.4.4
Exercice 24. Soient (X, d) un espace métrique et µ une mesure sur B(X) extérieurement régulière. Montrer
que pour tout p ∈ [1, ∞) l’espace des fonctions Lipschitz bornées et intégrables est dense dans Lp (µ).
Exercice 25. En utilisant la proposition 6.4.4, montrer que si (X, d) un espace métrique séparable et µ
une mesure extérieurement régulière, alors l’espace Lp (X, µ) est séparable.
Proposition 6.4.9. Soit (X, X , µ) un espace mesuré. On définit l’application ρ : X × X → R+ pour
A, B ∈ X par ρ(A, B) = µ(A∆B). Muni de ρ, l’ensemble X est un espace métrique. La tribu X est dite
séparable si l’espace métrique (X , ρ) est lui-même séparable. Une tribu X est séparable si et seulement si
il existe une famille (Bn )n≥0 ∈ X N telle que X = σ(Bn )µ .
Proposition 6.4.10. Soit (X, X , µ) un espace mesuré. Si la tribu X est séparable alors, pour tout
p ∈ [0, ∞), l’espace Lp (X, X , µ) est séparable.
Exercice 26. Montrer que ces résultats sont faux pour p = ∞.

6.4.3 Convolution
Définition et propriétés élémentaires
Dans cette partie, on se place exclusivement sur (Rd , B(Rd ), λd ). La convolution se généralise très
bien aux groupes topologiques localement compact, mais cela nous emmènerait trop loin par rapport à
l’objectif de ce cours. Dans tout ce qui suit, on utilise effectivement de manière crucial la structure de
groupe additif de Rd ainsi que l’invariance par translation de la mesure de Lebesgue (que l’on appelle
mesure de Haar pour les groupes topologiques localement compact).
On se permettra de noter plus simplement l’espace Lp (Rd , λd ) par Lp .
Proposition 6.4.11. Soient f, g ∈ L1 . La fonction ϕ : x → Rd f (x − y)g(y) dy est définie µ-presque
R

partout, mesurable et intégrable par rapport à λd . De plus, ∥ϕ∥1 ≤ ∥f ∥1 ∥g∥1 .

La fonction ϕ s’appelle la convolée de f et g et est notée f ∗ g.
Démonstration. On pose ψ(x, y) = f (x−y)g(y). La fonction ψ est mesurable sur Rd ×Rd . Puis on calcule
en utilisant Tonelli puis l’invariance par translation de λd
Z Z
|ψ(x, y)| dxdy = |f (x − y)||g(y)| dxdy
Z Z
= |g(y)| |f (x − y)| dx dy
Z Z
= |f (x)| dx |g(y)| dy = ∥f ∥1 ∥g∥1 < ∞.

Ainsi ψ est intégrable et le théorème de Fubini implique que x → ϕ(x) est mesurable et intégrable. Puis
par un calcul très similaire on obtient la majoration de ∥ϕ∥1 .
On définit ainsi une loi de composition interne sur L1 qui a (f, g) ∈ L1 × L1 associe le produit de
convolution f ∗ g ∈ L1 .

92
Proposition 6.4.12. Le produit de convolution est commutatif, associatif, distributif par rapport à
l’addition et homogène par multiplication par un scalaire. Il n’admet pas d’éléments neutre.
L’espace L1 (+, ∗) une algèbre de Banach sans unité.
Démonstration. On commence par la commutativité. Soient f, g ∈ L1 , alors
Z Z
f ∗ g(x) = f (x − y)g(y) dy = f (u)g(x − u) du = g ∗ f (x),

en faisant le changement de variable affine y = x − u. Cette égalité est satisfaite pour tout x ∈ Rd pour
lequel g ∗ f et f ∗ g sont définies, c’est à dire pour presque tout x ∈ Rd .
La distributivité et l’homogénéité reflètent la linéarité de l’intégrale. Pour l’associativité, on utilise le
théorème de Fubini : soient f, g, h ∈ L1 et calculons, d’une part,
Z
[(f ∗ g) ∗ h] (x) = (f ∗ g)(x − y)h(y) dy
Z Z
= f (x − y − z)g(z) dz h(y) dy
Z Z
= f (x − y − z)g(z)h(y) dydz

et d’autre part
Z
[f ∗ (g ∗ h)] (x) = f (x − u)g ∗ h(y) dy
Z Z
= f (x − u) g(u − v)h(v) dvdu
Z
= f (x − u)g(u − v)h(v) dudv.

On conclut en effectuant dans la deuxième expression, le changement de variable affine u = y + z et

v = y.
On termine la proposition en montrant qu’il n’existe pas d’élément neutre pour le produit de convo-
lution. Pour cela, supposons au contraire qu’il existe g ∈ L1 tel que pour tout f ∈ L1 on ait g ∗ f = f .
2
Pour n ∈ N, on définit fn par fn (x) = e−n∥x∥ . Les fonctions fn sont continues et dans L1 . Le produit
de convolution entre fn est g est donné par
Z
2
fn ∗ g(x) = e−n∥x−y∥ g(y) dy.

L’intégrande est continue en tout x ∈ Rd et est bornée en valeur absolue par y → |g(y)| qui est intégrable.
Ainsi, fn ∗ g est continue sur Rd .
D’autre part, fn ∗ g = fn presque partout, mais en fait partout par continuité. Donc, en particulier,
fn (0) = fn ∗ g(0) c’est à dire Z
2
1= g(y)e−n∥y∥ dy.

Puis le théorème de convergence dominée appliquée à l’intégrale à droite donne la contradiction cherchée.

Exercice 27. Deux fonctions continues égales presque partout sont égales.

Approximation de l’identité
Si notre algèbre de convolution est sans unité, il existe une notion d’approximation de l’unité.
Définition 6.4.13 (Approximation de l’identité). Une suite (ϕn )n≥0 d’éléments de L1 est une approxi-
mation de l’unité si
R
1. pour tout n ≥ 0, ϕn dλd = 1 ;

93
2. supn≥0 |ϕn | dλd < ∞, on dit que (ϕn )n≥0 est bornée dans L1 ;
R
R
3. pour tout ε > 0, limn→∞ ∥x∥>ε |ϕn | dλd = 0.

Théorème 6.4.14. Si (ϕn )n≥0 est une suite d’approximations de l’unité, alors ϕn ∗ f converge vers f
dans L1 .
Exemple 30 (de suite d’approximations de l’unité). Soit ϕ ∈ L1 telle que ϕ dλd = 1. Pour tout n ≥ 1,
R
d
on définit
R ϕn par ϕn (x)
R d= n ϕ(nx). Alors
R (ϕn )n≥1 est une suite d’approximation de l’unité. En effet,
— ϕn (x)Rdx = n ϕ(nx) dx = ϕ(x) dx = 1,
— supn≥1 |ϕn | dλd ≤ ∥ϕ∥1 ,
— pour tout ε > 0, Z Z
|ϕn (x)| dx = |ϕ(x)| dx →n→∞ 0
∥x∥>ε ∥x∥>nε

par convergence dominée.

Remarque 58. La convolution d’une fonction par une approximation de l’unité a pour effet de prendre
des moyennes de f localement autour de chaque point x. Cela a pour effet de régulariser la fonction f et
la régularité obtenue est celle de l’approximation de l’unité. Par exemple, dans l’exemple précédent, si
on choisit ϕ infiniment dérivable à support compact, alors f peut être approchée par f ∗ ϕn dans L1 qui
est également infiniment dérivable à support compact. La convolution permet de montrer de nombreux
résultats de densité dans L1 . Néanmoins, rappelons que nous utilisons de manière crucial la structure de
Rd
Avant de montrer le théorème, montrons le lemme suivant.
Lemme 6.4.15. Soit p ∈ [1, ∞). Si y ∈ Rd et f ∈ Lp , on définit τy f ∈ Lp , la translatée de f , par
τy f (x) = f (x + y). Alors, limy→0 ∥τy f − f ∥p = 0.
Démonstration. Supposons d’abord f continue à support compact. Si f (x+y)−f (x) ̸= 0, alors x ∈ supp f
ou x ∈ (supp f ) − y. Il existe donc un compact K de Rd tel que si ∥y∥ ≤ 1 alors supp (τy f − f ) ⊂ K.
Ainsi, si ∥y∥ ≤ 1, nous avons
Z 1/p
∥τy f − f ∥p = |f (x + y) − f (x)|p dx .
K

Puisque f est continue sur K, f est uniformément continue :

∀ε > 0, ∃η ∈ (0, 1), ∥y∥ ≤ η =⇒ ∀x ∈ K, |f (x + y) − f (y)| < ε.

Aussi, si ∥y∥ ≤ η, ∥τy f − f ∥p ≤ (λ(K)εp )1/p = λ(K)1/p ε.

Maintenant, si f ∈ Lp , alors on peut trouver une suite (fn )n≥0 de fonctions continue à support
compact convergeant vers f dans Lp . De plus, pour tout n ≥ 0 et tout y ∈ Rd , nous avons
∥τy f − f ∥p = ∥τy f − τy fn + τy fn − fn + fn − f ∥p
≤ ∥τy f − τy fn ∥p + ∥τn fn − fn ∥p + ∥fn − f ∥p
≤ 2∥f − fn ∥p + ∥τy fn − fn ∥p .

Soit ε > 0, il existe n0 ≥ 0 tel que ∥f − fn0 ∥p ≤ ε/4. D’après ce qui précède, on peut trouver η > 0 tel
que ∥y∥ ≤ η implique ∥τy fn0 − fn0 ∥ ≤ ε/2. Ce qui conclut la preuve du lemme.
Revenons à la preuve du théorème.
Démonstration. On cherche R à montrer la convergence vers zéro de la quantité (∗) = ∥ϕn ∗ f − f ∥1 . On
utilise d’abord le fait que ϕn (x) dx = 1, on obtient
Z Z Z Z
∥ϕn ∗ f − f ∥1 = |ϕn ∗ f (x) − f (x)| dx = f (x − y)ϕn (y) − f (x)ϕn (y) dy dx.

Des majorations standards ainsi que le théorème de Tonelli implique

94
Soit ε > 0. On écrit 1 = 1∥y∥≤ε + 1∥y∥>ε . Nous avons alors d’une part, par l’inégalité de Hölder
Z Z !
|ϕn (y)|∥τ−y f − f ∥1 dy ≤ sup ∥τy f − f ∥1 × sup |ϕn (y)| dy = O sup ∥τy f − f ∥1 .
∥y∥≤ε ∥y∥≤ε n≥0 ∥y∥≤ε

D’autre part, Z Z
|ϕn (y)|∥τ−y f − f ∥1 dy ≤ 2∥f ∥1 |ϕn (y)| dy.
∥y∥>ε ∥y∥>ε

Ceci implique que !

lim sup ∥ϕn ∗ f − f ∥1 = O sup ∥τy f − f ∥1 .
n→∞ ∥y∥≤ε

Comme ε > 0 peut être choisi arbitrairement petit, cela termine la preuve du théorème.

Régularisation par convolution

Le théorème suivant et surtout son corollaire n’est qu’un exemple parmi tant d’autre de l’intérêt de
l’effet régularisant de la convolution.
Théorème 6.4.16. On fixe k ∈ N ∪ {∞}. Soient g ∈ L1 et f ∈ Cbk (Rd ), i.e. f est k fois continûment
dérivable et toutes ses dérivées partielles jusqu’à l’ordre k sont bornées. Alors g ∗ f a un sens et g ∗ f ∈
Cnk (Rd ). Pour α ∈ Nd , on note ∂α = ∂1α1 . . . ∂dαd . Alors pour tout α ∈ Nd , |α| ≤ k, ∂α (f ∗ g) = (∂α f ) ∗ g.
Démonstration. Soient g ∈ L1 et f ∈ Cbk (Rd ). Par l’inégalité de Hölder, f ∗g est bien définie. L’application
qui à (x, y) → f (x − y)g(y) est mesurable en y et de classe C k en Rla variable x. Soit α ∈ Nd tel que
|α| ≤ k, alors |∂α f (x − y)g(y)| = O(|g(y)|), ce qui implique que x → f (x − y)g(y) dy est de classe Cbk .
De plus, Z
∀α ∈ Nd , |α| ≤ k, ∂α g ∗ f (x) = ∂α f (x − y)g(y) dy.

D’où le résultat.
Corollaire 6.4.17. L’espaces Cc∞ (Rd ) ∩ L1 (ainsi que tous les espaces Cck (Rd )) est dense dans L1 .
Exercice 28. Montrer le corollaire. On pourra utiliser comme fonction de base la fonction ϕ suivante :
 h i
 exp − 1 2

si ∥x∥ < 1,
1−∥x∥
ϕ(x) =
 0

sinon.

95
96
Deuxième partie

Probabilités générales

97
Chapitre 7

Variables aléatoires réelles et

vecteurs aléatoires

Dans ce chapitre et les suivants, on se donne un espace probabilisé (Ω, F, P). Nous allons définir les
notions de variables aléatoires et étudier plus précisément les notions de variables aléatoires réelles et
vecteurs aléatoires.
Le formalisme des probabilités est le même que celui de la théorie de la mesure : une variable aléatoire
n’est rien d’autre qu’une application mesurable. Toujours en termes de terminologie, en probabilité, les
ensembles mesurables A ∈ F s’appellent traditionnellement des événements.

7.1 Variables aléatoires

Définition 7.1.1 (Variable aléatoire). Soient (Ω, F, P) un espace probabilisé et (E, E) un espace mesu-
rable. Une variable aléatoire à valeurs dans E est une application mesurable X : (Ω, F, P) → (E, E).

Exemple 31 (Pile ou face). On pose Ω = {0, 1} muni de la tribu P(Ω) et on pose P = 21 δ0 + 12 δ1 . On

pose également E = {p, f } muni de la tribu P(E). Alors l’application X : Ω → E définie par X(0) = p
et X(1) = f est une variable aléatoire. Elle modélise l’expérience aléatoire du pile ou face.
Exemple 32 (Le dé à 6 faces). On pose Ω = {1, 2, . . . , 6}, F = P(Ω) et P la mesure uniforme sur Ω. De
même, on pose (E, E) = (Ω, F). Alors l’application X : Ω → E qui à ω ∈ Ω associe X(ω) = ω est une
variable aléatoire. Elle modélise l’expérience le lancé d’un dé équilibré.
Une variable aléatoire n’est donc rien de plus qu’une application mesurable entre deux espaces me-
surables. Traditionnellement, on utilise des lettres capitales X, Y, Z . . . pour désigner de telles variables
aléatoires.

Définition 7.1.2 (Loi d’une variable aléatoire). Soit X une variable aléatoire à valeurs dans E. La
loi de X, notée PX , est la mesure image par X de la probabilité P. Autrement dit, c’est la mesure de
probabilité sur (E, E) définie pour tout A ∈ E par PX (A) = P(X −1 (A)).

En termes de notations, on préférera souvent écrire P(X ∈ A) en lieu et place de la notation un peu
lourde P(X −1 (A)).
Une grande partie du travail en théorie des probabilités consiste à caractériser la loi d’une variable
aléatoire X, c’est à dire, stricto sensu, renseigner la valeur de P(X ∈ A) ∈ [0, 1] pour tout A ∈ E.
Remarquons que si X est à valeurs dans E fini et si E = P(E) alors card E = 2card E . Il paraı̂t alors
vite inenvisageable d’énumérer les valeurs de P(X ∈ A) pour tout A ∈ E. Dans la suite, on explicitera
d’autres méthodes permettant de caractériser la loi de X de manière plus compacte sans faire cette
énumération fastidieuse. À titre d’illustration, il est clair que dans le cas E fini ci-dessus il est suffisant
de renseigner P(X = k) = P(X ∈ {k}) pour tout k ∈ E puisque si A ∈ P(E), alors
!
[ X
P(X ∈ A) = P X ∈ {k} = P(X = k),
k∈A k∈A

99
du fait de la σ-additivité de la mesure P.
Pour l’exemple 31, la loi de X est même complètement caractérisée par P(X = f ) car P(X = p) =
1 − P(X = f ).
Le choix du triplet probabiliste n’est pas unique mais il n’est pas complètement arbitraire non plus. En
particulier, il faut choisir un espace suffisamment gros pour exprimer les variables aléatoires modélisant le
problème idoine. Par exemple, considérons le problème du pile ou face. Outre le choix fait dans l’exemple
31, nous aurions pu poser (Ω, F, P) = ([0, 1], B([0, 1]), λ) et définir Y : Ω → E = {p, f } par

 p si ω ∈ [0, 1/2)

Y (ω) = .
 f si ω ∈ [1/2, 1]


Remarquons finalement que P(Y = f ) = 1 − P(Y = p) = λ([0, 1/2)) = 1/2. Autrement dit, pour ces
deux choix de triplets probabilistes, les variables aléatoires X et Y ont même loi.
La proposition suivante, qui découle directement de la définition de la loi d’une variable aléatoire,
donne une façon de caractériser la loi d’une variable aléatoire.

Proposition 7.1.3. Soient (Ω, F, P) et (Ω′ , F ′ , P′ ) deux espaces probabilisés et (E, E) un espace me-
surable. Alors deux variables aléatoires X et Y à valeurs dans E ont même loi si et seulement si pour
toute fonction borélienne f : (E, E) → R bornée
Z Z
f (X) dP = f (Y ) dP′ .
Ω Ω′

Remarque 59. En probabilité, on note

Z Z
E(f (X)) = f (X) dP = f (x) PX (dx),
Ω E

où la seconde inégalité est obtenue par le théorème 3.2.6 de transfert.

Démonstration. C’est une condition suffisante car pour A ∈ E, l’égalité appliquée à f = 1A implique
PX (A) = PY (A).
Réciproquement, par hypothèse, pour f = 1A , à l’aide du théorème de transfert, on a
Z Z
1A (z) PX (dz) = 1A (z) PY (dz).
E E

La preuve s’achève en remarquant que l’égalité est satisfaite pour les fonctions étagées positives, les
fonctions boréliennes positives et enfin les fonctions boréliennes bornées.

Remarque 60. On remarque que X et Y peuvent être définies sur deux espaces probabilisés différents,
ce qui reflète encore une fois l’idée que le choix du triplet probabiliste (Ω, F, P) n’est pas unique.
Supposons que l’espace (E, E) soit muni d’une mesure σ-finie µ telle que PX ≺ µ alors le théorème
6.3 de Radon-Nikodym garantie l’existence d’une fonction f : (E, E) → R mesurable positive telle que
Z
PX (A) = P(X ∈ A) = 1A f dµ. (7.1)
R
Remarquons que PX (E) = 1 si bien que f dµ = 1.
Une variable aléatoire
R X dont la loi PX satisfait l’équation (7.1) pour une fonction f mesurable
positive et telle que f dµ = 1 sera dite à densité de probabilité par rapport à µ ou plus simplement à
densité si il n’y a aucune ambiguı̈té. La fonction f sera appelée la densité de X par rapport à µ.
Lorsqu’une variable aléatoire X est à densité par rapport à une mesure de référence µ fixée, cette
densité caractérise la loi de X.

Proposition 7.1.4. Soient (Ω, F, P) et (Ω′ , F ′ , P′ ) deux espaces probabilisés et (E, E, µ) un espace me-
suré σ-fini. Alors deux variables aléatoires X et Y à valeurs dans E et à densité fX et fY respectivement
par rapport à µ ont même loi, i.e. PX = P′Y , si et seulement si fX = fY µ-p.p..

100
Démonstration. C’est évidemment une condition suffisante car pour tout A ∈ E
Z Z
PX (A) = fX 1A dµ = fY 1A dµ = P′Y (A).
E E

C’est également une condition nécessaire puisque PX = P′Y . Ces deux mesures (finies) sont absolument
continue par rapport à µ, qui est σ-finie, et l’unicité de la densité dans le théorème de Radon-Nikodym
implique que fX = dPX /dµ et fY = dP′Y /dµ sont égales µ-p.p..
Remarque 61. Lorsque E est dénombrable (muni de la tribu idoine), la mesure de comptage est une
mesure de référence de choix. Dans ce cas, la proposition ci-dessus dit que X et Y ont même loi si et
seulement si P(X = x) = P′ (Y = x) pour tout x ∈ E.

7.2 Variables aléatoires réelles

On s’intéresse ici aux variables aléatoires à valeurs dans R qui est muni de la tribu borélienne.
Définition 7.2.1. Une variable aléatoire réelle est une application mesurable X de (Ω, F, P) dans
(R, B(R)).
On se réfère à l’annexe 13.7.2 pour un tableau de quelques lois usuelles.

7.2.1 Intégration des variables aléatoires réelles

Moment d’ordre 1, Moment d’ordre p
Tout ce qui suit est la transposition des définitions de l’analyse fonctionnelle au contexte des variables
aléatoires ainsi que des applications du théorème de transfert.
Définition 7.2.2. Une v.a.r est dite intégrable si
Z Z
|X| dP = |x| PX (dx) < ∞.

Définition 7.2.3. Soit X une v.a.r positive ou intégrable. L’espérance de X, notée E(X) est définie par
Z Z
E(X) = X dP = x PX (dx).

Soit X une variable aléatoire à valeurs dans N, alors PX est absolument continue par rapport à la
mesure de comptage sur N et X
PX = P(X = k)δk .
k∈N

Ainsi, Z X
E(X) = X dP = k P(X = k).
Ω k≥0

Si X est une variable de densité f par rapport à la mesure de Lebesgue, cette fois-ci on calcule l’espérance
par Z Z
E(X) = X dP = xf (x)dx.
Ω R
Remarque 62. Souvent, la mesure de référence ne sera pas spécifiée et devra être comprise implicitement
à l’aide du contexte. Concrètement, ce sera la mesure de comptage sur les espaces discrets et la mesure
de Lebesgue sur R. Cela conduira à parler de v.a. discrètes et de v.a.r. à densité.
Exemple 33. Soient X, Y et Z des v.a.r. de loi uniforme standard U[0,1] , exponentielle E(λ) et de Cauchy
C(1) respectivement. Alors, X et Y sont intégrables. En effet,
Z Z
E(|X|) = 1[0,1] (x)|x| dx = 1/2 < ∞ et E(|Y |) = 1R+ (x)λe−λx |x| dx < ∞.
R R

101
De plus,
E(X) = 1/2 et E(Y ) = 1/λ.
Quant à la variable de Cauchy Z, on remarque que

|x| dx
Z
E(|Z|) = = ∞.
R π(1 + x2 )

Définition 7.2.4. Une v.a.r. X admet un moment d’ordre p, p ∈ [1, ∞), et on note X ∈ Lp , si
p
R
|X| dP < ∞. Dans ce cas, le moment d’ordre p de X est défini par
Z
E(X p ) = X p dP.

Définition 7.2.5. Soit X une v.a.r. admettant un moment d’ordre 2. La variance de X, notée V(X),
est définie par
V(X) = E[X − E(X)]2

Si l’espérance est un paramètre dit de position, la variance est un paramètre de dispersion. Il existe
d’autre paramètre en statistique (médiane, quantile, intervalle interquartile etc), cependant moyenne et
variance restent centraux eût égard notamment à la loi des grands nombres et le théorème central limite
que l’on démontrera au chapitre 12.

Proposition 7.2.6. Soit X une v.a.r. admettant un moment d’ordre 2, alors

V(X) = E(X 2 ) − E(X)2 .

Covariance et coefficient de corrélation linéaire

Définition 7.2.7. Soient X, Y deux v.a.r. admettant un moment d’ordre 2, on appelle covariance entre
X et Y la quantité Cov(X, Y ) définie par

Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))].

Le coefficient de corrélation linéaire entre les variables X et Y , noté ρ(X, Y ), est donné par

Cov(X, Y )
ρ(X, Y ) = p
V(X)V(Y )

Proposition 7.2.8. Soient X et Y deux v.a.r. admettant un moment d’ordre 2. La covariance est une
application bilinéaire symétrique vérifiant V(X) = Cov(X, X). De plus, ρ(X, Y ) ∈ [−1, 1] et ρ(X, X) = 1.
Enfin,
Cov(X, Y ) = E(XY ) − E(X)E(Y ).

Inégalité de Markov et inégalité de Bienaymé-Tchebychev

Proposition 7.2.9 (Inégalité de Markov). Soit X une v.a.r. positive. Alors pour tout λ > 0

E(X)
P(X > λ) ≤ .
λ
Proposition 7.2.10 (Inégalité de Bienaymé-Tchebychev). Soit X une v.a.r. admettant un moment
d’ordre 2. Alors pour λ > 0
V(X)
P(|X − E(X)| > λ) ≤ .
λ2
Démonstration. Remarquer que

P(|X − E(X)| > λ) = P(|X − E(X)|2 > λ2 )

et appliquer l’inégalité de Markov.

102
Proposition 7.2.11. Soit X une v.a.r. et φ : R → R une fonction convexe telles que X et φ(X) soient
intégrables. Alors φ(E(X)) ≤ E(φ(X)).
Lemme 7.2.12 (des trois cordes). Soit I un intervalle et φ : I → R une fonction convexe. Alors pour
tout a, b, c ∈ I tels que a < c < b
φ(c) − φ(a) φ(b) − φ(a) φ(b) − φ(c)
≤ ≤ .
c−a b−a b−c

x=a x=c x=b

3.5
3.0
φ(x)

2.5
2.0

0.0 0.2 0.4 0.6 0.8 1.0

Figure 7.1 – La corde “rouge” a une pente plus grande que la corde “jaune” et plus petite que la corde
“bleu”.

Démonstration. Il est assez facile de voir que ces inégalités sont en fait équivalentes à l’unique inégalité
b−c c−a
φ(c) ≤ φ(a) + φ(b).
b−a b−a
b−c
En posant t = b−a on obtient facilement que c = ta + (1 − t)b — remarquons que a ̸= b. L’inégalité
ci-dessus n’est alors qu’une traduction de la propriété de convexité.
Remarque 63. Remarquons que les inégalités des trois cordes caractérise la convexité.

Démonstration. Soit a ∈ R et définissons la fonction τa : x → φ(x)−φ(a)

x−a . Notons que τa est bien définie
sauf peut-être en a. D’après le lemme 7.2.12 des trois cordes appliqués aux trois cas a < x < y, x < a < y
et x < y < a, la fonction τa est croissante. Puisque τa (2a) et τa (a/2) sont des réels, il vient que τa admet
une limite en a à gauche φ′g (a) > −∞ et une limite à droite φ′d (a) < ∞. Il est également claire que
φ′d (a) ≥ φ′g (a) par croissance de τa .
Par définition de φ′d , pour tout x > a,
φ(x) − φ(a)
≥ φ′d (a) ⇐⇒ φ(x) ≥ φ(a) + φ′d (a)(x − a).
x−a
D’autre part, pour tout x < a :
φ(x) − φ(a)
≤ φ′g (a) ≤ φ′d (a) ⇐⇒ φ(x) ≥ φ(a) + φ′d (a)(x − a).
x−a
En posant a = E(X) et x = X, on obtient par croissance de l’intégrale
φ(X) ≤ φ(E(X)) + φ′d (E(X))(X − E(X)) =⇒ E(φ(X)) ≥ φ(E(φ(X)).

103
7.2.2 Caractérisation de la loi d’une v.a.r.
Dans cette partie, on explicite différente façon de caractériser la loi d’une v.a.r..

Fonction de répartition
Définition 7.2.13 (Fonction de répartition). Soit X une v.a.r., on appelle fonction de répartition de X
la fonction FX : R −→ [0, 1] définie pour t ∈ R par

FX (t) = PX ((−∞, t]) = P(X ∈ (−∞, t]) = P(X ≤ t).

Proposition 7.2.14. La fonction de répartition FX d’une v.a.r X est :

1. croissante à valeurs dans [0, 1] ;
2. continue à droite ;
3. limt→−∞ FX (t) = 0 et limt→∞ FX (t) = 1.
Réciproquement, pour toute fonction F vérifiant les propriétés 1,2 et 3 ci-dessus il existe une v.a.r. X
telle que FX = F .

Remarque 64. Toute fonction f : R → R croissante admet une limite à gauche et une limite à droite. En
particulier, une fonction de répartition est limitée à gauche.
Remarque 65. La réciproque de cette proposition signifie la chose suivante : si on se donne une fonction
F vérifiant les points 1,2 et 3, alors il existe un espace de probabilité (Ω, F, P) et une variable aléatoire
X de (Ω, F, P) dans (R, B(R)) tel que P(X ≤ t) = F (t) pour tout t ∈ R.

Démonstration. Vérifions les trois points.

1. Tout d’abord, puisque FX (t) = PX ((−∞, t]) est une probabilité, FX est à valeurs dans [0, 1]. La
croissance de FX est une conséquence de la croissance des mesures : si A ⊂ B, alors PX (A) ≤
PX (B).
2. La continuité à droite provient de la continuité à droite des mesures. En effet, soient t ∈ R et
(tn )n≥0 une suite de réels tels que tn > t et limn→∞ tn = t. La fonction FX est croissante donc
quitte à considérer une sous-suite, on peut supposer (tn )n≥0 décroissante. Posons An = (−∞, tn ].
La suite d’ensembles mesurables (An )n≥0 est décroissante et PX (A0 ) < ∞ puisque PX est une
probabilité. Ainsi,
 
\
PX ((−∞, t]) = PX  An  = lim PX (An ) = lim PX ((−∞, tn ]).
n→∞ n→∞
n≥0

Cela montre la continuité à droite de FX .

3. On peut considérer An avec tn = −n pour tout n ≥ 0. Alors,
 
\
lim FX (t) = PX  An  = 0.
t→−∞
n≥0

Pour la limite en ∞, on peut poser Bn = (−∞, n] et utiliser la continuité à gauche des mesures.
La réciproque est un corollaire du théorème de Stieltjes 2.2.33.

Exemple 34. La fonction de répartition X donnant la valeur numérique de la face d’une dé équilibré à
six faces est donnée pour t ∈ R par

1 2 3 4 5
FX (t) = 1[1,2) (t) + 1[2,3) (t) + 1[3,4) (t) + 1[4,5) (t) + 1[5,6) (t) + 1[6,∞) (t) .
6 6 6 6 6

Proposition 7.2.15. La fonction de répartition caractérise la loi d’une v.a.r. : si X et Y sont deux
v.a.r., alors FX = FY si et seulement si X et Y ont même loi.

104
Démonstration. C’est une conséquence directe du théorème 2.2.20 car

S = {(−∞, a], a ∈ R}

est un π-système (non vide et stable par intersection finie).

Lemme 7.2.16. Soit h une fonction croissante de R dans R. Alors h admet un nombre dénombrable de
discontinuités.
Les limites à gauche et à droite de h au point t ∈ R sont communément notée h(t− ) et h(t+ ). En
particulier, h est continue à droite (resp. à gauche, resp. continue) si et seulement si h(t) = h(t+ ) (resp.
h(t) = h(t− ), resp. h(t) = h(t+ ) = h(t− )).
Démonstration. L’ensemble des points de discontinuités de h s’écrit
[ [ 1

{t ∈ R : h(t+ ) − h(t− ) > 0} = t ∈ [−M, M ] : h(t+ ) − h(t− ) > .
n
M ∈N n≥1

Or supt∈[−M,M ] h(t+ ) − h(t− ) ≤ h(M + 1) − h(−M − 1) = K < ∞, donc le nombre de discontinuités de

[−M, M ] plus grande que n1 est majoré par Kn. Ainsi l’ensemble des points de discontinuités de h est
réunion dénombrable d’ensembles finis, il est dénombrable.
En particulier, l’ensemble DF = {t ∈ R : F (t)−F (t− ) > 0} des points de discontinuités de la fonction
de répartition F est dénombrable.
Définition 7.2.17 (Variables aléatoires discrètes, continues). 1. Une v.a.r. X est dite discrète si il
existe un ensemble A ⊂ R au plus dénombrable tel que P(X ∈ A) = 1.
2. Une v.a.r. X est dite continue ou diffuse si pour tout a ∈ R, P(X = a) = 0.
Ces deux propriétés peuvent être caractérisée à l’aide de la fonction de répartition.
Proposition 7.2.18. 1. Une v.a.r. X est discrète si et seulement si la somme des sauts de FX vaut
1, i.e. X
F (t) − F (t− ) = 1.
t∈DFX

2. Une v.a.r. X est continue si et seulement si la fonction de répartition FX est continue.

Démonstration. Soit X une v.a.r. et posons A = {s ∈ R : P(X = s) > 0}. Il se trouve que P(X =
s) = F (s) − F (s− ) pour tout s ∈ R, aussi A n’est rien d’autre que l’ensemble de discontinuité de FX .
De là, la v.a.r. X est continue si et seulement si P(X ∈ A) = 0 ; elle est discrète si et seulement si
P(X ∈ A) = 1.

Densité de probabilité
Une v.a.r. X est dite à densité si elle est à densité par rapport à la mesure de Lebesgue. Pour une
v.a.r. X à densité f , sa fonction de répartition FX se calcule, par définition d’une mesure à densité, pour
t ∈ R par Z Z t
FX (t) = PX ((−∞, t]) = 1(−∞,t] f dλ = f (x) dx.
−∞

Proposition 7.2.19. Soit X une v.a.r. à densité f . On note F sa fonction de répartition. Alors F est
continue sur R et est dérivable presque-partout. Sa dérivée est presque partout égale à f .
Démonstration. Puisque F est une fonction de répartition, F est continue à droite. Il reste donc à montrer
que F est continue à gauche. Soit t ∈ R et (tn )n≥0 une suite de réels qui converge vers t et telle que
tn ≤ x pour tout n ≥ 0. Alors, on vérifie facilement que f 1(−∞,tn ] converge simplement vers f 1(−∞,t)
donc vers f 1(−∞,t] presque partout (par rapport à la mesure de Lebesgue). De plus, 0 ≤ f 1(−∞,tn ] ≤ f
qui est intégrable (c’est une densité de probabilité). Le théorème de convergence dominée implique
Z Z
lim F (tn ) = lim f 1(−∞,tn ] dλ = f 1(−∞,t] dλ = F (t).
n→∞ n→∞

105
La seconde partie de la proposition n’est en fait rien d’autre que le théorème de différentiation de
Lebesgue. Sa preuve est un peu plus fine et fait intervenir l’inégalité maximale de Hardy-Littlewood. On
pourra se référer à [Rud87] pour la preuve complète.

Exemple 35. La loi d’une variable aléatoire X exponentielle de paramètre λ > 0, notée E(λ) est ca-
ractérisée par sa densité définie par

fX (x) = 1R+ (x) λe−λx , x ∈ R.

Sa fonction de répartition est donc

Z t
fX (x) dx = 1R+ (t) 1 − e−λt ,

FX (t) = t ∈ R.
−∞

Proposition 7.2.20. La loi d’une v.a.r. X à densité est caractérisée par sa densité de probabilité : si
X et Y ont pour densité fX et fY respectivement alors fX = fY presque partout si et seulement si X et
Y ont même loi.

Démonstration. Ce résultat est un corollaire de la proposition 7.1.4.

Puisqu’une fonction de répartition est dérivable presque partout, on pourrait penser de prime abord
que la dérivée (définie seulement presque partout néanmoins) est une densité de probabilité. Ceci n’est
pas vrai en général comme le montre l’exemple suivant.
Exemple 36. Soit F la fonction réelle définie par :

 0,

t<0
F (t) =
 1, t ≥ 0.


On vérifie facilement que c’est une fonction de répartition. Elle est dérivable presque partout (en fait
partout sauf en 0) et la dérivée est la fonction nulle presque partout (sauf en 0 également). Il est bien
évident que cette fonction dérivée n’est pas une densité de probabilité.
La fonction de répartition de l’exemple 36 est celle de la masse de Dirac en 0. Autrement dit, une
v.a.r. X admettant la fonction de répartition F de l’exemple 36 satisfait P(X = 0) = 1, c’est une variable
purement discrète.
L’exemple suivant est encore plus fin : on construit une fonction de répartition continue dont la v.a.r.
correspondante n’est pas à densité.
Exemple 37 (Escalier de Cantor). L’escalier du diable, ou l’escalier de Cantor se construit comme une
limite uniforme de fonctions continues. Plus précisément, on définit (fn )n≥0 une suite de fonction continue
sur [0, 1] par récurrence — c.f. Figure 7.2 :
— f0 (x) = x, x ∈ [0, 1] ;
— on construit fn+1 à partir de fn en remplaçant fn sur chaque intervalle d’intérieur non vide [u, v]
qui ne contient pas de plateaux de fn par une fonction affine par morceaux qui est constante égale
à fn (u)+f
2
n (v)
sur le tiers central de [u, v].
Par construction, fn+1 et fn ne différent que sur les intervalles non vides [u, v] ne contenant pas de
plateaux de fn . Un tel intervalle sépare les extrémités de deux plateaux successifs de fn dont la hauteur
est de 2−n (on divise par 2 étape par étape). Ainsi, pour tout x ∈ [0, 1] et tout n ∈ N,

|fn+1 (x) − fn (x)| ≤ 2−n .

P
Il vient que la séries (fn+1 − fn ) converge donc uniformément. Ainsi, la suite (fn )n≥0 converge uni-
formément vers une fonction f continue monotone croissante. La fonction f est appelée escalier du
diable.
Soit F : R −→ R supposée nulle sur (−∞, 0], constante égale à 1 sur [1, ∞) et égale à l’escalier du
diable, c’est à dire f , sur [0, 1]. Du fait de ce que l’on vient de montrer, F est une fonction de répartition.

106
1.0

1.0
0.8

0.8
0.6

0.6
0.4

0.4
0.2

0.2
0.0

0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

(a) Étape 0. (b) Étape 1.

1.0

1.0
0.8

0.8
0.6

0.6
0.4

0.4
0.2

0.2
0.0

0.0

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

(c) Étape 2. (d) Étape 3.

1.0

1.0
0.8

0.8
0.6

0.6
0.4

0.4
0.2

0.2
0.0

0.0

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

(e) Étape 4. (f) Étape 5.

Figure 7.2 – La fonction f0 est l’identité de [0, 1] dans [0, 1]. À l’étape n + 1, on subdivise chaque
intervalle sur lesquels fn n’est pas constante en trois sous-intervalles de même longueur. Alors fn+1 est
constante sur le sous-intervalle central alors qu’elle est affine sur les deux autres sous-intervalles de sorte
que fn+1 soit continue.

107
La fonction F est la fonction de répartition d’une v.a.r. X continue mais comme on va le montrer
tout de suite elle n’est pas à densité. En effet, la fonction f est dérivable au moins sur les plateaux Pn
des fonctions fn . Or,  
[ X 1 2 n
λ  Pn = ,
3 3
n≥0 n≥0

ce qui montre que f est dérivable presque partout et f ′ est presque partout nulle.
En fait, il faut revenir au théorème de Radon-Nikodym : la mesure PX admet une densité de pro-
babilité par rapport à la mesure de Lebesgue (qui est σ-finie) si PX ≺ λ. Il est d’ailleurs clair que la
mesure définie par l’exemple 37 n’est pas absolument continue par rapport à la mesure de Lebesgue, on
dit qu’elle est singulière. Rappelons la notion d’absolue continuité pour les fonctions.
Définition 7.2.21. Soit I = [a, b] un intervalle. La fonction F : [a, b] → R est dite absolument continue
si pour tout réel ε > 0, il existe δ > 0 et ([an , bn ])n≥0 des sous-intervalles de I d’intérieurs disjoints tels
que X X
(bn − an ) ≤ δ =⇒ |F (an ) − F (bn )| ≤ ε.
n≥0 n≥0

Proposition 7.2.22. Une v.a.r. X admet une densité si et seulement si sa fonction de répartition FX
est localement absolument continue.
′
Remarque 66. En pratique, le plus simple reste donc de vérifier que le candidat naturel, à savoir FX , qui
existe presque partout, est effectivement une densité.

Caractérisation fonctionnelle d’une loi

La caractérisation suivante est très utile pour, connaissant la loi d’une v.a.r. X, déterminer la loi
d’une nouvelle variable aléatoire φ(X) où φ est une fonction numérique réelle donnée.
Proposition 7.2.23. Deux v.a.r. X et Y suivent la même loi si et seulement si pour toute fonction
g : R → R mesurable bornée
E(g(X)) = E(g(Y )).
Démonstration. C’est un corollaire immédiat de 7.1.3.

Fonctions génératrices
Lorsque X est une variable aléatoire à valeurs dans N, on peut définir la notion de fonction génératrice
X
∀z ∈ C : GX (z) = E(z X ) = P(X = k)z k .
k≥0

Le rayon de convergence de cette série entière est plus grand que 1.

Proposition 7.2.24. Si X et Y sont deux variables aléatoires à valeurs dans N, alors X et Y ont même
loi si et seulement si GX (z) = GY (z) pour tout z ∈ C tel que |z| < 1.
Démonstration. Il suffit de montrer que, pour tout k ≥ 0, P(X = k) = P(Y = k). Ces quantités sont les
coefficients d’une série entière et peuvent s’exprimer à l’aide des dérivées successives
Exercice 29. Soit X une variable aléatoire à valeurs dans N admettant un moment d’ordre 2. Exprimer
les moments d’ordre 1 et d’ordre 2 en fonction des fonctions génératrices.

7.2.3 Exemples de calcul de lois

L’objectif de ce paragraphe est de donner quelques méthodes de calcul de lois de probabilité : on se
donne une v.a.r. X de loi connue et une fonction φ : R −→ R — a priori arbitraire même si en général
on la suppose assez régulière — et on cherche à calculer la loi de φ(X).
La méthode de calcul dépend essentiellement de la caractérisation de la loi que l’on choisit, laquelle
dépend du problème que l’on traite. On donne ici deux exemples concrets.

108
À l’aide de la fonction de répartition
Commençons par un exemple très simple : on se donne une variable aléatoire X de loi uniforme sur
[0, 1] et on cherche à calculer la loi de X 2 .
La fonction de répartition de X est donnée par FX définie pour t ∈ R




 0 t<0

FX (t) = t t ∈ [0, 1)



 1 t≥1


On cherche à calculer la fonction de répartition de X 2 :

√ √ √ √
FX 2 (t) = P(X 2 ≤ t) = 1[0,∞) (t)P(X ∈ [− t; t]) = 1[0,∞) (t)P(X ≤ t) = 1[0,∞) (t)FX ( t).
Il arrive parfois que l’on tombe sur une loi remarquable, ce n’est pas le cas ici. Il n’en reste pas moins
que la loi a été caractérisée : la fonction FX est déterminée.
Notons que la fonction de répartition de X 2 est continue, on peut se poser la question de l’existence
d’une densité. En dérivant 



 0 t<0
 √
′ −1
f (t) = FX 2 (t) = t ∈ [0, 1)
 (2 t)


 0 t≥0


On vérifie facilement que f est une densité.

Rappelons que la fonction de répartition — on la notera φ dans toute la suite — de la loi normale
centrée réduite n’est pas explicite, néanmoins il est possible de calculer la densité de X 2 lorsque X suit
une N (0, 1) à l’aide de la méthode impliquant la fonction de répartition. En effet,
√ √ √ √

FX 2 (t) = P(X 2 ≤ t) = 1[0,∞) (t)P(X ∈ [− t; t]) = 1[0,∞) (t) φ( t) − φ(− t) .

Puis on dérive :
′ 1[0,∞) (t) −t/2
f (t) = FX 2 (t) =√ e
2πt
On vérifie que f est une densité. En fait c’est la densité d’une loi connue appelée loi du χ2 (1). On
généralisera ce résultats dans un prochain chapitre ce qui fera apparaı̂tre la loi du chi-deux à d degrés
de liberté notée χ2 (d).

À l’aide de la densité
Cette méthode consiste à utiliser le résultat de la proposition 7.2.23 qui caractérise la loi d’une variable
aléatoire à l’aide de fonctions tests. Reprenons l’exemple d’une v.a.r. X de loi normale centrée réduite
2
dont on cherche à calculer la loi du carré X 2 . La densité de N (0, 1) est donnée par f (x) = (2π)−1/2 e−x /2 ,
x ∈ R.
Soit g : R −→ R une fonction borélienne bornée et calculons en utilisant un argument de parité
Z Z ∞
E(g(X 2 )) = g(x2 )f (x) dx = 2 g(x2 )f (x) dx.
R 0
2
Par le théorème de changement de variable en posant y = x , on obtient
Z ∞ Z ∞
e−y/2
Z
p dy
2 g(x2 )f (x) dx = 2 g(y)f ( (y)) √ = 1[0,∞) (y)g(y) √ dy.
0 0 2 y R 2πy
On identifie alors à l’aide de la proposition 7.2.23 la densité de X 2 , à savoir
e−y/2
h(y) = 1[0,∞) (y) √ ,
2πy
soit le résultat montré dans la section précédente

109
Remarque 67. À la première ligne de calcul, l’intégrale sur R a été coupée en deux de sorte que la fonction
x −→ x2 est un difféomorphisme de (0, ∞) −→ (0, ∞) et (−∞, 0) −→ (0, ∞) respectivement. Ainsi, il
n’est pas utile que la fonction φ considérée soit un difféomorphisme globale.
Notons également que, quoiqu’il arrive, x −→ x2 n’est pas un difféomorphisme en 0, c’est pourquoi
il a été retiré du domaine. Cela ne pose pas de problème car P(X = 0) = 0 donc la valeur de l’intégrale
ne change pas.

7.2.4 Classification des lois de probabilités sur R

La preuve de 7.2.18 a montré que la loi de toute v.a.r. est un mélange d’une loi discrète et d’une
loi continue. L’exemple 37, quant à lui, illustre qu’une loi continue peut être singulière à la mesure de
Lebesgue. Cette section vise à donner la décomposition d’une loi en une partie absolument continue (i.e.
à densité par rapport à Lebesgue), une partie discrète et une partie singulière.

Théorème 7.2.25. Soient µ et ν deux probabilités sur (R, B(R)). Alors ν = f · µ + µ0 où µ0 ⊥ µ. De
plus, cette décomposition est unique.

Démonstration. C’est unR peu la même idée que pour le théorème 6.3 de Radon-Nikodym : on considère
2
la forme linéaire f → R f dν continue sur L (ν + µ). Nous obtenons donc l’existence d’une fonction
g ∈ L2 (ν + µ) telle que f dν = f g d(ν + µ) si bien que
R

Z Z
f (1 − g) dν = f g dµ.

En considérant des fonctions bien choisies, on monte que g, 1 − g ≥ 0, (ν + µ)-p.p. si bien que g(x) ∈ [0, 1]
pour tout x quitte à la modifier sur un ensemble de mesure nulle. En posant B = {g = 1} on déduit
Z Z Z
ν(B) = 1B dν = g1B d(ν + µ) = 1B d(µ + µ) = µ(B) + ν(B),

et µ(B) = 0. On pose µ0 = ν(· ∩ B) alors µ0 et µ sont étrangères. On vérifie alors facilement que ν(· ∩ B ∁ )
g
est à densité f = 1−g 1B ∁ .

Corollaire 7.2.26. Soit µ une mesure σ-finie sur (R, B(R)). Alors toute mesure de probabilité ν sur
(R, B(R)) s’écrit de façon unique comme f · µ + µ0 où f ∈ L1R (µ) est positive et µ0 ⊥ µ.

Démonstration. Il s’agit de généraliser le théorème précédant à une mesure de référence σ-finie. Cela se
fait comme dans le théorème 6.3 de Radon-Nikodym.

En posant µ = λ la mesure de Lebesgue, l’application de ce corollaire à la loi ν = PX d’une v.a.r.

implique l’existence d’une fonction f positive λ-intégrable et d’une mesure positive µ0 étrangère à λ telle
que PX = f · λ + µ0 . En appliquant les arguments de 7.2.18 à µ0 on montre facilement que toute mesure
de probabilité ν sur (R, B(R)) se décompose de façon unique en une combinaison convexe de trois lois
étrangères : une loi absolument continue par rapport à la mesure de Lebesgue, une loi discrète et une loi
singulière.

7.2.5 Simulation de lois

Commençons par un cas simple : soit F une fonction de répartition supposée continue strictement
croissante. On considère U une variable aléatoire uniforme sur [0, 1] et on pose X = F −1 (U ). Alors, pour
t∈R
P(X ≤ t) = P(F −1 (U ) ≤ t) = P(U ≤ F (t)) = F (t),
car F est croissante. Ainsi, pour générer des nombres aléatoires suivant une loi dont la fonction de
répartition est continue strictement croissante, il suffit de savoir générer des nombres suivant une loi
uniforme dans [0, 1].
Exemple 38. Soit X ∼ E(λ) alors sa fonction de répartition est donnée, pour tout t ∈ R, par F (t) =
(1−e−λt )1[0,∞) (t). Pour p ∈ (0, 1), on obtient F −1 (p) = − 1−p
λ et Y = F
−1
(U ), où U est une loi uniforme
sur [0, 1], suit une loi exponentielle de paramètre λ > 0.

110
Remarque 68. Si F est une fonction croissante de R dans R alors

lim F (x) = sup F (x) ∈ R ∪ {±∞} et lim F (x) = inf F (x) ∈ R ∪ {±∞}.
x→∞ x∈R x→−∞ x∈R

On notera ces limites F (∞) et F (−∞) respectivement.

Afin de généraliser à une fonction de répartition arbitraire F , il est nécessaire d’introduire la fonction
quantile notée H et définie pour tout p ∈ [0, 1] par

H(p) = inf{x ∈ R : F (x) ≥ p}, inf ∅ = ∞ et inf R = −∞.

En particulier, H(0) = −∞, H(1) ∈ R ∪ {∞} et pour tout p ∈ (0, 1), H(p) ̸= ±∞.
Proposition 7.2.27. Soit F une fonction de répartition et H la fonction quantile associée. Alors,
1. La fonction H est croissante et continue à gauche sur (0, 1]. De plus, pour tout x ∈ R et p ∈ [0, 1],
F (x) ≥ p si et seulement si x ≥ H(p).
2. Pour tout p ∈ [0, 1], F ◦ H(p) ≥ p avec égalité si H(p) > −∞ et F continue en H(p).
3. Soit U une variable aléatoire de loi uniforme sur [0, 1]. Alors la fonction de répartition de H(U )
est égale à F .
4. Soit X une variable aléatoire à valeurs dans R de fonction de répartition F . Si F est continue
alors F (X) suit une loi uniforme sur [0, 1].
Démonstration. Pour tout p ∈ [0, 1], on note Ap = {x ∈ R : F (x) ≥ p}.
1. On commence par démontrer l’équivalence du point 1 : soit x ∈ R et p ∈ (0, 1]. Par définition
de H(p), si F (x) ≥ p alors x ≥ H(p). Réciproquement, soient x ≥ H(p) et (xn )n≥0 une suite de
points de Ap qui converge vers H(p). Alors, ou bien x > H(p) et il existe N ≥ 0 tel que, pour tout
n ≥ N , H(p) ≤ xn ≤ x si bien que p ≤ F (xn ) ≤ F (x) par croissance de F ; ou bien x = H(p) et
par continuité à droite de F , p ≤ F (xn ) → F (x).
Si p, q ∈ [0, 1] sont tels que p ≤ q, alors par croissance de F , Aq ⊂ Ap et H(p) ≤ H(q).
Soit (pn )n≥0 une suite croissante de points de [0, 1] convergeant vers p ∈ (0, 1]. Par croissance
de H, la suite (H(pn ))n≥0 est croissante et admet une limite ℓ ≤ H(p). Il s’agit de montrer que
ℓ = H(p). Supposons au contraire que ℓ < H(p). Alors, d’une part F (ℓ) < p et d’autre part
par l’équivalence ci-dessus F (ℓ) ≥ pn pour tout n ≥ 0. En passant à la limite, on obtient la
contradiction voulue.
2. Soit p ∈ [0, 1] tel que H(p) ∈ R alors partant de H(p) ≥ H(p), on obtient de l’inégalité précédente
F ◦ H(p) ≥ p. Nous avons par ailleurs H(p) = ∞ lorsque p = 1 et l’inégalité est trivialement
satisfaite. De même, si H(p) = −∞ alors p = 0 et encore une fois l’inégalité est trivialement
satisfaite.
Supposons que H(p) > −∞. Soit ε > 0, puisque H(p) minore Ap , H(p) − ε ∈ / Ap . Par conséquent,
F (H(p)−ε) ≤ p. Puisque F est supposée continue en H(p), on obtient F (H(p)) = limε→0 F (H(p)−
ε) ≤ p.
3. Soit U une variable aléatoire de loi uniforme sur [0, 1]. D’après l’équivalence du point 1, pour tout
x∈R:
P(H(U ) ≤ x) = P(U ≤ F (x)) = F (x).
4. Les variables aléatoires X et H(U ) sont identiquement distribuées. Ainsi, F (X) a même loi que
F (H(U )), or F (H(U )) = U car F est continue et X est finie presque-sûrement.

Exemple 39. Considérons le cas le plus simple d’une variable aléatoire X suivant une loi de Bernoulli de
paramètre q ∈ (0, 1). Alors sa fonction de répartition est donnée par

F (t) = (1 − q)1[0,1) (t) + 1[1,∞) (t) et H(p) = (−∞)1p=0 + 1(1−q,1] (p).

Si U ∼ U[0, 1], P(U = 0) = 0 si bien que l’on peut considérer H(U

e ) où H(p)
e = 1(1−q,1] (p). De même on
pourra fermer l’intervalle dans l’indicatrice sans changer la loi.
Dans cet exemple très simple, on constate que H(U ) est à valeurs dans {0, 1} et P(H(U ) = 1) =
P(U ∈ (1 − q, 1]) = q.

111
7.3 Vecteurs aléatoires
Très souvent il est utile de considérer non pas des variables aléatoires réelles unidimensionnelles mais
des vecteurs aléatoires de Rd . Soit parce que le problème considéré fait naturellement intervenir un
vecteur (une position dans l’espace), soit parce que l’on répète d fois une expérience aléatoire. La suite
de ce chapitre consiste simplement à adapter les notions au cadre multidimensionnel.

7.3.1 Généralités
Définition 7.3.1. On appelle vecteur aléatoire ou variable aléatoire multivariée toute application me-
surable X : (Ω, F, P) −→ (Rd , B(Rd )).

Sauf mention contraire, la base de Rd choisie sera la base canonique. Comme dans le cas déterministe,
on peut écrire, dans la base canonique {ei , i = 1, . . . , d},
d
X
X= Xi ei
i=1

où la i-ième coordonnée Xi est une v.a.r..

Dans toute la suite, en terme de notation, on choisit la convention vecteur colonne comme c’est l’usage
en algèbre linéaire. Cependant, pour des raisons typographiques on écrira souvent X = (X1 , . . . , Xd ). Si
A est une matrice représentant un morphisme linéaire de Rd dans Rq , alors AX est un vecteur de Rq .
L’adjoint d’une matrice (ou d’un vecteur vu comme une matrice) sera noté A∗ .
Rappelons que la tribu borélienne de Rd est engendrée par les pavés de la forme (a1 , b1 )×· · ·×(ad , bd ),
ai , bi ∈ R, i = 1, . . . , d. Autrement dit, B(Rd ) = B(R)⊗d .

7.3.2 Loi d’un vecteur aléatoire, lois marginales

Définition 7.3.2. La loi d’un vecteur aléatoire X est la probabilité sur (Rd , B(R)⊗d ), notée PX , définie
par
PX (A) = P(X ∈ A), A ∈ B(R)⊗n .

Soit X = (X1 , . . . , Xn ) un vecteur aléatoire dans Rd de loi PX . La ième loi marginale, notée PXi est
la probabilité image réciproque de PX par la projection sur la ième coordonnée. Plus concrètement, si
A ∈ B(R),
Xi−1 (A) = R × · · · × R ×A × R × · · · × R
| {z } | {z }
i−1 d−i

et PXi (A) = PX (Xi−1 (A)). Ainsi, connaissant la loi d’un vecteur aléatoire X, on peut déterminer la loi
de chaque marginale Xi .
Par contre, on ne peut pas, connaissant chaque loi marginale, déterminer la loi du vecteur aléatoire
X. La loi PX possède intrinsèquement plus d’information que les PXi prises toutes ensembles. En fait,
il manque de l’information sur la façon dont les marginales dépendent les unes des autres.

7.3.3 Moments
On munit Rd d’une norme notée | · | ou | · |p , p ∈ [1, ∞] si l’on veut préciser.

Définition 7.3.3. Un vecteur aléatoire X ∈ Rd admet un moment d’ordre q ≥ 1 si

Z
q
E(|X| ) = |X|q dP < ∞
Ω

Définition 7.3.4 (Moyenne, Variance-Covariance). Si un vecteur aléatoire X ∈ Rd admet un moment

d’ordre 1, l’espérance de X, notée E(X) est définie par
Z
E(X) = X dP ∈ Rd .
Ω

112
Si X admet un moment d’ordre 2, la matrice de Variance-Covariance, ou plus simplement matrice de
covariance, est définie par
Σ(X) = E[(X − E(X))(X − E(X))∗ ] ∈ Md (R).
Remarque 69. Rappelons que nous utilisons la notation des vecteurs en colonne si bien que Σ(X) est
bien une matrice de taille d × d.
Remarque 70. Les moments d’ordre supérieurs, en général moins utilisé, ne peuvent s’écrire aussi syn-
thétiquement.

7.3.4 Lois à densité

L’espace mesurable (Rd , B(Rd )) est naturellement muni de la mesure de Lebesgue d-dimensionnelle
notée λd . La définition suivante découle directement de ce fait.
Définition 7.3.5. Un vecteur aléatoire X = (X1 , . . . , Xd ) est dit à densité si il existe une fonction
f ∈ L1 (λd ) positive vérifiant Z
f dλd = 1
Rd
telle que pour tout borélien A ∈ B(Rd )
Z
PX (A) = P(X ∈ A) = 1A f dλd .
Rd

Proposition 7.3.6. La loi d’un vecteur aléatoire à densité est caractérisé par sa densité de probabilité :
si X et Y sont deux vecteurs aléatoires de Rd de densités respectives fX et fY alors X et Y ont même
loi si et seulement si fX = fY λd -p.p..
Démonstration. C’est un corollaire de la proposition 7.1.4.
Proposition 7.3.7. Soit X = (X1 , . . . , Xd ) ∈ Rd un vecteur aléatoire à densité fX . Alors pour tout
i = 1, . . . , d, la marginale Xi est une v.a.r. à densité. De plus la densité fXi de Xi est donnée par
Z
fXi (x) = fX (x1 , . . . , xi−1 , x, xi+1 , . . . , xd ) λd−1 (dx1 , . . . , dxi−1 , dxi+1 , . . . , dxd ).
Rd−1

Démonstration. Il suffit évidemment de considérer le cas d = 2. Soit A ∈ B(R), alors le théorème de

Fubini implique
Z Z Z
PX1 (A) = PX (A × R) = 1A×R (x, y)fX (x, y) λ2 (dx, dy) = 1A f (x, y) λ(dy) λ(dx).
R2 R
|R {z }
=fX1 (x)

La densité fX2 se calcule de la même façon.

7.3.5 Fonction de répartition

On peut en dimension supérieure définir une notion de fonction de répartition même si celle-ci n’est
que peu utile bien souvent car Rd , pour d ≥ 2, n’admet plus d’ordre total naturel.
Définition 7.3.8. La fonction de répartition d’un vecteur X ∈ Rd est la fonction FX : Rd −→ [0, 1]
définie pour t = (t1 , . . . , td ) ∈ Rd par
FX (t1 , . . . , td ) = PX (X1 ≤ t1 , . . . , Xd ≤ td ).
Remarque 71. Dans ce cas encore, il y a une distinction entre variable à densité et variable continue.
Comme dans le cas unidimensionnel, une variable à densité est continue mais la réciproque est fausse.
Proposition 7.3.9. Deux vecteurs aléatoires X, Y ∈ Rd ont même loi si et seulement si FX = FY .
Démonstration. C’est une conséquence directe du théorème 2.2.20 car
S = {(−∞, a1 ] × · · · × (−∞, ad ], (a1 , . . . , ad ) ∈ Rd }
est un π-système (non vide et stable par intersection finie).

113
7.3.6 Transformation des vecteurs aléatoires à densité
Comme dans le cas des variables aléatoires réelles, se donnant un vecteur aléatoire X = (X1 , . . . , Xd )
de loi connue et une fonction φ : Rd → Rp , on cherche à déterminer la loi de φ(X). Pour ce faire, on
peut faire usage du théorème de changement de variable comme l’illustre l’exemple suivant.
Exemple 40. Soit (X, Y ) un vecteur aléatoire dont la loi est donnée par sa densité
h(x, y) = 1R+ ×R+ (x, y)λµe−λx e−µy .
On verra par la suite qu’en fait c’est un couple de variables aléatoires indépendantes de lois exponentielles
d’intensités λ et µ respectivement. On cherche à calculer la loi de (X + Y, X − Y ). Autrement dit, si
Z = (X, Y ) et φ : R2 → R2 est définie par φ(x, y) = (x + y, x − y), on cherche à déterminer la loi de
φ(Z).
On utilise la caractérisation fonctionnelle de la loi. Pour cela, notons (u, v) = φ(x, y) = (x + y, x − y)
et donnons nous une fonction g : R2 → R mesurable bornée. On calcule,
Z
E[g(φ(Z))] = E(g(X + Y, X − Y )) = g(x + y, x − y)h(x, y) dxdy.
R2

On fait le changement de variables (u, v) = (x + y, x − y) qui s’inverse par (x, y) = ((u + v)/2, (u − v)/2).
Il est clair que φ est un C 1 -difféomorphisme de R2 , c’est en fait un automorphisme linéaire. Le jacobien
de φ−1 est donné par  
1/2 1/2 
det Jacφ−1 (u, v) =  
1/2 −1/2
Le théorème de changement de variable donne

u+v u−v
Z
dudv
E[g(φ(Z))] = g(u, v)h , .
R2 2 2 2
Par la caractérisation avec des fonctions tests, on identifie la densité de (U, V ) = (X + Y, X − Y ) : elle
est donnée par

u+v u−v λµ
h(X+Y,X−Y ) (u, v) = h , = 1u+v≥0 (u)1u−v≥0 e−(λ+µ)u/2 e−(λ−µ)v/2
2 2 8
que l’on peut simplifier en
λµ −(λ+µ)u/2 −(λ−µ)v/2
h(X+Y,X−Y ) (u, v) = 1u≥0 1−u≤v≤u e e .
2
En exercice complémentaire, on peut donner la densité de X + Y , pour ce faire il suffit d’intégrer par
rapport à v. Lorsque λ ̸= µ,
Z
λµ
hX+Y (u) = 1u≥0 1−u≤v≤u e−(λ+µ)u/2 e−(λ−µ)v/2 dv
R 2
λµ −(λ+µ)u/2 u −(λ−µ)v/2
Z
= 1u≥0 e e dv
2 −u
λµ h i λµ −µu
e−(λ+µ)u/2 e(λ−µ)u/2 − e−(λ−µ)u/2 = 1u≥0 − e−λu .

= 1u≥0 e
(λ − µ) (λ − µ)
Lorsque λ = µ, on obtient :
µ2 −µu u
Z Z
λµ −(λ+µ)u/2
hX+Y (u) = 1u≥0 1−u≤v≤u e dv = 1u≥0 e dv = 1u≥0 µ2 ue−µu .
R 2 2 −u

On finit cette partie sur une proposition dans laquelle est insérée une remarque importante. Si au
lieu de déterminer la loi (X + Y, X − Y ), on se pose la question de la loi de X + Y seulement, le
théorème de changement variables n’est pas applicable directement du fait d’un problème de dimension :
(x, y) → x + y n’est pas injective. La solution consiste à ajouter une dimension en étudiant, par exemple,
la loi de (X + Y, X) et à intégrer par rapport à la seconde variable pour obtenir la loi de X + Y . Le
choix de l’ajout de variable n’est pas unique mais il faut bien entendu rester dans la simplicité tout en
conservant l’injectivité du changement de variable.

114
Chapitre 8

Indépendance

8.1 Tribus indépendantes

Définition 8.1.1. Une famille (Fi )i∈I de sous-tribus de F est dite indépendante si pour tout J ⊂ I fini
et  
Y \ Y
∀(Aj )j∈J ∈ Fj =⇒ P  Aj  = P(Aj ).
j∈J j∈J j∈J

Une famille (Ai )i∈I d’événements est indépendante si la famille des tribus correspondantes (σ(Ai ))i∈I
est indépendante.

À toute fin utile, on rappelle que pour A ∈ F on a σ(A) = {∅, Ω, A, A∁ }.

Remarque 72. Il existe une notion plus faible appelée indépendance deux à deux. Des événements (Ai )i∈I
sont indépendants deux à deux si pour tout i ̸= j ∈ I

P(Ai ∩ Aj ) = P(Ai )P(Aj ).

La notion d’indépendance de la définition 8.1.1 est parfois appelée indépendance mutuelle. Sauf mention
contraire, lorsque nous parlerons d’indépendance sans autre précision, il s’agira toujours de la notion
définie en 8.1.1
Exemple 41. On lance deux fois une pièce de monnaie. On considère les événements

A = {“pile au 1er lancé”}, B = {“face au 2e lancé”}, C = {“même tirage au deux lancés”}.

On vérifie facilement que

— P(A) = P(B) = P(C) = 1/2,
— P(A ∩ B) = P(A)P(B), P(A ∩ C) = P(A)P(C) et P(B ∩ C) = P(B)P(C),
mais que P(A ∩ B ∩ C) = 0.
La proposition suivante, très utile en pratique, introduit une notion d’indépendance par paquet.

Proposition 8.1.2. Soit (Fi )i∈I une famille de tribus indépendantes. Soit (Ik )k∈K une partition de I.
On note Uk la tribu engendrée par les la famille (Fi )i∈Ik , k ∈ K, autrement dit Uk = σ(Fi , i ∈ Ik ).
Alors, la famille (Uk )k∈K est indépendante.

Démonstration. On utilise les deux lemmes ci-dessous

Lemme 8.1.3. Soit (Fi )i∈I une famille de sous-tribus. On suppose que pour tout i ∈ I, la tribu Fi est
engendré par un π-système Ci contenant Ω. La famille (Fi )i∈I est indépendante si et seulement si pour
tout J ⊂ I fini  
Y \ Y
∀(Aj )j∈J ∈ Cj : P Aj  = P(Aj ). (8.1)
j∈J j∈J j∈J

115
Démonstration. Soit J ⊂ I un sous-ensemble fini d’indices. Si J = ∅ alors l’égalité (8.1) est trivialement
satisfaite. Supposons donc J ̸= ∅. On se donne une énumération de J, c’est à dire J = {j1 , . . . , jk } où
k = card J. Pour r = 0, . . . , k, on définit la propriété (Pr ) suivante : l’égalité (8.1) est satisfaite pour
tout Ai ∈ Fi , 1 ≤ i ≤ r, et tout Ai ∈ Ci , r < i ≤ k. On va montrer que la propriété (Pr ) est vraie pour
tout r ∈ {0, . . . , k}.
La propriété (P0 ) est vraie par hypothèse. Supposons que (Pr−1 ) est vraie et montrons que (Pr ) est
vraie. Pour cela, considérons
( r−1 k
Y Y
D = B ∈ Fr : ∀(Ai )1≤i≤r−1 ∈ Fi , (Ai )r+1≤i≤k ∈ Ci ,
i=1 i=r+1
r−1 k
! r−1
! k
!)
Y Y Y Y
P Ai × B × Ai = P(Ai ) P(B) P(Ai ) .
i=1 i=r+1 i=1 i=r+1

Montrons que D est un λ-système. Par hypothèse de récurrence (Pr−1 ) et puisque Ω ∈ Cr , on déduit que
Ω ∈ D. Soient B, C ∈ D tels que B ⊂ C. On note
r−1
\ k
\
A− = Ai et A+ = Ai .
i=1 i=r+1

Alors,
P(A− ∩ (C \ B) ∩ A+ ) = P(A− ∩ C ∩ A+ ) − P(A− ∩ B ∩ A+ ).
Puis, comme B, C ∈ D, on obtient
Y Y
P(A− ∩ (C \ B) ∩ A+ ) = [P(C) − P(B)] P(Ai ) = P(C \ B) P(Ai ),
i̸=r i̸=r

d’où C \ B ∈ D. Soit maintenant (Bn )n≥0 ∈ DN une suite croissante, en notant B = ∪n≥0 Bn , on a
Y Y
P(A− ∩ B ∩ A+ ) = lim P(A− ∩ Bn ∩ A+ ) = lim P(Bn ) P(Ai ) = P(B) P(Ai ).
n→∞ n→∞
i̸=r i̸=r

Ainsi, B ∈ D. On conclut que D est un λ-système qui contient le π-système Cr , donc contient σ(Cr ) = Fr .
La propriété (Pr ) est donc vraie. Par récurrence, (Pk ) est vraie et ce indépendamment de l’énumération
de J choisie. Ceci finit la preuve du lemme.

et
Lemme 8.1.4. Soit (Fi )i∈I une famille de sous-tribus. Alors,
 
\ 
C= Aj : Aj ∈ Fj , J ⊂ I fini (8.2)
 
j∈J

est un π-système, contenant Ω, qui engendre la tribu σ(Fi : i ∈ I).

Démonstration. Puisque Ω ∈ Fi pour tout i ∈ I, on déduit que Ω ∈ C si bien que C ̸= ∅. Soit A, B ∈ C,
alors, il existe JA , JB ⊂ I des sous-ensembles finis d’indices et des ensembles Cj ∈ Fj , j ∈ JA , et des
ensembles Dℓ ∈ Fℓ , ℓ ∈ JB tels que
\ \
A= Cj et B = Dℓ .
j∈JA ℓ∈JB

Par conséquent, \ \
A∩B = Cj ∩ Dℓ ∈ C,
j∈JA ℓ∈JB

quitte à rassembler les ensembles qui sont dans la même sous-tribus. Donc C est un π-système qui contient
Ω. Clairement, Fi ⊂ C pour tout i ∈ I si bien que σ(Fi , i ∈ I) ⊂ σ(C).

116
Plus précisément, pour tout k ∈ K, Uk est engendré par le π-système Ck définit par (8.2) où l’on a
remplacé I par Ik . Ces π-systèmes contiennent Ω. Soit J ⊂ K un sous-ensemble fini, par indépendance
de la famille (Fi )i∈I , l’égalité (8.1) est satisfaite. Ceci conclut la preuve de la proposition.

8.2 Lemme de Borel-Cantelli

On rappelle les définitions pour (Bn )n≥0 une suite d’événements mesurables
\ [ [ \
lim sup Bn = Bk et lim inf Bn = Bn ,
n≥0 k≥n n≥0 k≥n

ainsi que le premier lemme de Borel-Cantelli — c.f. la proposition 2.2.7.

Proposition 8.2.1 (Premier lemme de Borel-Cantelli). Soit (Bn )n≥0 ∈ F N une suite d’événements.
Alors X
P(Bn ) < ∞ =⇒ P(lim sup Bn ) = 0.
n≥0

P(Bn∁ ) < ∞ alors

P
Remarque 73. On remarque si n≥0

P(lim inf Bn ) = 1, car (lim inf Bn )∁ = lim sup Bn∁ .

Proposition 8.2.2 (Deuxième lemme de Borel-Cantelli). Soit (Bn )n≥0 ∈ F N une suite d’événements
indépendants. Alors
X
P(Bn ) = ∞ =⇒ P(lim sup Bn ) = 1.
n≥0

Remarque 74. Sous les mêmes hypothèses

X
P(Bn∁ ) = ∞ =⇒ P(lim inf Bn ) = 0.
n≥0

Ainsi dans le cas d’événements (Bn )n≥0 indépendants, l’événement lim sup Bn est de probabilité 0
ou 1 et on a le critère suivant
X
P(lim sup Bn ) = 0 si et seulement si P(Bn ) < ∞.
n≥0

Démonstration. On remarque que P(lim sup Bn ) = 1 − P(lim inf Bn∁ ) et on va montrer que P(lim inf Bn∁ )
est nulle. Puisque lim inf Bn∁ = ∪n≥0 ∩k≥n Bk∁ , il suffit donc de montrer que, pour tout n ≥ 0, P(∩k≥n Bk )
est nulle. Fixons n ≥ 0. Par définition les tribus σ(Bn ) sont indépendantes et donc les événements Bn∁
sont aussi indépendants. Par conséquent
   
\ \ Y
P ↓ Bk∁  = lim P  Bk∁  = lim P(Bk∁ ).
p→∞ p→∞
k≥n n≤k≤p n≤k≤p

D’autre part, notant que P(Bn∁ ) = 1 − P(Bn ) et que 1 − x ≤ e−x pour tout x ≥ 0, on a
 
Y Y Y  X 
P(Bk∁ ) = e−P(Bk ) = exp −

1 − P(Bk ) ≤ P(Bk ) .
 
n≤k≤p n≤k≤p n≤k≤p n≤k≤p

P
Pour finir, n étant fixé, n≤k≤p P(Bk ) tend vers ∞ lorsque p → ∞.

117
8.3 Variables aléatoires indépendantes
8.3.1 Définition et caractérisation élémentaire
Si X : (Ω, F, P) → (E, E) est une variable aléatoire, on note σ(X) ⊂ F la sous-tribu engendrée par
X, c’est à dire la plus petite tribu — au sens de l’inclusion — rendant mesurable l’application X.
Définition 8.3.1. Une famille de variables aléatoires (Xi )i∈I , Xi à valeurs dans (Ei , Ei ), i ∈ I, est
indépendante si et seulement si la famille de tribus (σ(Xi ))i∈I est indépendante.
Proposition 8.3.2. Une famille de variables aléatoires (Xi )i∈I est indépendante si et seulement pour
tout sous-ensemble J ⊂ I fini l’assertion suivante est satisfaite
 
Y \ Y
∀(Aj )j∈J ∈ Ej =⇒ P  {Xj ∈ Aj } = P(Xj ∈ Aj ).
j∈J j∈J j∈J

Démonstration. Immédiat.

8.3.2 Constructions de variables aléatoires indépendantes

On peut se poser la question de la construction de variables aléatoires indépendantes (ou de tribus) :
étant données deux espaces probabilisés (Ω1 , F1 , µ1 ) et (Ω2 , F2 , µ2 ), peut-on construire deux variables
indépendantes X1 et X2 de loi respective µ1 et µ2 ?
Pour ce faire, on considère l’espace probabilisé

(Ω, F, P) = (Ω1 × Ω2 , F1 ⊗ F2 , µ1 ⊗ µ2 )

et on pose X1 la projection sur Ω1 et X2 la projection sur Ω2 . Concrètement,

∀ω = (x1 , x2 ) ∈ Ω1 × Ω2 , X1 (ω) = x1 , X2 (ω2 ) = x2 .

Les variables aléatoires X1 et X2 sont alors des variables aléatoires indépendantes à valeurs dans Ω1
et Ω2 respectivement ; X1 a pour loi µ1 et X2 a pour loi µ2 . En effet, pour tout B1 ∈ F1 et B2 ∈ F2 ,

P(X1 ∈ B1 , X2 ∈ B2 ) = µ1 ⊗ µ2 (B1 × B2 ) = µ1 (B1 )µ2 (B2 ).

Prenant successivement B1 = Ω1 et B2 = Ω2 , on s’aperçoit que X1 et X2 suivent respectivement la loi

µ1 et µ2 .
Jusqu’ici, on a donc utilisé essentiellement la structure d’espace probabilisé produit. Le passage à une
famille quelconque se fait sans trop de problèmes mais repose tout de même sur le théorème 2.2.24 de
Carathéodory. Ce dernier théorème donne alors un sens à l’assertion “soit (Xn )n≥1 une suite de variables
aléatoires indépendantes”. Pour cela, nous devons introduire la notion de classe compacte.
Définition 8.3.3 (Classe compacte d’ensembles). Une classe K de parties d’un ensemble E est dite
T TN
compacte si, pour toute famille (Kn )n≥0 ∈ KN telle que n≥0 Kn = ∅ il existe N ≥ 0 tel que n=0 Kn =
∅.
Théorème 8.3.4. Soit, pour tout i ∈ I, (Ei , Fi , µi ) un espace probabilisé. On suppose que, pour tout
i ∈ I, il existe une classe compacte Ki ⊂ Fi telle que

∀A ∈ Fi , µi (A) = sup µi (C), C ∈ Ki .
Q N N
Alors, il existe
Q une unique probabilité µ sur i∈I Ei , i∈I Fi , notée i∈I µi , telle que pour tout
(Bi )i∈I ∈ i∈I Fi avec Bi = Ei sauf pour un nombre fini de i ∈ I,
! !
O Y Y
µi Bi = µi (Bi ).
i∈I i∈I i∈I

La famille (Xi )i∈I des projections est une famille de variables aléatoires indépendantes telles que, pour
tout i ∈ I, Xi soit de loi µi .

118
Démonstration. On introduit
Q Q l’algèbre de Boole C constitués des cylindres c’est à dire les ensembles
Ni∈I B i où (B i )i∈I ∈ F
i∈I i tels que Bi = Ei sauf pour un nombre fini. Par définition, la tribu
i∈I F i est la plus petite tribu rendant les projections Xi mesurables. On montre facilement que C
engendre cette tribu. Ensuite, pour un cylindre C ∈ C, alors il existe J ⊂ I fini tel que
Y Y
C= Cj × Ej , avec Cj ∈ Fj , j ∈ J.
j∈J j∈I\J

Pour ce cylindre C, on pose

Y
µ(C) = µj (Cj ).
j∈J

Il est alors clair que µ(∅) = 0 et que µ est finiment additive. Il reste donc à montrer le dernier point de
la définition 2.2.21.

Lemme 8.3.5. La classe Y

D= C× Ej , C ∈ Ki , i ∈ I
j̸=i

est compacte. De même, la classe K formée des intersections dénombrables d’éléments de D est compacte.

Démonstration. Voir [Nev70, p.78].

T
Soit (An )n≥0 une suite de cylindre telle que An+1 ⊂ An et n≥0 An = ∅. Soit également ε > 0. Pour
chaque n ≥ 0, il existe Jn ⊂ I fini tel que
Y Y
An = An,j × Ej .
j∈Jn j∈I\Jn

Pour chaque n ≥ 0 et j ∈ Jn , rappelant que Jn est fini, on peut choisir Cn,j ∈ Kj de sorte que
Y
µ(An ) ≤ µj (Cn,j ) + ε. (8.3)
j∈Jn

Q Q
On note Cn = j∈Jn Cn,j × j∈I\Jn Ej . Observons que la condition de décroissance sur (An ) implique
que Jn ⊂ Jn+1 et que pour tout j ∈ Jn , An+1,j ⊂ An,j . Ainsi, sans perte de généralité, on peut supposer
que Cn+1 ⊂ Cn .
T T
Maintenant, n≥0 An = ∅ implique n≥0 Cn = ∅. Par propriété de compacité et décroissance de
(Cn ), il existe N ≥ 0 tel que, pour tout n ≥ N , Cn = ∅ et µ(Cn ) = 0. Finalement, pour tout n ≥ 0,
µ(An ) ≤ µ(Cn ) + ε = ε. Ceci montre que limn→∞ µ(An ) = 0. Le théorème est alors une conséquence du
théorème 2.2.24.

Le théorème ci-dessus admet le corollaire suivant sous l’hypothèse polonaise certes plus restrictive
mais néanmoins largement suffisante dans la presque totalité des applications.

Corollaire 8.3.6. Soit, pour tout i ∈ I, (Ei , Fi , µi ) un espace probabilisé. On suppose que, pour tout
i ∈ I,
— Ei est un espace polonais,
— Fi est la tribu borélienne sur Ei ,
— µi est une mesure borélienne.
Q N N
Alors, il existe
Q une unique probabilité µ sur i∈I Ei , i∈I Fi , notée i∈I µi , telle que pour tout
(Bi )i∈I ∈ i∈I Fi avec Bi = Ei sauf pour un nombre fini de i ∈ I,
! !
O Y Y
µi Bi = µi (Bi ).
i∈I i∈I i∈I

Démonstration. Il suffit de de poser Ki l’ensemble des parties compactes de Ei .

119
Remarque 75. Dans le chapitre 5, nous avons construit la mesure de produit de façon différente bien que le
théorème de Carathéodory nous donne facilement l’existence et l’unicité de la mesure produit. Cependant,
de ce théorème nous ne pouvions déduire le théorème de Fubini qui explicite l’intégrale multiple en termes
d’intégrales itérées. Dans le cas d’un produit infini, il n’existe plus de telle formulation, en particulier, le
calcul de l’intégrale Z O
Q
f d µi
i∈I Ei i∈I

n’a rien d’évident.

8.3.3 Caractérisation de l’indépendance de v.a.r.

L’indépendance peut se caractériser à l’aide des trois caractérisations de lois, à savoir, fonctions tests,
fonctions de répartition, densités de probabilité. Ces résultats découlent facilement des définitions.

Proposition 8.3.7. Soient (Xi )i∈I une famille de v.a.r et fi : Ei → R, i ∈ I, des fonctions mesurables
bornées. Alors la famille (Xi )i∈I est indépendante si et seulement si pour tout J ⊂ I fini
 
Y Y
E fi (Xi ) = E[fi (Xi )].
j∈J j∈J

Proposition 8.3.8. Soit (Xi )i∈I une famille de v.a.r.. Alors (Xi )i∈I est indépendante si et seulement
si pour tout J ⊂ I fini et pour tout (tj )j∈J ∈ RJ
 
\ Y Y
F(Xj )j∈J (tj )j∈J = P  {Xj ≤ tj } = P(Xj ≤ tj ) = FXj (tj ).
j∈J j∈J j∈J

Proposition 8.3.9. Soit (Xi )i∈I une famille de v.a.r.. On suppose que les v.a.r. Xi , i ∈ I, admettent
une densité pi . Alors la famille (Xi )i∈I est indépendante si et seulement si pour tout j ∈ J fini le vecteur
(Xj )j∈J ∈ RJ admet pour densité la fonction p : RJ → R+ telle que
Y
p(x) = p((xj )j∈J ) = pj (xj ).
j∈J

Exercice 30. Démontrer les quatre propositions ci-dessus, notamment dans le cas d’une famille finie (Xi )
de variables aléatoires.
On note Ud = {z ∈ Cd : |z1 |2 + · · · + |zd |2 ≤ 1}. Si X ∈ Nd est un vecteur aléatoire à coordonnées
entières, alors sa fonction génératrice est définie pour tout z = (z1 , · · · , zd ) ∈ Ud par

GX (z) = E(z1X1 · · · zdXd ) = E(z X ).

Proposition 8.3.10. Soit (Xi )i∈I une famille de variables aléatoires à valeurs dans N. Alors la famille
(Xi )i∈I est indépendante si et seulement si pour tout J ⊂ I fini,
Y
∀(zj )j∈J ∈ UJ , G(Xj )j∈J ((zj )j∈J ) = GXj (zj ).
j∈J

Dans le chapitre 9, un résultat similaire impliquant les fonctions caractéristiques sera énoncé pour les
vecteurs aléatoires de Rd .
Le corollaire suivant est immédiat mais particulièrement utile en pratique.

Corollaire 8.3.11. Si X1 , . . . , Xn sont des variables aléatoires réelles indépendantes de densités respec-
tives fXi , alors la densité du vecteur (X1 , . . . , Xn ) est donnée par

f(X1 ,...,Xn ) (x1 , . . . , xn ) = fX1 (x1 ) · · · fXn (xn ).

120
Remarque 76. Soient X et Y deux v.a.r. indépendantes de densités respectives fX et fY . Le corollaire
précédant implique que la densité f(X,Y ) du couple (X, Y ) est f(X,Y ) (x, y) = fX (x)fY (y). Comme nous
l’avons dit au chapitre précédant, la connaissance de la loi du couple permet de déduire la loi des
marginales mais la réciproque est généralement fausse. Si on suppose en outre que les deux variables X
et Y du couple (X, Y ) sont indépendantes alors on peut déduire des lois marginales la loi du couple.
Corollaire 8.3.12. Soit (X, Y ) un couple de variables aléatoires de densité
R h = h(X,Y ) = hX hY — i.e.
X et Y admettent une densité et sont indépendantes. Alors hX+Y (u) = R hX (v)hY (u − v) dv est la
densité de X + Y . Cette transformation est appelée produit de convolution entre hX et hY et est noté
hX ∗ hY .
Démonstration. Soit g : R2 → R2 une fonction continue bornée.
Z
E(g(X + Y, X)) = g(x + y, x)hX (x)hY (y) dxdy.
R2

On pose u = x + y et v = x donc x = v et y = u − v. Le déterminant de la jacobienne vaut en module

1. Après le changement de variable, on obtient
Z
E(g(X + Y, X)) = g(u, v)hX (v)hY (u − v) dudv.
R2

On vérifie facilement, après intégration par rapport à v que la densité de X + Y est donnée par
Z
h(X+Y ) (u) = hX (v)hY (u − v) dv.
R

Remarque 77. Ce corollaire donne une expression explicite de la densité de la somme de deux v.a.r..
Pour n v.a.r. à densité, il faut itérer ces produits de convolution, soit itérer n − 1 intégrales. Ce procédé
devient vite infernal, on donnera au chapitre suivant une façon plus facile de calculer la loi d’une somme
de v.a.r indépendantes.
Proposition 8.3.13. Soient X et Y deux v.a.r. indépendantes alors cov(X, Y ) = 0.
La réciproque est fausse sauf dans le cas où le couple (X, Y ) est gaussien, c’est à dire pour tout
t, s ∈ R la variable tX + sY est gaussienne (voir le chapitre 10 pour un contre-exemple).
Si (Xn )n≥0 est suite de variables aléatoires admettant chacune un moment d’ordre 1, alors il vient
facilement que !
XN XN
E Xn = E(Xn ).
n=0 n=0

Sous l’hypothèse d’indépendance, on peut également expliciter la variance.

Proposition 8.3.14. Soit (Xn )n≥0 une suite v.a.r. indépendantes admettant chacune un moment d’ordre
2. Alors, !
X n Xn
V Xk = V(Xn ).
k=0 k=0

Démonstration. Calculons
!  !2  " #!2
Xn Xn n
X X X
V Xk = E  Xk  − E Xk = E(Xi Xj ) − E(Xi )E(Xj ).
k=0 k=0 k=0 0≤i,j≤n 0≤i,j≤n

Par indépendance, E(Xi Xj ) = E(Xi )E(Xj ) sauf lorsque i = j. Et donc, après simplification
n
! n n
X X X
E(Xk2 ) − E(Xk )2 =

V Xk = V(Xk ).
k=0 k=0 k=0

121
8.4 Une application du second lemme de Borel-Cantelli
Soit A = {0, 1} un alphabet fini et (Xn )n≥1 une suite de variables indépendantes. On suppose que
pour tout n ≥ 1, P(Xn = 1) = 1 − P(Xn = 0) = p pour p ∈ (0, 1). Autrement dit les variables aléatoires
Xn sont identiquement distribuées de loi commune la loi de Bernoulli de paramètre p ∈ (0, 1) notée B(p).
On dit que (Xn )n≥1 est une suite de v.a. indépendantes et identiquement distribuées, on note souvent
i.i.d..
∗
On définit la variable aléatoire τ à valeurs dans N par

τ = inf{n ≥ 1 : Xn = 1} et inf ∅ = ∞.

Pour tout n ≥ 1, P(τ = n) = (1 − p)n−1 p. Autrement dit, τ suit une loi géométrique de paramètre p.
Cette variable aléatoire τ est finie p.s. :
 
q
!
\ \
P(τ = ∞) = P  {Xn = 0} = lim P {Xn = 0} = lim (1 − p)q p = 0.
q→∞ q→∞
n≥1 n=1

Le lemme de Borel-Cantelli implique que

X
P(lim sup{Xn = 1}) = 1 ⇐⇒ P(Xn = p) = ∞.
n≥1

Autrement dit, l’événement {Xn = 1} arrive infiniment souvent.

En fait, en notant An = {Xn = 1, Xn+1 = 1, . . . , Xn+(k−1) = 1} pour k ≥ 1 et n ≥ 1. Les événements
(An )n≥1 ne sont pas indépendants à cause du chevauchement. Par contre les événements (Akn )n≥1 sont
k
indépendants en utilisant P la propriété d’indépendance par blocs. De plus P(Akn ) = p pour tout n ≥ 1
et k ≥ 1 si bien que n P(Akn ) = ∞ pour tout k ≥ 1. Par conséquent, pour tout k ≥ 1, l’événement
Akn se réalise infiniment souvent. Comme {Akn i.s. } ⊂ {An i.s. }, il vient que P(lim sup An ) = 1.
Concrètement, cela signifie que dans l’expérience du pile/face (prendre p = 1/2 par exemple), on trouve
infiniment souvent des sous-suites de k faces consécutives, k étant fixé mais pouvant être arbitrairement
grand. Notons τ k (ω) = inf{n ≥ 1 : ω ∈ An } la première occurrence de l’événement An . La loi de cette
variable aléatoire est plutôt difficile à calculer, car avant cette première occurrence il peut se passer à peu
près n’importe quoi sauf, bien entendu, l’occurrence d’un k-bloc de faces. En particulier, il peut y avoir
des ℓ-blocs de faces avec ℓ < k. Si nous étions en mesure de calculer son espérance, nous constaterions que
celle-ci croı̂t très vite avec k de sorte qu’il faille attendre très longtemps en moyenne pour voir apparaı̂tre
ces grands blocs.
Pour terminer, à l’aide de l’inégalité de Bienaymé-Tchebychev, pour tout ε > 0,
n
!
1X V(X1 )
P Xn − p ≥ ε ≤ → 0.
n ε2 n
k=1

Cela donne un premier résultat de type loi des grands nombres (on l’appellera loi faible des grands
nombres) : la moyenne arithmétique des Xn est avec grande probabilité dans un intervalle de largeur
2ε > 0 centrée en p = E(X1 ) ; cette probabilité est d’autant plus grande que n est grande.

122
Chapitre 9

Fonctions caractéristiques

La notion de fonction caractéristique provient de l’analyse et plus précisément de la théorie de Fourier.

Cette théorie, dont les prémices remontent à un peu plus de deux siècles, est très riches et fait intervenir un
grand nombre de concept d’analyse et d’analyse fonctionnelle. Nous nous restreindrons ici aux propriétés
utiles dans le cadre des probabilités et des statistiques, lesquelles pour la plupart ne seront pas démontrées.

9.1 Fonction caractéristique d’une v.a.r.

Définition 9.1.1. Soit X une v.a.r.. La fonction caractéristique de X ou transformée de Fourier de X
est la fonction φX : R −→ C définie pour t ∈ R par
Z
itX
φX (t) = E(e ) = eitx PX (dx). (9.1)
R

Si X est une variable discrète — pour fixer les idées, à valeurs dans N —, l’équation (9.1) se réécrit
X
φX (t) = eitn P(X = n).
n≥0

Remarque 78. La fonction génératrice de X est donnée par

X
GX (z) = z n P(X = n), z ∈ U.
n≥0

Ainsi, au moins formellement, la fonction caractéristique de X n’est rien d’autre que la fonction généra-
trice évaluée en z = eit , t ∈ R.
Si X est une v.a.r. de densité f , alors l’équation (9.1) se réécrit
Z
φX (t) = eitx f (x) dx.
R

Eu égard au théorème central limite que l’on démontrera au chapitre 12, il est important de connaı̂tre
la fonction caractéristique de la loi normale centrée réduite.
Proposition 9.1.2. Soit X ∼ N (0, 1). Alors
2
φX (t) = e−t /2
, t ∈ R.

Démonstration. On souhaite calculer

Z
2 dx
φX (t) = e−x /2 itx
e √ .
R 2π
1
Il est facile de montrer que φX est C et la dérivée est donnée par
Z
′ 2 dx
φX (t) = ixe−x /2 eitx √ .
R 2π

123
Une intégration par partie (par rapport à x donc) donne
Z i∞ Z
−x2 /2 itx dx dx
h
′ itx −x2 /2 2
φX (t) = ixe e √ = −e e − t eitx e−x /2 √ .
R 2π −∞ R 2π
Ainsi, la fonction φX satisfait l’équation différentielle linéaire du premier ordre à coefficient non constant
φ′X (t) + tφX (t) = 0. Une solution est donnée par
Rt 2
φX (t) = φX (0)e− 0
s ds
= e−t /2
.
La théorie des équations différentielles linéaires implique que c’est l’unique solution.
Proposition 9.1.3. Soit X une v.a.r.. Alors la fonction caractéristique de X est une fonction continue
bornée vérifiant, pour t ∈ R,
1. |φX (t)| ≤ 1 ;
2. φX (−t) = φX (t) ;
3. φaX+b (t) = eitb φX (at), a, b ∈ R ;
4. Si X est supposée symétrique — X et −X ont même loi — alors φX (t) ∈ R.
Démonstration. La continuité de φX est une conséquence du théorème de convergence dominée avec une
fonction de domination constante égale à 1 et de la continuité pour tout ω ∈ Ω de la fonction t → eitX .
1. Pour tout t ∈ R,
|φX (t)| = E(eitX ) ≤ E|eitX | = 1.
2. Pour tout t ∈ R,
φX (−t) = E(e−itX ) = E(eitX ).
3. Pour tout t ∈ R
φaX+b (t) = E(eit(aX+b) ) = eitb E(ei(ta)X ) = eitb φX (at).
4. Puisque X et −X ont même loi alors
φX (t) = E(eitX ) = E(e−itX ),
et donc par le point 2), φX (t) ∈ R.

Remarque 79. On vérifie facilement que si X ∼ N (0, 1) alors Y = σX + µ, µ ∈ R et σ ≥ 0, suit une loi
normale N (µ, σ 2 ). À l’aide de la proposition et de l’expression de la fonction caractéristique d’une loi
normale centrée réduite, on obtient
2 2 2 2
φY (t) = eitµ e−σ t /2
= eitµ−σ t /2
.
Comme son nom l’indique, la fonction caractéristique caractérise la loi d’une v.a.r..
Théorème 9.1.4. Deux v.a.r. X et Y ont même loi si et seulement si leurs fonctions caractéristiques
coı̈ncident, i.e. φX = φY .
Ce théorème donne une quatrième méthode pour calculer la loi d’une v.a.r.. Là encore, cela dépendra
de la problématique.
Démonstration. Si X et Y ont même loi, il est clair que leurs fonctions caractéristiques coı̈ncident.
La réciproque est un peu subtile et provient de la formule d’inversion de Fourier, nous admettrons ce
résultat.
Il peut être utile parfois de savoir reconnaı̂tre qu’une fonction est une fonction caractéristique.
Théorème 9.1.5 (Bochner). Une fonction φ : R −→ C est la fonction caractéristique d’une v.a.r. si et
seulement si les trois conditions suivantes sont satisfaites :
1. |φ(t)| ≤ 1 pour t ∈ R et φ(0) = 1 ;
2. φ est uniformément continue ;
3. φ est définie positive :
X
∀n ∈ N∗ , ∀(t1 , . . . tn ) ∈ Rn , ∀(z1 , . . . , zn ) ∈ Cn : φ(tk − tl ) zk z̄l ≥ 0
k,l

Démonstration. Admis.

124
9.2 Fonctions caractéristiques et moments
Comme avec les séries génératrices, il existe une relation entre dérivée de la fonction caractéristique
et moment d’une variable aléatoire réelle.

Théorème 9.2.1. Soit X une v.a.r. admettant un moment d’ordre p ∈ N. Alors, la fonction ca-
ractéristique est de classe C p . De plus,
(k)
φX (t) = ik E(X k eitX ), 0 ≤ k ≤ p.

En particulier,
(k)
φX (0)
E(X k ) = , 0 ≤ k ≤ p.
ik
Démonstration. Il s’agit d’une conséquence du théorème de convergence dominée de Lebesgue et plus
spécifiquement du théorème de dérivation sous le signe intégral.

Remarque 80. La réciproque est en général fausse : φ′X (0) peut exister sans pour autant que X admette
un premier moment (voir l’exemple 42 ci-dessous). Par contre, si φX est C 2 alors X admet un second
moment (voir [Spi76]).
Exemple 42. Sur Z on considère
P µ(z) = c/(z 2 log z) pour z ≥ 2 (et 0 sinon) où c > 0 est une constante
convenable. Clairement, z∈Z zµ(z) = ∞. Pourtant, on montre que µ̂ est dérivable en 0.
Par définition, pour tout t ∈ R,

b(t) − 1
µ X eitk − 1 c X 1 − cos(nt)
= = −2c .
t t k 2 ln(k) tn2 ln(n)
|k|≥2 n≥2

Considérons la séries à termes positifs

∞
1 X 1 − cos(nt)
. (9.2)
t n=2 n2 ln(n)

Pour tout t ∈ (0, 21 ), nous découpons la série suivant que n est plus grand ou plus petit que 1/t. En
remarquant que x → (ln(x))−1 et x → x−2 sont décroissantes, on obtient d’une part
Z ∞
1 X 1 − cos(nt) 2 X 1 2 dx
≤− ≤−
t n2 ln(n) t ln(t) 1
n 2 t ln(t) ⌊t⌋ x
1 2
n≥1/t n≥⌊ t ⌋

2 ⌊1⌋ + 1 1
=− ≤ −2 1t →t→0 0.
⌊ 1t ⌋

t − 1 ln(t) ⌊ t ⌋ − 1 ln(t)

x2
D’autre part, en utilisant l’inégalité, 1 − cos(x) ≤ 2 , x ∈ R, il vient
1
n
1 − cos(nt)
Z Z
1 X X 1 t X dx t t dx
≤t ≤ +t ≤ +t .
t n2 ln(n) ln(n) ln(2) n−1 ln(x) ln(2) 0 ln(x)
2≤n<1/t 2≤n<1/t 3≤n≤⌊ 1t ⌋

Il reste donc à montrer que le second terme tend vers 0. Pour cela, il suffit de remarque
Z y
dx
→y→∞ ∞
2 ln(x)

si bien que la règle de l’Hôpital implique

Ry dx
2 ln(x) 1
∼y→∞ →y→∞ 0.
y ln(y)

125
9.3 Fonctions caractéristiques de vecteurs aléatoires
Soit X un vecteur aléatoire dans Rd . La fonction caractéristique de X est la fonction φX : Rd → C
définie pour tout t ∈ Rd par
φX (t) = E(ei⟨t,X⟩ ),
où ⟨·, ·⟩ est le produit scalaire usuel sur Rd .
Ainsi si X est un vecteur aléatoire de densité f : Rd → R+ , alors
Z
φX (t) = ei⟨t,x⟩ f (x) dx.
Rd

Proposition 9.3.1. Soit X un vecteur aléatoire dans Rq . Alors sa fonction caractéristique φX est une
fonction continue bornée vérifiant, pour tout t ∈ Rq ,
1. |φX (t)| ≤ 1 ;
2. φX (−t) = φX (t) ;
3. si A ∈ Mp,q (R) et B ∈ Rp alors

φAX+B (t) = ei⟨t,B⟩ φX (A∗ t), ∀t ∈ Rp ,

où A∗ est l’adjoint de A.
4. si X est supposée symétrique, alors φX est à valeurs réelles.
Théorème 9.3.2. Deux vecteurs aléatoires X et Y ont même loi si et seulement si leurs fonctions
caractéristiques coı̈ncident i.e. φX = φY .
Si φ : Rd → R est C 1 , on note ∇φ le gradient de φ.
Proposition 9.3.3. Soit X = (X1 , . . . , Xd ) un vecteur aléatoire.
1. Si X admet un moment d’ordre 1, alors φX est C 1 et
E(X) = −i∇∗ φX (0).

2. Si X admet un moment d’ordre 2, alors φX est C 2 et

2
Cov (Xi , Xj ) = −∂ij φX (0) + ∂i φX (0)∂j φX (0).

3. de manière générale, à l’aide de multi-indices, si X admet un moment d’ordre p, alors φX est de

classe C p et pour tout α = (α1 , . . . , αd ) ∈ Nd tel que |α| = α1 + · · · + αd ≤ p
E(X α ) = i−|α| ∂1α1 . . . ∂dαd φX (0),
où X α = X1α1 · · · Xdαd .
Remarque 81. Il faut encore une fois faire attention au notation. En général, l’opérateur ∇ est représenté
en ligne : ∇ = (∂1 , . . . , ∂d ). Pour être cohérent avec notre convention de vecteur colonne, on doit prendre
la transposée ∇∗ .
Démonstration. Exercice.

9.4 Fonctions caractéristiques et indépendance

Théorème 9.4.1. Deux v.a.r. X et Y sont indépendantes si et seulement si φ(X,Y ) = φX φY .
Démonstration. Si X et Y sont indépendantes, le résultat suit directement de la proposition 8.3.7. La
réciproque fait appel à l’analyse de Fourier et dépasse un peu le cadre de ces notes.
Exemple 43. Soit (Xn )n≥1 une suite de v.a.r i.i.d. et posons Sn = X1 + · · · + Xn . Alors, pour tout n ≥ 1,
et tout t ∈ R,
" n # n
h i Y Y
it(X1 +···Xn ) itXi
E eitXi = φX1 (t)n

φSn (t) = E e =E e =
i=1 i=1

126
Chapitre 10

Vecteurs gaussiens

10.1 Manipulation des vecteurs gaussiens

Le rôle central de la loi normale en statistique et notamment dans le théorème central limite que l’on
montrera au chapitre 12 motive l’étude des vecteurs gaussiens qui sont en quelque sorte l’équivalent en
dimension supérieure de la loi normale. On parle d’ailleurs parfois de loi normale sur Rd .
Rappelons tout d’abord que si X ∼ N (m, σ 2 ) alors
(x−m)2
— elle a pour densité la fonction x → √2πσ1
2
e− 2σ2 lorsque σ 2 > 0 ;
— elle est presque sûrement égale à m lorsque σ 2 = 0 ;
— sa fonction caractéristique est donnée par

σ 2 t2

φX (t) = exp imt − .
2

On se place dans la base canonique de Rd . Si X est un vecteur aléatoire à valeurs dans Rd , on

considérera toujours X comme un vecteur colonne (même si, encore une fois, X est écrit en ligne pour
des raisons typographiques), c’est à dire en notant u∗ la transposée de u, X = (X1 , . . . , Xd )∗ .
Si A est une matrice réelle de taille q × d et b un vecteur de Rq , le vecteur aléatoire Y = AX + b
appartient à L2 dès qu’il en va de même pour X. On vérifie facilement que

E(AX + b) = AE(X) + b et Cov (AX + b) = ACov (X)A∗ .

En particulier, si u ∈ Rd , la variable réelle u∗ X a pour moyenne u∗ E(X) et pour variance V(u∗ X) =

u∗ Cov (X)u. Par conséquent, Cov (X) est une matrice réelle symétrique semi-définie positive.

Définition 10.1.1. Soit X un vecteur aléatoire dans Rd . Le vecteur aléatoire X est dit gaussien si, pour
tout t ∈ Rd , t∗ X est v.a.r. gaussienne.

Remarque 82. Si X est un vecteur gaussien, chacune de ses coordonnées sont des variables aléatoires
gaussiennes.
Exemple 44. Il ne suffit pas que chacune des coordonnées d’un vecteur aléatoire soit gaussienne pour que le
vecteur soit gaussien. En effet, si X et ε sont deux v.a.r. indépendantes, X ∼ N (0, 1) et P(ε = ±1) = 1/2,
alors εX suit une N (0, 1) mais le couple (X, εX) n’est pas un vecteur gaussien. En effet, d’un côté, en
utilisant l’indépendance,

E(eitX ) + E(e−itX ) 2
E(eitεX ) = E(eitεX 1ε=1 + eitεX 1ε=−1 ) = = e−t /2 ,
2
où l’on reconnaı̂t la fonction caractéristique d’une v.a.r. gaussienne. D’un autre côté, toujours en utilisant
l’indépendance et en décomposant selon les valeurs que peut prendre ε, on obtient

φX (t + s) + φX (t − s)
E(exp(itX + isεX)) = ̸= φX (t)φX (s).
2

127
Proposition 10.1.2. Soient X1 , . . . , Xd des v.a.r. gaussiennes et indépendantes, alors X = (X1 , . . . , Xd )
est un vecteur gaussien.
Pd
Démonstration. Soit t ∈ Rd , on vérifie que t∗ X = j=1 tj Xj suit une loi normale. En effet, par indé-
pendance, en supposant que Xj ∼ N (mj , σj2 ), on calcule
 
d d 2 Xd
∗ Y X s
φX (s) = E(eist X
)= E(eistj Xj ) = exp is mj tj − σj2 t2j  ,
j=1 j=1
2 j=1

où l’on reconnaı̂t la fonction caractéristique d’une v.a.r. gaussienne de moyenne m et de variance σ 2
données par
X d Xd
m= tj mj et σ 2 = σj2 t2j .
j=1 j=1

Théorème 10.1.3. Un vecteur aléatoire X est gaussien dans Rd si et seulement si sa fonction ca-
ractéristique est de la forme
t∗ Γt

∗
t −→ exp it m −
2

où m ∈ Rd et Γ est matrice d × d semi-définie positive.

Démonstration. Supposons X gaussien alors t∗ X est une v.a.r. gaussienne pour tout t ∈ Rd . Ainsi,

V(t∗ X) t∗ Cov (X)t

∗ ∗
φX (t) = φt∗ X (1) = exp iE(t X) − = exp it E(X) − .
2 2
n o
t∗ Γt
Réciproquement, on suppose que φX (t) = exp it∗ m − 2 alors pour tout c ∈ R

t∗ Γt 2

∗
φt∗ X (c) = φX (ct) = exp it mc − c .
2

Ceci montre, pour tout t ∈ Rd , que t∗ X est une v.a.r. gaussienne de moyenne t∗ m et de variance t∗ Γt.
D’autre part, comme pour tout vecteur aléatoire, nous avons, pour tout t ∈ Rd , E(t∗ X) = t∗ E(X) et
V(t∗ X) = t∗ Cov (X)t. Ceci montre que m = E(X) et Γ = Cov (X).

Corollaire 10.1.4. Si X ∈ Rd est gaussien alors sa loi est complètement caractérisée à l’aide de son
espérance et sa matrice de covariance.

Corollaire 10.1.5. Soit X = (X1 , · · · , Xd ) ∈ Rd un vecteur gaussien. Alors les composantes X1 , . . . , Xd

sont des v.a.r. indépendantes si et seulement si la matrice de covariance de X est diagonale.

Proposition 10.1.6. Soient X un vecteur gaussien de Rd , b ∈ Rq et A une matrice réelle de taille q × d.

Alors Y = AX + b est un vecteur gaussien de Rq et de matrice de covariance ACov (X)A∗ .

Démonstration. Soit t ∈ Rq , alors t∗ Y = t∗ (AX) + t∗ b = (t∗ A)X + t∗ b est gaussien car t∗ A ∈ Rd et

t∗ b ∈ R et X ∈ Rd est gaussien. Le reste de la proposition est immédiat.

Proposition 10.1.7. Soient X un vecteur gaussien, A et B deux matrices réelles de tailles respectives
q × d et r × d. Alors AX et BX sont indépendants si et seulement si ACov (X)B ∗ = 0.

Remarque 83. Notons que AX et BX sont des vecteurs de Rq et Rr respectivement. Ceci reste cohérent
avec la définition d’indépendance de deux variables aléatoires puisqu’il n’est pas nécessaire que celles-ci
prennent leurs valeurs dans un même espace.

128
Démonstration. Notons m = E(X) et Γ = Cov (X). Soit C la matrice réelle de taille (q + r) × d définie
par C = ( BA ) et soit Y ∈ Rq+r défini par Y = CX = ( AX ). D’après la proposition 10.1.6, Y est un
BX
vecteur gaussien et on a E(Y ) = Cm, Cov Y = CΓC ∗ . Le théorème 10.1.3 implique

q+r ∗ 1 ∗ ∗
∀u ∈ R , φY (u) = exp iu Cm − u CΓC u .
2

Écrivons u = ( st ) avec s ∈ Rq et t ∈ Rr . On a u∗ C = s∗ A + t∗ B et donc

u∗ CΓC ∗ u = s∗ AΓA∗ + t∗ BΓB ∗ t + s∗ AΓB ∗ t + t∗ BΓA∗ s = s∗ AΓA∗ s + t∗ BΓB ∗ t + 2s∗ AΓB ∗ t.

Finalement, on calcule

1 1
φY (u) = exp is∗ Am − s∗ AΓA∗ s exp it∗ Bm − t∗ BΓB ∗ t exp{−s∗ AΓB ∗ t}.
2 2
Or AX et BX sont naturellement des vecteurs gaussiens et d’après le théorème 10.1.3 l’égalité ci-dessus
se réécrit
φY (u) = φAX (s)φBX (t) exp{−s∗ AΓB ∗ t}.
Par conséquent, AX et BX sont indépendants si et seulement si pour tous s ∈ Rq , t ∈ Rr , s∗ AΓB ∗ t = 0.
Autrement dit, si et seulement si AΓB ∗ = 0.
Remarque 84. Si X, Y sont deux vecteurs gaussiens indépendants à valeurs dans Rq et Rr respectivement,
q+r
alors Z = ( X
Y ) est un vecteur gaussien de R .
Théorème 10.1.8. Soient m ∈ Rd et Γ une matrice d × d réelle symétrique semi-définie positive.
1. Il existe un vecteur gaussien X à valeurs dans Rd de loi N (m, Γ) c’est à dire tel que E[X] = m
et Cov (X) = Γ.
2. X admet une densité si et seulement si Γ est non dégénérée. Dans ce, la densité de X s’écrit
(x − m)∗ Γ−1 (x − m)

d 1
∀x ∈ R , p(x) = √ exp − .
(2π)d/2 det Γ 2

Sinon X est concentrée sur l’espace affine m + (ker Γ)⊥ .

2
3. Il existe α > 0 tel que E(eα|X| ).
Démonstration. Soient Y1 , . . . , Yd des variables indépendantes de loi N (0, 1) et notons Y = (Y1 , . . . , Yd )∗ .
Alors Y est un vecteur gaussien d’espérance nulle et de matrice de covariance Cov Y = I.
La matrice Γ est symétrique semi-définie positive, aussi notant Σ2 = diag (σ12 , . . . , σd2 ) la matrice
diagonale constituée des valeurs propres (toutes réelles positives) de Γ, il existe une matrice orthogonale
A telle que Γ = AΣ2 A∗ .
Pour le point 1, on pose X = m + AΣY . Alors X est un vecteur gaussien comme la transformation
affine d’un vecteur gaussien. De plus, E(X) = AΣE(Y ) + m = m et Cov (X) = AΣCov (Y )Σ∗ A∗ =
AΣ2 A∗ = Γ.
Pour le point 2, supposons Γ inversible si bien que Σ est également inversible ou encore les valeurs
propres de Γ sont toutes strictement positives. D’autre part, les composantes de Y étant indépendantes
et gaussiennes, la densité de Y est donnée par
1 ∥y∥2
− 22
fY (y) = e .
(2π)d/2

Soit g : Rd → R+ mesurable positive, alors

∥y∥2
Z
1 2
E[f (X)] = E[f (m + AΣY )] = f (m + AΣy)e− 2 dy.
(2π)d/2 Rd

Effectuons le changement de variable x = m + AΣy, i.e. y = Σ−1 A−1 (x − m). On a alors,

∥Σ−1 A−1 (x − m)∥22

Z
1
E[f (X)] = exp − |det Σ−1 A−1 | dx.
(2π)d/2 Rd 2

129
On remarque pour conclure que, A étant orthogonale, |det Σ−1 A−1 | = (det Γ)−1/2 . De plus, A∗ = A−1
ainsi
∥Σ−1 A−1 (x − m)∥22 = (x − m)∗ AΣ−1 Σ−1 A∗ (x − m) = (x − m)∗ Γ−1 (x − m).
Par conséquent,
(x − m)∗ Γ−1 (x − m)
Z
1
E[f (X)] = p f (x) exp − dx,
(2π)d det Γ Rd 2
où l’on identifie la densité de X.
Si Γ n’est pas inversible, considérons u1 , . . . , ur , 1 ≤ r ≤ d, une base orthonormale de ker Γ. On a
donc
\r
X ∈ m + (ker Γ)⊥ = {u∗i (X − m) = 0}.

j=1

Or, pour tout u ∈ ker Γ, on a V(u (X − m)) = u Cov(X)u = 0. Par conséquent la v.a.r. u∗ (X − m) est
∗ ∗

presque sûrement égale à sa moyenne qui est nulle. D’où P(u∗i (X − m) = 0) = 1 pour tout i = 1, . . . , r
et donc P(u∗i (X − m) = 0, ∀i = 1, . . . , r) = 1. Dans ce cas la loi de X est supportée par l’espace affine
m + (ker Γ)⊥ de dimension strictement plus petite que d. En particulier, X n’admet pas de densité par
rapport à λd .
√ si G est une v.a.r. de loi N (0, 1), alors pour tout s < 1/2, en faisant
Pour le point 3, remarquons que
le changement de variable z = x 1 − 2s, on a
Z Z
sG2 1 sx2 −x2 /2 1 x2 (1−2s) 1
β(s) = E(e ) = √ e e dx = √ e− 2 dx = √ .
2π R 2π R 1 − 2s
Pour s ≥ 1/2, β(s) = ∞. Puisque A est orthogonale, on a
h 2
i h 2
i h Pd 2 2 i
E eα∥X−m∥2 = E eα∥ΣY ∥2 = E eα j=1 σj Yj ,

et comme les variables Yi sont i.i.d. de loi commune une N (0, 1) on obtient
h d
i Y h 2 2i Y d
2
E eα∥X−m∥2 = E eασj Yj = β(ασj2 ).
j=1 j=1

Cette dernière quantité est donc finie lorsque α maxi≤d σi2 < 1/2. Pour finir, remarquons que ∥X∥22 ≤
4∥X − m∥22 + 4∥m∥22 et donc que
h 2
i 2
h 2
i
E eα∥X∥2 = e4α∥m∥2 E e4α∥X−m∥2 .

D’où l’existence d’un moment exponentiel d’ordre α > 0.

10.2 Loi du χ2 , moyenne et variance empiriques

Définition 10.2.1. Soit X = (X1 , . . . , Xd ) un vecteur gaussien centrée réduit, c’est à dire m = 0 et
Γ = Id . La loi de |X|2 = X12 + . . . Xd2 s’appelle la loi du chi-deux à d degrés de libertés ; on note χ2 (d)
ou χ2d .
Exemple 45. On rappelle que la loi gamma de paramètres α > 0 et s > 0, notée Γs,α , admet pour densité
Z ∞
αs s−1 −αx
γs,α (x) = x e 1R∗+ (x), x ∈ R, avec Γ(s) = xs−1 e−x dx.
Γ(s) 0

Si X ∼ Γs,α et Y ∼ Γt,α sont indépendantes alors la loi de X + Y est une Γs+t,α . Pour montrer ce
fait, on peut par exemple utiliser le corollaire 8.3.12 :
αs s−1 −αy αt
Z
γs,α ∗ γt,α (x) = y e 1R+ (y) (x − y)t−1 e−α(x−y) 1R+ (x − y) dy
R Γ(s) Γ(t)
αs+t −αx x s−1 αs+t s+t−1 −αx
Z
= e y (x − y)t−1 dy = x e ,
Γ(s)Γ(t) 0 Γ(s + t)

130
la dernière égalité étant obtenue à l’aide du changement de variable y = xu et en utilisant l’égalité
B(a, b) = Γ(a)Γ(b)
Γ(a+b) — c.f. par exemple l’exercice 6 de la planche de TD1.

Lemme 10.2.2. La loi du chi-deux à n degrés de liberté est la loi Γn/2,1/2 donc de densité

2−n/2 n/2−1 −x/2

x→ x e 1R+ (x).
Γ(n/2) ∗

Démonstration. On commence par remarquer que si G ∼ N (0, 1) alors G2 suit une loi Γ1/2,1/2 . Donc si
X1 , . . . , Xn sont des variables aléatoires indépendantes gaussiennes centrées et réduites, alors la loi de
X12 + · · · + Xn2 suit une loi Γn/2,1/2 .

Théorème 10.2.3 (Théorème de Cochran, version simple). Soient X un vecteur gaussien de Rd de

loi N (0, I). L’espace Rn peut s’écrire comme la somme directe de F et F ⊥ . Notons PF la projection
orthogonale sur F . Alors
1. les vecteurs aléatoires PF X et (I−PF )X sont indépendants de loi respectives N (0, PF ) et N (0, (I−
PF )) ;
2. les variables aléatoires ∥PF X∥2 et ∥(I − PF )X∥2 sont indépendantes et de lois respectives χ2 (q)
et χ2 (d − q) où q est la dimension de F ;

Remarque 85. À toute fin utile, rappelons que (I − PF ) est la projection orthogonale sur F ⊥ .

Démonstration. 1. Soit (u1 , . . . , uq ) une base orthonormée de F et (uq+1 , . . . , ud ) une base ortho-
normée de F ⊥ . Alors (u1 , . . . , ud ) est une base orthonormée de Rd . Notons U la matrice de passage
de la base standard à la base (u1 , . . . , ud ). La matrice U est orthogonale, en particulier U −1 = U ∗ .
Les projections orthogonales sur F et F ⊥ s’expriment comme suit dans la base (u1 , . . . , ud )

PF = U I q U ∗ et (I − PF ) = U (I − Iq )U ∗ .
Pd
En effet, si x = i=1 xi ui , on calcule

d
X q
X q
X
PF x = U Iq U ∗ x = U Iq xi ei = U xi ei = xi ui .
i=1 i=1 i=1

On pose Y = U ∗ X. C’est encore un vecteur gaussien de moyenne E(U ∗ X) = U ∗ E(X) = 0 et de

matrice de covariance Cov (Y ) = U ∗ IU = I. Notons que le vecteur Y n’est rien d’autre que le
vecteur X exprimée dans la nouvelle base.
On remarque immédiatement que PF X = U Iq Y et (I − PF )X = U (I − Iq )Y sont des vecteurs
gaussien centrées de covariance respectives U Iq Iq∗ U ∗ = PF et U (I − Iq )(I − Iq )∗ U ∗ = (I − PF ). De
plus, par la proposition 10.1.7, PF (I − PF )∗ = U Iq U ∗ U (I − Iq )∗ U ∗ = 0 donc PF X et (I − PF )X
sont indépendants.
2. Pour le deuxième point, en utilisant la nature orthogonale de U , les normes des projections sont
données par
∥PF X∥22 = ∥U Iq U ∗ X∥22 = ∥U Iq Y ∥22 = ∥Iq Y ∥22 ∼ χ2q
et
∥(I − PF )X∥22 = ∥(I − Iq )Y ∥22 ∼ χ2d−q ,
car les variables aléatoires Y1 , . . . , Yd sont indépendantes et de loi gaussiennes centrées réduites.

Remarque 86. Ce théorème est un analogue en “loi” du théorème de Pythagore. L’identité ∥x∥22 =
d
∥PF x∥22 + ∥(I − PF )x∥22 pour x ∈ Rd devient en effet ∥X∥22 = ∥PF X∥22 + ∥(I − PF )X∥22 .
Le théorème précédent se dérive en de multiples corollaires plus ou moins importants ou utile. À titre
d’exemple, nous en donnons deux, le deuxième étant particulièrement intéressant en statistique.

131
Corollaire 10.2.4 (Théorème de Cochran généralisé). Soit X un vecteur gaussien de Rd de moyenne
µ ∈ Rd et de matrice de covariance σ 2 I pour σ 2 > 0. Soit F1 , · · · , Fk des sous espaces vectoriels, de
dimensions respectives d1 , · · · dk , deux à deux orthogonaux tels que Rd = F1 ⊕ · · · ⊕ Fk . On note PFi les
projeteurs orthogonaux sur Fi . Alors
1. les vecteurs aléatoires Yi = σ −1 PFi (X − µ), 1 ≤ i ≤ k sont deux à deux indépendants de lois
respectives N (0, σ −1 PFi ) ;
2. les variables aléatoires réelles ∥Yi ∥2 , 1 ≤ i ≤ k, sont deux à deux indépendantes de lois respectives
χ2 (di ).
X−µ
Démonstration. On pose X̃ = σ ∼ N (0, I) et on procède par induction l’aide du théorème de Cochran
simplifié.
Corollaire 10.2.5. Soit X un n-échantillon de loi N (µ, σ 2 ). On définit la moyenne et la variance
empiriques non biaisée de X
n n
1X 1 X
Mn = Xi , Vn = (Xi − Mn )2 .
n i=1 n − 1 i=1

Alors Mn suit une loi N (µ, σ 2 /n), Mn et Vn sont indépendantes et (n − 1)Vn /σ 2 suit la loi du χ2n−1 .
Démonstration. Soit Y = (Y1 , . . . , Yn )∗ un vecteur gaussien centré réduit. On note
n n
1X 1 X
Y = Yi et R2 = (Yi − Y )2 .
n i=1 n − 1 i=1
1 1 1
La variable Y = n 1Y , c’est l’image de Y par la transformation linéaire A = n (1, . . . , 1) = n. Ainsi, Y
| {z }
n
est une v.a.r. gaussienne centrée de variance 1/n.
On pose
PnF = vect 1. On vérifie que la projection orthogonale sur F notée PF est définie par PF y = y1
où y = n1 i=1 yi . En effet, y1 ∈ F et
n
X
⟨y − y1, 1⟩ = (yi − y) = 0,
i=1

⊥
si bien que y − y1 ∈ F . Par conséquent PF Y = Y et Y − Y 1 = (I − PF )Y . En appliquant le théorème
de Cochran en remarquant que F ⊥ est de dimension n − 1. Ainsi la variable
n
X
∥Y − Y 1∥2 = (Yi − Y )2 = (n − 1)R2 ∼ χ2n−1
i=1

et est indépendante de Y . Ceci montre le théorème dans le cas centré et réduit.

Si X est un n-échantillon de loi N (µ, σ 2 ), alors Y = σ −1 (X1 − µ, . . . , Xn − µ) est un vecteur gaussien
centrée réduit et X = µ1 + σY . Il s’en suit immédiatement que X1 ∈ F et X suit une loi gaussienne de
moyenne µ et de variance σ 2 . De plus, X − X1 = σ(Y − Y 1) ∈ F ⊥ si bien que
1
(n − 1)Vn /σ 2 = ∥X − X1∥2 = ∥Y − Y 1∥2 ∼ χ2n−1 .
σ2
Enfin, Vn et X sont indépendantes car (I − PF )X et PF X sont indépendantes et Vn ainsi que X sont
respectivement (I − PF )X et PF X mesurables.
Remarque 87. La loi de Student Tn à n degrés de liberté est la loi de la variable √X où X ∼ N (0, 1)
Y /n
est indépendante de Y ∼ χ2n . Par conséquent, le résultat précédent montre que
√ Mn − µ
n √ ∼ Tn−1 .
Vn
Attention toutefois, nous sommes dans le contexte gaussien ! En particulier, moyenne empirique et
variance empirique ne sont en général pas indépendantes.

132
Chapitre 11

Convergences de suites de variables

aléatoires

11.1 Convergences trajectorielles

Soit (Ω, F, P) un espace probabilisé et on considère (Xn )n≥1 une suite de variables aléatoires à valeurs
dans Rd . Un certain nombre des résultats suivants s’adaptent sans difficulté majeure aux cas des variables
aléatoires à valeurs dans un espace métrique, nous ne considérerons pas ce niveau de détails.

11.1.1 Convergence presque sûre ou presque partout

Définition 11.1.1. On dit que (Xn )n≥1 converge vers X presque-sûrement si

P( lim Xn = X) = P({ω ∈ Ω : lim Xn (ω) = X(ω)}) = 1.

n→∞ n→∞

Proposition 11.1.2. Une suite de v.a.r. (Xn )n≥1 converge presque sûrement vers X si et seulement si

∀ε > 0, P(lim sup{|Xn − X| > ε}) = 0.

Remarque 88. Attention, il s’agit de l’ensemble limite supérieure. Autrement dit, pour tout ε > 0, avec
probabilité 1, |Xn − X| ≤ ε pour tout n ≥ 1 sauf pour un nombre fini.
En probabilité on parle de convergence presque-sûre là où en analyse on parle de convergence presque-
partout. Bien entendu, dans le dernier cas, la mesure considérée n’est pas nécessairement une probabilité
mais les deux notions n’en restent pas moins identiques.
Démonstration. C’est une condition nécessaire. Fixons ε > 0. Si ω ∈ lim sup {|Xn − X| > ε}, il existe
une infinité de n pour lesquels |Xn (ω)−X(ω)| > ε et la suite ne converge pas. Aussi, lim sup {|Xn −X| >
ε} ⊂ {limn→∞ Xn = X}∁ et donc

P(lim sup {|Xn − X| > ε}) ≤ 1 − P( lim Xn = X) = 0.

n→∞

Pour la réciproque, considérons l’ensemble N = k≥0 lim sup {|Xn − X| > 2−k }. Il vient facilement
S
que X
P(N ) ≤ P(lim sup {|Xn − X| > 2−k }) = 0.
k≥1

Si ω ∈ N ∁ , pour tout k ≥ 1, ω ∈ lim inf {|Xn − X| ≤ 2−k } et par suite, il existe un entier N = N (ω) tel
que pour tout n ≥ N , |Xn (ω) − X| ≤ 2−k . Xn (ω) converge donc vers X(ω) pour tout ω ∈ N ∁ qui est de
mesure pleine. (Remarquons tout de même que la convergence n’est pas uniforme).
P
Corollaire 11.1.3. Si, pour tout ε > 0, n≥1 P(|Xn − X| > ε) < ∞ alors (Xn )n≥1 converge presque
sûrement vers X.
Démonstration. C’est une conséquence du lemme 8.2.1 de Borel-Cantelli et de la proposition 11.1.2.

133
Exemple 46. Rappelons que si X est une variable aléatoire positive alors
X
E(X) < ∞ ssi P(X > n) < ∞.
n≥0

Ce résultat a été vu en exercice

R∞ lors du cours d’intégration, donnons-en une démonstration alternative.
Tout d’abord, X = 0 1(t,∞) (X) dt (le vérifier pour les fonctions étagées positives) et en prenant
l’espérance le théorème de Fubini implique
Z ∞ Z ∞ Z ∞
E(X) = E 1(t,∞) (X) dt = E(1(t,∞) (X)) dt = P(X > t) dt.
0 0 0

D’autre part, comme t → P(X > t) est décroissante,

X Z ∞ XZ n+1 X
P(X > n + 1) ≤ P(X > t) dt = P(X > t) dt ≤ P(X > n). (11.1)
n≥0 0 n≥0 n n≥0

Si (Xn )n≥1 est une suite variables aléatoires réelles identiquement distribuées alors Xn /n converge
vers 0 p.s. dès que X1 ∈ L1 . En effet, pour tout ε > 0
X X X
P(|Xn | > nε) = P(|X1 | > εn) = P(ε−1 |X1 | > n)
n≥1 n≥1 n≥1

qui est finie si E(ε−1 |X1 |) est finie ou E|X1 | < ∞. Si les Xn sont de plus supposées indépendantes
P le second lemme de Borel-Cantelli implique que P(lim sup{|Xn | > nε}) = 0 si et seulement si
alors
n≥1 P(|Xn | > nε) = ∞.
Le lemme suivant est utile lorsque l’on veut montrer qu’une suite converge presque sûrement sans
connaı̂tre la limite a priori.
P
Lemme 11.1.4. Soit (εn )n≥1 une suite de réels positifs tels que n≥1 εn < ∞. Supposons que
X
P(|Xn+1 − Xn | > εn ) < ∞,
n≥1

alors (Xn )n≥1 converge presque sûrement.

Pn−1
Démonstration. On écrit Xn sous la forme Xn = X0 + k=0 Xk+1 − Xk . Par le lemme de Borel-Cantelli
8.2.1, P(lim sup{|Xn+1 − Xn | > εn }) = 0. Or si ω ∈ lim inf{|Xn+1 (ω) − Xn (ω)| ≤ εn }, il existe un entier
N = N (ω) tel que pour tout k ≥ N , |Xk+1 (ω) − Xk (ω)| ≤ εk . D’où la convergence de la séries.
Proposition 11.1.5. Soit (Xn )n≥0 est une suite de variables aléatoires à valeurs dans Rd . Alors (Xn )n≥0
converge vers X ∈ Rd presque sûrement si et seulement si pour tout i ∈ {1, . . . , d}, la suite de la ième
(i)
coordonnées Xn converge presque sûrement vers la ième coordonnées X (i) de X. Si f : Rd → Rp est
une fonction continue, alors (f (Xn ))n≥0 converge presque sûrement vers f (X).

Démonstration. Élémentaire.

11.1.2 Convergence dans Lp

Définition 11.1.6. Une suite de variables aléatoires (Xn )n≥0 ⊂ Lp converge vers X en moyenne d’ordre
p si
lim E(|Xn − X|p ) = 0.
n→∞

Autrement dit, c’est la convergence en norme dans Lp .

Théorème 11.1.7. (Convergence dominée) Soit (Xn )n≥1 une suite de variables aléatoires convergeant
vers X p.s. et telle qu’il existe une variable aléatoire Y satisfaisant

∀n ≥ 0, ∥Xn ∥ ≤ Y P − p.s., avec Y ∈ Lp .

Alors, (Xn )n≥1 ⊂ Lp et converge vers X dans Lp .

134
Remarque 89. Notons qu’une suite Xn bornée convergeant presque-sûrement vers X converge également
dans Lp en choisissant Y = c presque-sûrement pour un c ≥ 0 convenable.
Proposition 11.1.8. Soit (Xn )n≥0 ⊂ Lq . Si (Xn )n≥0 converge vers X dans Lq alors (Xn )n≥0 converge
vers X dans Lp pour tout p ≤ q.
Démonstration. Inégalité de Hölder
Remarque 90. En fait, comme P est une probabilité et donc que les constantes sont intégrables, on a
que Lp ⊂ Lq pour tout p ≤ q.
Les cas les plus utiles de la convergence en moyenne sont p = 1 et p = 2.
Exemple 47. Soit (Xn )n≥0 une suite de variables aléatoires réelles d’espérance µn et de variance σn2 . On
suppose que
σn2
lim |µn | = ∞ et lim = 0.
n→∞ n→∞ |µn |

Alors, Xn /µn converge vers 1 dans L2 . En effet, par définition :

1 σ2
E(|Xn /µn − 1|2 ) = 2
E|Xn − µn |2 = n2 −→n→∞ 0.
µn µn
On remarque que par un calcul très similaire et en appliquant l’inégalité de Cauchy-Schwartz, on obtient
la converge dans L1 sous les mêmes hypothèses. Mais ce résultat découle bien entendu également de
l’emboı̂tement des espaces Lp .

11.1.3 Convergence en probabilité

Définition 11.1.9. Une suite (Xn )n≥1 converge vers X en probabilité si

∀ε > 0, lim P(|Xn − X| > ε) = 0.

n→∞

Remarque 91. Remarquons que le symbole lim est à l’extérieur de la probabilité contrairement au cas de la
convergence presque-sûre. C’est la raison pour laquelle la convergence en probabilité est plus faible (c.f. la
proposition 11.1.11). Étant plus faible, il est souvent plus facile de montrer une convergence en probabilité
qu’une convergence presque-sûre. Cependant, cette convergence apporte moins d’informations.
Proposition 11.1.10. Soient (Xn )n≥0 une suite de vecteurs aléatoires et f : Rd → Rp une fonction
continue. Alors
(i)
1. Xn converge vers X en probabilité si et seulement si Xn converge vers X (i) pour tout i ∈
{1, · · · , d} ;
2. si Xn converge vers X en probabilité alors f (Xn ) converge vers f (X).
Démonstration. La preuve du point i) est élémentaire. Pour ii), ce n’est plus aussi immédiat que dans
le cadre de la convergence presque-sûre. Puisque f est continue, elle est uniformément continue sur les
compacts. Fixons ε > 0 et a > 0, alors il existe η = ηa,ε tel que

|x| ≤ a et |x − y| ≤ η =⇒ |f (x) − f (y)| ≤ ε.

Aussi, {|X| ≤ a} ∩ {|Xn − X| ≤ η} ⊂ {|f (Xn ) − f (X)| ≤ ε} et il vient, en passant au complémentaire

que

P(|f (Xn ) − f (X)| > ε) ≤ P({|X| > a} ∪ {|Xn − X| > η}) ≤ P(|X| > a) + P(|Xn − X| > η)

qui conduit à

lim sup P (|f (Xn ) − f (X)| > ε) = P(|X| > a) + lim sup P(|Xn − X| > η).
n→∞ n→∞

Nous avons ε > 0, a > 0 et η > 0 et comme Xn converge en probabilité vers X, le second terme à droite
est nul. D’un autre côté, lorsque a tend vers ∞, P(|X| > a) → 0 et donc la limite supérieure à gauche
de l’inégalité est en fait une limite laquelle est nulle. Ce qui montre le résultat.

135
La proposition suivante implique que la convergence en probabilité est la plus faible des convergences
trajectorielles.
Proposition 11.1.11. Si (Xn )n≥0 converge vers X presque-sûrement ou dans Lp , p ≥ 1, alors (Xn )n≥0
converge vers X en probabilité.
Démonstration. Supposons tout d’abord que Xn converge p.s. vers X alors
P(|Xn − X| > ε) = E(1(ε,∞) (|Xn − X|)).
Or, 1(ε,∞) (|Xn − X|) converge presque sûrement vers 0 et reste bornée donc par le théorème de conver-
gence dominée, on obtient la convergence en probabilité. Si Xn converge vers X dans Lp alors l’inégalité
de Markov donne
P(|Xn − X| > ε) = P(|Xn − X|p > εp ) ≤ ε−p E(|Xn − X|p ) −→ 0.

Remarque 92. Si Xn converge en probabilité à la fois vers X et vers Y alors X = Y presque sûrement.
En effet, soit ε > 0
P(|X − Y | > ε) ≤ P(|X − Xn | + |Xn − Y | > ε) ≤ P(|Xn − X| > ε/2) + P(|Xn − Y | > ε/2).
Ainsi, sans préjuger de l’éventuelle convergence presque-sûre ou dans Lp , si Xn converge en probabilité
vers X, le bon candidat pour la limite presque-sûre ou dans Lp est également X.
Proposition 11.1.12. Soit (Xn )n≥0 une suite de vecteurs aléatoires dans L2 telles que
lim E(Xn ) = a ∈ Rd et lim V(Xn ) = 0.
n→∞ n→∞

Alors Xn converge vers a en probabilité.

Démonstration. Soit ε > 0, par hypothèse, on peut trouver N ≥ 0 tel que pour tout n ≥ N , |E(Xn )−a| <
ε/2. On remarque alors, par l’inégalité triangulaire, que pour tout n ≥ 0
{|Xn − a| > ε} ⊂ {|Xn − E(Xn )| > ε/2}.
Appliquant l’inégalité de Bienaymé-Tchebychev
2V(Xn )
P(|Xn − a| > ε) ≤ P(|Xn − E(Xn )| > ε/2) ≤ → 0.
ε

La réciproque de la proposition 11.1.11 est généralement fausse. Toutefois, dans certaines circons-
tances, la convergence en probabilité implique la convergence presque-sûre et sous des conditions de
domination la convergence dans Lp . C’est l’objet des deux propositions suivantes.
Proposition 11.1.13. Si une suite de variables aléatoires (Xn )n≥0 converge en probabilité vers X, alors
il existe une sous-suite (Xnr )r≥0 qui converge presque-sûrement.
Remarque 93. En particulier, toute valeur d’adhérence en probabilité d’une suite (Xn )n≥0 est valeur
d’adhérence presque-sûre.
Démonstration. Pour tout r ≥ 0, limn→∞ P(|Xn − X| > 2−r−1 ) = 0. Il existe donc un entier nr tel que
∀n ≥ nr , P(|Xn − X| > 2−r−1 ) ≤ 2−r−1 .
On peut supposer la suite nr strictement croissante puisque si nr convient alors nr +1 convient également.
Ainsi pour tout r ≥ 0,
P(|Xnr+1 − Xnr | > 2−r ) ≤ P(|Xnr+1 − X| > 2−r−1 ) + P(|Xnr − X| > 2−r−1 ) ≤ 2−r .
Alors le lemme 11.1.4 implique la convergence presque-sûre de (Xnr )r≥0 . Notons Y la limite. La conver-
gence presque-sûre implique la convergence en probabilité, donc du fait de la remarque 92, X = Y
presque-sûrement.

136
Proposition 11.1.14. Si Xn est une suite de variables aléatoires réelles décroissante et convergente
vers 0 en probabilité, alors Xn converge presque-sûrement (vers 0).

Démonstration. Puisque (Xn )n≥0 converge en probabilité, par la proposition 11.1.13, il existe une sous-
suite nℓ ↑ ∞ d’entiers telle que (Xnℓ )ℓ≥0 qui converge presque-sûrement et la limite est nécessairement
0. Pour k ≥ 0, on introduit Nk = sup{ℓ ≥ 0 : nℓ ≤ k}. Alors, l’hypothèse de décroissance implique

XnNk −1 ≤ Xk ≤ XnNk .

Or, lorsque k → ∞, Nk → ∞ puisque nℓ ↑ ∞ et Xk → 0 presque-sûrement.

11.1.4 Convergence trajectorielle et critère de type Cauchy

Rappelons qu’une suite (xn )n≥0 dans (Rd , | · |) est dite de Cauchy si

∀ε > 0, ∃N ≥ 0 : n, m ≥ N =⇒ |xn − xm | ≤ ε.

Rappelons également que dans un espace métrique complet les suites de Cauchy sont exactement les
suites convergentes. La proposition suivante donne un tel critère de type Cauchy dans le cadre de la
convergence trajectorielle.

Proposition 11.1.15. Soit (Xn )n≥0 une suite variable aléatoire dans Rd .
1. (Xn )n≥0 converge presque-sûrement si et seulement si

∀ε > 0 : lim P(sup |Xn+r − Xn | > ε) = 0 ;

n→∞ r≥0

2. (Xn )n≥0 converge en probabilité si et seulement si

∀ε > 0 : lim sup P(|Xn+r − Xn | > ε) = 0 ;

n→∞ r≥0

3. (Xn )n≥0 converge dans Lp , p ∈ [1, ∞) si et seulement si

lim sup E(|Xn+r − Xn |p ) = 0.

n→∞ r≥0

Remarque 94. Le symbole sup est à l’intérieur de la probabilité pour la convergence presque-sûre là où il
est à l’extérieur pour la convergence en probabilité. Cela illustre encore une fois le fait que la convergence
en probabilité est plus faible que la convergence presque-sûre.
Remarque 95. Pour le dernier point, il s’agit en fait de la complétude des espaces Lp , p ∈ [1, ∞). L’espace
L∞ est également complet, on rappelle que la norme sur L∞ est la norme du supremum essentiel :

∥X∥∞ = inf{c > 0 : P(|X| > c) = 0}.

Démonstration. 1. Si (Xn )n≥0 converge presque-sûrement, elle est donc presque-sûrement de Cauchy,
c’est à dire que la variable aléatoire supr≥0 |Xn+r − Xn | converge vers 0 presque-sûrement donc
en probabilité. Aussi,
∀ε > 0 : lim P(sup |Xn+r − Xn | > ε) = 0.
n→∞ n≥r

D’où le résultat. Réciproquement, supposons cette dernière condition satisfaite et introduisons la

variable aléatoire Vn définie par
Vn = sup |Xp − Xq |.
p≥n,q≥n

La suite (Vn )n≥0 est décroissante (pour tout ω ∈ Ω soit dit en passant) et converge vers 0 en
probabilité par hypothèse. Ainsi, elle converge vers 0 presque-sûrement par la proposition 11.1.14.
Avec probabilité 1, la suite (Xn ) est donc de Cauchy, elle converge presque-sûrement car Rd est
complet.

137
2. Si (Xn )n≥0 converge vers X en probabilité, il vient, pour tout r ∈ N, puisque |Xn+r − Xn | ≤
|Xn+r − X| + |Xn − X|,

P(|Xn+r − Xn | > ε) ≤ P(|Xn+r − X| > ε/2) + P(|Xn − X| > ε/2) ≤ 2 sup P(|Xk − X| > ε/2).
k≥n

Le majorant, qui ne dépend plus de r ≥ 0, à droite tend vers la plus grande d’adhérence de
P(|Xk − X| > ε/2), c’est à dire 0 par hypothèse de convergence en probabilité. Réciproquement,
si
∀ε > 0, lim sup P(|Xn+r − Xn | > ε) = 0,
n→∞ r≥0

on peut donc construire une suite strictement croissante d’entiers nr telle que

sup P(|Xnr +k − Xnr | > 2−r ) ≤ 2−r .

k≥0

En particulier, P(|Xnr +1 −Xnr | > 2−r ) ≤ 2−r . D’après le lemme 11.1.4, la suite (Xnr )r≥0 converge
presque-sûrement donc en probabilité vers une certaine variable aléatoire X. On a alors

P(|Xk − X| > ε) ≤ P(|Xnk − Xk | > ε/2) + P(|Xnk − X| > ε/2)

≤ sup P(|Xk+r − Xk | > ε/2) + P(|Xnk − X| > ε/2),
r≥0

car k ≤ nk . Lorsque k → ∞, à droite de l’inégalité, le premier terme tend vers 0 par hypothèse et
le second par la convergence en probabilité de (Xnk )k≥0 .
3. Pour le troisième point, il s’agit de la complétude des espaces Lp . Il est clair que (Xn )n≥0 converge
en norme Lp alors (Xn )n≥0 est de Cauchy dans Lp . Réciproquement, soit (Xn )n≥0 une suite de
Cauchy dans Lp , p ∈ [1, ∞]. Afin d’avoir une notation unifiée, on travaille avec les normes plutôt
qu’avec les espérances. Soit (Xn )n≥0 une suite de Cauchy dans Lp , alors on peut trouver une
sous-suite nk strictement croissante tel que pour tout k ≥ 0

∥Xnk+1 − Xnk ∥p ≤ 2−k .

P
On pose Y = k≥0 |Xnk+1 − Xnk |, c’est une fonction mesurable positive. De plus, on vérifie
facilement, à l’aide du théorème de convergence de Beppo-Lévy et de l’inégalité de Minkowski,
que X
∥Y ∥p ≤ ∥Xnk+1 − Xnk ∥p < ∞.
k≥0
P
Ainsi, la série de variable aléatoire k≥0 (Xnk+1 − Xnk )p converge absolument et donc presque-
sûrement. La suite de variable aléatoire Xnk converge également presque-sûrement vers un point
d’adhérence presque-sûre de Xn , que l’on notera X̄. De plus,
X
∥X̄ − Xnk ∥p ≤ ∥Xnk+1 − Xnk ∥p ≤ 2−n+1 .
k≥n

Ainsi, X̄ est également une valeur d’adhérence de Xn dans Lp . Finalement, on conclut en remar-
quant qu’une suite de Cauchy admet au plus une valeur d’adhérence

Remarque 96. Dans le troisième point, on montre au passage qu’une suite convergente dans Lp admet
une sous-suite convergente presque-sûrement.

11.2 Convergence étroite et convergence en loi

Les différents modes de convergence de la section précédente concernaient les variables aléatoires :
ce sont des modes de convergence de suites de fonctions, les variables aléatoires sont vues comme des
fonctions. Dans cette partie, on s’intéresse à la convergence des lois de variables aléatoires.

138
11.2.1 Convergence étroite
Définition 11.2.1. Soit (µn )n≥0 une suite de probabilités sur (Rd , B(Rd )). On dit que (µn )n≥0 converge
étroitement vers µ si pour toute fonction continue bornée f : Rd → R
Z Z
lim f dµn = f dµ.
n→∞ Rd Rd

Remarque 97. La continuité des fonctions f est essentielle : si (µn )n→∞ converge étroitement vers µ, il
est en général faux de dire que µn (B) converge vers µ(B) pour B un borélien quelconque. Par exemple,
δ1/n converge étroitement vers δ0 et δ1/n ({0}) = 0 pour tout n ≥ 1 tandis que δ0 ({0}) = 1.
Remarque 98. Une suite de probabilité (µn )n≥1 converge étroitement vers µ, alors µ est une probabilité.

∥·∥∞
Théorème 11.2.2. Soit H ⊂ Cb (Rd ) tel que Cc (Rd ) ⊂ H . Une suite (µn )n≥0 de probabilités converge
étroitement vers µ si et seulement si
Z Z
∀f ∈ H : f (x) dµn (x) = f (x) dµ(x).
Rd Rd

Démonstration. Montrons tout d’abord le résultat dans le cas où H est l’espace des fonctions à support
compact. On utilise un argument de troncature. Considérons, pour r > 0, la fonction θr : R+ → [0, 1]
suivante : θr (x) = 1 si x ∈ [0, r], θr (x) = 0 si x ≥ 2r et θr est affine sur [r, 2r] — c.f. Figure 11.1.
1.0

1.0
0.8

0.8
0.6

0.6
1 − θr(x)
θr(x)

0.4

0.4
0.2

0.2
0.0

0.0

0 1 2 3 4 0 1 2 3 4

x x

(a) Graphe de θr . (b) Graphe de 1 − θr .

Figure 11.1 – La fonction θr impliquée dans l’argument de troncature permet d’approcher une fonction
continue bornée par une fonction continue à support compact.

Si f est une fonction continue bornée et ν une probabilité sur Rd , on peut écrire
Z Z Z
f (x) ν(dx) = f (x)θr (|x|) ν(dx) + f (x)[1 − θr (|x|)] ν(dx),
Rd Rd Rd

et
Z Z
f (x)[1 − θr (|x|)] ν(dx) ≤ ∥f ∥∞ 1 − θr (|x|) ν(dx) .
Rd Rd

Appliquée aux mesure µn et µ, on obtient l’inégalité

Z Z Z Z
f (x) µn (dx) − f (x) µ(dx) ≤ f (x)θr (|x|) µn (dx) − f (x)θr (|x|) µ(dx)
Rd Rd Rd Rd
Z Z
+ ∥f ∥∞ 2 − θr (|x|) µn (dx) − θr (|x|) µ(dx) . (11.2)
Rd Rd

139
On remarque que pour tout r > 0, les fonctions x → θr (|x|) et x → f (x)θr (|x|) sont continues à support
compact si bien que, par hypothèse,
Z Z
lim f (x)θr (|x|) µn (dx) = f (x)θr (|x|) µ(dx)
n→∞ Rd Rd
Z Z
lim θr (|x|) µn (dx) = θr (|x|) µ(dx). (11.3)
n→∞ Rd Rd

Par conséquent, pour tout r > 0,

Z Z Z
lim sup f (x) µn (dx) − f (x) µ(dx) ≤ 2∥f ∥∞ 1 − θr (|x|) µ(dx) .
n→∞ Rd Rd Rd

Pour conclure, il suffit d’appliquer le théorème de convergence dominée : limr→∞ θr (|x|) = 1 avec la
domination 0 ≤ θr (|x|) ≤ 1, la fonction constante égale à 1 étant intégrable puisque µ est une probabilité.
Ceci implique que Z
lim θr (|x|) µ(dx) = µ(Rd ) = 1.
r→∞ Rd
∥·∥∞
On considère désormais le cas d’un H ⊂ Cb (Rd ) et tel que Cc (Rd ) ⊂ H . Soit f ∈ Cc (Rd ), alors
pour tout h ∈ H
Z Z Z Z
f (x) µn (dx) − f (x) µ(dx) ≤ h(x) µn (dx) − h(x) µ(dx) + 2∥f − h∥∞ .
Rd Rd Rd Rd

Ainsi, pour toute fonction h ∈ H,

Z Z
lim sup f (x) µn (dx) − f (x) µ(dx) ≤ 2∥f − h∥∞ .
n→∞ Rd Rd

Cette inégalité est donc valide pour tout h ∈ H si bien que le membre de droite est majoré par inf h∈H ∥f −
∥·∥∞ ∥·∥∞
h∥∞ = d(f, H) = d(f, H ) = 0 puisque Cc (Rd ) ⊂ H .
Théorème 11.2.3 (Portmanteau). Soient (µn )n≥0 une suite de probabilités sur (Rd , B(Rd )) et µ une
probabilité sur (Rd , B(Rd )) Les assertions suivantes sont équivalentes.
1. La suite µn converge étroitement vers µ.
2. Pour tout fermé F , lim supn→∞ µn (F ) ≤ µ(F ).
3. Pour tout ouvert G, µ(G) ≤ lim inf n→∞ µn (G).
4. Pour tout borélien tel que µ(B̄ \ Int B) = 0, limn→∞ µn (B) = µ(B).
5. Pour toute fonction bornée telle que µ(Df ) = 0, où Df est l’ensemble des points de discontinuité
de f Z Z
lim f (x) dµn (x) = f (x) dµ(x).
n→∞ Rd Rd

Démonstration. 1. Supposons que µn converge étroitement vers µ et donnons nous un fermé F de

Rd . La fonction fk (x) = (1 + d(x, F ))−k est continue et bornée pour tout k ≥ 1. De plus, fk
converge en décroissant vers 1F . On a donc pour tout k ≥ 1
Z Z Z
lim sup µn (F ) = lim sup lim fk (x) dµn (x) ≤ lim sup fk (x) dµn (x) = fk (x) dµ(x).
n→∞ n→∞ Rd k→∞ n→∞ Rd Rd
R
Par convergence dominée, limk→∞ Rd
fk (x) dµ(x) = µ(F ) et donc lim supn→∞ µn (F ) ≤ µ(F ).
2. Les points 2 et 3 sont équivalent par passage au complémentaire.
3. Les points 2 et 3 implique le point 4. En effet, Int B ⊂ B ⊂ B pour tout borélien B. Par
conséquent,

µ(Int B) ≤ lim inf µn (Int B) ≤ lim inf µn (B) ≤ lim sup µn (B) ≤ lim sup(B) ≤ µ(B).
n→∞ n→∞ n→∞ n→∞

140
4. La partie plus délicate consiste à montrer que 4 implique 5. Soit f : Rd → R une fonction
bornée. Par le lemme 7.2.16, l’ensemble Df = {t ∈ R : µ({x ∈ Rd : f (x) = t}) > 0} des
points de discontinuités de la fonction de répartition de la variable aléatoire réelle f définie sur
(Rd , B(Rd ), µ) est au plus dénombrable. Son complémentaire D = Df∁ est donc dense. Soit c > 0
tel que ∥f ∥∞ ≤ c. Soit ε > 0 ; il existe un nombre fini de points t1 , t2 , . . . , tr de D tels que t1 < −c,
tr > c et max1≤i≤r |ti − ti−1 | ≤ ε. Considérons la fonction

r−1
X
g(x) = ti 1[ti ,ti+1 ) (f (x)).
i=1

Alors, pour tout x ∈ Rd , |f (x) − g(x)| ≤ maxi≤r |ti − ti−1 | ≤ ε, de sorte que
Z Z Z Z
f (x) dµn (x) − f (x) dµ(x) ≤ g(x)dµn (x) − g(x) dµ(x) + 2ε.
Rd Rd Rd Rd

D’autre part, pour tout n ≥ 0,

Z r−1
X
g(x)dµn (x) = ti µn (f ∈ [ti , ti+1 )),
Rd i=1

et de même pour l’intégrale de g contre µ. Il reste donc à montrer, pour conclure, que pour tout
1 ≤ i ≤ r −1, la frontière de Bi = {f ∈ [ti , ti+1 )} est de µ-mesure nulle. Remarquons pour cela que
{x ∈ Df∁ : ti < f (x) < ti+1 } est l’image réciproque d’un ouvert par une fonction continue (x ∈ Df∁ )
qui est contenu dans Bi donc dans Int B. De même, B ⊂ {x ∈ Df∁ : ti ≤ f (x) ≤ ti+1 } ∪ Df . Par
conséquent,
B \ Int B ⊂ ∪ri=1 {x ∈ Rd : f (x) = ti } ∪ Df
et comme les ti sont dans D, le résultat s’en suit.
5. le fait que le point 5 implique le point 1 est immédiat.

Définition 11.2.4 (Tension). Une famille de probabilités M = (µi )i∈I sur (Rd , B(Rd )) est dite tendue
si pour tout ε > 0 on peut trouver un compact K ⊂ Rd tel que, pour tout i ∈ I, µi (K ∁ ) ≤ ε.

Exemple 48. Si la famille M = {µ} ne contient qu’un élément alors M est trivialement tendue. Il en va
de même pour toute famille finie, ou pour toute réunion finie de famille tendue. Si K est un compact non
vide de Rd , on note M1 (K) l’espace des probabilité sur K. Cette famille de probabilité est trivialement
tendue.
Remarque 99. Cette notion se généralise très facilement aux espaces topologiques. Un cas très important
que l’on ne verra malheureusement pas dans ce cours est l’espace C 0 ([0, 1]) qui intervient naturellement
lorsqu’on étudie des processus stochastique continu (le mouvement brownien). La tension n’est alors rien
d’autre que la compacité faible sur l’espace des probabilités sur C 0 ([0, 1]).

Théorème 11.2.5 (Prokhorov). Toute famille de probabilité M sur Rd tendue est relativement compact
pour la topologie de la convergence étroite. Autrement dit, de toute suite (µn )n≥0 ⊂ M, on peut extraire
une sous-suite (µnk )k≥0 qui converge étroitement.

Remarque 100. Le théorème de Prokhorov énonce en fait qu’une famille tendue est compact (pour la
topologie de la convergence étroite) si et seulement si elle est fermée. Il se trouve que M1 (K) est fermée
(utiliser le théorème de Portmanteau avec l’ouvert G = K ∁ ) et tendue, elle est donc compacte.
Ce théorème peut se montrer en appliquant le théorème de Helly sur les fonctions de répartition.
Ce théorème, énoncé et montré ici en dimension 1, se généralise facilement en munissant Rd d’un ordre
partiel ad-hoc ce qui permet notamment de définir la notion de continuité à droite.

Théorème 11.2.6 (Helly). De toute suite de fonction de répartition (Fn )n≥0 , on peut extraire une
sous-suite (Fnk )k≥0 telle qu’il existe une fonction F croissante continue à droite avec Fnk (x) → F (x) en
chaque point de continuité de F .

141
Démonstration. À l’aide du procédé d’extraction diagonale, on commence par construire une suite (nk )
croissante telle que Fnk (x) converge en tout point x rationnel. On note G(x) la limite obtenue. C’est une
fonction croissante. On définit alors

F (x) = inf{G(r), r ∈ Q ∩ (x, ∞)}.

Il est clair que F est croissante. Montrons que F est continue à droite. Soit x ∈ R et ε > 0. Par définition
de F , il existe r > x, r ∈ Q tel que G(r) < F (x) + ε. Il vient que

∀y ∈ [x, r) F (x) ≤ F (y) ≤ G(r) < F (x) + ε,

ce qui montre la continuité à droite de F . Reste à montrer que Fnk converge en chaque point de continuité
de F . Soit un x un tel point et soit ε > 0. Prenons un y < x tel que F (x) − ε < F (y). Il existe des
rationnels r et s vérifiant y < r < x < s, F (y) ≤ G(r) et G(s) < F (x) + ε. Aussi, on obtient en mettant
tout bout à bout
F (x) − ε < G(r) ≤ G(s) < F (x) + ε.
De même, pour tout n ≥ 0, Fn (r) ≤ Fn (x) ≤ Fn (s), et le long de la sous-suite (nk ) construite
précédemment, il vient que

F (x) − ε < G(r) = lim Fnk (r) ≤ lim inf Fnk (x)
k→∞ k→∞
≤ lim sup Fnk (x) ≤ lim Fnk (s) = G(s) < F (x) + ε.
k→∞

D’où limk→∞ Fnk (x) = F (x) ce qui achève la preuve.

On peut désormais montrer le théorème de Prokhorov

Démonstration. Soit (µn )n≥0 une suite de probabilité de M supposée tendue. On note Fn la fonction de
répartition de µn . D’après le théorème de Helly, on peut trouver une suite strictement croissante nk et une
fonction continue à droite croissante telle que Fnk (x) converge vers F (x) pour tout point de continuité x
de F . Une telle fonction F définit une mesure µ telle que pour tout réels a < b, F (b) − F (a) = µ((a, b]).
Il s’agit de montrer que µ est une mesure de probabilité.
Par construction (limite de fonctions de répartition), F prend ses valeurs dans [0, 1] et donc µ(R) =
limn→∞ µ((−n, n]) ≤ 1.
Pour l’inégalité inverse, on se donne ε > 0. Par l’hypothèse de tension, il existe K compact de R tel
que µ(K) ≥ 1 − ε pour tout µ ∈ M. Posons M = sup{|x| : x ∈ K}. Comme l’ensemble des points de
discontinuité d’une fonction croissante est au plus dénombrable, il existe a < −M et b > M tels que F
soit continue en a et en b. Ainsi pour tout k ≥ 1

Fnk (b) − Fnk (a) = µnk ((a, b]) ≥ µnk (K) ≥ 1 − ε.

Comme a, b sont des points de continuité de F , en faisant tendre k vers l’infini, on obtient que F (b) −
F (a) ≥ 1 − ε et donc µ(R) ≥ µ((a, b]) ≥ 1 − ε pour ε > 0 qui peut être choisi arbitrairement petit. Donc
µ(R) = 1. Comme Fnk (x) converge vers F (x) en chaque point de continuité de F , on conclut que µnk
converge en étroitement vers µ.

Remarque 101. Si par ailleurs, il n’y a qu’un seul point limite — ce qui est souvent pas trop difficile à
vérifier — alors (µn )n≥1 converge étroitement vers µ, l’unique point limite.

Proposition 11.2.7. Soit (µn )n≥1 une suite de probabilité gaussienne sur Rd . Pour tout n ≥ 1, on note
respectivement mn ∈ Rd et Σ2n ∈ Md (R) la moyenne et la matrice de covariance de µn . Alors, la famille
(µn )n≥1 est tendue si et seulement si les familles (mn )n≥0 et (Σ2n )n≥0 sont bornées dans Rd et Md (R)
respectivement.

Démonstration. Exercice.

142
Nous avons vu la notion de fonction caractéristique d’une variable aléatoire. En réalité, ce n’est rien
d’autre que la transformée de Fourier d’une mesure de probabilité. On note notamment
Z
µ̂ : Rd ∋ t → ei⟨t,x⟩ µ(dx) ∈ C.
Rd

Les preuves des deux théorèmes suivants sont assez longues et ne seront pas présenter ici.
Théorème 11.2.8 (Paul Lévy). Soit (µn )n≥1 une suite de probabilités sur Rd . Si la suite de fonction
(µ̂n )n≥1 converge simplement vers une fonction ϕ continue en 0, alors il existe une probabilité µ sur Rd
telle que ϕ = µ̂ et (µn )n≥0 converge étroitement vers µ.
Corollaire 11.2.9. Une suite de probabilité (µn )n≥0 converge étroitement vers µ si et seulement si
(µ̂n )n≥1 converge simplement vers µ̂.

11.2.2 Convergence en loi

Soient (Xn )n≥1 et X des variables aléatoires dans Rd .
Définition 11.2.10. La suite (Xn )n≥1 converge vers X en loi si la suite de probabilités (PXn )n≥1
converge étroitement vers PX .
De manière équivalente, (Xn )n≥1 converge en loi vers X si et seulement si pour toute fonction continue
bornée
lim E(f (Xn )) = E(f (X)),
n→∞
ou encore que
∀t ∈ Rd , lim ϕXn (t) = E(ei⟨t,Xn ⟩ ) → ϕX (t) = E(ei⟨t,X⟩ ).
n→∞
Notons que la convergence en loi concerne bien la loi de Xn et ne dit rien en général sur le compor-
tement de Xn (ω), ω ∈ Ω. Du reste, il n’est pas nécessaire que tous les Xn partagent le même espace de
probabilité.
Proposition 11.2.11. Soient (Xn )n≥1 et X des v.a.r.. La suite (Xn )n≥1 converge en loi vers X si et
seulement si, pour tout t ∈ R où FX est continue, limn→∞ FXn (t) = FX (t).
Remarque 102. En fait l’existence d’une fonction F telle que la condition soit vérifiée implique l’existence
d’une variable aléatoire X telle que Xn converge en loi vers X.
Démonstration. C’est une conséquence de la remarque précédente et du théorème de Portmanteau.
Exemple 49. Soit (Un )n≥0 une suite v.a. i.i.d. de loi uniforme sur [0, θ], θ > 0. On pose pour n ≥ 1,
Xn = max{Ui : 1 ≤ i ≤ n}. D’une part, on montre que Xn converge en probabilité vers θ. En effet, soit
ε > 0, n
θ−ε
P(|Xn − θ| > ε) = P(Xn < θ − ε) = → 0,
θ
lorsque n → ∞.
Autrement dit, Xn est un estimateur consistant 1 de θ > 0. On peut s’intéresser à la vitesse de
convergence de cet estimateur. Pour cela, on doit établir une convergence en loi. Soit Zn = n(θ − Xn )
pour tout n ≥ 0. On calcule la fonction de répartition de Zn . Soit t ∈ R
FZn (t) = P(Zn ≤ t) = P(Xn ≥ θ − t/n)
= 1 − P(Xn < θ − t/n)
n
t
= 1 − 1[0,nθ] (t) 1 − .
nθ

Lorsque n → ∞, FZn (t) converge simplement vers F (t) = 1 − 1[0,∞] (t)e−t/θ (sauf peut-être en 0). On
reconnaı̂t la fonction de répartition d’une loi exponentielle de paramètre 1/θ.
1. Ces notions seront abordées de manière plus approfondis dans le cours de Statistiques inférentielles. Un estimateur
n’est ni plus ni moins qu’une fonction mesurable d’un échantillon, noté ici (U1 , . . . , Un ). Il est dit faiblement consistant car
il converge en probabilité vers θ. Il est même fortement consistant, c’est à dire que la convergence est presque sûre, car
(Xn ) est croissante.

143
Proposition 11.2.12. Si (Xn )n≥1 converge en loi vers X et si g : Rd → Rq est continue alors
(g(Xn ))n≥1 converge en loi vers g(X).

Démonstration. Trivial.

Remarque 103. En particulier, si ((Xn , Yn ))n≥0 converge en loi vers (X, Y ) alors (Xn )n≥0 converge en
loi vers X et (Yn )n≥0 converge en loi vers Y ; de même que (Xn + Yn )n≥0 et (Xn Yn )n≥0 converge en loi
vers X + Y et XY respectivement.
La proposition suivante montre que la convergence en loi est le mode de convergence le plus faible
parmi ceux évoqués jusqu’ici.

Proposition 11.2.13. Si (Xn )n≥1 converge en probabilité vers X alors (Xn )n≥1 converge en loi vers
X.

Démonstration. Signalons que toutes les variables aléatoires sont définies sur le même espace de proba-
bilité et montrons que ϕXn converge simplement vers ϕX . Soit t ∈ Rd alors

|ϕXn (t) − ϕX (t)| ≤ E|ei⟨t,Xn ⟩ − ei⟨t,X⟩ | ≤ E(min(2, |t||Xn − X|)),

de sorte que, pour tout ε > 0 en écrivant 1 = 1[0,ε] (|Xn − X|) + 1(ε,∞) (|Xn − X|),

|ϕXn (t) − ϕX (t)| ≤ ε|t|P(|Xn − X| ≤ ε) + 2P(|Xn − X| > ε) ≤ ε|t| + 2P(|Xn − X| > ε).

Par conséquent, pour tout ε > 0, lim supn→∞ |ϕXn (t) − ϕX (t)| ≤ ε|t| d’où le résultat.

Il y a en réalité une réciproque partielle à ce résultat.

Proposition 11.2.14. On suppose les variables (Xn )n≥1 définies sur le même espace probabilisé. Soit
c ∈ Rd . Si (Xn )n≥1 converge vers c en loi, alors la convergence a aussi lieu en probabilité.

Remarque 104. Il est ici nécessaire de supposer les Xn sur un même espace de probabilité de sorte que
la convergence en probabilité fasse sens.

Démonstration. On se ramène au cas réel en considérant les composantes de Xn . Soit ε > 0.

P(|Xn − c| > ε) = P(Xn < c − ε) + P(Xn > c + ε) = FXn (c − ε) + 1 − FXn (c + ε).

Puisque Xn converge en loi vers c, d’après la proposition 11.2.11, pour tout t ̸= c, FXn (t) converge vers
1R+ (t − c). Ceci montre que P(|Xn − c| > ε) tend vers 0 pour tout ε > 0.

La convergence en loi des marginales ne permet pas en général de conclure à la convergence en loi du
vecteur. Encore ici, il existe une réponse partielle.

Lemme 11.2.15 (Lemme de Slutsky). Soit ((Xn , Yn ))n≥0 une suite de vecteurs aléatoire définis sur un
même espace de probabilité. Si (Xn )n≥1 converge en loi vers X et que (Yn )n≥1 converge en probabilité
vers c, alors ((Xn , Yn ))n≥1 converge en loi vers (X, c).

Exemple 50. En anticipant légèrement sur le chapitre 12, considérons une suite (Xn )n≥1 de variables
aléatoires réelles i.i.d. admettant un moment d’ordre 2 et notons
n n n
1X 1 X 1 X 2 n
Mn = Xk et Vn = (Xk − Mn )2 = Xk − M 2.
n n−1 n−1 n−1 n
k=1 k=1 k=1

À la fin du chapitre 10, le corollaire 10.2.5 établit que si (X1 , . . . , Xn ) est un vecteur gaussien, alors
Mn et Vn sont indépendantes de loi respectives N (0, 1/n) et χ2 (n − 1) si bien que

√ Mn − E(X1 )
n √ ∼ Tn−1 .
Vn

144
√
Sous l’hypothèse plus faible où l’échantillon n’est plus gaussien, nous avons que n Mn −E(X
√
Vn
1)
converge
en loi vers une N (0, 1). Nous avons en effet par la loi des grands nombre Mn converge en probabilité
vers E(X1 ), de même que Vn converge presque-sûrement vers V(X1 ). Nous pouvons donc écrire
s !
√ Mn − E(X1 ) √ Mn − E(X1 ) V(X1 ) √ Mn − E(X1 ) V(X1 )
n √ = n p =f n p ,
Vn V(X1 ) Vn V(X1 ) Vn
√ √ n −E(X1 )
où f (x, y) = x y. Par le théorème central limite que n M√ converge en loi vers une N (0, 1) et
V(X1 )
le rapport V(X Vn
1)
converge vers 1 presque-sûrement donc en probabilité. Le lemme de Slutsky permet de
déduire la convergence en loi du couple, on conclut en remarquant que f est continue.
Ce résultat permet d’écrire un intervalle de confiance pour E(X1 ) lorsque la variance n’est pas
connue, ce qui est pratiquement toujours le cas. La contrainte étant que le résultat est asymptotique
donc l’échantillon doit être suffisamment grand.
Pour établir un tel intervalle de confiance, on se fixe a priori un niveau confiance α ∈ [0, 1]. En
général, on peut prendre α = 0.95. Puis on cherche t ≥ 0 de sorte que pour n assez grand :
r r !
√ Mn − E(X1 )

Vn Vn
α = P −t ≤ n √ ≤ t = P Mn − t ≤ E(X1 ) ≤ Mn + t
Vn n n
Z t
1
≈√ exp(−x2 /2) dx.
2π −t
On trouve alors t ≈ 1.96. Aussi, avec une probabilité supérieur à α p
= 0.95, la valeur depla vraie moyenne
E(X1 ) se trouve dans l’intervalle de confiance IC0.95 = [Mn − 1.96 Vn /n; Mn + 1.96 Vn /n].
Remarquons enfin que lorsque n est grand, la loi de Student à n − 1 degrés de libertés se rapproche
d’une gaussienne. Ainsi, lorsque la variance est inconnue, ou bien nous pouvons faire une hypothèse
gaussienne et on obtient un intervalle de confiance à l’aide de la loi de Student, ou bien l’échantillon est
suffisamment grand et cette fois-ci l’intervalle de confiance est obtenu à l’aide de la loi normale.
Exemple 51. Outre l’exemple traité ci-dessus, le lemme de Slutsky intervient régulièrement en statistiques
par exemple dans la ∆-méthode.
Pour fixer les idées, considérons une suite (Xn )n≥1 de variables aléatoires i.i.d. toute de loi exponen-
tielle E(λ), λ > 0. La loi (faible) des grands nombres donne que
n
1X
Xn = Xk →n→∞ E(X1 ) = 1/λ,
n
k=1

la convergence ayant lieu en probabilité. Ainsi, nous disposons non pas d’un estimateur de λ mais de 1/λ.
Notons θ = 1/λ et posons f (θ) = 1/θ = λ. Alors c’est un exercice de montrer que f (X n ) = 1/X n → λ en
probabilité. On cherche alors à établir un théorème central limite afin d’établir un intervalle de confiance
par exemple. Pour cela, on calcule un développement de Taylor à l’ordre 2 de f en θ :
1
f (X n ) = f (θ) + f ′ (θ)(X n − θ) + f ′′ (θ)(X n − θ)2 + o((X n − θ)2 ).
2
Ainsi,
√ √ 1 √ √
n(f (X n ) − f (θ)) = f ′ (θ) n(X n − θ) + f ′′ (θ) n(X n − θ)2 + o( n(X n − θ)2 ). (11.4)
2
Une première
√ application du lemme de Slutsky, du théorème central limite et de la loi des grands nombres
implique n(X n − θ)2 converge vers 0 en probabilité. En effet, on écrit
√ √
n(X n − θ)2 = n(X n − θ) (X n − θ) .
| {z } | {z }
(I) (II)

Alors le facteur (I) converge en loi vers N (0, V(X1 )) par le théorème central limite ; le facteur (II) quant
à lui converge vers 0 en probabilité par la loi faible des grands nombres. Ainsi, le produit converge vers
0 en probabilité par le lemme de Slutsky.

145
Ceci implique en particulier que les deux derniers termes de l’équation (11.4) convergent vers 0 en
probabilité. Le premier terme de (11.4) lui converge en loi vers N (0, [f ′ (θ)]2 V(X1 )). A l’aide du lemme
de Slutsky, on obtient que
√ √

1
n(f (X n ) − f (θ)) = n −λ converge en loi vers N (0, [f ′ (θ)]2 V(X1 )).
Xn
La loi asymptotique dépend encore du paramètre λ et par conséquent il faudrait encore arranger un peu
les choses à la manière de l’exemple précédant. Ceci devrait convaincre du caractère “boı̂te à outils” du
lemme de Slutsky.
Terminons par remarquer que les hypothèses sur f sont relativement faibles : f doit être C 2 au
voisinage de θ et f ′ (θ) ̸= 0. Par ailleurs, on établira au chapitre 12 un théorème central limite multivarié.
Cette méthodologie s’étend alors très facilement au cas multivarié.
Démonstration. Notons que la fonction caractéristique de (X, c) est ϕ(X,c) (s, t) = ϕX (s)ei⟨t,c⟩ . On a alors

ϕ(Xn ,Yn ) (s, t) − ϕX (s)ei⟨t,c⟩ = E(ei⟨s,Xn ⟩ (ei⟨t,Yn ⟩ − ei⟨t,c⟩ ) + ei⟨t,c⟩ (ϕXn (s) − ϕX (s))
≤ E|ei⟨t,Yn ⟩ − ei⟨t,c⟩ | + |ϕXn (s) − ϕX (s)|.
Comme dans la preuve de la proposition précédentes, on a pour tout ε > 0

ϕ(Xn ,Yn ) (s, t) − ϕX (s)ei⟨t,c⟩ ≤ ε|t| + 2P(|Yn − c| > ε) + |ϕXn (s) − ϕX (s)|.

Et il suffit de prendre la limite supérieure pour conclure.

Corollaire 11.2.16. Soit (Xn )n≥0 et (Yn )n≥0 deux suites de variables aléatoires à valeurs dans Rd
définies sur le même espace probabilisé. On suppose que (Xn )n≥0 converge en loi vers X et que |Xn − Yn |
converge vers 0 en probabilité. Alors (Yn )n≥0 converge en loi vers X.
Démonstration. C’est un corollaire immédiat du lemme de Slutsky en posant Yn = Xn − (Xn − Yn ) et
l’application continue g(x, d) = x + d.
On termine cette partie par un analogue du lemme de Fatou qui permet de donner une condition
intégrabilité de la limite en loi.
Proposition 11.2.17. Si (Xn )n≥0 convergent en loi vers X, alors
E|X| ≤ lim inf E|Xn |.
n→∞

Démonstration. Puisque Xn converge en loi vers X, |Xn | converge en loi vers |X| par continuité de | · |.
Soit k ≥ 1 un entier,
E(|X| ∧ k) = lim E(|Xn | ∧ k) = lim inf E(|Xn | ∧ k) ≤ lim inf E|Xn |.
n→∞ n→∞ n→∞

On conclut par convergence monotone.

Remarque 105. On peut bien entendu on peut remplacer la valeur absolue par n’importe quelle fonction
continue positive.

11.3 Loi du 0-1 de Kolmogorov et séries aléatoires

On s’intéresse dans cette partie à la convergence (dans R) des séries aléatoires réelles indépendantes
(non nécessairement de même loi). Ces résultats seront utiles pour démontrer la loi des grands nombres
dite forte. La convergence a alors lieu presque-sûrement et non plus en probabilité comme pour la loi
faible. On commence par énoncer la loi du 0-1 de Kolmogorov. Pour ce faire, il est nécessaire d’introduire
la notion de tribu asymptotique.
Soit (Xn )n≥0 une suite de variables aléatoires. On note An = σ(Xn , Xn+1 , . . .) la tribu engendrée par
les variables Xm pour tout m ≥ n. La tribu asymptotique, notée A∞ , est définie comme l’intersection
des tribus An : A∞ = ∩n≥0 An . Intuitivement, un événement A ∈ A∞ si il dépend du comportement
asymptotique de (Xn )n≥0 , ou encore si l’occurrence de A ne dépend pas de la valeur prise par un nombre
fini de Xn . Par exemple, si Sn = X1 + · · · + Xn ,

146
1. {limn→∞ Sn existe } est un événement asymptotique : la modification de la valeur de Xk pour un
nombre fini de k ne modifie pas la nature convergente ou divergente de la série ;
2. {lim supn→∞ Sn ≥ 0} n’est pas un événement asymptotique car il dépend de toute les variables
Xn .
3. soit (Bn )n≥0 une suite événements, i.e. Bn ∈ F pour tout n ≥ 0. Alors les événements

lim sup{Xn ∈ Bn } et lim inf{Xn ∈ Bn }

sont des événements asymptotiques.

Théorème 11.3.1 (Loi du 0-1 de Kolmogorov). Soient (Xn )n≥0 une suite variables aléatoires indépen-
dantes et A ∈ A∞ un événement asymptotique. Alors P(A) ∈ {0, 1}.
Démonstration. On va montrer que A est indépendant de lui-même, i.e. P(A ∩ A) = P(A)P(A), d’où
l’on déduit P(A) ∈ {0, 1}.
Pour cela, notons que A∞ ⊂ σ(Xk+n , k ≥ 0) pour tout n ≥ 0 et que ∪k≥0 σ(X0 , . . . , Xk ) et A∞ sont
des π-systèmes contenant Ω qui engendrent respectivement σ(Xn , n ≥ 0) et A∞ . Par le lemme 8.1.3,
pour vérifier l’indépendance de ces deux tribus, il suffit de vérifier l’indépendance sur les π-systèmes les
engendrant. Or, il est clair par la proposition 8.1.2 que pour tout n ≥ 0, la tribu σ(X0 , . . . , Xn ) et la
tribu σ(Xn+k+1 , k ≥ 0) sont indépendantes.
Ainsi, les tribus σ(Xn , n ≥ 0) et A∞ sont indépendantes. Or, si A ∈ A∞ alors A ∈ σ(Xn , n ≥ 0) et par
conséquent l’événement A appartient à deux tribus indépendantes, il est indépendant de lui-même.
Le lemme suivant fait partie du folklore probabiliste et donne une information sur les fluctuations de
somme de variables indépendantes.
Lemme 11.3.2 (Inégalité de Lévy-Ottoviani).
P Soient ξ1 , . . . , ξp des variables aléatoires indépendantes.
On note, pour r = 1, . . . , p, Zr = 1≤i≤r ξi . Alors pour tout η > 0 et δ ≥ 0,

inf P(|Zp − Zr | ≤ δ) × P( sup |Zr | > η + δ) ≤ P(|Zp | > η).

1≤r<p 1≤r≤p

Démonstration. Notons τ = inf{i = 1, . . . , p : |Zi | > η + δ} avec la convention inf ∅ = ∞. On cherche

donc à majorer la probabilité de l’événement {sup1≤r≤p |Zr | > η + δ} = {τ ≤ p} par celle de l’événement
{|Zp | > η}. On remarque que {τ = 1} = {|Z1 | > η + δ} et, pour 1 < r ≤ p,

{τ = r} = {|Z1 | ≤ η + δ} ∩ · · · ∩ {|Zr−1 | ≤ η + δ} ∩ {|Zr | > η + δ}.

Ceci implique que {τ = p} ⊂ {|Zp | > η + δ} ⊂ {|Zp | > η} et, pour r = 1, . . . , p − 1,

{τ = r} ∩ {|Zp − Zr | ≤ δ} ⊂ {|Zr | > η + δ} ∩ {|Zp − Zr | ≤ δ} ⊂ {|Zp | > η},

car |Zr | ≤ |Zp | + |Zr − Zp |. Il s’en suit que

p−1
X
P(|Zp | > η) ≥ P(τ = p) + P(τ = r, |Zp − Zr | ≤ δ).
r=1

Les événements {τ = r} et {|Zp − Zr | ≤ δ} sont indépendants car {τ = r} est dans la tribu σ(ξ1 , . . . , ξr )
et {|Zp − Zr | ≤ δ} est dans la tribu σ(ξr+1 , . . . , ξp ). D’où, l’inégalité
p−1
X p
X
P(|Zp | > η) ≥ P(τ = p) + P(τ = r)P(|Zp − Zr | ≤ δ) ≥ α P(τ = r),
r=1 r=1
Pp
où α = inf 1≤r<p P(|Zp − Zr | ≤ δ). Il suffit alors de remarquer que P(τ ≤ p) = r=1 P(τ = r) pour
conclure.

Théorème 11.3.3 (Paul Lévy). Soit (Xn )n≥1 une suite de v.a.r. indépendantes. Pour n ≥ 1, on note
Sn = X1 + · · · + Xn . Les assertions suivantes sont équivalentes

147
1. (Sn )n≥1 converge presque sûrement vers une variable aléatoire réelle ;
2. (Sn )n≥1 converge en probabilité vers une variable aléatoire réelle ;
3. (Sn )n≥1 converge en loi vers une variable aléatoire réelle.
Démonstration. Montrons tout d’abord que si (Sn )n≥0 converge en probabilité alors elle converge presque
sûrement. Pour ce faire, on utilise le critère de type Cauchy du théorème 11.1.15. Soit ε > 0 alors, par
monotonie,
P(sup |Sn+r − Sn | > ε) = lim P( sup |Sn+r − Sn | > ε).
r≥0 p→∞ 0≤r≤p

On cherche à appliquer l’inégalité de Lévy-Ottoviani. On remarque que

n+r
X r
X r
X
∀1 ≤ r ≤ p, Sn+r − Sn = Xj = Xn+i = ξi ,
j=n+1 i=1 i=1

avec ξ = Xi+n . Avec ces notations, Sn+r − Sn joue le rôle de Zr de l’inégalité de Lévy-Ottoviani qu’on
peut appliquer au couple (η, δ) = (ε/2, ε/2). On obtient alors

inf P(|Zp − Zr | ≤ ε/2) × P( sup |Zr | > ε) ≤ P(|Zp | > ε/2).

1≤r<p 1≤r≤p

Puisque Zr = Sn+r − Sn , cette inégalité se réécrit

On pose βn = sup{P(|Sq+n − Sp+n | > ε/2) : p, q ≥ 0}. On a, pour tout p ≥ 1,

P(|Sn+p − Sn | > ε/2) ≤ βn , et inf P(|Sn+p − Sn+r | ≤ ε/2) ≥ 1 − βn ,

1≤r<p

d’où (1 − βn )P(sup1≤r≤p |Sn+r − Sn | > ε) ≤ βn . D’autre part, comme

P(|Sn+p − Sn+q | > ε/2) ≤ P(|Sn+p − Sn | > ε/4) + P(|Sn+q − Sn | > ε/4),

βn ≤ 2 supr≥0 P(|Sn+r −Sn | > ε/4). Pour conclure, puisque (Sn )n≥0 converge en probabilité, le critère de
type Cauchy pour la convergence en probabilité de la proposition 11.1.15 implique que limn→∞ βn = 0.
Ainsi, pour tout n ≥ 1 suffisamment grand de sorte que 1 − βn > 0, on a pour tout p ≥ 1,
βn
P( sup |Sn+r − Sn | > ε) ≤
1≤r≤p 1 − βn

et donc
βn
P(sup |Sn+r − Sn | > ε) = sup P( sup |Sn+r − Sn | > ε) ≤ .
r≥0 p≥1 1≤r≤p 1 − βn
Ceci montre que (Sn )n≥1 converge presque sûrement.
Il reste à montrer que la convergence en loi implique la convergence en probabilité. Supposons au
contraire que (Sn )n≥1 ne converge pas en probabilité. Encore une fois, la proposition 11.1.15 implique
qu’il existe ε > 0 et α > 0 tel que

∀n ≥ 1, ∃(pn , qn ) ∈ N2 , n ≤ pn < qn , P(|Sqn − Spn | > ε) > α. (11.5)

Posons Zn = Sqn − Spn et montrons que (Zn )n≥1 converge en loi vers 0. Puisque Spn est indépendante
de Zn , on a en écrivant Sqn = Spn + Zn ,

∀t ∈ R, ϕSqn (t) = ϕSpn (t)ϕZn (t).

Puisque (Sn )n≥1 converge en loi vers S∞ , ϕSn converge simplement vers la fonction caractéristique ϕ de
S∞ . La fonction ϕ est continue sur R et ϕ(0) = 1. Il existe donc une constante c > 0 tel que |t| ≤ c
implique |ϕ(t)| > 0. Comme n ≤ pn < qn , les suites ϕSpn et ϕSqn convergent simplement vers ϕ lorsque
n → ∞ si bien que pour |t| ≤ c implique limn→∞ ϕZn (t) = 1.

148
Puisque, pour tout x ∈ R, 1 − cos(2x) ≤ 4(1 − cos(x)), on a,

∀t ∈ R, 0 ≤ 1 − Re ϕZn (2t) ≤ 4 [1 − Re ϕZn (t)] .

Par conséquent, pour tout t ∈ R, il existe n ≥ 0 tel que 2−n |t| ≤ c et donc limn→∞ Re ϕZn (t) = 1.
Finalement, puisque |ϕZn (t)| ≤ 1, on déduit que limn→∞ ϕZn (t) = 1. Ceci implique Zn converge en
loi vers δ0 . La convergence en loi vers une v.a.r constante presque sûrement implique la convergence
probabilité vers cette constante. Contradiction avec (11.5).

La proposition suivante est une application du théorème de Lévy ci-dessus. Elle sera par ailleurs utile
dans la démonstration de la loi forte des grands nombres de Kolmogorov au chapitre suivant.

Proposition 11.3.4 (Séries centrées). Soit (XPn )n≥1 une suite de v.a.r. indépendantes. On suppose que,
pour tout n ≥ 1, Xn ∈ L2 et E(Xn ) = 0. Alors n≥1 E[Xn2 ] < ∞ implique que (Sn )n≥1 converge presque
sûrement et dans L2 vers une variable aléatoire réelle.

Démonstration. Puis les variables aléatoires Xn sont centrées, E(Xn2 ) = V(Xn ). Puis, pour tout n, r ∈
N∗ , par indépendance des Xn ,

n+r
! n+r n+r
X X X X
2
E(Xi2 ) ≤ E(Xi2 ),

E |Sn+r − Sn | =V Xi = V(Xi ) =
i=n+1 i=n+1 i=n+1 i>n

qui est le reste d’une série convergente. La suite (Sn )n≥1 est donc de Cauchy dans L2 , elle converge
dans L2 vers S∞ . La convergence en moyenne quadratique implique la convergence en probabilité et
′
le théorème de Paul Lévy implique la convergence presque sûre vers une variable aléatoire S∞ . Enfin,
′
S∞ = S∞ puisque (Sn )n≥1 converge en probabilité vers S∞ et presque sûrement, donc en probabilité,
′
vers S∞ .

On termine cette partie par l’énoncé du théorème des trois séries de Kolmogorov. Celui-ci est une
conséquence de l’inégalité maximale de Kolmogorov suivante et du théorème des deux séries.

Proposition 11.3.5 (Inégalité maximale de Kolmogorov). Soit (Xn )n≥1 une suite de v.a.r. indépen-
dantes, de carré intégrable et centrées. On note, pour tout k ≥ 1, Sk = X1 + · · · + Xk . Alors, pour tout
a > 0 et tout n ≥ 1,
V(Sn )
P(sup{Sk : k = 1, . . . , n} ≥ a) ≤ .
a2 + V(Sn )

De plus,
E[Sn2 ]
P( sup |Sk | ≥ a) ≤ .
1≤k≤n a2

Démonstration. Soient a > 0 et τ = inf k≥1 {Sk ≥ t} alors les ensembles Ak = {τ = k}, k = 1, . . . , n, sont
deux à deux disjoints et
[n
A= Ak = sup{Sk : k = 1, . . . , n} ≥ t .
k=1

Soit c ≥ 0. La variable aléatoire (Sk +c)1Ak est σ(X1 , . . . , Xk )-mesurable et Sn −Sk est σ(Xk+1 , . . . , Xn )-
mesurable. Ces deux variables sont donc indépendantes et

E [(Sk + c)1Ak (Sn − Sk )] = E [(Sk + c)1Ak ] E[Sn − Sk ] = 0.

149
Pn
Puisque les Ak sont disjoints, 1Ak = 1A ≤ 1. On obtient donc
k=1

V(Sn ) + c2 = E(Sn2 ) + 2c E(Sn ) +c2 = E (Sn + c)2

| {z }
=0
" n # n n
X X X
2
E (Sn + c)2 1Ak = E (Sk + c + Sn − Sk )2 1Ak

≥E (Sn + c) 1Ak =
k=1 k=1 k=1
n
X
(Sk + c)2 + 2(Sk + c)(Sn − Sk ) + (Sn − Sk )2 1Ak

= E
k=1
n
X n
X
E (Sk + c)2 1Ak + E (Sn − Sk )2 1Ak

=
k=1 k=1
n
X
E (Sk + c)2 1Ak . (11.6)

≥
k=1
2 2
Comme c ≥ 0 et par définition de τ , nous avons (Sk + c) 1Ak ≥ (t + c) 1Ak . Ainsi, le calcul précédent
donne
Xn
V(Sn ) + c2 ≥ E (t + c)2 1Ak = (t + c)2 P(A).

k=1
Pour obtenir la première inégalité maximale, il suffit de poser c = V(Sn )/t ≥ 0.
Pour l’autre inégalité, on pose τ̄ = inf k=1,...,n {|Sk | ≥ t}, Āk = {τ̄ = k} ainsi que Ā = {τ̄ ≤ n}. On
ne peut plus faire aboutir le calcul ci-dessus pour c > 0 mais il est encore valide pour c = 0. Dans ce cas,
Sk2 1Āk ≥ t2 1Āk . Le même calcul donne P(Ā) ≤ V(Sn )/t2 .
Exercice 31. Soit (Xn )n≥1 une suite de variables aléatoires indépendantes dans L2 telles que E(Xn ) = 0
pour tout n ≥ 1 et V = supn≥1 V(Xn ) < ∞ (famille bornée dans L2 ). Alors pour tout ε > 0,
|Sn |
lim sup = 0, p.s..
n→∞ n1/2 (ln n)1/2+ε
Théorème 11.3.6 (des deux P séries de Kolmogorov).
P Soit (Xn )n≥1 une suite de v.a.r.
Pindépendantes de
carré intégrable telles que n≥1 E(Xn ) et n≥1 V(Xn ) convergent dans R. Alors n≥1 Xn converge
presque sûrement vers une v.a.r..
Démonstration. Sans perte de P
généralité, on peut supposer E(Xn ) = 0, car en recentrant on ne change
n
pas la variance. On pose Sn = k=1 Xk et on va montrer que

P lim sup Sn − lim inf Sn = 0 = 1.
n→∞ n→∞

Soit m ≥ 0, on a
k
X
lim sup Sn − lim inf Sn = lim sup(Sn − Sm ) − lim inf (Sn − Sm ) ≤ 2 sup Xm+i .
n→∞ n→∞ n→∞ n→∞ k≥1 i=1

Ainsi, pour tout m ≥ 1 et tout ε > 0,

k
!
X
P lim sup(Sn − Sm ) − lim inf (Sn − Sm ) ≥ ε ≤ P 2 sup Xm+i ≥ ε
n→∞ n→∞ k≥1 i=1

k
!
X
≤P max Xm+i ≥ ε/2
k=1,...,p
i=1
m+p
X X
−2
≤ lim sup 4ε V(Xi ) ≤ 4ε−2 V(Xi ), (11.7)
p→∞
i=m+1 i>m

par l’inégalité maximale de Kolmogorov. En faisant tendre m → ∞, on obtient que lim sup Sn = lim inf Sn
donc (Sn )n≥0 converge presque sûrement.

150
Théorème 11.3.7 P(des trois séries de Kolmogorov). Soit (Xn )n≥1 une suite de v.a.r. indépendantes.
La série aléatoire n≥1 Xn converge presque sûrement dans R si et seulement si pour un certain A > 0
les trois séries suivantes convergent :
X X X
P(|Xn | ≥ A), E[Xn 1|Xn |≤A ], et V(Xn 1|Xn |≤A ).
n≥1 n≥1 n≥1

Dans ce théorème, il s’agit bien d’une équivalence. Néanmoins, la preuve de la nécessité de ces
conditions est unPpeu technique, nous nous contenterons de montrer qu’elles sont suffisantes. Remarquons
∞
toutefois que si n=1 Xn converge presque sûrement alors la première condition est satisfaite, car sinon,
par le deuxième lemme de Borel-Cantelli, on aurait que le terme général de la série ne tend pas vers 0.
Démonstration. Soit A > 0 tel que les trois conditions soient vérifiées. On pose Yn = Xn 1|Xn |≤A . La
convergence de la première série et le premier lemme de Borel-Cantelli implique que |Xn | ≤ A sauf pour
un
P∞nombre (aléatoire) fini. Ainsi, pour Ptout n suffisamment grand, Xn = Yn presque sûrement et donc
∞
n=1 Xn converge si et seulement si n=1 Yn converge.
Par le théorème
P∞des deux séries de Kolmogorov, les deux dernières conditions impliquent la conver-
gence de la série n=1 Yn .

151
152
Chapitre 12

Loi des grands nombres et Théorème

Central Limite

Ce chapitre traite des deux principaux théorèmes en théorie des probabilités. À eux deux, ils justifient
le bon choix de l’axiomatique de Kolmogorov pour appréhender les phénomènes aléatoires.

12.1 Loi des grands nombres

On commence par la loi faible des grands nombres dans le contexte L2 .

Théorème 12.1.1 (Loi Faible des Grands Nombres dans L2 ). Soit (Xn )n≥1 une suite de v.a.r. i.i.d.
admettant un moment d’ordre 2. Alors, la convergence suivante a lieu dans L2 et en probabilité
n
1X
Xk −→ E(X1 ).
n
k=1

Démonstration. On montre d’abord la convergence dans L2 en utilisant le caractère i.i.d. :

 !2 
n n
1X = 1
X V(X1 )
E Xk − E(X1 ) E[(Xk − E(X1 ))2 ] = → 0.
n n2 n
k=1 k=1

Comme la convergence dans L2 implique la convergence en probabilité en utilisant l’inégalité de Bie-

naymé-Tchebychev, le théorème est montré.

L’hypothèse L2 semble un peu forte et surtout ne semble pas naturelle puisque dans la convergence
établie la variance n’apparaı̂t pas, d’où le corollaire.

Corollaire 12.1.2 (Loi faible des grands nombres dans L1 ). Soit (Xn )n≥1 une suite de variables
aléatoires i.i.d. à valeurs dans Rd et admettant un moment d’ordre 1. Alors la convergence suivante
a lieu en probabilité et dans L1 .
n
1X
lim Xk = E(X1 ).
n→∞ n
k=1

Démonstration. Sans perte de généralité, on peut supposer les variables Xk positives. En effet, nous
avons
E|Xn − E(X1 )| ≤ E|Xn+ − E(X1+ )| + E|Xn− − E(X1− )|.

Ainsi, si on montre la convergence, dans L1 , de la moyenne empirique des parties positives et négatives
des variables Xk , on obtiendra le résultat du corollaire. Soit M > 0, et considérons les variables Xk ∧ M .

153
Il est facile de voir que
n n
1X 1X
E Xk − E(X1 ) ≤ E (Xk − Xk ∧ M )
n n
k=1 k=1
n
1X
+E Xk ∧ M − E(X1 ∧ M )
n
k=1
+ |E(X1 ∧ M ) − E(X1 )|
≤ 2E|X1 ∧ M − X1 |
n
1X
+E Xk ∧ M − E(X1 ∧ M ) .
n
k=1

Prenant la limite supérieure en n → ∞, on a, par la loi faible des grands nombres dans L2 du théorème
12.1.1, pour tout M > 0
n
1X
lim sup E Xk − E(X1 ) ≤ 2E|X1 ∧ M − X1 |.
n→∞ n
k=1

On remarque ensuite que |X1 ∧ M − X1 | tend presque-sûrement vers 0 lors M → ∞. De plus, pour tout
M ≥ 0,
|X1 ∧ M − X1 | = 1X1 >M |M − X1 | ≤ M 1X1 >M + X1 ≤ 2X1 ,
et le théorème de convergence dominée implique que
n
1X
lim sup E Xk − E(X1 ) = 0.
n→∞ n
k=1

La convergence dans L1 impliquant la convergence en probabilité, cela termine la preuve du corollaire.

Théorème 12.1.3 (Loi Forte des Grands Nombres dans le cadre L2 ). Soit (Xn )n≥1 une suite de v.a.r.
i.i.d. admettant un moment d’ordre 2. Alors,
n
1X
Xk −→ E(X1 ), P − p.s..
n
k=1

Démonstration. Supposons dans un premier temps que pour tout n ≥ 1, Xn ≥ 0. On introduit la notation
n
1X
Mn = Xk .
n
k=1

Pour montrer la convergence presque sûre de (Mn )n≥1 vers E(X1 ), on établit d’abord la convergence
presque sûre de (Mn2 )n≥1 vers E(X1 ), puis nous passerons à la suite toute entière. Ce faisant, par un
calcul très similaire à celui de la preuve du théorème 12.1.1, on a pour tout n ≥ 1, E(Mn ) = E(X1 ) et
V(Mn ) = n−2 V(X1 ). Soit ε > 0, on utilise à nouveau l’inégalité de Bienaymé-Tchebychev pour estimer
la probabilité
E(|Mn2 − E(X1 )|2 ) V(X1 )
P(|Mn2 − E(X1 )| > ε) ≤ = 2 2 . (12.1)
ε2 n ε
En sommant sur n ≥ 1 de part et d’autre de l’inégalité (12.1), le corollaire 11.1.3 montre que Mn2
converge presque sûrement vers E(X1 ).
Montrons désormais que la suite (Mn )n≥0 converge presque-sûrement
√ √ vers
√ E(X1 ), c’est ici qu’on se
sert de√la positivité des incréments. Pour tout n > 1, ⌊ n⌋ ≤ n ≤ ⌊ n + 1⌋ et donc, en notant
qn = ⌊ n⌋, qn2 ≤ n ≤ (qn + 1)2 . Comme les variables sont positives, on obtient les inégalités

Sqn2 ≤ Sn ≤ S(qn +1)2 et n−1 Sqn2 ≤ Mn ≤ n−1 S(qn +1)2 .

Par conséquent,
n−1 qn2 Mqn2 ≤ Mn ≤ n−1 (qn + 1)2 M(qn +1)2 .

154
√
Rappelant que qn / n tend vers 1 et que Mn2 converge vers E(X1 ), on obtient la convergence voulue
pour (Mn )n≥1 .
Pour le cas général, il suffit d’écrire Xk = Xk+ − Xk− et de vérifier que Xk+ et Xk− vérifie les conditions
du résultat que l’on vient de montrer.

Remarque 106. Remarquons que dans la preuve, l’hypothèse d’indépendance intervient pour montrer la
convergence en probabilité et la convergence presque-sûre est obtenue par monotonie. Pour cette dernière,
nous aurions pu invoquer la proposition 11.1.14.
De la même façon que pour la loi faible, on peut affaiblir l’hypothèse L2 et considérer X1 dans L1 .

Théorème 12.1.4 (Loi forte des grands nombres de Kolmogorov). Soit (Xn )n≥1 une suite de v.a.r.
i.i.d. ; on note pour tout n ≥ 1, Mn = n−1 (X1 + · · · + Xn ).
1. Si X1 est intégrable, (Mn )n≥1 converge presque sûrement et dans L1 vers E(X1 ).
2. Si X1 n’est pas intégrable, au moins un des deux événements {lim sup Mn = ∞} ou {lim inf Mn =
−∞} est de probabilité 1.

La démonstration de ce théorème nécessite trois lemmes usuels d’analyse que le lecteur assidu n’aura
pas manqué de démontrer dans la première planche de TD de théorie de la mesure.

Lemme 12.1.5 (Lemme de Stolz-Cesàro). Soient (bn )n≥1 une suite croissante de réels strictement
positifs telle que limn→∞ bn = ∞ et (xn )n≥0 une suite de réels convergeant vers x ∈ R. Alors, en posant
b0 = 0,
n
1 X
lim (bi − bi−1 )xi = x.
n→∞ bn
i=1

Démonstration. Exercice.

Lemme 12.1.6 (Lemme de Kronecker). Soient (bn )n≥1 une suite croissante de réels strictement positifs
et (xn )n≥1 une suite de réels. Si la série n≥1 b−1
P
n xn est convergente (dans R) alors

n
X
lim b−1
n xi = 0.
n→∞
i=1

Démonstration. Exercice.

Enfin, les estimées suivantes sont des conséquences standards des comparaisons séries/intégrales.

Lemme 12.1.7. Pour tout α > 1 et k ≥ 1, n≥k+1 n−α ≤ k 1−α /(α − 1).
P

Démonstration. Exercice.

Preuve de la LGN de Kolmogorov. On suppose dans un premier temps que X1 admet un moment d’ordre
1 et que E(X1 ) = 0. Introduisons quelques notations : pour tout n ≥ 1,
n n
cn = 1 fn = 1
X X
X
bn = Xn 1|X |<n , M X
bi , X bn − E(X
en = X bn ), et M X
ei .
n
n i=1 n i=1

Notons que les suites (X

bn )n≥1 et (X
en )n≥1 sont constituées de variables aléatoires i.i.d..
Pour montrer la convergence presque sûre de (Mn )n≥0 , nous allons procéder en deux temps :
1. tout d’abord, nous établirons que
p.s. p.s. p.s.
Mn −→ 0 ⇐⇒ cn −→
M 0 ⇐⇒ fn −→
M 0;

2. puis nous montrerons que (M

fn )n≥1 converge vers 0 presque sûrement.

155
en montrant que Mn − M
Considérons la première équivalence du point 1 P cn converge presque sûrement
−1 n
vers 0. On a, pour tout n ≥ 1, Mn − Mn = n c
i=1 Xi 1|Xi |>i . Or, les variables aléatoires (Xn )n≥1
étant i.i.d., il vient que
X X
P(|Xn | ≥ n) = P(|X1 | ≥ n) ≤ 1 + E|X1 | < ∞.
n≥1 n≥1

Ainsi, d’après le premier lemme de Borel-Cantelli, P(lim sup{|Xn | ≥ n}) = 0. Ainsi, il existe N =
lim sup{|Xn | ≥ n} négligeable tel que, pour tout ω ∈/ N , il existe un entier nω ≥ 1 tel que n ≥ nω
implique |Xn (ω)| < n implique Xn (ω) = Xn (ω). D’où, pour tout ω ∈
b / N,
ω n
cn (ω) = 1
X
∀n ≥ nω , Mn (ω) − M Xi 1|Xi |≥i .
n i=1

Il s’agit d’une somme finie renormalisée par n ce qui établit la première équivalence.
Pour la seconde équivalence, en utilisant la même démarche, on obtient
n
fn = 1
X
∀n ≥ 1, cn − M
M E[|X1 |1|X1 |<i ],
n i=1

car les variables aléatoires Xi sont identiquement distribuées. Puisque X1 est intégrable, X1 est fi-
nie presque sûrement et donc X1 1|X1 |<i converge presque sûrement vers X1 . De plus, |X1 1|X1 |<i | ≤
|X1 | pour tout i ≥ 1 et comme X1 est intégrable, le théorème de convergence dominée implique que
limi→∞ E(X1 1|X1 |<i ) = E(X1 ) = 0. Le lemme de Cesàro implique que M cn − M fn tends vers 0.
Montrons désormais le second point : (Mn )n≥1 converge presque sûrement vers 0. Nous appliquons
f
Pn e
le lemme de Kronecker : pour montrer que n−1 i=1 X i converge vers 0 presque sûrement, il suffit
Pn −1 e
de montrer que la série i=1 i Xi converge presque sûrement dans R. Or les variables aléatoires
(n−1 X en )n≥1 sont indépendantes et, pour tout n ∈ N∗ , |n−1 X en | ≤ 2 donc de carré intégrable et fi-
nalement E[n−1 X e ] = 0. D’après le résultat sur les séries centrées de la proposition 11.3.4, il suffit de
P n −2 e 2
vérifier que n≥1 n E(Xn ) < ∞ pour obtenir la convergence presque sûre de n≥1 n−1 X
P en dans R.
On calcule
X X 2 X X
−2 −2
2
n E(Xn ) =
e n E Xn − E[Xn ]
b b = n−2 V(X bn ) ≤ n−2 E[Xb 2 ].
n
n≥1 n≥1 n≥1 n≥1

Or, les variables (Xn )n≥1 sont i.i.d. si bien que

∀n ≥ 1, bn2 ) = E(Xn2 1|X |<n ) = E(X12 1|X |<n ).

E(X n 1

Par convergence monotone, on trouve finalement que

 
X X X
n−2 E(X
en2 ) ≤ n−2 E(X12 1|X1 |<n ) = E  n−2 X12 1|X1 |<n  .
n≥1 n≥1 n≥1

Or, pour tout x ≥ 0, on obtient par le lemme de comparaison séries/intégrales

X X x2 X x2 x2
n−2 x2 1x<n = x2 n−2 = + x2 n−2 ≤ + ≤ 2x.
(⌊x⌋ + 1)2 (⌊x⌋ + 1)2 ⌊x⌋ + 1
n≥1 n≥⌊x⌋+1 n≥⌊x⌋+2

Par conséquent, n≥1 n−2 E(X en2 ) ≤ 2E|X1 | < ∞. On a donc convergence presque sûre de (M
P fn )n≥0 vers
0 et donc de (Mn )n≥1 vers 0.
Il s’agit de montrer que (Mn )n≥1 converge également dans L1 . Soit k ∈ N∗ et écrivons |Mn | =
min(|Mn |, k) + (|Mn | − k)+ . La fonction x → (x − k)+ est convexe et croissante si bien que
n
1X
(|Mn | − k)+ ≤ (|Xi | − k)+ .
n i=1

156
Puisque les variables sont identiquement distribuées, il vient que
n
1X
E (|Xi | − k)+ = E[min(|Mn |, k)] + E (|X1 | − k)+ .

E|Mn | ≤ E[min(|Mn |, k)] +
n i=1

On remarque alors que min(|Mn |, k) converge presque sûrement vers 0 quand n → ∞. De même, ces
variables aléatoires sont uniformément bornée en n par k et le théorème de convergence dominée montre
que le premier terme à droite de l’inégalité tends vers 0 lorsque n → ∞ si bien que

∀k ∈ N∗ , lim sup E|Mn | ≤ E (|X1 | − k)+ .

n→∞

Comme |X1 | est intégrable, (|X1 | − k)+ converge presque sûrement vers 0 lorsque k → ∞. De plus,
(|X1 | − k)+ ≤ |X1 | et par convergence dominée

lim sup E|Mn | ≤ lim E (|X1 | − k)+ = 0,

n→∞ k→∞

d’où la convergence L1 . Ceci termine la démonstration dans le cas X1 intégrable d’espérance nulle.
Supposons désormais X1 intégrable mais m = E(X1 ) ̸= 0. Observons que, en notant X n = Xn − m
pour tout n ≥ 1, on a
n n
1X 1X
Mn − m = (Xi − m) = X n = M n.
n i=1 n i=1

Or les variables aléatoires (X n )n≥1 sont i.i.d., X 1 est intégrable et EX 1 = 0. Ainsi, M n converge presque
sûrement et dans L1 vers 0. D’où l’on déduit que Mn converge presque sûrement et dans L1 vers m.
On considère désormais le cas où X1 n’est pas intégrable. Les variables aléatoires lim inf Mn et
lim sup Mn sont des variables asymptotiques de la suite de variables indépendantes (Xn )n≥1 . D’après
la loi du 0-1 de Kolmogorov 11.3.1, les événements {lim inf Mn = −∞} et {lim sup Mn = ∞} sont de
probabilité 0 ou 1. En fait, il existe c∗ et c∗ ∈ R ∪ {±∞} tels que, presque sûrement, lim inf Mn = c∗ et
lim sup Mn = c∗ .
Supposons que les deux événements {lim sup Mn = ∞} et {lim inf Mn = −∞} soient négligeables,
alors −∞ < c∗ ≤ c∗ < ∞. Il vient alors que Xnn = Mn − n−1 n Mn−1 si bien que

Xn Xn
lim sup ≤ c∗ − c∗ et lim inf ≥ c∗ − c∗ .
n n
Soit c > c∗ − c∗ . Comme lim sup{Xn ≥ cn} ⊂ lim sup Xnn ≥ c , on déduit que P(lim sup{Xn ≥

cn}) = 0. Puis, les variables (Xn )n≥1 étant i.i.d., le deuxième lemme de Borel-Cantelli implique
X X X
P(X1+ ≥ cn) = P(X1 ≥ cn) = P(Xn ≥ cn) < ∞.
n≥1 n≥1 n≥1

Ainsi, X1+ est intégrable. De même, lim sup{Xn ≤ −cn} ⊂ lim inf Xnn ≤ −c , et en utilisant un argu-

ment similaire, on obtient que X − est intégrable. C’est une contradiction.

Remarque 107. Si (Xn )n≥1 est une suite de variables aléatoires positives i.i.d. avec E(X1 ) = ∞, alors,
presque sûrement, limn→∞ Mn = ∞. Pn Pn
En effet, pour tout k ∈ N∗ , lim inf n1 i=1 Xi ≥ lim inf n1 i=1 min(Xi ; k). D’après la loi forte des
grands nombres, il existe Nk négligeable tel que
n
1X
∀ω ∈
/ Nk , lim min(Xi ; k) = E[min(X1 ; k)].
n→∞ n
i=1

Posons N = ∪k≥1 Nk . On vérifie que N est négligeable et

n n
1X 1X
∀ω ∈
/ N, ∀k ≥ 1, lim inf Xi (ω) ≥ lim inf min(Xi ; k) = E[min(X1 ; k)].
n i=1 n i=1

Par convergence monotone, l’espérance à droite tend vers ∞ lorsque k → ∞.

157
En fait, on peut même supprimer l’hypothèse de positivité et supposer que la partie positive X1+ ou
la partie négative X1− dans L1 . La moyenne empirique converge alors vers −∞ ou ∞ respectivement.
Dans le cas X1+ et X1− non intégrable, on peut également dire quelque chose sur le comportement de
la moyenne empirique, mais cette fois-ci il faut comparer les queues de distribution de la partie positive
et négative. On renvoie à [Kes70] et [Eri73] pour ces considérations.

12.2 Théorème Central Limite

Théorème 12.2.1. Soit (Xn )n≥0 une suite de v.a.r. i.i.d. avec X1 de carré intégrable ; on note m =
E(X1 ) et σ 2 = V(X1 ). Considérons, pour tout n ≥ 1,
√

Sn
Tn = n − m , où Sn = X1 + · · · + Xn .
n
Alors la suite (Tn )n≥1 converge en loi, lorsque n → ∞, vers une v.a.r. de loi N (0, σ 2 ).
Démonstration. On calcule la fonction caractéristique de Tn et on simplifie en utilisant le caractère i.i.d. :
√
ϕTn (t) = E(eitTn ) = ϕX1 −m (t/ n)n . (12.2)
Or, ϕ(0) = 1, ϕ′ (0) = 0, car X1 − m est centrée, et ϕ′′ (0) = −σ 2 . Donc le développement de Taylor à
l’ordre 2 de ϕTn donne n
t2 σ 2 t2 √

ϕTn (t) = 1 − + ε(t/ n) .
2n n
Lemme 12.2.2. Soit (zn )n≥0 est une suite de nombre complexe telle que limn→∞ nzn = z alors
limn→∞ (1 + zn )n = ez .
2 2 2 √ 2 2
Comme n − t 2n σ
+ tn ε(t/ n) → − t 2σ on obtient que

t2 σ 2
∀t ∈ R, lim ϕTn (t) = e− 2 .
n→∞

On reconnaı̂t ici la fonction caractéristique d’une N (0, σ 2 ).

12.3 TCL multivarié

Le TCL univarié se généralise facilement à la dimension supérieure. C’est en fait un corollaire.
Théorème 12.3.1. Soit (Xn )n≥1 une suite de vecteurs aléatoires dans Rd , i.i.d. avec X1 ∈ L2 . On note
m = E(X1 ) et Γ la matrice de covariance de X1 . Alors la suite de vecteurs aléatoires (Tn )n≥1 définis
pour tout n ≥ 1 par
√

X1 + · · · + Xn
Tn = n −m
n
converge en loi vers un vecteur gaussien de loi N (0, Γ).
Démonstration. En utilisant les fonctions caractéristiques, on a pour tout t ∈ Rd
h ∗ i
ϕTn (t) = E eit Tn = ϕt∗ Tn (1)

et
√ t∗ X1 + · · · + t∗ Xn

t∗ Tn = n − t∗ m .
n
La suite de v.a.r. (t∗ Xn )n≥1 est i.i.d. et de carré intégrable avec E(t∗ X1 ) = t∗ m et V(t∗ X1 ) = t∗ Γt.
D’après le TCL univarié, lorsque n → ∞, t∗ Tn converge en loi vers une variable réelle de loi N (0, t∗ Γt).
Par conséquent, ∗
t Γt
lim ϕTn (t) = lim ϕt∗ Tn (1) = exp − .
n→∞ n→∞ 2
D’où le résultat.

158
12.4 Applications de la loi des grands nombres
Théorème 12.4.1 (fondamental de la Statistique). Soit (Xn )n≥1 une suite de v.a.r. indépendantes et
identiquement distribuées suivant la loi µ sur Rd . Pour tout n ≥ 1, on note
n
1X
µω
n = δX (ω) , ω ∈ Ω,
n i=1 i

la mesure empirique. Alors, presque sûrement, (µn )n≥1 converge étroitement vers µ.

Remarque 108. Précisons sa signification : pour tout borélien B ∈ Rd et tout ω ∈ Ω,

n n
1X 1X
µω
n (B) = δXi (ω) (B) = 1B (Xi (ω)).
n i=1 n i=1

De façon plus générale, si f : Rd → R est borélienne bornée ou borélienne positive, nous pouvons écrire
Z n
1X
f (x) µω
n (dx) = f (Xi (ω)).
Rd n i=1

/ N , (µω
Le théorème précédant affirme qu’il existe un ensemble négligeable N tel que pour tout ω ∈ n )n≥1
converge vers µ étroitement, i.e.
Z n Z
1X
∀ω ∈ N ∁ , ∀f ∈ Cb (Rd ), f (x) µω
n (dx) = f (Xi (ω)) → f (x) µ(dx).
Rd n i=1 Rd

Démonstration. L’espace Cc (Rd ) des fonctions continues à support compact est séparable. C’est une
conséquence du théorème de Stone-Weierstrass établissant la densité des fonctions polynomiales pour
∥ · ∥∞ dans l’espace des fonctions continues sur un compact. Il existe ainsi une famille dénombrable
H = (hr )r∈N ⊂ Cc dense dans Cc pour ∥ · ∥∞ .
Soit r ∈ N, nous avons
Z n
1X
hr (x) µω
n (dx) = hr (Xi (ω)).
Rd n i=1

Les variables aléatoires réelles (hr (Xn ))n≥1 sont indépendantes, identiquement distribués, bornées et
donc de carré intégrable. Par la loi forte des grands nombres dans le cadre L2 , il existe Nr négligeable
tel que si ω ∈
/ Nr , Z Z
lim hr (x) µω
n (dx) = E[hr (X1 )] = hr (x) µ(dx).
n→∞ Rd Rd

Comme la famille H est dénombrable, on peutPmême définir universellement un tel ensemble négligeable.
En effet, notons N = ∪r∈N Nr , alors P(N ) ≤ r≥0 P(Nr ) = 0. De plus, si ω ∈ / N , on a
Z Z
∀r ∈ N, lim hr (x) µω
n (dx) = hr (x) µ(dx).
n→∞ Rd Rd

D’après le théorème 11.2.2, il vient que, pour tout ω ∈ N ∁ ,

Z Z
ω
∀f ∈ Cb , lim f (x) µn (dx) = f (x) µ(dx).
n→∞ Rd Rd

Ceci termine la preuve du théorème.

Le théorème fondamentale de la Statistique établit donc que la mesure empirique a tendance à

converger (étroitement) vers la loi théorique sauf peut-être pour certains n-échantillons exceptionnels.
Dans le contexte des v.a.r., ce théorème peut se traduire en terme de fonction de répartition.

159
Théorème 12.4.2 (Glivenko-Cantelli). Soit (Xn )n≥1 une suite de v.a.r. indépendantes et identiquement
distribuées. On note F la fonction de répartition de X1 et, pour tout n ≥ 1, Fn la fonction de répartition
empirique, i.e.
n
1X
∀ω ∈ Ω, ∀t ∈ R, Fnω (t) = 1]−∞,t] (Xi (ω)).
n i=1

Alors, presque sûrement, (Fn )n≥1 converge vers F uniformément sur R.

Remarque 109. Ce théorème signifie qu’il existe N négligeable tel que

∀ω ∈ N ∁ , lim sup |Fnω (t) − F (t)| = 0.

n→∞ t∈R

Remarque 110. La fonction (aléatoire) de répartition empirique est en fait la fonction de répartition de
la mesure (aléatoire) empirique : pour tout ω ∈ Ω, Fnω est la fonction de répartition de µω
n.

Démonstration. Le fait que (Fnω (t))n≥1 converge presque sûrement pour tout t ∈ R fixé est simplement
une conséquence de la loi forte des grands nombres. En effet, les variables aléatoires (1]−∞,t] (Xn ))n≥1 sont
indépendantes, identiquement distribuées, de loi commune la loi de Bernoulli de paramètre P(X1 ≤ t),
et bornées donc de carré intégrable. Ceci établit donc l’existence pour tout t ∈ R d’un ensemble Nt
négligeable tel que dès que ω ∈/ Nt , limn→∞ Fnω (t) = F (t). De la même manière, il existe pour chaque
−
t ∈ R un ensemble Nt négligeable tel que
n
X
P(X1 < t) = F (t− ) = lim 1]−∞,t[ (Xi (ω)) = lim Fnω (t− ).
n→∞ n→∞
i=1

La suite de la preuve consiste en deux choses : d’abord il s’agit de montrer que la convergence est
uniforme ; d’autre part, il faut construire un ensemble N négligeable universel (indépendant de t ∈ R).
Pour ce faire, considérons deux fonctions de répartitions F et Fn ainsi qu’une subdivision finie τ =
(ti )i=1,...,p avec t1 ≤ t2 ≤ · · · ≤ tp , p ∈ N∗ . On note

− −
δF (τ ) = max 1 − F (tp ), (F (t− p ) − F (t p−1 )) +
, . . . , (F (t2 ) − F (t1 ))+
, F (t1 ) ,

et
Rn (τ ) = max (F (ti ) − Fn (ti )) +
, (Fn (t−
i ) − F (t−
i ))
+
.
i=1,...,p

On va montrer que ∥F − Fn ∥∞ = supt∈R |F (t) − Fn (t)| ≤ δF (t) + Rn (τ ). En effet, les fonctions F et

Fn étant croissantes et positives,
1. si t < t1 , F (t) − Fn (t) ≤ F (t−
1 ) ≤ δF (τ ) et

Fn (t) − F (t) ≤ Fn (t− − − −

1 ) ≤ Fn (t1 ) − F (t1 ) + F (t1 ) ≤ Rn (τ ) + δF (t);

2. si t ∈ [ti−1 , ti [, i = 2, . . . , p, alors d’une part

F (t) − Fn (t) ≤ F (t− − − −

i ) − Fn (ti−1 ) ≤ F (ti ) − F (ti−1 ) + F (ti−1 ) − Fn (ti−1 ) ≤ δF (τ ) + Rn (τ ),

et, d’autre part,

Fn (t) − F (t) ≤ Fn (t− − − −

i ) − F (ti−1 ) ≤ Fn (ti ) − F (ti ) + F (ti ) − F (ti−1 ) ≤ Rn (τ ) + δF (τ );

3. enfin, si t ≥ tp , Fn (t) − F (t) ≤ 1 − F (tp ) ≤ δF (τ ) et

F (t) − Fn (t) ≤ 1 − Fn (tp ) ≤ 1 − F (tp ) + F (tp ) − Fn (tp ) ≤ δF (τ ) + Rn (τ ).

Notons, pour tout x ∈ ]0, 1[,

C(x) = inf{u ∈ R : F (u) ≥ x}.
Puisque limt→∞ F (t) = 1, l’ensemble Ax = {u ∈ R : F (u) ≥ x} est non vide. Comme limt→−∞ F (t) = 0,
Ax est minoré. Ceci montre l’existence de C(x) pour tout x ∈ (0, 1). Puisque F est croissante, la

160
fonction C est elle-même croissante. De plus, Ax est une demi-droite et comme F est continue à droite,
F (C(x)) ≥ x et donc C(x) ∈ Ax . Autrement dit, Ax = [C(x), ∞) d’où

C(x) ≤ t ⇐⇒ x ≤ F (t).

En particulier, F (C(x)− ) ≤ x puisque pour s < C(x), F (s) < x.

On considère l’ensemble N définit par
[
−
N= NC(q) ∪ NC(q) .
q∈Q∩(0,1)

/ N ∁,
Il est immédiat que P(N ) = 0. D’autre part si ω ∈

∀q ∈ Q ∩ (0, 1), Fnω (C(q)) → F (C(q)), et Fnω (C(q)− ) → F (C(q)− ).

On va montrer que la convergence a lieu uniformément en t ∈ R pour tout ω ∈ N ∁ . Soit donc ω ∈ N ∁

fixé et p ∈ N∗ . Pour tout i = 1, . . . , p, on pose ti = C(i(p + 1)−1 ). On remarque que F (t− i ) ≤ i/(p + 1)
et F (ti ) ≥ i/(p + 1) pour tout i = 1, . . . , p. Par conséquent, δF (τ ) ≤ 1/(p + 1) et par l’inégalité établie
plus haut, ∥Fnω − F ∥∞ ≤ 1/(p + 1) + Rn (τ ).
Par définition de Rn (τ ), pour tout ω ∈ N ∁ fixé et tout p ∈ N∗ fixé, Rn (τ ) → 0 si n → ∞ si bien que

lim sup ∥F − Fnω ∥∞ ≤ 1/(p + 1) + lim sup Rn (τ ) = 1/(p + 1).

n→∞ n→∞

Le membre de gauche de l’inégalité ne dépend plus de p et l’inégalité est valable pour tout p ≥ 1 donc
la limite supérieure à gauche est nulle. Ceci achève la preuve de ce résultat.

Ce théorème peut être affiner en précisant la vitesse de convergence des fonctions de répartition em-
pirique vers la fonction de répartition théorique. Ce dernier résultat est à la base du test de Kolmogorov-
Smirnov — on pourra pour cela se référer à [Bil68, Théorème 13.5, p.105].

161
162
Chapitre 13

Espérance conditionnelle

Dans ce chapitre, sauf mention contraire, on considère un espace probabilisé (Ω, F, P) et X à valeurs
dans Rd une variable aléatoire définie sur (Ω, F, P).

13.1 Conditionnement par un événement

Définition 13.1.1 (Probabilité conditionnelle). Soit B ∈ F. La probabilité conditionnelle sachant B
est une fonction d’ensemble, notée P(·|B), de la tribu F dans [0, 1] définie par :

 P(A∩B) si P(B) > 0,

P(B)
∀A ∈ F : P(A|B) =
 0

sinon.

Remarque 111. La spécification de la probabilité conditionnelle lorsque P(B) = 0 est arbitraire est sans
importance particulière.

Proposition 13.1.2. Soit B ∈ F tel que P(B) > 0. La fonction d’ensemble P(·|B) : F → [0, 1] est une
probabilité sur F.

Démonstration. On vérifie facilement que P(Ω|B) = 1. De plus, si (An )n≥0 est une famille dénombrable
d’éléments de F deux à deux disjoints, alors il en va de même de la famille (An ∩ B)n≥0 . Ainsi,
! !
S
 P
n≥0 An ∩B
 S
[ P n≥0 (A n ∩ B) X P(An ∩ B) X
P An B  = = = = P(An |B).
P(B) P(B) P(B)
n≥0 n≥0 n≥0

Remarque 112. La probabilité conditionnelle par rapport à un événement B est parfois notée PB . Cette
notation a l’avantage de mettre en exergue le fait que la probabilité conditionnelle est une probabilité,
cependant elle est peu pratique.

Proposition 13.1.3. Soit B ∈ F tel que P(B) > 0. Pour tout événement A ∈ F indépendant de B on
a P(A|B) = P(A). De manière plus générale, si A, B ∈ F sont tels que P(A)P(B) > 0 alors A et B
sont indépendants si et seulement si P(A|B) = P(A) si et seulement si P(B|A) = P(B).

Démonstration. Le premier point est immédiat puisque par hypothèse P(A ∩ B) = P(A)P(B). Pour le
deuxième point, il suffit de remarquer que P(A ∩ B) = P(A|B)P(B) = P(A)P(B).

Proposition 13.1.4 (Formule des probabilités totales). Soit (Bn )n≥0 ∈ F N une partition (modulo 0)
de Ω. Alors pour tout A ∈ F : X
P(A) = P(A|Bn )P(Bn ).
n≥0

163
est une partition, les ensembles A ∩ Bn , n ≥ 0, sont deux à deux
Démonstration. Puisque (Bn )n≥0
disjoints et A = A ∩ ∪n≥0 Bn , ainsi
X X
P(A) = P(A ∩ Bn ) = P(A|Bn )P(Bn ).
n≥0 n≥0

Proposition 13.1.5 (Formule de Bayes). Soit (Bn )n≥0 une famille d’événements de F formant une
partition (modulo 0) de Ω. Alors pour tout A ∈ F tel que P(A) > 0 et tout n ≥ 0 :

P(A|Bn )P(Bn )
P(Bn |A) = P .
k≥0 P(A|Bk )P(Bk )

Démonstration. Par la formule des probabilités totales :

P(Bn ∩ A) P(A|Bn )P(Bn )

P(Bn |A) = =P .
P(A) k≥0 P(A|Bk )P(Bk )

Comme la probabilité conditionnelle P(·|B) est en particulier une probabilité, on peut calculer la
moyenne d’une variable aléatoire intégrable par rapport à cette nouvelle probabilité. Cette espérance est
appelée espérance conditionnelle.

Définition 13.1.6. Soient X est une v.a. P-intégrable à valeurs dans Rd et B ∈ F un événement tel que
P(B) > 0. L’espérance conditionnelle de X sachant B, notée E(X|B), est l’espérance de X par rapport
à la probabilité P(·|B). Ainsi, par définition,
Z
E(X|B) = X(ω)P(dω|B).
Ω

Proposition 13.1.7. Soient X une v.a. P-intégrable à valeurs dans Rd et B ∈ F. Alors,


 E(X1B ) , si P(B) > 0

P(B)
E(X|B) =
 0,

sinon.

De plus, si A ∈ F, alors P(A|B) = E(1A |B).

Démonstration. Là encore, lorsque P(B) = 0, on définit la valeur de l’espérance conditionnelle de manière
arbitraire. Si P(B) > 0, l’égalité P(A|B) = E(1A |B) provient de la définition. Puis, on commence par
vérifier l’égalité pour des fonctions en escaliers positives.
! !
X X 1 X
E αi 1Ai = αi P(Ai |B) = E αi 1Ai 1B .
P(B)
i∈I i∈I i∈I

Pour des variables aléatoires X intégrables, on procède par approximation, puis, si X ∈ Rd , on raisonne
composantes par composantes.

Soit (Bi )i∈I une partition dénombrable (modulo 0) de Ω formée d’ensembles F-mesurables et posons
G = σ(Bi , i ∈ I). Pour une variable aléatoire X supposée P-intégrable, on définit la variable aléatoire à
valeurs dans Rd et définie sur (Ω, F, P) par l’égalité
X
E(X|G)(ω) = E(X|Bi )1Bi (ω).
i∈I

Dans cette expression, si P(Bi ) = 0, alors on pose arbitrairement E(X|Bi ) = 0. In fine, cette égalité est
définie presque-sûrement.

164
Proposition 13.1.8. La variable aléatoire E(X|G) est G-mesurable. De plus, si X est P-intégrable,
alors il en va de même de E(X|G). De plus, pour toute variable aléatoire G-mesurable bornée Z, on a
Z Z
ZE(X|G) dP = ZX dP ⇐⇒ E(ZE(X|G)) = E(ZX).
Ω Ω

Démonstration. L’application notée E(X|G) est (limite d’) une fonction étagée sur des ensembles F-
mesurables et même G-mesurables, c’est donc une variable aléatoire G-mesurable. L’égalité des espérances
est triviale si Z est G-étagée bornée.
On a ainsi défini une espérance conditionnellement à une sous-tribu engendrée par une partition qui
est consistante avec la définition de probabilité conditionnelle. Peut-on faire de même avec une sous-tribu
arbitraire ? La réponse est oui.

13.2 Espérance conditionnelle

On se sert des propriétés de l’espérance conditionnelle sachant une sous-tribu engendré par une par-
tition pour proposer une définition de l’espérance conditionnelle en général, i.e., pour des sous-tribus
arbitraires. Puis, on vérifie que cette définition est consistante dans le sens qu’une telle espérance condi-
tionnelle existe effectivement et qu’elle est caractérisée par les conditions de la définition (unicité en un
certain sens).
On ne montrera pas dans ce cours le résultat de dualité entre partitions mesurables et σ-algèbres,
mais il est important d’avoir conscience qu’il s’agit peu ou prou de la même notion.
Définition 13.2.1 (Espérance conditionnelle). Soient G ⊂ F une sous-tribu et X une variable aléatoire
P-intégrable. Une variable aléatoire Y est appelée espérance conditionnelle de X sachant G, et on note
Y = E(X|G) si
1. Y est G-mesurable ;
2. pour toute variable aléatoire G-mesurable bornée Z, E(Y Z) = E(XZ).
Si B ∈ F, alors P(B|G) = E(1B |G) est appelée probabilité conditionnelle de B sachant G.
La proposition suivante donne une caractérisation équivalente de l’espérance conditionnelle. Elle
s’avère parfois plus commode.
Proposition 13.2.2. Soient G ⊂ F une sous-tribu et X une variable aléatoire P-intégrable. Alors une
variable aléatoire G-mesurable Y est l’espérance conditionnelle de X sachant G si et seulement si, pour
tout A ∈ G, E(1A Y ) = E(1A X).
Démonstration. Dans la définition de l’espérance conditionnelle, en posant Z = 1A , l’égalité E(1A Y ) =
E(1A X) est immédiate.
Réciproquement, si pour tout A ∈ G, E(1A Y ) = E(1AP X), alors il en va de même pour toute variable
n
aléatoire G-mesurable Z étagée positive, c’est à dire Z = i=1 αi 1Ai avec Ai ∈ G et αi ≥ 0, i = 1, . . . , n.
Par le théorème de convergence monotone, cette égalité reste valide pour les variables aléatoires G-
mesurables positives. On conclut pour toute variable aléatoire G-mesurable Z en décomposant Z =
Z + − Z − , les parties positives et négatives étant trivialement G-mesurables.
Théorème 13.2.3. Si G ⊂ F est une sous-tribu et X une variable aléatoire P-intégrable, alors E(X|G)
existe et est unique.
Démonstration. On commence par montrer l’unicité. Soit Y et Y ′ satisfaisant la condition de l’espérance
conditionnelle, i.e. pour toute variable aléatoire Z G-mesurable bornée
E(XZ) = E(Y Z). On pose
Z = 1Y >Y ′ qui est G-mesurable et bornée. On obtient que 0 = E (Y − Y ′ )1Y >Y ′ , d’où Y = Y ′
presque-sûrement en intervertissant les rôles de Y et Y ′ .
Pour l’existence, quitte à raisonner composantes par composantes, on peut supposer X à valeurs
réelles. On décompose alors X = X + − X − en partie positive et négative. Traitons le cas de la partie
positive et définissons la mesure positive Q par

Q(A) = E(X + 1A ), A ∈ G.

165
Alors, Q est absolument continue par rapport à P et le théorème de Radon-Nikodym implique qu’il
existe une densité G-mesurable Y + tel que Q(A) = E(Y + 1A ) = E(X + 1A ). On a de même une densité
G-mesurable Y − tel que E(Y − 1A ) = E(X − 1A ). Ainsi, il existe une variable aléatoire G-mesurable
Y = Y + − Y − tel que pour tout A ∈ G, E(Y 1A ) = E(X1A ).
Notons que si G ⊂ F est une sous-tribu, alors la probabilité conditionnelle sachant G est définie comme
P(B|G) = E(1B |G) pour tout B ∈ F. Si X est une variable aléatoire de Rd , on appelle loi conditionnelle
de X sachant G la probabilité sur Rd qui à chaque borélien A assigne la probabilité P(A|G). Notez que
c’est une variable aléatoire.
Définition 13.2.4. Si X, Y sont deux variables aléatoires telles que X ∈ L1 , on définit l’espérance
conditionnelle de X sachant Y , notée E(X|Y ), comme l’espérance conditionnelle de X sachant la tribu
engendrée par Y , i.e. E(X|Y ) = E(X|σ(Y )).

13.3 Propriétés de l’espérance conditionnelle

Théorème 13.3.1. Soient G ⊂ H ⊂ F des sous-tribus et X, Y des variables aléatoires P-intégrables et
Z une variable aléatoire. Alors,
1. E[E(X|G)] = E[X] (formule des probabilités totales) ;
2. pour tout λ ∈ R, E(λX + Y |G) = λE(X|G) + (Y |G) p.s. (linéarité) ;
3. si Y ≤ X presque-sûrement, alors E(Y |G) ≤ E(X|G) p.s. (monotonie) ;
4. si E|XY | < ∞ et Y est G-mesurable alors

E(XY |G) = Y E(X|G) p.s. et E(Y |G) = E(Y |Y ) = Y p.s.;

5. E E(X|G) H = E E(X|H) G = E(X|G) p.s. (conditionnements emboı̂tés) ;
6. |E(X|G)| ≤ E(|X||G) p.s. (inégalité triangulaire) ;
7. si σ(X) et G sont deux tribus indépendantes, alors E(X|G) = E(X) p.s. ;
8. Si pour tout A ∈ G, P(A) ∈ {0, 1}, alors E(X|G) = E(X) p.s..
Démonstration. 1. C’est la caractérisation de l’espérance conditionnelle appliquée à la variable aléa-
toire bornée Z = 1Ω .
2. Il est clair que λE(X|G) + E(Y |G) est G-mesurable. Soit Z une application G-mesurable bornée.
Alors, par linéarité de l’espérance et définition de l’espérance conditionnelle

E(Z(λE(X|G) + E(Y |G))) = λE(ZE(X|G)) + E(ZE(Y |G))

= λE(ZX) + E(ZY )
= E(Z(λX + Y )).

3. Soit Z = 1E(X|G)<E(Y |G) . Clairement, Z est G-mesurable bornée. En particulier, par définition de
l’espérance conditionnelle, et puisque X ≥ Y presque-sûrement

0 ≥ E(Z(E(X|G) − E(Y |G))) = E(Z(X − Y )) ≥ 0.

Ainsi, Z = 0 presque-sûrement.
4. Soit A ∈ G, et supposons d’abord que Y = 1B pour un B ∈ G. Alors,

E(1A E(1B X|G)) = E(1A 1B X) = E(1A 1B E(X|G))

car 1A 1B est G-mesurable borné. Par linéarité de l’espérance (classique), cette relation est toujours
satisfaite si Y est étagée positive, puis par convergence dominée en utilisant l’hypothèse E|XY | <
∞, c’est encore vrai lorsque Y est G-mesurable. Puisque A ∈ G est arbitraire, presque-sûrement
E(XY |G) = Y E(X|G).
Pour la deuxième égalité, on utilise la première égalité avec X = 1Ω et on remarque que E(1Ω |G) =
1 presque-sûrement (1Ω est trivialement G-mesurable et la variable aléatoire constante égale à 1
vérifie l’égalité de la définition de l’espérance conditionnelle).

166
5. Soit Z une variable aléatoire G-mesurable bornée. Alors Z est également H-mesurable bornée,
ainsi, par les points 1) et 4),

E(ZE(E[X|H]|G)) = E(E(E[ZX|H]|G)) = E(ZX)

Par définition de l’espérance conditionnelle, on obtient

E(E[X|H]|G) = E(X|G).

Pour l’autre égalité, on utilise le point 4) et le fait qu’une variable aléatoire G-mesurable est
H-mesurable si G ⊂ H.
6. C’est une conséquence du point 1) et 2) en posant X = X + − X − .
7. Soit Z une variable aléatoire G-mesurable bornée, alors σ(X) et G étant indépendantes, Z est une
variable aléatoire indépendante de X. Ainsi,

E(ZE(X|G)) = E(ZX) = E(Z)E(X) = E(ZE(X)).

Et il vient que E(X|G) = E(X) presque-sûrement.

8. Si G est trivial, c’est à dire tout A ∈ G vérifie P(A) ∈ {0, 1}, alors une variable aléatoire G-
mesurable bornée est presque-sûrement constante.

E(ZE(X|G)) = E(ZX) = ZE(X) = E(ZE(X)),

car Z et ZE(X) sont constantes presque-sûrement.

Les théorèmes de convergences de type Beppo-Lévy, Fatou et convergence dominée de Lebesgue se

généralisent facilement aux espérances conditionnelles.
Théorème 13.3.2 (Beppo-Lévy, Fatou, convergence dominée de Lebesgue). Soit G ⊂ F une sous-tribu
de (Ω, F, P)
1. Convergence monotone conditionnelle : Soit (Xn )n≥0 une suite croissante de variables aléatoires
à valeurs réelles positives et P-intégrables. Alors limn→∞ Xn existe dans [0, ∞] et

lim E(Xn |G) = E(X|G), p.s..

n→∞

2. Lemme de Fatou conditionnel : Soit (Xn )n≥0 une suite de variables aléatoires positives et P-
intégrables. Alors
E(lim inf Xn |G) ≤ lim inf E(Xn |G).
n→∞ n→∞

3. Soient Y une variable positive P-intégrable et (Xn )n≥0 une suite de variables aléatoires telles que
|Xn | ≤ Y pour tout n ≥ 0 et Xn converge vers X presque-sûrement. Alors

lim E(Xn |G) = E(X|G)

n→∞

presque-sûrement et dans L1 .
Remarque 113. La version conditionnelle des lemmes de convergence monotone et de Fatou suppose que
les variables Xn sont P-intégrables, ceci pour assurer l’existence de l’espérance conditionnelle.
Démonstration. 1. On considère, pour tout n ≥ 0, Yn = E(Xn |G). La suite (Yn )n≥0 est monotone
croissante de variable aléatoires positives par monotonie de l’espérance conditionnelle. Ainsi, la
suite (Yn )n≥0 converge presque sûrement vers une variable aléatoire que l’on note Y . Il s’agit
donc de montrer que Y = E(X|G). Pour ce faire, considérons A ∈ G, alors par le théorème de
convergence monotone classique, en notant X = limn→∞ Xn

E(X1A ) = lim E(Xn 1A ) = lim E(Yn 1A ) = E(Y 1A ).

n→∞ n→∞

2. On applique le point 1) à la suite Yn = inf k≥n Xn et la monotonie de l’espérance conditionnelle.

167
3. On définit Wn = supk≥n |Xk − X|. Alors 0 ≤ Wn ≤ 2Y et Wn converge vers 0 presque-sûrement.
Donc E(Wn ) converge vers 0. Par l’inégalité triangulaire

E|E(Xn |G) − E(X|G)| ≤ E(E(|Xn − X||G)) = E(|Xn − X|) = E(Wn ),

si bien E(Xn |G) converge vers E(X|G) dans L1 . Comme (Wn )n≥0 est décroissante, la monotonie
de l’espérance conditionnelle implique que (E(Wn |G))n≥0 est également décroissante et converge
presque-sûrement vers une variable aléatoire W ≥ 0. Alors par le lemme de Fatou

0 ≤ E(W ) ≤ lim inf EE(Wn |G) = lim E(Wn ) = 0.

n→∞ n→∞

Par conséquent, W = 0 presque-sûrement et E(Wn |G) converge vers 0 presque-sûrement. Mais,

|E(Xn |G) − E(X|G)| ≤ E(Wn |G).

13.4 Inégalité de Jensen et de Markov conditionnelles

Proposition 13.4.1. Soit φ : R → R une fonction convexe et X une v.a.r. telle que X et φ(X) ∈ L1 ,
alors φ(E(X|G)) ≤ E(φ(X)|G).

Remarque 114. Pour ne pas se tromper dans le sens de l’inégalité, penser à la fonction valeur absolue.

Démonstration. La version conditionnelle de l’inégalité de Jensen se montre de la même façon que la

version classique.
Il est connu que pour tout x0 ∈ R il existe a, b ∈ R (qui dépendent de x0 et non nécessairement
uniques) tels que
∀x ∈ R, φ(x) ≥ ax + b et φ(x0 ) = ax0 + b.
Choisissons x0 = E(X|G) et x = X puis après passage aux espérances conditionnelles, il vient par
linéarité de l’espérance conditionnelle

φ (E(X|G)) = aE(X|G) + b = E(aX + b|G) ≤ E(φ(aX + b)|G).

Proposition 13.4.2 (Inégalité de Markov conditionnelle). Soit G ⊂ F une sous-tribu et X une variable
aléatoire réelle positive. Alors,

E(X|G)
∀λ > 0 : P(X > λ|G) ≤ .
λ
Remarque 115. Bien entendu, comme dans le cas de l’espérance classique, on peut aussi montrer une
inégalité de Bienaymé-Tchebychev conditionnelle.

Démonstration. Encore une fois, La preuve est très identique à celle donnée dans le cas l’espérance clas-
sique. En fait, X > λ1X>λ presque-sûrement, puis en utilisant la monotonie de l’espérance conditionnelle,
on obtient E(X|G) ≥ E(λ1X>λ |G) = P(X > λ|G).

13.5 Conditionnement des vecteurs gaussiens

Proposition 13.5.1. Soit (Y, X1 , . . . , Xd ) un vecteur gaussien de Rd+1 tel que X = (X1 , . . . , Xd ) possède
une matrice de variance inversible Σ. Notons a = Σ−1 (cov (Y, X1 ), . . . , cov (Y, Xd )), alors

E(Y |X1 , . . . , Xd ) = E(Y ) + a∗ (X − EX).

En particulier, une variable (ou vecteur) gaussienne conditionnée par rapport à un vecteur gaussien est
encore gaussienne.

168
Démonstration. On suppose que (Y, X1 , . . . , Xd ) est centré et on note Ŷ = a∗ X. On vérifie facilement que
cov (Y − Ŷ , Xi ) = E[(Y − Ŷ )Xi ] = 0 pour tout i = 1, . . . , d. Ainsi, puisque le vecteur (X1 , . . . , Xd , Y − Ŷ )
est gaussien, que (Y − Ŷ ) est indépendant de (X1 , . . . Xd ), on obtient que

E(Y |X1 , . . . , Xd ) = E(Y − Ŷ |X1 , · · · , Xd ) + Ŷ = E(Y − Ŷ ) + Ŷ = Ŷ .

13.6 Point de vue hilbertien des espérances conditionnelles

L’espérance conditionnelle lorsque X est de carré intégrable s’interprète géométriquement dans le
cadre de la théorie des espaces de Hilbert. L’application de la théorie des espaces de Hilbert aux espérance
conditionnelles est illustrée par le théorème suivant.
Théorème 13.6.1. Soient X une variable aléatoire de carré P-intégrable et G ⊂ F une sous-tribu.
L’espace des variables aléatoires G-mesurables de carré P-intégrable est un s.e.v. fermé noté FG , et
l’espérance conditionnelle de X sachant G est la projection orthogonale de X sur FG .
Démonstration. On doit montrer que pour toute variable aléatoire G-mesurable Y telle que E|Y |2 < ∞,
on a
E((X − Y )2 ) ≥ E((X − E(X|G))2 ),
avec égalité si Y = E(X|G).
On vérifie tout d’abord que E[E(X|G)2 ] < ∞ par l’inégalité de Jensen. Soit Y une variable aléatoire
G-mesurable telle que E(Y 2 ) < ∞, alors par Cauchy-Schwarz, XY est intégrable. Alors, d’une part
E(XY ) = E(Y E(X|G)) et d’autre part,

E(XE(X|G)) = E[E(XE{X|G}|G)] = E(E[X|G]2 ).

En utilisant ces deux égalités, le calcul suivant termine la preuve

E[(X − Y )2 ] − E[(X − E(X|G))2 ] = E[X 2 − 2XY + Y 2 − X 2 + 2XE(X|G) − E(X|G)2 ]

= E[Y 2 − 2Y E(X|G) + E(X|G)2 ]
= E[(Y − E(X|G))2 ] ≥ 0.

Remarque 116. Dans la littérature il existe deux points de vues équivalents pour construire l’espérance
conditionnelle : ou bien, on utilise le théorème de Radon-Nikodym, ou bien on utilise le théorème de
projection dans un Hilbert qui permet de définir l’espérance conditionnelle pour des variables aléatoires
de carré intégrable. La second méthode s’étend facilement aux variables aléatoires intégrables. En réalité,
les deux méthodes sont strictement équivalentes puisque le théorème de Radon-Nikodym découle du
théorème de projection. Néanmoins, les deux points de vues restent intéressants pour eux-même, l’un est
très centré sur la théorie de la mesure alors que l’autre est plus géométrique.

13.7 Lois conditionnelles régulières

13.7.1 Densité conditionnelle
Lorsque la variable aléatoire par rapport à laquelle on conditionne, que l’on note Y ici, est à valeurs
discrète, disons dans N pour simplifier, il est facile de définir la notion de loi conditionnelle de X sachant
Y : c’est la famille de lois {PX|Y =y , y ∈ N} telle que si P(Y = y) > 0,

PX|Y =y (B) = P(X ∈ B|Y = y), B ∈ B(R),

et dans le cas contraire, PX|Y =y est une probabilité quelconque.

Malheureusement, lorsque la variable aléatoire Y n’est plus à valeurs discrètes, ce procédé ne s’étend
pas aussi simplement : si par exemple Y est de loi continue, P(Y = y) = 0 pour tout y ∈ R. L’objet

169
de cette section est de contourner ce problème et plus spécifiquement d’énoncer le théorème 13.7.3 dont
la démonstration (partielle) sera donnée à la fin de cette section. Ce théorème permet de généraliser la
formule de Bayes aux lois à densités. On commence par un lemme technique qui peut être également
utile dans d’autres contextes.

Lemme 13.7.1. Soit X une variable aléatoire à valeurs dans Rd et soit Z une variable aléatoire σ(X)-
mesurable à valeurs dans Rp . Alors il existe une application h : Rd → Rp mesurable telle que Z = h(X).
De plus h est définie PX -p.s..

Rappelons que σ(X) est la plus petite tribu sur Ω rendant X mesurable. En particulier, puisque X
est F-mesurable (c’est une variable aléatoire), nous avons σ(X) ⊂ F.

Démonstration. Si Z = h(X) alors Z est clairement σ(X)-mesurable puisque, pour tout borélien A ∈
B(Rp ), h−1 A ∈ B(Rd ) et donc, puisque X est σ(X)-mesurable par définition, il vient que X −1 h−1 (A) ∈
σ(X).
Pour la réciproque, il suffit de montrer que tout A ∈ σ(X) s’écrit X −1 B pour B ∈ B(Rd ). Pour ce
faire, notons
A = {A ∈ σ(X) : ∃ B ∈ B(Rd ), X −1 B = A}.

Clairement, A ⊂ σ(X). De plus, ∅ = X −1 ∅ ∈ A alors que A est stable par passage au complémentaire et
réunion dénombrable, ce sont les propriétés de l’image réciproque. Ainsi, A est une tribu contenu dans
σ(X). Cependant, il est facile de voir que X est A-mesurable, donc A = σ(X).
Ce résultat montre que si Z est une application σ(X)-mesurable étagée positive, alors il existe
α1 , . . . , αn ∈ R+ et des boréliens B1 , . . . , Bn de B(Rd ) tels que
n
X n
X
Z= αi 1X −1 Bi = αi 1Bi ◦ X.
i=1 i=1

Pn
Il suffit alors de poser h = i=1 αi 1Bi qui est une application borélienne étagée positive de Rd dans R+ .
L’extension du cas Z étagée positive à Z à valeurs dans Rp se fait comme d’habitude : Z positive par
approximation, Z réelle en décomposant en partie positive et partie négative, Z à valeurs dans Rp en
raisonnant composantes par composantes.

Ce lemme permet de donner un sens à la notation E(X|Y = y), d’où la définition suivante.

Définition 13.7.2. Soit X à valeurs dans Rp et P-intégrable et soit Y une variable aléatoire à valeurs
dans Rq . On définit l’espérance conditionnelle de X sachant Y = y par E(X|Y = y) = φ(y) où φ est
une fonction mesurable satisfaisant φ(Y ) = E(X|Y ). De même, pour A ∈ F, on définit P(A|Y = y) =
E(1A |Y = y).

Théorème 13.7.3. Supposons que la loi jointe de (X, Y ) admette une densité f par rapport à la mesure
de Lebesgue λp+q . Alors, Y admet une densité fY et la loi conditionnelle régulière de X sachant Y = y
admet une densité pour PY -p.t. y ∈ Rq , notée fX|Y =y , définie pour x ∈ Rp par

f (x, y)
fX|Y =y (x) = 1{fY >0} .
fY (y)

De plus, pour toute fonction réelle φ mesurable telle que φ(X) ∈ L1 et pour PY -p.t. y ∈ Rq ,
Z
E(φ(X)|Y = y) = φ(x)fX|Y =y (x) dx.
Rp
R
Remarque 117. Le PY -p.p. provient du fait que fY (y) = Rp f (x, y) λp (dx) est seulement définie PY -p.p..
Dans les faits, elle est souvent définie partout — typiquement si y → f (x, y) est continue pour presque
tout x ∈ Rp , mais pas seulement. Dans ce cas, l’expression de fX|Y =y est toujours valide.

170
Exemple 52. Soit (X, Y ) ∈ R2 de loi jointe f(X,Y ) (x, y) = 1R+ ×R+ (x)ye−yx e−y . Alors, Y admet pour
densité Z ∞
−y
fY (y) = 1R+ (y)e ye−yx dx = 1R+ (y)e−y .
0
La densité conditionnelle fX|Y =y est donnée pour presque tout y ∈ R+ par

fX|Y =y (x) = 1R+ (x)ye−yx .

Autrement dit, Y suit une loi exponentielle de paramètre 1 et la loi de X sachant Y est une loi expo-
nentielle de paramètre (aléatoire) Y , on note L(X|Y ) = E(Y ).
Corollaire 13.7.4. Supposons X et Y indépendantes et de densités respectives, par rapport à λp et λq ,
fX et fY . Alors la loi conditionnelle régulière de X sachant Y admet fX pour densité.

13.7.2 Noyau de transition et loi conditionnelle régulière

Dans toute la suite, X et Y sont des variables aléatoires définies sur un même espace probabilisé
(Ω, F, P) et à valeurs dans Rp et Rq respectivement. Tous ces résultats restent valables si X et Y sont à
valeurs dans un espace polonais, le lemme 13.7.1 étant même vrai si elles sont à valeurs dans un espace
mesurable.
Définition 13.7.5. Une application K : Rq × B(Rp ) → [0, 1] est appelée noyau de transition si les deux
conditions suivantes sont satisfaites :
1. pour tout x ∈ Rq , K(x, ·) est une probabilité sur B(Rp ) ;
2. pour tout A ∈ B(Rp ), l’application x → K(x, A) est B(Rq )-mesurable.
Si K est un noyau de transition, alors on peut faire agir une probabilité µ à gauche et une fonction
mesurable bornée f à droite de telle sorte que
Z
⟨µK, f ⟩ = ⟨µ, Kf ⟩ = µ(dx)K(x, dy)f (y).
Rq ×Rp

Plus directement, on définit la probabilité µK pour tout A ∈ B(Rp ) par

Z
µK(A) = µ(dx)K(x, A),
Rq

et on définit la fonction Kf pour tout x ∈ Rq

Z
Kf (x) = K(x, dy)f (y).
Rp

Définition 13.7.6. Soient X et Y des variables aléatoires à valeurs dans Rp et Rq respectivement. Un

noyau de transition K : Rq × B(Rp ) → [0, 1] est appelée loi conditionnelle régulière de X sachant Y si
pour presque tout y ∈ Rq

P(X ∈ B|Y = y) = K(y, B) ou E(φ(X)|Y = y) = Kφ(y).

où B ∈ B(Rp ) et φ : Rp → R borélienne bornée.

Au vu du lemme de factorisation 13.7.1, on voit tout de suite que pour chaque fonction φ borélienne
bornée on peut associer une fonction hφ telle que E(φ(X)|Y = y) = hφ (y). Cela définit un opérateur
linéaire (dans un sens généralisé), c’est à dire un sous-espace linéaire de mMb (Rp ) × mMb (Rq ), où
mMb (Rd ) représente l’espace des fonctions mesurables (partout) bornées sur Rd . Cependant, la fonction
hφ n’est définie que PY -presque partout et l’ensemble négligeable N correspondant dépend a priori de
φ et X. Mais l’espace des fonctions φ boréliennes bornées n’est en général pas dénombrable, ainsi on
ne peut pas trouver un ensemble négligeable N universel, c’est à dire valable pour chaque fonction φ.
Néanmoins, on vérifie facilement que si φ est PX -intégrable alors hφ est PY -intégrable. En effet :

E|hφ (Y )| = E|E(φ(X)|Y )| ≤ E|φ(X)|.

171
Ainsi, on peut restreindre l’opérateur linéaire à l’espace L1PX (Rq ) × L1PY (Rq ). Or il se trouve que L1
est séparable, c’est à dire contient un sous-ensemble dénombrable dense (c’est le cas dès que la tribu
est engendré par une famille dénombrable de parties). Ainsi, pour chacune des fonctions dans cette
partie dense, il sort un certain ensemble négligeable, leur réunion dénombrable est toujours négligeable
et convient à toutes les fonctions de la partie dense. Finalement, à l’aide d’un argument de continuité, on
peut choisir l’ensemble négligeable de façon universelle. C’est ce que raconte le théorème suivant (admis),
il implique l’existence de la loi conditionnelle de X sachant Y .
Théorème 13.7.7. Soient X et Y des variables aléatoires à valeurs dans Rp et Rd respectivement.
Alors, il existe un noyau de transition K : Rq × B(Rp ) → [0, 1] tel que PX = PY K.

Ce théorème permet de donner un sens à l’écriture PX|Y =y puisqu’en l’espèce

PX|Y =y (A) = P(X ∈ A|Y = y) = K(y, A), A ∈ B(Rp ).

De même, pour une fonction φ : Rp → R, on aura

Z
E(φ(X)|Y = y) = K(y, dx)φ(x).
Rp

On peut désormais montrer le théorème 13.7.3.

Preuve du théorème 13.7.3. Calculons pour h × g : Rp × Rq → R borélienne bornée

Z
h × g(x, y)f (x, y) dxdy = E(h × g(X, Y ))
Rp+q
= E(g(Y )E(h(X)|Y ))
= E(g(Y )Kh(Y ))
Z Z
= g(y)fY (y) h(x)K(y, dx) dy
q Rp
ZR
= h × g(x, y)fY (y)K(y, dx) dy,
Rp+q

où la dernière égalité provient du théorème de Fubini. Ainsi, presque-partout, K(y, ·) est absolument
continue par rapport à λp , on note fX|Y =y sa densité. Alors f(X,Y ) (x, y) = fY (y)fX|Y =y (x) presque-
partout.

172
Lois usuelles

13.8 Lois discrètes

Nom de la loi Support P(X = k) E(X) V(X)

1 n+1 n2 −1
Uniforme {1, . . . , n} n 2 12

Bernoulli, B(p) {0, 1} {1 − p, p} p p(1 − p)

n

Binomiale, B(n, p) {0, . . . , n} k pk (1 − p)n−k np np(1 − p)
N1 N2
( )( ) nN1 nN1 N2 (N1 +N2 −n)
Hypergéométrique {0, . . . , n} k n−k
N1 +N2 N1 +N2 (N1 +N2 )2 (N1 +N2 −1)
( n )
1−p
Géométrique, G(p) N \ {0} = N∗ p(1 − p)k−1 1
p p2
k
Poisson, P(a) N e−a ak! a a

13.9 Lois continues

Nom de la loi Support Densité f (x) E(X) V(X)

1 a+b (b−a)2
Uniforme, U[a, b] [a, b] b−a 1[a,b] (x) 2 12
(x−µ)2
Gaussienne, N (µ, σ 2 ) R √ 1 e− 2σ 2 µ σ2
2πσ

Exponentielle, E(λ) R+ λe−λx 1R+ (x) 1

λ
1
λ2
θ a −θx a−1
Gamma, Γ(a, θ) R∗+ Γ(a) e x 1R∗+ (x) a
θ
a
θ2

Chi-deux, χ2 (d) R+ 1
2d/2 Γ(d/2)
xd/2−1 e−x/2 1R+ (x) d 2d
a
Cauchy (centrée), C(a) R π(a2 +x2 ) Non définie Non définie

R∞
Fonction Gamma : Γ(z) := 0
tz−1 e−t dt, Re z > 0.

173
174
Bibliographie

[Bil68] Patrick Billingsley. Convergence of probability measures. John Wiley & Sons, Inc., New York-
London-Sydney, 1968.
[BP04] M. Briane and G. Pagès. Théorie de l’intégration : Cours et exercices, licence & master de
mathématiques. Vuibert, 2004.
[Car67] Henri Cartan. Calcul différentiel. Hermann, Paris, 1967.
[Eri73] K. Bruce Erickson. The strong law of large numbers when the mean is undefined. Trans. Amer.
Math. Soc., 185 :371–381 (1974), 1973.
[Kes70] Harry Kesten. The limit points of a normalized random walk. Ann. Math. Statist., 41 :1173–
1205, 1970.
[Kin73] J. F. C. Kingman. Subadditive ergodic theory. Ann. Probability, 1 :883–909, 1973. With
discussion by D. L. Burkholder, Daryl Daley, H. Kesten, P. Ney, Frank Spitzer and J. M.
Hammersley, and a reply by the author.
[Nev70] Jacques Neveu. Bases mathématiques du calcul des probabilités. Masson et Cie, Éditeurs, Paris,,
1970. Préface de R. Fortet, Deuxième édition, revue et corrigée.
[Rud87] Walter Rudin. Real and complex analysis. McGraw-Hill Book Co., New York, third edition,
1987.
[Spi76] Frank Spitzer. Principles of random walks. Springer-Verlag, New York, second edition, 1976.
Graduate Texts in Mathematics, Vol. 34.

175

Vous aimerez peut-être aussi

Cours Mesure & Intégration (L3 Marseille 1)
Pas encore d'évaluation
Cours Mesure & Intégration (L3 Marseille 1)
421 pages
Intégration et Probabilités en Mathématiques
100% (1)
Intégration et Probabilités en Mathématiques
289 pages
Mesures et probabilités en mathématiques
Pas encore d'évaluation
Mesures et probabilités en mathématiques
499 pages
Mesures et Probabilités en Mathématiques
Pas encore d'évaluation
Mesures et Probabilités en Mathématiques
74 pages
Intl
Pas encore d'évaluation
Intl
83 pages
Cours de Mathématiques 2009-2010
Pas encore d'évaluation
Cours de Mathématiques 2009-2010
103 pages
Introduction à la théorie de la mesure
Pas encore d'évaluation
Introduction à la théorie de la mesure
45 pages
Intégration et Probabilités 2023-2024
Pas encore d'évaluation
Intégration et Probabilités 2023-2024
92 pages
Intégration et Applications en Mathématiques
100% (2)
Intégration et Applications en Mathématiques
178 pages
Introduction à l'intégrale de Lebesgue
Pas encore d'évaluation
Introduction à l'intégrale de Lebesgue
136 pages
Intégrale de Lebesgue en Mathématiques
Pas encore d'évaluation
Intégrale de Lebesgue en Mathématiques
143 pages
Intégration et Probabilités en Mathématiques
100% (1)
Intégration et Probabilités en Mathématiques
248 pages
Introduction à l'intégrale de Lebesgue
Pas encore d'évaluation
Introduction à l'intégrale de Lebesgue
67 pages
Intégration et Transformée de Fourier
Pas encore d'évaluation
Intégration et Transformée de Fourier
74 pages
Théorie de la mesure et probabilités
Pas encore d'évaluation
Théorie de la mesure et probabilités
112 pages
Intl 1
Pas encore d'évaluation
Intl 1
51 pages
Théorie de la mesure et probabilités
100% (3)
Théorie de la mesure et probabilités
661 pages
Integrale Lebesgue
Pas encore d'évaluation
Integrale Lebesgue
132 pages
Théorie de l'intégration et mesures
100% (7)
Théorie de l'intégration et mesures
436 pages
Topologie et Espaces Mathématiques
Pas encore d'évaluation
Topologie et Espaces Mathématiques
72 pages
Cours de Mesure et Intégration L3
100% (1)
Cours de Mesure et Intégration L3
45 pages
Mesures et Probabilités en Mathématiques
Pas encore d'évaluation
Mesures et Probabilités en Mathématiques
521 pages
Cours de mesure et probabilités USTC
Pas encore d'évaluation
Cours de mesure et probabilités USTC
183 pages
Cours Theorie de La Mesure M1-1
Pas encore d'évaluation
Cours Theorie de La Mesure M1-1
36 pages
Integrale Lebesgue
Pas encore d'évaluation
Integrale Lebesgue
161 pages
Theorie de La Mesure
Pas encore d'évaluation
Theorie de La Mesure
17 pages
Cours d'Analyse - Ecole Centrale 2015
Pas encore d'évaluation
Cours d'Analyse - Ecole Centrale 2015
154 pages
Théorie de la mesure et intégration
Pas encore d'évaluation
Théorie de la mesure et intégration
167 pages
Théorie de la mesure et intégration
Pas encore d'évaluation
Théorie de la mesure et intégration
169 pages
Théorie de la mesure et intégration
Pas encore d'évaluation
Théorie de la mesure et intégration
171 pages
Integration
Pas encore d'évaluation
Integration
122 pages
Théorie de la mesure et intégration
100% (2)
Théorie de la mesure et intégration
122 pages
Cours sur la mesure et l'intégration
100% (1)
Cours sur la mesure et l'intégration
77 pages
Intégration et Mesure en Mathématiques
Pas encore d'évaluation
Intégration et Mesure en Mathématiques
126 pages
Intégration et Probabilités en L3 MASS
Pas encore d'évaluation
Intégration et Probabilités en L3 MASS
10 pages
Mesure et Probabilités en Intégration
Pas encore d'évaluation
Mesure et Probabilités en Intégration
499 pages
Topologie et Mesure en Mathématiques
Pas encore d'évaluation
Topologie et Mesure en Mathématiques
148 pages
Intégration et Probabilités : Cours et Exercices
Pas encore d'évaluation
Intégration et Probabilités : Cours et Exercices
105 pages
Théorie de la mesure et intégration
Pas encore d'évaluation
Théorie de la mesure et intégration
83 pages
Cours de Théorie de la Mesure
50% (2)
Cours de Théorie de la Mesure
14 pages
Intégration et probabilités en L3 MASS
Pas encore d'évaluation
Intégration et probabilités en L3 MASS
104 pages
Cours d'Analyse 4 : Fonctions Multivariables
Pas encore d'évaluation
Cours d'Analyse 4 : Fonctions Multivariables
73 pages
Mesure, Intégration et Probabilités
Pas encore d'évaluation
Mesure, Intégration et Probabilités
640 pages
Mesure et Intégration en Mathématiques
Pas encore d'évaluation
Mesure et Intégration en Mathématiques
77 pages
Topologie et Mesure en Mathématiques
100% (1)
Topologie et Mesure en Mathématiques
150 pages
Tmi FB
Pas encore d'évaluation
Tmi FB
182 pages
Intégrale de Lebesgue et Applications
Pas encore d'évaluation
Intégrale de Lebesgue et Applications
88 pages
Théorie de la mesure et intégration
100% (1)
Théorie de la mesure et intégration
73 pages
Algèbre et mesures en théorie des ensembles
Pas encore d'évaluation
Algèbre et mesures en théorie des ensembles
108 pages
Concepts clés en intégration et probabilité
Pas encore d'évaluation
Concepts clés en intégration et probabilité
4 pages
Intégrale de Lebesgue et applications
Pas encore d'évaluation
Intégrale de Lebesgue et applications
89 pages
Intégration et Probabilités : Cours L3
Pas encore d'évaluation
Intégration et Probabilités : Cours L3
104 pages
Notation Grand O en Analyse Mathématique
Pas encore d'évaluation
Notation Grand O en Analyse Mathématique
11 pages
Intégrale de Lebesgue et Fonctions Mesurables
Pas encore d'évaluation
Intégrale de Lebesgue et Fonctions Mesurables
82 pages
Intégration et Espaces de Sobolev Vectoriels
Pas encore d'évaluation
Intégration et Espaces de Sobolev Vectoriels
74 pages
Introduction à la mesure et intégration
Pas encore d'évaluation
Introduction à la mesure et intégration
147 pages
Compléments de topologie et intégration
Pas encore d'évaluation
Compléments de topologie et intégration
413 pages
Compression d'images par DCT et Fourier
Pas encore d'évaluation
Compression d'images par DCT et Fourier
6 pages
Inscription administrative 2025-2026
Pas encore d'évaluation
Inscription administrative 2025-2026
4 pages
Contrat de Mission Temporaire 64145
Pas encore d'évaluation
Contrat de Mission Temporaire 64145
1 page
Groupes et anneaux : Théorèmes et applications
Pas encore d'évaluation
Groupes et anneaux : Théorèmes et applications
33 pages
S5L3MATHS
Pas encore d'évaluation
S5L3MATHS
1 page
Certificat de Scolarité Eise3 2024-2025 Kelly Yann Lionnel Kassin
Pas encore d'évaluation
Certificat de Scolarité Eise3 2024-2025 Kelly Yann Lionnel Kassin
1 page
Attestation CVEC 2025-2026
Pas encore d'évaluation
Attestation CVEC 2025-2026
1 page
Problèmes aux limites et espaces de Sobolev
Pas encore d'évaluation
Problèmes aux limites et espaces de Sobolev
4 pages
Étude des groupes et anneaux Z/nZ
Pas encore d'évaluation
Étude des groupes et anneaux Z/nZ
39 pages
Groupes et anneaux : Exercices et théorèmes
Pas encore d'évaluation
Groupes et anneaux : Exercices et théorèmes
58 pages
Introduction aux groupes et anneaux
Pas encore d'évaluation
Introduction aux groupes et anneaux
37 pages
Tables d'opérations dans Z/nZ
Pas encore d'évaluation
Tables d'opérations dans Z/nZ
34 pages
Billets de train Juan les Pins - Marseille
Pas encore d'évaluation
Billets de train Juan les Pins - Marseille
1 page
Mécanismes de réactions chimiques et cinétique
Pas encore d'évaluation
Mécanismes de réactions chimiques et cinétique
3 pages
Résultats BÉCÉAS 2025 et sujets
Pas encore d'évaluation
Résultats BÉCÉAS 2025 et sujets
8 pages
Exercices sur les fonctions périodiques
Pas encore d'évaluation
Exercices sur les fonctions périodiques
3 pages
Corrigé du concours blanc 2017-2018
Pas encore d'évaluation
Corrigé du concours blanc 2017-2018
3 pages
Équations Différentielles Linéaires
Pas encore d'évaluation
Équations Différentielles Linéaires
10 pages
Concours Medecinee
Pas encore d'évaluation
Concours Medecinee
1 page
Interactions intermoléculaires et forces
Pas encore d'évaluation
Interactions intermoléculaires et forces
32 pages
Modèles de propagation d'information
Pas encore d'évaluation
Modèles de propagation d'information
2 pages
Résolution des équations du 2nd degré
Pas encore d'évaluation
Résolution des équations du 2nd degré
1 page
Examen de Maths de l'Ingénieur L2-S3 2023
Pas encore d'évaluation
Examen de Maths de l'Ingénieur L2-S3 2023
1 page
Statistiques Descriptives et Variabilité
100% (1)
Statistiques Descriptives et Variabilité
85 pages
Méthodes mathématiques en physique
Pas encore d'évaluation
Méthodes mathématiques en physique
186 pages
Intégration et dérivation numériques MATLAB
Pas encore d'évaluation
Intégration et dérivation numériques MATLAB
6 pages
Matrices de projection orthogonale
Pas encore d'évaluation
Matrices de projection orthogonale
5 pages
Asymptotes en gestion de projet
Pas encore d'évaluation
Asymptotes en gestion de projet
28 pages
Évaluation de Mathématiques Bac Sx 1
Pas encore d'évaluation
Évaluation de Mathématiques Bac Sx 1
1 page
Groupes et anneaux en mathématiques
Pas encore d'évaluation
Groupes et anneaux en mathématiques
10 pages
Correction d'Analyse Mathématique 2023-2024
Pas encore d'évaluation
Correction d'Analyse Mathématique 2023-2024
8 pages
Cours sur les Développements Limités
Pas encore d'évaluation
Cours sur les Développements Limités
56 pages
Devoir de Maths 3ème - Lycée Pilote
100% (1)
Devoir de Maths 3ème - Lycée Pilote
2 pages
Relations binaires et leurs propriétés
Pas encore d'évaluation
Relations binaires et leurs propriétés
35 pages
Droites dans le plan : exercices et solutions
Pas encore d'évaluation
Droites dans le plan : exercices et solutions
2 pages
Resume11 Sup Series Fiche
Pas encore d'évaluation
Resume11 Sup Series Fiche
3 pages
Formule de Taylor-Young expliquée
Pas encore d'évaluation
Formule de Taylor-Young expliquée
3 pages
Méthodes Numériques en Analyse Linéaire
Pas encore d'évaluation
Méthodes Numériques en Analyse Linéaire
72 pages
Corrigé du Rallye Maths 2024
Pas encore d'évaluation
Corrigé du Rallye Maths 2024
3 pages
Exercices sur les équations différentielles
Pas encore d'évaluation
Exercices sur les équations différentielles
4 pages
Espace Intégrales Suites
Pas encore d'évaluation
Espace Intégrales Suites
2 pages
Optimisation linéaire : Méthode du simplexe
Pas encore d'évaluation
Optimisation linéaire : Méthode du simplexe
1 page
Démonstration du théorème de Bolzano-Weierstrass
Pas encore d'évaluation
Démonstration du théorème de Bolzano-Weierstrass
1 page
Arbre couvrant minimal et algorithmes
Pas encore d'évaluation
Arbre couvrant minimal et algorithmes
61 pages
Algorithmes de tri en Python
Pas encore d'évaluation
Algorithmes de tri en Python
11 pages
Applications de la diagonalisation
Pas encore d'évaluation
Applications de la diagonalisation
11 pages
Exercices d'électrostatique corrigés S1
Pas encore d'évaluation
Exercices d'électrostatique corrigés S1
4 pages
Épreuve de Mathématiques Probatoire 2007
Pas encore d'évaluation
Épreuve de Mathématiques Probatoire 2007
2 pages
Méthodes de Newton et Sécante en Python
Pas encore d'évaluation
Méthodes de Newton et Sécante en Python
2 pages
Corrigé sur les séries entières
Pas encore d'évaluation
Corrigé sur les séries entières
26 pages