0% ont trouvé ce document utile (0 vote)
7 vues167 pages

Mesures et Probabilités en Mathématiques

Le document traite de la théorie de la mesure et des probabilités, en abordant des concepts clés tels que la dénombrabilité, les tribus, et les mesures. Il présente des définitions et théorèmes essentiels, notamment sur les ensembles mesurables et les fonctions mesurables. La structure est organisée en sections, chacune explorant des aspects fondamentaux de la mesure et de l'intégration.

Transféré par

Hamada Routbi
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
7 vues167 pages

Mesures et Probabilités en Mathématiques

Le document traite de la théorie de la mesure et des probabilités, en abordant des concepts clés tels que la dénombrabilité, les tribus, et les mesures. Il présente des définitions et théorèmes essentiels, notamment sur les ensembles mesurables et les fonctions mesurables. La structure est organisée en sections, chacune explorant des aspects fondamentaux de la mesure et de l'intégration.

Transféré par

Hamada Routbi
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

L.

DECREUSEFOND

MESURE
I N T É G R AT I O N
ET PROBABILITÉS
Table des matières

I Préparation à l’écrit 5

1 Mesures & lois 7


§ 1 Dénombrabilité . . . . . . . . . . . . . . . . . . . . . . . . 7
§ 2 Tribu, mesures, etc. . . . . . . . . . . . . . . . . . . . . . . 8
§ 3 Fonctions mesurables . . . . . . . . . . . . . . . . . . . . . 11
§ 4 Intégration . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2 Variables aléatoires 35
§ 1 De la théorie de la mesure aux probabilités . . . . . . . . 35
§ 2 Calculs de lois . . . . . . . . . . . . . . . . . . . . . . . . . 41
§ 3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
§ 4 Vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . 58

3 Convergences 65
§ 1 Convergence presque-sûre . . . . . . . . . . . . . . . . . . 66
§ 2 Convergence en probabilité . . . . . . . . . . . . . . . . . 67
§ 3 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . 70
§ 4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

4 Modélisation 79
§ 1 Marche aléatoire . . . . . . . . . . . . . . . . . . . . . . . . 79
§ 2 Processus de Poisson . . . . . . . . . . . . . . . . . . . . . 79

II Préparation aux oraux 81

5 Chaînes de Markov 83
§ 1 Version simple . . . . . . . . . . . . . . . . . . . . . . . . . 83
§ 2 Définition et exemples . . . . . . . . . . . . . . . . . . . . 84
§ 3 Propriété de Markov forte . . . . . . . . . . . . . . . . . . 89
§ 4 Classification des états . . . . . . . . . . . . . . . . . . . . 91
§ 5 Mesures et probabilité invariantes . . . . . . . . . . . . . 99
§ 6 Calcul pratique de la probabilité invariante . . . . . . . . 113
4

§ 7 Problèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
§ 8 Notes et commentaires . . . . . . . . . . . . . . . . . . . . 118

6 Espérance Conditionnelle 121


§ 1 Définition et premiers exemples . . . . . . . . . . . . . . 121
§ 2 Propriétés de l’espérance conditionnelle . . . . . . . . . . 122
§ 3 Conditionnement des vecteurs gaussiens . . . . . . . . . 126
§ 4 Cas intégrable . . . . . . . . . . . . . . . . . . . . . . . . . 127
§ 5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
Première partie

Préparation à l’écrit
1
Mesures & lois

§ 1 Dénombrabilité

Ce qui suit sur la dénombrabilité est principalement issu de


Kuttler, Modern Analysis.

Le concept de dénombrabilité joue un rôle primordial en probabi-


lités parce que la notion d’ensemble mesurable est stable par réunion
dénombrable (voir 1.7).
Définition 1.1 Un ensemble est fini s’il est en bijection avec un
certain {1, · · · , n}.

Un ensemble est dit dénombrable s’il est en bijection


Définition 1.2
avec N, l’ensemble des entiers naturels.

 Exemple 1.1 Quelques exemples d’ensembles dénombrables.


— 2N, l’ensemble des entiers pairs, est dénombrable.
— P (N), l’ensemble des parties de N, ne l’est pas. Il est en bijection
avec l’ensemble des réels R. En effet, pour une partie A de N, on
peut définir « la suite indicatrice » 1 A (n) par

1 (n) = 1 si n ∈ A,
A
 = 0 sinon.

Puis é cette suite, on peut associer le réel x A défini par :



xA = ∑ 2− n 1 A ( n ).
n =1

Il est évident que P (N) est alors en bijection avec {0, 1}N . Etant
donné qu’à tout réel entre 0 et 1, on peut associer son développement
diadique, il existe une injection [0, 1] dans {0, 1}N donc P (N) n’est
pas dénombrable.

8 mesure intégration et probabilités

La dénombrabilité est stable par réunion et produit cartésien.

Théorème 1.3Si X et Y sont deux ensembles dénombrables alors


X × Y et X ∪ Y sont dénombrable.

Tout est basé sur le résultat essentiel qui stipule de N × N est en


bijection avec N. La bijection est construite comme indiquée sur la
figure 1.1. Par exemple, l’élément (2, 0) est envoyé sur 3 et l’élément
(0, 2) est envoyé sur 5.

N Figure 1.1: Bijection de N × N avec N.

4
2

N
0 1 3 6

Corollaire 1.4 L’ensemble des entiers relatifs, Z, est dénombrable.

Le théorème suivant est loin d’être trivial.


Théorème 1.5 S’il existe une injection de l’ensemble X dans l’en-
semble Y et une injection de Y dans X alors il existe une bijection
de X dans Y.

Corollaire 1.6 L’ensemble des rationnels, Q est dénombrable.

Démonstration. Il existe évidemment une injection de N dans Q et par


construction de Q, il existe une injection de Q dans Z × Z, qui d’après
le théorème précedent est en bijection avec N. Par conséquent, Q est en
bijection avec N. 

§ 2 Tribu, mesures, etc.

Il était déjà un ouvrage indispensable de mon temps, il l’est


toujours. Pour tout ce qui touche la théorie de la mesure et de l’in-
tégration, Rudin, Analyse Réelle et Complexe est une indémodable
ressource.
mesures & lois 9

Sauf à renoncer à l’axiome du choix, on ne peut pas construire de


mesure sur toutes les parties de n’importe quel espace. Il faut donc
définir l’ensemble des parties « mesurables ». Pour ce faire, on introduit
la notion de tribu. Ensuite seulement, viendra la notion de mesure.
Soit Ω un ensemble. Un sous-ensemble A de P (Ω)
Définition 1.7
est une tribu lorsque les trois conditions suivantes sont vérifiées :
1. ∅ ∈ A,
2. A ∈ A =⇒ Ac ∈ A,
3. Ai ∈ A pour tout i ∈ N =⇒ ∪i Ai ∈ A.
Les éléments d’une tribu sont appelés événements en probabilités
ou (ensembles) mesurables en théorie de la mesure.

Les exemples suivantes sont d’une utilisation constante.


— La tribu grossière est la tribu constituée des seuls éléments ∅ et Ω.
— La tribu la plus fine est la tribu P (Ω).
— Si A1 et A2 sont deux tribus alors A1 ∩ A2 est encore une tribu.
— Pour C ⊂ P (Ω), P (Ω) est une tribu qui contient C donc l’ensemble
des tribus qui contiennent C est non vide. Par conséquent, cet en-
semble a un plus petit élément,au sens de l’intersection : c’est la plus
petite tribu qui contient C . On appelle cette tribu la tribu engendrée
par C , elle est notée σ(C).
Pour un ensemble A de Ω, σ ({ A}) = { A, Ac , ∅, Ω}.
— Sur un ensemble topologique, la tribu borélienne est la tribu en-
gendrée par les ouverts. La tribu borélienne sur R est la plus petite
tribu qui contient les intervalles ouverts de la forme ] a, b[ avec
−∞ ≤ a < b. De même, sur Rk , la tribu borélienne est la plus petite
tribu qui contient les pavés ] a1 , b1 [× . . . ×] ak , bk [.

Définition 1.8Une application µ de A dans R+ est une mesure


lorsqu’elle satisfait les deux propriétés suivantes :
— µ(∅) = 0,
— µ est une application pour σ-additive : pour toute famille
( A j , j ∈ N∗ ) d’éléments de A deux à deux disjoints,
∞ +∞
∑ µ ( A j ).
[
µ( Aj ) = (1.1)
j =1 j =1

Une mesure est dite de probabilité lorsque la masse totale, i.e.,


µ(Ω), vaut 1. Dans ce cas, on parle de mesure de probabilités et
on la note P plutôt que µ.

 Exemple 1.2 L’exemple le plus simple de mesure est donnée par la


10 mesure intégration et probabilités

mesure de Dirac en un point a ∈ Ω :

δa ( A) = 1 si a ∈ A, δa ( A) = 0 sinon.

Dès que Ω n’est pas dénombrable, il est impossible de décrire une


mesure en donnant sa valeur pour tous les ensembles mesurables.
Arrive à notre secours le théorème de classe monotone qui nous dit, en
substance, qu’une mesure est totalement déterminée par sa valeur sur
un ensemble d’ensembles suffisamment riche.
Définition 1.9 Un ensemble C de parties de Ω est un π-système
s’il est stable par intersections finie :

A, B ∈ C =⇒ A ∩ B ∈ C .

En particulier, on montre que


 
n
R = ∪ Ii , n ∈ N∗ , Ii = ( ai , bi )
i =1

où ( a, b) est l’une des quatre intervalles [ a, b], ] a, b], [ a, b[, ] a, b[ est un


π-système de P (R).
Définition 1.10 Un ensemble M de parties de Ω est une classe
monotone si
— Si A et B sont deux éléments de M tels que A ⊂ B alors B\ A
appartient à M,
— toute limite croissante (i.e., réunion d’ensembles inclus les uns
dans les autres) d’éléments de M est dans M.

En particulier, pour deux mesures de probabilité P et Q, l’ensemble

S = { A ∈ P (R), P( A) = Q( A)}

est une classe monotone.


On a le résultat pratique suivant :

Soit C un π-système et M une


Théorème 1.11 — classe monotone.
classe monotone contenant C alors σ(C) ⊂ M.

En conséquence, on en déduit :

Théorème 1.12 Deux mesures qui coïncident sur R sont égales.

Pour identifier une mesure sur R, il faut et il suffit


Corollaire 1.13
que l’on connaisse P(] − ∞, x ]) pour tout réel x.

 Remarque 1Ce résultat s’étend sans changement aux dimensions su-


périeures : pour identifier une probabilité sur Rd , il faut et il suffit que
mesures & lois 11

l’on connaisse
P(] − ∞, x1 ] × . . . ×] − ∞, xd ])

pour tout d-uple ( x1 , · · · , xd ).


Un autre théorème fondamental de la théorie de la mesure est le
suivant :

Théorème 1.14 Il existe une unique mesure sur Rk , notée λ, muni


de la tribu des boréliens, qui coïncident avec la mesure de lon-
gueur/surface/volume sur les pavés, i.e., telle que

λ(] a1 , b1 [× . . .] ak , bk [) = (b1 − a1 ) . . . (bk − ak ).

Cette mesure s’appelle la mesure de Lebesgue.

§ 3 Fonctions mesurables

Les fonctions mesurables sont à la théorie de la mesure ce que les


fonctions continues sont à la topologie.
Une fonction f de (Ω1 , A1 ) dans (Ω2 , A2 ) est me-
Définition 1.15
surable lorsque

f −1 (C ) ∈ A1 pour tout C ∈ A2 .

Par le théorème de classe monotone, on peut se restreindre à prouver


cette propriété pour des éléments C d’une algèbre engendrant la tribu
A2 . Ce qui signifie, que si Ω2 = R et que A2 est la tribu borélienne, on
peut se contenter de le prouver pour les éléments de R (voir ci-dessus).
— Une fonction continue est mesurable.
— La somme, le produit de deux fonctions mesurables sont mesurables.
— La composition de deux fonctions mesurables est mesurable.
— Le suprémum et l’infimum d’une famille de fonctions mesurables
sont mesurables :

sup f n et inf f n sont mesurables.


n n

— Par conséquent, les limites inférieures et supérieures d’une suite de


fonctions sont mesurables.
— En particulier, si une suite de fonctions converge simplement, ses
limites inférieures et supérieures coïncident donc une limite simple
de fonctions mesurables est mesurable.
Ce dernier résultat est très intéressant parce que pour les fonctions
continues, on est assuré de la continuité d’une limite de fonctions
continues que si la convergence est uniforme.
12 mesure intégration et probabilités

Définition 1.16 Une variable aléatoire est une fonction mesurable.

Partant d’un espace mesuré (Ω1 , A1 , µ) et d’une application mesu-


rable f de (Ω1 , A1 , µ) dans (Ω2 , A2 ), il est naturel de se demander
comment se transforme la mesure µ sous l’effet de f . Par exemple, si Ω1
est une plaque inhomogène à laquelle, on fait subir divers traitement,
on peut se demander comment seront réparties les inhomogénéités de
la plaque transformée.
Soit (Ω1 , A1 , µ) un espace mesuré et d’une applica-
Définition 1.17
tion mesurable f de (Ω1 , A1 , µ) dans (Ω2 , A2 ), la mesure image
de µ par f , notée f ∗ µ est définie par :

f ∗ µ( A) = µ( f −1 ( A)) pour tout A ∈ A2 .

Figure 1.2: Mesure image

A P X ( A)=P( X −1 ( A))

X −1 ( A ) X
Ω, P E

 La loi d’une v.a. X de Ω dans Rn , notée P X ,


Remarque 2 — vocabulaire.
est la mesure image de P par X :

P X ( A) = P( X −1 ( A)) = P( X ∈ A) = P(ω : X (ω ) ∈ A),

pour tout A borélien de Rn . Si on avait respecté la notation de la TdM,


on devrait avoir noté P∗ X au lieu de P X .
 Remarque 3 Si µ et ν sont des lois, c’est-à-dire si µ est la loi d’une v.a. X
et ν la loi d’une v.a. Y, ces deux v.a. sont indépendantes si et seulement
si

P(( X, Y ) ∈ A × B) = P( X ∈ A, Y ∈ B) = P( X ∈ A)P(Y ∈ B) = µ( A)ν( B),

autrement dit, d’après (1.3), si et seulement si la loi du couple ( X, Y )


est la mesure produit des lois de chacune des composantes, voir (??).

§ 4 Intégration
mesures & lois 13

Définition 1.18 Une fonction mesurable f : ( E, E ) → R+ est dite


étagée si elle prend un nombre fini de valeurs. On note E l’en-
semble des fonctions étagées.
Soit α1 , · · · , αn les valeurs possibles de f et Ak = { x : f ( x ) =
αk } pour k = 1, · · · , n. On peut toujours écrire
n
f (x) = ∑ α k 1 A k ( x ).
k =1

On remarque que les Ak sont disjoints deux à deux et les αk tous


distincts et non nuls.
Dans la suite, on supposera toujours que la décomposition d’une
fonction étagée est celle là.

Lemme 1.19 Toute fonction mesurable positive est limite simple


croissante de fonctions étagées : f 1 ≤ f 2 ≤ . . . ≤ f n ↑ f .

Démonstration. Pour une fonction positive mesurable, on pose



n si f ( x ) ≥ n
f n (x) =
k2−n si k2−n ≤ f ( x ) < (k + 1)2−n , k ∈ {0, · · · , n2n − 1},

converge simplement vers f .


Soit x fixé, on considère f ( x ) et pour n tel que 2n ≥ f ( x ), on pose

k n = [2n f ( x )] soit 2−n k n ≤ f ( x ) ≤ (k n + 1)2−n .

Par définition de f n , on a f n ( x ) = k n 2−n , donc

f ( x ) − 2− n ≤ f n ( x ) ≤ f ( x )

et par conséquent, on a bien que f n tend vers f pour tout x ∈ E. 

Figure 1.3: Une fonction (en pointillés)


et son approximation par une fonction
étagée. Comme la fonction est très régu-
lière pour les besoins du dessin, les Ai
sont des réunions d’intervalle mais pour
une fonction mesurable quelconque (non
continue), ce ne sera plus le cas.

On peut maintenant définir l’intégrale par rapport à une mesure µ


quelconque.
14 mesure intégration et probabilités

Définition 1.20 L’intégrale de f ∈ E est naturellement définie par


Z n
f dµ = ∑ αi µ ( Ai )
i =1

D’après le lemme 1.19, il est tentant de définir l’intégrale d’une fonction


positive comme la limite des intégrales des fonctions étagées qui l’ap-
prochent. Il resterait à s’assurer que la limite ne dépend pas de la suite
choisie. Pour éviter cet écueil, on définira l’intégrale de la fonction f
par un supremum qui permet de s’affranchir d’une suite approximante
particulière.
Dans ce qui suit, on manipule des fonctions qui valent éventuel-
lement ±∞ en certains points. On est donc obligé de travailler avec
des fonctions à valeurs dans R = R ∪ {±∞}. L’arithmétique dans cet
espace est l’aritheoremétique usuelle selon les conventions suivantes.
— a + (+∞) = +∞, pour tout a ∈ R,
— ∞.0 = 0, i.e. 0 reste absorbant pour la multiplication
— toute série à termes positifs converge dans R, c’est-à-dire vers éven-
tuellement +∞.
Définition 1.21 Pour f mesurable positive, on définit
Z Z 
f dµ = sup g dµ, 0 ≤ g ≤ f ∈ R+ .
g ∈E

Lemme 1.22 Soient a, b ≥ 0 et f , g deux fonctions étagées positives.


Alors Z Z Z
( a f + bg)dµ = a f dµ + b gdµ .

Démonstration. Pour f = 1 A et g = 1 B ,

a f + bg = a1 A\ A∩ B + b1 B\ A∩ B + ( a + b)1 A∩ B .

Par conséquent,
Z
( a f + bg) dµ = aµ( A\ A ∩ B) + bµ( B\ A ∩ B) + ( a + b)µ( A ∩ B)
Z Z
= aµ( A) + bµ( B) = a f dµ + b g dµ.

Le résultat général s’en déduit par récurrence double sur le nombre de


valeurs de f et g. 

Pour une fonction de signe quelconque, on considère

f + ( x ) = max( f ( x ), 0) et f − ( x ) = min(− f ( x ), 0).

Il est évident que

f + + f − = | f | et que f + − f − = f .
mesures & lois 15

L’idée est de définir l’intégrale de f comme la différence des intégrales


de f + et f − . Cela n’est possible que si ces deux quantités sont finies
or ceci est impliqué par la condition que l’intégrale de | f |, qui est bien
définie puisque | f | est positive, soit finie. De cette discussion, on déduit
la définition suivante.
R +
Définition 1.23 Soit f : E → R mesurable telle que f dµ ou
R −
f dµ soit finie, on pose
Z Z Z
f dµ = f + dµ − f − dµ.

f + dµ et f − dµ sont finies.
R R
La fonction est dite µ-intégrable si

Lemme 1.24 Soient f , g deux fonctions mesurable de E → R, dont


les intégrales sont définies. Alors
R R
1. f ≤ g implique f dµ ≤ gdµ.
R R
2. f dµ ≤ | f |dµ.

Démonstration. Étape 1. Supposons 0 ≤ f ≤ g. Toute fonction ϕ étagée


plus petite que f est aussi plus petite que g. On a donc l’inclusion
Z  Z 
ϕdµ : 0 ≤ ϕ ≤ f , ϕ étagée ⊂ ϕdµ : 0 ≤ ϕ ≤ g, ϕ étagée .

Il en découle que le supremum de l’ensemble de gauche est plus petit


R R
que le supremum de l’ensemble de droite, ce qui se lit f dµ ≤ gdµ.
Étape 2. Traitons le cas où f ≤ g sont quelconques. On a f + ≤ g+
et f − ≥ g− , donc, d’après ci-dessus, f + dµ ≤ g+ dµ et f − dµ ≥
R R R
R − R R
g dµ. En soustrayant, f dµ ≤ gdµ.
R R
On a f ≤ | f | donc f dµ ≤ | f |dµ. De même − f ≤ | f |, donc
(− f )dµ ≤ | f |dµ. Or (− f )dµ = (− f )+ dµ − (− f )− dµ = f − dµ −
R R R R R R
R + R R R
f dµ = − f dµ. On a donc − f dµ ≤ | f |dµ, ce qui conclut la
preuve. 

Théorème 1.25 Soient f , f n (n ∈ N) des fonctions mesurables de


E → R+ telles que 0 ≤ f n ↑ f . Alors
Z Z
lim f n dµ = f dµ .
n→∞

R
Démonstration. Pour tout n, f n ≤ f n+1 ≤ f , donc f n dµ est une suite
R R R
croissante majorée par f dµ. Sa limite existe, et lim f n dµ ≤ f dµ. Il
reste à démontrer l’autre inégalité.
Soit une fonction étagée g telle que 0 ≤ g ≤ f . Soit ε > 0 et
p
Bn = { f n ≥ (1 − ε) g}. Décrivons g sous la forme g = ∑i=1 αi 1 Ai .
16 mesure intégration et probabilités

On a :
Z Z Z
f n dµ ≥ f n 1 Bn dµ ≥ (1 − ε) g1 Bn dµ
p
Z
!
= ∑ (1 − ε)αi 1 Ai ∩Bn dµ
i =1
p
= ∑ (1 − ε)αi µ( Ai ∩ Bn ) ,
i =1

où, dans la dernière égalité, on a utilisé la linéarité de l’intégrale pour


les fonctions étagées (Lemme 1.22). Comme Bn ↑ E, µ( Ai ∩ Bn ) tend
vers µ( Ai ) pour tout i, lorsque n → ∞. Par conséquent,
Z p Z
lim f n dµ ≥ (1 − ε) ∑ αi µ( Ai ) = (1 − ε) gdµ .
n→∞
i =1
R R
Cela étant vrai pour tout ε > 0, nous avons limn→∞ f n dµ ≥ gdµ. En
prenant le supremum sur l’ensemble des fonctions g étagées positives
R R
minorant f , on conclut que limn→∞ f n dµ ≥ f dµ. 

 On ne peut pas se passer du (1 − ε) parce que dans le cas


Remarque 4
limite f = g = 1 A , la suite de fonctions f n = (1 − n−1 )1 A satisfait les
hypothèses mais pour ε = 0, An = ∅ pour tout n donc dans ce cas, An
ne tend pas vers A.

Théorème 1.26 — Lemme de Fatou. Soit ( f n , n ≥ 1) une suite de


fonctions (mesurables) positives,
Z Z
lim inf f n dµ ≤ lim inf f n dµ.
n n

Démonstration. Par définition,

lim inf f n ( x ) = sup inf f n ( x ) = lim inf f n ( x ).


n n≥k k n≥k
k

La suite ( gk = infn≥k f n , k ∈ N) est croissante positive donc le théorème


de convergence monotone assure que
Z Z
lim gk dµ = lim gk dµ.
k k

Par conséquent,
Z Z Z Z
lim inf f n dµ = lim inf f n dµ ≤ lim inf f n dµ = lim inf f n dµ.
n k n≥k k n≥k n

La preuve est terminée. 

Si la mesure est finie, on peut évidemment remplacer l’hypothèse de


positivité par l’hypothèse que les f n sont inférieurement bornées. Dans
le cas où toutes les fonctions ne sont pas positives, il faut une contrainte
de domination.
mesures & lois 17

Théorème 1.27 — Convergence dominée. Soit ( f n , n ≥ 1) une suite


de fonctions (mesurables) qui converge simplement vers f . Si de
plus, il existe g telle que
Z
| f n ( x )| ≤ g( x ), pour tout x et g dµ < ∞

alors Z Z Z
lim f n dµ = ( lim f n ) dµ = f dµ.
n→∞ n→∞

Démonstration. Comme | f n | ≤ g et que l’intégrale de g est finie, celle


de | f n | l’est aussi pour tout n entier. D’autre part, g − f n et g + f n sont
mesurables positives et g ± f n tend vers g ± f donc

lim inf g ± f n = g ± f .
n

Appliquons le lemme de Fatou aux deux suite (( g ± f n ), n ≥ 1), on


obtient
Z Z
( g − f ) dµ ≤ lim inf ( g − f n ) dµ
n
Z Z
( g + f ) dµ ≤ lim inf ( g + f n ) dµ.
n

De plus, le lemme de Fatou implique aussi que


Z Z Z Z
| f | dµ = lim inf | f n | dµ ≤ lim inf | f n | dµ ≤ g dµ < +∞,
n n

donc f est intégrable. On peut donc écrire


Z Z Z Z
g dµ − f dµ ≤ g dµ + lim inf (− f n ) dµ
n
Z Z
= g dµ − lim sup f n dµ
n
Z Z Z Z
g dµ + f dµ ≤ g dµ + lim inf f n dµ.
n

On tire de ces inégalités que


Z Z Z
f dµ ≤ lim inf f n dµ ≤ lim sup f n dµ ≤ f dµ,
n n
R
d’où l’on conclut que la suite f n dµ converge et que la limite est
R
f dµ. 

Si on dispose de deux espaces mesurés (Ω1 , A1 , µ) et (Ω2 , A2 , ν),


on veut construire une mesure sur le produit cartésien Ω1 × Ω2 . La
première difficulté à surmonter est la définition de la tribu sur E × F.
Les éléments de A1 × A2 sont les produits cartésiens d’un élément de
A1 et d’un élément de A2 . Comme la réunion de deux rectangles n’est
pas un rectangle, A1 × A2 n’est pas une tribu. Qu’à cela ne tienne, on
18 mesure intégration et probabilités

note A1 ⊗ A2 la plus petite tribu qui contient A1 × A2 et le tour est


joué !
Les deux lemmes suivants se démontrent de manière identique en
utilisant le théorème de classe monotone. Nous ne donnons donc que
la démonstration de l’un d’entre eux.

Lemme 1.28 Soit f une fonction mesurable de (Ω1 × Ω2 , A1 ⊗ A2 )


dans ( E, E ). Pour tout ω1 ∈ Ω1 , la fonction ω2 7→ f (ω1 , ω2 ) est
mesurable de (Ω1 , A2 ) dans ( E, E ).

Lemme 1.29 Soit f une fonction mesurable positive de (Ω1 ×


Ω2 , A1 ⊗ A2 ) dans ( R, B(R)). Soit µ une mesure σ-finie sur
(Ω1 , A1 ). La fonction
Z
ω2 7 → f (ω1 , ω2 ) dµ(ω1 )

est mesurable de (Ω2 , A2 ) dans (R, B(R)).

Démonstration. Si f = 1 A× B avec A ∈ A1 et B ∈ A2 alors


Z
f (ω1 , ω2 ) dµ(ω1 ) = 1 B (ω2 )µ( A).
R
Dans ce cas, comme B ∈ A2 , la fonction ω2 7→ f (., ω2 ) dµ est mesu-
rable de (Ω2 , A2 ) dans (R, B(R)).
Soit
 Z 
M = C ∈ A1 ⊗ A2 , ω2 7→ 1C (ω1 , ω2 ) dµ(ω1 ) est mesurable .

On vient de démontrer que A1 × A2 ⊂ M. D’autre part, M est une


classe monotone. En effet, si les (Cn , n ≥ 1) sont des ensembles crois-
sants appartenant à M, d’après le théorème de convergence monotone,
Z Z
1C (ω1 , ω2 ) dµ(ω1 ) = lim 1Cn (ω1 , ω2 ) dµ(ω1 ). (1.2)
n

Etant donné que toute limite de fonctions mesurables est mesurable,


C appartient à M. Soit maintenant (Cn , n ≥ 1) une suite décroissante
d’éléments de M. Supposons dans un premier temps que µ soit finie.
Dans ce cas, le théorème de convergence dominée implique (1.2) et la
mesurabilité s’ensuit. Si la mesure µ n’est que σ-finie, il existe une suite
(Kl , l ≥ 1) de compacts tels que ∪l Kl = Ω1 et µ(Kl ) < +∞, pour tout
l. On applique alors le raisonnement précédent à µ|Kl donc
Z
ω2 7 → f (ω1 , ω2 ) dµ(ω1 )
Kl

est mesurable. Par convergence monotone, en faisant tendre l vers


R
l’infini, la mesurabilité de f (., ω2 ) dµ s’ensuit.
mesures & lois 19

Par linéarite, le résultat reste vrai pour les fonctions étagées. Par
passage à la limite monotone, le résultat est vrai pour les fonctions f
mesurables positives. 

Théorème 1.30 — Fubini. Soit (Ω1 , A1 , µ1 ) et (Ω2 , A2 , µ2 ) deux


espaces mesurés avec µ1 et µ2 σ-finies. Il existe une unique
mesure, notée µ ⊗ ν, dite mesure produit de µ et ν, sur (Ω1 ×
Ω2 , A1 × A2 ) qui soit telle que

µ1 ⊗ µ2 ( A × B) = µ1 ( A)µ2 ( B), pour tout A ∈ A1 , B ∈ A2 .


(1.3)
Par ailleurs, soit f : Ω1 × Ω2 → R, mesurable, satisfaisant l’une
des deux conditions suivantes :
(1) f est positive.
(2) La fonction f est intégrable par rapport à la mesure µ1 ⊗ µ2 :
Z
| f | dµ1 ⊗ µ2 < +∞.

L’identité suivante est satisfaite :


Z Z 
f (ω1 , ω1 ) dµ2 (ω2 ) dµ1 (ω1 )
Ω1 Ω2
Z Z 
= f (ω1 , ω1 ) dµ1 (ω1 ) dµ2 (ω2 )
Ω2 Ω1
Z
= f d( µ1 ⊗ µ2 ).

L’unicité découle immédiatement du théorème de classe monotone puis-


qu’une mesure est toujours parfaitement caractérisée par ses valeurs
sur un ensemble d’ensembles qui engendrent la tribu.
Soit maintenant, l’application γ

γ : A1 ⊗ A2 7−→ R+
Z Z
C −→ 1C (ω1 , ω2 ) dµ2 (ω2 ) dµ1 (ω1 ).
Ω1 Ω2

Notons que γ est bien définie en vertu des lemmes 1.28 et 1.29. Par
convergence monotone, γ est bien une mesure sur A1 ⊗ A2 : soit
(Cn , n ≥ 1) une suite de mesurables deux à deux disjoints,

1∪n Cn = lim ↑ 1∪k≤n Ck = lim ↑


n n
∑ 1Ck ,
k≤n

donc
Z Z

Ω2
1C (ω1 , ω2 ) dµ2 (ω2 ) = lim ↑
n
∑ 1Ck (ω1 , ω2 ) dµ2 (ω2 ).
k ≤ n Ω2
20 mesure intégration et probabilités

Par conséquent, par convergence monotone, on peut intervertir la limite


en n et l’intégrale en µ1 , d’où

γ(C ) = lim ↑
n
∑ γ(Ck ) = ∑ γ(Cn ).
k≤n n

On note cette mesure µ1 ⊗ µ2 . D’autre part, pour C = A × B avec


A ∈ A1 et B ∈ A2 ,
Z Z
γ( A × B) = 1 A× B (ω1 , ω2 ) dµ2 (ω2 ) dµ1 (ω1 )
Ω1 Ω2

= µ1 ( A ) µ2 ( B )
Z Z
= 1 A× B (ω1 , ω2 ) dµ1 (ω1 ) dµ2 (ω2 ).
Ω2 Ω1

Pour f de la forme 1 A× B , on a donc montré


Z Z
1 A× B (ω1 , ω2 ) dµ2 (ω2 ) dµ1 (ω1 )
Ω1 Ω2
Z Z
= 1 A× B (ω1 , ω2 ) dµ1 (ω1 ) dµ2 (ω2 ).
Ω2 Ω1

Selon le même principe que dans la démonstration du lemme 1.29, on


étend cette identité d’abord aux fonctions indicatrices d’ensemble de
A1 ⊗ A2 , puis aux fonctions étagées positives, aux fonctions positives
et enfin aux fonctions µ1 ⊗ µ2 -intégrables.

Ensembles µ-négligeables
Un ensemble µ-négligeable est un ensemble N ∈ E qui peut être
inclus dans un ensemble mesurable A tel que µ( A) = 0.
Soit f : E → R une fonction mesurable et N un ensemble
Proposition 1.31
µ-négligeable. Alors Z
f 1 N dµ = 0 .

Démonstration. Traitons d’abord le cas où f ≥ 0. Soit g une fonction


p
étagée positive telle que g ≤ f 1 N , disons de la forme g = ∑i=1 αi 1 Ai .
On a gdµ = ∑i αi µ( Ai ). Il est facile de voir que chaque terme de la
R

somme est nulle. En effet, pour i fixé tel que αi 6= 0, on g( x ) = αi > 0


et par construction de g ≤ f 1 N , on a 1 N ( x ) 6= 0. Donc x ∈ N, ce
qui montre que Ai ⊂ N, et donc µ( Ai ) = 0. Toute fonction étagée g
minorant f 1 N est d’intégrale nulle. Donc f 1 N est d’intégrale nulle. On
déduit la propriété dans le cas général en utilisant la décomposition
f 1 N dµ = f + 1 N dµ − f − 1 N dµ = 0.
R R R


Les ensembles mesurables de mesure nulle jouent un rôle particulier


parce qu’ils ne sont pas « visibles » par la mesure même s’ils sont non
vides.
mesures & lois 21

Définition 1.32 — Presque-partout, presque-sûre. On dit d’une pro-


priété qu’elle est vraie µ-presque-partout ou µ-presque-sûrement, en
abrégé µ-p.p. ou µ-p.s, lorsque son complémentaire est de mesure
nulle.

Donnons un exemple. L’écriture “0 ≤ f n ↑ f µ-p.p.” signifie qu’il existe


un ensemble N ∈ E tel que µ( N ) = 0 et tel que pour tout x ∈ E\ N,
f n ( x ) est une suite positive croissante convergeant vers f ( x ).
Soit ( E, E , µ) un espace probabilisé. Soit f une fonction mesurable
positive de µ-intégrale nulle. Pour tout n > 0 et An = { x : f ( x ) >
1/n},
1
Z Z
0= f dµ ≥ f dµ ≥ µ( An ),
An n
donc µ( An ) = 0 pour tout n ≥ 1. Comme ∩n≥1 An = A0 , par mono-
tonie, on obtient µ( A0 ) = 0. On a donc démontré le théorème sui-
vant :
Théorème 1.33 Soit f une fonction mesurable positive, de µ-intégrale
nulle alors f est nulle µ-presque partout.

Mais une fonction nulle « presque partout » n’est pas une fonction nulle.
Par exemple, la fonction indicatrice de Q, l’ensemble des rationnels, est
presque-partout nulle pour la mesure de Lebesgue mais elle est non
nulle sur un ensemble dense !
R
 Remarque 5 Ainsi, l’application f 7 → | f | dµ ne définit pas une norme
1
sur l’espace vectoriel L (µ), car la nullité de l’intégrale n’implique
pas la nullité de la fonction. Afin de construire une norme, il faut
que deux fonctions qui sont égales µ-p.p. soient identifiées comme un
seul et même élément. Formellement, cela revient à définir la relation
d’équivalence suivante.

f est en relation d’égalité p.p. avec g lorsque µ( f 6= g) = 0. On note


f R g.

On définit alors L1 (µ) comme l’ensemble des classes d’équivalence de


la relation R, et l’application qui a toute classe d’équivalence c associe
R
la valeur | f |dµ pour une fonction f quelconque de la classe c définit
bien une norme sur L1 (µ) puisque tous les éléments d’une même classe
d’équivalence ont la même intégrale.
Dans la pratique, travailler avec des classes d’équivalence est fasti-
dieux, on peut continuer de penser les fonctions mesurables comme
des fonctions ordinaires en prenant garde qu’elles ne sont définies qu’à
un ensemble de mesure nulle près.
Cela implique que parler de la valeur d’une fonction mesurable, définie sur
Rn muni de la mesure de Lebesgue, en un point, sans hypothèse de continuité,
n’a aucun sens puisqu’un point est de mesure nulle !
22 mesure intégration et probabilités

Les théorèmes de convergence monotone, Fatou, convergence do-


minée sont valables sans changement à condition de spécifier des
presque-partout chaque fois que nécessaire. Ainsi dans le théorème de
convergence dominée, la convergence de f n vers f peut n’avoir lieu
que µ-p.p. et la relation de domination peut n’être satisfaite qu’à un
ensemble négligeable près.
On peut compléter nos théorèmes fondamentaux par ceux concer-
nant les intégrales (et séries) à paramètres.
 Remarque 6Les plus attentifs remarqueront que le théorème suivant
se distingue de celui que vous connaissez pour l’intégrale de Riemann
en ce qu’il n’est pas nécessaire de vérifier que la fonction dominante et
la fonction limite sont continues !

Théorème 1.34 — Continuité sous le signe somme. Soit I un ouvert de


Rn et { f ( x, t), t ∈ I } une famille de fonctions mesurables telle
que pour tout t ∈ I, f (., t) soit µ-intégrable. Si µ( x )-p.p., t 7→
f ( x, t) est continue sur I, s’il existe G une fonction mesurable
telle que
— µ( x ) p.p., | f ( x, t)| ≤ G ( x ) pour tout t ∈ I,
Z
— G dµ < ∞,
R
alors l’application t 7−→ f ( x, t) dµ( x ) est continue.

Démonstration. Soit (tn , n ≥ 1) une suite d’éléments de I qui tend vers


t. Alors, on a évidemment
Z Z Z
f ( x, t) dµ( x ) − f ( x, tn ) dµ( x ) ≤ | f ( x, t) − f ( x, tn )| dµ( x ).
E

Les assertions suivantes sont immédiates :


— gn : x 7→ | f ( x, t) − f ( x, tn )| est mesurable ;
n→∞
— gn ( x ) = | f ( x, t) − f ( x, tn )| −−−→ 0, µ-p.p. ;
— | gn ( x )| = | f ( x, t) − f ( x, tn )| ≤ 2 G ( x ), µ-p.p. ;
G dµ < ∞ ;
R

donc on peut appliquer le théorème de convergence dominée à gn , ce
qui induit que

n→∞
Z
| f ( x, t) − f ( x, tn )| dµ( x ) −−−→ 0.
E

D’où le résultat. 

Une preuve similaire permet d’obtenir le résultat de dérivation sous le


signe « somme ».
mesures & lois 23

Théorème 1.35 Soit I un ouvert de Rn et { f ( x, t), t ∈ I } une


famille de fonctions mesurables telles que pour tout t ∈ I, f (., t)
soit µ-intégrable. Si t 7→ f ( x, t) est dérivable sur I, dµ p.p., s’il
existe G ( x ) une fonction mesurable telle que
d
— µ p.p., | dt f ( x, t)| ≤ G ( x ) pour tout t ∈ I,
Z
— G dµ < ∞,
alors l’application

I −→ R
Z
t 7−→ f ( x, t) dµ( x )

est dérivable sur I et


d d
Z Z
f ( x, t) dµ = f ( x, t) dµ( x ).
dt dt

Espaces L p
Pour p ∈ [1, ∞[, l’espace L p (µ) est l’espace des
Définition 1.36
fonctions mesurables (définies à un ensemble µ négligeable près)
telles que Z
| f | p dµ < ∞.

On en fait un espace normé en posant


Z 1/p
k f kp= | f | p dµ .

Définition 1.37 Pour une fonction mesurable f , on définit son sup-


essentiel par

ess-sup f = inf{ M, | f ( x )| ≤ M µ − p.p.}.

Une fonction dont le sup-essentiel est fini appartient à L∞ (µ) et

k f k∞ = ess-sup f .

Si l’on instancie µ en la mesure de comptage sur E = N ou Z on parle


plus volontiers de suite que de fonctions et on note l p (N), respective-
ment l p (Z), l’ensemble des suites p-sommables : les suites de terme
général un indexées par N ou Z telles que

∑ |un | p < ∞.
n

On a souvent besoin de majorations d’intégrales : pour p ∈ [1, ∞],


24 mesure intégration et probabilités

on définit son conjugué, souvent noté q par

1 1
+ = 1.
p q

Le conjugué de 2 est lui-même, celui de 1 est +∞ et celui d’un nombre


supérieur à 2 est inférieur à 2. De plus le biconjugué de p est égal
à p.

Soit µ une mesure de proba-


Théorème 1.38 — Inégalité de Jensen.
bilité. Soit φ une fonction convexe réelle et f une fonction µ
intégrable, Z Z
φ( f dµ) ≤ φ( f ) dµ.

Démonstration. La fonction φ est convexe donc son graphe est en tout


point au dessus de ses droites de contact. On applique ce résultat aux
R
points t = f dµ et s = f ( x ).
 
φ f ( x ) ≥ φ(t) + α( f ( x ) − t)

pour un certain α. En intégrant cette relation par rapport à µ on obtient


Z Z Z Z 
φ ◦ f dµ ≥ φ(t) dµ + α f dµ − t f dµ .
E E E E

Le fait que µ soit une mesure de probabilités joue un rôle fondamental


parce que c’est ce qui permet de simplifier le terme de droite en φ(t),
d’où le résultat. 

La démonstration de l’inégalité de Hölder n’est pas la plus simple


mais elle montre comment elle peut se déduire de l’inégalité de
Jense et est donc une conséquence de la convexité. C’est l’approche
utilisée dans Lieb et Loss, Analysis.

Théorème 1.39 — Inégalités de Hölder. Soit p ∈]1, ∞ [ et q = p ( p −


1)−1 , soient f ∈ L p (µ) et g ∈ Lq (µ), on a
Z Z Z 1/p Z 1/q
f g dµ ≤ | f | | g| dµ ≤ | f | p dµ | g|q dµ ,

avec égalité ssi il existe une constante λ telle que f ( x ) = λg( x ),


µ-p.p..

Démonstration. On peut toujours supposer f et g positives et appar-


tenant respectivement à L p et Lq (sinon il n’y a rien à prouver). Soit
A = { x, g( x > 0)}. Comme l’intégrale de f g sur E est égale à l’intégrale
mesures & lois 25

sur A, on peut se contenter de supposer que E = A. Posons,


Z  −1
q
dν( x ) = g dµ g( x )q dµ( x )

F ( x ) = f ( x ) g( x )−q/p
φ(t) = |t| p .

L’inégalité de Jensen donne


Z p
1
R p f ( x ) g( x )−q/p g( x )q dµ( x )
( gq dµ)
1
Z
≤ R q f ( x ) p g( x )−q g( x )q dµ( x ).
( g dµ)

D’où le résultat après simplification. 

Soit E et F deux
Théorème 1.40 — Inégalité de Minkowski vectorielle.
espaces munis de mesures µ et ν supposées σ-finies. Soit f :
E × F −→ R+ mesurable. Pour 1 ≤ p < ∞,

Z Z 1/p
p
f ( x, y) dµ( x ) dν(y)
F E
Z Z 1/p
≥ ( f ( x, y) dν(y)) p dµ( x ) . (1.4)
E F

Avant d’en faire la démonstration, donnons tout de suite le corollaire


principal usuellement appelé inégalité de Minkowski.

Corollaire 1.41 Soit f et g deux éléments de L p ,

k f + gk p ≤ k f k p +k gk p .

Démonstration. Appliquons le résultat précédent avec dnu( x ) = δ1 ( x ) +


δ2 ( x ) et
f ( x, 1) = f ( x ) et f ( x, 2) = g( x ).

On a d’une part,
Z Z 1/p
p
f ( x, y) dµ( x ) dν(y) = k f k p +k gk p ,
F E

et d’autre part,
Z Z 1/p
p
( f ( x, y) dν(y)) dµ( x ) = k f + gk p .
E F


26 mesure intégration et probabilités

Preuve du théorème 1.40. Posons


Z
H (x) = f ( x, y) dν(y).
F

On suppose que le terme de gauche est fini sinon on tronque f et


l’espace d’intégration puis on conclut par convergence monotone gré¢ce
à la σ-finitude. On part de
Z Z
H ( x ) p dµ( x ) = H ( x ) H ( x ) p−1 dµ( x )
E E
Z Z 
p −1
= f ( x, y) H ( x ) dµ( x ) dν(y),
F E

d’après Fubini. On applique l’inégalité de Hölder dans l’intégrale inté-


rieure. D’où
Z
H ( x ) p dµ( x )
E
Z Z 1/p Z 1/q
p q ( p −1)
≤ f ( x, y) dµ( x ) H (x) dµ( x ) dν(y).
F E E

On remarque que q( p − 1) = p donc


Z
H ( x ) p dµ( x )
E
Z 1/q Z Z 1/p
≤ H ( x ) p dµ( x ) f ( x, y) p dµ( x ) dν(y).
E F E

On conclut en remarquant que 1 − 1/q = 1/p. 

Exercice 1.1 On considère la fonction

f : [0, 1] × [0, 1] −→ R
x 2 − y2
( x, y) 7−→ ·
( x 2 + y2 )2

1. Montrer que si le théorème de Fubini est applicable alors


nécessairement cette intégrale est nulle.
2. En faisant les calculs explicites des intégrales partielles, montrer
que l’on n’obtient pas le même résultat.
3. Montrer enfin, en utilisant Fubini-Tonelli, que la fonction étu-
diée n’est pas de module intégrable.


Cet exercice peut se retrouver dans l’exemple


Exercice 1.2
18.4 de Billingsley, Probability and Measure.
mesures & lois 27

Soit la fonction

f : [0, a] × R+ −→ R
( x, y) 7−→ e− xy sin x.

1. Montrer que f est intégrable.


2. En utilisant le théorème de Fubini, montrer que
Z ∞ − ay Z ∞
ye− ay
Z a
sin x π e
dx = − cos a dy − sin a dy.
0 x 2 0 1 + y2 0 1 + y2

3. En déduire que
Z a
sin x π 2
dx − ≤ ·
0 x 2 a


Exercice 1.3 — Lemme de Lebesgue.

1. Montrer que
Z b
t→∞
sin(tx ) dx −−→ 0.
a

Soit f une fonction de L1 (R). On admet que l’ensemble des


fonctions continues à support compact est dense dans L1 .
2. Déduire de la question précédente que

t→∞
Z
f ( x ) sin(tx ) dx −−→ 0.
R

Exercice 1.4 On rappelle que

N
1 N →∞
∑ k
− ln N −−−→ γ
k =1

où γ est la constante d’Euler qui vaut approximativement

γ = 0, 5772156649015328606 . . .

On considère la fonction f définie par

f : ]0, 1[ −→ R
 
1 1
x 7−→ − ·
x x
28 mesure intégration et probabilités

1. Montrer que f mesurable et qu’elle est intégrable sur ]0, 1[.


2. Montrer que
Z 1 ∞  
k+1 1
0
f ( x ) dx = ∑ ln k

k+1
·
k =1

3. En déduire que
Z 1
f ( x ) dx = 1 − γ.
0


Cet exercice d’un énoncé


Exercice 1.5 — Intégrale fractionnaire.
de l’épreuve d’Analyse et Probabilités de l’agrégation 2014.
La référence pour tout le calcul fractionnaire est le livre
Samko, Kilbas et Marichev, Fractional Integrals and Deri-
vatives.
Pour a > 0 et f ∈ L1 (R+ ), on pose
Z t
1
I a f (t) = (t − s) a−1 f (s) ds
Γ( a) 0

1. Montrer que pour tout T > 0,


Z TZ t
(t − s) a−1 | f (s)| ds dt < ∞.
0 0

2. En déduire que I a f est une fonction localement intégrable sur


R+ .
3. Montrer que pour tout a, b > 0,

I a ◦ I b = I a+b .

Indication : on pourra admettre la relation

Γ( a)Γ(b)
Z 1
= t a−1 (1 − t)b−1 dt.
Γ( a + b) 0

4. Montrer que I α est continue de C dans C 1 .


5. Montrer qu’entre ces deux espaces, I α est injectif.
La question suivante ne faisait pas partie de l’énoncé, on peut
donc supposer que les théorèmes de classe monotone sont consi-
dérés comme hors programme.
6. En utilisant le théorème de classe monotone, montrer que I α
est injectif de L1 dans C .

mesures & lois 29

Exercice 1.6La partie sur le mélange est dans les pages 32 et


suivantes de de Coudène, Théorie ergodique et systèmes dyna-
miques. La partie spécifique à la suite logistique se retrouve
page 77 et suivantes.
La suite récurrente x = ( xn , n ≥ 0) définie par

x0 ∈]0, 1[, xn+1 = 4xn (1 − xn ),

appartient à la classe des systèmes dynamiques dits chaotiques.


En effet, si l’on part d’une condition initiale quelconque, l’orbite
(la suite des valeurs prises par la suite pour une condition ini-
tiale donnée) présente de façon évidente un caractère hautement
erratique.
Qui plus est, pour des conditions initiales très proches, les
orbites sont proches au début mais finissent par se séparer fran-
chement au bout de quelques itérations.
Ce comportement est en partie dû au fait qu’à l’intersection de
la première bissectrice et de la courbe représentative de f ( x ) =
4x (1 − x ), la dérivée est en module supérieure à 1 donc le potentiel
point fixe x = 3/4 est de type répulsif : f 0 (3/4) = −2.
On ne peut donc rien dire de déterministe sur le comporte-
ment asymptotique de cette suite. En revanche, on peut essayer
de voir ce que sont les « zones » de [0, 1] qu’elle visite le plus
fréquemment, c’est-à-dire de regarder

N
1
µ̂([ a, b]) = lim
N →∞ N ∑ 1[a,b] (xn )
n =1

pour tous les intervalles [ a, b]. Cette quantité correspond à la


fréquence empirique des passages dans l’intervalle [ a, b]. Si l’on
fait l’analogie avec les temps de séjour dans un état d’une chaé®ne
de Markov, µ̂ doit se comporter comme une mesure sur [0, 1].
L’objectif de cet exercice est de montrer que c’est bien le cas et
d’identifier au passage la dite mesure. Comme les techniques
mises en place relèvent de ce que l’on appelle la théorie ergodique,
les premières questions sont génériques et s’appliquent à de
nombreux autres systèmes dynamiques.
Soit ( E, E , P) un espace probabilisé et T une application mesu-
rable de E dans lui-même. On suppose que P est invariante par
T, c’est-à-dire que

P( T −1 ( A)) = P( A) pour tout A ∈ E .


30 mesure intégration et probabilités

a) Montrer que l’ensemble des mesurables invariants par T, c’est-


à-dire qui vérifie T −1 ( A) = A, est une tribu (notée I par la
suite).
b) Soit f une fonction mesurable de E dans R. Montrer que si f est
invariante par T (c’est-à-dire f ◦ T = f ) alors f est mesurable
de ( E, I) dans (R, B(R)).
Le système dynamique ( E, T, P) est dit ergodique lorsque

I ⊂ σ{ A ⊂ E , P( A) = 0 ou P( A) = 1}.

3. Montrer que ( E, T, P) est ergodique si et seulement si les fonc-


tions invariantes par T sont constantes presque partout.
On dit que T est mélangeante si et seulement si pour tout couple
f , g d’éléments de L2 (P),
Z Z Z
lim f ◦ T n g dP = f dP g dP. (1.5)
n→+∞ E E E

4. Montrer que si T est mélangeante alors ( E, T ) est ergodique.


5. Montrer pour f ∈ L2 (P), pour tout entier n ≥ 1,
Z Z
f ◦ T n dP = f dP. (1.6)
E E

6. Montrer que si la condition de mélange (1.5) est vérifiée pour


f , g appartenant à un sous-ensemble dense de L2 (P) alors T
est mélangeante.
On veut maintenant étudier le système dynamique donnée par
l’équation d’évolution :

xna +1 = T ( xna ) où T ( x ) = 4x (1 − x ), x0a = a ∈ [0, 1].

On veut montrer en particulier que pour presque tout a ∈ [0, 1],

1 n Z 1 √ √
lim
n→+∞ n ∑ f ( x aj ) =
0
f (u)(π u 1 − u)−1 du.
j =0

On admet le théorème de Birkhoff qui stipule que si ( E, T, P) est un


système ergodique alors
n
1
Z
lim
n→+∞ n ∑ f ◦ T j (x) =
E
f dP (1.7)
j =0

pour presque tout x. Il nous faut donc trouver une mesure inva-
riante µ par T et montrer que le système dynamique ([0, 1], T, µ)
mesures & lois 31

est ergodique. Pour ce faire on considère un autre système dyna-


mique :

E1 = [0, 1[, T1 x = 2x si 0 ≤ x ≤ 1/2,


T1 ( x ) = 2 − 2x pour 1/2 ≤ x < 1.

(où [ x ] est la partie entière de x) muni de la mesure de Lebesgue


sur [0, 1[, notée λ.
7. Montrer que λ est invariante par T1 .
8. En admettant (ou se souvenant, cf. séries de Fourier) que la
famille de fonctions ek ( x ) = exp(2iπkx ) pour k ∈ Z est une
famille dense de L2 (dλ), montrer que T1 est mélangeante.
Soit Θ l’application de E1 dans [0, 1] définie par :

Θ( x ) = sin2 (πx/2).

9. Identifier µ la mesure image de λ par Θ.


10. Montrer que ([0, 1[, T, µ) est ergodique et conclure.


Exercice 1.7 — Inégalité de Hölder généralisée. Soit p, q, r tels que

1 1 1
= + ·.
r p q

1. Montrer que
k f g kr ≤ k f k p k g k q .

Exercice 1.8 Soit f ∈ L∞ ∩ L1 .


1. Etablir que
Z
p −1
(k f k∞ −ε) p µ(| f | > k f k∞ −ε) ≤ | f | p dµ ≤ k f k∞ k f k1 .

2. Montrer que
lim k f k p = k f k∞ .
p→∞

Exercice 1.9 — Inégalité de Hardy. Soit p > 1 et f ∈ L p (R+ , `). On


32 mesure intégration et probabilités

pose
Z x
1
F(x) = f (t) dt
x 0
On veut établir l’identité
p
k Fk p ≤ k f kp. (1.8)
p−1

1. Montrer que
Z x Z 1
1
f (t) dt = f (sx ) ds.
x 0 0

2. En utilisant l’inégalité intégrale de Minkowski, établir le résul-


tat.
3. Montrer que la constante p/( p − 1) est optimale.
Considérer la fonction f ( x ) = x −1/p 1[1/A,A] ( x ).


On peut retrouver cette


Exercice 1.10 — Inégalité de Clarkson.
démonstration dans le théorème IV.10 de Brézis, Analyse
Fonctionnelle.
On suppose p ≥ 2.
1. Montrer que pour x, y ≥ 0,
  p/2
x p + y p ≤ x 2 + y2 .

Indication : on pourra considérer la fonction f (t) = (t2 + 1) p/2 −


t p − 1.
2. En déduire que
p p
a+b a−b 1 p 1 p
+ ≤ | a| + |b| .
2 2 2 2

3. En déduire que
p p
1 1 1 p 1 p
( f + g) + ( f − g) ≤ k f k p + k gk p . (1.9)
2 p 2 p 2 2

Soit ( f n , n ≥ 1) et gn , n ≥ 1 deux suite d’éléments de L p telles


que
— ∀n ≥ 1, k f n k p≤1 et k gn k p≤1 ,
n→∞
— k f n + gn k p −−−→ 2.
mesures & lois 33

n→∞
4. Montrer que k f n − gn k p −−−→ 0.

2
Variables aléatoires

Bourbaki s’est écarté des probabilités,


les a rejetées, les a considérées comme
non rigoureuses et, par son influence
considérable, a dirigé la jeunesse hors
du sentier des probabilités.
Laurent Schwartz.

Presque tout probabiliste a commis un jour ou l’autre son livre


de cours de probabilités. Ils ont tous un parti pris différent selon
que le public visé connaît la théorie de la mesure ou pas, n’est
intéressé que par les probabilités dites élémentaires ou vise une
plus grande maîtrise, etc.
On trouvera une foule d’exercices dans Grimmett et Stirzaker,
Probability and Random Processes. Pour une approche plus abstraite,
on pourra regarder Jacod et Protter, Probability Essentials.
Il y en a d’autres mais ils sont manifestement épuisés.

§ 1 De la théorie de la mesure aux probabilités

Stricto sensu, pour faire des probabilités, il suffit d’une mesure de


probabilités c’est-à-dire d’une mesure de masse totale égale à 1. Il y a
juste un changement de notations à opérer par rapport aux notations
de la théorie de la mesure :

- L’espace noté E précédemment devient Ω et est appelé l’espace des


événements ou l’univers des possibles,
- Les éléments de la tribu A sont appelés des événements plutôt que
des mesurables,
- La mesure, nécessairement finie, est notée P ou Q au lieu de µ et ν,
- On dire d’une propriété qu’elle est vraie presque partout si elle est
vraie en dehors d’un ensemble P-négligeable,
36 mesure intégration et probabilités

- La différence la plus sensible apparaît au niveau de l’intégrale. Les


fonctions mesurables deviennent des variables aléatoires, notées
exclusivement par des lettres majuscules X, Y, etc. Les intégrales
sont appelées espérances :
Z
E [ X ] := X (ω ) dP(ω ).

Il y a cependant deux nouveaux concepts propres aux probabilités :


la notion de loi de variable aléatoire et l’indépendance.
Comme on l’a vu, une variable aléatoire X de (Ω, A, P) à valeurs
dans (Rd , B(Rd )) n’est rien d’autre qu’une fonction mesurable. La seule
information que l’on ait sur une variable aléatoire est la probabilité que
ses valeurs soit dans un sous-ensemble donné de Rd : on ne connaît
(ou l’on ne cherche) que

P( X ∈ A) pour tout A ∈ B(Rd ).

Ce qui nous amène à la définition de la loi de X.


La loi d’une variable aléatoire (ou la mesure image
Définition 2.1
de P par X) est la mesure de probabilités P X sur (Rd , B(Rd ))
définie par

∀ A ∈ B(Rd ), P X ( A) = P( X ∈ A)
= P(ω, X (ω ) ∈ A)
 
= P X −1 ( A ) .

 Le fait que P X soit une mesure de probabilités est une


Remarque 7
conséquence directe des propriétés des images réciproques :
 
∞ ∞
X −1  X −1 ( A j ).
[ [
Aj  =
j =1 j =1

Le résultat le plus utile est alors le théorème de transfert qui permet de


calculer une intégrale sur Ω comme une intégrale sur Rd .

Théorème 2.2 — Théorème de transfert. Soit f : Rd → R. Si f est à


valeurs positives alors
Z Z
E [ f ( X )] := f ( X ) dP = f ( x ) dP X ( x ) ∈ R+ ∪ {+∞}.
Ω Rd

Si f prend ses valeurs sur tout R, f ∈ L1 (Rd , P X ) si

E [| f ( X )|] < ∞
variables aléatoires 37

et alors Z
E [ f ( X )] = f ( x ) dP X ( x ). (2.1)
Rd

Démonstration. Soit A ∈ B(Rd ), l’application 1 A ◦ X est la composée


de deux fonctions mesurables donc mesurable. En vérifiant sur tous les
cas possibles, on voit que

1 A ◦ X = 1 A ( X ) = 1 X −1 ( A ) .

Par construction de l’intégrale


Z  
E [1 A ◦ X ] := 1 A ◦ X dP = P X −1 ( A) .

Par définition de la mesure image


 
P X −1 ( A ) = P X ( A ).

Par définition de l’intégrale par rapport à la mesure P X


Z
P X ( A) = 1 A dP X .
Rd

Par conséquent,
Z Z
1 A ( X ) dP := E [1 A ( X )] = 1 A dP X .
Ω Rd

Par linéarité, (2.1) est vraie pour les fonctions étagées puis par limite
monotone pour toutes les fonctions mesurables positives. Enfin, en
décomposant f en f + − f − , on obtient le résultat pour tout f mesurable.


 Remarque 8 On retiendra de la preuve, l’identité


Z
E [1 A ( X )] = dP X = P X ( A). (2.2)
A

 Remarque 9Les calculs d’espérance ne nécessite donc en fait que la


connaissance de P X et pas celle de P. On est donc ramené à travailler
avec des mesures sur des espaces bien connus que sont N, R ou Rd .
Dans un premier temps, on se moque de la construction du fameux
univers des possibles parce qu’il n’apparaît jamais dans les calculs. On
a juste besoin de savoir qu’il existe, ce qui peut ne pas être évident mais
seulement dans des cas hors du programme de l’agrégation.
Exemple 2.1 — Variables aléatoires discrètes. Si X ne prend qu’un nombre
au plus dénombrable de valeurs, P X ne charge qu’un nombre (au plus)
dénombrable de points donc caractériser P X revient à connaître

P X ({ x }) = P( X = x ), ∀ x ∈ X (Ω).
38 mesure intégration et probabilités

Par ailleurs, pour A ⊂ Rd ,

X ∈ A ⇐⇒ X ∈ A ∩ X (Ω) = { x, x ∈ X (Ω) et x ∈ A}.


[

Par conséquent,

P X ( A) = P( X ∈ A) = ∑ P( X = x ) (2.3)
x ∈ X (Ω)∩ A

et
E [ f ( X )] = ∑ f ( x ) P ( X = x ), (2.4)
x ∈ X (Ω)

i.e. on fait la somme sur toutes les valeurs possibles de X de f évaluée


en cette valeur multiplié par la probabilités que X vaille cette valeur.
On peut résumer formellement les identités (2.3) et (2.4) par

PX = ∑ P( X = x ) δx ,
x ∈ X (Ω)

où δx est la masse de Dirac en x. 

Soit X une variable aléatoire à valeurs dans R, sa loi P X est une


mesure sur R. On sait qu’elle est totalement caractérisée par les valeurs
de P X (] − ∞, b]) pour b parcourant R.
Définition 2.3 Soit X une variable aléatoire réelle, la fonction

FX : R −→ [0, 1]
x 7−→ P X (] − ∞, x ]) = P( X ≤ x )

s’appelle la fonction de répartition de X.

Lemme 2.4 En vertu des propriétés de monotonie des mesures,


FX possède les propriétés suivantes :
i) limx→−∞ FX ( x ) = 0,
ii) limx→+∞ FX ( x ) = 1,
iii) FX est croissante, continue à droite, i.e., limy↓ x FX (y) = FX ( x ).

On a, d’après les propriétés de monotonie des mesures,



[ 1 
FX ( x− ) = lim P ] − ∞, x − ] = P X (] − ∞, x [).
n→+∞ n
n =1

Par conséquent, FX ( x− ) = P X (] − ∞, x [) et donc

FX ( x ) − FX ( x− ) = P( X = x ).

En d’autres termes, si FX est continue en x, P( X = x ) = 0.


variables aléatoires 39

Lemme 2.5 Le nombre de points de discontinuité d’une fonction


de répartition est au plus dénombrable.

Soit { xn , n ∈ N∗ } les points de discontinuité de FX . On peut alors


parler de FXc , la régularisée de FX :
∞  
FXc ( x ) = FX ( x ) − ∑ FX ( xn ) − FX ( xn− ) 1[ xn , +∞[ ( x ).
n =1

= FX ( x ) − ∑ ∆FX (x)1[xn , +∞[ (x).
n =1

La fonction FXc est continue et croissante par définition. Elle est d’après
un théorème de Lebesgue, dérivable sauf sur un ensemble de mesure
de Lebesgue nulle. Dans la suite, nous ne nous préoccuperons pas de
savoir ce qui se passe si elle n’est pas dérivable en tout point.

Théorème 2.6 Soit X une variable aléatoire réelle de fonction de


répartition FX . Si FXc est dérivable sur R, alors

dP X ( x ) = ∑ ∆FX (xn ) dδxn + ( FXc )0 (x) dx. (2.5)
n =1

Si FX est continue alors

dP X ( x ) = ( FXc )0 ( x ) dx

et ( FXc )0 s’appelle la densité de la loi de X.

Démonstration. Remarquons que

1[ xn , +∞[ ( x ) = δxn (] − ∞, x ]),

puisque le terme de gauche ne vaut 1 que si x ≥ xn , soit de manière


équivalente xn ∈] − ∞, x ]. Partant de l’écriture,

FX ( x ) = FXc ( x ) + ∑ ∆FX (x)1[xn , +∞[ (x),
n =1

si FXc est dérivable en tout point alors on a


Z x ∞
P( X ∈] − ∞, x ]) =
−∞
( FXc )0 (s) ds + ∑ ∆FX (xn )δxn (] − ∞, x]).
n =1

Les deux mesures de part et d’autre de l’égalité (2.5) coïncident donc


sur les ensembles de la forme ] − ∞, x ] pour tout x réel. C’est suffisant
pour assurer que ces deux mesures sont égales. 

L’autre élément est la notion d’indépendance, qui est intimement


liée à celle de mesure produit.
Si la variable aléatoire X = ( X1 , X2 ) est à valeurs dans R2 , on a trois
mesures qui apparaissent :
40 mesure intégration et probabilités

- La loi de X, notée P X qui est une mesure de probabilités sur R2 ,


- Les lois dites marginales de X1 et X2 , notées respectivement P X1 et
P X2 , qui sont des mesures sur R.
On peut calculer les lois marginales de X1 et X2 à partir de celle de X
puisque pour A ∈ B(R),

P( X1 ∈ A) = P( X1 ∈ A, X2 ∈ R) = P X ( A × R).

En revanche, on ne peut pas forcément calculer la loi de X à partir des


lois marginales. Le seul où l’on peut le faire est celui où les variables
sont indépendantes :
Deux variables aléatoires X et Y à valeurs respec-
Définition 2.7
tivement dans Rd et R p sont indépendantes si et seulement si
l’une (et donc toutes) des propositions équivalentes suivantes est
vérifiée
i) La mesure du couple ( X, Y ) est la mesure produit de P X
et PY :
P(X,Y ) = P X ⊗ PY .

ii) Pour tout A ∈ B(Rd ) et tout B ∈ B(R p ),

P( X ∈ A, Y ∈ B) = P( X ∈ A)P(Y ∈ B).

iii) Pour toutes fonctions f ∈ L1 (P X ), g ∈ L1 (PY ),

E [ f ( X ) g(Y )] = E [ f ( X )] E [ g(Y )] .

- Il n’y a qu’une seule façon d’être indépendant, il y en a plein d’être


dépendant.
Le cas plus dégénéré est quand X = Y alors P(X,X ) est concentré sur
la diagonale de Rd × Rd tandis que si les variables sont indépendantes,
le support de P(X,Y ) est le produit cartésien des supports.
On peut définir la notion d’indépendance pour plus que deux va-
riables aléatoires.
Les variables aléatoires ( X1 , · · · , Xn ) sont indépen-
Définition 2.8
dantes dans leur ensemble ssi l’une des propriétés équivalentes
suivantes est vérifiée :
i) La mesure du n-uple est la mesure produit

P( x1 ,··· ,Xn ) = P X1 ⊗ . . . ⊗ P Xn .

ii) Pour toutes fonctions f i ∈ L1 (P Xi ),


" #
n n
∏ f j (Xj ) = ∏ E f j (Xj ) .
 
E
j =1 j =1
variables aléatoires 41

iii) Pour tout Ai ∈ B(Rdi ),


n
P ( X ∈ A1 × . . . × A n ) = ∏ P ( X j ∈ A j ).
j =1

Une famille infinie de variables aléatoires ( Xi , i ≥ 1) sont


indépendantes dans leur ensemble lorsque toute sous-famille
finie est composée de variables aléatoires indépendantes.

Soit X de loi uniforme sur {0, 1} et Z de loi uniforme


Exercice 2.1
sur {−1, +1} indépendante de X. Soit Y = ZX. Montrer que X
et Y sont décorrélées mais ne sont pas indépendantes. 

§ 2 Calculs de lois
Définition 2.9 Un vecteur aléatoire (ou variable aléatoire vecto-
rielle) est une application mesurable de (Ω, A, P) dans Rn , c’est-
à-dire telle que

( X ∈] − ∞, x1 ] × . . . ×] − ∞, xn ]) ∈ A,

pour tout n-uple ( x1 , · · · , xn ).

Sa loi est la mesure image de P par X et sa fonction de répartition est


donnée par

FX ( x1 , · · · , xn ) = P( X ∈] − ∞, x1 ] × . . . ×] − ∞, xn ])
= P ( X1 ≤ x 1 , · · · , X n ≤ x n )

où l’on a noté X1 , · · · , Xn les composantes de X, qui sont bien évidem-


ment des variables aléatoires réelles. La loi d’un vecteur à n compo-
santes est une mesure sur Rn . Cette loi est dite à densité lorsqu’il existe
f X : Rn −→ R+ telle que pour toute h continue borné de Rn dans R,
Z
E [h( X1 , · · · , Xn )] = h( x1 , · · · , xn ) f X ( x1 , · · · , xn ) dx1 . . . dxn .
Rn

Les lois des Xi pour chaque i ∈ {1, · · · , n} sont


Définition 2.10
appelées les lois marginales.

 Remarque 10 Si l’on connaît la loi d’un vecteur aléatoire X à valeurs


dans Rn , on peut calculer toutes les lois marginales, car

P( Xi ∈] − ∞, b]) = P( X1 ≤ +∞, · · · , Xi ≤ b, · · · , Xn ≤ +∞).

Réciproquement, on ne peut pas, sans hypothèse supplémentaire, dé-


terminer la loi d’un vecteur à partir de la seule connaissance des
42 mesure intégration et probabilités

marginales. Le seul cas où c’est possible est lorsque les composantes


de X sont supposées être indépendantes. Dans ce cas, par définition de
l’indépendance

P( X ∈] − ∞, x1 ] × . . . ×] − ∞, xn ]) = P( X1 ≤ x1 ) . . . P( Xn ≤ xn ).

La loi de X est alors bien entièrement caractérisée par les lois P Xi .


L’un des types de calcul qui revient régulièrement dans la pra-
tique des probabilités est celui du calcul de la loi de la tranformation
d’un vecteur aléatoire de loi connue. L’outil principal pour ces cal-
culs est la formule de changement de variables dans les intégrales
multiples.
Définition 2.11 Soit T : O ⊂ Rn → Rn dont toutes les dérivées
partielles existent sur O, la jacobienne de T au point x, est la
matrice JT ( x ) où
 ∂T 
i
JT ( x ) = ( x ), 1 ≤ i ≤ n, 1 ≤ j ≤ n
∂x j
 
∂T1
 ∂x1 ( x ) 
..
 
 

 . 

 ∂Ti 
 ...
= (x) ... .
 ∂x j 

 .. 

 . 

 ∂Tn 
(x)
∂xn
Le jacobien de T est le déterminant de JT .

Définition 2.12 Soit O un ouvert de Rn , T : O ⊂ Rn → Rn , T est


un C 1 -difféomorphisme de O sur ∆ ⊂ Rn , lorsque
— les dérivées partielles de T existent et sont continues sur O,
— T est une bijection de O sur ∆,
— le jacobien de T ne s’annule pas sur O.

Théorème 2.13 Soit O un ouvert de Rn , T : O ⊂ Rn → Rn un


C 1 -difféomorphisme de T sur ∆. Pour tout fonction continue
bornée,
1
Z Z
f ( T ( x )) dx = f (y) dy.
O ∆ | det JT ( T −1 (y))|

 Soit ( X1 , X2 ) deux variables aléatoires réelles indépen-


Exemple 2.2
dantes, de même loi
1
dP( x ) = 1[1,∞[ ( x ) dx.
x2
variables aléatoires 43

On pose U = X1 .X2 et V = X1 /X2 .


1. Calculer la loi du vecteur (U, V ).
2. Calculer la loi de U et celle de V.
3. U et V sont-elles indépendantes ?
On part de l’hypothèse que la loi du couple (U, V ) a une densité par
rapport à la mesure de Lebesgue, ce qui en utilisant la indicactérisation
des mesures induites par le théorème de Riesz ??, revient à trouver
h : R2 → R+ telle que que pour toute fonction f continue bornée de
R2 dans R, on ait
Z
E [ f (U, V )] = f ( x, y)h( x, y) dx dy.
R2

Posons

T : R2 → R2
( x, y) 7→ ( xy, x/y).

On a
Z
E [ f (U, V )] = E [( f ◦ T )( X, Y )] = ( f ◦ T )( x, y) dP X, Y ( x, y),

où la deuxième égalité découle du théorème de transfert. Maintenant,


les variable aléatoire X et Y sont indépendantes, ce qui équivaut (cf.
(??)) à dire que

dP X, Y ( x, y) = dP X ( x ) ⊗ dPY (y).

Par hypothèse,
1 1
dP X ( x ) = 1[1,∞[ ( x ) dx et dPY (y) = 1[1,∞[ (y) 2 dy,
x2 y
donc
1
dP X, Y ( x, y) = 1[1,∞[ ( x ) 1 (y) dx dy.
x2 [1,∞[
On a donc obtenu
1
Z
E [ f (U, V )] = ( f ◦ T )( x, y) dx dy.
[1, +∞[2 x 2 y2
Rappelons-nous que nous voulons aboutir à une identité de la forme
Z
E [ f (U, V )] = f ( x, y)h( x, y) dx dy.
R2

On est naturellement enclin à utilise le théorème de changement de


variables 2.13, pour cela, il nous faut calculer ∆, l’ensemble image de
[1, +∞[2 par T et le jacobien de T. Posons u = xy et v = x/y,
 
y x
 = −2 x = −2v.
 
detJT ( x, y) = det 
1 x y
− 2
y y
44 mesure intégration et probabilités

Si x et y sont tous deux plus grands que 1 alors u l’est, et v est stricte-
ment positif. Par ailleurs,
 
u = xy  x2 = uv
⇐⇒ .
v = x/y  y2 = u/v

On déduit de ces dernières équations que u ≥ v et uv ≥ 1. On vérifie


alors facilement que T est une bijection de [1, +∞[2 sur

∆ = {(u, v), u ≥ v ≥ 0 et uv ≥ 1}.

y v=u Figure 2.1: Le domaine ∆ dans le plan


(u, v).

v = 1/u

1 x

On tire du théorème de changement de variables que

1 1 1
Z Z
( f ◦ T )( x, y) dx dy = f (u, v) du dv
[1, +∞[2 x y2
2 ∆ uv.u/v −2v
1
Z
= f (u, v) 2 du dv,
∆ 2u v

d’où par identification,

1
dP(U, V ) (u, v) = 1∆ (u, v) du dv.
2 u2 v

Pour calculer la loi de U, on veut exprimer E [ f (U )] pour toute fonction


continue bornée de R dans R. On remarque alors que l’application
f˜( x, y) = f ( x ) est continue bornée de R2 dans R donc

 Z 1
E [ f (U )] = E f˜(U, V ) =

f (u) 2 du dv
∆ 2u v
Z +∞ Z u 
1 1
= f (u) 2 dv du,
1 2u 1/u v
variables aléatoires 45

d’après le théorème de Fubini ??. Par conséquent,


Z u 
1 1
dPU (u) = 2 dv 1[1, +∞[ (u) du
2u 1/u v
ln u
= 2 1[1, +∞[ (u) du.
u
De même,
1
Z
E [ f (V )] = f (v) du dv
∆ 2 u2 v
Z +∞ Z 
1 1
= f (v) du dv,
0 2v ∆ v u2

∆v = {u : (u, v) ∈ ∆}

[1/v, +∞[ si 0 ≤ v ≤ 1
=
[v, +∞[ si v ≥ 1.

Par conséquent,
 Z +∞ Z +∞ 
1 1 1
dPV (v) = du 1[0, 1] (v) + du 1]v, +∞[ (v)
2v 1/v u2 v u2
1 1 
= v1[0, 1] (v) + 1]1, +∞[ (v) .
2v v
Comme
dP(U, V ) 6= dPU ⊗ dPV ,
les variable aléatoire U et V ne sont pas indépendantes. 

§ 3 Exercices

Exercice 2.2En codage correcteur d’erreurs, les erreurs interviennent


au hasard sur l’un quelconque des bits. Si on transmet des mots
de n bits, on pose Ω = {0, 1}n , que l’on munit de la loi uniforme.
On introduit Xi (ω ) = ωi pour i = 1, · · · , n. La distance de Ham-
ming entre mots de code x = ( x1 , · · · , xn ) et y = (y1 , · · · , yn ),
est définie par :
n
d( x, y) = ∑ 1 { xi 6 = yi } .
i =1

On appelle longueur d’un mot x, sa distance au mot nul 0 =


(0, · · · , 0).
1) Montrer que sous la loi uniforme sur Ω, les variables ( Xi , i ∈
{1, · · · , n} sont indépendantes et identiquement distribuées de
loi de Bernoulli de paramètre 1/2.
2) Quelle est la longueur moyenne d’un mot ?
46 mesure intégration et probabilités

3) Quelle est la variance de la longueur d’un mot ?


4) On choisit deux mots au hasard indépendamment l’un de
l’autre, soit X et Y les variables aléatoires correspondantes.
Calculer h i
E d( X, Y )2 .

Exercice 2.3 Les règles du jeu du not-seven sont les suivantes : on


part d’un score X0 = 0. À chaque coup, on lance deux dés non
pipés, si la somme des faces égale 7, le score retourne à 0 et la
partie est terminée. Sinon, le score augmente de la somme des
faces et on a le droit de rejouer ou pas. Si l’on ne rejoue pas, le
score est acquis et la partie est terminée. Si l’on rejoue, on relance
les deux dés avec la même règle.
1) Calculer la loi de la somme S des deux faces. Calculer son
espérance.
On considère une suite (Sn , n ∈ N) de variables aléatoires
indépendantes de même loi que S.
2) Soit τ = inf{n ≥ 1, Sn = 7}, trouver la loi de τ. Quelle est la
moyenne de τ ?
3) Quelle est la stratégie d’un Initié (celui qui sait le résultat du
prochain lancer de dés) ?
4) Calculer son gain moyen.
5) On appelle Xn le score au n-ième coup en l’absence de stratégie
d’arrêt. Montrer que

5 35
E [ X n +1 | X n = i ] = i+ ,
6 6
où l’espérance conditionnelle par rapport à un événement B
est définie comme l’espérance associée à la loi de probabilité
A 7 → P ( A | B ).
6) En déduire que la stratégie optimale consiste à jouer tant que
l’on n’a pas atteint 35 et à s’arrêter immédiatement après avoir
franchi ce seuil.
7) Calculer numériquement le gain moyen avec cette stratégie.


Un étang contient un nombre de poissons N inconnu.


Exercice 2.4
Pour estimer N, on prélève un échantillon de r poissons que l’on
variables aléatoires 47

marque et que l’on remet dans l’étang. Une semaine plus tard, un
autre échantillon de s < r individus est prélevé. On appelle X le
nombre de poissons marqués lors du premier prélèvement qui
sont aussi dans le deuxième échantillon.
1) Calculer la loi de X (dite loi hypergéométrique).
On note pour la suite de cet exercice

(kr )( Ns−−kr)
pk = ,
( Ns )

pour k ≤ min(r, s) et k ≥ max(s + r − N, 0).


2) Montrer que p2k ≥ pk−1 pk+1 .
3) En déduire qu’il existe une unique valeur de k telle que pk =
max j p j .
4) Soit k0 tel cette valeur. Par définition, pk0 +1 < pk0 et pk0 −1 <
pk0 . En déduire que
 
(r + 1)(s + 1)
k0 = .
N+2

On pourra poser pour simplifier les calculs, r 0 = r + 1, s0 =


s + 1, N 0 = N + 2.
5) En déduire une estimation de N.


L’exercice suivant est inspiré du livre ?? qui contient plein de


choses intéressantes sur les liens entre probabilités et mathéma-
tiques discrètes.

On fabrique un graphe sur n


Exercice 2.5 — Erdös et Renyi (1960).
sommets en choisissant ses arêtes « au hasard ». Plus précisément,
on considère le graphe Gn,p obtenu en choisissant chacune des
(n2 ) arêtes potentielles indépendamment avec probabilité p. Le but
de ce problème est d’étudier la probabilité que Gn,p soit connexe.
On s’intéressera au cas où p est de la forme

ln n c
p = p(n) = +
n n
où c est une constante fixée.
1) Soit ( Xi , 1 ≤ i ≤ n) un n-uple de variables aléatoires à valeurs
dans {0, 1} et soit X = ∑in=1 Xi . Montrer que pour tout r tel
48 mesure intégration et probabilités

que r ≥ 1 et 2r + 1 ≤ n on a :

2r +1 2r
∑ (−1)k F(k) ≤ P(X = 0) ≤ ∑ (−1)k F(k)
k =0 k =0

où l’on a posé F (0) = 1 et pour k ≥ 1

F (k) = ∑
 
E X j1 X j2 . . . X jk .
j1 < j2 <...< jk

Suggestion. On pourra montrer que


" #
n
P ( X = 0) = E ∏ ( 1 − Xi )
i =1

et appliquer une formule de Taylor à la fonction ∏in=1 (1 − xi ).


On dira qu’un sommet est isolé s’il n’est l’extrémité d’aucune
arête. Dans un premier temps, on étudie le nombre X de sommets
isolés. On peut écrire X = ∑in=1 Xi où Xi est la variable aléatoire
qui vaut 1 si le sommet i est isolé, 0 sinon.
b) Que valent E [ Xi ] et E [ X ] ?
c) On suppose dorénavant c fixé. Montrer que la quantité F (k) ,
pour la variable X, converge, lorsque n tend vers l’infini, vers
e−ck /k!.
−c
d) Montrer que limn→∞ P( X = 0) = e−e .
e) Calculer l’espérance du nombre de composantes connexes à 2
sommets, et constater que celle-ci tend vers zéro quand n tend
vers l’infini.
f) Plus généralement, soit Ct le nombre de composantes connexes
à t sommets. Montrer que pour 2 ≤ t ≤ n/2,
k
(2t )
 
1 p
E [Ct ] ≤
t! ∑ k 1− p
.
t−1≤k ≤(2t )

En déduire que la probabilité que Gn,p soit connexe tend, quand


−c
n → ∞, vers e−e . On admettra que ∑2≤t≤n/2 E [Ct ] → 0
quand n → ∞.
g) Que peut-on dire de la probabilité que Gn,p soit connexe ?


On rappelle qu’une suite de variables aléatoires ( Xn , n ∈


Exercice 2.6
N) converge en probabilité vers la variable aléatoire X si et seule-
variables aléatoires 49

ment si pour tout e > 0,

lim P(| Xn − X | ≥ e) = 0.
n→+∞

Soit ( Xn , n ∈ N) une suite de variable aléatoire de moyenne µn


et de variance σn2 . Soit (bn , n ∈ N) une suite de réels positifs tels
que σn2 /bn2 tende vers 0. Montrer que

Xn − µ n
tend vers 0 en probabilité.
bn


Soit X une variable aléatoire de loi


Exercice 2.7 — Borne de Chernoff.
de Poisson de paramètre λ.
   
a) Montrer que X ≥ η = exp(θX ) ≥ exp(θη ) pour tout
θ > 0.
b) Montrer que, pour tout θ ≥ 0,

P( X ≥ η ) ≤ e−ηθ E [exp(θX )] . (2.6)

c) Calculer E [exp(θX )].


d) Trouver θ qui minimise le terme de droite de (3.7).
e) Trouver K tel que P( X ≥ Kλ) ≤ 0, 001.


Exercice 2.8On veut collectionner N images dont une et une seule


apparaît dans chaque tablette de chocolat achetée. Les images
sont mises au hasard dans les tablettes. On appelle Ti le nombre
de tablettes nécessaires avant d’avoir i images distinctes. On pose
T0 = 0.
a) Montrer que Ti+1 − Ti suit une loi géométrique de paramètre
1 − i/N.
b) Montrer que les variables aléatoires T0 , T1 − T0 , . . . , TN − TN −1
sont indépendantes dans leur ensemble.
c) Calculer l’espérance et la variance de TN . Trouver un équivalent
de l’espérance et montrer que la variance est un O( N 2 ) quand
N tend vers +∞.
d) En utilisant l’exercice 3.1, montrer que TN /( N log N ) tend vers
1 en probabilité.

50 mesure intégration et probabilités

Fonctions génératrices

Exercice 2.9Dans une file d’attente à un serveur, on peut mon-


trer sous certaines hypothèses que le nombre de clients dans le
système (serveur + salle d’attente) suit la loi d’une géométrique
translatée de −1 :

P( N = k ) = P(G(ρ) − 1 = k)

pour k ≥ 0. Le temps de service d’un client suit une loi exponen-


tielle de paramètre µ.
1. Calculer la fonction génératrice du temps d’attente moyen.
2. En déduire sa loi et sa moyenne.


Exercice 2.10Pour une variable aléatoire X à valeurs dans N, on


définit son p-amincissement comme la variable aléatoire p ◦ X
définie par
X
p◦X = ∑ Bi
i =1

où ( Bn , n ≥ 1) est une suite de variables aléatoires indépendantes


(et indépendante de X) de loi de Bernoulli de paramètre p.
1. Calculer la fonction génératrice de p ◦ X en fonction de celle
de X.
2. Quelle est la loi de p ◦ X quand X suit une loi de Poisson de
paramètre λ ?


Exercice 2.11 On note Φ X la fonction génératrice de la variable


aléatoire X.
a) Calculer Φ X , E( X ) et var( X ) pour une variable aléatoire de
Bernoulli B( p), une variable aléatoire de loi géométrique G( p),
une variable aléatoire de Poisson P (λ).
b) Soient X1 , · · · , Xn des variable aléatoire indépendantes. Xk
suit une loi de Poisson de paramètre λk . Caractériser la loi de
∑nk=1 Xk .


Fonctions de répartition et densité


variables aléatoires 51

Soit X une variable aléatoire r. à densité et ( a, b) ∈ R2 .


Exercice 2.12
Exprimer la densité de la variable aléatoire r. Y := aX + b en
fonction de la densité de X. 

Exercice 2.13 Soit X ∼ N (0, 1) et Y = X 2 .


1. Calculer la fonction de répartition FY de Y en fonction de celle
de X.
2. En déduire que Y admet une densité, que l’on exprimera.


Exercice 2.14 Soit µn la suite de mesure sur [0, 1] donnée par

n −1
1
dµn ( x ) =
n ∑ δj/n .
j =0
R
Pour f continue sur [0, 1], quelle est la limite de f (t) dµn (t)
quand n tend vers +∞ ? 

Exercice 2.15 1. Soit X une variable aléatoire r. de densité f telle


que
lim | x | p f ( x ) = 0
| x |→∞

pour tout p > 0. Montrer que X possède tous ses moments. En


déduire qu’une variable aléatoire r. gaussienne possède tous
ses moments.
2. Soit X une variable aléatoire r. suivant une loi de Cauchy.
Montrer que E(| X |) diverge. Plus généralement, montrer que
X ne possède aucun moment.


Exercice 2.16 — *.Un nombre est choisi au hasard dans l’intervalle


[0, 10] suivant une loi P donnée par

dP(t) = K t 1[0,10] (t) dt ,

où K est une constante à calculer. On note par X sa partie entière


et par Y sa partie fractionnaire.
1. Calculer la loi du vecteur ( X, Y ). Est-ce que les composantes
sont indépendantes ?
2. Calculer la matrice de covariance de ( X, Y ).
52 mesure intégration et probabilités

Exercice 2.17 — **. Pour a > 0, on définit


Z ∞
Γ( a) = e−t t a−1 dt .
0

Une variable aléatoire r. X est dite de loi gamma de paramètres a


et λ > 0 si sa loi est donnée par

λ a −λt a−1
dPX (t) = 1[0,∞[ (t) e t dt ,
Γ( a)

notée par X ∼ G ( a, λ).


1. Calculer l’espérance et la variance de X.
2. Soit Y une autre variable aléatoire r. indépendante de X, de
X
loi G (b, λ). Montrer que X + Y et sont indépendantes,
X+Y
calculer leur loi.
3. En déduire que

Γ( a)Γ(b)
Z 1
β( a, b) = t a−1 (1 − t)b−1 dt = .
0 Γ( a + b)


Soit X une variable aléatoire réelle de fonction


Exercice 2.18 — *.
de répartition FX et FX−1 l’inverse à droite de FX défini par :

FX−1 (y) = inf{u; FX (u) ≥ y}.

Soit U une variable aléatoire de loi uniforme sur [0, 1], montrer
que FX−1 (U ) a la loi de X. Cette relation permet de générer des
variable aléatoire de loi arbitraire à partir de variables de loi
uniforme sur [0, 1]. Ceci est très fréquemment utilisé en simulation
et connu sous le nom de méthode d’inversion.
Trouver comment générer des variables de loi exponentielle et
de Cauchy avec cette méthode. 

Exercice 2.19 — *. La difficulté qui apparaît lors de la mise en


oeuvre de la méthode précédente est l’inversion de la fonction de
répartition. On a fréquemment la densité de façon explicite mais
pas la fonction de répartition. Dans ce cas, on applique la méthode
de rejet. Soit f X la densité de X et g une densité qui majore à une
constante près f X et pour laquelle on sait facilement générer des
variables aléatoires 53

variable aléatoire dont la loi a pour densité g. On procède de la


manière suivante : soit a tel que f X (u) ≤ ag(u) pour tout u. On
tire une variable aléatoire de loi de densité g, soit Y le résultat
de ce tirage. On tire, indépendamment, une variable aléatoire
de loi uniforme sur [0, 1] et on note U le résultat de ce tirage. Si
U ≤ f (Y )/ag(Y ) alors le résultat est Y sinon on recommence au
début.
1. Quel est l’espace de probabilité sous-jacent sur lequel sont
définies les variable aléatoire Z et Y.
2. Montrer que P(Y ≤ t) = FX (t).
3. Soit X et Y deux variable aléatoire indépendantes de loi ex-
ponentielle de paramètre µ. Calculer la densité de la loi de
Z = X − Y.
4. En déduire une façon d’engendrer des variable aléatoire de loi
de densité :
µ
exp(−µ| x |α )
2γ(1 + 1/α)
où α ≥ 1 et µ > 0.


Soit U et V deux variable aléatoire indépendantes de


Exercice 2.20
loi uniforme sur [0, 1]. Posons :
q q
X = −2 ln(U ) cos(2πV ) et Y = −2 ln(U ) sin(2πV ).

Montrer que X et Y sont des variable aléatoire gaussiennes cen-


trées, réduites, indépendantes. 

1. Comment utiliser la
Exercice 2.21 — Simulation dans un cercle - *.
méthode de rejet pour simuler le tirage d’un point « au hasard »
dans un cercle de rayon R ?
2. Calculer la loi joint de module et de l’argument d’un point
« au hasard » dans le même cercle. En déduire une autre façon
de simuler le tirage d’un point choisi uniformément dans le
cercle.
3. Quelle est la meilleure méthode ?


Calculs de lois
54 mesure intégration et probabilités

Soit un couple de variable aléatoire ( X, Y ) de


Exercice 2.22 — **.
densité conjointe f ( x, y) = c xy2 si ( x, y) ∈ ∆ et 0 sinon, où c est
une constante positive et ∆ est donné par

∆ = {( x, y) ∈ [0, 1]2 , 0 < y < x2 < 1}.

1. Déterminer la constante c.
2. Déterminer les lois marginales des variables X et Y.
3. Soit U une variable aléatoire de loi exponentielle de paramètre
8, et V une variable aléatoire de loi exponentielle de paramètre
3, indépendante de U. On pose

W = exp(−U ), Z = exp(−V )W 2 .

Vérifier que f est la densité de la loi du couple (W, Z ).




Soit W une variable aléatoire de loi de Poisson de


Exercice 2.23
paramètre λ > 0 :
λk
P (W = k ) = e − λ .
k!
1. Montrer que pour toute fonction positive f :

λE [ f (W + 1)] = E [W f (W )] . (2.7)

2. Réciproquement, soit W une variable aléatoire discrète, à va-


leurs dans N, telle que pour toute fonction positive, l’identité
2.7 soit satisfaite. En appliquant 2.7 à des fonctions f judicieu-
sement choisies, montrer que

λ
P (W = j ) = P (W = j − 1 ) ,
j
variables aléatoires 55

pour tout j ≥ 1.
3. En déduire la loi de W.


Exercice 2.24 On tire un nombre X uniformément sur [0, 1]. On


tire ensuite des nombres Y1 , Y2 , · · · indépendamment les uns des
autres et indépendamment de X, uniformément sur [0, 1]. Le jeu
s’arrête dès que Yi > X. Vous gagnez alors (i − 1)e. On appelle
G le gain. Pour k entier, on définit

1
{ y1 > x } si k = 0
ϕk ( x, y1 , · · · , yk+1 ) =
1 si k > 0.
{y1 ≤ x,..., yk ≤ x, yk+1 > x }

1. Pour k entier, montrer que

1 1
Z
ϕk ( x, y1 , · · · , yk+1 ) dy1 dy2 . . . dyk+1 dx = − ·
[0, 1]k+2 k+1 k+2

On traitera séparément les cas k = 0 et k > 0.


2. Calculer la loi de G.
3. Calculer l’espérance de G.


Exercice 2.25 Pour tout a réel strictement positif, Ga désigne une


variable aléatoire de loi gamma de paramètres ( a, 1) : la densité
ga de sa loi est donnée par

1
ga ( x ) = x a −1 e − x 1 R + ( x ),
Γ( a)

où Z +∞
Γ( a) = x a−1 e− x dx.
0
En particulier, G1 suit une loi exponentielle de paramètre 1. On
admet que
h i
E eitGa = (1 − it)− a , pour tout t ∈ R.

De plus, pour a, b réels strictement positifs, Ba, b désigne une


variable aléatoire de loi bêta de paramètres ( a, b) : la densité h a, b
de sa loi est donnée par

Γ ( a + b ) a −1
h a, b (y) = y (1 − y)b−1 1[0,1] (y).
Γ( a)Γ(b)
56 mesure intégration et probabilités

1. Calculer la loi du couple ( Ga+b Ba, b , Ga+b ) lorsque les variable


aléatoire Ga+b et Ba,b sont indépendantes.
2. En déduire que pour deux variables Ga+b , Ba,b indépendantes,
la loi de Ba, b Ga+b est identique à celle de Ga .
3. Soit n ≥ 0. Montrer par récurrence, que lorsque les variables
aléatoires Ba,1 , · · · , Ba+n,1 , Ga+n+1 sont indépendantes, la loi
de
n
Pn = Ga+n+1 ∏ Ba+ j, 1
j =0

est la même que celle de Ga .


On utilisera la question précédente et les hypothèses d’indépendance.
On évitera les longs calculs.
4. Soit X une variable aléatoire de loi exponentielle de paramètre
1 indépendante de Ga , montrer que Ga + X a la même loi que
Ga +1 .
5. En déduire que pour tout entier n, Ga+n a même loi que

Hn = Ga + X1 + X2 + . . . + Xn ,

où les Xi sont des variable aléatoire dont on précisera les


propriétés.
On pose Wn = Ga + X1 + X2 + . . . + Xn où les Xi sont indépen-
dantes, identiquement distribuées de loi exponentielle de para-
mètre 1. On suppose de plus que les variable aléatoire Ga et
{ Xk , k ≥ 1} sont définies sur le même espace de probabilité.
6. Quelle est la limite presque-sûre de (n−1 Wn , n ≥ 1) ?
7. Montrer que la suite (n−1 Ga+n , n ≥ 1) converge en loi, vers
une loi que l’on précisera.


Exercice 2.26 On rappelle que


Z 1
u−1/2 (1 − u)−1/2 du = π.
0

Soit X = ( X1 , X2 ) un vecteur gaussien de R2 , centré, de matrice


de covariance (ou dispersion) Γ = Id. On pose

X12
U= et V = X12 + X22 .
X12 + X22

1. Calculer la densité de la loi de (U, V ).


variables aléatoires 57

2. Donner les densités marginales de U et V. On précisera les


constantes de normalisation.
X2
3. Soit Z = 22 . Exprimer Z en fonction de U puis calculer la
X1
densité de la loi de Z.
On note Rθ la rotation d’angle θ dans R2 . Si x ∈ R2 ,
! ! !
x1 cos θ − x2 sin θ cos θ − sin θ x1
Rθ x = = ,
x1 sin θ + x2 cos θ sin θ cos θ x2

où x1 et x2 sont les composantes de x dans la base canonique de


R2 .
Soit X = ( X1 , X2 ) une variable aléatoire à valeurs dans R2 telle
que pour tout θ ∈ [−π, π ], Rθ X a même loi que X. C’est-à-dire
que
E [ g( Rθ X )] = E [ g( X )] , (2.8)
pour toute fonction g mesurable bornée de R2 dans R. On suppose
que la loi de X a une densité par rapport à la mesure de Lebesgue,
notée v.
4. Montrer que pour toute fonction g mesurable bornée de R2
dans R, pour tout θ ∈ [−π, π ],
Z Z
g( x )v( x ) dx = g(y)v( Rθ y) dy.
R2 R2

On admet qu’alors il existe w : R+ → R+ , mesurable, telle que

v( x ) = w(k x k) pour tout x ∈ R2 .

5. Montrer que dans ce cas,


Z +∞
1
w(r ) r dr = .
0 2π

On suppose maintenant que X = ( X1 , X2 ) est un vecteur gaussien


centré de matrice de covariance (ou dispersion) Γ.

6. Soit θ ∈ [−π, π ], quelle est la loi de Rθ X ?


7. Montrer que Rθ X a même loi que X pour tout θ si et seulement
si ΓRθ = Rθ Γ.
8. Supposons que ΓRθ = Rθ Γ pour tout θ ∈ [−π, π ]. En écrivant
les équations satisfaites par les coefficients de Γ, montrer que
Γ est la matrice d’une homothétie positive (c’est-à-dire qu’il
existe σ2 tel que Γ = σ2 Id).

58 mesure intégration et probabilités

§ 4 Vecteurs gaussiens

Les vecteurs gaussiens ont une importance toute particulière pour


deux raisons : d’une part, le théorème de la limité centrée montre que
la loi de Gauss est le domaine d’attraction de nombreuses limites et
d’autre part, les calculs sur les lois normales se ramènent à de l’algèbre
linéaire. Nous aurons en particulier besoin de considérer la transposée
d’une matrice A, que nous noterons A t . Le produit scalaire de deux
vecteurs x et y de Rk est noté x.y. On rappelle que

x.y = ∑ j = 1k x j y j = xt y.
En particulier, Ax. y = x. A t y, pour une matrice réelle A quelconque.
Rappelons d’abord la définition d’une variable aléatoire gaussienne
réelle.
Définition 2.14 X : Ω → R est une variable aléatoire gaussienne
réelle de paramètres m et σ2 lorsque

1  ( x − m )2 
dP X ( x ) = √ exp − dx.
σ 2π 2σ2

La fonction caractéristique est donnée par :


h i  σ 2 t2 
E eitX = exp itm − .
2

En dimension supérieure, la définition d’un vecteur gaussien ne re-


pose pas sur la densité de sa loi mais sur une indicactérisation diffé-
rente.
Définition 2.15 X : Ω → Rn est un vecteur gaussien lorsque t.X
est une variable aléatoire gaussienne réelle pour tout t ∈ Rn .

 Remarque 11 En particulier, chacune des composantes est une va-

riable aléatoire gaussienne réelle. Réciproquement, si ( X1 , · · · , Xn )


sont des variable aléatoire gaussiennes réelles indépendantes alors
X = ( X1 , · · · , Xn ) est un vecteur gaussien.

Théorème 2.16 Soit X = ( X1 , · · · , Xn ) un vecteur gaussien, on


note

m = E [ X ] = (E [ X1 ] , · · · , E [ Xn ])
 
Γ X = cov( Xi , X j ), 1 ≤ i, j ≤ n

où cov( X, Y ) est la covariance des variable aléatoire X et Y :

cov( X, Y ) = E [ XY ] − E [ X ] E [Y ] = E [( X − E [ X ])(Y − E [Y ])] .


variables aléatoires 59

La fonction indicactéristique de X est donnée par :


h i  1 
E eis.X = exp it.m − s t Γ X s
2
 n 1 n n 
= exp i ∑ t j X j − ∑ ∑ Γ X (k, l )sk sl ,
j =1
2 k =1 l =1

pour tout s = (s1 , · · · , sn ) ∈ Rn .

Démonstration. Par définition, d’un vecteur gaussien, s.X est une va-
riable aléatoire gaussienne réelle dont on sait que la loi est indicactérisée
par la moyenne et la variance. Par linéarité de l’espérance,
" #
n n
E [s.X ] = E ∑ s k Xk = ∑ sk E [Xk ] = s.m .
k =1 k =1

D’autre part,
" #
 n 2
var(s.X ) = E ∑ s k ( Xk − m k )
k =1
" #
n
=E ∑ s2k ( Xk 2
− mk ) + 2 ∑ sk sl ( Xk − mk )( Xl − ml )
k =1 1≤ k < l ≤ n
n
= ∑ s2k var(Xk ) + 2 ∑ sk sl cov( Xk , Xl )
k =1 1≤ k < l ≤ n

= Γ X s.s,

d’où le résultat. 

Théorème 2.17 Soit X un vecteur gaussien de Rn , de vecteur moyen


m et matrice de covariance Γ X , soit A une matrice à r lignes et n
colonnes et B un vecteur colonne de r lignes. Le vecteur aléatoire

Y = AX + B

est un vecteur gaussien de vecteur moyen Am + B et de matrice


de covariance A Γ X A t .

Démonstration. Vérifions d’abord que Y est un vecteur gaussien de Rr .


Soit s ∈ Rr ,
s.Y = [Link] + s.B = A t s.X + s.B

est une variable aléatoire gaussienne réelle puisque X est un vecteur


gaussien. Il reste à calculer moyenne et variance de s.Y pour tout s ∈ Rr .
Le calcul de la moyenne est immédiat. Pour la variance, remarquons
d’abord que
var(s.Y ) = var( A t s.X ),
60 mesure intégration et probabilités

puisque la partie s.B est déterministe donc a une variance nulle. Les
calculs du théorème précédent appliqués à A t s montrent que

var( A t s.X ) = Γ X A t s.A t s = AΓ X A t s.s

Théorème 2.18 — Représentation [Link] X un vecteur gaus-


sien de Rn , de vecteur moyen m et de matrice de covariance Γ X .
Il existe une matrice A symétrique, positive telle que A A t = Γ X .
Si Y est un vecteur gaussien de Rn de vecteur moyen nul et
de matrice de covariance l’identité alors en loi, on a l’égalité
suivante :
X = AY + m.

Démonstration. Comme

Γ X (k, l ) = cov( Xk , Xl ) = cov( Xl , Xk ) = Γ X (l, k ),

Γ X est une matrice symétrique. Comme

Γ X s.s = ∑ ΓX (k, l )sk sl


k, l

= var(s.X ) ≥ 0,

la forme bilinéaire associée à Γ X est positive donc les valeurs propres


de Γ X sont positives ou nulles. Il existe une matrice orthogonale O telle
que
 
0
 .. 

 . 

−1
 0 
OΓ X O = 
 

 λ1 
 
 .. 
 . 
λr
où (λi , i = 1, · · · , r ) sont les valeurs propres non nulles de Γ X . La
matrice  
0
 .. 

 . 


−1  0 
A=O  √ O

 λ1 
 
 .. 
 . 

λr
satisfait AA t = Γ x . En vertu du théorème 2.17, AY + m est bien un
vecteur gaussien de vecteur moyen m et de matrice de covariance Γ X
donc a la loi de X. 
variables aléatoires 61

 Remarque 12 On peut illustrer le rôle de la matrice Γ dans la répartition


spatiale des valeurs du vecteur gaussien. Considérons un vecteur gaus-
sien de dimension 2, de matrice Γ = Id alors la distribution se répartit
de façon isotrope et pour une matrice de covariance Γ avec
 
1 1
 2√ √
Γ1/2 =  2 
1 ,

 1
√ √
2 10 2

les points se répartissent autour une ellipse d’axes les premières bissec-
trices, voir Figure 2.2.
import numpy as np
import s c i p y
from pylab import *
N=5000 r
x=np . random . randn (N, 2 , 1 )
gamma=np . a r r a y ( [ [ 1 / s q r t ( 2 . 0 ) ,1/ s q r t ( 2 . 0 ) ] , [ 1 / s q r t ( 2 . 0 ) , 0 . 1 /
sqrt (2. 0) ] ] )
g=np . dot (gamma, x )
p= p o i n t ( [ ( g [ 0 , i ] , g [ 1 , i ] ) f o r i i n range ( 0 ,N−1) ] , p o i n t s i z e =1)
p . show ( )

Figure 2.2: Si la matrice de covariance


n’est pas l’identité, la distribution gaus-
sienne associée n’est plus isotrope.

 Remarque 13 Le théorème précédent implique que si Γ X est non inver-


sible, où r < n, X prend ses valeurs dans un sous-espace affine strict
(de dimension r strictement inférieure à n) de Rn donc sa loi ne peut
avoir de densité par rapport à la mesure de Lebesgue. En revanche, si
Γ X est inversible, le théorème précédent permet le calcul de la densité
de la loi de X.

Théorème 2.19 Soit X un vecteur gaussien de Rn , si sa matrice de


62 mesure intégration et probabilités

covariance Γ X est inversible alors


1  1 
dP X ( x ) = p exp − Γ−
X
1
( x − m).( x − m) dx.
(2π )n det Γ X 2

Démonstration. Soit X est gaussienne de moyenne m et matrice de co-


variance Γ X . Soit S symétrique telle que SSt = Γ X et Y = (Y1 , · · · , Yn )
un vecteur composé de variable aléatoire gaussiennes centrées réduites
indépendantes. D’après le théorème précédent, m + SY et X ont même
loi. Remarquons que det(S)2 = det Γ X dont S est inversible. Comme
Γ X est une matrice symétrique positive, son déterminant est positif et

det S = det Γ X .
Considérons le changement de variable

Θ : Rn −→ Rn
y = (y1 , · · · , yn ) 7−→ x = Sy + m.

Comme S est inversible, Θ est une bijection de Rn dans Rn et sa


jacobienne est S. Enfin, remarquons que
n
∑ y2j = y.y = S−1 (x − m).S−1 (x − m) = (S−1 )t S−1 (x − m).(x − m).
j =1

Or,
(S−1 )t S−1 = (St )−1 S−1 = (SSt )−1 = Γ− 1
X .

Par conséquent, y.y = Γ− 1


X ( x − m ).( x − m ). Pour toute fonction ψ bor-
née, on a donc

E [ψ( X )] = E [ψ(m + SY )]
n
1 1
Z
= √

n
Rn
ψ(m + Sy) exp(−
2 ∑ y2j ) dy1 . . . dyn
j =1
1 1 1 1
Z
= √ n ψ( x ) exp(− Γ− ( x − m).( x − m)) √ dx1 . . . dxn .
2π Rn 2 X det Γ X

D’où le résultat par identification. 

Théorème 2.20 Soit X = (Y, Z ) un vecteur gaussien de Rn avec


Y∈ RnY
et Z ∈ RnZ (n = n Y + n Z ). Les vecteurs gaussiens Y et
Z sont indépendants si et seulement si ils sont non-corrélés :

cov(Yk , Zl ) = 0, pour tout k ∈ {1, · · · , n Y }, l ∈ {1, · · · , n Z }.

Démonstration. Notons Γ YZ la matrice de covariance de Y et Z, de taille


n Y × n Z définie par :

Γ YZ (k, l ) = cov(Yk , Zl ).
variables aléatoires 63

Par définition, la matrice de covariance de X se décompose en matrices-


blocs sous la forme
 .. 
ΓY . Γ YZ
ΓX = 
 
 ... ... ... .

..
Γ YZ . ΓZ
En décomposant chaque vecteur s ∈ Rn sous la forme s = (s Y , s Z ) avec
s Y ∈ RnY et s Z ∈ RnZ , on a d’une part
n nY n
s.m = ∑ sk mk = ∑ sk mk + ∑ sk mk = s Y .m Y + s Z .m Z ,
k =1 k =1 k = n Y +1

et d’autre part

Γ X s. s = (Γ Y s Y + Γ YZ s Z ).s Y + (Γ YZ s Z + Γ Z s Z ).s Z
= Γ Y s Y .s Y + Γ Z s Z .s Z + 2Γ YZ s Z .s Y .
Par conséquent,
h i h i  
E eis.X = E ei(sY .Y +sZ .Z) = exp is Y .m Y + is Z .m Z
 1 
. exp − (Γ Y s Y .s Y + Γ Z s Z .s Z + 2Γ YZ s Z .s Y )
2 h i h i  
= E eisY .Y E eisZ .Z exp −Γ YZ s Z .s Y .

D’après la indicactérisation (??) de l’indépendance, on en déduit que Y


et Z sont indépendantes si et seulement si

Γ YZ s Z .s Y = 0 pour tout s Y , s Z . (2.9)

Soit (ek , k = 1, · · · , n Y ), respectivement ( f l , l = 1, · · · , n Z ), la base


canonique de RnY , respectivement de RnZ . Comme Γ YZ ek . f l = Γ YZ (k, l ),
il s’ensuit que (2.9) est équivalent à Γ YZ = 0. 

Remarque 14 En conséquence, les composantes d’un vecteur gaussien


sont indépendantes si et seulement si la matrice de covariance est
diagonale.

Exercice 2.27 Soit deux variable aléatoire indépendantes X ∼


N (0, 1) et Y de loi dPY = 21 (δ−1 + δ1 ).
1. Montrer que Z = YX est une variable aléatoire gaussienne.
2. Montrer que X et Z sont non corrélées.
3. Si ( X, Z ) était un vecteur gaussien, quelle serait sa loi ?
4. Calculer la loi de ( X, Z ).
5. Est-ce que ( X, Z ) est un vecteur gaussien ?
6. Est-ce que X et Z sont indépendantes ?
64 mesure intégration et probabilités

Exercice 2.28Soit X et Y deux gaussiennes centrées réduites indé-


pendantes. Montrer que les variables aléatoires X + Y et sin( X −
Y ) sont indépendantes. 

Exercice 2.29 — Sphere hardening. Soit X N un vecteur gaussien de


RN ,
centré, réduit. Soit k X N k, la norme euclidienne de X N et

0 = k X k / N.
XN N
 0 2
1. Calculer E ( X N ) .
0 )2 ].
2. Calculer var[( X N
3. Montrer que, pour tout η > 0,

0 N →+∞
P(| X N − 1| ≥ η ) −−−−→ 0.

On pourra utiliser l’inégalité de Bienaymé-Tcebycev.



3
Convergences

Définition 3.1 Pour une suite d’événéments ( An , n ≥ 1), on note


\ [
lim sup An = An
n k n≥k
[ \
lim inf An = An
n
k n≥k

 Remarque 15L’élement ω appartient à lim supn An si et seulement ω


appartient à une infinité des An .
Par ailleurs, ω ∈ lim infn An si et seulement si ω appartient à tous
les An sauf un nombre fini. Autrement dit, il existe un rang dépendant
de ω tel que ω appartienne à tous les An au delà de cet indice.
Enfin, on a de façon évidente

 c
lim sup An = lim inf Acn .
n n

Lemme 3.2 — [Link] ( An , n ∈ N∗ ) une suite d’événe-


ments. Si ∑ P( An ) < ∞ alors P(lim supn An ) = 0.
Si de plus, ces événements sont indépendants et si ∑ P( An ) =
+∞ alors P(lim supn ) = 1.

Démonstration. Les ensembles Bk = ∪n≥k An sont décroissants donc

+∞
P(lim sup An ) = lim P( Bk ) ≤ lim
n k →+∞ k→+∞ n=k
∑ P( Ak ) = 0,

en tant que reste d’une série convergente.


66 mesure intégration et probabilités

Si maintenant les ensembles sont indépendants , on peut écrire

P(lim inf Acn ) = lim P(∩n≥k Acn )


n k
= lim lim P(∩k≤n≤ N Acn )
k N
N
= lim lim ∏ P( Acn )
k N
n=k
N
= lim lim ∏ (1 − P( An )).
k N
n=k

On utilise maintenant l’inégalité 1 − x ≤ exp(− x ) pour conclure que


N
P(lim inf Acn ) ≤ lim lim ∏ exp(−P( Ak ))
n k N
n=k
N
≤ lim lim exp(−
k N
∑ P( Ak )) = 0,
n=k

d’où le résultat. 

§ 1 Convergence presque-sûre
La suite ( Xn , n ∈ N∗ ) converge presque sûrement
Définition 3.3
vers X lorsqu’il existe un mesurable A ∈ A tel que P( Ac ) = 0 et

∀ω ∈ A, ∀e > 0, ∃n(ω, e) tel que n ≥ n(ω, e) =⇒ d( Xn (ω ), X (ω )) ≤ e.

Théorème 3.4 La suite ( Xn , n ∈ N∗ ) converge presque sûrement


vers X si et seulement si
 
P lim sup(d( Xn , X ) > e) = 0. (3.1)
n

Démonstration. Soit A l’ensemble des ω pour lesquels Xn (ω ) converge


vers X (ω ). Si ω appartient à A alors pour tout e > 0, il existe un indice
n(ω, e) tel que

n ≥ n(ω, e) =⇒ d( Xn (ω ), X (ω )) ≤ e,

ce qui revient à dire que


\
ω∈ (d( Xn (ω ), X (ω )) ≤ e).
n≥n(ω,e)

Donc, pour tout e > 0,

A ⊂ lim inf(ω : d( Xn (ω ), X (ω )) ≤ e).


n
convergences 67

Réciproquement, supposons que pour tout e > 0,

P(lim inf(ω : d( Xn (ω ), X (ω )) ≤ e)) = 1 (3.2)


n

et prenons A = lim infn (ω : d( Xn (ω ), X (ω )) ≤ e). Si ω appartient à


A alors à partir d’un certain rang

d( Xn (ω ), X (ω )) ≤ e

donc Xn (ω ) tend vers X (ω ).


Il y a donc convergence presque sûre si et seulement si l’identité (3.2)
est vérifié. En passant au complémentaire, on trouve la caractérisa-
tion (3.1). 

Le théorème principal concernant la convergence presque-sûre est la


loi forte des grands nombres.

Théorème 3.5 — Loi forte des grands [Link] ( Xn , n ∈ N∗ ) une


suite de variables aléatoires (à valeurs dans R p ) indépendantes
et de même loi telle que E [k X1 kR p ] < ∞ alors
n
1 p.s.
n ∑ Xi −n−−
→∞
→ E [ X1 ] .
i =1

§ 2 Convergence en probabilité
Une suite ( Xn , n ∈ N∗ ) converge en probabilité vers
Définition 3.6
X lorsque pour tout ε > 0,

lim P(d( Xn , X ) > ε) = 0.


n→+∞

Théorème 3.7 Une suite ( Xn , n ∈ N∗ ) converge en probabilité vers


X si et seulement si
n→+∞
E [d( Xn , X ) ∧ 1] −−−−→ 0.

Démonstration. D’après l’inégalité de Markov,

P (d ( X n , X ) ∧ 1 > ε ) ≤ ε −1 E [ d ( X n , X ) ∧ 1 ] .

Par ailleurs, d’après le théorème de Fubini,


Z 1
E [d( Xn , X ) ∧ 1] = P(d( Xn , X ) ∧ 1 > ε) dε.
0

Le résultat découle des relations précédentes. 


68 mesure intégration et probabilités

Théorème 3.8La convergence presque-sûre implique la conver-


gence en probabilité mais la réciproque est fausse.

Démonstration. On a clairement
[
(d( Xn , X ) > ε ) ⊂ (d( Xk , X ) > ε ).
k≥n

Or la convergence p.s. de Xn vers X équivaut à

0 = P(lim sup(d( Xk , X ) > ε)) = lim P(∪k≥n (d( Xk , X ) > ε)),


k k →+∞

donc Xn converge en probabilité.


Réciproquement, soit ( Xn , n ∈ N∗ ) la suite de v.a. indépendantes de
loi définie par

1 1
P ( Xn = n ) = et P( Xn = 0) = 1 − .
n n

Pour 0 < ε < 1, P( Xn > ε) = n−1 donc Xn converge en probabilité vers


0. En revanche,
∑ P(Xn > ε) = +∞,
n

d’après le lemme de Borel-Cantelli, P(lim infn | Xn | ≤ ε) = 0, il n’y a


donc pas convergence presque-sûre. 

Théorème 3.9 Une suite ( Xn , n ∈ N∗ ) converge en probabilité


vers X si et seulement de toute sous-suite, on peut extraire une
sous-suite qui converge presque-sûrement vers X.

Démonstration. Si ( Xn , n ∈ N∗ ) converge en probabilité vers X, il existe


n1 tel que
n ≥ n1 =⇒ P(d( Xn , X ) > 2−1 ) ≤ 2−1 .
On construit ensuite n2 < . . . < nk tels que

n ≥ nk =⇒ P(d( Xn , X ) > 2−k ) ≤ 2−k .

D’après le lemme de Borel-Cantelli,


!
−k
P lim sup(d( Xnk , X ) > 2 ) = 0.
k

Pour P-presque tout ω, ω appartient à lim inf(d( Xnk , X ) ≤ 2−k )) donc


pour presque tout ω, quel que soit ε > 0, il existe k0 tel que

k ≥ k0 =⇒ d( Xnk , X ) ≤ ε.

Ceci signifie que la suite ( Xnk , k ∈ N∗ ) converge p.s. vers X.


convergences 69

Réciproquement, si Xn ne converge pas en probabilité vers X, il


existe une suite extraite ( Xnk , k ∈ N∗ ) telle que

P(d( Xnk , X ) > ε) ≥ ε, pour tout k. (3.3)

D’après l’hypothèse, on peut extraire de cette sous-suite, une suite qui


converge p.s. donc en probabilité. Ce dernier point est en contradiction
avec (3.3) donc X converge en probabilité vers X. 

Corollaire 3.10 Soit S et T deux espaces métriques et ( Xn , n ∈ N∗ )


une suite de v.a. à valeurs dans S qui converge en probabilité
vers X. Soit f : S → T une fonction mesurable, p.s. continue
sur X (Ω). La suite ( f ( Xn ), n ∈ N∗ ) converge en probabilité vers
f ( X ) dans T.

Démonstration. Soit ( f ( Xn ), k ∈ N0 ) une sous-suite, on sait qu’il en


existe une suite extraite ( Xn , n ∈ N00 ) qui converge p.s. vers X. Comme
f est continue, f ( Xn ) converge vers f ( X ) pour n ∈ N00 . D’après le
théorème 3.9, cela induit la convergence en probabilité de la suite
( f ( Xn ), n ∈ N ∗ ). 

Considérons maintenant une suite dénombrable d’espaces polonais


(Sk , dk ) et soit S le produit cartésien de tous ces ensembles, muni de la
topologie produit, c’est-à-dire de la topologie associée à la distance

d( x, y) = ∑ 2− k (dk ( x k , y k ) ∧ 1 ).
k

Comme Sk est séparable, B(S) = ⊗k B(Sk ) et une v.a. à valeurs dans S


est juste une suite de v.a. à valeurs dans Sk .

Théorème 3.11 Soit une suite dénombrable d’espaces polonais


(Sk , dk ) et soit S le produit cartésien de tous ces ensembles. Soit
X = ( Xk , k ∈ N∗ ) et X n = ( Xkn , k ∈ N∗ ) des v.a. de S. X n
converge en probabilité vers X si et seulement si pour tout k, Xkn
converge en probabilité vers Xk dans Sk .

Démonstration. Compte-tenu de la définition de d, on a, pour tout n,

E [d( X, X n ) ∧ 1] = E [d( X, X n )] = ∑ 2−k E [dk (Xk , Xkn ) ∧ 1] .


k

Par convergence dominée, il s’ensuit que


n→+∞ n→+∞
E [d( X, X n ) ∧ 1] −−−−→ 0 ⇐⇒ E [dk ( Xk , Xkn ) ∧ 1] −−−−→ 0,

pour tout k. 
70 mesure intégration et probabilités

Corollaire 3.12 — Lemme de Slutsky. Soit ( Xn , n ∈ N∗ ) et (Yn , n ∈


P P
N∗ ) des suites de v.a.r. telles que Xn −
→ X et Yn −
→ Y. Il découle
des théorèmes précédents que

P
aXn + bYn −
→ aX + bY
P
Xn Yy −
→ XY
P
Xn /Yn −
→ X/Y,

lorsque presque-sûrement, Y 6= 0 et Yn 6= 0 pour tout n.

Démonstration. En vertu du théorème 3.11, ( X n , Y n ) converge en pro-


babilité vers ( X, Y ). Compte-tenu du corollaire 3.10, les deux premiers
points s’ensuivent aisément. Quant au troisième, il suffit d’appliquer
le même corollaire à la fonction ( x, y) 7→ ( x/y)1{y6=0} qui est continue
p.s. au point ( X, Y ) d’après les hypothèses. 

§ 3 Convergence en loi

Nous abordons maintenant le mode de convergence le plus « faible »


mais par conséquent, le plus fréquent. Pour de plus amples détails sur
cette convergence, on pourra consulter Billingsley, Convergence of
Probability Measures ; Kallenberg, Foundations of modern probability.
Dans tout ce qui suit les variables aléatoires sont à valeurs dans Rd
donc les mesures de probabilités que l’on considère sont définies sur
Rd muni de sa tribu borélienne.
La suite (Pn , n ∈ N∗ ) converge faiblement vers la
Définition 3.13
R R
mesure de probabilités P lorsque f dPn converge vers f dP
pour toute fonction f continue bornée.
On dit que la suite de variables aléatoires ( Xn , n ∈ N∗ )
converge en loi vers la variable aléatoire X lorsque (P Xn , n ≥ 1)
converge faiblement vers P X : pour toute fonction f continue
bornée de Rd dans R, on a
n→∞
E [ f ( Xn )] −−−→ E [ f ( X )] .

La démonstration du théorème suivant est longue et fastidieuse et se


trouve dans les ouvrages sus-mentionnés. Nous l’omettrons donc. On
rappelle qu’une fonction de répartition n’est discontinue qu’en au plus
un nombre dénombrable de points. Pour un ensemble A, on note ∂A
sa frontière définie par

∂A = Ā − A.
convergences 71

Théorème 3.14 Les propriétés suivantes sont équivalentes :


(i) (P Xn , n ≥ 1) converge faiblement vers P X ,
(ii) Pour tout borélien A ∈ Rd tel que P( X ∈ ∂A) = 0,
n→∞
P( Xn ∈ A) −−−→ P( X ∈ A),

(iii) Les fonctions de répartition ( FXn , n ≥ 1) converge vers FX en


tout point de continuité de FX ,
(iv) Pour tout t ∈ Rd ,
n→∞
h i h i
E [Link] −−−→ E eit.X .

Le dernier point est connu sous le nom de théorème de Lévy.

Théorème 3.15 Si la suite ( Xn , n ∈ N∗ ) converge en probabilité


vers X alors elle converge en loi. Si X est constante alors la
réciproque est vraie.

Démonstration. Supposons que ( Xn , n ∈ N∗ ) converge en probabilité


vers X mais ne converge pas en loi. Cela revient à dire qu’il existe f
continue bornée, qu’il existe ε > 0 tel que pour tout n ≥ 1, il existe
k ≥ n et
|E [ f ( Xn )] − E [ f ( X )]| ≥ ε. (3.4)
Cela revient à dire qu’il existe une sous-suite (nk , k ≥ 1) tels que
(3.4) soit vrai le long de cette sous-suite. En vertu du théorème 3.9, on
peut alors extraire une sous-sous-suite de cette sous-suite qui converge
presque-sûrement. Mézalor, le théorème de convergence dominée im-
plique que pour cette sous-sous-suite

k→∞
h i
E f ( Xn0 ) −−−→ E [ f ( X )] ,
k

ce qui est en contradiction avec l’hypothèse (3.4). Par conséquent, la


convergence en loi a bien lieu.
Si maintenant, ( Xn , n ∈ N∗ ) converge en loi vers m déterministe. La
fonction ( x 7→ k x − mk∧1) est continue et bornée. Par conséquent,
n→∞
E [k Xn − mk∧1] −−−→ E [km − mk] = 0.

Compte-tenu de la définition 3.6, cela signifie que ( Xn , n ∈ N∗ ) converge


en probabilité vers m. 

Nous avons déjà vu que la convergence en probabilité impliquait l’exis-


tence d’une sous-suite convergeant presque-sûrement. Rien de tel pour
la convergence en loi puisqu’elle n’impose même pas que les variables
aléatoires soient définies sur le même espace de probabilités. Par contre,
72 mesure intégration et probabilités

nous disposons du théorème de couplage de Skorohod qui peut s’avé-


rer fort utile. Nous l’énonçons dans Rd mais ne ferons la preuve que
dans le cas réel (voir le théorème 3.30 du Kallenberg Kallenberg,
Foundations of modern probability).
Soit FX la fonction de répartition d’une variable
Définition 3.16
aléatoire. Pour tout t ∈ [0, 1], on pose

FX−1 (t) = inf{ x, FX ( x ) ≥ t}.

1 Figure 3.1: Inverse d’une fonction de


répartition. On remarque que les sauts
de FX engendrent des intervalles de
t3
constance de FX−1 et que les plateaux de
FX engendrent des disconuités de FX−1 .

t2
t1

FX−1 (t3 )
FX−1 (t2 ) = FX−1 (t1 )

En regardant attentivement la figure 3.1, on se convainc aisément du


lemme suivant.
Lemme 3.17 Pour tout réel x, on a l’égalité suivante :

(u : FX−1 (u) ≤ x ) = (u : u ≤ FX ( x )).

Le théorème suivant permet de construire n’importe quelle variable


aléatoire réelle sur l’espace de probabilité ([0, 1], B([0, 1]), Leb). Sa
preuve est immédiate en vue du lemme précédent.

Théorème 3.18 Soit U une variable aléatoire de loi uniforme sur


−1
[0, 1] alors FX (U ) a la loi de X.

Lemme 3.19 L’ensemble des intervalles ouverts sur lesquels FX est


constante est au plus dénombrable.

Démonstration. Pour tout réel x, considérons A x , l’intérieur de FX−1 ({ x }).


Notons que par construction, A x ∩ Ay = ∅ dès que x 6= y. Dans chacun
des A x non vide, on choisit un rationnel r x , on a donc une injection
de ( x, A x 6= ∅) dans Q donc le nombre de plateaux de FX est au plus
dénombrable. Comme les A x sont des ouverts, chacun d’entre eux est
convergences 73

une réunion (au plus dénombrable) d’intervalles ouverts mais en raison


de la croissance de FX , il ne peut à chaque fois, n’y avoir qu’un seul
intervalle dans A x . 

Lemme 3.20Soit ( Xn , n ∈ N∗ ) une suite de variables aléatoires


convergeant en loi vers X. La suite de fonctions ( FX−n1 , n ≥ 1)
converge Lebesgue presque-partout vers FX−1 .

 Remarque 16 Une preuve rapide et intuitive marche dans le cas où


FX est continue et strictement croissante. D’après le lemme de Dini, la
convergence des Fn est alors uniforme, ce qui veut dire que pour tout
ε > 0, à partir d’un certain les graphes Γn des fonctions ( x, Fn ( x )) sont
dans un tube de hauteur ε autour de Γ, celui de ( x, F ( x )). Comme le
graphe de (y, FX−n1 (y)) (respectivement Γ) est le symétrique par rapport
à la première bissectrice de Γn (respectivement Γ) donc pour tout u ∈ R,
FX−n1 (u) tend vers FX−1 (u).

Démonstration. Posons

X + (u) = inf{ x, FX ( x ) > u}


X − (u) = FX−1 (u) = inf{ x, FX ( x ) > u}.

Théorème 3.21 — Théorème de couplage de Skorohod. Soit ( Xn , n ∈


N∗ ) une suite de variables aléatoires convergeant en loi vers X.
Il existe ( Xn0 , n ∈ N∗ ) et X 0 construites sur le même espace de
probabilité telles que

loi loi p.s.


Xn0 = Xn , X 0 = X et Xn0 −−−→ X 0 . (3.5)
n→∞

Démonstration. On pose

Xn0 = FX−n1 (U ), X 0 = FX−1 (U )

où U est une variable aléatoire uniforme sur [0, 1]. Compte-tenu du


lemme 3.20 et du théorème 3.18, les propriétés de (3.5) sont verifiées.


Delta méthode
Soit ( Xn , n ∈ N∗ ) une suite de vecteurs aléatoires (dans Rd ) indé-
pendants et identiquement distribués. On note E [ X ] le vecteur moyen
et Γ X la matrice de covariance :

Γ X (i, j) = cov( X (i ), X ( j)).


74 mesure intégration et probabilités

D’après la loi forte des grands nombres,


n
1 n→∞
Sn =
n ∑ Xj −−− → E [ X ] ∈ Rd
p.s.
j =1

et le TCL indique que


√ n→∞
n(Sn − E [ X ]) −−−→ N (0, Γ X ).
loi

On peut être amené à considérer des fonctions des composantes de


X. Soit ψ : Rd → R différentiable au voisinage de E [ X ]. D’après le
principe de continuité,
n→∞
ψ(Sn ) −−−→ ψ(E [ X ]) ∈ R.
p.s.

La delta-méthode est destinée à trouver des intervalles de confiance


pour cette convergence.

Théorème 3.22 Sous les hypothèses qui précèdent,


√ n→∞
 
n (ψ(Sn ) − ψ(E [ X ])) −−−→ N 0, ∇ψ(E [ X ]) Γ X (∇ψ(E [ X ]))t .
loi

Démonstration. D’après la formule de Taylor, on peut écrire

ψ( x ) = ψ(E [ X ]) + ∇ψ(E [ X ]).( x − E [ X ]) + Rn ( x ) (3.6)

avec
k Rn ( x )k= o (k x − E [ X ] k).
D’après le théorème 3.21, on peut construire Sn0 de même loi que Sn
et une variable aléatoire G de loi gaussienne centrée, de covariance Γ X
telle que n1/2 (Sn0 − E [ X ]) tende p.s. vers G (et donc Sn0 tend p.s. vers
E [ X ]). D’après (3.6),
√ √
k nR(Sn0 )k= o ( nkSn0 − E [ X ] k)

et n(Sn0 − E [ X ]) tend vers G donc
√ p.s.
nR(Sn0 ) = o (1) −−−→ 0.
n→∞

Par conséquent,
√  p.s.
n ψ(Sn0 ) − ψ(E [ X ]) −−−→ ∇ψ(E [ X ]).G.
n→∞

D’après le cours sur les gaussiennes, on sait que

loi
∇ψ(E [ X ]).G = N (0, ∇ψ(E [ X ]) Γ X (∇ψ(E [ X ]))t ).

Le résultat s’en déduit. 


convergences 75

Application aux chaînes de Markov


On sait que la probabilité stationnaire d’une chaîne de Markov
irréductible, récurrente peut s’écrire
" #
τx −1
1
π (y) = E x ∑ 1 X j =y
E [τx1 ] j =0

où τx1 est l’instant de premier retour en x partant de x. De manière plus


générale  
τx1 −1
1
z̄ = ∑ f (y)π (y) = E x  ∑ f ( X j ) .
y∈ E E [τx1 ] j =0

Simulons R cycles de x à lui-même, soit (d1 , · · · , d R ) leur longueur, i.e.


j j −1
d j = τx − τx . Soit
τxl
Yl = ∑ f ( X j ).
j=τxl −1
 
Les (dk , Yk ), k ∈ {1, · · · , R} sont indépendants et identiquement
distribués donc
R
1 p.s.
τ̂R =
R ∑ dk −−→ Ex [τx ] = τ̄
k =1
" #
R τx −1
1 p.s.
ŶR =
R ∑ Yl −−→ Ex ∑ f ( X j ) = ȳ
k =1 j =0
√  
loi
R (τ̂R , ŶR ) − (τ̄, ȳ) −−→ N (0, Γ)

avec !
var(τx1 ) cov(τx1 , Y1 )
Γ= .
cov(τx1 , Y1 ) var (Y12 )

Théorème 3.23 Un estimateur consistant mais biaisé de z̄ est donné


par
ŶR
ẑ R = ·
τ̂R
La précision de cet estimateur est donné par
√ Loi
R (ẑ R − z̄) −−→ N (0, η 2 )


ȳ2 ȳ 1
η 2 = γ11 4
− 2γ12 3 + γ22 2 ·
τ̄ τ̄ τ̄
76 mesure intégration et probabilités

L’intervalle de confiance à 95% est donc donné par

1,95 ηR 1,95 η
z̄ ∈]ẑ R − √ , ẑ R + √ R [.
R R

Démonstration. Soit

ϕ : R∗ × R −→ R
( x, y) 7−→ y/x.

Son jacobien est  


y 1
∇ ϕ( x, y) = − 2, ·
x x

D’après le théorème 3.22, R (ẑ R − z̄) converge en loi vers une gaus-
sienne de matrice de covariance

ȳ 1 t
   
ȳ 1
ηR2 = − 2, Γ − 2,
τ̄ τ̄ τ̄ τ̄
1 t
  
ȳ 1 ȳ 1 ȳ
= − 2, −γ11 2 + γ12 , −γ12 2 + γ22
τ̄ τ̄ τ̄ τ̄ τ̄ τ̄
ȳ2 ȳ 1
= γ11 − 2γ12 3 + γ22 2 ·
τ̄ 4 τ̄ τ̄
D’où le résultat. 

Comme on ne connaît pas a priori ni les γij , ni ȳ, ni τ̄ on les remplace


par leur version « empirique » : τ̄ est remplacé par τ̂R , ȳ est remplacé
par ŶR et γij par

R
1
R − 1 k∑
R
γ̂12 = dk Yk − τ̂R ŶR
=1
R
1
γ̂11 = ∑ d2 − τ̂R2
R − 1 k =1 k
R
1
γ̂22 = ∑ Y 2 − ŶR2
R − 1 k =1 k

§ 4 Exercices

Soit ( Xn , n ∈ N) une suite de v.a. de moyenne µn et


Exercice 3.1
de variance σn2 . Soit (bn , n ∈ N) une suite de réels positifs tels
convergences 77

que σn2 /bn2 tende vers 0. Montrer que

Xn − µ n
tend vers 0 en probabilité.
bn


Exercice 3.2 — Borne de Chernoff. Soit X une v.a. de loi de Poisson


de paramètre λ.
   
1. Montrer que X ≥ η = exp(θX ) ≥ exp(θη ) pour tout
θ > 0.
2. Montrer que, pour tout θ ≥ 0,

P( X ≥ η ) ≤ e−ηθ E [exp(θX )] . (3.7)

3. Calculer E [exp(θX )].


4. Trouver θ qui minimise le terme de droite de (3.7).
5. Trouver K tel que P( X ≥ Kλ) ≤ 0, 001.


Exercice 3.3On veut collectionner N images dont une et une seule


apparaît dans chaque tablette de chocolat achetée. Les images
sont mises au hasard dans les tablettes. On appelle Ti le nombre
de tablettes nécessaires avant d’avoir i images distinctes. On pose
T0 = 0.
1. Montrer que Ti+1 − Ti suit une loi géométrique de paramètre
1 − i/N.
2. Montrer que les variables aléatoires T0 , T1 − T0 , . . . , TN − TN −1
sont indépendantes dans leur ensemble.
3. Calculer l’espérance et la variance de TN . Trouver un équivalent
de l’espérance et montrer que la variance est un O( N 2 ) quand
N tend vers +∞.
4. En utilisant l’exercice 3.1, montrer que TN /( N log N ) tend vers
1 en probabilité.


Soit X1 , . . . , Xn
Exercice 3.4 — Inversion de la transformée de Laplace.
des variables aléatoires réelles, indépendantes, de même loi expo-
nentielle de paramètre λ.
1. Calculer la loi de leur somme.
78 mesure intégration et probabilités

2. À l’aide de ce résultat et du théorème central limite, montrer


que l’on a

( xy)n−1 1
Z
lim xe−yx dy = 1( x=α) + 1( x>α) .
n→∞ [0,n/α] ( n − 1) ! 2

Pour X variable aléatoire positive, on pose

G (s) = E [exp −sX ] , pour s ≥ 0.

3. En déduire que

(−1)n n dn G (s) 1
Z
lim s ds = P( X = α) + P( X > α).
n→∞ [0,n/α] ( n − 1) ! dsn 2

yy

4
Modélisation

§ 1 Marche aléatoire

On suit la présentation des pages 80 et suivantes de Grimmett


et Stirzaker, Probability and Random Processes. On peut obtenir
bien d’autres résultats, notamment des théorèmes limites, par la
théorie des martingales.

§ 2 Processus de Poisson

Les résultats de cette partie sont extraits de Decreusefond et


Moyal, Stochastic Modeling and Analysis of Telecom Networks.
Deuxième partie

Préparation aux oraux


5
Chaînes de Markov

§ 1 Version simple

Définition 5.1 Soit ( Xn , n ∈ N) une suite de variables aléatoires


à valeurs dans E fini ou dénombrable. La suite ( Xn n ∈ N)
est une chaîne de Markov si pour tout entier n, pour tout
x0 , x1 , . . . , xn+1 ∈ E,

P ( X n + 1 = x n + 1 | X0 = x 0 , X1 = x 1 , . . . , X n = x n )
= P( Xn+1 = xn+1 | Xn = xn ). (5.1)

On dit d’une chaîne de Markov qu’elle « oublie son passé » : condition-


nellement à la variable aléatoire Xn (l’état présent), la variable aléatoire
Xn+1 (l’état futur) ne dépend pas des variables aléatoires X0 , . . . , Xn−1
(les états passés). Plus généralement, toute l’évolution future d’une
chaîne de Markov ne dépend que de son état présent :

Théorème 5.2 Pour tout n ∈ N, pour tout k ≥ 1, pour tout


x0 , x1 , . . . , xn+k ∈ E, on a :

P ( X n + 1 = x n + 1 , . . . , X n + k = x n + k | X0 = x 0 , X1 = x 1 , . . . , X n = x n )
= P ( X n +1 = x n +1 , . . . , X n + k = x n + k | X n = x n ).

Démonstration. Par récurrence sur k. La propriété est vraie pour k = 1


par définition. On suppose qu’elle est vraie pour un certain k ≥ 1. Alors,
84 mesure intégration et probabilités

pour tout n ∈ N, pour tout x0 , x1 , . . . , xn+k ∈ E, on a

P ( X n + 1 = x n + 1 , . . . , X n + k + 1 = x n + k + 1 | X0 = x 0 , X1 = x 1 , . . . , X n = x n )
= P ( X n + 1 = x n + 1 , . . . , X n + k = x n + k | X0 = x 0 , X1 = x 1 , . . . , X n = x n )
× P ( X n + k + 1 = x n + k + 1 | X0 = x 0 , X1 = x 1 , . . . , X n + k = x n + k ) ,
= P ( X n +1 = x n +1 , . . . , X n + k = x n + k | X n = x n )
× P ( X n + k +1 = x n + k +1 | X n + k = x n + k ),
= P ( X n +1 = x n +1 , . . . , X n + k = x n + k | X n = x n )
× P ( X n + k +1 = x n + k +1 | X n = x n , X n +1 = x n +1 , . . . , X n + k = x n + k ),
= P ( X n +1 = x n +1 , . . . , X n + k +1 = x n + k +1 | X n = x n ),
où l’on a utilisé (5.1), l’hypothèse de récurrence et la définition des
chaînes de Markov pour obtenir la seconde égalité, et à nouveau la
définition des chaînes de Markov pour obtenir la troisième égalité. 

Pour prédire l’évolution d’une chaîne de Markov, on peut simple-


ment considérer les maillons de cette chaîne, correspondant aux transi-
tions successives d’un état à l’autre :
Théorème 5.3 On a : ∀n ∈ N, ∀k ≥ 1, ∀ xn , xn+1 , . . . , xn+k ∈ E,

P( Xn+1 = xn+1 , . . . , Xn+k = xn+k | Xn = xn ) = P( Xn+1 = xn+1 | Xn = xn )×


P ( X n +2 = x n +2 | X n +1 = x n +1 ) × . . . × P ( X n + k = x n + k | X n + k −1 = x n + k −1 ).

Démonstration. Par la formule des probabilités composées,

P ( X n +1 = x n +1 , . . . , X n + k = x n + k | X n = x n )
= P ( X n +1 = x n +1 | X n = x n ) × P ( X n +2 = x n +2 | X n +1 = x n +1 , X n = x n )
× . . . × P ( X n + k = x n + k | X n = x n , . . . , X n + k −1 = x n + k −1 ).
La preuve découle alors de la définition des chaînes de Markov. 

Ce qui suit est la copie quasi conforme du chapitre correspondant


dans Decreusefond et Moyal, Stochastic Modeling and Analysis of
Telecom Networks.

§ 2 Définition et exemples

Considérons donc une suite de variables aléatoires X = ( Xn , n ≥ 0)


à valeurs dans E fini ou dénombrable et indexée par les entiers, et la
filtration Fn = σ { X j , 0 ≤ j ≤ n} engendrée par cette suite.
Les trajectoires sont des éléments de EN , c’est-à-dire des suites
d’éléments de E. Le décalage est alors défini par :
θ : EN −→ EN
( x0 , x1 , · · · ) 7−→ ( x1 , x2 , · · · ).
chaînes de markov 85

On aura souvent besoin du ne itéré de θ, noté θ n et défini par :

θ n : EN −→ EN
( x0 , x1 , · · · ) 7−→ ( xn , xn+1 , xn+2 , · · · ).

Par la suite, on identifiera θ et θ 1 . Par la même méthode que dans le


théorème 5.3, on peut montrer que

P ( X0 = x 0 , . . . , , X n + k + 1 = x n + k + 1 | X0 = x 0 , X1 = x 1 , . . . , X n = x n )
= P ( X0 = x 0 , X1 = x 1 , . . . , X n = x n | X n = x n )
× P ( X n +1 = x n +1 , . . . , X n + k +1 = x n + k +1 | X n = x n ).

Cela se traduit par la définition suivante.


La suite X est une chaîne de Markov lorsque pour
Définition 5.4
tout n ≤ m, la tribu Fn est indépendante de la tribu σ ( Xm ) condi-
tionnellement à σ ( Xn ). En d’autres termes, pour toute fonction
F et G bornées, on a :

E [ F ( X0 , · · · , X n ) G ( X m ) | X n ] = E [ F ( X0 , · · · , X n ) | X n ] E [ G ( X m ) | X n ] .
(5.2)

En vertu du corollaire 6.21, on sait que cette propriété est équivalente à


l’indépendance du passé et du futur conditionnellement au présent, ce
qui s’exprime par :

E [ F ( X0 , · · · , Xn ) G ◦ θ n | Fn ] = F ( X0 , · · · , Xn )E [ G ◦ θ n | Xn ] . (5.3)

En particulier, pour G = 1{y} ( X1 ), pour tout entier n, on obtient :

P ( X n +1 = y | F n ) = P ( X n +1 = y | X n ).

Définition 5.5 La chaîne de Markov X est dite homogène lorsque :

P ( X n +1 = y | X n = x )

ne dépend pas de n mais seulement de x et y. On notera cette


quantité p( x, y) et on appelle P = (P( X1 = y | X0 = x ), x, y ∈
E) l’opérateur de transition de X. Si E est de cardinal fini, P
s’identifie à une matrice qui a autant de lignes et de colonnes
que d’éléments dans E.

 Un rat se déplace dans le labyrinthe à sept cases représenté


Exemple 5.1
dans la figure 5.1. Il passe d’une case à l’autre uniformément suivant
les possibilités qui lui sont offertes, c’est-à-dire que lorsqu’il y a deux
(respectivement trois) sorties dans la case où il se trouve, il va dans
chacune des cases possibles avec une probabilité d’un demi (respective-
ment d’un tiers). Son évolution est sans mémoire : chaque changement
86 mesure intégration et probabilités

ne dépend que de la situation courante, pas du passé. On appelle Xn la


position du rat après son ne mouvement, X0 est sa position initiale.

Figure 5.1: Le labyrinthe

1 2 3

4 5 6

Ici, E = {1, 2, 3, 4, 5, 6, 7} et la matrice de transition se déduit


aisément de la figure 5.1 :

1 1
 
0 2 0 2 0 0 0
1 0 1
0 1
0 0
3 3 3 

0 1 1 
2 0 0 0 2 0
1 1 1

P=
3 0 0 0 3 0 3
0 1 1 1
 3 0 3 0 3 0

0 1 1 
0 2 0 2 0 0
0 0 0 1 0 0 0

 Partant d’un score vierge, on lance deux dés non pipés. Si


Exemple 5.2
la somme est différente de 7, on ajoute cette somme au score courant
et on rejoue. Sinon le score s’annule et la partie s’arrête. On appelle
Xn le score après le ne lancer. Il faut distinguer ici deux états 0 si l’on
veut que X soit une chaîne homogène. En effet, on peut quitter le 0 du
départ mais on ne peut pas quitter le 0 consécutif à un 7. On prend
donc espace d’états, E = N ∪ {δ}, δ est ce qu’il est convenu d’appeler
un point cimetière. Les transitions sont alors données pour tout i 6= δ
par :

P ( X n +1 = i + 2 | Xn = i ) = P ( X n +1 = i + 12 | Xn = i ) = 1/36
P ( X n +1 = i + 3 | Xn = i ) = P ( X n +1 = i + 11 | Xn = i ) = 2/36
P ( X n +1 = i + 4 | Xn = i ) = P ( X n +1 = i + 10 | Xn = i ) = 3/36
P ( X n +1 = i + 5 | Xn = i ) = P ( X n +1 = i + 9 | Xn = i ) = 4/36
P ( X n +1 = i + 6 | Xn = i ) = P ( X n +1 = i + 8 | Xn = i ) = 5/36
P ( X n +1 = δ | Xn = i ) = 1/6
P ( X n +1 = δ | Xn = δ ) = 1.


chaînes de markov 87

La définition même d’une chaîne de Markov implique que toute son


évolution est déterminée par la loi de la position initiale que l’on notera
ν et l’opérateur de transition P.

Théorème 5.6Pour tout n, la loi jointe de ( X0 , · · · , Xn ) est déter-


minée par la loi de X0 et P à partir de la formule suivante :

m −1
P( X0 = x0 , · · · , Xm = xm ) = ν({ x0 }) ∏ p ( x l , x l +1 ) ,
l =0

pour tout n et tout x0 , · · · , xn dans E.

 Remarque 17 Par la suite, nous noterons Pν la loi d’une chaîne de


Markov avec loi initiale ν. Par abus de notation, P x représentera la loi
de la chaîne si le point de départ est fixe, égal à x ∈ E. Comme E est au
plus dénombrable, on peut numéroter les états : utiliser une injection
qui existe entre E et N. On peut alors supposer que E ⊂ N. On retrouve
alors le formalisme des vecteurs et matrices même si l’on est amené à
manipuler de tels objets avec un nombre infini de composantes... On
considère souvent le « vecteur » πn défini par πn ( x ) = P( Xn = i ) pour
i ∈ E ⊂ N. Il est usuel de le considérer comme un vecteur ligne. Pour
tout n, la relation :

P ( X n +1 = j ) = ∑ P ( X n +1 = j | X n = i ) P ( X n = i )
i∈E
= ∑ P(Xn = i) p(i, j), j ∈ E,
i∈E

se lit en notation matricielle :

πn+1 = πn .P soit πn = π0 .Pn (5.4)

où Pn est la ne puissance de P. En particulier, si π0 n’est composé que


de 0 sauf un 1 en ie position (ce qui revient à travailler sous Pi ) alors
pour tout j ∈ E, on a :

Pi ( Xn = j) = p(n) (i, j)

où p(n) (i, j) est le terme en ie ligne et je colonne de Pn .


Comme Pn+m = Pn Pm , on déduit de (5.4) l’équation de Chapman-
Kolmogorov :

p(n+m) ( x, y) = ∑ p(n) (x, z) p(m) (z, y), (5.5)


z∈ E

valable pour tout n, m, toute condition initiale et tout état final. On


l’a écrite ici sous forme « intrinsèque », c’est-à-dire sans tenir compte
de l’injection mentionnée plus haut. Les deux exemples qui suivent
illustrent l’intérêt de l’opérateur shift.
88 mesure intégration et probabilités

Exemple 5.3 — Suite de 5.1. Supposons qu’il y ait un bout de fromage en


case 3 et une batterie en case 7. On veut calculer la probabilité que le
rat puisse manger avant d’être électrocuté. Introduisons :

τ3 = inf{n ≥ 0, Xn = 3} et τ7 = inf{n ≥ 0, Xn = 7}.

On pose ui = Pi (τ3 < τ7 ). Il est clair que u3 = 1 et que u7 = 0. Pour


i 6∈ {3; 7},
7
ui = ∑ Pi (τ3 < τ7 | X1 = j)Pi (X1 = j).
j =1

Puisque i est différent de 3 et 7, l’événement (τ3 < τ7 ) est Pi presque


sûrement égal à A1 où :

Al = ω, ∃i ≥ l tel que ωi = 3 et ω j ∈ {1, 2, 4, 5, 6} pour tout l ≤ j < i
= { postérieurement à l’instant l, on atteint 3 avant 7} .

Comme 1 A1 = 1 A0 ◦ θ, on a :

Pi (τ3 < τ7 | X1 = j) = P j (τ3 < τ7 ).

Compte tenu du fait que Pi ( X1 = j) = p(i, j) on voit que les ui sont


solutions du système linéaire :

6
u3 = 1, u7 = 0, ui = ∑ p(i, j)u j pour i 6∈ {3; 7}.
j =1

La résolution de ce système donne u1 = 7/12, u2 = 3/4, u4 = 5/12, u5 =


2/3, u6 = 5/6.
Sans fromage et batterie, calculons maintenant le temps moyen
d’atteinte de la case 3. Posons vi = Ei [τ3 ] . Il est clair v3 = 0. Par
ailleurs, pour i 6= 3, on a :

7
Ei [τ3 ] = ∑ Ei [τ3 | X1 = j] p(i, j).
j =1

Si l’on a comme trajectoire ω = (1, 2, 5, 2, 5, 6, 3, · · · ) alors τ3 (ω ) = 6


mais τ3 (θω ) = 5. Plus généralement, on a, conditionnellement à X0 6= 3,
τ3 = τ3 ◦ θ + 1. Par conséquent, on a :

7 7
∑ ∑ p(i, j)v j + 1,

vi = Ei [τ3 ◦ θ | X1 = j] + 1 p(i, j) =
j =1 j =1

d’après la relation (5.3). Les vi sont donc les solutions d’un système
linéaire à six équations et six inconnues qu’il ne vous reste plus, cher
lecteur, qu’à résoudre. 
chaînes de markov 89

Simulation
Rappelons d’abord comment simuler une loi ν sur un ensemble au
plus dénombrable E. Les états sont numérotés grâce à une bijection φ
entre E et un sous-ensemble de N. On pose ensuite :
n
r0 = ν({φ−1 (0)}) et rn = ∑ ν({φ−1 ( j)}) = ν(φ−1 ({0, · · · , n})).
j =0

Algorithme 5.1 : Réalisation d’une variable aléatoire de loi ν


Données : r0 , r1 , · · ·
Résultat : un élément de E choisi selon la loi ν
x← réalisation d’une loi uniforme sur [0, 1];
n← 0;
tant que x > rn faire
n ← n+1
fin
retourner φ−1 (n)
Dans une chaîne de Markov, lorsque l’on est à l’état x, on passe à
l’état y avec probabilité p( x, y). Pour passer d’une étape à l’autre, il
suffit d’appliquer l’algorithme précédent à la loi µ = ( p( x, y), y ∈ E).
Algorithme 5.2 : Simulation d’une trajectoire d’une chaîne de
Markov (ν, P)
Données : ν, P, N
Résultat : une trajectoire à N pas de la chaîne de Markov (ν, P)
Choisir x0 condition initiale selon ν;
pour compteur ← 1 à N faire
Choisir xcompteur selon la loi ( p( xcompteur−1 , y), y ∈ E);
fin
retourner x0 , x1 , · · · , x N

§ 3 Propriété de Markov forte

Pour T temps d’arrêt, sur ( T < ∞), on définit θ T par :


θ T (ω ) = (ωT (ω ) , ωT (ω )+1 , · · · ).
Pour x ∈ E, on définit :

∞ si Xn 6= x pour tout n > 0;
τx1 =
inf{n > 0, Xn = x } sinon.

∞ si τxk−1 = ∞ ou Xn 6= x pour tout i > τxk−1
τxk =
inf{n > τ k−1 , Xn = x } sinon.
x

Pour tout k, τxk est l’instant du ke passage de la chaîne X à l’état


x.
90 mesure intégration et probabilités

Lemme 5.7 Pour x fixé dans E, sur l’événement {τx1 < ∞}, on a :
k −1
τxk = τxk−1 + τx1 ◦ θ τx . (5.6)

Démonstration. Si τxk−1 = ∞ alors on a ∞ des deux côtés de l’égalité.


Sinon, le résultat est immédiat à partir du moment où l’on se persuade
k −1
que θ τx (ω ) représente la partie de la trajectoire postérieure à la (k −
1)e visite à l’état x. Par conséquent, la première visite après la (k − 1)e
(si elle existe) est la ke visite depuis le début. 

Théorème 5.8 Soit T un temps d’arrêt presque sûrement fini et


F : Ω → R+ une variable aléatoire intégrable. On a l’identité
suivante : h i
E F ◦ θ T | F T = E [ F | X0 = X T ] . (5.7)

Pour calculer le terme de droite, on calcule E [ F | X0 = x ] = φ( x )


et l’on a :
E [ F | X0 = X T ] = φ ( X T ) .

Démonstration. Pour A ∈ F T , puisque A ∩ { T = n} ∈ Fn et en utilisant


(5.3) et les propriétés de l’espérance conditionnelle, il vient :

h i ∞ h i
E F ◦ θ T .1 A = ∑E F ◦ θ n .1 A∩{T =n}
n =0
∞ h i
= ∑ E E [ F ◦ θ n | Fn ] 1 A∩{T =n}
n =0
∞ h i
= ∑E E [ F | X0 = Xn ] 1 A∩{T =n}
n =0
= E [ E [ F | X0 = X T ] 1 A ]

L’égalité est vraie par linéarité pour toutes les fonctions étagées et donc
pour toutes les fonctions positives. 

 Remarque 18 Soit la chaîne de Markov à deux états 0 et 1, et de matrice

de transition p0,0 = 0,9, p1,1 = 1. Soit T = sup{n ≥ 1, Xn = 0}. Sous P0 ,


T = Y − 1 où Y suit une loi géométrique de paramètre 0,1. Il s’ensuit
T est presque sûrement fini. Or, P0 ( XT +1 = 1 | XT = 0) = 1, qui est
différent de P0 ( Xn+1 = 1| Xn = 0) = 0,1.
Cet exemple illustre que l’on ne peut pas supprimer l’hypothèse « T
temps d’arrêt » dans la propriété de Markov forte. Il est clair qu’ici T
n’est pas un temps d’arrêt car savoir si T est inférieur à n nécessite
de connaître la trajectoire après l’instant n pour être sur que l’on ne
repassera pas par 0 après n.
chaînes de markov 91

§ 4 Classification des états

On note Nx le nombre de visites à l’état x après le départ :



Nx = ∑ 1 { Xn = x } .
n =1

n o
Lemme 5.9 Pour tout k, les deux événements { Nx ≥ k} et τxk < ∞
coïncident.

Démonstration. Nx ≥ k signifie qu’il y a eu plus de k visites à l’état x,


ce qui est très exactement équivalent à dire que τxk < ∞. 

Un état x est dit récurrent lorsque P x τx1 < ∞ = 1.



Définition 5.10
Sinon, x est dit transient. La chaîne X est dite récurrente (respec-
tivement transiente) si tous ses états sont récurrents (respective-
ment transients).

Lemme 5.11 Pour tout couple ( x, y) de E, on a :

Py (τxk < ∞) = P x (τx1 < ∞)k−1 Py (τx1 < ∞). (5.8)


 
En particulier, si x = y, P x τxk < ∞ = P x (τx1 < ∞)k . Par
ailleurs, on a :

Py (τx1 < ∞)
Ey [ Nx ] = = ∑ p(n) (y, x ). (5.9)
1 − P x (τx1 < ∞) n ≥1

- Prenant comme instant présent celui de la ke visite à l’état x, d’après


la propriété de Markov forte, le passé et le futur conditionnellement à
cette visite sont indépendants. Par conséquent, sachant que l’on a déjà
visité k fois l’état x, la probabilité que l’on revienne en x une (k + 1)e
fois est la même que lors de la première visite en x on revienne au
moins une fois. De plus, ces deux événements sont indépendants.

Démonstration. Pour k > 2, d’après (5.6) et (5.7), on a :

k −1
Py (τxk < ∞) = Py (τxk−1 < ∞, τx1 ◦ θ τx < ∞)
k −1
h i
=Ey 1{τ k−1 <∞} Py (τx1 ◦ θ τx <∞ | Fτ k−1 )
x x
h i
1
=Ey 1{τ k−1 <∞} Py (τx < ∞ | X0 = Xτ k−1 )
x x
h i
1
=Ey 1{τ k−1 <∞} Py (τx < ∞ | X0 = x )
x
h i
=Ey 1{τ k−1 <∞} Py (τx1 < ∞)
x

=Py (τxk−1 < ∞)Py (τx1 < ∞),


92 mesure intégration et probabilités

et on retrouve (5.8) par récurrence.


Maintenant, d’après le théorème de Fubini, on peut écrire :

Ey [ Nx ] = ∑ Py ( Nx ≥ k) = ∑ Py (τxk < ∞).


k ≥1 k ≥1

La première égalité de (5.9) en découle. Toujours d’après le théorème


de Fubini et (5.9), on a :
∞ ∞ ∞
" #
h i
Ey [ Nx ] = Ey ∑ 1{ Xn = x} = ∑ Ey 1{ Xn = x} = ∑ p(n) (y, x ),
n =1 n =1 n =1

d’où le résultat. 

Le théorème suivant permet de donner les différentes caractérisations


de la récurrence et de la transience.
Théorème 5.12 Soit x un état fixé.
1. Les assertions suivantes sont équivalentes :
(a) x est récurrent,
(b) P x ( Nx = ∞) = 1,
(c) E x [ Nx ] = ∞.
2. Les assertions suivantes sont équivalentes :
(a) x est transient,
(b) P x ( Nx < ∞) = 1,
(c) E x [ Nx ] < ∞.

Démonstration. Montrons d’abord que a ⇒ b. D’après (5.9) et le lemme [5.11] :

P x ( Nx > k) = P x (τxk < ∞) = P x (τx < ∞)k , (5.10)


et d’après le théorème de convergence monotone :

P x ( Nx = ∞) = lim P x ( Nx > k). (5.11)


k→∞

La récurrence de x signifie P x (τx < ∞) et implique donc Nx = ∞, P x


presque sûrement. Par conséquent, x récurrent implique que P x (τx1 <
∞) = 1. Par le même raisonnement, x transient implique P x (τx1 < ∞) <
1.
b ⇒ c. Immédiat dans le cas de x récurrent. Pour l’autre cas, utilisons
la relation :
E x [ Nx ] = ∑ P x (τx < ∞)k . (5.12)
k ≥0
Comme Nx est fini presque sûrement, d’après (5.11), P x ( Nx > k ) tend
vers quand k tend vers l’infini. D’après (5.10) ceci implique que P x (τx <
∞) < 1 donc que la série converge.
c ⇒ a. Dans les deux cas, la relation (5.12) permet de conclure. 
chaînes de markov 93

Définition 5.13 On dit qu’un état x conduit à un état y et on le


note x −→ y, s’il existe un entier strictement positif m tel que
p(m) ( x, y) > 0 . Ce qui revient à dire que P x (τy1 < ∞) = 1.

Théorème 5.14 Si x est un état récurrent et x −→ y, alors y −→ x


et y est récurrent.

- Partant de x on sait que l’on va presque sûrement en y, si de y il y a


un risque de ne pas revenir en x on va finir par effectivement ne pas
y revenir ; on ne fera donc qu’un nombre fini de visites à x ce qui est
incompatible avec l’hypothèse de récurrence. De plus, si de y on est
presque sûr de revenir en x et que l’on passe une infinité de fois par x
on passera vraisemblablement une infinité de fois en y aussi.

Démonstration. Montrons par l’absurde que y conduit à x en écrivant


que la probabilité de ne jamais revenir en x en étant parti de x est
supérieure à la probabilité de la même chose mais en passant une fois
par y :

P x (τx = ∞) ≥ P x (τx ◦ θ τy = ∞, τy < ∞)


= P x (τy < ∞)Py (τx = ∞),

d’après la propriété de Markov forte. Si y ne conduit pas à x, cette


quantité est strictement positive ce qui est en contradiction avec la
récurrence de x. De même, on a :

Py (τy < ∞) ≥ Py (τy ◦ θ τx < ∞, τx < ∞)


= Py (τx < ∞)P x (τy < ∞) = 1,

donc y est récurrent. 

Théorème 5.15 La relation −→ restreinte aux états récurrents est


une relation d’équivalence.

Démonstration. La réflexivité, c’est-à-dire x −→ x, est induite par la


définition même d’un état récurrent. La symétrie, c’est-à-dire x −→
y =⇒ y −→ x, découle du théorème [5.14]. Soit x, y et z trois états
de E tels que x −→ y et y −→ z. Par définition, il existe deux entiers
positifs que nous appelons r et s tels que p(r) ( x, y) > 0 et p(s) (y, z) > 0.
L’équation de Chapman-Kolmogorov implique que :

p(r+s) ( x, z) = ∑ p(r) (x, `) p(s) (`, z).


`∈ E

Tous les termes de cette somme sont positifs et il existe au moins un


terme strictement positif : p(r) ( x, y) p(s) (y, z). Nous avons donc trouvé
un entier positif, r + s, tel que p(r+s) ( x, z) > 0, d’où le résultat. 
94 mesure intégration et probabilités

L’ensemble des points récurrents peut donc être partitionné en classes


d’équivalence. Par définition, un état appartenant à une classe conduit à
tous les autres états de cette classe et ne conduit à aucun état récurrent
appartenant à une autre classe ni à un état transient. En revanche, un
état transient peut conduire aussi bien à un état transient qu’à un état
récurrent.
Définition 5.16 Un sous-ensemble F de E est dit fermé, si pour tout
x et y :
( x ∈ F et x −→ y) =⇒ y ∈ F.
Autrement dit, ∑y∈ F p( x, y) = 1 pour tout x ∈ F.

Théorème 5.17Tout ensemble fermé de cardinal fini contient au


moins un point récurrent.

Démonstration. Soit F un ensemble fermé, si tous ses états sont tran-


sients, on a :
Ey [ Nx ] = Py (τx1 < ∞)E x [ Nx ] < ∞

pour tout couple ( x, y) de F. Comme F est de cardinal fini, ∑ x∈ F Ey [ Nx ] <


∞. Or, on a la suite d’identités :
" # " #
∑ Ey [ Nx ] = ∑ Ey ∑ 1{Xn =x} = ∑ E y ∑ 1 { Xn = x }
x∈ F x∈ F n ≥0 n ≥0 x∈ F

= ∑ 1 = ∞,
n ≥0

puisque F est fermé. On a abouti à une absurdité, il existe donc au


moins un point récurrent. 

 Exemple 5.4Il est souvent simple d’avoir une représentation graphique


de la matrice de transition d’une chaîne de Markov . Pour ce faire, on
construit un graphe orienté dont les sommets correspondent aux états.
L’arête (orientée) x, y a comme poids la probabilité de transition de x
vers y. Si cette probabilité est nulle, l’arête n’existe pas. Considérons la
chaîne de Markov de matrice de transition :
 
0.8 0.1 0 0.1 0 0
0 0 1 0 0 0 
 
1 999
 
0 0 0 0 
P=  1000 1000 .
0 0 0 0 1 0 

0 0 0 0 0 1 
 
0 0 0 1/3 1/3 1/3

La représentation graphique est alors celle de la figure 5.2.


Il est clair que les ensembles {2, 3} et {4, 5, 6} sont des ensembles
fermés. Comme ils sont tous deux de cardinal fini, ils contiennent tous
chaînes de markov 95

1 Figure 5.2: Représentation graphique


1000 d’une chaîne de Markov
1
8 10 999
10 1 2 3 1000

1
10

1
4 5

1 1
3
1
3

1
3

deux au moins un point récurrent. A l’intérieur de chacun d’entre


eux, les points conduisent tous les uns aux autres, donc ils sont tous
récurrents. Si l’on quitte le point 1 pour le point 2 ou 4, on n’est sûr
de ne pas y revenir donc la probabilité de ne pas revenir en 1 est
2 ∗ 1/10 > 0 donc 1 est transient.
Remarquons que même si l’ensemble E est fermé, le théorème [5.17]
n’induit pas de contradiction quant au statut de l’état 1. En effet, on
sait qu’il existe au moins un point récurrent dans E mais on ne sait pas
lequel et on ne peut, a priori, rien dire de plus puisque tous les états ne
communiquent pas entre eux.


 Tous les états conduisent les uns


Exemple 5.5 — Suite de l’exemple 5.1.
aux autres donc le seul sous-ensemble fermé est E lui-même. Comme il
est de cardinal fini, il existe au moins un état récurrent donc ils sont
tous récurrents. 

 Tant qu’il n’atteint pas δ, le score


Exemple 5.6 — Suite de l’exemple 5.2.
ne peut que croître donc tous les états de N sont transients. δ est lui
récurrent. 

 Exemple 5.7 Un jeu de N cartes est mélangé en le coupant en deux parts

qui sont ensuite interverties. Chaque mélange du jeu est représenté


par une permutation de {1, · · · , N }. Si N = 3 et que le mélange est
représenté par (3, 2, 1), cela signifie que la carte 3 est en position 1,
la carte 2 en position 2 et la carte 1 en position 3. On note Xn l’état
96 mesure intégration et probabilités

du paquet de cartes après la ne opération de mélange. L’espace d’états


est donc le groupe des permutations de {1, · · · , N } dans lui-même,
noté S N . Si X0 = (3, 2, 1) et que la coupe se fait entre la première et la
deuxième carte, on a X1 = (2, 1, 3). En d’autres termes, on a juste fait
une permutation circulaire sur les cartes mais on n’a pas changé leur
ordre relatif. Pour définir les probabilités de transition, considérons
l’ensemble à N éléments :
n o
E1 = σ ∈ S N , ∃k ∈ {1, · · · , N }, σ = (k + 1, k + 2, · · · , N, 1, · · · , k) .

Lorsque l’on coupe le paquet au niveau de la ke carte, on applique le


cycle (k + 1, k + 2, · · · , N, 1, · · · , k) à la situation courante. Comme le
choix de l’endroit de la coupe est supposé être uniforme sur {1, · · · , N },
on a :
1
P ( X1 = τ | X0 = σ ) = si τσ−1 ∈ E1 .
N
Les classes d’équivalence de la relation −→ sont celles de la relation
σRτ ≡ τσ−1 ∈ E1 . En d’autres termes, σ conduit à τ si et seulement s’il
existe ρ ∈ E1 tel que τ = ρσ. Il y a donc (n − 1)! classes d’équivalence
de cardinal n chacune. Toutes ces classes forment des ensembles fermés
de cardinal fini qui contiennent donc toutes au moins un point récurrent.
Comme à l’intérieur de ces classes les états communiquent tous entre
eux, ils sont tous récurrents. La chaîne est donc récurrente. 

Lorsque l’espace d’état est infini, on ne peut pas appliquer le théo-


rème [5.17]. On introduit alors la notion suivante.
Une chaîne de Markov est dite irréductible lorsque
Définition 5.18
tous les états conduisent les uns aux autres. En particulier, le
plus petit sous-espace fermé est E lui-même et tous les états ont
même nature.

 Remarque 19 Si le nombre d’états transients est fini, comme l’on ne


passe qu’un nombre fini de fois en chacun d’eux, la chaîne de Markov
sera inexorablement contrainte à aller dans une classe de récurrence
et à y rester. Remarquons qu’en vertu du lemme [5.14], une classe de
récurrence est forcément un sous-ensemble irréductible. Si le nombre
d’états transients est infini, le raisonnement précédent ne s’applique
plus automatiquement mais les cas dans lesquels on n’atterrit pas auto-
matiquement dans un sous-ensemble fermé irréductible sont hors de
notre propos. Pour ce qui nous intéresse (le comportement asympto-
tique des chaînes de Markov), il n’y a donc pas de perte de généralité à
supposer que les chaînes de Markov étudiées sont irréductibles.
Lorsque x est récurrent, on sait que partant de x on reviendra nécessai-
rement en x en un temps fini mais quid du temps moyen de retour en
x?
chaînes de markov 97

Un état récurrent x est dit récurrent positif, si


Définition 5.19
E x τx1 < ∞ ; récurrent nul, si E x τx1 = ∞.
   

La chaîne X est alors dite récurrente positive (respectivement


récurrente nulle) si tous ses états sont récurrents positifs (respec-
tivement récurrents nuls).

La construction suivante est utilisée plusieurs fois par la suite.

Définition 5.20Soit X, une chaîne de Markov irréductible et récur-


rente sur E et F, un sous-ensemble de E. On note :
n o k
τF1 = inf n ≥ 1, Xn ∈ F et τFk+1 = τFk + τF1 ◦ θ τF ,

les instants de visite successifs de la chaîne à l’ensemble F. On


considère la suite aléatoire X F , définie par XnF = XτFn , n ∈ N.
On vérifie facilement que X F est une chaîne de Markov sur F,
appelée chaîne de Markov restreinte à F.

Théorème 5.21 Soit X une chaîne de Markov irréductible et F un


sous-ensemble fini de E. Si pour tout x ∈ F, E x τF1 < ∞ alors X
 

est récurrente positive.

Démonstration. Soit pour tout x ∈ F, σx = inf{n > 0, XnF = x } et pour


tout k ∈ N∗ , Yk = τFk − τFk−1 . Comme F est fini, X F est récurrente
positive donc E x [σx ] < ∞ pour tout x ∈ F. Il nous faut prouver que
E x [τx ] < ∞. Par construction des variables Yk , on a :
" #
σx
E x [τx ] = E x ∑ Yk
k =1
" #
σx
= ∑ Ex ∑ Yk 1{σx =n}
n ≥1 k =1

" #
= ∑ Ex Yk ∑ 1{σx =n}
k =1 n≥k
∞ h i
= ∑ Ex Yk 1{σx ≥k} .
k =1

En utilisant la propriété de Markov forte, on obtient :


h i h h i i
E x Yk 1{σx ≥k} = E x E x Yk | Fτ F 1{σx ≥k}
k −1
 
= E x E X F [Y1 ] 1{σx ≥k}
τ
k −1

≤ sup Ey [Y1 ] P x (σx ≥ k).


y∈ F
98 mesure intégration et probabilités

Le supremum est fini par hypothèse puisque F est fini. On obtient donc :

E x [τx ] ≤ c ∑ Px (σx ≥ k) = cEx [σx ] .
k =1

En vertu de la remarque initiale, cela prouve la positive récurrence de


X. 

Lemme 5.22 Soit X une chaîne de Markov et h : E × E −→ R,


bornée. Pour tout entier n, on a :

E [h( Xn , Xn+1 ) | Fn ] = P(h( Xn , .))( Xn ) = ∑ p ( Xn , y ) h ( Xn , y ).


y∈ E
(5.13)

Démonstration. Comme h est bornée, seul reste le calcul de l’espérance


conditionnelle. D’après la propriété de Markov :

E [ h ( X n , X n +1 ) | F n ] = E [ h ( X n , X n +1 ) | X n ] .

Soit maintenant φ : E → R bornée. On a :


Z Z
E [h( Xn , Xn+1 )φ( Xn )] = φ( x ) h( x, y) dP Xn+1 | Xn = x (y) dP Xn ( x )
Z
= φ( x ) ∑ h(x, y) p(x, y) dPXn (x)
y∈ E

= E [φ( Xn ) P(h( Xn , .))( Xn )] .

Comme la précédente équation est vraie pour toute fonction φ, on en


déduit (5.13). 

Théorème 5.23 — Critère de Foster. Soit E0 une partie finie de E.


S’il existe une fonction h : E → R telle que l’ensemble { x ∈
E, h( x ) < K } soit fini pour tout entier K et que :

h(y) ≥ Ey [h( X1 )] pour tout y ∈ E0c ,

alors X est récurrente.

Démonstration. En particulier, h est minorée donc quitte à rajouter


une constante, on peut supposer h ≥ 0. Soit le temps d’arrêt τ =
inf{n, Xn ∈ E0 } et Y définie par Yn = h( Xn )1{τ >n} . Montrons que Y
est une sur-martingale positive dès que X0 ∈ E0c . Soit x ∈ E0c , on a :
h i
E x h( Xn+1 )1{τ >n+1} | Fn = 1{τ >n+1} E Xn [h( Xn+1 )]

≤ 1{τ >n} h( Xn ) = Yn ,

car sur (τ > n + 1), Xn n’appartient pas à E0 . Y converge donc presque


sûrement vers une variable aléatoire Y∞ .
chaînes de markov 99

Supposons que X soit transiente. Soit x ∈ / E0 , pour tout entier K,


l’ensemble { x, h( x ) < K } est fini donc n’est visité qu’un nombre fini de
fois par X donc X n’est pas bornée. Comme Y∞ est finie, nécessairement
τ est fini presque sûrement. Ce qui revient à dire que pour x ∈ / E0 ,
P x (τ < ∞) = 1. Partant de E0 , on arrive forcément dans E0 . Soit on
c

reste dans E0 pour toujours et comme E0 est fini, E0 est récurrent et par
irréductibilité la chaîne l’est. Soit la chaîne quitte E0 mais en vertu de
ce que l’on vient de démontrer, elle y reviendra. Le nombre de visites à
E0 est donc infini, ce qui implique encore une fois que E0 est récurrent
donc la chaîne l’est aussi. 

§ 5 Mesures et probabilité invariantes


Soit E un ensemble dénombrable et P une opérateur
Définition 5.24
de transition sur E × E. Une mesure positive finie ν sur E est dite
invariante par rapport à P, si et seulement si :

ν = νP c’est-à-dire ν(y) = ∑ ν(x) p(x, y) pour tout y ∈ E.


x∈E
(5.14)
Si de plus ∑ ν( x ) = 1, ν est une probabilité invariante.

 Remarque 20 Si π0 = ν alors πn = π0 Pn = π0 .

Théorème 5.25 Soit x un état récurrent, alors la mesure ν définie


par :
 
τx1 −1 ∞
ν(y) = E x  ∑ 1 { Xn = y }  = ∑ Px (Xn = y, τx1 > n)
n =0 n =0

est une mesure invariante.

Démonstration. Montrons d’abord l’égalité des deux expressions de ν.


Puisque x est récurrent, τx1 est presque sûrement fini donc ∪n≥1 {τx1 =
n} est une partition de Ω. En déconditionnant sur toutes les valeurs
possibles de τx1 et en utilisant le théorème de Fubini, on obtient :
 
τx1 −1 ∞
" #
`−1
Ex  ∑ 1 { Xn = y }  = ∑ Ex ∑ 1{Xn =y} 1{τx1 =`}
n =0 `=1 n =0


" #
= ∑ Ex ∑ 1{τx1 =`} 1{Xn =y}
n =0 `>n
∞ h i
= ∑ Ex 1{τx1 >n} 1{ Xn =y} .
n =0
h 1 i
τ
Comme sous P x , X0 = Xτx1 = x, on peut aussi écrire ν(y) = E x ∑nx=1 1{ Xn =y} ,
100 mesure intégration et probabilités

ce qui donne par les mêmes calculs avec des bornes différentes :
∞ h i
ν(y) = ∑ Ex 1{τx1 ≥n} 1{ Xn =y} . (5.15)
n =1

Remarquons d’ores et déjà que l’événement {τx1 ≥ n} appartient à


Fn−1 puisque c’est le complémentaire de l’événement {τx1 ≤ n − 1}.
Pour y 6= x, en appliquant les propriétés de l’espérance conditionnelle
et la propriété de Markov forte :
∞ h i
∑ Ex 1{τx1 ≥n} 1{ Xn =y}
n =0
∞ h h ii
= ∑ Ex 1{τx1 ≥n} E x 1{ Xn =y} | Fn−1
n =1
∞ h h ii
= ∑ Ex 1{τx1 ≥n} E x 1{ Xn =y} | Xn−1
n =1
∞ h h ii
= ∑∑ E x 1{τx1 ≥n} 1{ Xn−1 =z} E x 1{ Xn =y} | Xn−1 = z
n =1 z ∈ E
∞ h i
= ∑ p(z, y) ∑ E x 1{τx1 ≥n} 1{ Xn−1 =z}
z∈ E n =1
= ∑ ν(z) p(z, y).
z∈ E

Pour y = x, il est clair que ν( x ) = 1 et d’autre part :



∑ ν(z) p(z, x) = ∑ ∑ p(z, x)Px (Xn = z, τx1 > n)
z∈ E n =0 z ∈ E

= ∑ ∑ Px (Xn = z, Xn+1 = x, τx1 > n)
n =0 z ∈ E

= ∑ ∑ Px (Xn = z, τx1 = n + 1)
n =0 z ∈ E

= ∑ Px (τx1 = n + 1)
n =0
= P x (τx1 < ∞) = 1.

On a donc bien ν = νP, et il ne reste qu’à vérifier que ν(y) < ∞ pour
tout y. C’est vrai pour x = y. Pour y 6= x, de deux choses l’une : soit
x ne conduit pas à y et alors ν(y) = 0, soit x conduit à y et comme x
est récurrent, d’après le théorème [5.14], y conduit à x, c’est-à-dire qu’il
existe m tel que p(m) (y, x ) > 0. Comme ν est invariante, ν.Pm = ν, ce
qui implique que :

1 = ν( x ) = ∑ ν(z) p(m) (z, x ) ≥ ν(y) p(m) (y, x ),


z∈ E

et donc ν(y) < ∞. 


chaînes de markov 101

Soit X une chaîne de Markov irréductible et récur-


Corollaire 5.26
rente de mesure invariante ν. Soit F un sous-ensemble de E et X F
la chaîne restreinte à F. Alors, X F est irréductible et récurrente
et admet, comme X, pour mesure invariante celle donnée par le
théorème [5.25].

Démonstration. Les deux premiers points sont évidents. Pour y ∈ F, le


nombre de visites à y de X F et de X sont les mêmes donc X et X F la
même mesure invariante donnée par le théorème [5.25]. 

Théorème 5.27 Si la chaîne de Markov X est irréductible et récur-


rente alors il existe une unique (à un coefficient près) mesure
invariante ν telle que pour tout y, 0 < ν(y) < ∞. L’unicité à
un coefficient multiplicatif près signifie que si ν et ν0 sont deux
telles mesures alors il existe c > 0 tel que ν( x ) = cν0 ( x ) pour
tout x ∈ E.

Démonstration. Soit µ une mesure invariante et soit a ∈ E. Soit ν la


mesure invariante construite dans le théorème [5.25] avec a comme
point de départ. Par construction, ν( a) = 1 donc pour toute mesure
invariante µ, µ( a) = ν( a)µ( a). Par définition, pour z ∈ E\{ a} :

µ(z) = ∑ µ(y) p(y, z) = µ(a) p(a, z) + ∑ µ(y) p(y, z).


y∈ E y6= a

En itérant cette relation, on obtient :

µ(z) = µ( a) p( a, z) + µ( a) ∑ p(a, y) p(y, z) + ∑ ∑ µ(x) p(x, y) p(y, z),


y6= a i6= a y6= a

ce qui peut se récrire de la façon suivante :

µ ( z ) = µ ( a ) P a ( X1 = z )
+ µ( a)P a ( X1 6= a, X2 = z) + Pµ ( X0 6= a, X1 6= a, X2 = z).

Par récurrence sur n, on montre alors que pour tout n :


 
n n
∑ P a (τa1 > m, Xm = z) + Pµ 
\
µ(z) = µ( a) ( Xy 6 = a ) ∩ Xn = z  .
m =1 y =0

La dernière probabilité est un terme positif et l’on reconnaît, quand n


tend vers l’infini, dans la première somme la définition de ν donc :

µ(z) ≥ µ( a)ν(z) pour tout z ∈ E.

D’autre part, puisque pour tout n, µ.Pn = µ, on a aussi :

µ( a) = ∑ µ(x) p(n) (x, a) ≥ µ(a) ∑ ν(x) p(n) (x, a) = µ(a)ν(a) = µ(a).


x x
102 mesure intégration et probabilités

Par conséquent, l’inégalité intermédiaire est une égalité et comme


µ( x ) ≥ µ( a)ν( x ), on doit avoir µ( x ) = µ( a)ν( x ) chaque fois que n est
tel que p(n) ( x, a) > 0. Etant donné que X est irréductible, un tel entier
n existe toujours donc µ( x ) = µ( a)ν( x ) pour tout x ∈ E. 

Théorème 5.28 S’il existe une probabilité invariante ν, alors tous


les états vérifiant ν(y) > 0 sont récurrents.

Démonstration. Comme ν = νPn , le théorème de Fubini implique que :

∑ ν( x ) ∑ p(n) ( x, y) = ∑ ν(y) = ∞ si ν(y) > 0.


x∈E n ≥1 n ≥1

D’autre part, d’après le lemme [5.11] :

P x (τy1 < ∞)
∑ p(n) ( x, y) =
1 − Py (τy1 < ∞)
.
n ≥1

Comme P x (τy1 < ∞) ≤ 1, on a :

1
∞≤ ∑ ν ( x ). 1 − P y ( τ 1 < ∞ ) ,
x∈E y

donc Py (τy1 < ∞) = 1 puisque ν est finie, ce qui signifie que y est
récurrent. 

Théorème 5.29 Si X est irréductible et admet ν comme probabilité


invariante alors la relation suivante est satisfaite :
1
ν( x ) = ·
E x [τx1 ]

Démonstration. S’il existe x tel que ν( x ) = 0 alors comme pour tout n,


on a :
ν( x ) = ∑ p(n) (y, x )ν(y),
y∈ E

cela signifie que pour tout n et tout y, le produit de ν(y) et de p(n) (y, x )
est nul. Or la chaîne est irréductible donc pour tout y, il existe ny tel que
p(ny ) (y, x ) > 0, donc ν(y) = 0. Mais alors ν n’est pas une probabilité
donc pour tout x ∈ E, ν( x ) > 0. D’après le théorème précédent, tous
les états sont donc récurrents. On sait donc que ν est à un coefficient c
près donné par le théorème [5.25]. Ce coefficient vérifie c ∑y∈E ν(y) = 1,
or l’on sait que :
 
τx1 −1 h i
∑ ν(y) = ∑ Ex  ∑ 1{Xn =y}  = Ex τx1 ,
y∈ E y∈ E n =0

d’après le théorème de Fubini et pour x choisi de façon quelconque


dans E. 
chaînes de markov 103

Le théorème suivant résume les principaux résultats précédents.

Théorème 5.30Si X est irréductible, les trois assertions suivantes


sont équivalentes :
1. l’un des états est récurrent positif ;
2. il existe une probabilité invariante ;
3. tous les états sont récurrents positifs.
De plus, la probabilité invariante est donnée par :
 
τx1 −1
1
ν(y) = E x  ∑ 1 { Xn = y }  .
E x [τx1 ] n =0

Démonstration. 1) ⇒ 2). En combinant les théorèmes 5.25 et 5.29, on


voit que :  
τx1 −1
1
ν(y) = E x  ∑ 1 { Xn = y } 
E x [τx1 ] n =0

définit une probabilité invariante. Comme le terme de gauche ne dé-


pend pas de x, on peut choisir x = y et on retrouve bien ν(y) =
h i −1
Ey τy1 .
2) ⇒ 3). Puisque X est irréductible, on sait que la probabilité inva-
riante est un multiple de celle construite dans le théorème [5.25] et donc
que π (y) > 0 pour tout y ∈ E. D’après le théorème [5.29], cela signifie
que tous les états sont récurrents positifs.
3) ⇒ 1) est trivial. 

Corollaire 5.31 Toute chaîne de Markov irréductible sur E de car-


dinal fini est récurrente positive.

Démonstration. Il existe une mesure invariante µ. Comme l’espace


d’états est fini, on peut toujours la normaliser en posant :
1
ν( x ) = µ ( y ),
∑y∈ E µ (y )
et l’on obtient une probabilité invariante. D’après le point 2) du théo-
rème précédent, on en déduit qu’elle est récurrente positive. 

Quand l’espace d’états est de cardinal infini, on peut utiliser le théo-


rème suivant qui se démontre avec les mêmes outils que le théo-
rème [5.23].

Théorème 5.32 — Critère de Foster. Supposons qu’il existe h : E → R


et e > 0 tels que :
— lim infy h(y) > −∞ ;
104 mesure intégration et probabilités

— h( X1 ) est intégrable ;
— pour tout y ∈ E0c , on ait :

h ( y ) − e ≥ E [ h ( X1 ) | X0 = y ] .

Dans ces conditions, X est récurrente positive.

Soit X une chaîne de Markov irréductible récurrente sur E polonais.


n
  
Pour tout x ∈ E, on pose Yk , k ≥ 0 = Xk∧τx1 et pour tout n ≥ 1, on
définit la ne excursion Y n de X depuis x par Ykn , k ≥ 0 , où :


n
Ykn = Xk∧τx1 ◦ θ τx .

- La 0e excursion coïncide avec X jusqu’à la première visite à x, après


Y 0 reste à x. La ne excursion est une chaîne de Markov qui part de x et
suit le comportement de la chaîne initiale jusqu’au temps d’atteinte de
x suivant. Ensuite, elle reste constamment égale à x. L’évolution de la
chaîne est reflétée par Y n+1 .
D’après la propriété de Markov forte, les processus (Y n , n ≥ 0) sont
indépendants les uns des autres et à partir de n = 1, ils ont tous la
même loi : pour toute fonction ψ : EN −→ R :
h n
i h i
E [ψ(Y n )] = E ψ(Y 1 ◦ θ τx ) = E ψ(Y 1 ) .

Théorème 5.33 Soit X récurrente, irréductible de loi invariante ν.


Quelle que soit la condition initiale x ∈ E, pour toute fonction f
dans L1 (ν), pour toute fonction g ≥ 0 telle que ∑y g(y)ν(y) > 0,
on a :
∑nj=0 f ( X j ) n→∞ ∑y∈ E f (y )ν (y )
−−−→ , P x presque sûrement.
∑nj=0 g( X j ) ∑y∈ E g (y )ν (y )

En particulier, pour f ∈ L1 (ν), on a :

1 n n→∞
n j∑ ∑
f ( X j ) −−−→ f (y)ν(y), P x presque sûrement.
=0 y∈ E

- On peut découper toute fonctionnelle additive en morceaux dépen-


dant de chaque excursion. D’après l’indépendance et l’équidistribution
de celles-ci, on peut appliquer la loi forte des grands nombres. Il reste
à prouver que les termes de « bord », c’est-à-dire qui dépendent de Y 0
et ceux qui dépendent de l’excursion incomplète disparaissent dans la
division par n.

Démonstration. La probabilité invariante est proportionnelle à la mesure


invariante donnée dans le théorème [5.25]. En particulier, il existe c > 0
chaînes de markov 105

tel que pour toute fonction g ≥ 0, on ait :


 
τx1 −1
c ∑ g(y)ν(y) = E x  ∑ g ( Xn )  .
y∈ E n =0

Par homogénéité, on peut supposer que c = 1.


Soit Z = ( Zk , k ≥ 1) définie par :
τxk+1 −1 τx1 −1
∑ ∑
k
Zk = f ( Xn ) = f (Ynk ) = Z1 ◦ θ τx .
n=τxk n =0

D’après la propriété de Markov forte, les variables aléatoires ( Zk , k ≥ 1)


sont indépendantes et identiquement distribuées. De plus, on a :
 
τx1 −1
E x [| Z1 |] ≤ E x  ∑ | f ( Xn )| = ∑ | f (y) | ν(y) < ∞,
n =0 y∈ E

puisque f ∈ L1 (ν). On peut donc appliquer la loi forte des grands


nombres, qui stipule que :
τxn −1 n
1 1 n→∞
n ∑ f ( Xk ) =
n ∑ Zk −−−→ Ex [Z1 ] = ∑ f (y)ν(y), P x p.s. (5.16)
k =0 k =1 y∈ E

Si l’on applique ce résultat à f ≡ 1, on obtient :


τxn n→∞
−−−→ 1, Py presque sûrement. (5.17)
n
Soit e(n) le nombre de visites à x entre les instants 0 et n. Notons que
e(n) est aussi le nombre d’excursions partant de x complètes avant
e(n) e(n)+1
l’instant n. Par définition, τx ≤ n < τx , donc :
e(n) e(n)+1
τx n τ e(n) + 1
≤ < x ·
e(n) e(n) e(n) + 1 e(n)
En vertu de (5.17), les termes extrêmes de la ligne précédente tendent
p.s. vers 1 donc n−1 e(n) aussi. On écrit alors :
n
1
n ∑ f ( Xk ) =
k =0
τx1 −1 n
1 e(n) 1 1
n ∑ f ( Xk ) + ( Z + . . . + Ze(n) ) +
n e(n) 1 n ∑ f ( Xk ). (5.18)
k =0 e(n)
k =τx +1

Supposons que f ≥ 0. Le premier terme tend vers 0 Py -presque sûre-


ment pour tout y ∈ E. D’après la définition de la convergence presque
sûre, cela équivaut à ce que l’on ait pour tout e > 0 :
  
τx1 −1
1
Py lim sup  ∑ f ( Xk ) > e = 0. (5.19)
n n k =0
106 mesure intégration et probabilités

Par conséquent, compte tenu de la propriété de Markov forte, pour tout


e > 0, on a :
  e ( n +1) 
τx −1
1
n ∑e(n)
Py lim sup  f ( Xk ) > e  
n
k =τx
  
τx1 −1
1
= P x lim sup  ∑ f (Ykn ) > e
n n k =0
  
τx1 −1
1
= P x lim sup  ∑ f ( Xk ) > e = 0,
n n k =0

en vertu de (5.19). Comme :


e ( n +1)
n τx −1
∑ f ( Xk ) ≤ ∑ f ( Xk ),
e(n) e(n)
k =τx +1 k =τx

on a bien :
n
1 n→∞
n ∑ f ( Xk ) −−−→ 0, Py presque sûrement.
e(n)
k =τx

Pour f de signe quelconque, en appliquant le raisonnement précédent


à | f |, on montre que les premier et troisième termes de (5.18) tendent
presque sûrement vers 0.
D’après la première partie de la preuve (voir (5.16)), le terme médian
de (5.18) tend presque sûrement vers ∑y∈E f (y)ν(y).
Le cas particulier s’obtient en prenant g = 1. 

Définition 5.34Un état x est dit périodique s’il existe un entier


δ ≥ 2 tel que :

∑ Px (τx1 = δk) = 1. (5.20)
k =1

Le plus petit δ vérifiant (5.20) est appelé la période de x et nous la


noterons d( x ). Les états qui ne sont pas périodiques sont appelés
apériodiques.

 Dans ce cas, un peu de réflexion


Exemple 5.8 — Suite de l’exemple 5.1.
montre que l’on n’atteindra une case de numéro impair que tous les
deux pas, de même pour les cases de numéro pair : si le rat part de 1
il ne peut être en case 3, 5 ou 7 au coup d’après. La période est donc
2. On voit que l’on peut classer les états en deux paquets, les cases
{1, 3, 5, 7} d’une part, les cases {2, 4, 6} d’autre part. Le rat sera tous
les pas pairs dans le sous-ensemble de départ et tous les pas impairs
dans l’autre sous-ensemble. 

Plus généralement, on a le théorème suivant.


chaînes de markov 107

Théorème 5.35 Soit X une chaîne de Markov récurrente irréduc-


tible de période d. Soit x fixé dans de E, il existe une partition
de E en d ensembles C0 , C1 , . . . , Cd−1 tels que :
— x appartient à C0 ;
— soit y ∈ Cr et z ∈ Cs , si p(n) (y, z) > 0 alors n = (s − r )
mod d ;
— C0 , · · · , Cd−1 sont des classes de récurrence irréductibles apé-
riodiques pour la chaîne de Markov de matrice de transition
Pd .
La décomposition est unique à une renumérotation près. La
chaîne de Markov de matrice de transition Pd est irréductible,
récurrente, apériodique. Si sa condition initiale est dans Cr pour
r ∈ [[0, d − 1]], alors tous ces éléments sont dans Cr .

La démonstration de ce théorème nécessite deux lemmes techniques.

Lemme 5.36Soit a1 , · · · , an des nombres entiers premiers dans


leur ensemble, tout entier m ≥ ∏ x (1 + a x ) peut s’écrire sous la
forme :
m = ∑ xk ak avec xk ≥ 0 pour tout k. (5.21)
k

Démonstration. Montrons par récurrence sur n que si a1 , · · · , an sont n


entiers (non nécessairement premiers entre eux) et que m ∈ N s’écrit
m = ∑k xk ak alors on peut toujours trouver une autre écriture satisfai-
sant les conditions de (5.21). Plus précisément, il existe une permuta-
tion σ de {1, · · · , N } dans lui-même telle que :

x σ (i ) ≤ min ( al ) pour tout l ≤ n − 1.


l 6=σ (1), ··· , σ (i −1)

Supposons d’abord que n = 2. Comme m ≥ 0, l’un des deux coefficients


x1 ou x2 est positif. A une renumérotation près, on peut toujours
supposer qu’il s’agit de x1 . Montrons que l’on peut toujours supposer
que x1 < a2 . Si ce n’est pas le cas, on écrit alors x1 = ka2 + r avec
0 ≤ r < a2 :

m = x1 a1 + x2 a2 + ka1 a2 − ka1 a2
= ( x1 − ka2 ) a1 + ( x2 + ka1 ) a2 = ra1 + ( x2 + ka1 ) a2 .

En conclusion, tout entier m peut s’écrire sous la forme m = x1 a1 + x2 a2


avec 0 ≤ x < b. En particulier, si m ≥ a1 a2 , x2 doit être positif.
Supposons le résultat démontré pour (n − 1). A une renumérotation
près, on peut toujours supposer que x1 est positif et appliquer l’hy-
pothèse de récurrence à m − x1 a1 et aux (n − 1) nombres restants. La
108 mesure intégration et probabilités

renumérotation que l’on a appliquée au cours de cette opération définit


la permutation σ.
Maintenant, si a1 , · · · , an sont premiers dans leur ensemble, le
lemme de Bezout garantit l’existence de la représentation m = ∑k xk ak
pour tout entier. D’après la première partie de la démonstration, on
peut toujours supposer que ∑k≤n−1 xk ak est positive et inférieure à :
!
sup
x
a1 . . . a n + ∏ ay + . . . ≤ a1 . . . an + ∑ ∏ ay + . . . = ∏(1 + a x ) − 1.
y6= x x y6= x

Par conséquent, pour m supérieur ou égal à ∏(1 + a x ), il existe toujours


une écriture de la forme (5.21). 

Lemme 5.37 Si x est apériodique alors il existe n0 tel que si n ≥ n0


alors p(n) ( x, x ) > 0.

Démonstration. Définissons l’ensemble :


n o
Ix = n ∈ N, p(n) ( x, x ) > 0 .

D’après la propriété de Markov, Ix est un semi-groupe : si m et n


appartiennent à Ix alors m + n aussi. En effet, on a :

p(m+n) ( x, x ) ≥ p(m) ( x, x ) p(n) ( x, x ).

On ordonne Ix par l’ordre naturel. Soit un le nombre de diviseurs


communs des n premiers éléments de Ix . (un , n ∈ N) est une suite dé-
croissante positive donc convergente, et puisque x est apériodique, cette
limite est 1. Comme un est à valeurs entières, il y a nécessairement un
rang à partir duquel elle est constante, soit n0 ce rang et soit a1 , · · · , an0
les n0 premiers éléments de Ix . D’après le lemme précédent, pour n
assez grand, n ∈ Ix . 
n o
Démonstration du théorème 5.35. Soit Ky = n, p(n) ( x, y) > 0 . Pour
k et l deux entiers, d’après la propriété de Markov, on a l’identité
suivante :
P x ( Xk + l = x ) ≥ P x ( Xk = y ) P y ( Xl = x ).
Par conséquent, n ne peut appartenir à Ky que si d divise n + l, c’est-à-
dire si n s’écrit αd + r où r ∈ {0, · · · , d − 1} est le reste de la division
de l par d. On définit Cr comme l’ensemble des points de E qui ont le
même r. Ces ensembles forment clairement une partition et en prenant
l = 0, on prouve que x ∈ C0 .
Soit m et n tels que p(m) (y, z) > 0 et p(n) ( x, y) > 0. Comme
p(n+m) ( x, z) > 0, il en découle d’après i) que n + m ≡ s mod d et
comme n ≡ r mod d, le résultat s’ensuit.
L’irréductibilité découle immédiatement du point précédent, l’apé-
riodicité de la définition de la période. 
chaînes de markov 109

Nous pouvons maintenant énoncer le résultat.

Théorème 5.38 Soit X une chaîne de Markov irréductible, récur-


rente positive, apériodique, de matrice de transition P et de
probabilité invariante ν. Alors, on a :

lim p(n) ( x, y) = ν(y), pour tout x et tout y.


n→∞

- La démonstration se fait par couplage : on va montrer que deux


chaînes de Markov indépendantes de même matrice de transition mais
de conditions initiales différentes finissent toujours par se rencontrer.
Notons qu’à partir de cet instant de rencontre, elles coïncident en loi.

Démonstration. Sur E × E, on définit la chaîne de Markov Zn = (Wn , yn )


de matrice de transition :

p̂ ( x1 , x2 ), (y1 , y2 ) = p( x1 , y1 ) p( x2 , y2 ).

En d’autres termes, les deux coordonnées W et Y évoluent indépen-


damment l’une de l’autre selon la loi de la chaîne de Markov originelle.
On va montrer premièrement que Z est une chaîne de Markov irré-
ductible. Comme tous les états sont apériodiques, d’après le lemme [5.37],
à partir d’un certain rang M :

p(l ) (y1 , y1 ) > 0 et p(l ) ( x2 , x2 ) > 0.

Comme X est irréductible et récurrent, il existe K ≥ M et L ≥ M tels


que :
p(K ) ( x1 , x2 ) > 0 et p( L) (y1 , y2 ) > 0.

Par conséquent, le chemin :

( x1 , y1 ) → ( x2 , y1 ) → ( x2 , y2 )

est de probabilité strictement positive pour l’indice K + L + M. En effet,


d’après la propriété de Markov :

p ( K + L ) ( x1 , y1 ), ( x2 , y2 )


≥ p(K) ( x1 , x2 ) p(K) (y1 , y1 ).p( L) ( x2 , x2 ) p( L) (y1 , y2 ) > 0.

Il est clair que ν̂( x, y) = ν( x )ν(y) définit une probabilité invariante


pour la chaîne de Markov Z. Par conséquent d’après le théorème [5.30],
tous les états sont récurrents positifs. Soit T le temps d’atteinte de la
diagonale de E × E par Z :

∆ = {( x, y) ∈ E × E, x = y} ;
T = inf {n > 0, Zn ∈ ∆} .
110 mesure intégration et probabilités

Comme Z est irréductible, récurrente, le temps d’atteinte d’un état ( x, x )


de la diagonale est presque sûrement fini. Comme T est le minimum
de tous ces temps, il est aussi presque sûrement fini. Montrons que sur
{ T ≤ n}, Wn et Yn ont même loi :
h i
P(Wn = y, T ≤ n) = ∑ E 1{Wn =y} 1{WT = x} 1{T ≤n}
x
h h ii
= ∑ E 1{WT = x} 1{T ≤n} E 1{Wn =y} | FT
x
h h ii
= ∑ E 1{WT = x} 1{T ≤n} E x 1{Wn−T =y}
x
h h ii
= ∑ E 1{YT = x} 1{T ≤n} E x 1{Yn−T =y}
x
= P(Yn = y, T ≤ n).
D’après ce qui précède :

P(Wn = y) = P(Wn = y, T ≤ n) + P(Wn = y, T > n)


= P(Yn = y, T ≤ n) + P(Wn = y, T > n)
≤ P(Yn = y) + P(Wn = y, T > n).
Symétriquement, on a :

P(Yn = y) ≤ P(Wn = y) + P(Yn = y, T > n),

dont on déduit que :

P(Wn = y) − P(Wn = y) ≤ P(Yn = y, T > n) + P(Wn = y, T > n).

D’où en sommant sur toutes les valeurs possibles de y, on obtient :

∑ P(Yn = y) − P(Wn = y) ≤ 2P( T > n).


y

Comme T est presque sûrement fini, le terme de droite tend vers 0


quand n croît indéfiniment. Si l’on prend W0 = x et Y ayant la loi ν, on
en déduit :
n→∞
∑ p(n) (x, y) − ν(y) −−−→ 0,
y
ce qui implique le résultat annoncé. 

 Remarque 21 On remarque que l’hypothèse d’apériodicité ne sert que


dans la démonstration de l’irréductibilité de la chaîne de Markov Z.
Pour se convaincre que cela est essentiel, regardons encore l’exemple du
rat dans son labyrinthe. Formons la chaîne de Markov Zn = ( Xn , Yn )
qui représente les positions de deux rats lâchés dans le même labyrinthe,
qui évoluent indépendamment l’un de l’autre selon les mêmes règles
que précédemment. Soit C1 la classe cyclique de 1 et C2 celle de 2 pour
la chaîne de Markov X. Si Z part d’un état de C1 × C2 alors Z évolue
entre des états de cet ensemble et des états de C2 × C1 mais n’atteint
jamais d’états de C1 × C1 , par conséquent Z n’est pas irréductible.
chaînes de markov 111

Dans le cas périodique, on a toutefois le résultat suivant :

Théorème 5.39 Soit X une chaîne de Markov irréductible, récur-


rente positive, périodique de période d et de probabilité inva-
riante ν. Soit x ∈ E et C0 , · · · , Cd−1 les classes cycliques associées
à x. Si y ∈ Cr , on a :

lim p(nd+r) ( x, y) = dν(y).


n→∞

- L’idée est d’appliquer le théorème précédent à la chaîne de matrice


de transition Pd . Il faut pour cela déterminer la probabilité invariante
de cette chaîne de Markov. On remarque d’après le théorème [5.25]
qu’à un coefficient près la probabilité invariante d’un état y est égal à
la proportion du nombre de visites à cet état entre deux visites à un
état fixe x. Etant donné que dans la chaîne de Markov de matrice Pd
on divise par d le nombre de pas, cette proportion est multiplié par d.

Démonstration. Par définition de la période et de Ck , Ck est un sous-


ensemble fermé pour la chaîne X k définie par Xnk = Xnd+k pour k =
0, · · · , d − 1. Ces chaînes sont irréductibles et récurrentes positives.
En vertu du corollaire [5.26], la probabilité invariante νk de X k est
proportionnelle à ν, c’est-à-dire qu’il existe αk tel que νk (y) = αk ν(y)
pour tout y ∈ Ck . Par ailleurs, puisque ν est la probabilité invariante de
X, pour tout k et tout l appartenant à 0, · · · , d − 1, on a :

αk = Pν ( Xnd+k ∈ Ck ) = Pν ( Xnd+k ∈ Ck ∪ Cl ) = Pν ( Xnd+l ∈ Cl ) = αl .

Il s’ensuit que αk = d−1 . Le dernier point découle du théorème [5.38].




Enfin, le dernier résultat utile pour les simulations est le théorème


central limite suivant.
Théorème 5.40 Soit X une chaîne de Markov récurrente positive
de probabilité invariante ν. Pour f : E × E → R, on note :
(
E −→ R
Pf :
x 7−→ P f ( x ) = ∑y f ( x, y) p( x, y) = E x [ f ( X0 , x1 )] .

Pour toute fonction f telle que Eν [ P( f 2 )] < ∞ on a la conver-


gence en loi suivante :

1 n Loi
√ ∑ ( f ( Xk−1 , Xk ) − P f ( Xk−1 )) −−−→ N (0, σ2 ( f )),
n k =1 n→∞

où N (0, σ2 ( f )) représente une loi gaussienne centrée de variance


112 mesure intégration et probabilités

donnée par :

σ2 ( f ) = Eν [ P( f 2 )] − Eν [( P f )2 ].

Démonstration. Le lemme [5.13] implique que pour f bornée, la suite :


n n
∑ f (Xn , Xn+1 ) − ∑ P f (Xj , .)(Xj )
f
Mn =
j =0 j =0

est une martingale. D’autre part, son processus croissant est défini par :
h i
f
∆h M f in = E (∆Mn )2 | Fn
 2 
= E f ( X n , X n +1 ) − P f ( X n ) | F n

= P f 2 ( Xn ) + P f ( Xn )2 − 2P f ( Xn )2
= Γ f ( Xn ),

où Γ f = P( f 2 ) − ( P f )2 est l’opérateur carré du champ associé à P. Par


conséquent, on a :
n
h M f in = ∑ Γ f ( X j ).
j =0

Par hypothèse, Γ f est intégrable par rapport à ν, le théorème [5.33]


implique que :

h M f in n→∞ 2
−−−→ σ ( f ), P x presque sûrement.
n
Le résultat découle du théorème de la limite centrée pour les incréments
de martingales. 

Si l’on prend comme cas particulier, f ( Xk−1 , Xk ) = 1{ Xk = x} , on obtient :

√  n→∞ Z b dx
P n( Nxn − π ( x )) ∈ [ a, b] −−−→ exp(− x2 /2σ2 ) √ ,
a σ 2π

avec σ2 = ν(y) − ∑ x p( x, y)2 ν( x ).


 C’est le cas le plus simple dans
Exemple 5.9 — Suite de l’exemple 5.1.
lequel on n’a qu’à résoudre le système ν = νP et ∑ π ( x ) = 1. Tous
calculs faits, on trouve :
 
1 3 1 3 3 1 1
ν= , , , , , , .
8 16 8 16 16 8 16


 Il faut restreindre la chaîne de


Exemple 5.10 — Suite de l’exemple 5.7.
Markov à une quelconque classe d’équivalence de la relation « com-
munique ». Dans ce cas, il est clair que la probabilité invariante est la
mesure uniforme sur ces états. 
chaînes de markov 113

§ 6 Calcul pratique de la probabilité invariante

Le principe est simple : la probabilité invariante est l’unique vecteur à


composantes positives ou nulles, de poids total 1 qui satisfait l’équation
ν( P − Id) = 0. Si l’on veut résoudre un tel système par ordinateur, il
faut prendre garde au fait que ce système est de co-rang 1 : il faut donc
supprimer une colonne de P (par exemple, la dernière) et la remplacer
par une colonne composée uniquement de 1. Soit P̂ la matrice ainsi
obtenue. Il nous faut alors résoudre le système :

 
1 0

 1 (0) 0

π ( P̂ − Î ) = b, avec b = (0, · · · , 0, 1) et Î =  ..
.
(0) .
 
 
0

Pratiquement, les chaînes que l’on utilise ont un espace d’états fini
mais de cardinal très grand (plusieurs milliers d’états). Se pose alors
le problème de la détermination de la probabilité invariante. Il s’agit a
priori « simplement » de résoudre un système linéaire mais la taille de
ce système oblige à utiliser des méthodes d’analyse numérique.

Méthode itérative

On a donc à résoudre l’équation π = πP où P est la matrice de


transition. D’après le théorème [5.38], si la chaîne est apériodique alors
πn+1 = πn P tend vers la probabilité invariante. Pratiquement, on prend
un π0 quelconque et on itère. Ce procédé peut s’avérer coûteux si le
calcul des coefficients de P est long. Néanmoins, la convergence est
extrêmement rapide puisque géométrique de raison le module de la
deuxième plus grande valeur propre de P.
Dans le cas où la chaîne est périodique (voir l’exemple du rat) de
période d, il faut être plus précautionneux. Le théorème [5.38] nous
indique que la suite πn a d valeurs d’adhérence. Précisément, par
définition même des classes cycliques, si π0 est une masse de Dirac
en x, les termes πkn ont des composantes positives seulement pour les
états de la classe cyclique de x, les termes πkn+ j ont des composantes
positives seulement pour les états de la classe cyclique Cj , pour tout
j ∈ {1, · · · , d − 1}.
 Exemple 5.11 — Suite de l’exemple 5.1. Si la condition initiale est π0 =
114 mesure intégration et probabilités

(1, 0, . . .) alors on a :
 
1 1
v (2) = 0, , 0, , 0, 0, 0
2 2
 
1 1 1 1
v (3) = , 0, , 0, , 0,
3 6 3 6
 
13 4 7
v (4) = 0, , 0, , 0, , 0
36 9 36
 
29 47 79 4
v (5) = , 0, , 0, , 0,
108 216 216 27
 
473 131 299
v (6) = 0, , 0, , 0, ,0
1296 324 1296
 
997 1843 2891 131
v (7) = , 0, , 0, , 0,
3888 7776 7776 972


Un moyen pour éviter ce désagrément est de considérer les sommes


de Césaro, π̂n = d−1 ∑in=n−d πi . Cela exige de connaître la période, si
c’est impossible on peut alors utiliser la méthode ergodique.

Méthode régénérative
On se reportera à la Section § 3 qui trouve sa source dans Asmussen,
Applied Probability and Queues.

§ 7 Problèmes

Exercice 5.1 Sur un échiquier de 8 par 8, on place un cavalier dans


le coin A1, on suppose que le cavalier se déplace au hasard (il
choisit une direction au hasard parmi celles possibles à chaque
coup) et sans mémoire. On rappelle qu’un cavalier se déplace
de deux cases dans une direction (horizontale ou verticale) et
d’une case dans l’autre direction. En utilisant la réversibilité et
des considérations de symétrie, calculer le temps moyen de retour
à la case A1.
Même question, si l’on identifie les bords opposés de l’échi-
quier ; le cavalier se déplace alors sur un tore !


Construire (dans les cas où c’est possible) une chaîne


Exercice 5.2
de Markov à deux états telle que :
— les deux états soient récurrents ;
— les deux états soient transients ;
chaînes de markov 115

— l’un des états soit transient, l’autre récurrent ;


— les deux soient transients ;
— les deux soient récurrents nuls.


Exercice 5.3 On considère la chaîne de Markov à valeurs dans


{1, 2, 3} dont la matrice de transition est donnée par :
 
0 1/2 1/2
f ( p) 0 1 − f ( p) 
 

1 − f ( p) 0 f ( p)

où p ∈ [0, 1] et f ( p) est définie par :



 0
 si p ≤ 1/4
f ( p) = 2p − 1/2 si 1/4 < p ≤ 3/4

 1 si p ≥ 3/4.

1. Donner la classification des états en fonction des valeurs de p.


2. Pour quelles valeurs de p existe-il une probabilité invariante ?
La calculer lorsqu’elle existe.
3. Partant de 2, quelle est, en fonction de p, la valeur du temps
moyen de retour en 2 ?
4. Soit h la fonction définie par :

h(1) = −1, h(2) = 1, h(3) = 1.

Que vaut la limite :


n
1
n ∑ h( X j )
j =1

quand n tend vers +∞ pour p < 3/4 ?


5. Si l’on dispose d’un nombre arbitrairement grand d’exemples
de trajectoires, comment sait-on si p est supérieur à 3/4 ? Com-
ment sait-on si p < 1/4 ? Comment peut-on estimer p dans le
cas où il est compris entre 1/4 et 3/4 ?


Exercice 5.4Soit X, une chaîne de Markov irréductible et récur-


rente sur E, et soit F un sous-ensemble de E. Montrer que la
chaîne restreinte à F XnF , n ∈ N (voir définition 5.20) est une


chaîne de Markov sur E. 


116 mesure intégration et probabilités

Exercice 5.5On considère la chaîne de Markov homogène X à


deux états A et B de matrice de transition :
!
1/2 1/2
P= .
1/2 1/2

On cherche le temps de première apparition de la séquence ABA.


Pour ce faire, on construit le processus Yn = ( Xn , Xn+1 , Xn+2 ).
1. Montrer que Y est une chaîne de Markov homogène dont on
donnera la matrice de transition (sous forme de matrice ou de
graphe).
2. Cette chaîne est-elle irréductible ? apériodique ? récurrente po-
sitive ?
3. Calculer la probabilité invariante de Y. On pourra numéroter
les états dans l’ordre lexicographique : AAA = 1, AAB = 2, . . .
4. En déduire le temps moyen (à l’état invariante) qui s’écoule
entre deux occurrences de ABA.
5. On suppose que X0 = A, X1 = B. Donner les équations qui
 1 
permettent de calculer E τABA . Il n’est pas demandé de les
résoudre.


Exercice 5.6 Soit un équipement qui émet, sur une ligne de trans-
mission, des paquets de taille constante. On note T le temps de
transmission d’un paquet. Par la suite on considère un modèle à
temps discret du système, c’est-à-dire, un modèle pour lequel le
temps est divisé en intervalles de longueur constante, que nous
supposons égale à T. On appelle chaque intervalle un slot. La ligne
de transmission peut introduire des erreurs et on définit une suite
(Yn , n ∈ N) tel que Yn = 1 si, à l’instant n + 1, la ligne est dans un
état pour lequel elle introduit des erreurs et Yn = 0 si, à l’instant
n + 1, elle est dans un état où elle n’introduit pas des erreurs. On
suppose que (Yn , n ∈ N) est une chaîne de Markov invariante et
que P(Y1 = 1 | Y0 = 1) = 0,9 et P(Y1 = 0 | Y0 = 0) = 0,1.
L’émission se fait avec le protocole « arrêt et attente » (stop and
wait). Selon ce protocole, chaque paquet doit être acquitté. S’il n’y
a pas d’erreur, le paquet est acquitté positivement et le paquet
suivant peut être transmis. En cas contraire, le paquet doit être
retransmis. Pour simplifier le problème nous considérons que
l’acquittement arrive instantanément.
1. Calculer la distribution de probabilité invariante de Yn .
chaînes de markov 117

2. On suppose que les paquets arrivent selon un processus géo-


métrique. C’est-à-dire qu’au ne slot il y a une arrivée avec
probabilité q et aucune arrivée avec probabilité 1 − q. Un pa-
quet peut être transmis au même slot que celui où il arrive.
Soit Xn le nombre de paquets dans le système, au slot n, après
la transmission (s’il y a un paquet à transmettre). Le couple
( Xn , Yn ) est une chaîne de Markov. On ordonne les états dans
l’ordre lexicographique, c’est-à-dire :
0 1 2 3 4 5 6 7 8 9 ...
00 01 10 11 20 21 30 31 40 41 ...
3. Trouver Q la matrice de transition de ( Xn , Yn ).
4. Montrer que :

ν0 = 1,
 p 2n
ν2n = 9 3 q/1 − q ,
ν2n+1 = 9ν2n

est une mesure invariante pour la chaîne de Markov ( Xn , yn ).


5. Trouver l’ensemble de valeurs de q pour lesquelles tous les
états sont récurrents positifs. Comparer le résultat obtenu avec
le résultat de 1. Conclure.


On considère un paquet de N cartes. Pour le mélanger,


Exercice 5.7
on procède de la manière suivante : on choisit une carte au hasard
parmi les N et on met cette carte sur le dessus du paquet sans
bouger les ordres relatifs des autres.
1. Comment représenter l’état du paquet, noté Xn , après la ne
opération ?
2. En introduisant les permutations particulières :
!
1 2 ... k−1 k k+1 ... N
τk = ,
2 3 ... k 1 k+1 ... N

pour k ∈ {1, · · · , N }; écrire les probabilités de transition de


X.
L’écriture de τk signifie que τk (1) = 2, τk (2) = 3, · · · , ce que
l’on peut aussi noter :

τk = (2, 3, · · · , k, 1, k + 1, · · · , n).
118 mesure intégration et probabilités

3. Montrer que cette chaîne est irréductible (on pourra avantageu-


sement raisonner pour de petites valeurs de N comme N = 4
par exemple).
4. Montrer qu’au bout d’un nombre suffisamment grand d’opéra-
tions on obtient un « bon » mélange, caractérisé par l’équipro-
babilité de tous les états possibles du paquet de cartes. (Cette
question comporte deux parties : formaliser mathématique-
ment le problème puis le résoudre.)


Exercice 5.8 On pose E = {1, · · · , 10}. On définit sur E, l’addition


comme l’addition modulo 10, c’est-à-dire que 10 + 1 = 1. On
considère X, la chaîne de Markov de matrice de transition P =
( pi, j ) donnée par :

pi, i+1 = p, pi, i−1 = 1 − p.

On suppose que p n’est égal ni à 0, ni à 1.


1. Cette chaîne est-elle irréductible ? récurrente ? apériodique ?
2. Quelle est sa probabilité invariante ?

On considère maintenant X1 et X2 deux copies indépendantes


de cette chaîne. On pose Y = ( X1 , X2 ).

3. Cette chaîne est-elle irréductible ?


4. Quelle est sa probabilité invariante ?
5. On pose maintenant Zn = Y2n . Cette chaîne est-elle irréduc-
tible ? Quels sont ces sous-ensembles fermés ? Est-elle récur-
rente ? apériodique ?


Exercice 5.9Soit A = { An : n ≥ 1} une suite de variables aléatoires


indépendantes et identiquement distribuées à valeurs dans Rk ,
soit h une application de E × Rk dans E et soit X0 une variable
aléatoire indépendante de la suite A. On définit la suite X =
{ Xn : n ∈ N} par X0 pour n = 0 et par Xn = h( Xn−1 , An ), pour
n ≥ 1. Montrer que X est une chaîne de Markov. 

§ 8 Notes et commentaires

Le nombre d’ouvrages traitant des chaînes de Markov est incal-


culable, on ne saurait les citer tous. Parmi les plus récents et qui
chaînes de markov 119

s’approchent le plus ou complètent notre approche, on peut noter


Baldi:2001uq ; Graham:2008fk. Les chaînes de Markov constituent tou-
jours un champ d’investigation très actif en raison de leur universalité.
Les problèmes actuels se focalisent autour du calcul de la vitesse de
convergence vers la probabilité stationnaire et son lien avec le « trou
spectral », la réduction de l’espace d’états pour calculer plus facilement
une approximation de la probabilité invariante, les applications en
simulation et statistiques à travers les méthodes MCMC.
120 mesure intégration et probabilités

Résumé
— Une chaîne de Markov est définie par sa loi initiale ν et son opérateur
de transition P.
— Un état récurrent est un état visité une infinité de fois. Un état
transient est un état visité un nombre fini de fois.
— Deux états reliés entre eux ont même nature, c’est-à-dire transient
ou récurrent.
— Une chaîne est irréductible si tous les états sont liés entre eux.
— Une mesure stationnaire s’identifie à un vecteur ligne solution de
l’équation πP = π.
— Si l’on peut trouver π tel que ∑ x∈E π ( x ) = 1 alors π est une proba-
bilité invariante, la chaîne est récurrente.
n→∞
— Dans ce cas, quelle que soit la condition initiale, P( Xn = x ) −−−→
π ( x ).
— Pour calculer π, on peut au choix résoudre le système πP = π, ∑ x∈E π ( x ) =
1 ou considérer la limite de la suite πn+1 = πn P, π0 quelconque.
6
Espérance Conditionnelle

§ 1 Définition et premiers exemples

Pour ( E, E ) polonais, on note L2 ( E, E , P) l’espace des variables aléa-


toires de carré intégrable : les variables aléatoires telles que E X 2 <
 

∞.

Lemme 6.1 Pour B sous-tribu de E , L2 ( E, B , P) l’espace des va-


riables aléatoires de carré intégrable qui sont B -mesurables est
un sous-espace vectoriel fermé de L2 ( E, E , P).

Démonstration. Soit ( Xn , n ≥ 1) une suite de variables aléatoires, B -


mesurables qui converge vers X dans L2 . On sait qu’il existe une sous-
suite qui converge presque partout. Comme une limite presque partout
de fonctions B -mesurables est B -mesurable, X ∈ L2 (Ω, B , P). 

Définition 6.2 Soit X ∈ L2 ( E, E , P), on note E [ X | B], l’espérance


conditionnelle de X sachant B , définie comme la projection or-
thogonale de X sur l’espace de Hilbert L2 ( E, B , P). Cela signifie
que E [ X | B] est définie par
— E [ X | B] est B -mesurable,
— pour toute variable aléatoire Z bornée, B -mesurable,

E [ ZX ] = E [ Z E [ X | B]] . (6.1)

Par analogie avec le cas non conditionnel, on introduit la


probabilité conditionnelle sachant (une tribu) B , par :

P( A | B) = E [1 A | B] .

Ainsi définie, l’espérance conditionnelle et la probabilité condi-


tionnelle sont des variables aléatoires.
122 mesure intégration et probabilités

Lemme 6.3 — Lemme de Doob. Soit X : E −→ ( F, B) et Y : E −→


(R, B(R)) où E et F sont deux espaces polonais. La variable
aléatoire Y est σ ( X ) mesurable si et seulement s’il existe ψ :
F −→ R mesurable telle que Y = ψ( X ).

Démonstration. La tribu engendrée par X contient nécessairement les


ensembles de la forme X −1 ( A) pour A ∈ B . Comme cet ensemble
d’ensembles constitue une tribu, σ ( X ) = { X −1 ( A), A ∈ B}. Si Y est de
la forme 1 B alors Y −1 ({1}) = B appartient à σ ( X ) donc il existe C ∈ B
tel que B = X −1 (C ). Par conséquent, on a Y = 1C ( X ).
Soit maintenant Y étagée :
n
Y= ∑ αi 1 Ai
i =1

avec Ai ∩ A j = ∅ et αi − α j 6= 0 pour i 6= j. Puisque Ai = Y −1 ({αi }),


par le même raisonnement, on construit C1 , · · · , Cn ensembles B mesu-
rables tels que Y = (∑in=1 αi 1Ci )( X ). Soit Y variable aléatoire positive B
mesurable, on sait qu’il existe Yn étagée qui converge presque sûrement
vers Y. On a précédemment construit ψn tel que Yn = ψn ( X ). Comme
Yn converge vers Y, ψn converge vers quelque chose sur l’image de E
par X. Malheureusement, rien ne garantit que cet ensemble soit mesu-
rable. Pour éviter cet écueil, on pose ψ = lim supn ψn . Comme toute
limite supérieure de fonctions mesurables est mesurable, cette fonction
est mesurable. De plus, aux endroits où ψn converge vers ψ, la limite
supérieure aussi. En conclusion, on a bien construit ψ mesurable telle
que Y = ψ( X ). 

§ 2 Propriétés de l’espérance conditionnelle

Dans cette section nous donnons les propriétés essentielles de l’es-


pérance conditionnelle. Bien qu’elles soient semblables à celles de l’es-
pérance (quitte à ajouter le terme« presque sûrement »), il ne faut pas
oublier que l’espérance conditionnelle est un opérateur de l’ensemble
des variables aléatoires dans lui-même. Le résultat suivant est une
conséquence directe de la notion de projection orthogonale.

Théorème 6.4 Si Y est une variable aléatoire bornée et B -mesurable


(i.e., Y ∈ L∞ ), alors nous avons

E [ XY | B] = YE [ X | B] , P p.s.,

pour tout X ∈ L2 .

Démonstration. Il est clair que le terme de droite est B -mesurable. Par


ailleurs pour Z B -mesurable, puisque l’espérance conditionnelle est
espérance conditionnelle 123

une projection

E [ ZX E [Y | B]] = E [E [ ZX | B] Y ] = E [ ZXY ] = E [E [ Z | B] XY ] = E [ Z E [ XY | B]] .

D’où le résultat. 

Théorème 6.5 Si X est une variable aléatoire presque sûrement


positive, alors E[ X |B] est aussi une variable aléatoire presque
sûrement positive.

Démonstration. Nous avons, d’après l’hypothèse


h i h i
0 ≤ E X 1{E[ X | B]≤0} = E E [ X | B] 1{E[ X | B]≤0} ≤ 0,

par conséquent h i
E X1{E[ X | B]≤0} = 0.

Comme X1{E[ X | B]≤0} est une variable aléatoire presque sûrement posi-
tive, la nullité de son espérance implique qu’elle même est égale à zéro
presque sûrement. Donc

X = X1{E[ X | B]>0}

presque sûrement. En prenant l’espérance conditionnelle de deux cotés,


d’après la proposition précédente, nous avons

E [ X | B] = E [ X | B] 1{E[ X | B]>0}

presque sûrement. 

Comme la projection orthogonale est un opérateur linéaire, la pro-


priété suivante est évidente :

Théorème 6.6 Si U, V ∈ L2 (Ω, B , P) et a, b ∈ R, nous avons

E[ aU + bV |B] = aE[U |B] + bE[V |B], p.s.

La proposition suivante est une conséquence de la première proposi-


tion :

Théorème 6.7 Si U ≥ V p.s. alors E[U |B] ≥ E[V |B] p.s.

Théorème 6.8Si pour tout n, Xn ≥ 0 p.s. et si ( Xn (ω ), n ∈ N)


converge presque sûrement en croissant vers X (ω ), X ∈ L2 ,
alors
E[ Xn |B] → E [ X | B] ,
presque sûrement en croissant.
124 mesure intégration et probabilités

Démonstration. D’après le théorème 6.5, ( E[ Xn |B], n ≥ 0) est une suite


monotone, croissante, bornée par E [ X | B], par conséquent la limite
existe presque surement. Soit Y = limn E[ Xn |B] ≤ E [ X | B]. Pour ache-
ver la preuve il suffit de montrer que cette limite est égale à E [ X | B].
Soit Z ∈ L2 (Ω, B , P), Z ≥ 0 p.s., alors nous avons

E[ Z (E [ X | B] − Y )] = E[ ZE [ X | B]] − E[ Z lim E[ Xn |B]]


n
= E[ ZX ] − lim E[ ZE[ Xn |B]]
n
= E[ ZX ] − lim E[ ZXn ]
n
= lim E[ Z ( X − Xn )]
n
= E[ Z lim( X − Xn )] = 0.
n

Comme Z (E [ X | B] − Y ) ≥ 0 p.s., nous avons Z (E [ X | B] − Y ) = 0 p.s


et il suffit de prendre Z = 1 pour conclure. 

Théorème 6.9 Si Xn ≥ 0 et si lim infn Xn ∈ L2 alors

E[lim inf Xn |B] ≤ lim inf E[ Xn |B].


n n

Démonstration. D’après la proposition précédente, nous avons :

E[lim inf Xn |B] = lim E[ inf Xk |B]


n n→∞ k≥n
≤ lim inf E[ Xk |B].
n→∞ k≥n

Théorème 6.10 Si Xn → X p.s. et si | Xn | ≤ Y, pour tout n, où Y


est dans L2 (B), alors

E[ Xn |B] → E [ X | B] p.s. et dans L2 .

Démonstration. D’après le théorème de convergence dominée, si Xn →


X p.s. et si | Xn | ≤ Y p.s., alors Xn → X dans L2 (B) ; comme E[.|B] est
un opérateur continu sur L2 (Ω, B , P), elle commute avec la convergence
dans L2 . Pour la convergence [Link] avons :

lim sup E[ Xn |B] ≤ E[lim sup Xn |B] = E [ X | B]


= E[lim inf Xn |B] ≤ lim inf E[ Xn |B].

Théorème 6.11 Si B1 , B2 sont deux sous-tribus de F avec B1 ⊂ B2


alors
E[ E[ X |B2 ]|B1 ] = E[ X |B1 ],
espérance conditionnelle 125

pour tout X ∈ L2 (F ).

Démonstration. Si Y ∈ L2 (B1 ), nous avons

E[YE[ E[ X |B2 ]|B1 ]] = E[YE[ X |B2 ]]


= E[YX ] car Y ∈ L2 (B1 ) ⊂ L2 (B2 )
= E[YE[ X |B1 ]].

Théorème 6.12 Si B1 = {∅, Ω}, alors

E[ X |B1 ] = E[ X ],

pour toute variable aléatoire X dans L2 (F ).

Démonstration. E[ X ] est constante donc B mesurable. Par ailleurs, toute


variable aléatoire B mesurable est constante donc égale à son espérance,
par conséquent :

E[ XY ] = E[ XE[Y ]] = E[ X ] E[Y ] = E[YE[ X ]],

ce qui signifie bien que E[ X |B1 ] = E[ X ]. 

Théorème 6.13 Si X est indépendante de la tribu B alors

E [ X | B] = E[ X ], p.s.

Démonstration. E[ X ] est mesurable par rapport à la tribu grossière donc


mesurable aussi par rapport à n’importe quelle tribu. Par ailleurs, si Y
est B mesurable, X est en particulier indépendant de Y donc

E[ XY ] = E[ X ] E[Y ] = E[YE[ X ]].

En combinant les deux théorèmes précédents, on obtient

Soient A une sous-tribu de F et que F ∈ L2 (F ).


Théorème 6.14
On suppose que σ ( F ) ∨ A est indépendante de B . Alors

E[ F |A ∨ B] = E[ F |A]

presque sûrement.

 Soit B = {∅, A, Ac , Ω} où A ∈ F . Donc B est une sous-


Exemple 6.1
tribu de F car A ∈ F . Calculons E[ X |B] pour un X ∈ L2 (Ω, F , P) en
126 mesure intégration et probabilités

utilisant la propriété essentielle écrite ci-dessus. Remarquons que si Z


est une variable aléatoire B -mesurable alors elle est forcément du type

Z = a1 A + b1 Ac , a, b ∈ R,

par conséquent E[ X |B] sera de la forme aussi c1 A + d1 Ac , et il suffit de


déterminer les constantes c et d. En remplaçant E[ X |B] par c1 A + d1 Ac ,
nous obtenons

E[( a1 A + b1 Ac )(c1 A + d1 Ac )] = acP( A) + bdP( Ac ),

donc
E[ X ( a1 A + b1 Ac )] = acP( A) + bdP( Ac )
alors nous avons

aE[ X1 A ] = acP( A)
bE[ X1 Ac ] = bd P( Ac )

donc
E[ X1 A ] E[ X1 Ac ]
c= et d = ,
P( A) P( Ac )
finalement, nous obtenons

E[ X1 A ] E[ X1 Ac ]
E[ X |B] = 1 + 1 c.
P( A) A P( Ac ) A

Comme on le voit, le résultat est une combinaison linéaire de fonctions


indicatrices d’ensembles mesurables, donc c’est une variable aléatoire.
Nous constatons de plus, dans ce cas précis, que les coefficients de cette
combinaison linéaire sont les espérances conditionnelles élémentaires.
En particulier si nous prenons X = 1C , C ∈ F alors nous notons
E[1C |B] par P(C |B) et nous avons

P(C |B) = P(C | A)1 A + P(C | Ac )1 Ac .

§ 3 Conditionnement des vecteurs gaussiens

Théorème 6.15 Soit ( X, Y1 , . . . , Yd ) ∈ Rd+1 un vecteur gaussien.


1. Il existe des constantes a, b1 , . . . , bd telles que

d
E[ X |Y1 , . . . , Yd ] = a + ∑ bi Yi .
i =1

2. Il existe une variable aléatoire gaussienne, réelle, centrée Z


espérance conditionnelle 127

indépendante de (Y1 , . . . , Yd ) telle que

d
X = a + ∑ bi Yi + Z.
i =1

Démonstration. Soit H le sous-espace vectoriel de L2 (Ω, F , P) défini


par
d
H = {u + ∑ vi Yi ; u, vi ∈ R}.
i =1

H est fermé car tout sous-espace vectoriel de dimension finie est fermé.
Soit π l’opérateur de projection orthogonale correspondant et notons
π ( X ) = X0 . Alors X0 ∈ H est X − X0 est orthogonal à H et

d
X0 = a + ∑ bi Yi .
i =1

Notons Z = X − X0 , alors Z est orthogonal à H. Le vecteur ( Z, (Y1 , . . . , Yd ))


est gaussien, de plus Z est orthogonal au vecteur (Y1 , . . . , Yd ) donc Z
est indépendante de (Y1 , . . . , Yd ). Comme 1 ∈ H et Z ⊥ H nous avons
E[ Z ] = 0 et donc

E [ Z | Y1 , . . . , Yd ] = E [ Z ] = 0.

Par conséquent,

E [ X | Y1 , . . . , Yd ] E [ X0 + Z | Y1 , . . . , Yd ] = X0 .

D’où le résultat. 

On peut calculer explicitement les constantes a, bi avec du calcul matri-


ciel.

Corollaire 6.16 Soit Z = ( X, Y ) un vecteur gaussien. On suppose


que ΓY est inversible. On note Γ0 la matrice des covariances
croisées :

Γ0 (i, j) = cov( Xi , Yj ), i.e. Γ0 = E ( X − E [ X ])(Y − E [Y ])t .


 

On a
E [ X | Y ] = E [ X ] + Γ0 ΓY−1 (Y − E [Y ]).

§ 4 Cas intégrable

Nous avons supposé jusqu’à présent que les v.a. dont on voulait
calculer l’espérance conditionnelle était de carré intégrable. En pratique,
c’est une hypothèse trop forte, nous allons donc développer la notion
d’espérance conditionnelle dans le cas de v.a. uniquement intégrables.
128 mesure intégration et probabilités

Soit X ∈ L1 et B une sous-tribu de F , on appelle


Définition 6.17
espérance conditionnelle de X sachant B , toute v.a. Y satisfaisant
les deux conditions suivantes : Y est B -mesurable et

E[ XZ ] = E[YZ ], pour tout Z ∈ L∞ (Ω, B , P). (6.2)

Théorème 6.18 Pour X ∈ L1 et B une sous-tribu de F , il existe une


unique v.a. (définie à un négligeable près) qui satisfait ces deux
conditions. On la note E[ X | B].

Démonstration. Supposons dans un premier temps que X appartienne à


L2 . La v.a. E[ X | B] est bien définie et l’événement A = {ω : E[ X | B] ≥
0} est B -mesurable donc

E[| E[ X | B]|] = E[ E[ X | B]1 A ] − E[ E[ X | B]1 Ac ]


= E[ X1 A ] − E[ X1 Ac ]
≤ E[| X |], (6.3)

car 1 A − 1 Ac prend deux valeurs −1 ou 1 donc X (1 A − 1 Ac ) ≤ | X |.


L’application ( X 7→ E[ X | B]) définie sur L2 ⊂ L1 est à valeurs dans
L donc on peut l’étendre à L1 . Précisément, comme L2 est dense dans
1

L1 , pour tout X ∈ L1 , il existe une suite ( Xn , n ≥ 1) d’éléments de L2


qui converge dans L1 vers X, E[ X | B] est alors définie comme la limite
dans L1 de la suite ( E[ Xn | B], n ≥ 1). L’inégalité (6.3) implique que la
limite ne dépend pas de la suite approximante.
S’il existe deux v.a., Y1 et Y2 , B -mesurables satisfaisant (6.2) alors
prenons B = {Y1 − Y2 > 0}, c’est un événement B -mesurable et

E[(Y1 − Y2 )1 B ] = 0,

donc B est de mesure nulle. De même pour l’ensemble {Y2 − Y1 > 0}


donc Y1 = Y2 P-p.s. 

Par densité, toutes les propriétés énoncées ci-dessus dans le cas L2


s’étendent au cas où X est dans L1 .

Chaînes de Markov
On trouvera les deux théorèmes suivants dans Kallenberg, Foun-
dations of modern probability, ils sont abstraits mais utiles (même si hors
des exigences de l’agrégation).
Définition 6.19 Soit F1 , · · · , Fn , G ⊂ E des tribus. Les tribus
F1 , · · · , Fn sont indépendantes conditionnellement à G lorsque :
  n
P ∩nj=1 Bj G = ∏P

Bj | G presque sûrement, (6.4)
j =1
espérance conditionnelle 129

pour tout Bj ∈ F j , j = 1, · · · , n.
Une famille infinie de tribus (Fr , r ∈ T ) est indépendante
conditionnellement à G si (6.4) est vraie pour toute sous-famille
finie.

Théorème 6.20 Soit F , G et H trois tribus de ( E, E ). Il y a équiva-


lence entre les trois propriétés suivantes :
1. les tribus F et H sont indépendantes conditionnellement à G ;
2. pour tout H ∈ H, P( H | F ∨ G) = P( H | G), presque sûrement ;

Démonstration. Supposons que F et H sont indépendantes condition-


nellement à G . Pour F ∈ F , G ∈ G et H ∈ H, on a par définition de
l’indépendance conditionnelle :

E [P( H | G)1 F 1G ] = E [P( H | G)P( F | G)1G ]


= E [P( H ∩ F | G)1G ]
= E [1 H 1 F∩G ] ,

en utilisant l’indépendance conditionnelle dans le passage de la pre-


mière à la deuxième ligne. On note :

D = { M ∈ F ∨ G , E [P( H | G)1 M ] = E [1 H 1 M ]} .

De ce qui précède, C = { M = F ∩ G, F ∈ F , G ∈ G} ⊂ D . Il est


évident que C est un π-système. Par linéarité et convergence monotone,
il apparaît que D est un λ-système. En vertu du théorème 1.11, D
contient la tribu engendrée par C . Or F ⊂ C et G ⊂ G donc C contient
F ∨ G . Ceci signifie que pour tout M ∈ F ∨ G , on a :

E [P( H | G)1 M ] = E [1 H 1 M ] .

Comme P( H | G) est F ∨ G mesurable, on conclut de cette identité que


le point 2 est vérifié.
Réciproquement si le point 2 est vérifié, pour tout F ∈ F et tout
H ∈ H, on obtient :

P( F ∩ H | G) = E [P( F ∩ H | F ∨ G) | G]
= E [1 F P( H | F ∨ G) | G]
= E [1 F P( H | G ) | G]
= P( H | G )P( F | G).

Ce qui prouve l’indépendance de F et H conditionnellement à G .



130 mesure intégration et probabilités

Soit G , H, L1 , · · · , Ln , · · · des tribus. Les proposi-


Corollaire 6.21
tions suivantes sont équivalentes :
1. les tribus H et Ln sont indépendantes conditionnellement
W
n
à G;
2. pour tout entier n, les tribus H et Ln+1 sont indépendantes
conditionnellement à G ∨ L1 ∨ . . . Ln .

Démonstration. Si H et n Ln sont indépendantes conditionnellement


W

à G alors H et toute tribu engendrée par une sous-famille finie des L j


sont indépendantes conditionnellement à G . Appliquons le théorème
6.20 avec L = nj=1 L j puis L = nj=+11 L j , on obtient :
W W

n
_ +1
n_
P( H | G) = P( H | G ∨ L j ) et P( H | G) = P( H | G ∨ L j ).
j =1 j =1

En appliquant une nouvelle fois le théorème 6.20 avec L = Ln+1 , on en


déduit le point 2.
Réciproquement, supposons que pour tout n ≥ 0, pour tout H ∈ H,
on ait :
n
_ +1
n_
P( H | G ∨ L j ) = P( H | G ∨ L j ).
j =1 j =1

Par transitivité de la relation d’égalité, on a alors :


m
_
P( H | G) = P( H | G ∨ L j ) pour tout m.
j =1

Toujours d’après le théorème 6.20, on en déduit que H et m


j=1 L j sont
W

indépendantes conditionnellement à G . Par définition de l’indépen-


dance conditionnelle pour un nombre infini de tribus, cela suffit à
montrer le point 1. 

§ 5 Exercices

Exercice 6.1 Les règles du jeu du not-seven sont les suivantes : on


part d’un score X0 = 0. à chaque coup, on lance deux dés non
pipés, si la somme des faces égale 7, le score retourne à 0 et la
partie est terminée. Sinon, le score augmente de la somme des
faces et on a le droit de rejouer ou pas. Si l’on ne rejoue pas, le
score est acquis et la partie est terminée. Si l’on rejoue, on relance
les deux dés avec la même règle.
a) Calculer la loi de la somme S des deux faces. Calculer son
espérance.
On considère une suite (Sn , n ∈ N) de variables aléatoires
espérance conditionnelle 131

indépendantes de même loi que S.


b) Soit τ = inf{n ≥ 1, Sn = 7}, trouver la loi de τ. Quelle est la
moyenne de τ ?
c) Quelle est la stratégie d’un Initié (celui qui sait le résultat du
prochain lancer de dés) ?
d) Calculer son gain moyen.
e) On appelle Xn le score au n-ième coup en l’absence de stratégie
d’arrêt. Montrer que

5 35
E [ X n +1 | X n = i ] = i+ ,
6 6
où l’espérance conditionnelle par rapport à un événement B
est définie comme l’espérance associée à la loi de probabilité
A 7 → P ( A | B ).
f) En déduire que la stratégie optimale consiste à jouer tant que
l’on n’a pas atteint 35 et à s’arrêter immédiatement après avoir
franchi ce seuil.
g) Calculer numériquement le gain moyen avec cette stratégie.

7
Martingales à temps discret

Soit (ηi ; i ∈ N ) une suite de Bernouilli, i.e. des variables aléatoires


indépendantes, de même loi telle que

P(ηi = 1) = p, P(ηi = −1) = q = 1 − p.

Supposons qu’un joueur mise sur le résultat d’un tirage à l’instant n


une quantité Vn . Alors le gain total du joueur à l’instant n est
n
Xn = ∑ Vi ηi = Xn−1 + Vn ηn
i =1
X0 = 0.
Il est naturel de supposer que la mise Vn à l’instant n ne dépend que
des événements qui ont eu lieu jusqu’à l’instant n − 1, c’est-à-dire
que l’on doit supposer que Vn est mesurable par rapport à la tribu
Fn−1 = σ{η1 , . . . , ηn−1 }. Alors nous avons
E [ X n +1 − X n | F n ] = E [Vn+1 ηn+1 | Fn ]
= Vn+1 E [ηn+1 | Fn ]
= Vn+1 E [ηn+1 ] ,
où la dernière égalité provient de l’indépendance. Nous dirons que le
jeu est équitable ou bien que ( Xn , n ≥ 0) est une martingale si E [η1 ] =
0, que le jeu est favorable ou ( Xn , n ≥ 0) est une sous-martingale si
E [η1 ] ≥ 0 et finalement que le jeu est défavorable ou ( Xn , n ≥ 0) est
une surmartingale si E [η1 ] ≤ 0.

§ 1 Définitions et propriétés
Soit (Ω, F , P) un espace de probabilité et (Fn ; n ∈
Définition 7.1
N) une suite croissante de sous tribus de F . Une suite ( Xn ) de
variables aléatoires réelles, intégrables s’appelle une martingale
(respectivement une sous-martingale ou une surmartingale) si
1. Pour tout n, Xn est Fn -mesurable,
134 mesure intégration et probabilités

2. Pour tout n, Xn est intégrable,


3. E [ Xn+1 | Fn ] = Xn presque sûrement (respectivement E [ Xn+1 | Fn ] ≥
Xn ou E [ Xn+1 | Fn ] ≤ Xn ).
 Exemple 7.1 — Si (ξ i , i ≥ 1) sont des variables aléatoires IID 1 , avec 1. Indépendantes et identiquement distri-
E [ξ i ] = 0, alors la suite définie par buées

n
X0 = 0, Xn = ∑ ξi
i =1

est une Fn = σ(ξ 0 , . . . , ξ n ) martingale, car


" #
n +1
E ∑ ξi Fn = E [ X n + ξ n +1 | F n ]
i =1
= X n + E [ ξ n +1 ] = X n ,

car ξ n+1 est indépendante de Fn .


— Si (ξ i ; i ≥ 1) sont des variables aléatoires i.i.d., avec E [ξ i ] = 1, alors
X0 = 1, Xn = Πin=1 ξ i est une Fn = σ (ξ 0 , . . . , ξ n ) martingale.
" #
n +1
E ∏ ξi Fn = E [ X n ξ n +1 | F n ]
i =1
= X n E [ ξ n +1 | F n ]
= X n E [ ξ n +1 ] = X n

car d’une part Xn est Fn mesurable et que d’autre part ξ n+1 est
indépendante de Fn .
— Soit ξ ∈ L1 (P), alors ( Xn = E [ξ | Fn ]) est une martingale.

E [ X n +1 | F n ] = E [ E [ ξ | F n +1 ] | F n ]
= E [ξ | Fn ] ,

car Fn ⊂ Fn+1 .
— Si ( Xn , n ≥ 0) est une martingale et g est une fonction convexe,
( g( Xn ), n ≥ 0) est une sous-martingale.

E [ g ( X n +1 ) | F n ] ≥ g(E [ Xn+1 | Fn ])
≥ g ( Xn )

d’après l’inégalité de Jensen (valable aussi pour les espérances condi-


tionnelles) et la propriété de martingale de X.


Soit T une variable aléatoire à valeurs dans N :=


Définition 7.2
N ∪ {+∞}. La variable aléatoire T est un (Fn )-temps d’arrêt si
martingales à temps discret 135

pour tout n ∈ N,

{ω : T (ω ) = n} ∈ Fn .
 Exemple 7.2 Avec l’exemple du joueur, soit a ≥ 0, et

T (ω ) = inf(k : Xk (ω ) ≥ a)
= +∞ si ∅.

Alors T est un temps d’arrêt :

{ω : T (ω ) = n} = {ω : Xk (ω ) < a, k < n, Xn ≥ a} ∈ Fn .

Si ( Xn : n ∈ N) sont des variables aléatoires, nous définissons XT


comme

XT (ω ) = ∑ Xn ( ω ) 1 { T = n } ( ω ).
n =0

Pour tout B ∈ B( R), nous avons



[
{ XT ∈ B} = { Xn ∈ B, T = n} ∈ F ,
n =0

donc XT est bien une variable aléatoire.


 Remarque 22 — Notons que { T > n}, { T ≤ n} ∈ Fn , { T < n} ∈
F n −1 .
— Si S et T sont deux temps d’arrêt, sup(S, T ) = S ∨ T et inf(S, T ) =
S ∧ T sont aussi des temps d’arrêt.

Théorème 7.3 Soit ( Xn ) une martingale et T un temps d’arrêt.


Alors ( XnT ), où XnT est définie par XT ∧n , est une martingale.

Démonstration. Nous avons


n −1
XT ∧n = ∑ Xm 1 { T = m } + Xn 1 { T ≥ n } ,
m =0

par conséquent XT ∧n est Fn -mesurable. En ce qui concerne l’intégrabi-


lité de de XT ∧n , comme | Xn | est une sous–martingale, pour m ≤ n, on
a
E [| Xm |Ym ] ≤ E [| Xn |Ym ]
pour toute variable aléatoire Ym Fm mesurable positive. Par conséquent,
n −1 h i h i
E [| XT ∧n |] ≤ ∑ E | Xm | 1 { T = m } + E | Xn | 1 { T ≥ n }
m =0
n −1 h i h i
≤ ∑ E | Xn |1{T =m} + E | Xn |1{T ≥n} ≤ E [| Xn |] < +∞.
m =0
136 mesure intégration et probabilités

De plus

XT ∧(n+1) − XT ∧n = X n +1 1 { T ≥ n +1} − X n 1 { T > n }


= 1 { T > n } ( X n +1 − X n ).

Donc
h i
E XT ∧(n+1) − XT ∧n |Fn = 1{T >n} E [ Xn+1 − Xn |Fn ] = 0.

Définition 7.4 Si T est un temps d’arrêt, on note par F T la tribu


définie par

A ∈ F T ⇐⇒ A ∩ {ω : T (ω ) ≤ n} ∈ Fn ,

pour tout n ≥ 0.

Donnons un lemme dont l’utilisation est importante :

Lemme 7.5 Soit T un temps d’arrêt et X une variable aléatoire


reelle F T -mesurable. Alors

X1{T ≤n}

est Fn -mesurable pour tout n ∈ N.

Démonstration. Soit A ∈ F T et X = 1 A . Alors la conclusion est vraie


trivialement. Par linéarité, elle est aussi vraie pour des variables aléa-
toires étagées. Si X est quelconque, alors il existe une suite de variables
aléatoires étagées, F T -mesurables, qui converge vers X p.s. Par consé-
quent
X1{T ≤n} = lim Xk 1{T ≤n} ∈ Fn .
k


Pour une martingale, nous avons

E [ X n ] = E [ X0 ] .

Si T est un temps d’arrêt, est-il vrai que

E [ X T ] = E [ X0 ] ?

Soit T un temps d’arrêt borné : il existe N ∈ N tel


Théorème 7.6
que T ≤ N presque-sûrement. Soit ( Xn , n ≥ 1) une martingale.
On a
E [ X T ] = E [ X0 ] .
martingales à temps discret 137

Démonstration. On a vu que le processus X T était une martingale donc


pour tout entier n ≥ 0,
h i
E XnT = exp X0T = E [ X0 ].

Pour n = N,
T
XN = XT ∧ N = XT

puisque T ≤ N. Le résultat s’ensuit. 

L’énoncé ci-dessous est connu sous l’appellation identité de Wald et


possède de nombreuses applications :

Théorème 7.7 — Identité de Wald. Soient (ξ i ) des variables aléatoires


réelles , i.i.d., avec E [|ξ 1 |] < ∞ et T un temps d’arrêt par rapport
à la filtration des tribus Fn = σ (ξ i ; i ≤ n). Si E [ T ] < ∞, nous
avons " #
T (ω )
E ∑ ξ i = E [ξ 1 ] E [ T ] .
i =1

Si, de plus E ξ 12 < ∞, alors nous avons


 

 !2 
T (ω ) h 2 i
E ∑ (ξ i − E [ξ 1 ])  = E ξ 1 − E [ξ 1 ] E [T ] .
1

Démonstration. On sait que


n
Xn = ∑(ξ i − E [ξ 1 ])
1

est une martingale. On considère la suite de t.d.a presque sûrement


bornés Tk = T ∧ k et on applique le théorème d’arrêt qui nous donne
" #
T ∧k
E ∑ ξi = E [ξ 1 ] E [ T ∧ k] .
i =1

Par le théorème de la limite monotone, E [ T ∧ k] tend vers E [ T ] lorsque


k tend vers +∞.
Si ξ 1 est une variable aléatoire positive,
h le
i théorème de h la limitei
monotone permet de conclure que E ∑iT=∧1k ξ i tend vers E ∑iT=1 ξ i et
on a donc le résultat voulu.
Dans le cas général, on remarque ∑iT=∧1k ξ i tend p.s. vers ∑iT=1 ξ i et
est majorée par ∑iT=1 |ξ i | dont on sait par l’étude du cas positif que
c’est une variable aléatoire intégrable. Par conséquent, le théorème de
convergence dominée permet de conclure.

138 mesure intégration et probabilités

Applications aux marches aléatoires


On considère (ηi , i ≥ 1) une suite de variables aléatoires IID telles
quel
P ( ηi = 1 ) = p = 1 − P ( ηi = − 1 ) .

On pose S0 = 0 et Sn = ∑i≤n ξ i .
La loi forte des grands nombres stipule que Sn /n tend presque-
sûrement vers p − q quand n tend vers l’infini, donc

+∞ si p > q


n→∞
Sn −−−→ −∞ si p > q

1

0 si p = q =

2

Quand p > q, on est donc sûr d’atteindre n’importe quel niveau B > 0
par contre rien ne garantit qu’on atteindra tout niveau négatif.
Supposons que p > q et que l’on s’intéresse au temps d’atteinte de
B > 0, i.e.
T = inf{n > 0, Sn = B}.

Remarquons alors qu’en notant


h i
φ(t) = E etξ 1 = pet + qe−t
 
la suite Zn = exp tSn − n ln(φ(t)) est une martingale. En effet,
h i
E [ Zn+1 |Fn ] = E etSn etξ n+1 |Fn e−(n+1) ln(φ(t))
h i
= etSn E etξ n+1 e−(n+1) ln(φ(t))
= etSn e−n ln(φ(t)) = Zn

En appliquant le théorème d’arrêt pour le temps d’arrêt T ∧ n, on


obtient h  i
E exp tST ∧n − T ∧ n ln(φ(t)) = 1.

D’après la convexité de la fonction exponentielle,

pet + qe−t ≥ exp( pt − qt) = exp((2p − 1)t).

Par conséquent, pour tout réel positif t, φ(t) ≥ 1. Par ailleurs, la loi
forte des grands nombres implique que Sn /n a une limite strictement
positive presque sûrement donc que Sn tend vers +∞ p.s., donc T est
p.s. fini et tST ∧n − T ∧ n ln(φ(t)) tend vers tB − T ln(φ(t)) pour presque
tout ω. Enfin, remarquons que ST ∧n ≤ B donc d’après le théorème de
convergence dominée,
h  i h  i
lim E exp tST ∧n − T ∧ n ln(φ(t)) = etB E exp − T ln(φ(t)) = 1,
n→+∞
martingales à temps discret 139

pour tout réel t positif. Soit ψ l’inverse de la fonction t 7→ ln(φ(t)), on


a donc h i
E e−λT = e− Bψ(λ) .
Tous calculs faits, on trouve
 λ + pλ2 − 4p + 4p2 
ψ(λ) = ln .
2p
8
Correction des exercices

Exercice 1.1 .
1 Si le théorème de Fubini s’applique, on peut intégrer dans l’ordre
que l’on veut. Comme l’intégrande est anti-symétrique en x et y, on
trouvera une valeur et son opposée donc l’intégrale est nulle.
2 Par intégration directe on a
1
x 2 − y2
Z 1 
x 1
dx = − 2 =− ·
0 ( x 2 + y2 )2 x + y2 0 1 + y2
D’autre part,
Z 1
1 π
− = − [arctan(y)]10 = − 6= 0.
0 1 + y2 4
3

Exercice 1.6 .
a) On doit vérifier les trois axiomes qui définissent une tribu.
— T −1 (∅) = ∅ donc ∅ ∈ I .
— Rappelons que T −1 ( Ac ) = ( T −1 ( A))c donc si A ∈ I , T −1 ( Ac ) =
Ac soit Ac ∈ I .
— De même, pour une famille dénombrable d’ensembles ( An , n ≥
1),
T −1 ( T −1 ( A n ).
[ [
An ) =
n ≥1 n ≥1
Par conséquent, si les An appartiennent tous à I ,

T −1 (
[ [ [
An ) = An ⇐⇒ An ∈ I .
n ≥1 n ≥1 n ≥1

b) Nous devons montrer que pour tout A ∈ B(R), f −1 ( A) appartient


à I . Ce qui revient à montrer que T −1 ◦ f −1 ( A) = f −1 ( A). Or par
définition d’une fonction invariante f ◦ T = f et par définition des
images réciproques, ( f ◦ T )−1 = T −1 ◦ f −1 .
142 mesure intégration et probabilités

3 Supposons que le système soit ergodique. Soit f une fonction inva-


riante, pour tout α ∈ R,

P( f −1 (] − ∞, α]) = 0 ou 1.

D’autre part, la fonction

G f : α 7−→ P( f −1 (] − ∞, α])

est croissante et continue à droite. Donc il existe α0 tel que

∀ β < α, G f ( β) = 0 et G f ( β) = 1, pour β ≥ α.

Ceci signifie que P( f −1 ({α0 }) = 1 donc que f = α P-presque par-


tout.
Réciproquement, supposons que toutes les fonctions invariantes f
sont presque sûrement constantes. Si le système n’est pas ergodique,
il existe un ensemble invariant de mesure non nulle :

∃ A ∈ E , T −1 ( A) = A et P( A) > 0.

Considérons alors la fonction f = 1 A . Elle est invariante par T


puisque
f ◦ T = 1 A ◦ T = 1 T −1 ( A ) = 1 A = f ,
et prend les valeurs 0 et 1 sur des ensembles de mesure non nulle,
donc elle n’est pas constante, d’où une contradiction. Par conséquent,
tous les ensembles T-invariants sont de mesure nulle.
4 Soit A un ensemble invariant. Appliquons (1.5) à f = g = 1 A .
Comme f ◦ T = f , il vient
Z Z 2
lim 12A dP = 1 A dP ,
n→∞ E E

soit P( A) = P( A)2 donc P( A) = 0 ou P( A) = 1. Ce qui signifie que


le système est ergodique.
5 Il suffit de le montrer pour n = 1, le résultat en découle par récur-
rence. Pour f = 1 A , c’est l’hypothèse d’invariance de P par T qui
permet d’écrire
Z Z Z
1 A ◦ T dP = 1 T −1 ( A) dP = P( T −1 ( A)) = P( A) = 1 A dP.
E E E

Par linéarité, l’équation (1.6) est vraie pour toutes les fonctions éta-
gées positives puis par passage à la limite pour toutes les fonctions
mesurables positives. Comme L2 (P) ⊂ L1 (P), toute fonction f de L2
s’écrit f = f + − f − avec f + et f − mesurables, positives et d’intégrale
finie. Par différence, l’équation (1.6) est vraie pour tous les éléments
de L2 (P).
correction des exercices 143

6 Soit D l’ensemble sur lequel (1.5) est vérifiée. Soit f et g des éléments
de L2 (P). Pour tout e > 0, il existe f e et ge appartenant à D tels que
k f − f e k2 < e et k g − ge k2 < e.
Z Z
f ◦ T n g dP = ( f ◦ T n − f e ◦ T n ) g dP
E E
Z Z
+ f e ◦ T n ( g − ge ) dP + f e ◦ T n ge dP := An + Bn + Cn .
E E

Par Cauchy-Schwarz et la question précédente,


Z 1/2
| An | ≤ |( f − f e ) ◦ T n |2 dP k g k2 = k f − f n k2 k g k2 ≤ e k g k2 .
E

De même,
| Bn | ≤ k f ◦ T n k2 k g − ge k2 = k f k2 e.

Enfin,
Z Z Z Z Z Z
Cn − f dP g dP ≤ ( f e − f ) dP ge dP + f dP ( g − ge ) dP
E E E E E E

≤ k f − f e k2 k ge k2 +k f k2 k g − ge k2 .

D’après l’inégalité triangulaire, k ge k2 ≤ k gk2 +e donc


Z Z
Cn − f dP g dP ≤ e(k gk2 +e + k f k2 ).
E E

Si l’on pose
Z Z Z
In ( f , g) = f ◦ T n g dP − f dP g dP,
E E E

on a donc montré que pour tout n ≥ 1, qu’il existe c > 0 tel que

| In ( f , g) − In ( f e , ge )| ≤ ce.

On choisit n tel que | Im ( f e , ge )| ≤ e pour m ≥ n, et alors dans ces


conditions, | Im ( f , g)| ≤ (c + 1)e.
7 La fonction T1 est appelée fonction tente en raison de la forme de son
graphe.
Pour démontrer que λ est invariante par T1 , il suffit que l’on dé-
montre que
λ( T1−1 ([ a, b])) = λ([ a, b]) = b − a,

pour tout a et b. Or

T1−1 ([ a, b]) = [ a/2, b/2] ∪ [1 − b/2, 1 − a/2],

dont la mesure de Lebesgue est bien b − a.


144 mesure intégration et probabilités

T1 ( x ) Figure 8.1: Fonction T1 .

x
1
2

8 Par définition,

ek ( T n ( x )) = exp(2n iπkx )1[0,1/2] ( x ) + exp(−2n iπkx )1[1/2,1] ( x ).

Par conséquent,
Z 1 Z 1/2 Z 1
ek ( T n ( x )) el ( x ) dx = e2n−1 k ( x ) el ( x ) dx + e−2n−1 k ( x ) el ( x ) dx.
0 0 1/2

D’après le lemme de Riemman, ces deux intégrales tendent vers


quand n tend vers l’infini. On a donc bien
Z 1 Z 1 Z 1
ek ( T n ( x )) el ( x ) dx = 0 = el ( x ) dx ek ( x ) dx.
0 0 0

9 Pour identifier la mesure µ, on procède en utilisant le théorème [??],


soit ψ une fonction test, on a
Z 1 Z 1
ψ( x ) dµ( x ) = ψ( T1 ( x )) dx.
0 0

L’application Θ est bijective de [0, 1] dans lui-même, on peut donc


faire le changement de variable y = Θ( x ) donc
√ p
dy = π sin(πx/2) cos(πx/2) dx = π y 1 − y dx.

Par conséquent,
Z 1 Z 1
1
ψ( T1 ( x )) dx = ψ(y) √ p dy.
0 0 π y 1−y

y(1 − y))−1 dy.


p
D’où dµ(y) = (π
10 On a le diagramme suivant Supposons que l’on ait démontré que

T ◦ Θ = Θ ◦ T1 .
correction des exercices 145

Soit A invariant par T, i.e. T −1 ( A) = A, et soit B = Θ−1 ( A). On a


alors

T1−1 ( B) = T1−1 ◦ Θ−1 ( A) = (Θ ◦ T1 )−1 ( A) = ( T ◦ Θ)−1 ( A)


= Θ−1 ( T −1 ( A)) = Θ−1 ( A) = B.

Par conséquent, B est invariant par T1 donc λ( B) = 0 ou λ( B) = 1.


Comme µ est la mesure image de λ par Θ,

λ( B) = λ(Θ−1 ( A)) = µ( A),

on a bien µ( A) = 0 ou µ( A) = 1, soit ( E, T, µ) ergodique. En vertu


de théorème de Birkhoff, on a bien
N Z b
1
lim
N →∞
∑ 1[a,b] (xn ) = a π
p
x (1 − x )
dx.
n =1

Exercice 1.8 .
1. La première partie est l’inégalité de Markov. Ensuite
Z Z Z
p −1
| f | p dµ ≤ | f | p dµ = | f | p−1 | f | dµ ≤ k f k∞ k f k1 .
| f |>k f k∞ −ε

2. On passe à la puissance 1/p-ième et on prend les limites inf et sup.

(k f k∞ −ε) lim inf µ(| f | > k f k∞ −ε)1/p ≤ lim infk f k p


p
1−1/p 1/p
≤ lim supk f k p ≤ lim supk f k∞ k f k1 .

On sait de la première question que µ(| f | > k f k∞ −ε) est fini donc
sa puissance 1/p-ième tend vers 1. De même pour (k f k1 /k f k∞ )1/p .

Exercice 1.9 .
1. On fait le changement de variable s = t/x.
2.
Z ∞ Z x p 1/p Z ∞ Z 1 p 1/p
1
f (t) dt ≤ f (sx ) ds
0 x 0 0 0
Z ∞ Z
 1
 p 1/p
≤ | f (sx )| ds
0 0
Z 1 Z ∞ 1/p
p
≤ | f (sx )| dx ds,
0 0
146 mesure intégration et probabilités

d’après l’inégalité intégrale de Minkoswki. Maintenant, on refait le


changement de variables à l’envers,
Z ∞
1/p Z ∞
1/p
| f (sx )| p dx = | f (u)| p du s−1/p .
0 0

Comme Z 1
p
s−1/p ds = ,
0 p−1
le résultat en découle.

Exercice 1.10 .
1. Par homogénéité, on peut se ramener à le prouver pour y = 1. On
doit donc montrer que

1 + t p ≤ (1 + t2 ) p/2 ⇐⇒ f (t) ≥ 0

pour t ≥ 0. Or

f 0 (t) = p(t2 + 1) p/2−1 t − pt p−1 ≥ pt2( p/2−1)+1 − pt p−1 = 0.

Comme f (0) = 0, la fonction est positive sur R+ d’où le résultat.


2. On applique le résultat précédent à x = ( a + b)/2 et y = ( a − b)/2,
on obtient
! p/2
a+b p a−b p a+b 2 a−b 2
+ ≤ +
2 2 2 2
 2 p/2
2a + 2b2

=
4
1 2 1 2 p/2
 
= a + b
2 2
1 p 1 p
≤ a + a ,
2 2

d’après la convexité de la fonction t 7→ t p/2 .

Exercice 2.1 . D’une part,

E [ X ] = 1/2
E [Z] = 0
E [Y ] = E [ X ] E [ Z ] = 0
h i h i
E [ XY ] − E [ X ] E [Y ] = E [ XY ] = E ZX 2 = E [ Z ] E X 2 = 0,
correction des exercices 147

donc X et Y sont décorrélées. En revanche, on remarque que |Y | = | X |


donc P( X = 1, Y = 0) = 0 alors que

P(Y = 0) = P( X = 0) = 1/2 donc P( X = 1)P(Y = 0) = 1/4.

Les deux variables X et Y ne sont donc pas indépendantes.

Exercice 2.2 .
1) Dire que P est la loi uniforme sur {0, 1}n signifie que

P({ x1 , · · · , xn }) = 2−n

pour tout ( x1 , · · · , xn ) ∈ {0, 1}n . L’événement ( Xi = 1) s’écrit aussi

( Xi = 1) = {( x1 , · · · , xn ) ∈ {0, 1}n , xi = 1}.

Une seule coordonnée est fixée (en l’occurrence la i-ième) donc le


cardinal de cet ensemble est 2n−1 . Par définition de la probabilité
uniforme sur un ensemble fini (cf. ??)

card( Xi = 1) 2n −1 1
P ( Xi = 1 ) = n
= n = ·
2 2 2
Par passage au complémentaire, on en déduit que P( Xi = 0) = 1/2.
Maintenant, soit {i1 , · · · , ik } ⊂ {1, · · · , n} un ensemble d’indices
(distincts). On doit prouver que pour tout ( x1 , · · · , xk ) ∈ {0, 1}k ,

P ( Xi 1 = x 1 , · · · , Xi k = x k ) = P ( Xi 1 = x 1 ) . . . P ( Xi k = x k ) .

Or dans l’ensemble ( Xi1 = x1 , · · · , Xik = xk ) on a fixé k des n


coordonnées donc son cardinal est 2n−k . Par conséquent,

2n − k
P ( Xi 1 = x 1 , · · · , Xi k = x k ) = = 2 − k = P ( Xi 1 = x 1 ) . . . P ( Xi k = x k ) ,
2n
puisque chacun des termes de ce produit vaut 1/2.
2) D’après sa définition, la longueur d’un mot est égale au nombre
de ses bits à 1. En l’occurrence, cela revient à compter le nombre
d’apparition de 1 dans une suite de n tirages iid où la probabilité
d’apparition d’un 1 à chaque place est de 1/2. Cela correspond à une
distribution binomiale de paramètres n et 1/2 (cf. ??) dont on sait que
l’espérance vaut n/2.
3) On sait aussi que la variance d’une loi binomiale B(n, p) est donnée
par np(1 − p), soit ici n/4.
4) Par définition de la distance de Hamming,
n
d( X, Y ) = ∑ 1Xi 6=Yi .
i =1
148 mesure intégration et probabilités

Les variables aléatoires Zi = 1 Xi 6=Yi sont des variables aléatoires de


Bernoulli telles que (d’après la formule des probabilités totales cf.
théorème [??]

P( Zi = 0) = P( Xi = Yi ) = P( Xi = Yi , Xi = 0) + P( Xi = Yi , Xi = 1)
= P( Xi = 0, Yi = 0) + P( Xi = 1, Yi = 1) = P( Xi = 0)P(Yi = 0) + P( Xi = 1)P(Yi = 1),

puisque Xi et Yi sont indépendantes. Enfin, comme Xi et Yi sont des


Bernoulli des paramètre 1/2, on obtient

P( Zi = 0) = 1/2 1/2 + 1/2 1/2 = 1/2·

D’après le lemme [??], les Zi sont indépendantes. On sait que la


variance de la somme de variables aléatoires indépendantes est la
somme de leur variance donc
n
var(d( X, Y )) = ∑ var(Zi ) = n/4.
i =1

Comme E [d( X, Y )] = ∑in=1


E [ Zi ] = n/2, on tire
h i n ( n + 1)
E d( X, Y )2 = var(d( X, Y )) + E [d( X, Y )]2 = n/4 + n2/4 = ·
4

Exercice 2.3 .
a) L’espace probabilisé est Ω = {1, · · · , 6} × {1, · · · , 6} muni de la
probabilité uniforme. On note de façon naturelle D1 et D2 les deux
composantes ou si l’on préfère D1 représente la valeur du dé numéro
1, D2 celle du dé numéro 2. On doit calculer P( D1 + D2 = k) pour
k ∈ {2, · · · , 12}. Par définition de la probabilité uniforme, pour k
fixé, il faut calculer le nombre de couples de Ω dont la somme fait
k. La probabilité d’obtenir k s’obtient en divisant ce cardinal par le
cardinal de Ω qui est 36. Pour k = 2, un seul couple convient : (1, 1).
Pour k = 3, il y en a 2 : (1, 2) et (2, 1). On notera qu’ici les dés sont
distingués donc ces deux couples diffèrent. Au final, on obtient

k 2 3 4 5 6 7 8 9 10 11 12
P( D1 + D2 = k) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

Par ailleurs,

E [ D1 + D2 ] = 2E [ D1 ] = 2.(1 + 2 + 3 + 4 + 5 + 6)/6 = 7.

b) La variable aléatoire r. τ représente un premier temps de succès


(cf. ??) si l’on considère que « succès » signifie l’obtention d’un 7.
D’après la question précédente, la probabilité d’avoir 7 est de 1/6,
donc τ suit une loi géométrique de paramètre 1/6. D’après l’exercice
??, sa moyenne vaut 6.
correction des exercices 149

c) Un initié connaît τ donc s’arrête au coup d’avant.


d) Le gain de l’initié s’exprime comme
τ −1 τ
G= ∑ Si = ∑ Si − 7, (8.1)
i =1 i =1

puisque par définition de τ, Sτ = 7. Pour calculer son espérance, on


ne peut pas utiliser la linéarité puisque le nombre de termes dans
la somme est aléatoire. Il faut d’abord décomposer l’espace en sous-
ensembles où l’on connaît τ. D’après la formule des probabilités
totale (cf. théorème [??])
" #
τ
E ∑ Si
i =1

" #
τ
= ∑ E ∑ Si 1 τ = k
k =1 i =1

" #
k
∑ E ∑ Si 1S1 6=7,··· ,Sk−1 6=7,Sk =7
 
= E S1 1 S1 = 7 +
k =2 i =1
 
= E S1 1 S1 = 7

!
k −1 h i h i
+ ∑ ∑ E ( S i 1 S i 6 = 7 ) 1 S1 6 = 7 . . . 1 S k − 1 6 = 7 1 S k = 7 + E ( S k 1 S k = 7 ) 1 S1 6 = 7 . . . 1 S k − 1 6 = 7 .
k =2 i =1

Dans chaque terme de la forme


h i
E ( S i 1 S i 6 = 7 ) 1 S1 6 = 7 . . . 1 S k − 1 6 = 7 1 S k = 7 ,

on a un produit de fonctions de chacune des variables Si donc


en vertu de l’indépendance des variable aléatoire r. Sk et du théo-
rème [??], on peut séparer les espérances :
h i
E ( S i 1 S i 6 = 7 ) 1 S1 6 = 7 . . . 1 S k − 1 6 = 7 1 S k = 7
 
= E ( S i 1 S i 6 = 7 ) P ( S1 6 = 7 ) . . . P ( S k − 1 6 = 7 ) P ( S k = 7 ) .

D’une part,
    7
E Sk 1Sk =7 = E 71Sk =7 = 7P(Sk = 7) = ·
6
 
D’autre part, calculons maintenant E Si 1Si 6=7 .

    1 35
E Si 1Si 6=7 = E [Si ] − E Si 1Si =7 = 7 − 7P(Si = 7) = 7(1 − ) = ·
6 6
On en tire que
  k −2
h i 35 5 1
E ( S i 1 S i 6 = 7 ) 1 S1 6 = 7 . . . 1 S k − 1 6 = 7 1 S k = 7 = .
6 6 6
150 mesure intégration et probabilités


" #  k −2  k −1 !
τ k −1 
7 5 1 35 5 7
E ∑ Si = +∑
6 k =2 ∑ 6 6 6
+
6 6
i =1 i =1

5 k −2 7 ∞ 5 k −1
   
7 35
= +
6 36 ∑ ( k − 1) 6 + ∑
6 k =2 6
k =2

5 k −1 7 5 ∞ 5 k
   
7 35
= +
6 36 ∑k 6 +
6 6 k∑ 6
.
k =1 =0

On reconnaît dans les expressions de la forme



∑ kρk−1
k =1

la dérivée de la série géométrique donc


∞ ∞
d d 1 1
∑ kρk−1 =
dρ ∑ ρk = dρ 1 − ρ
=
(1 − ρ )2
·
k =1 k =0

On obtient donc
" #
τ
7 35 1 35 1 7 35
E ∑ Si = + 2
+ = + 35 + = 35 + 7.
i =1
6 36 (1 − /6)
5 36 1 − /6
5 6 6

Au vu de l’équation (8.3), on obtient E [ G ] = 35.


e) Conditionnellement à ( Xn = i ), les valeurs possibles de Xn+1 sont 0
si i = 0 et

{0} ∪ {i + 1, i + 2, · · · , i + 6, 0, i + 8, · · · , i + 12} = {0} ∪ {i + B}

où B = {2, 3, 4, 5, 6, 8, 9, 10, 11, 12}, si i > 0. Au vu des rappels ou du


corollaire ??,

E [ X n +1 | X n = i ] = ∑ j P ( X n +1 = j | X n = i )
j ∈i + B

= ∑ ( i + k ) P ( S n +1 = k | X n = i )
k∈ B
= ∑ ( i + k ) P ( S n +1 = k ),
k∈ B

car Xn qui est une fonction de S1 , · · · , Sn est indépendant de Sn+1


d’après le lemme [??]. On peut transformer cette quantité en re-
marquant que B contient toutes les valeurs possibles de Sn+1 sauf
7
  5 35
E [ Xn+1 | Xn = i ] = iP(Sn+1 6= 7) + E Sn+1 1Sn+1 6=7 = i + ,
6 6
d’après les questions précédentes.
correction des exercices 151

f) La droite d’équation y = 5/6 x + 35/6 croise la première bissectrice en


(35, 35). Avant elle est au dessus, après elle est en dessous. Cela si-
gnifie que si le score courant est inférieur (respectivement supérieur)
à 35, on peut « espérer » s’enrichir (respectivement s’appauvrir). La
stratégie consiste donc à jouer tant que l’on n’a pas atteint 35 et à
s’arrêter dès que ce palier est atteint.

35

g) La méthode de la question d) ne permet pas de calculer l’espérance


du gain explicitement sous la stratégie optimale définie dans la ques-
tion précédente. Nous présentons ici deux méthodes pour résoudre
numériquement ce calcul.
— Par simulation (cf. ??). On simule un grand nombre de trajectoires
du jeu sous cette stratégie : on joue jusqu’à perdre ou atteindre
35 ou plus. On fait la moyenne des gains obtenus et l’intervalle
de confiance. Pour N = 1 000 000 de tirages, on obtient comme
intervalle de confiance

[14,1378267459162; 14,3732532540876].

— La deuxième solution consiste à utiliser l’arbre de toutes les tra-


jectoires possibles.

2 3 4 5 6 0 8 9 10 11 12

10 ... 14 0 16 ... 20

12 ... 16 0 18 ... 22

Chaque branche est pondérée par sa probabilité : ainsi la branche


de 0 vers 2 a un poids de 1/36. On parcourt l’arbre de manière
récursive jusqu’à atteindre toutes les feuilles de valeur supérieure
152 mesure intégration et probabilités

ou égale à 35. Chaque chemin entre la racine et une feuille est


pondérée par le produit des poids rencontrés sur le chemin et on
fait la somme de tous ces poids sur toutes les feuilles. Evidemment,
on n’examine pas les branches qui correspondent à un 7. Cela
donne le résultat exact.

def score(init,proba,seuil,distrib):
c=0.
if (init>seuil):
return init*proba
else:
for j,l in [Link]():
c+=score(init+j,proba*l,seuil,distrib)
return c

On notera qu’à travers le paramètre distrib, on peut changer la


distribution des tirages (par exemple considérer un jeu à deux à 4
faces avec comme nombre interdit 5). L’appel à la fonction se fait
donc par le code
distrib={2:1/36.,3:2/36.,4:3/36.,5:4/36.,6:5/36.,
8:5/36.,9:4/36.,10:3/36.,11:2/36.,12:1/36.}
scoremoyen=score(0.,1.,35,distrib)
Ce qui donne comme résultat

Gain moyen = ??.

Exercice 2.4 .
1) Pour obtenir une configuration avec k poissons marqués, il faut
choisir k poissons parmi les r marqués et s − k poissons parmi les
N − r pas marqués. Lorsque l’on tire s poissons dans un lot de N, il
y a exactement ( Ns ) tirages possibles. On a donc

(kr )( Ns−−kr)
P( X = k) = ·
( Ns )

2) Calculons le rapport des deux termes en deux parties.

pk r!( N − r )!
=
p k −1 k!(r − k)!(s − k)!( N − r − s + k )!
(k − 1)!(r − (k − 1))!(s − (k − 1))!( N − r − s + k − 1)!
×
r!( N − r )!
k( N − r − s + k)
= ·
(r − k + 1)(s − k + 1)
correction des exercices 153

D’autre part,

pk r!( N − r )!
=
p k +1 k!(r − k)!(s − k)!( N − r − s + k )!
(k + 1)!(r − (k + 1))!(s − (k + 1))!( N − r − s + k + 1)!
×
r!( N − r )!
(r − k)(s − k)
= ·
(k + 1)( N − r − s + k + 1)
Par conséquent,

pk k N−r−s+k s−k r−k


= < 1.
p k −1 p k +1 k+1 N−r−s+k+1 s−k+1 r−k+1

3) En passant au logarithme on obtient

2 ln pk < ln pk−1 + ln pk+1 ,

ce qui signifie que la suite (ln pk , k ≥ 0) est (strictement) concave


(autrement dit la suite d’origine est log-concave). D’après les rappels
sur les fonctions convexes (cf. théorème [??]), cela signifie que la suite
(ln pk , k ≥ 0) admet un unique maximum. Comme logarithme est
une fonction monotone, il en va de même pour la suite ( pk , k ≥ 0).
4) Pour que pk /pk−1 soit inférieur à 1, il faut et il suffit que

k ( N − r − s + k) ≤ (r − k + 1)(s − k + 1)
⇐⇒ k( N 0 − r 0 − s0 + k) ≤ (r 0 − k)(s0 − k)
⇐⇒ N 0 k ≤ r 0 s0 .

Pour que pk /pk+1 soit inférieur à 1, il faut et il suffit que

(r − k)(s − k) ≤ (k + 1)( N − r − s + k + 1)
⇐⇒ (r 0 − (k + 1))(s0 − (k + 1)) ≤ (k + 1)( N 0 − r 0 − s0 + k + 1)
⇐⇒ N 0 (k + 1) ≥ r 0 s0 .

En combinant les deux inégalités, on obtient

r 0 s0 r 0 s0
− 1 ≤ k ≤ .
N0 N0
On en déduit que k0 est la partie entière de r 0 s0 /N 0 .
5) On construit un estimateur N̂ selon le raisonnement suivant. Si
N est connu, l’effectif que l’on a le plus de chance d’observer est
r 0 s0 /( N + 2). On part alors du principe que si l’on a observé X
poissons marqués, c’est que X = r 0 s0 /( N + 2) d’où N = r 0 s0 /X − 2.

Exercice 2.5 .
154 mesure intégration et probabilités

1) Cet encadrement est connu sous le nom d’inégalités de Bonferonni


et constitue un raffinement de la formule de Poincaré (ou principe
d’inclusion-exclusion).

On remarque que X = 0 si et seulement si Xi = 0 pour tout i, en


d’autres termes si et seulement si ∏in=1 (1 − Xi ) = 1 : par ailleurs, ce
produit, s’il ne vaut pas 1 vaut 0. D’où
n
P( X = 0) = E[∏(1 − Xi )].
i =1

La quantité aléatoire ∏in=1 (1 − Xi ) prend des valeurs du type ∏in=1 (1 −


xi ) où chaque xi vaut 0 ou 1. Chacune de ces valeurs est donc de la
forme f (1) où
n
f : t 7→ ∏(1 − txi ).
i =1
Une des formules de Taylor nous dit que

f (1) = f (0) + f 0 (0) + f 00 (0) + . . . + f (r) (0) + f (r+1) (c) (8.2)

où c ∈]0, 1[. Or comme chaque xi est dans [0, 1], on constate que le
signe de la quantité f (r+1) (c) ne dépend que de la parité de r. Passer
aux espérances dans (8.2) donne les inégalités demandées.
b) On a E[ Xi ] = (1 − p)n−1 ∼ e−c /n. D’où E[ X ] = nE[ X1 ] ∼ e−c .
c) On a F (k) = (nk) E[ X1 · · · Xk ]. De plus,

E [ X1 · · · X k ] = P[les sommets 1, . . . k sont isolés]


k
= (1 − p)k(n−1)−(2)
k
= E[ X1 ]k (1 − p)−(2)
e−ck
Donc, pour k fixé, F (k) → (nk) E[ X1 ]k → k! .
d) Il s’agit d’utiliser la question préliminaire : on se donne ε > 0 et on
choisit r tel que
2r
e−ck −c ε
∑ (−1)k k!
− e−e <
2
k =0

puis un n0 tel que pour tout n > n0 et 0 ≤ k ≤ 2r

e−ck ε
| F (k) − |< .
k! 2(2k + 1)
On en déduit que pour tout n suffisamment grand
−c
P [ X = 0] < e − e + ε.

On obtient une borne inférieure sur P[ X = 0] de manière similaire.


Comme les ε sont arbitraires, on en déduit le résultat.
correction des exercices 155

Commentaire : on pourrait montrer de la même manière que


−c
P( X = j) → e−e e−cj /j!.

La loi de X se rapproche d’une loi de Poisson, ce qui veut dire que les Xi se
comportent de manière « de plus en plus indépendantes ».

e) Il y a (n2 ) paires de sommets. la probabilité qu’une paire de sommets


donnée constitue une composante connexe vaut p(1 − p)2(n−2) . L’es-
pérance du nombre de composantes connexes à deux sommets vaut
donc  
n p p
p(1 − p)2(n−2) ∼ (ne− pn )2 = e−2c → 0
2 2 2
car p tend vers 0 quand n → ∞.
f) On en déduit qu’avec probabilité tendant vers 1 le nombre de com-
posantes connexes à t éléments avec 2 ≤ t ≤ n/2 tend vers 0.
g) Or Gn,p n’est pas connexe si et seulement s’il existe une composante
connexe à t sommets pour 1 ≤ t ≤ n/2. La probabilité d’être non
connexe se comporte donc comme la probabilité d’avoir (au moins)
un point isolé. Autrement dit, la probabilité que Gn,p soit connexe
−c
tend vers e−e . En particulier on en déduit que si p grandit moins
vite que ln n/n + c/n pour tout c, alors Gn,p n’est pas connexe avec
probabilité tendant vers 1. Par contre si p grandit plus vite que
ln n/n + c/n pour tout c, alors Gn,p est connexe avec probabilité
tendant vers 1.

Exercice 2.6 . D’après la formule de Markov pour p = 2 (cf. proposi-


tion ??),
" #
2
Xn − µ n Xn − µ n
 
1
P >η ≤ E
bn η bn
σn2 n→∞
= −−−→ 0,
η bn2

d’après les hypothèses. D’après la définition de la convergence en


X −µ
probabilités, cela signifie bien que nbn n tend vers 0 en probabilité.

Exercice 2.7 .
1 Pour θ > 0, la fonction ( x 7→ exp(θx )) est strictement croissante
donc
( X ≥ η ) = (eθX ≥ eθη ).

2 D’après l’inégalité de Markov pour p = 1 (cf. proposition ??),


h i
P(eθX ≥ eθη ) ≤ e−θη E eθX .
156 mesure intégration et probabilités

3 Pour une loi de Poisson de paramètre λ,


∞ ∞
h i λk (eθ λ)k
E eθX = ∑ eθk e−λ k! = e−λ ∑ k!
= exp(−λ + λ eθ ).
k =0 k =0

4 Pour η fixé, on doit donc calculer

argminθ >0 exp(−θη − λ + λeθ ) = argminθ >0 (−θη + λeθ ).

Comme
d
(−θη + λeθ ) = −η + λeθ ,

le point critique est obtenu pour θ0 = ln(η/λ). La dérivée seconde
étant positive, c’est bien un minimum.
5 On obtient donc

ln P( X ≥ η ) ≤ −θ0 η + η − λ.

Pour η = Kλ, θ0 = ln K, on a donc

ln P( X ≥ η ) ≤ −λ(K ln K − K + 1)

On doit résoudre l’équation


ln(0.001)
K ln K − K + 1 = − ·
λ
Avec le code SAGE suivant, on la résout pour λ = 5, 10, 15, 20, 25
(la variable lambda est un mot réservé en SAGE...)

Listing 8.1 – Calcul de K


def f(x,l,epsilon):
return x*log(x)-x+1+log(epsilon)/l
for i in range(5):
l=(i+1)*5
def g(x):
return f(x,l,0.001)
print l,find_root(g, 1, 4*l, rtol=0.0001)

On trouve les résultats suivants :


λ 5 10 15 20 25
K 3,08 2,39 2,10 1,94 1,83

On voit que si l’on doit stocker une loi de Poisson en mémoire, i.e.
stocker les valeurs des probabilités P( X = k ), en ne gardant que
les valeurs de k jusqu’à trois fois la moyenne (λ), on a une erreur
inférieure à 0, 1 pour cent. On peut évidemment raffiner en prenant
des valeurs de seuil plus basses.

Exercice 2.8 .
correction des exercices 157

1 La variable aléatoire Ti+1 − Ti représente le nombre de tablettes né-


cessaires pour obtenir une nouvelle image sachant que l’on en a déjà
i. Soit Si l’ensemble des i images obtenues, à chaque nouvelle tablette,
on trouve une image de cet ensemble avec probabilité |Si |/N = i/N.
Le nombre de tablettes nécessaires pour en obtenir une nouvelle suit
donc un loi géométrique (cf. ??) : on a un succès lorsque l’image
obtenue n’est pas dans Si , ce qui se produit avec probabilité 1 − i/N.
Au final,
  k −1
i i
P( Ti+1 − Ti = k ) = (1 − )·
N N
2 Notons ( Xk , k ≥ 1) le numéro de l’image obtenue dans la tablette k.
Par hypothèse, les variable aléatoire r. Xk sont indépendantes (et de
loi uniforme de sur {1, · · · , N }). L’événement ( T1 − T0 = i1 , · · · , Tk −
Tk−1 = ik ) dépend des variables aléatoires X1 , · · · , Xi1 +...+ik . Condi-
tionnellement à cet événement, l’événement ( Tk+1 − Tk = ik+1 ) dé-
pend des variables aléatoires Xi1 +...+ik +1 et suivantes. Ces deux
ensembles de variables aléatoires sont disjoints donc en vertu du
lemme [??], il y a indépendance conditionnelle :

P( Tk+1 − Tk = ik+1 | T1 − T0 = i1 , · · · , Tk − Tk−1 = ik )


= P( Tk+1 − Tk = ik+1 )P( T1 − T0 = i1 , · · · , Tk − Tk−1 = i< k).

Par récurrence, on en déduit alors que

N −1
P( T1 − T0 = i1 , · · · , TN − TN −1 = i N ) = ∏ P(Tk+1 − Tk = ik+1 ).
k =0

Ce qui signifie que les variable aléatoire r. T0 , T1 − T0 , . . . , TN − TN −1


sont indépendantes dans leur ensemble.
3 On a la relation évidente

TN = ( TN − TN −1 ) + ( TN −1 − TN −2 ) + . . . + ( T1 − T0 ) + T0 .

Compte-tenu de la linéarité de l’espérance et de l’exercice ?? où l’on


a calculé la moyenne et la variance d’une loi géométrique, on a pour

1 N
E [ Tk+1 − Tk ] = = ,
1 − k/N N−k
d’où
N −1
N N N 1
E [ TN ] = N + + +...+ =N ∑ ·
2 3 N−1 k =1
k
Il est alors supposé connu que

N −1
1
∑ k
∼ ln( N )
k =1
158 mesure intégration et probabilités

pour N tendant vers l’infini. D’où l’équivalent de E [ TN ] qui est


N ln( N ). Pour la variance, d’après l’exercice ??,

1 − (1 − k/N ) kN 2 k
var( Tk+1 − Tk ) = 2
= 2
=N ·
(1 − k/N ) N ( N − k) ( N − k )2

Comme les variable aléatoire r. sont indépendantes, la variance de la


somme est la somme des variance (cf. proposition ??) donc

N −1 N −1
k 1
var( TN ) = N ∑ ( N − k) 2
≤ N 2
∑ k2
,
k =1 k =1

en majorant k par N et en réindexant. Comme la série de terme


général 1/k2 converge, on en déduit que var( TN ) = O( N 2 ).

4 Pour pouvoir appliquer le résultat de l’exercice 3.1, il suffit de vérifier


que
var( TN ) N →∞
−−−→ 0.
E [ TN ]2

Or d’après la question précédente,

var( TN ) N2 1 N →∞
= O( ) = O( ) −−−→ 0.
E [ TN ]2 N 2 ln( N )2 ln( N )2

Exercice 2.11 .

a) L’utilisation de la fonction génératrice permet de calculer simplement


les moments par dérivation (cf. théorème [??]). Pour X Bernoulli de
paramètre p,
h i
Φ X (s) = E s X = ps1 + (1 − p)s0 = 1 − p + ps
d
E [X] = Φ X (s)
ds s =1
=p
d2
E [ X ( X − 1)] = Φ X (s) =0
ds2
s =1
h i
var( X ) = E X − E [ X ]2
2

= E [ X ( X − 1)] + E [ X ] − E [ X ]2 = 0 + p − p2
= p (1 − p ).
correction des exercices 159

Pour X géométrique de paramètre p,


∞ ∞   k −1
Φ X (s) = ∑ sk (1 − p)k−1 p = ps ∑ (1 − p ) s
k =1 k =1
∞  k
= ps ∑ (1 − p ) s
k =0
ps
=
1 − (1 − p ) s
p
E [X] =
(1 − (1 − p ) s )2 s =1
1
=
p
2p(1 − p) 1− p
E [ X ( X − 1)] = =2
(1 − (1 − p ) s )3 s =1 p2
1− p
var( X ) = .
p2

Pour la loi de Poisson de paramètre λ,



λk
Φ X (s) = ∑ sk e−λ k!
k =0

(λs)k
= e−λ ∑ k!
k =0
= e−λ eλs
E [ X ] = λe−λ eλs
s =1

E [ X ( X − 1)] = λ2 e−λ eλs = λ2
s =1
var( X ) = λ2 + λ − λ 2

= λ.

b) Calculons la fonction génératrice de ∑nk=1 Xk . Comme ces variable


aléatoire r. sont indépendantes, en vertu de théorème [??] et de la
question précédente, on a
h n i n h i n n
E s ∑ k =1 Xk = ∏E s Xk = ∏ e−λk (1−s) = exp(− ∑ λk (1 − s)).
k =1 k =1 k =1

On remarque que ∑nk=1


Xk a même fonction génératrice qu’une va-
riable aléatoire de loi de Poisson de paramètre ∑nk=1 λk . Comme la
fonction génératrice caractérise la loi (cf. corollaire ??), on en déduit
que ∑nk=1 Xk suit une loi de Poisson de paramètre ∑nk=1 λk .

Exercice 3.1 . D’après la formule de Markov pour p = 2 (cf. proposi-


160 mesure intégration et probabilités

tion ??),
" #
2
Xn − µ n Xn − µ n
 
1
P >η ≤ E
bn η bn
σn2 n→∞
= −−−→ 0,
η bn2

d’après les hypothèses. D’après la définition de la convergence en


X −µ
probabilités, cela signifie bien que nbn n tend vers 0 en probabilité.

Exercice 3.2 .
1 Pour θ > 0, la fonction ( x 7→ exp(θx )) est strictement croissante
donc
( X ≥ η ) = (eθX ≥ eθη ).

2 D’après l’inégalité de Markov pour p = 1 (cf. proposition ??),


h i
P(eθX ≥ eθη ) ≤ e−θη E eθX .

3 Pour une loi de Poisson de paramètre λ,


∞ ∞
h i λk (eθ λ)k
E eθX = ∑ eθk e−λ k! = e−λ ∑ k!
= exp(−λ + λ eθ ).
k =0 k =0

4 Pour η fixé, on doit donc calculer

argminθ >0 exp(−θη − λ + λeθ ) = argminθ >0 (−θη + λeθ ).

Comme
d
(−θη + λeθ ) = −η + λeθ ,

le point critique est obtenu pour θ0 = ln(η/λ). La dérivée seconde
étant positive, c’est bien un minimum.
5 On obtient donc

ln P( X ≥ η ) ≤ −θ0 η + η − λ.

Pour η = Kλ, θ0 = ln K, on a donc

ln P( X ≥ η ) ≤ −λ(K ln K − K + 1)

On doit résoudre l’équation

ln(0.001)
K ln K − K + 1 = − ·
λ
Avec le code SAGE suivant, on la résout pour λ = 5, 10, 15, 20, 25
(la variable lambda est un mot réservé en SAGE...)
correction des exercices 161

Listing 8.2 – Calcul de K


def f(x,l,epsilon):
return x*log(x)-x+1+log(epsilon)/l
for i in range(5):
l=(i+1)*5
def g(x):
return f(x,l,0.001)
print l,find_root(g, 1, 4*l, rtol=0.0001)

On trouve les résultats suivants :


λ 5 10 15 20 25
K 3,08 2,39 2,10 1,94 1,83
On voit que si l’on doit stocker une loi de Poisson en mémoire, i.e.
stocker les valeurs des probabilités P( X = k ), en ne gardant que
les valeurs de k jusqu’à trois fois la moyenne (λ), on a une erreur
inférieure à 0, 1 pour cent. On peut évidemment raffiner en prenant
des valeurs de seuil plus basses.

Exercice 3.3 .
1 La variable aléatoire Ti+1 − Ti représente le nombre de tablettes né-
cessaires pour obtenir une nouvelle image sachant que l’on en a déjà
i. Soit Si l’ensemble des i images obtenues, à chaque nouvelle tablette,
on trouve une image de cet ensemble avec probabilité |Si |/N = i/N.
Le nombre de tablettes nécessaires pour en obtenir une nouvelle suit
donc un loi géométrique (cf. ??) : on a un succès lorsque l’image
obtenue n’est pas dans Si , ce qui se produit avec probabilité 1 − i/N.
Au final,
  k −1
i i
P( Ti+1 − Ti = k ) = (1 − )·
N N
2 Notons ( Xk , k ≥ 1) le numéro de l’image obtenue dans la tablette k.
Par hypothèse, les v.a.r. Xk sont indépendantes (et de loi uniforme
de sur {1, · · · , N }). L’événement ( T1 − T0 = i1 , · · · , Tk − Tk−1 = ik )
dépend des variables aléatoires X1 , · · · , Xi1 +...+ik . Conditionnelle-
ment à cet événement, l’événement ( Tk+1 − Tk = ik+1 ) dépend des
variables aléatoires Xi1 +...+ik +1 et suivantes. Ces deux ensembles de
variables aléatoires sont disjoints donc en vertu du lemme [??], il y a
indépendance conditionnelle :

P( Tk+1 − Tk = ik+1 | T1 − T0 = i1 , · · · , Tk − Tk−1 = ik )


= P( Tk+1 − Tk = ik+1 )P( T1 − T0 = i1 , · · · , Tk − Tk−1 = i< k).
Par récurrence, on en déduit alors que
N −1
P( T1 − T0 = i1 , · · · , TN − TN −1 = i N ) = ∏ P(Tk+1 − Tk = ik+1 ).
k =0
162 mesure intégration et probabilités

Ce qui signifie que les v.a.r. T0 , T1 − T0 , . . . , TN − TN −1 sont indé-


pendantes dans leur ensemble.
3 On a la relation évidente

TN = ( TN − TN −1 ) + ( TN −1 − TN −2 ) + . . . + ( T1 − T0 ) + T0 .

Compte-tenu de la linéarité de l’espérance et de l’exercice ?? où l’on


a calculé la moyenne et la variance d’une loi géométrique, on a pour

1 N
E [ Tk+1 − Tk ] = = ,
1 − k/N N−k

d’où
N −1
N N N 1
E [ TN ] = N + + +...+ =N ∑ ·
2 3 N−1 k =1
k

Il est alors supposé connu que

N −1
1
∑ k
∼ ln( N )
k =1

pour N tendant vers l’infini. D’où l’équivalent de E [ TN ] qui est


N ln( N ). Pour la variance, d’après l’exercice ??,

1 − (1 − k/N ) kN 2 k
var( Tk+1 − Tk ) = 2
= =N ·
(1 − k/N ) N ( N − k )2 ( N − k )2

Comme les v.a.r. sont indépendantes, la variance de la somme est la


somme des variance (cf. proposition ??) donc

N −1 N −1
k 1
var( TN ) = N ∑ ( N − k) 2
≤ N2 ∑ 2 ,
k
k =1 k =1

en majorant k par N et en réindexant. Comme la série de terme


général 1/k2 converge, on en déduit que var( TN ) = O( N 2 ).
4 Pour pouvoir appliquer le résultat de l’exercice 3.1, il suffit de vérifier
que
var( TN ) N →∞
−−−→ 0.
E [ TN ]2
Or d’après la question précédente,

var( TN ) N2 1 N →∞
2
= O( ) = O( ) −−−→ 0.
E [ TN ] N 2 ln( N )2 ln( N )2

Exercice 6.1 .
correction des exercices 163

a) L’espace probabilisé est Ω = {1, · · · , 6} × {1, · · · , 6} muni de la


probabilité uniforme. On note de façon naturelle D1 et D2 les deux
composantes ou si l’on préfère D1 représente la valeur du dé numéro
1, D2 celle du dé numéro 2. On doit calculer P( D1 + D2 = k) pour
k ∈ {2, · · · , 12}. Par définition de la probabilité uniforme, pour k
fixé, il faut calculer le nombre de couples de Ω dont la somme fait
k. La probabilité d’obtenir k s’obtient en divisant ce cardinal par le
cardinal de Ω qui est 36. Pour k = 2, un seul couple convient : (1, 1).
Pour k = 3, il y en a 2 : (1, 2) et (2, 1). On notera qu’ici les dés sont
distingués donc ces deux couples diffèrent. Au final, on obtient

k 2 3 4 5 6 7 8 9 10 11 12
P( D1 + D2 = k) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

Par ailleurs,

E [ D1 + D2 ] = 2E [ D1 ] = 2.(1 + 2 + 3 + 4 + 5 + 6)/6 = 7.

b) La v.a.r. τ représente un premier temps de succès (cf. ??) si l’on consi-


dère que « succès » signifie l’obtention d’un 7. D’après la question
précédente, la probabilité d’avoir 7 est de 1/6, donc τ suit une loi
géométrique de paramètre 1/6. D’après l’exercice ??, sa moyenne vaut
6.
c) Un initié connaît τ donc s’arrête au coup d’avant.
d) Le gain de l’initié s’exprime comme
τ −1 τ
G= ∑ Si = ∑ Si − 7, (8.3)
i =1 i =1

puisque par définition de τ, Sτ = 7. Pour calculer son espérance, on


ne peut pas utiliser la linéarité puisque le nombre de termes dans
la somme est aléatoire. Il faut d’abord décomposer l’espace en sous-
ensembles où l’on connaît τ. D’après la formule des probabilités
totale (cf. théorème [??])
" #
τ
E ∑ Si
i =1

" #
τ
= ∑ E ∑ Si 1 τ = k
k =1 i =1

" #
k
∑ E ∑ Si 1S1 6=7,··· ,Sk−1 6=7,Sk =7
 
= E S1 1 S1 = 7 +
k =2 i =1
 
= E S1 1 S1 = 7

!
k −1 h i h i
+ ∑ ∑ E ( S i 1 S i 6 = 7 ) 1 S1 6 = 7 . . . 1 S k − 1 6 = 7 1 S k = 7 + E ( S k 1 S k = 7 ) 1 S1 6 = 7 . . . 1 S k − 1 6 = 7 .
k =2 i =1
164 mesure intégration et probabilités

Dans chaque terme de la forme


h i
E ( S i 1 S i 6 = 7 ) 1 S1 6 = 7 . . . 1 S k − 1 6 = 7 1 S k = 7 ,

on a un produit de fonctions de chacune des variables Si donc en


vertu de l’indépendance des v.a.r. Sk et du théorème [??], on peut
séparer les espérances :
h i
E ( S i 1 S i 6 = 7 ) 1 S1 6 = 7 . . . 1 S k − 1 6 = 7 1 S k = 7
 
= E ( S i 1 S i 6 = 7 ) P ( S1 6 = 7 ) . . . P ( S k − 1 6 = 7 ) P ( S k = 7 ) .

D’une part,
    7
E Sk 1Sk =7 = E 71Sk =7 = 7P(Sk = 7) = ·
6
 
D’autre part, calculons maintenant E Si 1Si 6=7 .
    1 35
E Si 1Si 6=7 = E [Si ] − E Si 1Si =7 = 7 − 7P(Si = 7) = 7(1 − ) = ·
6 6
On en tire que

35 5 k−2 1
h i  
E ( S i 1 S i 6 = 7 ) 1 S1 6 = 7 . . . 1 S k − 1 6 = 7 1 S k = 7 = .
6 6 6


" #  k −2   k −1 !
τ k −1 
7 5 1 35 5 7
E ∑ Si = +∑
6 k =2 ∑ 6 6 6
+
6 6
i =1 i =1

5 k −2 7 ∞ 5 k −1
   
7 35
= +
6 36 ∑ ( k − 1) 6 + ∑
6 k =2 6
k =2

5 k −1 7 5 ∞ 5 k
   
7 35
= +
6 36 ∑k 6 +
6 6 k∑ 6
.
k =1 =0

On reconnaît dans les expressions de la forme



∑ kρk−1
k =1

la dérivée de la série géométrique donc


∞ ∞
d d 1 1
∑ kρk−1 = dρ ∑ ρk = dρ 1 − ρ
=
(1 − ρ )2
·
k =1 k =0

On obtient donc
" #
τ
7 35 1 35 1 7 35
E ∑ Si = + + = + 35 + = 35 + 7.
6 36 ( 1 − 5/6)2 36 1 − 5/6 6 6
i =1

Au vu de l’équation (8.3), on obtient E [ G ] = 35.


correction des exercices 165

e) Conditionnellement à ( Xn = i ), les valeurs possibles de Xn+1 sont 0


si i = 0 et

{0} ∪ {i + 1, i + 2, · · · , i + 6, 0, i + 8, · · · , i + 12} = {0} ∪ {i + B}

où B = {2, 3, 4, 5, 6, 8, 9, 10, 11, 12}, si i > 0. Au vu des rappels ou du


corollaire ??,

E [ X n +1 | X n = i ] = ∑ j P ( X n +1 = j | X n = i )
j ∈i + B

= ∑ ( i + k ) P ( S n +1 = k | X n = i )
k∈ B
= ∑ ( i + k ) P ( S n +1 = k ),
k∈ B

car Xn qui est une fonction de S1 , · · · , Sn est indépendant de Sn+1


d’après le lemme [??]. On peut transformer cette quantité en re-
marquant que B contient toutes les valeurs possibles de Sn+1 sauf
7
  5 35
E [ Xn+1 | Xn = i ] = iP(Sn+1 6= 7) + E Sn+1 1Sn+1 6=7 = i + ,
6 6
d’après les questions précédentes.
f) La droite d’équation y = 5/6 x + 35/6 croise la première bissectrice en
(35, 35). Avant elle est au dessus, après elle est en dessous. Cela si-
gnifie que si le score courant est inférieur (respectivement supérieur)
à 35, on peut « espérer » s’enrichir (respectivement s’appauvrir). La
stratégie consiste donc à jouer tant que l’on n’a pas atteint 35 et à
s’arrêter dès que ce palier est atteint.

35

g) La méthode de la question d) ne permet pas de calculer l’espérance


du gain explicitement sous la stratégie optimale définie dans la ques-
tion précédente. Nous présentons ici deux méthodes pour résoudre
numériquement ce calcul.
166 mesure intégration et probabilités

— Par simulation (cf. ??). On simule un grand nombre de trajectoires


du jeu sous cette stratégie : on joue jusqu’à perdre ou atteindre
35 ou plus. On fait la moyenne des gains obtenus et l’intervalle
de confiance. Pour N = 1 000 000 de tirages, on obtient comme
intervalle de confiance

[14,1378267459162; 14,3732532540876].

— La deuxième solution consiste à utiliser l’arbre de toutes les tra-


jectoires possibles.

2 3 4 5 6 0 8 9 10 11 12

10 ... 14 0 16 ... 20

12 ... 16 0 18 ... 22

Chaque branche est pondérée par sa probabilité : ainsi la branche


de 0 vers 2 a un poids de 1/36. On parcourt l’arbre de manière
récursive jusqu’à atteindre toutes les feuilles de valeur supérieure
ou égale à 35. Chaque chemin entre la racine et une feuille est
pondérée par le produit des poids rencontrés sur le chemin et on
fait la somme de tous ces poids sur toutes les feuilles. Evidemment,
on n’examine pas les branches qui correspondent à un 7. Cela
donne le résultat exact.

def score(init,proba,seuil,distrib):
c=0.
if (init>seuil):
return init*proba
else:
for j,l in [Link]():
c+=score(init+j,proba*l,seuil,distrib)
return c

On notera qu’à travers le paramètre distrib, on peut changer la


distribution des tirages (par exemple considérer un jeu à deux à 4
faces avec comme nombre interdit 5). L’appel à la fonction se fait
donc par le code

distrib={2:1/36.,3:2/36.,4:3/36.,5:4/36.,6:5/36.,
8:5/36.,9:4/36.,10:3/36.,11:2/36.,12:1/36.}
scoremoyen=score(0.,1.,35,distrib)
correction des exercices 167

Ce qui donne comme résultat

Gain moyen = 12,3.

Vous aimerez peut-être aussi