0% ont trouvé ce document utile (0 vote)
11 vues47 pages

Vecteurs aléatoires et espérance mathématique

Transféré par

lahouar.meher
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
11 vues47 pages

Vecteurs aléatoires et espérance mathématique

Transféré par

lahouar.meher
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd



Probabilités
Chapitre 3
Vecteurs aléatoires réels et Espérance
mathématique

Fatma Abdelkefi

[Link]@[Link]

Octobre 2015

SUPCOM
1


 
Plan du chapitre
 

• Vecteurs aléatoires réels


– Définition
– Loi coinjointe, loi marginale, loi conditionnelle
– Indépendance
– Changement de variables
• Espérance mathématique

2


Vecteurs aléatoires réels

3

 
Définition 
Définition 1 Soit (Ω, A, P) un espace de probabilité. Un vecteur aléatoire,
définie sur (Ω, A, P), est une application mesurable de (Ω, A) dans Rn (muni de
la tribue borélienne B(Rn )). Ses coordonnées forment une famille de n variables
aléatoires.
Tout x ∈ B(Rn ) s’écrit sous la forme x = (x1 , x2 , . . . , xn ) où xi ∈ R est la ie
composante du vecteur x. Cette composante est l’image de x par la fonction
coordonnée :
fi : (x1 , x2 , . . . , xn ) 7→ xi .
On peut définir la variable Xi = fi (X), projection de X par la ie fonction
corrdonnée fi , que l’on appelle ie composante aléatoire du variable aléatoire X.
On note :
X = (X1 , X2 , . . . , Xn ).
Si n = 2, on parle de couples de variables aléatoires qui est noté : (X, Y ).

4

 

Loi conjointe 
Pour un vecteur aléatoire X de dimension n, le domaine de variation RX est un
sous-ensemble de Rn . Pour tout x ∈ Rn , on peut définir la fonction de
répartition ou la fonction de densité de probabilité conjointe.
Définition 2 Pour un vecteur X = (X1 , X2 , . . . , Xn ), la fonction de répartition
conjointe FX (x) donnée par :
∩ ∩
FX (x) = FX (x1 , . . . , xn ) = P ({X1 ≤ x1 } . . . { Xn ≤ xn }).

Définition 3 Pour un vecteur X = (X1 , . . . , Xn ) discret, la probabilité


conjointe p(x) est donnée par :

 P ({X = x } ∩ . . . ∩{X = x }) si x ∈ R
1 1 n n X
p(x) = p(x1 , . . . , xn ) =
 0 ailleurs

{Xi }1≤i≤n sont des variables aléatoires réelles, leurs n lois sont appelées lois
marginales de X. La loi PX de X est appelée loi conjointe des n v.a.
5

Définition 4 Pour un vecteur X = (X1 , . . . , Xn ) continu, la fonction de
densité de probabilité conjointe f (x) est donnée par :
∂ n FX (x)
fX (x) = fX (x1 , . . . , xn ) = .
∂x1 ∂x2 . . . ∂xn

Il est facile de vérifier que la fonction FX est obtenue à partir des fonctions p(x)
et fX (x) à l’aide de sommations ou intégrations multiples. On pourra ainsi
écrire que ∀x ∈ Rn :
∑ ∑ ∫ x1 ∫ xn
FX (x) = ... p(u) ; FX (x) = ... fX (u1 , u2 , . . . , un )du1 . . . dun .
u1 ≤x1 un ≤xn −∞ −∞

Définition 5 La probabilité d’un événement B ⊆ RX est donnée par :


 ∑

 p(x) cas discret
p(B) = x∈B

 ∫
f (x)dx cas continu
x∈B X

6

Exemple
Soit (X, Y ) de densité : f(X,Y ) (x, y) = θ2 e−θ(x+y) 1R∗+ (x)1R∗+ (y), où θ > 0 est
∫ ∫
une constante fixée. Comme R R f(X,Y ) (x, y)dxdy = 1, f(X,Y ) est une densité
de probabilité sur R2 . On s’intéresse à la fonction de répartition F(X,Y ) du
∫x ∫y
vecteur aléatoire (X, Y ). Par définition, F(X,Y ) = −∞ −∞ f(X,Y ) (u, v)dudv. Vu
que f(X,Y ) (u, v) = 0 dès que u ≤ 0 et v ≤ 0, on déduit que F(X,Y ) (x, y) ̸= 0
seulement si x > 0 et y > 0. Dans ce cas,
∫ x∫ y
F(X,Y ) = θ2 e−θ(u+v) (u, v)dudv = (1 − e−θx )(1 − e−θy ).
0 0

Par conséquent :

 (1 − e−θx )(1 − e−θy ) si x > 0 ety > 0
F(X,Y ) (x, y) =
 0 sinon
 

Loi marginale 
Etant donné un vecteur X : Ω → Rn , avec X = (X1 , . . . , Xn ), on sait que

7

chaque composante Xi de ce vecteur aléatoire est une v.a, est-il possible de
connaı̂tre la loi de chacun des Xi ?
Cas de deux variables aléatoires X et Y :
Définition 6 Les distributions marginales de X et Y sont données par les
formules :
∑ ∫
p(x) = p(x, y) ou fX (x) = p(x, y) (cas discret)
y y
∑ ∫
p(y) = p(x, y) ou fY (y) = p(x, y) (cas continu).
x x

Cas de plusieurs variables aléatoires X1 . . . Xn :


La loi de distribution de Xi est donnée par :

p(xi ) = p(x1 , . . . , xn ) ou
x1 ,...,xi−1 ,xi+1 ,...,xn

fXi (xi ) = x1 ,...,xi−1 ,xi+1 ,...,xn
fX (x1 , . . . , xn )dx1 , . . . dxi−1 dxi+1 , . . . , dxn .

8

On peut généraliser :
Définition 7 La loi marginale d’une partie des v.a. {xi }i∈I où I est un
sous-ensemble de k indices de {1, 2, . . . , n}, considéré comme un vecteur
aléatoire à k composantes, est donnée par :
∑ ∫
p({xi }i∈I ) = p(x1 , . . . , xn ) ou fX ({xi }i∈I ) = f (x1 , . . . , xn ).
{xi }i̸∈I {xi }i̸∈I
 
Loi conditionnelle 
Une v.a conditionnée par une autre
Considérons deux variables (ou vecteurs) aléatoires X et Y , de distribution de
probabilité conjointe p(x, y). La distribution conditionnelle p(y|x) donnée par la
formule suivante :
p(x, y)
p(y|x) = .
p(x)
Il s’agit d’une distribution de probabilité en y (qui n’est définie que pour les x
∫ ∫ fX,Y (y,x)
telles que p(x) > 0) puisque : p(y|x) > 0 et y fX,Y (y|x)dy = y fX,Y (x) dy = 1
9

∑ ∑
(cas continu) ou y p(y|x)dx = y p(y,x) p(x) dx = 1 (cas discret). En marginalisant
sur x ou y, on déduit les expressions suivantes :
∫ ∑
f (y) = f (y|x)fX (x)dx (cas continu) ou p(y) = p(y|x)p(x) (cas discret) et
y x
∫ ∑
f (x) = f (x|y)fY (y)dy (cas continu) ou p(x) = p(x|y)p(y) (cas discret).
y y

Ces formules montrent que p(y) (repectivement f (y)) s’obtient en moyennant


p(y|x) (respectivement f (y|x)) sur p(x) (respectivement f (x)). D’où la formule
de Bayes :
p(x|y)p(y) f (x|y)f (y)
p(y|x) = ∑ cas discret ou f (y|x) = ∫ cas continu.
′ ′ f (x|y ′ )f (y ′ )dy ′
p(x|y )p(y ) y′
y′

Exemple : probabilité d’erreur conditionnelle


Considérons une v.a discrète X représentant une donnée à estimer (par exemple
dans du bruit). On n’a pas accès aux réalisations X = x, mais on estime celle-ci
10

à l’aide d’une v.a Y ”bien choisie”, définie sur le même alphabet que X. Etant
donné X = x, on déclare qu’il y a erreur si Y ̸= x. La probabilité d’erreur
conditionnelle (sachant X = x) est alors donnée par :

Pe|x = P (Y ̸= X|X = x) = p(y|x) (cas discret) ou
y|y̸=x

Pe|x = P (Y ̸= X|X = x) = f (y|x)dy.
y|y̸=x

Par ailleurs, la probabilité d’erreur totale est définie par :



Pe = P (Y ̸= X) = x,y|y̸=x p(x, y) (cas discret) ou

Pe = P (Y ̸= X) = x,y|y̸=x f (x, y)dx dy (cas continu).

Puisque p(x, y) = p(y|x)p(x), les deux probabilités d’erreur sont liées par la
formule :

Pe = x p(x)Pe|x (cas discret) ou

Pe = x f (x)Pe|x dx (cas continu).
11

Plusieurs v.a conditionnées par d’autres
La notion de loi conditionnelle p(y|x) a déjà été définie pour deux variables ou
vecteurs aléatoires X et Y . Cette définition inclut déjà la généralisation à
plusieurs variables {Xi }i∈I par le vecteur aléatoire qui regroupe les {Xj }j∈J , la
loi de probabilité en les {Xi }i∈I , pour tout choix de valeurs de {Xj }j∈J fixées
est la suivante :
p({Xk }k∈I∪J )
p({Xi }i∈I |{Xj }j∈J ) = .
p({Xj }j∈J
Par exemple, pour trois v.a X, Y et Z, on a :
p(x,y,z)
p(x, y|z) = p(z)
p(x,y,z)
p(x, z|y) = p(y)
p(x,y,z)
p(z|x, y) = p(x,y)

et ainsi de suite.
Pour n v.a X1 , X2 , . . . , Xn , on a une formule générale de factorisation de la
distribution de la loi conjointe p(x1 , . . . , xn ) (repectivement f (x1 , . . . , xn )) qui

12

est la suivante :

p(x1 , x2 , . . . , xn ) = p(x1 )p(x2 |x1 )p(x3 |(x1 , x2 )) . . . p(xn |(x1 , x2 , . . . , xn−1 ))


f (x1 , x2 , . . . , xn ) = f (x1 )f (x2 |x1 )f (x3 |(x1 , x2 )) . . . f (xn |(x1 , x2 , . . . , xn−1 ))
 

Indépendance

Deux v.a X et Y sont indépendantes si la probabilité conjointe de deux
événements quelconques se réduit au produit des probabilités de chacun de ses
événements :

P ({X ∈ A et Y ∈ B}) = P ({X ∈ A})P ({Y ∈ B})

pour tout borélien A et B de B(R).


Lois de probabilité de v.a indépendantes
Proposition 1 Deux v.a X et Y sont indépendantes si et seulement si leur
distribution conjointe est le produit des distributions marginales :

p(x, y) = p(x)p(y).

13

Cette définition inclut le cas de deux vecteurs aléatoires :
X = (X1 , X2 , . . . , Xm ) et Y = (Y1 , Y2 , . . . , Yn ) sont indépendants si et seulement
si p(X, Y) = p(X)p(Y), où les dimensions m et n ne sont pas nécessairement les
mêmes.
Plusieurs v.a indépendantes
Proposition 2 Soient (X1 , . . . , Xn ), n variables aléatoires. On dit qu’elles
sont indépendantes si, pour tout i = 1, . . . , n et si, pour tout xi ∈ Xi (Ω), les
événements {Xi = xi }1≤i≤n sont indépendants dans leur ensemble.
On obtient que X1 , . . . , Xn sont indépendantes si et seulement si la loi conjointe
est le produit des distributions marginales :

n
p(x1 , . . . , xn ) = p(xi ).
i=1

Souvent on confond la notion d’indépendance globale entre plusieurs v.a avec la


notion d’indépendance de deux quelconques des variables ou indépendance deux
à deux.
14


Proposition 3 Si les v.a X1 , . . . , Xn sont indépendantes (globalement), elles


sont aussi indépendantes deux à deux, c’est à dire que pour tout i ̸= j, Xi et Xj
sont indépendantes.
La réciproque est fausse en général : plusieurs v.a peuvent être indépendantes
deux à deux sans être globalement indépendantes.
Exemple
On choisit X, Y et Z binaires (dans {0, 1}) de loi conjointe :

 0 si x + y + z impair
p(x, y, z) =
 1 si x + y + z pair
4

∑ 1
Un calcul facile montre que p(x, y, z) = p(0, y, z) + p(1, y, z) = pour tout y
x
4
et z. On a donc p(y, z) = 14 , et par symétrie en (x, y, z) on a également
p(x, y) = p(x, z) = 41 . Il en résulte, en marginalisant, que

15

p(x) = p(y) = p(z) = 12 . Ainsi, on a les relations :
p(x, y) = p(x)p(y) , p(y, z) = p(y)p(z) , p(x, z) = p(x)p(z),
qui montrent que X, Y et Z sont deux à deux indépendantes. Mais puisque :
p(x, y, z) ̸= p(x)p(y)p(z) = 18 , les v.a. X, Y , Z ne sont pas (globalement)
indépendantes.
Proposition 4 Si deux vecteurs aléatoires X et Y sont indépendants, alors
deux composantes quelconques Xi et Yj de ces deux vecteurs sont indépendantes.
La réciproque est fausse en général.
Proposition 5 Pour un vecteur X = (X1 , X2 , . . . , Xn ), on peut écrire que :

 p(x , x , . . . , x ) = p(x )p(x ) . . . p(x )
1 2 n 1 2 n
X1 , . . . , Xn sont indépendants ⇔
 f (x1 , x2 , . . . , xn ) = f (x1 )f (x2 ) . . . f (xn )

Somme de v.a. indépendantes :


Proposition 6 La somme X + Y de deux v.a. indépendantes X et Y a pour loi
16


de probabilité le produit de convolution :

pX+Y = pX ⊗ py cas discret


fX+Y = fX ⊗ fy cas continu

Rappelons que le
∑ produit de convolution est défini par :
pX+Y =Z (z) = pX (x)pY (y) (cas discret) ou

x+y=z

fX+Y =Z (z) = fX (x)fY (y) (cas continu). On peut aussi l’écrire sous
x+y=z
l’une des deux formes suivantes :
∑ ∑
pX+Y (z) = pX (x)pY (z − x) = pX (z − y)pY (y)
x y

Ce résultat se généralise immédiatement au cas d’une somme de n v.a.


indépendantes, définie par : X = X1 + X2 + . . . + Xn . Sa loi de probabilité est

17


le produit de convolution des lois individuelles :

pX1 +...+Xn = pX1 ⊗ pX2 . . . ⊗ pXn .

On peut aussi écrire :


∑ ∏
pX1 +...+Xn = pXi (xi ) cas discret

i Xi =X i

ou ∫ ∏
fX1 +...+Xn = ∑
fXi (xi ) cas continu.
i Xi =X i
Exemple
Considérons une v.a. X binaire de probabilité 1 − p = P ({X = 0}) et
p = P ({X = 1}) et une v.a. gaussienne Y , indépendantes de X, de moyenne
nulle et de variance σ 2 . Déterminer la loi de la somme Z = X + Y .

18

La probabilité de la somme Z = X + Y est le produit de convolution :

1
p(z) = p(x)pY (z − x)
x=0

c’est à dire :
1 − p − z22 p −
(z−1)2
p(z) = √ e 2σ + √ e 2σ2 .
2πσ 2 2πσ 2
Il s’agit d’une combinaison linéaire de deux densités gaussiennes.
 

Changement de variables 
On considère une v.a. continue X et on cherche la loi de probabilité de
Y = g(X).
Proposition 7 Si X est une v.a. continue de densité de probabilité fX (x),
alors Y = g(X) est aussi une v.a. continue, de densité de probabilité fY (y)
donnée par la formule :
dx
fY (y) = | |fX (g −1 (y)).
dy
19


Lorsque X et Y sont des vecteurs aléatoires de dimension m = n, c’est la valeur


absolue du déterminant de la matrice jacobienne J:
 
∂x1 ∂x1
. . .
 ∂y1 ∂yn 
dx  . .. 
| | = |JX|Y | = | det  .. .  |, (1)
dy  
∂xn ∂xn
∂y1 . . . ∂yn

On peut étendre ces formules lorsque l’application g n’est pas bijective, mais
admet un nombre fini d’applications réciproques que l’on continue à appeler
g −1 . Les formules précédentes prennent la forme suivante :

fY (y1 , . . . , yn ) = |JX|y |xi =g−1 (y) fX (x1 , . . . , xn )xi =g−1 (y)
i i
g(xi )=y

∑ dx
fY (y) = | |xi =g−1 (y) fX (x)xi =g−1 (y) .
dy i i
g(xi )=y

20


 
Convolution 
Problème : connaissant la loi des variables aléatoires, X et Y , indépendantes ou
non, qu’elle est la loi de la somme Z = X + Y de ces deux variables ? La
résolution de ce problème dépend de la nature des variables, discrètes ou
continues. Il est plus facile à résoudre si les variables sont indépendantes.
Cas de deux variables aléatoires discrètes
Le théorème des probabilités totales donne la solution :

P (Z = z) = P ({X = x} et {Y = z − x})
x

= P ({Y = y} et {X = z − y}).
y

21


Si les variables X et Y sont indépendantes, la formule précédente s’écrit :



P (Z = z) = P ({X = x})P ({Y = z − x})
x

= P ({Y = y})P ({X = z − y}).
y

Si les variables X et Y ne sont pas indépendantes, en introduisant les


probabilités conditionnelles :

P (Z = z) = P ({X = x})P ({Y = z − x|X = x})
x

= P ({Y = y})P ({X = z − y|Y = y}).
y

Exemples
X et Y sont deux variables aléatoires indépendantes, suivant chacune une loi de
Poisson de paramètres λ et µ respectivement.

22


Les formules précédentes donnent (Z = X + Y ) :



z
e−λ λx e−µ µz−x e−(λ+µ) ∑
z
z!
P (Z = z) = = λx µz−x
x=0
x! (z − x)! z! x=0
x!(z − x)!
e−(λ+µ) (λ + µ)z
= .
z!
On reconnaı̂t l’expression de la densité de probabilité d’une loi de Poisson de
parmètre (λ + µ).
Cas de deux variables continues
Soit Z = X + Y avec X et Y deux variables aléatoires continues. Il en résulte
que si les variables alétoires X et Y sont indépendantes, la loi de la variable
aléatoire Z = X + Y est le produit de convolution des densités de probabilité
fX et fY si elles existent.
Si les variables aléatoires indépendantes X et Y admettent des densités de

23


probabilités fX et fY , la densité de probabilité de la variable aléatoire Z :


∫ ∫
fZ (z) = fX (x)fY (z − x)dx = fX (z − y)fY (y)dy.
Dx Dy

Dx et Dy désignent les domaines de variation des variables X et Y .


Par intégration, on obtient la fonction de répartition de la variable Z :
∫ ∫
FZ (z) = P ({Z < z}) = fX (x)FY (z − x)dx = FX (z − y)fY (y)dy,
Dx Dy

où FX et FY désignent les fonctions de répartition des variables X et Y .

24


Espérance mathématique

25

 
Définitions 
Si X est une variable aléatoire discrète prenant un ensemble fini ou dénombrable
de valeurs xk avec les probabilités PX (xk ), on appelle espérance mathématique
ou valeur moyenne de la variable aléatoire X, le nombre défini par :

E(X) = xk PX (xk ).
k

Exemples
• Pour une variable aléatoire de Bernoulli de paramètre p :
E(X) = 1.p + 0.(1 − p) = p.
• Pour une v.a. Binomiale de paramètres n et p :

n
n! ∑ (n − 1)!
n−1
E[X] = k p (1 − p)
k n−k
= np pi (1 − p)n−1−i .
k!(n − k)! i=0
i!(n − 1 − i)!
k=0

Soit E[X] = np.

26

• Pour une v.a. de Poisson de paramètre λ :

+∞
λk −λ ∑
+∞ i
λ
−λ
E[X] = k e = λe .
k! i=0
i!
k=0

Soit E[X] = λ.
Définition 8 L’espérance E[X] est la valeur qu’on s’attend à observer en
moyenne pour la variable aléatoire X.
Plus formellement, on a :
Définition 9 L’espérance E[X] est la valeur telle que :


 ∑
+∞

 xi p(xi ) cas discret
E[X] =
 ∫ i=0
+∞


 x fX (x) dx cas continu
−∞

La première formule montre que l’espérance peut être vue comme étant la

27

moyenne pondérée des valeurs xi (i = 1, . . . , n) que peut prendre la variable
aléatoire X, les poids étant donnés par les probabilités p(xi ).
Si X est une variable aléatoire mixte prenant les valeurs xk avec des
probabilités pk et de densité de probabilité :

fX (x) = pk δ(x − xk ) + fXc (x).
k

∑ ∫ +∞
Alors E[X] = xk pk + xfXc (x) dx.
k −∞
Deux cas particuliers importants :
1. X est une variable aléatoire∑ discrète prenant les valeurs xk avec les
probabilités pk (pk vérifiant pk = 1), la variable aléatoire Y = g o X est
k
une variable aléatoire discrète et :

E[g(X)] = g(xk )pk .
k

28


2. X est une variable aléatoire continue de densité de probabilité fX (x),


Y = g o X est une variable aléatoire de nature queleconque (elle peut être
discrète) et :
∫ +∞
E[g(X)] = g(x)fX (x) dx.
−∞

Pour une application g à valeurs réelles, l’espérance E[g(x)] sera bien définie
dans les cas suivants :
• lorsque g est positive : g ≥ 0, auquel cas E[g(x)] peut être soit fini (≥ 0),
soit égal à +∞;
• lorsque E[|g|] < +∞, sinon l’espérance E[g(X)] est infinie ou indéfinie.
Exemples :
Soit Y = cos2 (X) avec X variable aléatoire de loi de probabilité uniforme sur
[0, 2π]. Pour calculer E[Y ], il est inutile de faire appel à la densité de

29

probabilité de Y . Grâce à la relation précédente, on obtient :
∫ +∞
2 1
E[Y ] = cos (X)fX (x)dx avec fX (x) = 1[0,2π] (x).
−∞ 2π
∫ 2π
Soit E[X] = 2π 0 cos2 (x)dx = 21 .
1

Cas multidimensionnel :
Pour une application g de Rn dans R et pour X variable aléatoire
multidimensionnelle à valeurs dans Rn , de densité de probabilité fX (x),
l’expression de l’espérance est la suivante :
∫ ∫
E[g(X)] = g(x)fX (x)dx1 . . . dxn .
Rn

On peut aussi écrire g de la manière suivante : g = (g1 , . . . , gn ) où les gi sont


des applications composantes, l’espérance E[g(X)] est le vecteur de composantes
E[gi (X)]. Par exemple, si X = (X1 , . . . , Xn ) est un vecteur aléatoire de
dimension n, alors sa moyenne : E[X] = (E[X1 ], . . . , E[Xn ]) est aussi un vecteur
de dimsension n, dont les composantes sont les moyennes des composantes de X.

30

Si g est à valeurs complexes, E[g(X)] ∈ C. En posant, g(x) = a(x) + i b(x), il
vient : E[g(X)] = E[a(X)] + i E[b(X)].
 

Propriétés de l’espérance 
• E[g(X)] est toujours une quantité déterministe. Il est aussi possible que le
choix de g(x) soit lié à la loi de probabilité p(x) sur laquelle l’espérance
porte. Par exemple, la notion de l’entropie en théorie de l’information :
1
H(X) = E[log( p(X) )].

• E[g(X, Y )] = g(x, y)p(x, y) (cas discret) et
∫x,y
E[g(X, Y )] = x,y
g(x, y)f (x, y) dx dy (cas continu)
• E[g(X) + h(Y )] = E[g(X)] + E[h(Y )]
• Si X = x0 est une variable aléatoire déterministe, E(X) = x0
∑ ∑
• linéarité de l’espérance : E[ ai Xi ] = ai E[Xi ]
i i

31

• si g(X) ≥ 0 alors E[g(X)] ≥ 0
• |E[X]| ≤ E[|X|]
 

Indépendance et espérance 
Proposition 8 Si X1 , . . . , Xn sont des variables aléatoires réelles
indépendantes, l’espérance du produit est égale au produit des espérances :
∏ ∏
E[ Xi ] = E[Xi ].
i i

Etant indépendante (globablement), elles sont aussi indépendantes deux à deux


et on a :
E[Xi Xj ] = E[Xi ] E[Xj ]
pour tout i ̸= j; on dit que les Xi sont décorélés (deux à deux).
Il est important de noter que la simple relation E[X Y ] = E[X]E[Y ] ne suffit
pas pour que X et Y soient indépendantes.
 

Espérance conditionnelle 
32


De la même façon que toute loi de probabilité p(x) définit une v.a. X
d’espérance E[X], toute loi de probabilité conditionnelle p(y|x) définit une v.a.
Y sachant X = x dont l’espérance (si elle existe) est notée :

 ∑ y p(y|x) cas discret
E[Y |X = x] = ∫
y
 yf (y|x) cas continu
y

Contrairement à une espérance classique, ce n’est pas une quantité déterministe


mais une variable (ou un vecteur) aléatoire, qui est une fonction de X.
Nous distinguons les différents cas suivants :
• Y est indépendant de X : E[Y |X] = E[Y ]
∑ ∑
• E[ ai Yi |X] = ai E[Yi |X].
i i

33

 
Moyenne (localisation) et variance (dispersion)
 
Moyenne (paramètre de localisation) :
On a déjà défini l’espérance d’une v.a. X, que l’on appelle simplement moyenne
m de X :
m = E[X].
Variable aléatoire centrée :
On dit qu’une variable (ou un vecteur) aléatoire Xc est centrée si elle est de
moyenne nulle : E[Xc ] = 0. Etant donnée X admettant une moyenne m = E[X]
non nulle, alors Xc = X − m. Par changement de variable, la loi de probabilité
de Xc est pc = p(x − m).
Moment et variance :
On peut aussi définir les moments d’ordre k non centrés mk et centrés µk d’une
variable aléatoire X de la façon suivante :

mk = E[X k ] et µk = E[(X − E[X])k ].

34


Le moment centré d’ordre 2 s’appelle aussi variance de la v.a., notée var(X), sa


racine carrée porte le nom d’écart type (standard deviation en anglais), on le
note σX (les moments d’ordre strictement supérieur à deux sont appelés
moments d’ordre supérieur).
Nous avons par linéarité de l’espérance mathématique :

var(X) = E[X 2 ] − (E[X])2

ou encore σX 2
= E[(X − mX )2 ] = E[X 2 ] − m2X .
Il s’agit aussi de la moyenne quadratique de la v.a. centrée, c.a.d. de l’espérance
∑de X − m. On reconnaı̂t, dans∫l’expression de la variance
du carré
σX2
= (x − m)2 p(x) (cas discret) ou x (x − m)2 fX (x)dx (cas conitnu), la
x
définition du moment d’inertie de la distribution p(x) autour de son centre
d’inertie m. Elle mesure donc une plus ou moins grande dispersion de cette
distribution autour de la moyenne : plus la variance est élévée, plus grande sont
les fluctuations des réalisations de la v.a. X autour de sa moyenne.

35


Exemples :
• Pour une v.a. de Bernoulli de paramètre p, on a E[X 2 ] = E[X] = p et
var(X) = p − p2 .
• Pour une v.a. de Poisson de paramètre λ : E[X] = λ et var(X) = λ.
• Pour une v.a. uniforme sur [0, 1], fX (x) = 1[0,1] (x), d’où : E[X] = 1
2 et
1
var(X) = 12 .
(x−m)2

• Pour une v.a. de loi de probabilité normale : fX (x) = √1 e
σ 2π
2σ 2 . Alors
E[X] = m et var(X) = σ 2 .
Proposition 9 Une v.a. X est de variance nulle : σ 2 = 0 si et seulement si
c’est une v.a. déterministe.

36

Variable aléatoire réduite :
Les moyenne et variance d’une v.a. réelle vérifient les relations suivantes :
E[aX + b] = a E[X] + b
var(aX + b) = a2 var(X)
Une v.a. réelle Xr est dite réduite ou standard si elle est centrée (de moyenne
nulle) et de variance unité : E[Xr ] = 0 et E[Xr2 ] = 1.
Etant donnée X admettant une moyenne m = E[X] et une variance σ 2 > 0, on
a la ”réduite” suivante :
X −m
Xr = .
σ
 
Médiane et mode 
Médiane :
La md́iane µ d’une loi de probabilité p(x) est définie par la condition
d’équiprobabilité à gauche et à droie de µ :
P ({X ≤ µ}) = P ({X ≥ µ})
37

c’est à dire : ∫ ∫
fX (x)dx = fX (x)dx cas continu
x≤µ x≥µ
∑ ∑
p(x)dx = p(x)dx cas discret.
x≤µ x≥µ

Par exemple, une v.a. X ∈ {−1, 0, 1} uniforme admet pour médiane µ = 0 car
on a toujours la relation P ({X ≥ 0}) = P ({X ≤ 0}).
Mode :
On appelle mode d’une v.a. la valeur la plus probable. Dans le cas d’une v.a.
continue X, le mode est la valeur pour laquelle la densité de probabilité fX
présente un maximum.
 
Matrice de covariance d’une v.a. mutidimensionnelle 
Pour une v.a. mutidimensionnelle X à valeurs dans Rn , on fait appel à une
matrice appelée matrice de covariance, notée CX . Celle-ci est carrée d’ordre n,
son terme (i, j) est E[(Xi − E[Xi ])(Xj − E[Xj ])]. Ce dernier terme s’appelle
covariance des variables Xi et Xj , on le note cov(Xi , Xj ). Ce qui revient à dire
38

que :
CX = E[(X − mX )(X − mX )T ] = E[XXT ] − mX mTX
soit
cov(Xi Xj ) = E[Xi Xj ] − E[Xi ]E[Xj ].
A noter que dans CX , on a n2 coefficients de covariance :
cov(Xi , Xj ), i, j = 1, 2, . . . , n, dont n sont des variances notées σi2 :
σi2 = var(Xi ) = cov(Xi , Xi ) et les n(n − 1) restants sont associés par paires
conjuguées (égales si les v.a. sont réelles) : cov(Xi , Xj ) = cov(Xj , Xi )∗ (i ̸= j).
Coefficient de corréaltion linéaire de deux variables aléatoires :
On normalise souvent la covariance de deux v.a. X et Y par leur écart type. On
obtient alors ce qu’on appelle le coefficient de corrélation linéaire entre X et Y .
On le note ρX,Y :
cov(X, Y )
ρX,Y = .
σX σY
ρX,Y représente la covariance des v.a. normalisées Xr et Yr associé à X et Y . Si
ρX,Y ̸= 0 alors X et Y sont corrélées sinon X et Y sont non corrélées.

39

Droite de régression :
Dans le cas particulier où X et Y sont deux v.a., on estime alors Y par aX + b,
où a est un scalaire, et si X n’est pas déterministe, la solution optimale est
donnée par :
∗ cov(X, Y )
a = .
var(X)
L’estimateur optimal est donc :
∗ cov(X, Y )

a X +b = (X − E[X]) + E[Y ].
var(X)
La droite d’équation y = a∗ x + b∗ s’appelle la droite de régression de Y par
rapport à X. On peut écrire cette équation sous la forme :
y − mY x − mX
= ρX,Y .
σY σX
L’erreur quadratique moyenne minimale a donc l’expression suivante :
min E[(Y − aX − b)2 ] = σY2 (1 − ρ2X,Y ).
a,b

40

 

Fonction caractéristique 
Définition :
La fonction caractérestique d’une v.a. est l’espérance mathématique de la
variable eiwx , elle est définie par :

ϕX (w) = E[eiwX ], ∀w ∈ R,
 ∑

 eiwx p(x) cas discret
ϕX (w) = E[eiwX ] = x

 ∫ iwx
x e fX (x)dx cas continu

où eiwx = cos(wx) + i sin(wx). On reconnaı̂t la transformée de Fourier de la


distribution p(x).
Dans la définition ci-dessus, w est un paramètre de fréquence angulaire (ou
plusation). On préfère parfois exprimer la transforée de Fourier en fonction de

41

w
la fréquence f = 2π ; la définition traditionnelle est la suivante :

ϕX (f ) = E[ei2π f X ], ∀f ∈ R,

Fonction caractéristique d’un vecteur aléatoire :


Lorsque X ∈ Rn est une v.a. alors
T
ϕX (w1 , . . . , wn ) = E[eiw X
]

où wT X = w1 X1 + w2 X2 + . . . + wn Xn .
Fonction caractéristique et indépendance :
Proposition 10 Les composantes Xi du vecteur aléatoire X sont indépendantes
si et seulement si la fonction caractéristique de X se décompose en produit :

ϕX (w) = ϕXk (wk )
k

pour w ∈ Rn .
Proposition 11 La fonction caractéristique d’une somme X = X1 + . . . + Xn

42


de v.a. indépendantes est égale au produit des fonctions caratéristiques des v.a.
Xk :

ϕX (w) = ϕXk (w).
k
En particulier, si les Xk sont non seulement indépendantes mais aussi de même
distribution de probabilité, et donc de même fonctions caractéristiques ϕ(w), on
a:
ϕX (w) = (ϕ(w))n .

Autres propriétés de la fonction caractéristique :

• la fonction caractéristique ϕX (w) est une fonction continue de w


• ϕX (w) = ϕ∗X (−w)
• |ϕX (w)| ≤ ϕX (0) = 1

43

• la fonction caratéristique de la v.a. centrée Xc = X − m est :
ϕXc (w) = e−iwm ϕX (w)
Xc
et celle de la v.a. réduite Xr = σ est
w
ϕXr (w) = e−iw σ ϕX ( ).
m

σ
Ainsi pour une v.a. réelle de moyenne m et de variance σ 2 :
ϕX (w) = eiwm ϕXr (σw).

Exemple :
La v.a. Bionomiale B(n, p) admet pour fonction caractéristique :

n
ϕX (w) = eiwk Cnk pk (1 − p)n−k = [peiw + (1 − p)]n .
k=0
 
Fonction caractéristique, moments et cumulants
 
La fonction caractéristique est un outil pratique pour le calcul des moments, en
44

particulier pour le calcul de l’espérance et de la variance d’une v.a.
Proposition 12 Si les n premiers moments m1 , m2 , . . . , mn d’une v.a. X
existent et sont finis, alors la fonction caractéristique est n fois dérivable, de
dérivée nème continue et :
∑n
(iw)k 1 dk ϕX (w)
ϕX (w) = n
mk + O(w ) avec mk = E[X ] = k k
k
|w=0 .
k! i dw
k=0

Avec les mêmes hypothèses que précédemment, la fonction ΨX (w) = log[ϕX (w)]
admet un développement d’ordre n au voisinage de 0 :

n
(iw)k
ΨX (w) = log[ϕX (w)] = cumk + O(wn ).
k!
k=1

Les coefficients cumk ainsi définis sont appelés des cumulants d’ordre k de la
variable aléatoire X.
Exemple :
Les cumulants d’une gaussienne, de fonction caractéristique

45

2 w2
iwm − σ
ϕX (w) = e e 2 : il vient
σ 2 w2
log[ϕX (w)] = iwm − ,
2
d’où cum1 = m et cum2 = σ 2 et cumk = 0 pour k ≥ 3.
 

Fonction génératrice des moments 
Il existe une manière permettant d’obtenir tous les moments d’ordre k à partir
d’une unique fonction, appelée fonction génératrice des moments et notée
GX (t), donnée par :
 ∑

 etxl p(xl ) cas discret

GX (t) = E[etX ] = ∫ l


 etx fX (x)dx cas continu
x

pourvu que E[etx ] existe. En dérivant k fois cette expression par rapport à t, on

46


obtient :
 ∑

 x k txl
k  le p(xl ) cas discret
d GX (t)
= ∫ l
dt k 

 xk etx fX (x)dx cas continu
x

dk GX (t)
et l’évaluation de cette dérivée au point t = 0 : dtk
|t=0
= E[X k ] = mk .
Exemple :
Pour une v.a. X dont la densité de probabilité est : fX (x) = λe−λx 1x≥0 ,
tx
∫ +∞ −(λ−t)x λ−t
GX (t) = E[e ] = 0 λe dx. En multipliant par λ−t , on obtient
∫ +∞
GX (x) = λ−t 0 (λ − t)e−(λ−t)x dx. Si λ − t > 0, l’intégrale vaut 1 puisqu’il
λ

s’agit de l’intégrale sur RX d’une loi exponentielle de paramètre λ − t. on a


donc :
λ
GX (t) = pour t < λ.
λ−t
dGX (t) λ 1
On vérifie ainsi que dt = (λ−t)2 , donc E[X] = λ en posant t = 0.

47

Vous aimerez peut-être aussi