Vecteurs aléatoires et espérance mathématique
Vecteurs aléatoires et espérance mathématique
Probabilités
Chapitre 3
Vecteurs aléatoires réels et Espérance
mathématique
Fatma Abdelkefi
[Link]@[Link]
Octobre 2015
SUPCOM
1
Plan du chapitre
2
3
Définition
Définition 1 Soit (Ω, A, P) un espace de probabilité. Un vecteur aléatoire,
définie sur (Ω, A, P), est une application mesurable de (Ω, A) dans Rn (muni de
la tribue borélienne B(Rn )). Ses coordonnées forment une famille de n variables
aléatoires.
Tout x ∈ B(Rn ) s’écrit sous la forme x = (x1 , x2 , . . . , xn ) où xi ∈ R est la ie
composante du vecteur x. Cette composante est l’image de x par la fonction
coordonnée :
fi : (x1 , x2 , . . . , xn ) 7→ xi .
On peut définir la variable Xi = fi (X), projection de X par la ie fonction
corrdonnée fi , que l’on appelle ie composante aléatoire du variable aléatoire X.
On note :
X = (X1 , X2 , . . . , Xn ).
Si n = 2, on parle de couples de variables aléatoires qui est noté : (X, Y ).
4
Loi conjointe
Pour un vecteur aléatoire X de dimension n, le domaine de variation RX est un
sous-ensemble de Rn . Pour tout x ∈ Rn , on peut définir la fonction de
répartition ou la fonction de densité de probabilité conjointe.
Définition 2 Pour un vecteur X = (X1 , X2 , . . . , Xn ), la fonction de répartition
conjointe FX (x) donnée par :
∩ ∩
FX (x) = FX (x1 , . . . , xn ) = P ({X1 ≤ x1 } . . . { Xn ≤ xn }).
{Xi }1≤i≤n sont des variables aléatoires réelles, leurs n lois sont appelées lois
marginales de X. La loi PX de X est appelée loi conjointe des n v.a.
5
Définition 4 Pour un vecteur X = (X1 , . . . , Xn ) continu, la fonction de
densité de probabilité conjointe f (x) est donnée par :
∂ n FX (x)
fX (x) = fX (x1 , . . . , xn ) = .
∂x1 ∂x2 . . . ∂xn
Il est facile de vérifier que la fonction FX est obtenue à partir des fonctions p(x)
et fX (x) à l’aide de sommations ou intégrations multiples. On pourra ainsi
écrire que ∀x ∈ Rn :
∑ ∑ ∫ x1 ∫ xn
FX (x) = ... p(u) ; FX (x) = ... fX (u1 , u2 , . . . , un )du1 . . . dun .
u1 ≤x1 un ≤xn −∞ −∞
6
Exemple
Soit (X, Y ) de densité : f(X,Y ) (x, y) = θ2 e−θ(x+y) 1R∗+ (x)1R∗+ (y), où θ > 0 est
∫ ∫
une constante fixée. Comme R R f(X,Y ) (x, y)dxdy = 1, f(X,Y ) est une densité
de probabilité sur R2 . On s’intéresse à la fonction de répartition F(X,Y ) du
∫x ∫y
vecteur aléatoire (X, Y ). Par définition, F(X,Y ) = −∞ −∞ f(X,Y ) (u, v)dudv. Vu
que f(X,Y ) (u, v) = 0 dès que u ≤ 0 et v ≤ 0, on déduit que F(X,Y ) (x, y) ̸= 0
seulement si x > 0 et y > 0. Dans ce cas,
∫ x∫ y
F(X,Y ) = θ2 e−θ(u+v) (u, v)dudv = (1 − e−θx )(1 − e−θy ).
0 0
Par conséquent :
(1 − e−θx )(1 − e−θy ) si x > 0 ety > 0
F(X,Y ) (x, y) =
0 sinon
Loi marginale
Etant donné un vecteur X : Ω → Rn , avec X = (X1 , . . . , Xn ), on sait que
7
chaque composante Xi de ce vecteur aléatoire est une v.a, est-il possible de
connaı̂tre la loi de chacun des Xi ?
Cas de deux variables aléatoires X et Y :
Définition 6 Les distributions marginales de X et Y sont données par les
formules :
∑ ∫
p(x) = p(x, y) ou fX (x) = p(x, y) (cas discret)
y y
∑ ∫
p(y) = p(x, y) ou fY (y) = p(x, y) (cas continu).
x x
8
On peut généraliser :
Définition 7 La loi marginale d’une partie des v.a. {xi }i∈I où I est un
sous-ensemble de k indices de {1, 2, . . . , n}, considéré comme un vecteur
aléatoire à k composantes, est donnée par :
∑ ∫
p({xi }i∈I ) = p(x1 , . . . , xn ) ou fX ({xi }i∈I ) = f (x1 , . . . , xn ).
{xi }i̸∈I {xi }i̸∈I
Loi conditionnelle
Une v.a conditionnée par une autre
Considérons deux variables (ou vecteurs) aléatoires X et Y , de distribution de
probabilité conjointe p(x, y). La distribution conditionnelle p(y|x) donnée par la
formule suivante :
p(x, y)
p(y|x) = .
p(x)
Il s’agit d’une distribution de probabilité en y (qui n’est définie que pour les x
∫ ∫ fX,Y (y,x)
telles que p(x) > 0) puisque : p(y|x) > 0 et y fX,Y (y|x)dy = y fX,Y (x) dy = 1
9
∑ ∑
(cas continu) ou y p(y|x)dx = y p(y,x) p(x) dx = 1 (cas discret). En marginalisant
sur x ou y, on déduit les expressions suivantes :
∫ ∑
f (y) = f (y|x)fX (x)dx (cas continu) ou p(y) = p(y|x)p(x) (cas discret) et
y x
∫ ∑
f (x) = f (x|y)fY (y)dy (cas continu) ou p(x) = p(x|y)p(y) (cas discret).
y y
Puisque p(x, y) = p(y|x)p(x), les deux probabilités d’erreur sont liées par la
formule :
∑
Pe = x p(x)Pe|x (cas discret) ou
∫
Pe = x f (x)Pe|x dx (cas continu).
11
Plusieurs v.a conditionnées par d’autres
La notion de loi conditionnelle p(y|x) a déjà été définie pour deux variables ou
vecteurs aléatoires X et Y . Cette définition inclut déjà la généralisation à
plusieurs variables {Xi }i∈I par le vecteur aléatoire qui regroupe les {Xj }j∈J , la
loi de probabilité en les {Xi }i∈I , pour tout choix de valeurs de {Xj }j∈J fixées
est la suivante :
p({Xk }k∈I∪J )
p({Xi }i∈I |{Xj }j∈J ) = .
p({Xj }j∈J
Par exemple, pour trois v.a X, Y et Z, on a :
p(x,y,z)
p(x, y|z) = p(z)
p(x,y,z)
p(x, z|y) = p(y)
p(x,y,z)
p(z|x, y) = p(x,y)
et ainsi de suite.
Pour n v.a X1 , X2 , . . . , Xn , on a une formule générale de factorisation de la
distribution de la loi conjointe p(x1 , . . . , xn ) (repectivement f (x1 , . . . , xn )) qui
12
est la suivante :
p(x, y) = p(x)p(y).
13
Cette définition inclut le cas de deux vecteurs aléatoires :
X = (X1 , X2 , . . . , Xm ) et Y = (Y1 , Y2 , . . . , Yn ) sont indépendants si et seulement
si p(X, Y) = p(X)p(Y), où les dimensions m et n ne sont pas nécessairement les
mêmes.
Plusieurs v.a indépendantes
Proposition 2 Soient (X1 , . . . , Xn ), n variables aléatoires. On dit qu’elles
sont indépendantes si, pour tout i = 1, . . . , n et si, pour tout xi ∈ Xi (Ω), les
événements {Xi = xi }1≤i≤n sont indépendants dans leur ensemble.
On obtient que X1 , . . . , Xn sont indépendantes si et seulement si la loi conjointe
est le produit des distributions marginales :
∏
n
p(x1 , . . . , xn ) = p(xi ).
i=1
∑ 1
Un calcul facile montre que p(x, y, z) = p(0, y, z) + p(1, y, z) = pour tout y
x
4
et z. On a donc p(y, z) = 14 , et par symétrie en (x, y, z) on a également
p(x, y) = p(x, z) = 41 . Il en résulte, en marginalisant, que
15
p(x) = p(y) = p(z) = 12 . Ainsi, on a les relations :
p(x, y) = p(x)p(y) , p(y, z) = p(y)p(z) , p(x, z) = p(x)p(z),
qui montrent que X, Y et Z sont deux à deux indépendantes. Mais puisque :
p(x, y, z) ̸= p(x)p(y)p(z) = 18 , les v.a. X, Y , Z ne sont pas (globalement)
indépendantes.
Proposition 4 Si deux vecteurs aléatoires X et Y sont indépendants, alors
deux composantes quelconques Xi et Yj de ces deux vecteurs sont indépendantes.
La réciproque est fausse en général.
Proposition 5 Pour un vecteur X = (X1 , X2 , . . . , Xn ), on peut écrire que :
p(x , x , . . . , x ) = p(x )p(x ) . . . p(x )
1 2 n 1 2 n
X1 , . . . , Xn sont indépendants ⇔
f (x1 , x2 , . . . , xn ) = f (x1 )f (x2 ) . . . f (xn )
Rappelons que le
∑ produit de convolution est défini par :
pX+Y =Z (z) = pX (x)pY (y) (cas discret) ou
∫
x+y=z
fX+Y =Z (z) = fX (x)fY (y) (cas continu). On peut aussi l’écrire sous
x+y=z
l’une des deux formes suivantes :
∑ ∑
pX+Y (z) = pX (x)pY (z − x) = pX (z − y)pY (y)
x y
17
ou ∫ ∏
fX1 +...+Xn = ∑
fXi (xi ) cas continu.
i Xi =X i
Exemple
Considérons une v.a. X binaire de probabilité 1 − p = P ({X = 0}) et
p = P ({X = 1}) et une v.a. gaussienne Y , indépendantes de X, de moyenne
nulle et de variance σ 2 . Déterminer la loi de la somme Z = X + Y .
18
La probabilité de la somme Z = X + Y est le produit de convolution :
∑
1
p(z) = p(x)pY (z − x)
x=0
c’est à dire :
1 − p − z22 p −
(z−1)2
p(z) = √ e 2σ + √ e 2σ2 .
2πσ 2 2πσ 2
Il s’agit d’une combinaison linéaire de deux densités gaussiennes.
Changement de variables
On considère une v.a. continue X et on cherche la loi de probabilité de
Y = g(X).
Proposition 7 Si X est une v.a. continue de densité de probabilité fX (x),
alors Y = g(X) est aussi une v.a. continue, de densité de probabilité fY (y)
donnée par la formule :
dx
fY (y) = | |fX (g −1 (y)).
dy
19
On peut étendre ces formules lorsque l’application g n’est pas bijective, mais
admet un nombre fini d’applications réciproques que l’on continue à appeler
g −1 . Les formules précédentes prennent la forme suivante :
∑
fY (y1 , . . . , yn ) = |JX|y |xi =g−1 (y) fX (x1 , . . . , xn )xi =g−1 (y)
i i
g(xi )=y
∑ dx
fY (y) = | |xi =g−1 (y) fX (x)xi =g−1 (y) .
dy i i
g(xi )=y
20
Convolution
Problème : connaissant la loi des variables aléatoires, X et Y , indépendantes ou
non, qu’elle est la loi de la somme Z = X + Y de ces deux variables ? La
résolution de ce problème dépend de la nature des variables, discrètes ou
continues. Il est plus facile à résoudre si les variables sont indépendantes.
Cas de deux variables aléatoires discrètes
Le théorème des probabilités totales donne la solution :
∑
P (Z = z) = P ({X = x} et {Y = z − x})
x
∑
= P ({Y = y} et {X = z − y}).
y
21
Exemples
X et Y sont deux variables aléatoires indépendantes, suivant chacune une loi de
Poisson de paramètres λ et µ respectivement.
22
23
24
Espérance mathématique
25
Définitions
Si X est une variable aléatoire discrète prenant un ensemble fini ou dénombrable
de valeurs xk avec les probabilités PX (xk ), on appelle espérance mathématique
ou valeur moyenne de la variable aléatoire X, le nombre défini par :
∑
E(X) = xk PX (xk ).
k
Exemples
• Pour une variable aléatoire de Bernoulli de paramètre p :
E(X) = 1.p + 0.(1 − p) = p.
• Pour une v.a. Binomiale de paramètres n et p :
∑
n
n! ∑ (n − 1)!
n−1
E[X] = k p (1 − p)
k n−k
= np pi (1 − p)n−1−i .
k!(n − k)! i=0
i!(n − 1 − i)!
k=0
26
• Pour une v.a. de Poisson de paramètre λ :
∑
+∞
λk −λ ∑
+∞ i
λ
−λ
E[X] = k e = λe .
k! i=0
i!
k=0
Soit E[X] = λ.
Définition 8 L’espérance E[X] est la valeur qu’on s’attend à observer en
moyenne pour la variable aléatoire X.
Plus formellement, on a :
Définition 9 L’espérance E[X] est la valeur telle que :
∑
+∞
xi p(xi ) cas discret
E[X] =
∫ i=0
+∞
x fX (x) dx cas continu
−∞
La première formule montre que l’espérance peut être vue comme étant la
27
moyenne pondérée des valeurs xi (i = 1, . . . , n) que peut prendre la variable
aléatoire X, les poids étant donnés par les probabilités p(xi ).
Si X est une variable aléatoire mixte prenant les valeurs xk avec des
probabilités pk et de densité de probabilité :
∑
fX (x) = pk δ(x − xk ) + fXc (x).
k
∑ ∫ +∞
Alors E[X] = xk pk + xfXc (x) dx.
k −∞
Deux cas particuliers importants :
1. X est une variable aléatoire∑ discrète prenant les valeurs xk avec les
probabilités pk (pk vérifiant pk = 1), la variable aléatoire Y = g o X est
k
une variable aléatoire discrète et :
∑
E[g(X)] = g(xk )pk .
k
28
Pour une application g à valeurs réelles, l’espérance E[g(x)] sera bien définie
dans les cas suivants :
• lorsque g est positive : g ≥ 0, auquel cas E[g(x)] peut être soit fini (≥ 0),
soit égal à +∞;
• lorsque E[|g|] < +∞, sinon l’espérance E[g(X)] est infinie ou indéfinie.
Exemples :
Soit Y = cos2 (X) avec X variable aléatoire de loi de probabilité uniforme sur
[0, 2π]. Pour calculer E[Y ], il est inutile de faire appel à la densité de
29
probabilité de Y . Grâce à la relation précédente, on obtient :
∫ +∞
2 1
E[Y ] = cos (X)fX (x)dx avec fX (x) = 1[0,2π] (x).
−∞ 2π
∫ 2π
Soit E[X] = 2π 0 cos2 (x)dx = 21 .
1
Cas multidimensionnel :
Pour une application g de Rn dans R et pour X variable aléatoire
multidimensionnelle à valeurs dans Rn , de densité de probabilité fX (x),
l’expression de l’espérance est la suivante :
∫ ∫
E[g(X)] = g(x)fX (x)dx1 . . . dxn .
Rn
30
Si g est à valeurs complexes, E[g(X)] ∈ C. En posant, g(x) = a(x) + i b(x), il
vient : E[g(X)] = E[a(X)] + i E[b(X)].
Propriétés de l’espérance
• E[g(X)] est toujours une quantité déterministe. Il est aussi possible que le
choix de g(x) soit lié à la loi de probabilité p(x) sur laquelle l’espérance
porte. Par exemple, la notion de l’entropie en théorie de l’information :
1
H(X) = E[log( p(X) )].
∑
• E[g(X, Y )] = g(x, y)p(x, y) (cas discret) et
∫x,y
E[g(X, Y )] = x,y
g(x, y)f (x, y) dx dy (cas continu)
• E[g(X) + h(Y )] = E[g(X)] + E[h(Y )]
• Si X = x0 est une variable aléatoire déterministe, E(X) = x0
∑ ∑
• linéarité de l’espérance : E[ ai Xi ] = ai E[Xi ]
i i
31
• si g(X) ≥ 0 alors E[g(X)] ≥ 0
• |E[X]| ≤ E[|X|]
Indépendance et espérance
Proposition 8 Si X1 , . . . , Xn sont des variables aléatoires réelles
indépendantes, l’espérance du produit est égale au produit des espérances :
∏ ∏
E[ Xi ] = E[Xi ].
i i
De la même façon que toute loi de probabilité p(x) définit une v.a. X
d’espérance E[X], toute loi de probabilité conditionnelle p(y|x) définit une v.a.
Y sachant X = x dont l’espérance (si elle existe) est notée :
∑ y p(y|x) cas discret
E[Y |X = x] = ∫
y
yf (y|x) cas continu
y
33
Moyenne (localisation) et variance (dispersion)
Moyenne (paramètre de localisation) :
On a déjà défini l’espérance d’une v.a. X, que l’on appelle simplement moyenne
m de X :
m = E[X].
Variable aléatoire centrée :
On dit qu’une variable (ou un vecteur) aléatoire Xc est centrée si elle est de
moyenne nulle : E[Xc ] = 0. Etant donnée X admettant une moyenne m = E[X]
non nulle, alors Xc = X − m. Par changement de variable, la loi de probabilité
de Xc est pc = p(x − m).
Moment et variance :
On peut aussi définir les moments d’ordre k non centrés mk et centrés µk d’une
variable aléatoire X de la façon suivante :
34
ou encore σX 2
= E[(X − mX )2 ] = E[X 2 ] − m2X .
Il s’agit aussi de la moyenne quadratique de la v.a. centrée, c.a.d. de l’espérance
∑de X − m. On reconnaı̂t, dans∫l’expression de la variance
du carré
σX2
= (x − m)2 p(x) (cas discret) ou x (x − m)2 fX (x)dx (cas conitnu), la
x
définition du moment d’inertie de la distribution p(x) autour de son centre
d’inertie m. Elle mesure donc une plus ou moins grande dispersion de cette
distribution autour de la moyenne : plus la variance est élévée, plus grande sont
les fluctuations des réalisations de la v.a. X autour de sa moyenne.
35
Exemples :
• Pour une v.a. de Bernoulli de paramètre p, on a E[X 2 ] = E[X] = p et
var(X) = p − p2 .
• Pour une v.a. de Poisson de paramètre λ : E[X] = λ et var(X) = λ.
• Pour une v.a. uniforme sur [0, 1], fX (x) = 1[0,1] (x), d’où : E[X] = 1
2 et
1
var(X) = 12 .
(x−m)2
−
• Pour une v.a. de loi de probabilité normale : fX (x) = √1 e
σ 2π
2σ 2 . Alors
E[X] = m et var(X) = σ 2 .
Proposition 9 Une v.a. X est de variance nulle : σ 2 = 0 si et seulement si
c’est une v.a. déterministe.
36
Variable aléatoire réduite :
Les moyenne et variance d’une v.a. réelle vérifient les relations suivantes :
E[aX + b] = a E[X] + b
var(aX + b) = a2 var(X)
Une v.a. réelle Xr est dite réduite ou standard si elle est centrée (de moyenne
nulle) et de variance unité : E[Xr ] = 0 et E[Xr2 ] = 1.
Etant donnée X admettant une moyenne m = E[X] et une variance σ 2 > 0, on
a la ”réduite” suivante :
X −m
Xr = .
σ
Médiane et mode
Médiane :
La md́iane µ d’une loi de probabilité p(x) est définie par la condition
d’équiprobabilité à gauche et à droie de µ :
P ({X ≤ µ}) = P ({X ≥ µ})
37
c’est à dire : ∫ ∫
fX (x)dx = fX (x)dx cas continu
x≤µ x≥µ
∑ ∑
p(x)dx = p(x)dx cas discret.
x≤µ x≥µ
Par exemple, une v.a. X ∈ {−1, 0, 1} uniforme admet pour médiane µ = 0 car
on a toujours la relation P ({X ≥ 0}) = P ({X ≤ 0}).
Mode :
On appelle mode d’une v.a. la valeur la plus probable. Dans le cas d’une v.a.
continue X, le mode est la valeur pour laquelle la densité de probabilité fX
présente un maximum.
Matrice de covariance d’une v.a. mutidimensionnelle
Pour une v.a. mutidimensionnelle X à valeurs dans Rn , on fait appel à une
matrice appelée matrice de covariance, notée CX . Celle-ci est carrée d’ordre n,
son terme (i, j) est E[(Xi − E[Xi ])(Xj − E[Xj ])]. Ce dernier terme s’appelle
covariance des variables Xi et Xj , on le note cov(Xi , Xj ). Ce qui revient à dire
38
que :
CX = E[(X − mX )(X − mX )T ] = E[XXT ] − mX mTX
soit
cov(Xi Xj ) = E[Xi Xj ] − E[Xi ]E[Xj ].
A noter que dans CX , on a n2 coefficients de covariance :
cov(Xi , Xj ), i, j = 1, 2, . . . , n, dont n sont des variances notées σi2 :
σi2 = var(Xi ) = cov(Xi , Xi ) et les n(n − 1) restants sont associés par paires
conjuguées (égales si les v.a. sont réelles) : cov(Xi , Xj ) = cov(Xj , Xi )∗ (i ̸= j).
Coefficient de corréaltion linéaire de deux variables aléatoires :
On normalise souvent la covariance de deux v.a. X et Y par leur écart type. On
obtient alors ce qu’on appelle le coefficient de corrélation linéaire entre X et Y .
On le note ρX,Y :
cov(X, Y )
ρX,Y = .
σX σY
ρX,Y représente la covariance des v.a. normalisées Xr et Yr associé à X et Y . Si
ρX,Y ̸= 0 alors X et Y sont corrélées sinon X et Y sont non corrélées.
39
Droite de régression :
Dans le cas particulier où X et Y sont deux v.a., on estime alors Y par aX + b,
où a est un scalaire, et si X n’est pas déterministe, la solution optimale est
donnée par :
∗ cov(X, Y )
a = .
var(X)
L’estimateur optimal est donc :
∗ cov(X, Y )
∗
a X +b = (X − E[X]) + E[Y ].
var(X)
La droite d’équation y = a∗ x + b∗ s’appelle la droite de régression de Y par
rapport à X. On peut écrire cette équation sous la forme :
y − mY x − mX
= ρX,Y .
σY σX
L’erreur quadratique moyenne minimale a donc l’expression suivante :
min E[(Y − aX − b)2 ] = σY2 (1 − ρ2X,Y ).
a,b
40
Fonction caractéristique
Définition :
La fonction caractérestique d’une v.a. est l’espérance mathématique de la
variable eiwx , elle est définie par :
ϕX (w) = E[eiwX ], ∀w ∈ R,
∑
eiwx p(x) cas discret
ϕX (w) = E[eiwX ] = x
∫ iwx
x e fX (x)dx cas continu
41
w
la fréquence f = 2π ; la définition traditionnelle est la suivante :
ϕX (f ) = E[ei2π f X ], ∀f ∈ R,
où wT X = w1 X1 + w2 X2 + . . . + wn Xn .
Fonction caractéristique et indépendance :
Proposition 10 Les composantes Xi du vecteur aléatoire X sont indépendantes
si et seulement si la fonction caractéristique de X se décompose en produit :
∏
ϕX (w) = ϕXk (wk )
k
pour w ∈ Rn .
Proposition 11 La fonction caractéristique d’une somme X = X1 + . . . + Xn
42
de v.a. indépendantes est égale au produit des fonctions caratéristiques des v.a.
Xk :
∏
ϕX (w) = ϕXk (w).
k
En particulier, si les Xk sont non seulement indépendantes mais aussi de même
distribution de probabilité, et donc de même fonctions caractéristiques ϕ(w), on
a:
ϕX (w) = (ϕ(w))n .
43
• la fonction caratéristique de la v.a. centrée Xc = X − m est :
ϕXc (w) = e−iwm ϕX (w)
Xc
et celle de la v.a. réduite Xr = σ est
w
ϕXr (w) = e−iw σ ϕX ( ).
m
σ
Ainsi pour une v.a. réelle de moyenne m et de variance σ 2 :
ϕX (w) = eiwm ϕXr (σw).
Exemple :
La v.a. Bionomiale B(n, p) admet pour fonction caractéristique :
∑
n
ϕX (w) = eiwk Cnk pk (1 − p)n−k = [peiw + (1 − p)]n .
k=0
Fonction caractéristique, moments et cumulants
La fonction caractéristique est un outil pratique pour le calcul des moments, en
44
particulier pour le calcul de l’espérance et de la variance d’une v.a.
Proposition 12 Si les n premiers moments m1 , m2 , . . . , mn d’une v.a. X
existent et sont finis, alors la fonction caractéristique est n fois dérivable, de
dérivée nème continue et :
∑n
(iw)k 1 dk ϕX (w)
ϕX (w) = n
mk + O(w ) avec mk = E[X ] = k k
k
|w=0 .
k! i dw
k=0
Avec les mêmes hypothèses que précédemment, la fonction ΨX (w) = log[ϕX (w)]
admet un développement d’ordre n au voisinage de 0 :
∑
n
(iw)k
ΨX (w) = log[ϕX (w)] = cumk + O(wn ).
k!
k=1
Les coefficients cumk ainsi définis sont appelés des cumulants d’ordre k de la
variable aléatoire X.
Exemple :
Les cumulants d’une gaussienne, de fonction caractéristique
45
2 w2
iwm − σ
ϕX (w) = e e 2 : il vient
σ 2 w2
log[ϕX (w)] = iwm − ,
2
d’où cum1 = m et cum2 = σ 2 et cumk = 0 pour k ≥ 3.
Fonction génératrice des moments
Il existe une manière permettant d’obtenir tous les moments d’ordre k à partir
d’une unique fonction, appelée fonction génératrice des moments et notée
GX (t), donnée par :
∑
etxl p(xl ) cas discret
GX (t) = E[etX ] = ∫ l
etx fX (x)dx cas continu
x
pourvu que E[etx ] existe. En dérivant k fois cette expression par rapport à t, on
46
obtient :
∑
x k txl
k le p(xl ) cas discret
d GX (t)
= ∫ l
dt k
xk etx fX (x)dx cas continu
x
dk GX (t)
et l’évaluation de cette dérivée au point t = 0 : dtk
|t=0
= E[X k ] = mk .
Exemple :
Pour une v.a. X dont la densité de probabilité est : fX (x) = λe−λx 1x≥0 ,
tx
∫ +∞ −(λ−t)x λ−t
GX (t) = E[e ] = 0 λe dx. En multipliant par λ−t , on obtient
∫ +∞
GX (x) = λ−t 0 (λ − t)e−(λ−t)x dx. Si λ − t > 0, l’intégrale vaut 1 puisqu’il
λ
47