Statistique Multivariée : Lois Normales
Statistique Multivariée : Lois Normales
3.1 Distribution de X̄ et S . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5 Analyse canonique 49
6 Partitionnement de données 57
2
6.3 Méthodes basées sur un modèle . . . . . . . . . . . . . . . . . . . . . . . . 63
8 Copules 86
3
Chapitre 1
Introduction
Pour motiver le cours, on regarde quelques jeux de données qui seront utilisés dans le
cours.
• Crabes :
– distribution de données
– test de différences de moyennes (même longueur de carapace chez les mâles et les
femelles).
– séparer au mieux les groupes pour classer de nouveaux cas (MANOVA).
• Examens
– analyse canonique : liens entre les types d’examen (livre ouvert ou fermé, par
exemple)
– représentation la plus simple possible ; par régression, ou projection
– représentation en dimension inférieure (analyse en composante principale)
• Composition chimique du sang (BMDP)
– discrimination
– régression (dépendance du cholestérol et de l’âge)
– données manquantes
– aberrances
• Ventes
– lien entre les notes d’examen et les ventes
– formation de groupes plus ou moins homogènes (agglomération, ou “clustering”)
X11 X1p
···
..
X . X2p
X = .21
. .. ..
. . .
4
• les variances :
n
1
S2j = ∑ ( X − X̄ j )2 , j = 1, . . . , p
n − 1 i=1 ij
S12 S jk S1p
··· ···
. .. .. ..
.. . . ··· .
S= .
. .. ..
. Skj . ··· .
Noter que I − 11> /n est une matrice idempotente, et de ce fait son rang est égal à sa
trace. On a donc
1 1
tr I − 11> = n − n = n − 1.
n n
q
• la matrice des corrélations, avec élément hors-diagonal r jk = S jk / S2j Sk2 .
1 ··· r1p
. .. ..
..
R= . .
r p1 ··· 1
1 1
= (diag (S))− 2 S (diag (S))− 2
Note
Les valeurs propres de S sont positives puisque S est symétrique (et définie positive).
5
1.3 Rappel de probabilités
Σ X = Cov ( X ) = E ( X − µ)( X − µ)> = E X X > − µµ> .
E ( Z ) = µ Z = Cµ X ,
Cov ( Z ) = Σ Z = CΣ X C>
et
Cov ( Z, W ) = CΣ X D> .
F ( X1 , . . . , X n ) = P ( X1 ≤ x 1 , X2 ≤ x 2 , . . . , X d ≤ x d ) .
Propriétés de F
F caractérise le comportement aléatoire de x. Toute fonction de répartition F satisfait
les propriétés suivantes.
(i)
lim . . . lim F ( x1 , . . . , xd ) = 1;
x1 → ∞ xd →∞
(ii)
lim F ( x1 , . . . , xd ) = 0, ∀ xi
xi →−∞
6
(iv) F est d−monotone. Dans le cas d = 2, cela signifie que pour x1 < x1∗ et x2 < x2∗
b2
B D
a2
A C
a1 b1
Le cas d = 3 donne
et en dimension d arbitraire
∑ (−1)v(c) × F (c1 , . . . , cd ) ≥ 0
ci ∈{ xi ,xi∗ }
i ∈{1,...,d}
Les propriétés (i)–(iii) sont suffisantes en une dimension, mais la propriété essentielle
pour la construction d’une fonction de répartition multivariée est la (iv). On dénomme
loi marginale la loi correspondant à une sous-composante de dimension d − q du d-
vecteur X, pour 1 ≤ q ≤ d.
7
Chapitre 2
Loi normale multivariée et ses dérivées
2.1 La loi normale
Définition 2.1 (Loi normale univariée)
On caractérise la loi normale par sa densité
2 !
1 1 x−µ
f (x) = √ exp −
2πσ2 2 σ
1 1
f ( x) = 1
exp − ( x − µ)> Σ−1 ( x − µ)
(2π ) p/2 |Σ| 2 2
Note
La loi multinormale est entièrement caractérisée par ses deux premiers moments, res-
pectivement µ et Σ. Son utilisation pour certaines quantités d’intérêt (la moyenne arith-
métique) est justifiée asymptotiquement par le théorème central limite.
Proposition 2.3
Si Σ est positive définie, alors E ( X ) = µ et Var ( X ) = Σ.
Preuve Puisque Σ est positive définie, il existe une matrice orthogonale P telle que
P> ΣP = Λ, où Λ = diag (λ1 , . . . , λ p ) est une matrice diagonale de valeurs propres.
Posons X = PY + µ et calculons la densité de Y. Le jacobien de la transformation est
p
J = ∂X i /∂y j = |P| et l’on note que |Σ| = |P|2 ∏i=1 λi . La densité de Y est égale à
i,j
f Y (y) = f X (Py + µ)|J|. Dès lors,
1 1
f (y) = p/2
exp − y> P> Σ−1 Py
(2π ) 2
p
λ1 · · · λ p
1 1 > −1
= exp − y Λ y
(2π ) p/2 λ1 · · · λ p 2
p
= f ( y1 ) f ( y2 ) · · · f ( y p )
puisque Σ−1 = (PΛP> )−1 = PΛ−1 P> . Ainsi, Y ∼ N p (0, Λ) et en plus, Yi ∼ N (0, λi ).
Par linéarité, E ( X ) = PE (Y ) + µ = µ. L’on a également
8
Pour la loi normale multivariée, les courbes de densité constante sont définies par c2 =
√
( X − µ)> Σ−1 ( X − µ). Elles représentent des ellipses de centre µ et d’axes ±c λi vi où
λi est une valeur propre de Σ avec vecteur propre vi . La forme dépend de Σ et c. 1
Ellipses de confiances
100
0.95
80
0.85
0.65
0.45
60
Analyse
0.25
0.05
40
0.15
0.35
0.55
0.75
20
0
0 20 40 60 80 100
Statistique
Proposition 2.4
La forme quadratique
1. Il en résulte qu’il est facile de calculer la probabilité pour une loi multinormale d’être dans une ellip-
soïde, contrairement par exemple à un parallélépipède.
9
pour tout t ∈ R p . Ses propriétés sont
1
Z
f (x) = exp(−it> x)ΦX (t) dt
(2π ) p
Corollaire 2.7
X suit une loi multinormale si a> X est (multi)normale pour tout a ∈ R p .
1
exp it> µ − t> Σt
2
10
puisque
1 1
− y> Σ−1 y + it> y + it> µ = − y> Σ−1 y − 2it> ΣΣ−1 y + it> µ
2 2
1 1
= − (y − iΣt)> Σ−1 (y − iΣt) + it> µ + t> Σti.
2 2
Corollaire 2.9
Si X ∼ N p (µ, Σ) et qu’on partitionne le vecteur en X 1 , X 2 , alors
! ! !!
X1 µ1 Σ11 Σ12
X= ∼ Np ,
X2 µ2 Σ21 Σ22
Note
En supposant que X suit une loi normale, les sous-vecteurs X 1 , X 2 de dimension res-
pective q, d − q sont indépendants 2 (dénoté X 1 ⊥ > =
⊥ X 2 ) si et seulement si Σ12 = Σ21
Oq,d−q .
Proposition 2.10 (Distribution de la moyenne)
La distribution de la moyenne arithmétique de multinormales est X̄ ∼ N p (µ, n−1 Σ).
iid
Preuve On écrit X̄ = n−1 ∑in=1 X i avec X i ∼ N p (µ, Σ). Puisque X̄ est une combinaison
linéaire des X i , on a par linéarité E ( X̄ ) = µ et Var ( X̄ ) = n−2 nΣ = n−1 Σ.
Proposition 2.11
Si X ∼ N p (µ, Σ) et Y = CX + d, où C est une matrice non-stochastique q × p et d un
vecteur colonne de dimension q. Alors Y ∼ Nq Cµ + d, CΣC>
Corollaire
2.12
I O
Si C = Oq−s s, s Oq−s,s,q−q−s s pour 1 ≤ s ≤ q et d = 0q , alors on obtient les distributions
marginales, lesquelles sont normales. Si on partitionne X = ( X 1 , X 2 )> de dimensions
I Os,p−s
s
s, p − s respectivement, alors l’utilisation de la matrice C = −Σ Σ−1 I dans le
21 11 p−s
précédent résultat donne
! ! !!
X1 µ1 Σ11 Os,p−s
Y≡ −1 ∼ Np −1 , −1
X 2 − Σ21 Σ11 X1 µ2 − Σ21 Σ11 µ1 O p−s,s Σ22 − Σ21 Σ11 Σ12
−1
et donc la distribution conditionnelle est X 2 | X 1 ∼ N p−s µ2 + Σ21 Σ11 ( X 1 − µ1 ), Σ22.1 ,
−1 −1
où Σ22.1 := Σ22 − Σ21 Σ11 Σ12 . En effet, sachant X 1 , −Σ21 Σ11 X 1 est une constante et on
−1
peut déduire E ( X 2 ) et Var ( X 2 ) de l’expression pour X 2 − Σ21 Σ11 X 1.
2. La normalité des marges n’est pas une condition suffisante ; la preuve se fait par le biais de la fonction
caractéristique.
11
2.2 Estimation des paramètres µ et Σ
np n 1 n
`( X; µ, Σ) = − log(2π ) + log det Σ−1 − ∑ ( X i − µ)> Σ−1 ( X i − µ)
2 2 2 i =1
n
!
np n 1
=− log(2π ) + log det Σ−1 − tr Σ−1 ∑ ( X i − µ)( X i − µ)>
2 2 2 i =1
n n
∑ (X i ± X̄ − µ)(X i ± X̄ − µ)> = ∑ (X i − X̄ )(X i − X̄ )> + n(X̄ − µ)(X̄ − µ)>
i =1 i =1
puisque les termes croisés ∑in=1 ( X i − X̄ )( X̄ − µ)> sont nuls. La log-vraisemblance par
rapport à µ est proportionnelle à
n
!!
µ 1
`( X; µ, Σ) ∝ − tr Σ−1 ∑ (X i − X̄ )(X i − X̄ ) >
+ n( X̄ − µ)( X̄ − µ) >
2 i =1
np n
`( X; µ, Σ) = − log(2π ) + log det Σ−1
2 2
1 −1 n
− tr Σ S XX − ( X̄ − µ)> Σ−1 ( X̄ − µ).
2 2
Le maximum de vraisemblance de la moyenne découle immédiatement de la dernière
expression et on trouve µ
b = X̄. En dérivant par rapport à la matrice de précision, on
obtient
∂` n 1
= Σ − S>
∂Σ−1 2 2 XX
n
!
1 n
b) = E
E (µ
n ∑ Xi =
n
µ=µ
i =1
n
!
b = 1E
E Σ
n ∑ (X i − X̄ )(X i − X̄ ) >
i =1
12
n
!
1
= E
n ∑ (X i − µ)(X i − µ) >
− n(µ − X̄ )(µ − X̄ ) >
i =1
1
= nΣ − Var ( X̄ )
n
n−1
= Σ
n
n
1
S := ∑ ( X − X̄ )( X i − X̄ )>
n − 1 i =1 i
comme estimateur de Σ.
n
W= ∑ X i X i> = X> X ∼ W p (n, Σ, M )
i =1
a > Σ −1 a
∼ χ2n− p+1 .
a > W −1 a
13
on obtient 1> W1 ∼ χ2n− p+1 .
Preuve
1. Écrire
n n
W= ∑ X i X i> = ∑ (X i − µi + µi )(X i − µi + µi )>
i =1 i =1
n n n n
= ∑ (X i − µi )(X i − µi )> + ∑ µi (X i − µi )> + ∑ (X i − µi )µi> + ∑ µi µi>
i =1 i =1 i =1 i =1
n n
E (W ) = ∑E ( X i − µi )( X i − µi )> + ∑ µi µi>
i =1 i =1
>
= nΣ + M M
n n
CW C> = ∑ CX i (CX i )> = ∑ Zi Zi> .
i =1 i =1
Or, Z i ∼ Nq Cµi , CΣC> , ce qui implique que CW C> ∼ Wq (n, CΣC> , ·).
n n n 2
Yi
c> W c = ∑ (c> X i )(X i> c) = ∑ Yi2 = σc2 ∑ σc
= σc2 χ2n
i =1 i =1 i =1
r r
X > AX = ∑ X > ai ai> X = ∑ U i U i> .
i =1 i =1
14
4. Nécessité de la condition : X > AX ∼ W p (r, Σ, ·) et X > BX ∼ W p (s, Σ, ·) sont indé-
pendantes. Alors Z > AZ et Z > BZ sont indépendantes (fonctions de deux lois indé-
pendantes). Par point 3, on a Z > AZ/σc2 ∼ χ2r et Z > BZ/σc2 ∼ χ2s indépendants pour c
quelconque, donc AB = 0.
−1
! ! !
W 11 W 12 W 11 0p Ip W 11 W 12
W= = −1
W 21 W 22 W 21 1 0>
p W 22 − W 21 W 11 W 12
pour W 22 une matrice 1 × 1 et par hypothèse |W 11 | ∼ |Σ11 |χ2n · · · χ2n− p+1 . Or W 22.1 =
−1
W 22 − W 21 W 11 W 12 ∼ W1 (n − p, Σ22.1 ) et indépendant de (W 11 , W 12 ). La décompo-
sition |W | = |W 11 ||W 22.1 | et |Σ| = |Σ11 ||Σ22.1 | assure le résultat.
X −µ
T = qσ ∼ Tn ,
W
nσ2
soit une loi de Student-t. En général, on a la statistique (n − 1)S2 /σ2 ∼ χ2n−1 pour un
15
échantillon, ce qui implique que
X̄ −µ
√
X̄ − µ σ/ n
t= √ = r ∼ T n −1
S/ n S2 ( n −1)
σ 2 ( n −1)
et T 2 = n( X − µ)2 /W a une loi qui est proportionnelle à une loi de Fisher F (1, n).
T 2 = n( X − µ)> W −1 ( X − µ) ∼ T p,n
2
2 la distribution.
avec X ∼ N p (µ, Σ) et W ∼ W p (n, Σ) indépendants. On dénote par T p,n
Proposition 2.16
La loi de Hotelling T 2 ∼ T p,n
2 est équivalente à une loi de Fisher, soit
n − p + 1 T2
∼ F p,n− p+1
p n
T2 Y > Σ −1 Y G
= Y > W −1 Y = > −1 ≡
n Y Σ Y H
Y > W −1 Y
16
Les variables elliptiques sont dotées de symétrie radiale, qui associe la fonction de ré-
partition centrée à sa fonction de survie. La covariance nulle entre deux marges im-
plique leur indépendance seulement si la loi est multinormale, d’où sa prépondérance
dans les modèles graphiques. Notez que selon la forme du générateur g, il est possible
que certains moments de la distribution n’existent pas. On peut dériver des propriétés
d
à partir de la forme quadratique R2 = ( X − µ)> Σ−1 ( X − µ).
Cette dernière implique que les marges sont normales. On se penche d’abord sur les
tests de normalité univariée.
17
dessus. Si la représentation est une droite à 45deg , on peut raisonnablement penser que
les données proviennent de F.
Exemple 2.1
On considère un jeu de données du gain de poids (masse) de femelles rats sous un
régime à forte teneur protéique.
xi − µ
i xi pi = n+i 1 Φ −1 ( p i )b
σ+µ Φ
b
σ
b b
0.8
140
Échantillon observé
Φ (( xi − x̄ )/σ̂)
0.6
120
0.4
100
0.2
80
90 100 110 120 130 140 150 0.2 0.4 0.6 0.8
18
le nombre d’observations dans la classe j. On a
k ( o j − e j )2 d 2
X2 = ∑ −
→ χ k − ν −1
j =1
ej
quand n → ∞. L’approximation est bonne pour n large (au bas mot 50) et e j > 5. Dans
Histogramme
40
30
Fréquence
20
10
0
-3 -2 -1 0 1 2 3
Si les décomptes e j sont trop petits, il convient de former de plus gros groupes. Si on
dessine l’histogramme, porter attention à faire toujours tous les intervalles de longueur
égale. Le nombre d’observations pour l’application du test est important, et il est pré-
férable de faire un diagramme Q–Q dans les cas où la taille de l’échantillon est faible.
sup | Fn ( x ) − F ( x )| .
x
Il est important de noter que tous les paramètres doivent être spécifiés, soit exactement
connus.
Il existe aussi des tests spécifiquement construits pour la loi normale contrairement aux
deux précédents qui sont des tests omnibus, comme les statistiques Shapiro–Wilks et
Anderson–Darling A2n . On donne en exemple la première :
19
Kolmogorov-Smirnov
1.0
0.8
0.6
Fn ( x )
0.4
0.2
0.0
-2 -1 0 1 2
où X[i] est la ie statistique d’ordre (en ordre croissant). Par exemple, X[1] dénote la plus
petite observation. Les valeurs critiques tout comme la loi de W, sont tabulées.
·
d2i = ( X i − X̄ )> S−1 ( X i − X̄ ) ∼ χ2p ,
20
2
γ2p = E X − µ ) > Σ −1 ( X − µ ) .
En pratique, on utilise
d2i = ( X i − X̄ )> S−1 ( X i − X̄ )
dij = ( X i − X̄ )> S−1 ( X j − X̄ )
avec les estimateurs
1
b1p =
γ
n2 ∑ ∑ d3ij
i j
1
γ
b2p =
n ∑ d4i
i
nγ
b1p · 2
∼ χν
6
8p( p + 2)
·
b2p ∼ N p( p + 2),
γ
n
Le logiciel R calcule et rapporte les deux statistiques, et indique le rejet dès qu’une des
deux pointe dans ce sens.
Proposition 2.25 (Test de multinormalité basé sur la distance d’énergie)
La distance d’énergie entre deux vecteurs aléatoires X, Y de dimension d est définie par
E ( X, Y ) = 2E| X − Y |d − E| X − X 0 |d − E|Y − Y 0 |d
répartition de X et Y respectivement. d +1
Γ( 2 )
4. Pour une loi Z ∼ Nd (0d , Id ) on a E| Z − Z 0 |d = 2 .
Γ( d2 )
Le terme E| xi − Y |d est calculable puisque | a − Y |2d suit une loi χ2 non centrée, dont le
21
coefficient de non centralité dépend de a et le nombre de degrés de libertés est aléatoire.
En pratique, on utilise une troncation de la série et la distribution de la statistique est
obtenue par auto-amorçage (bootstrap) paramétrique ou via une approximation asymp-
totique. Le test est consistent sous toutes les alternatives fixes.
Il existe des techniques basées sur la notion de robustesse. On considère ici une trans-
√
formation, comme par exemple x, log( x ), x −1 , logit( x ), 12 log((1 + x )/(1 − x )), etc. La
dernière est la transformation de Fisher. On a également le cas de la transformation de
Box-Cox, soit
Proposition 2.26 (Transformation de Box-Cox)
On considère la transformation
X λ −1 si λ 6= 0
X (λ) = λ
log( X ) si λ = 0.
Pour éviter de prendre le logarithme ou une puissance d’un nombre négatif, on peut
considérer X + c. Pour estimer λ, on utilise la log-vraisemblance profilée : pour une
séquence de valeurs λ, on obtient les maximums de vraisemblance de la loi normale
univariée en utilisant comme données xiλ pour i = 1, . . . , n et λ fixe. On peut ainsi
calculer un intervalle de confiance pour λ. Pour tester le paramètre, on peut faire un
test de rapport de vraisemblance,
`0∗ supθ∈Ω0 `
L= ∗ =
`01 supθ∈Ω0 tΩ1 `
·
et −2L ∼ χ2s−r , où s = dim(Ω0 t Ω1 ) et r = dim(Ω0 ).
22
Chapitre 3
Inférences relatives aux paramètres de
lois normales
3.1 Distribution de X̄ et S
iid
Soit X> = ( X 1 , X 2 , . . . , X n ) où X i ∼ N p (µ, Σ). Alors,
1 >
>
( n − 1) S = X I − 11 X
n
n−1
T2 = n( X̄ − µ)> S−1 ( X̄ − µ)
n−1
√ √ √ √
= (n − 1)( n X̄ − nµ)> ((n − 1)S)−1 ( n X̄ − nµ)
∼ N p (0, Σ)> × W p (n − 1, Σ) × N p (0, Σ)
2 ( n −1) p
suit une loi de Hotelling T p,n −1 ou n− p F p,n− p .
La région de rejet de H0 (α étant fixé) est définie par R : {x : λ(x) < c} où c est tel que
supθ∈Ω0 Pθ (X ∈ R) = α. On recourt souvent à une approximation.
Théorème 3.1
Soit Ω0 ∪ Ω1 région de Rd avec r = dim(Ω0 ). Alors, sous des conditions suffisantes de
régularité et pour chaque θ ∈ Ω0 , alors la statistique
·
−2 log(λ) ∼ χ2d−r .
autour de b
θ, pour obtenir
23
3.2 Tests relatifs à une moyenne
n 1 n
` =C− log(|Σ|) − tr Σ−1 S XX − ( X̄ − µ)> Σ−1 ( X̄ − µ)
2 2 2
avec
n 1 n
sup ` = C − log(|Σ|) − tr Σ−1 S XX − ( X̄ − µ0 )> Σ−1 ( X̄ − µ0 )
µ = µ0 2 2 2
n 1
sup ` = C − log(|Σ|) − tr Σ−1 S XX
µ ∈R p 2 2
où q est le rang de r.
n n
` =C− log(|Σ|) − tr Σ−1 n−1 S XX + ( X̄ − µ)( X̄ − µ)> .
2 2
Sous H0 , on a
n np
sup ` = C − log n−1 S XX + ( X̄ − µ0 )( X̄ − µ0 )> −
µ=µ0 ,Σ 2 2
n np
sup ` = C − log(|S∗ |) −
µ ∈R p 2 2
b = n−1 S XX et µ
avec Σ b = X̄
= n log I + S∗ −1 ( X̄ − µ0 )( X̄ − µ0 )>
= n log 1 + ( X̄ − µ0 )> S∗ −1 ( X̄ − µ0 )
en utilisant le résultat A7.10 de l’annexe, qui dit |B + CC> | = |B|(1 + C> B−1 C). On
calcule d = p + p( p + 1)/2 et r = p( p + 1)/2. Cette expression plus petite qu’une
24
constante c ne mène pas au rejet de l’hypothèse nulle H0 si
et donc
ȳ − µY a> ( X̄ − µ0 )( X̄ − µ0 )> a
→ t2n = n
a> S∗ a
q
SY2 /n
Si l’on fait l’intervalle de confiance pour toutes les directions possibles et que l’on consi-
dère leur enveloppe, on obtient l’ellipse. Dans la direction X1 , on a, avec probabilité
√
(1 − α), X̄1 ± tn−1,1−α/2 Sn / n . En dimension p, la probabilité de couvrir le rectangle
est (1 − α) p et δ = P (rejeter H0 ) = 1 − (1 − α) p . Ceci illustre la nécessité de faire du
multivariée. La correction de Bonferroni consiste à choisir α tel que δ = 0.05. Ce n’est
pas nécessairement la meilleure région (c’est l’ellipse), mais on obtient un risque global
de 0.05.
a> b
max = = b> Σb
a a> Σa
pour a = λΣ−1 b. L’intervalle de Bonferroni est dérivé en utilisant pour m test un seuil
25
de signifiance de αi = α/m, afin que le risque global soit de valeur α au maximum.
Exemple 3.1
On prend a1 = (1, . . . , 0)> , a2 = (0, 1, 0, . . . , 0)> , etc. pour calculer les intervalles de
confiance successivement. On a
s
Si2
X̄i ± t
n n−1,1−α/2
Exemple 3.2
Prenons un exemple numérique concret : on considère un échantillon de n = 10 obser-
vations tirées d’une loi bivariée normale de moyenne arithmétique X̄ = (2.5, 3)> et de
matrice de variance-covariance empirique S = 21 12 . On s’intéresse aux intervalles de
confiance pour µ.
1 18 1 ( n − 1) p
( X̄ − µ)> S−1 ( X̄ − µ) ≤ 1.0035 = F2,8 (0.95) = F p,n− p (1 − α).
10 8 n (n − p)
26
F IGURE 3 – Intervalles de confiance marginaux et simultanés pour le jeu de données
factices. Les intervalles marginaux sont en bleu,les intervalles de Bonferroni en vert et
les projections de l’ellipse de confiance conjointe en pointillés.
5
4
3
µ2
2
1
0
0 1 2 3 4 5
µ1
√ a> X̄ − a> µ
n √ ∼ T n −1
a> Sa
√ 2.5 − µ
µ1 : 10 √ 1 ≤ 1.833 → 1.68 ≤ µ1 ≤ 3.32
2
√ 3 − µ1
µ2 : 10 √ ≤ 1.833 → 2.18 ≤ µ2 ≤ 3.82,
2
27
3.3 Tests relatifs à une variance
H0 : Σ = Σ 0 , H0 : Σ = kΣ0 , H0 : Σ12 = 0.
n n n
` =C− log(|Σ|) − tr Σ−1 S∗ − ( X̄ − µ)> Σ−1 ( X̄ − µ)
2 2 2
On doit maximiser cette quantité sous H0 et sous H0 t H1 . On obtiendra pour chaque
maximisation µ
b = X̄ et donc
n b 0 |) − n tr Σ
−1
b 0 S∗
sup ` = C −log(|Σ
H0 2 2
n b 01 |) − n tr Σ
−1
b 01 S∗ .
sup ` = C − log(|Σ
H0 t H1 2 2
b 01 = S∗ , on aura
Puisque Σ
A0
·
−2 log(λ) = np log ∼ χ21 p( p+1)−1 .
G0 2
·
b |) ∼ χ21
−2 log(λ) = −n log(| R p( p+1)− p
2
28
et suit approximativement une loi khi-deux avec 12 p( p − 1) degrés de liberté. Box (1949)
a démontré que l’approximation est meilleure si on remplace n par n − 1 − 61 (2p + 5).
On obtiendra ainsi
! −1
∗ −1 ∗
! !
∗ ∗ ∗
b 0−1 S∗ S11 0 S11 S12 I S11 S12
Σ = ∗ ∗ ∗ = ∗ −1 ∗
0 S22 S21 S22 S22 S21 I
b 0−1 S∗ = p et
avec tr Σ
∗ ∗ ∗ −1 ∗
−1
b 0 S∗ = |S∗ | |S22 − S21 S 11 S12 |
det Σ ∗ ∗ = ∗
|S11 ||S22 | |S22 |
|S∗ |
−2 log(λ) = n( p1 + p2 ) − n log − n ( p1 + p2 )
| Σ0 |
∗ −1 ∗ ∗ −1 ∗
= −n log I − S22 S21 S11 S12
k
!
= −n log ∏(1 − λ bi)
i =1
·
∼ χ2m
avec
1 1 1
m= ( p1 + p2 )( p1 + p2 + 1) − p1 ( p1 + 1) − p2 ( p2 + 1) = p1 p2
2 2 2
∗ −1 ∗ ∗ −1 ∗ ∗ −1 ∗ ∗ −1 ∗
et 1 − b
λi est une valeur propre de I − S22 S21 S11 S12 ou I − S11 S12 S22 S21 . On
∗ ∗
a cette décomposition en fonction de S11 ou de S22 , ce qui fait que k = min( p1 , p2 ).
Si on travaille plutôt avec la matrice R = D−1/2 S∗ D−1/2 on constate après quelques
calculs que la statistique ne change pas. Idem si l’on utilise l’estimateur sans biais de la
variance, S, plutôt que le maximum de vraisemblance.
On peut montrer que le ratio du déterminant de deux lois Wishart est distribuée exac-
tement comme Λ( p2 , n − 1 − p1 , p1 ), qui est une loi de Wilks Λ( a, b, c). Cette dernière
est liée à la loi F de Fisher pour certaines valeurs des paramètres. Bartlett a proposé
29
une approximation qui est
1
− b − ( a − c + 1) log(Λ( a, b, c)) ∼ χ2ac .
2
Ce test pourrait servir par exemple à vérifier une possible association entre types d’exa-
mens (livre ouvert ou fermé) dans le jeu de données examens.
On considère le test d’égalité des moyennes de populations. Cette situation est une
généralisation de l’ANOVA (analyse de variance), appelée MANOVA.
X̄ (1) − X̄ (2) − d0
q ∼ Tν
S p n1 + n12
1
1 K
` = C− ∑ nk log |Σ| + nk tr Σ−1 S∗k + dk d>
k
2 k =1
où dk = X̄ (k) − µk , n = ∑kK=1 nk et
nk
1 (k) (k)
S∗k = ∑ (X j − X̄ (k) )( X j − X̄ (k) )> .
nk j =1
30
b = S∗ , 3 et
Sous H0 , le maximum de la log-vraisemblance est obtenu pour Σ T
K nk
(k)
bk = X̄ = n−1
µ ∑ ∑ Xj .
k =1 j =1
b = 1 ∑K nk S∗ =
. Sous H0 ∪ H1 , µk = X̄ (k) , et l’estimateur conjoint de la variance est Σ n k =1 k
∗ 4 K ∗ ∗ ∗
S p . On va dénoter Wc=∑ n S
k =1 k k = nS p la variance intra-groupes, T
b = nS T et
K
b=
B ∑ nk (X̄ (k) − X̄ )(X̄ (k) − X̄ )> ,
k =1
la variance inter-groupe. On peut décomposer la variance totale via T b=W c + B.b Cette
dernière est facile à dériver si l’on note qu’en additionnant et en soustrayant X̄ (k) dans
chaque terme,
K nk
(k) (k)
b=
T ∑ ∑ (X j − X̄ )( X j − X̄ )>
k =1 j =1
K nk K nk
(k) (k)
= ∑ ∑ (X j − X̄ (k) )( X j − X̄ (k) )> + ∑ ∑ (X̄ (k) − X̄ )(X̄ (k) − X̄ )>
k =1 j =1 k =1 j =1
K nk K
(k) (k)
= ∑ ∑ (X j − X̄ (k) )( X j − X̄ (k) )> + ∑ nk (X̄ (k) − X̄ )(X̄ (k) − X̄ )>
k =1 j =1 k =1
=W
c + B.
b
K nk
(k) (k)
∑ ∑ j
( X − X̄ ) ( X̄ (k) − X̄ )> = 0.
k =1 j =1
On obtient la statistique
n
c + n log T
−2 log(λ) = 2 − log W
2 2
b
et donc
W −1
λ2/n = Tb −1 W c −1 B
c
c = = I+W b ∼ Λ( p, n − K, K − 1)
b +W
B c
3. Le sous-indice T est utilisé pour dénoter la variance totale, car on peut considérer les observations
comme provenant du même échantillon.
4. L’indice p est en référence au terme anglais pooled, tandis que W dénote within-group variance et B
between-group variance.
31
une loi khi-deux. L’approximation de Bartlett est donnée par
1
·
− −n − (K + p + 2) log(Λ) ∼ χ2p(K−1) .
2
Exemple 3.6
Le cas K = 2 permet d’obtenir une expression parlante. On calcule
I+W
c −1
b = I + n1 n2 W
B c −1 ( X̄ (1) − X̄ (2) )( X̄ (1) − X̄ (2) )>
n1 + n2
n n c −1 ( X̄ (1) − X̄ (2) )
= 1 + 1 2 ( X̄ (1) − X̄ (2) )> W
n1 + n2
n1 n2 · ( n1 + n2 − 2) p
( X̄ (1) − X̄ (2) )> S− 1
p ( X̄
(1)
− X̄ (2) ) ∼ F
n1 + n2 n1 + n2 − p − 1 p,n1 +n2 − p−1
On rappelle que dans le cas d’une seule population, on avait obtenu en supposant
H0 : µ = µ0 contre l’alternative H1 : µ 6= µ0 , la statistique n( X̄ − µ0 )> S−1 ( X̄ − µ0 ).
3.4.1. Interactions
On considère une ANOVA à deux voies, exprimée comme un modèle linéaire de la
forme
(kg) (kg)
Xi = µ + αk + β g + ε i
(kg) (kg)
Xi = µ + αk + β g + αk : β g + ε i ,
(kg) ind
pour k = 1, . . . , K; g = 1, . . . , G et i = 1, . . . n et ε i ∼ N (0, σ2 ). Ce modèle est appelé
modèle d’analyse de variance (ou ANOVA). Le premier modèle implique que l’effet
quantitatif des facteurs indexés par k et g est purement additif. À l’inverse, si les ef-
fets pour ces facteurs sont plus subtiles, il faudra utiliser un modèle avec interaction,
laquelle est représentée par le terme αk : β g .
Par analogie avec le cas précédent, on a dans le cas multivarié les résultats suivants :
32
Proposition 3.3 (MANOVA à une voie)
Soit le modèle
(k) (k)
Xi = µ + α k + εi
(k) ind
avec εi ∼ N p (0, Σ) pour j = 1, . . . , nk et k = 1, . . . , K. On impose la contrainte
∑kK=1 nk αk = 0. L’hypothèse sous considération est H0 : αk = 0. On peut réécrire
(k) (k)
Xj = X̄ + ( X̄ (k) − X̄ ) + ( X j − X̄ (k) )
et calculer T
b = B c qui donnent λ2/n = |W
b + W, c |/| B c | ∼ Λ( p, n − K, K − 1).
b +W
Asymptotiquement, on aura
K+p
− n−1− log(Λ) ∼ χ2p(K −1)
2
• Λ de Wilks : W c / Bb +Wc
• Roy : basé sur la plus grande valeur propre de W c −1 B
b
• Lawley-Hotelling : t = tr(Wc −1 B b)
Pillai : ν = tr B − 1 , réputé moins puissant, mais plus robuste
• b (W + B
c b)
(kg) (kg)
Xi = µ + α k + β g + α k : β g + εi
(kg) ind
avec εi ∼ N p (0, Σ) pour k = 1, . . . , K; g = 1, . . . , G et i = 1, . . . n. L’estimateur avec
les données s’exprime sous la forme
(kg) (kg)
Xi = X̄ + ( X̄ (k•) − X̄ ) + ( X̄ (• g) − X̄ ) + ( X̄ (kg) − X̄ (k•) − X̄ (• g) + X̄ ) + ( X i − X̄ (kg) ).
b=L
T b+C
b + bI + W
c
33
intra-groupe. Les matrices sont définies de façon usuelle, c’est-à-dire
K G n
(kg) (kg)
b=
T ∑ ∑ ∑ (X i − X̄ )( X i − X̄ )>
k =1 g =1 i =1
K
b = nG
L ∑ (X̄ (k•) − X̄ )(X̄ (k•) − X̄ )>
k =1
G
b = nK
C ∑ (X̄ (•g) − X̄ )(X̄ (•g) − X̄ )>
g =1
K G
bI = n ∑ ∑ (X̄ (kg) − X̄ (k•) − X̄ (•g) + X̄ )(X̄ (kg) − X̄ (k•) − X̄ (•g) + X̄ )>
k =1 g =1
K G n
(kg) (kg)
c=
W ∑ ∑ ∑ (X i − X̄ (kg) )( X i − X̄ (kg) )> .
k =1 g =1 i =1
Les hypothèses suivantes peuvent être intéressantes (les résultats sont valides sous
H0 ) :
W
c
∼ Λ( p, KG (n − 1), (K − 1)( G − 1))
bI + W
c
W
c
∼ Λ( p, KG (n − 1), K − 1)
b +W
L c
W
c
∼ Λ( p, KG (n − 1), G − 1)
b +W
C c
34
La statistique est
K |S∗p |
!
·
−2 log(λ) = ∑ nk log ∼ χ2p( p+1)(K−1)/2
k =1
|S∗k |
K
|S p |
M=γ ∑ (nk − 1) log |Sk |
k =1
avec
K
2p3 + 3p − 1
!
1 1
γ = 1−
6( p + 1)(K − 1) ∑ nk − 1 − n − K .
k =1
35
Chapitre 4
Analyse en composantes principales
L’analyse en composantes principales (ACP) est une technique d’algèbre linéaire qui
remonte à Fisher et Hotelling. La motivation est multiple : d’une part, elle sert à la ré-
duction de la dimension, si par exemple les données vivent dans un sous-espace de
taille plus faible. D’autre part, elle permet d’interpréter les données de façon succincte,
permettant parfois une meilleur perception du problème. Cela peut être utile pour com-
biner des variables mesurées sur des échelles différentes, par exemple les résultats aux
différents épreuves d’un décathlon. Le quotient intellectuel est un exemple d’analyse
en composantes principales (ACP).
Faire une ACP reviendra à diagonaliser la matrice de variance covariance ou la matrice
des corrélations et en extraire vecteurs propres orthonormés et valeurs propres pour
l’analyse.
Définition 4.1 (Analyse en composante principale)
Soit X un vecteur aléatoire de dimension p × 1 avec E ( X ) = µ et Var ( X ) = Σ. La trans-
formation C = P> ( X − µ) où P est une matrice orthogonale p × p telle que P> ΣP = Λ
diagonale (où sans perte de généralité, λ1 ≥ λ2 ≥ . . . ≥ λ p > 0). La ie composante
principale est alors définie par Ci = pi> ( X − µ) où pi est le ie vecteur propre corres-
pondant à la valeur propre λi .
Var (C ) = Var P> ( X − µ) = P> ΣP = Λ.
p
3. ∑i=1 Var (Ci ) = tr(Σ), appelée inertie totale. On a
p
∑ Var (Ci ) = tr(Λ) = tr(ΛP> P) = tr(PΛP> ) = tr(Σ)
i =1
4. Pour tout a tel que a> a = 1, Var a> X est maximale pour a = p1 et vaut λ1 . En
et l’on a
∂L = 2Σa − 2ξa =0
max L = max a> Σa − ξ a> a − 1 ⇒ ∂a
a a ∂L = −(a> a − 1) = 0
∂ξ
36
qui donne Σa = λa et a> a = 1.
5. Pour tout vecteur a tel que a> a = 1 et a> pi = 0 pour i = 1, . . . , j − 1, alors
Var a> X est maximale pour a = p j et vaut λ j .
Remarque
1. Si X ∼ N p (µ, Σ), alors la 1e composante principale s’interprète comme l’axe prin-
cipal de l’ellipsoïde de concentration.
2. La droite passant par µ de direction p1 est la droite de plus grande variance. C’est
aussi la droite qui minimise l’espérance du carré de la distance de X à cette droite.
p
3. ∑ik=1 λi / ∑i=1 λi représente la proportion de l’inertie totale expliquée par les k pre-
mières variables principales.
4. Les composantes principales ne sont pas invariantes par rapport à des change-
ments d’échelle (car il n’existe pas de relations entre les valeurs propres).
Dans le cas d’un échantillon, remplacer µ et Σ par les estimateurs usuels X̄ et S (ou S∗ ).
Si, par exemple, les unités des variables X sont des sec., kg, km et un taux, il est difficile
d’analyser l’unité résultante, puisque
C1 = a1 X1 + a2 X2 + a3 X3 + a4 X4
L’idée dans ces cas est de centrer et réduire (sans unités) et faire l’ACP après, ce qui
revient à faire une ACP sur R au lieu de S.
1.
2
λ ∼ N p λ,
b Λ2 pour λ = ( λ1 , . . . , λ p ) >
n−1
2.
1 λj
pi ∼ N p pi , V avec V i = λi ∑ p p> .
n−1 i ( λ j − λ i )2 j j
b
j 6 =i
3. On a également
( pi )r , ( p j ) s 1
Cov ( pi )r , ( p j )s = −λi λ j .
( λ i − λ j )2 n − 1
37
4. {b
λ1 , . . . , b
λ p } est indépendant de { b
p1 , . . . , b
p p }.
On trouvera une démonstration dans un article d’Anderson (1963). Si l’on modifie les
· 2
données (pour améliorer la normalité), on a log(b
λi ) ∼ N log(λi ), n− 1 .
On esquisse deux tests utilisés dans le cadre de l’ACP : le premier a pour hypothèse
nulle l’égalité des dernières p − k valeurs propres. Le deuxième test sert à vérifier
si la proportion d’inertie pour les premières valeurs est égale à une constante, soit
p
∑ik=1 λi / ∑i=1 λi = ψ0 donnée.
H0 :λk+1 = λk+2 = · · · = λ p
H1 :{∃i, j ∈ {k + 1, . . . , p} : λi 6= λ j , i 6= j}.
Cette hypothèse est utile dans la mesure où si un critère de sélection nous mène à in-
clure la k + 1e composante, alors toutes les autres devraient être incluses dans la mesure
où H0 ne peut être rejetée. Souvent, on débute avec k = 0.
λ∗ λ∗p
!
1, . . . , 1, k+1 , . . . ,
b b
λ∗
b λ∗
b
et donc A0 = 1 et
p−k
1 p
p−k
(b λ∗k+2 · · · b
λ k +1 b λ∗p ) p−k g0 p
G0 = = .
b∗
λ λ∗
b
38
Sous H0 , on a k valeurs propres distinctes et 1 valeur propre commune, et k vecteurs
propres avec p composantes, mais k (k + 1)/2 restrictions découlant de l’orthogonalité,
soit k + 1 + kp − k(k + 1)/2 paramètres. Sous H0 t H1 , il y a p( p + 1)/2 contraintes,
d’où
g0
·
−2 log(λ) = −n( p − k) log ∼ χ2( p−k+2)( p−k−1)/2 .
λ
b ∗
λ1 + · · · + λ k λ1 + · · · + λ k
H0 : = ψ, H1 : 6= ψ.
λ1 + · · · + λ p λ1 + · · · + λ p
Si b
λi sont les valeurs propres de S, alors ψ λk )/(b
λ1 + · · · + b
b = (b λ p ). En
λ1 + · · · + b
appliquant l’équation A.10.2, on montre que
·
b∼
ψ N (ψ, τ 2 )
avec
2p + 11
·
− n− log(det( R)) ∼ χ2p( p−1)/2 .
6
39
4.2 Interprétation et qualité d’une ACP
p
!
Cov Cι , X j = Cov p>
ι X, X j ∑ ( p ι ) k Xk , X j
= Cov
k =1
p
∑ ( pι )k Cov Xk , X j = λ ι ( p ι ) j
=
k =1
qui donne
λι ( pι ) j
Cor Cι , X j = √ √
λι σjj
√
et si on commence avec R au départ, on a λι ( pι ) j puisque les variance sont égales à 1.
On représente graphiquement cet éléments dans le cercle des corrélations, ici de rayon
unitaire. Si la normalisation des variances n’est pas la même pour chaque variable, on
aura une ellipse puisque la variance de chaque axe sera différente.
PC2
X4 X1
PC1
X3 X2
X5
La variable X4 est très mal représentée dans le plan des deux composantes principales
puisque leur corrélation est presque nulle. À l’inverse, une portion importante de la
variabilité du point X5 est expliquée par les deux premières composantes.
p 2
Interpréter les oppositions sur chaque axe : on a λι = ∑ j=1 Cor Cι , X j et on appelle
parfois contribution de la variable j à l’axe ι
2
Cor Cι , X j
= ( pι )2j
λι
40
puisque souvent on a pas les mêmes unités et les échelles des deux représentations
sont différentes.
2. Effet de “taille” : Si σij > 0 pour tout i et j, on peut montrer qu’alors tous les
coefficients du premier vecteur propre sont de même signe (théorème de Frobenius).
C1 = a1> X est une sorte de moyenne pondérée (toutes les variables n’ont pas le même
poids). Ainsi, la 1e composante principale mesure souvent un effet de “taille”. On
peut aussi remarque que la 2e composante principale, C2 , représente fréquemment un
effet de “forme”.
3. Importance des individus : dans le cas d’un échantillon X de taille n × p, on a C1i =
p1> ( X i• − X̄ ), la projection du ie individu sur la première composante principale. La
variance des points projetés est n1 ∑in=1 Cιi2 = b λι et n−1 Cιi2 /b
λι est la contribution de
l’individu i à la composante ι.
Théorème 4.6 (Frobenius)
Soit A une matrice symétrique avec a jk > 0, alors les composantes du premier vecteur
propre de A sont de même signe.
41
4.3 ACP, décomposition en valeurs singulières et régression
X = U DV >
où
• U est une matrice orthonormale n × p ; les colonnes de U engendre l’espace des
colonnes de X
• V est une matrice orthogonale p × p ; les colonnes de V engendre l’espace des lignes
de X
• D est une matrice diagonale p × p dont les éléments di sont les valeurs singulières
de X, avec d1 ≥ d2 ≥ · · · d p ≥ 0 et rang(X) = rang( D ).
Une autre formulation de la décomposition singulière prend D comme matrice n × p
contenant le carré des valeurs singulières, à savoir les valeurs propres de XX> et de
X> X, U la matrice n × n des vecteurs singuliers gauches, égale à la matrice de vecteurs
propres de XX> et V > matrice p × p de vecteurs singuliers droits, soit les vecteurs
propres de X> X.
Les composantes principales sont alors les colonnes de XV . On a
Régression
On rappelle quelques notions de régression linéaire. Le but de cette section est d’uti-
liser la décomposition en valeurs singulières (et l’ACP) pour mieux comprendre les
estimateurs à rétrécissement. On conclura avec deux méthodes qui utilisent une trans-
formation de la matrice de régresseurs X pour la régression.
Dans la régression par moindre carrés, on postule un modèle linéaire de la forme Y =
Xβ + ε, où ε est une matrice d’aléas indépendants et de moyenne nulle. L’estimateur β
b
qui minimise l’erreur moyenne quadratique est la solution du problème
−1 >
min(y − Xβ)> (y − Xβ) ⇒ β
b >
MC = ( X X ) X y si Var (ε) ∝ In
β
42
pour σ connu. Le dernier cas (données hétéroscédastiques) est appelé moindres carrés
pondérés.
Nous considérerons subséquemment les seuls moindres carrés ordinaires, dont l’estimé
sera dénoté β.
b Les valeurs ajustées sont y b = Xβ b = HX y = X(X> X)−1 X> y et par
construction, est orthogonal à l’estimé des résidus b
ε = (I − HX )y.
Si X = U DV> , on obtient
d’où
p d2j
b = Xβ
y b =
r ∑ u j d2 + θ u>j y.
j =1 j
43
d’optimisation quadratique
p
min(y − Xβ)> (y − Xβ) + θ
β
∑ | β j |.
j =1
La solution est obtenable par le biais d’algorithmes dédiés qui permettent de trouver
l’ensemble des solutions en fonction de θ, et ce au même coût de calcul que pour la
régression ridge. La nature de la pénalité pousse les estimés pour certains régresseurs
à zéro, ce qui crée un modèle plus parcimonieux. Là où la pénalité de crête rétrécie de
façon proportionnelle les estimateurs de moindre carré, βbrj = βbj /(1 + θ ), la régression
lasso donne βblasso = sign( βbj ) min{| βbj | − θ, 0}. Mentionnons finalement la pénalité du
j
p
filet élastique, θ ∑ j=1 (αβ2j + (1 − α)| β j |, un compromis entre lasso et ridge.
Un algorithme de descente par coordonnée est nécessaire pour obtenir une solution.
Comme pour le lasso et la régression ridge, les paramètres optimaux pour la pénalité
sont souvent dérivés par validation croisée. En revanche, les erreurs standards rap-
portées par le progiciel ne prennent pas en compte la sélection de variable et les tests
d’hypothèse basés sur ces dernières ne sont pas valides.
Y = Xβ + ε, ε ∼ N n (0n , σ 2 I n ).
44
On considère un changement de base de X en prenant zi = X pi , où i = 1, . . . , k ≤ p
Une régression par moindre carrés minimise la distance euclidienne verticale entre les
observations et la droite de régression, tandis qu’une régression avec les composantes
principales minimisera la distance perpendiculaire à la droite.
Proposition 4.10 (Régression sur composantes principales)
On fait la régression de y sur les vecteurs colonnes z1 , . . . , zk , lesquels sont orthogonaux
par construction. Les estimés sont donnés par
k
brcp = ȳ1 + ∑ γ
y bi zi , bi = (zi> zi )−1 zi> y.
γ
i =1
Les variables à conserver ne sont donc pas nécessairement les premières composantes
et le choix optimal pour k dépend des paramètres γ, lesquels sont inconnus en pratique.
45
utilisée en chimiométrie. La régression des moindres carrés partiels construit itérati-
vement une base de k ≤ min(n − 1, p) vecteurs de poids Wk = (w1 , . . . , wk ) pour
les colonnes de X, produisant une matrice de scores n × k donnée par l’expression
T = XW.
La première direction est obtenue en maximisant la covariance Cov ( Xw, y), ou bien
encore Cor ( Xw, y) Var ( Xw) pour w ∈ R p sujet à kwk = 1. Ce problème d’optimi-
p
sation contrainte peut être résolu à l’aide des multiplicateurs de Lagrange et on trouve
que w1 est le vecteur propre associé à la plus grande valeur propre de X > yy> X, soit
w1 = X > y/k X > yk. Pour les directions subséquentes, le coefficient wi est la solution
du problème maxw Cov(y, Xw) sujet aux contraintes kwk = 1 et w> Swl = 0 pour
l = 1, . . . , i. La régression PLS effectue un compromis entre l’analyse en composantes
principales (qui maximise la variance) et la régression multiple (l’analyse canonique
dans le cas où Y est n × m), qui maximise la corrélation.
Mathématiquement, les moindres carrés partiels reviennent à minimiser
avec A = n−1 X > X, b = n−1 X > y, où Ki (A, b) est un espace de Krylov, c’est-à-dire
l’espace engendré par vect{A j−1 b}ij=1 .
Pour la résolution, on exprime le système de régression
X = TP> + E
Y = UQ> + F
6. Dans le cas multivarié avec Y ∈ Rn×m , on cherche à maximiser Cov ( Xw, Yc) avec comme contrainte
additionnelle kck = 1, etc. C’est donc désormais une matrice de vecteurs orthogonaux C k × m que l’on
cherche.
46
2: wi ← Ei>−1 Fi−1 /(Fi>−1 Fi−1 ) . régression
3: wi ← wi / k wi k
4: ti ← Ei−1 wi /wi> wi
5: pi ← Ei>−1 ti /ti> ti . régression
6: Ei ← Ei−1 − ti pi> . projection
7: ci ← Fi>−1 ti /ti> ti . régression
8: ui ← Fi−1 /ci
9: Fi ← Fi−1 − ti ci> . projection
Dans le cas de données manquantes, les quantités sont calculées avec les données com-
plètes. Si aucune donnée n’est manquante, on peut remplacer les deux premières étapes
(lignes 2-3) par wi ← Ei>−1 Fi−1 /kEi>−1 Fi−1 k et 4 par ti ← Ei−1 wi .
k ui> ti
b(k) = ȳ + ∑ ti b
y αi , αi = .
ti> ti
b
i =1
−1
B(k) = Wk ( P>
k Wk ) ck .
Si k = p, l’estimé B(k) est égal à celui de la régression des moindres carrés, tout comme
dans la régression en composantes principales. Si la matrice de régresseurs X est or-
thogonale, les moindres carrés partiels retournent les estimateurs des moindres carrés
après la première itération ; aucune étape subséquente ne modifie les estimés initiaux.
Les erreurs à l’étape h, bfh sont recalculées comme bfh = y − yb(h) .
On peut calculer, comme dans le cas de l’ACP, la proportion de variance expliquée pour
y et X avec h chargements :
Var y
b(h) SCh (y)
pVarh (y) = =
Var (y) y> y
t> >
h th ph ph SCh ( X )
pVarh ( X ) = = .
tr( X > X ) tr( X > X )
Puisque les scores sont orthogonaux, la proportion cumulative des k premières va-
riables PLS est la somme des contributions ∑kh=1 pVarh .
Il peut être difficile de choisir le nombre de composantes pour la régression PLS. Les
principaux critères proviennent de la validation croisée : on peut utiliser la méthode du
canif (jacknife) en laissant de côté une observation et en estimant le modèle sans cette
47
dernière. La somme des carrés des résidus non-standardisée est comme à l’accoutumée
n 2
>
RSSh = bf h bf h = ∑ yi − yb(h)i
i =1
tandis que la somme du carré des résidus prédits par le modèle estimé, dénotée PRESSh
est
n 2
i
PRESSh = ∑ yi − yb− ( h )i
i =1
La statistique PRESSk n’existe pas nécessairement (si par exemple k = n). On définit
quelques statistiques
PRESSh
Q2 ( h ) = 1 −
RSSh−1
h
PRESSh
Q2cum (h) = 1 − ∏
i =1
RSSh−1
PRESSh
R2VC (h) = 1 −
RSS0
avec RSS0 = ∑in=1 (yi − ȳ)2 . En ce qui a trait aux critères de décisions, on a plusieurs
choix
γ = 1 si n ≥ 100.
48
Chapitre 5
Analyse canonique
Dans un modèle de régression multiple, on pose comme modèle pour une observa-
tion Y = a> X tel que Cor Y, a> X est maximale. Dans le cas où Y est un vecteur
réponse, l’analyse canonique consiste à poser b> Y expliquée par a> X de telle sorte
que Cor b> Y, a> X soit maximale.
Cov a> X, b> Y = a> Σ12 b
Var a> X = a> Σ11 a
Var b> Y = b> Σ22 b.
Ainsi,
a> Σ12 b
Cor a> X, b> Y = p (5.2)
a> Σ11 ab> Σ22 b
Maximiser cette corrélation donnera une valeur positive (pourquoi ?). 7 De plus, il y
aura un problème de normalisation de a et b. On imposera des contraintes pour maxi-
miser équation (5.2), soit a> Σ11 a = 1 et b> Σ22 b = 1. On résoudra le problème d’opti-
misation à l’aide des multiplicateurs de Lagrange
1 1
L = a> Σ12 b − δ(a> Σ11 a − 1) − γ(b> Σ22 b − 1).
2 2
En dérivant, on obtient
∂L
= Σ12 b − δΣ11 a = 0 ⇒ Σ12 b = δΣ11 a (5.3)
∂a
∂L
= Σ21 a − δΣ22 b = 0 ⇒ Σ21 a = γΣ22 b. (5.4)
∂b
De la première expression, on obtient en inversant les sous-matrices de covariance
−1
Σ11 Σ12 b = δa des expressions pour M1 et M2 , définies comme
−1 −1
M1 a := Σ11 Σ12 Σ22 Σ21 a = δγa = λa
−1 −1
M2 b:= Σ22 Σ21 Σ11 Σ12 b= δγb = λb
7. Si on trouve a telle que la corrélation est négative, prendre −a donnera une valeur positive.
49
Que vaut Cor a> X, b> Y au maximum ? En multipliant par a> et par b> respective-
a> Σ12 b p
max p = λmax .
a,b a> Σ11 ab> Σ22 b
√ √
La valeur maximale de la corrélation est donc λmax où λmax est la plus grande
valeur propre de M1 et M2 . Les valeurs propres non nulles sont en quantité égales,
soit k = min{ p1 , p2 }. Noter que l’on a rencontré ces matrices lors du test d’hypothèse
H0 : Σ12 = 0. Le problème dans le développement ci-dessus est que ni M1 , ni M2
ne sont symétriques. Il est difficile dans ce cas de trouver les valeurs propres et les
vecteurs propres. En pratique, il n’y a pas de différence que l’on travaille sur R ou
S ; en écrivant R = D −1/2 SD −1/2 pour D la matrice diagonale des variances que l’on
sépare, on obtient les mêmes valeurs propres. On résout le problème en introduisant
les matrices
−1/2 −1 −1/2
N1 = Σ11 Σ12 Σ22 Σ21 Σ11 = KK>
−1/2 −1 −1/2
N2 = Σ22 Σ21 Σ11 Σ12 Σ22 = K> K
−1/2 −1/2
où K = Σ11 Σ12 Σ22 . On montre que M1 , M2 , N1 , N2 ont les mêmes valeurs propres
non-nulles λ1 > λ2 > · · · > λk . On dénote par αi (respectivement βi ) les vecteurs
−1 −1
propres de N1 (respectivement N2 ). Soit a vecteur propre de Σ11 Σ12 Σ22 Σ21 et b vecteur
−1 −1
propre de Σ22 Σ21 Σ11 Σ12 = M2 . Alors, on peut lier les deux par le biais des relations
−1/2
αi> αi = 1, αi> α j = 0, ai = Σ11 αi et ai> Σ11 ai = 1. Pareillement, on a β> >
j β j = 1, βi β j =
−1/2
√
0, b j = Σ22 β j et b>
j Σ22 b j = 1. Notez que k ai k 6 = 1. λi est appelé le ie coefficient de
corrélation canonique, ai> X et bi> Y sont appelés les ie variables canoniques.
−1/2 −1/2
Cor ηi , φj = Cov ηi , φj = ai> Σ12 b j = αi > Σ11 Σ12 Σ22 β j = αi > Kβ j
On sait que β j (respectivement αi ) est vecteur propre de K> K (KK> ). On pose donc
K> Kβ j = λ j β j , ce qui implique que KK> Kβ j = KK> dα j = λ j dα j . En notant que
−2 > > −2 >
√
α>
j α j = d β j K K = d λ j β j β j , on vérifie que d = λ j et il en découle que
>
√
Cor ηi , φj = αi λ j α j = 0.
50
Analyse canonique sur échantillon
On remplace Σij par Sij ou Sij∗ . La division par n − 1 ou n est sans importance puisque
−1 −1
ces constantes s’annulent dans le produit Σ11 Σ12 Σ22 Σ21 . Posons R = D −1/2 SD −1/2 ;
on a
−1 −1
S21 = D11/2 R11 D1/2
D1/2
D1/2 1/2
D1/2 1/2
−1 −1 1/2
S11 S12 S22 1 1 R12 D 2 R22 D2 2 R21 D1
= D1−1/2 R11
−1 −1
R12 R22 R21 D1/2
1
et donc
D1−1/2 R11
−1 −1
R12 R22 R21 D1/2
1 v = λv
−1
R11 −1
R12 R22 R21 D1/2 1/2
1 v = λD1 v.
Notez que la valeur propre maximale est la même si on utilise R ou S. Ainsi, le résultat
de l’ analyse canonique sur R ou sur S est identique.
k
!
−2 log(λ) = −n log ∏ (1 − λ i )
i =1
−1 ·
avec λi valeur propre de S22 S21 S11 S12 et la statistique de Wilks donnée par λ2/n ∼
Λ( p2 , n − 1 − p1 , p1 ). On peut utiliser l’approximation de Bartlett, soit
!H
k 0
1
·
V = − n − ( p1 + p2 + 3) log ∏ (1 − λ i ) ∼ χ2p1 p2
2 i =1
(b) H0 coefficients de corrélation canonique sont non nuls (ri = 0), où ri2 = λi . La
statistique
1
Vj = − n − ( p1 + p2 + 3) log 1 − r2j
2
51
Interprétation et généralisation
Soit les matrices X et Y, assumées centrées. Les vecteurs a j et b j correspondent aux je
vecteurs de corrélation canonique et Xa j et Yb j représentent les scores des n individus
sur la je variable canonique, tandis que η j = a> >
j x et φ j = b j y représentent la valeur
particulière des scores pour ( x, p
y). Côté représentation graphique de (η1 , φ1 ), on a la
droite correspondante de pente b λi , soit
q
bi =
φ λ i ηi .
b
Si la corrélation canonique est près de 1, alors la relation est presque linéaire de pente
1. On peut tracer également (ηb1 , ηb2 ) versus (φ
b1 , φ
b2 ); il y a forte ressemblance entre les
nuages de points si les corrélations canoniques sont fortes.
Cheveux
clairs foncés
bleus 4 0
Yeux verts 1 2
bruns 0 3
0 3
0 1 0 0 1
0 0 1 0 1
0 0 1 0 1
0 0 1 0 1
Pour faire une analyse canonique, on doit calculer la matrice S = SS11 SS22 12
. En re-
21
vanche, il y a des dépendances ici : la somme des colonnes de X et Y égale 1n et de ce
fait S11 et S22 calculées en recentrant les données ne seront pas inversibles. Les solutions
sont les suivantes
1. Enlever une colonne à X et à Y et effectuer l’analyse canonique sur le résultat par
52
la suite.
2. Effectuer l’analyse canonique sur
!
e= 1 X >X X >Y
S .
n Y >X Y >Y
Cela donnera une valeur propre nulle, à ne pas considérer. Cela revient (en ne centrant
pas) à trouver une inverse généralisé et conduit à la même solution pour les valeurs
propres non triviales.
Les colonnes sont respectivement DROI (droit), SEC (sciences économiques), LETT (Lettres), SCIE (sciences),
MEDD (médecine et dentaire), PHAR (pharmacie) et PLUR (pluridisciplinaire). Les catégories pour les lignes
sont respectivement EXPA (exploitant agricole), SALA (salarié agricole), PATR (patron), LICS (profession
libérale, cadre supérieur), CADM (cadre moyen), EMPL (employé), OUVR (ouvrier), SERV (personnel de
service) et AUTR (autres).
La question d’intérêt est : quelles études poursuivent les enfants des diverses catégories
socio-professionnelles ?
Le tableau des profils associés aux lignes (colonnes) permet de voir les proportions.
La moyenne des profils-lignes (l’effectif pondéré par la somme des effectifs marginaux
53
Tableau 5 – Proportion marginale associée
r nij ni• n• j
∑ ni • n
=
n
i =1
54
Valeurs propres % d’inertie Cumul
1 0.040 0.837 0.837
2 0.005 0.115 0.952
3 0.001 0.024 0.976
4 0.001 0.020 0.996
5 0.000 0.003 0.999
attention à surinterpréter la distance entre les axes et se concentrer plutôt sur les angles
entre les points et les axes.
EXPA
0.2
PHAR IUT
Facteur 2 (11.49%)
SCIE
MEDD OUVR
LICS PATR SEC
0.0
CADM SERV
DROI EMPL SALA
LETT PLUR
AUTR
-0.2
Facteur 1 (83.72%)
55
Tableau 8 – Cosinus carré des angles des vecteurs avec les sous-espaces
56
Chapitre 6
Partitionnement de données
Dans les deux prochains chapitres, nous aborderons quelques techniques de partition-
nement de données et de discrimination. La partitionnement de données (“clustering”)
est une technique d’apprentissage non-supervisée qui consiste à grouper des observa-
tions. Les groupes sont constitués basés sur des mesures de dissimilarité (ou de dis-
tance) entre les individus. Les groupements sont inconnus, contrairement à l’analyse
discriminante que nous verrons dans le prochain chapitre.
1
sik = ,
1 + dik
Elles consistent à
57
F IGURE 5 – Exemple de dendrogramme
entre [1] et [2]. On continue itérativement, en groupant [3] et [4], puis le groupe [12] et
[34] et finalement en incluant [5] à [1234]. On dénote ci-dessous par dk(ij) la distance
entre l’observation k et les groupes i et j (formés respectivement de ni ≥ 1 et n j ≥ 1
observations).
Proposition 6.1 (Méthodes hiérarchiques)
1. distance unique (single linkage) : distance minimale dk(ij) = min(dki , dkj ), corres-
pond au plus proche voisin
2. distance complète (complete linkage) : distance maximale dk(ij) = max(dki , dkj ), voi-
sins les plus éloignés
n1 n2
1
dk(ij) =
ni n j ∑ ∑ dij
i =1 j =1
5. médiane
2
1
dk(ij) = X̄ k − ,
X̄ i + X̄ j
2
58
6. méthode de Ward : basée sur la somme des carrés (SC). La distance entre deux
groupements est la somme des carrés inter-groupes,
ni n j
dij = SCB = ni k X̄ i − X̄ k2 + n j k X̄ j − X̄ k2 = k X̄ i − X̄ j k2
ni + n j
avec
ni X̄ i + n j X̄ j
X̄ = .
ni + n j
Pour recalculer les distance entre les groupes, on utilise la formule de Lance et Williams,
soit
αi αj β γ
1 1
Simple 2 2 0 − 12
1 1 1
Complet 2 2 0 2
ni nj
Moyenne ni + n j ni + n j 0 0
ni nj
Centroïde ni + n j ni + n j − αi α j 0
1 1
Médiane 2 2 − 14 0
n k + ni nk +n j
Ward n k + ni + n j n k + ni + n j − nk +nnki +n j 0
Dans ces méthodes hiérarchiques, le choix du nombre de groupes est souvent fait en
maximisant l’expression
tr( B
b ) / ( g − 1)
tr(Wc )/(n − g)
Une alternative consiste à procéder à une affectation initiale des observations en g grou-
pements et réassigner les individus de façon à optimiser un critère à chaque étape jus-
qu’à convergence du processus de réassignation. Le résultat dépend de la répartition
59
initiale des groupes, lequel n’est donc pas anodin, puisqu’il peut conduire à des solu-
tions finales différentes si l’algorithme se termine.
Les K-moyennes consiste à minimiser tr(W
c ) ou maximiser tr( B
b ).
Algorithme 6.1 (Partitionnement de données par K-moyennes (Lloyd))
Soit X un tableau d’observations n × p et K un nombre pré-spécifié de groupements.
1. Assignation initiale des observations aux K groupements et calcul des centroïdes
x̄k ou pré-spécification des centroïdes x̄k pour k = 1, . . . , K.
2. Calculer la distance Euclidienne carrée entre chaque observation et le centroïde x̄k
de son groupe d’appartenance c(xi ) ∈ {c1 , . . . , cK }
K
ESS = ∑ ∑ (xi − x̄k )> (xi − x̄k ).
k =1 i:c(xi )=ck
L’algorithme de K-moyennes minimise le critère ESS, qui décroît avec chaque itéra-
tion et donc la convergence en temps fini est garantie. Comme indiqué précédemment,
l’obtention d’une solution optimale n’est pas garantie avec cet algorithme glouton et
dépend de l’allocation initiale des centroïdes ; en pratique, on essaiera plusieurs va-
leurs initiales. L’algorithme de K-moyenne tend à créer des groupes sphériques de taille
équivalente, puisque la structure de variance est la même pour chaque groupement.
On peut aussi procéder en utilisant d’autres critères de réallocation.
• minimiser |W
c |, maximiser | T
b | / |W
c|
−1
• maximiser tr(W
c B b)
Une variante des K-moyennes, les K-médianes, minimise plutôt la distance de Manhat-
tan (`1 ) entre les observations et la médiane de chaque groupe, à savoir |xk − medk (x)|.
Une autre variante utilise comme représentant de groupe une des observations, appelé
médoïde, en lieu et place des centroïdes. Le critère de minimisation est basé sur une
dissimilarité ou une distance. Ce critère est plus robuste face aux données aberrantes.
Deux variantes existent : le partitionnement autour de médoïdes (PAM) est le plus uti-
lisé, puisqu’il utilise un algorithme glouton.
Algorithme 6.2 (K-médoïdes et partitionnement autour de médoïdes)
Soit D = (dij ) une matrice n × n de proximité et K un nombre pré-spécifié de groupe-
ments.
1. Assignation initiale des items en K groupements et localisation du médoïde pour
chaque groupe. Le médoïde du groupe k est l’observation mk qui minimise la dissimi-
larité totale ∑i∈ck dimk .
60
K-médoïdes :
(a) Pour le ke groupe, réassigner l’observation ik au groupe la plus près telle que la
fonction objective
K
ESSmed = ∑ ∑ diik
k =1 i:c(i )=ck
est réduite.
(b) Répéter l’étape 3 et la réassignation jusqu’à ce que plus aucune réassignation d’ob-
servations n’ait lieu.
Partitionnement autour de médoïdes :
(a) Pour chaque groupe, interchanger le médoïde avec l’observation qui réduit le plus
la fonction objective ESSmed
(b) Répéter les permutations jusqu’à ce que plus aucune réduction de ESSmed n’ait
lieu.
1
ai =
card(c(i )) − 1 ∑ d(i, j)
j ∈ c (i )
1
bi = min
k∈{1...,K } card(ck ) ∑ d(i, j).
j∈ck
k 6 = c (i )
bi − a i
si,K =
max{ ai , bi }
61
des K-moyennes sur un mélange de 4 lois binormales. Le diagnostic visuel indique
dans le cas K = 3 que certaines observations sont probablement plus susceptibles d’ap-
partenir à un autre groupe (en l’occurrence rouge). Le groupe vert est trop dispersé.
Avec K = 5, la séparation des groupements bleu-rouge est artificielle.
-5
-10
-5
-10
-5
-10
62
X i provient du groupe k pour k = 1, . . . , K. On réécrit la vraisemblance en fonction de
πk , la probabilité qu’une observation tombe dans le groupe k,
n K
L(θ1 , . . . , θK ; π1 , . . . , πK , X) = ∏ ∑ πk f k (xi , θk ).
i =1 k =1
Dans le cas de données manquantes (comme la classe d’une observation), on peut éli-
miner ces données, remplacer par la moyenne des colonnes (ce qui réduit la variance,
alors que les données manquantes devraient augmenter l’incertitude), faire une régres-
sion et prédire les données manquantes, voire faire de l’imputation multiple. La der-
nière solution consiste à utiliser l’algorithme de Dempster, Laird & Rubin (1977). Nous
utilisons l’algorithme d’espérance-maximisation puisque dans le cas présent l’informa-
tion est manquante.
On prend pour la densité
1 1
> −1
f k ( xi ; µ k , Σ k ) = exp − ( x − ) Σ ( x − ) .
2 i i
µ k k µ k
(2π ) p/2 |Σk |1/2
Σk = λk Pk Ak P>
k (6.5)
avec Pk une matrice orthogonale de vecteurs propres, Ak une matrice diagonale dont
les éléments sont proportionnels aux valeurs propres et λk un scalaire. Pk gouverne
l’orientation de l’ellipsoïde, Ak sa forme et λk son volume, lequel est proportionnel à
p
λk det( Ak ).
Le choix du nombre de composantes, de même que la forme du modèle, est basée sur la
sélection bayésienne de modèles et l’utilisation du facteur de Bayes. Spécifiquement, si
plusieurs modèles M1 , . . . , MO sont considérés avec chacun probabilité a priori p( Mo )
(souvent 1/O) pour un ensemble de données X, on a par le théorème de Bayes la loi
postérieure du modèle o ∈ {1, . . . , O}
p ( Mo | X ) ∝ p ( X | Mo ) p ( Mo )
63
où la vraisemblance intégrée p(X | Mo ) est obtenue en intégrant les paramètres incon-
nus du modèle et est donnée par la loi totale de probabilité
Z
p ( X | Mo ) = p(X | θo , Mo ) p(θo | Mo ) dθo
0.8
0.6
0.6
0.4
0.4
0.2
0.2
64
6.4 Algorithme d’espérance-maximisation
Soit le couple (Y, U ) de données complètes. Les données U sont les données man-
quantes ou variables latentes, tandis que les données observées Y, aussi appelées don-
nées incomplètes. La vraisemblance pour les données complètes est
f U,Y |θ (u, y | θ)
f U |Y,θ (u | y, θ) =
f Y |θ (y | θ)
L’algorithme d’espérance maximisation est un algorithme itératif qui produit une sé-
quence d’estimés qui convergent vers l’estimé du maximum de vraisemblance des don-
65
nées incomplètes. À partir d’une valeur initiale θ = θ0 , la r + 1e valeur de la séquence,
est construite selon
θ(r+1) = arg max E fU |Y,θ `U,Y (θ; U, Y ) | y, θ(r) = arg max Q(θ; θ(r) ).
θ∈Θ θ∈Θ
Preuve On veut montrer que `Y (θ(r+1) ; y) ≥ `Y (θ(r) ; y). Puisque l’on choisit θ(r+1) qui
maximise la fonction Q, on a Q(θ(r+1) ; θ(r) ) ≥ Q(θ(r) ; θ(r) ) et il suffit de démontrer que
Ef `U |Y,θ(r) (θ(r) ; U, Y ) ≥ E f `U |Y,θ(r) (θ(r+1) ; U, Y )
U |Y,θ(r ) U |Y,θ(r )
Or, pour toutes fonctions de densité f 1 , f 2 pour une variable aléatoire U donnée, on a
f 2 (U )
E f1 (log f 1 (U )) − E f1 (log f 2 (U )) = −E f1 log
f 1 (U )
f 2 (U )
≥ − log E f1
f 1 (U )
f 2 (u)
Z
= − log f (u) du
f 1 (u) 1
Z
= − log f 2 (u) du = 0
66
la première coordonnée et finalement w1j = (w1j , ?)> , j = m + m1 + 1, . . . , n les m2 =
n − m − m1 paires auxquelles manquent la deuxième coordonnée.
m
n+m 1 1
`(θ; W ) = −
2
log(2π ) − m log(det(Σ)) −
2 2 ∑ ( w j − µ ) > Σ −1 ( w j − µ )
j =1
n log(ξ ) 1
`c (θ; W, U ) = −n log(2π ) − − [σ22 T11 + σ11 T22
2 2ξ
− 2σ12 T12 − 2{ T1 (µ1 σ22 − µ2 σ12 ) + T2 (µ2 σ11 − µ1 σ12 )}
i
+n(µ21 σ22 + µ22 σ11 − 2µ1 µ2 σ12 )
où
n n
σ12
Ti = ∑ wij , Thi = ∑ whj wij , ξ = σ11 σ22 (1 − ρ2 ), ρ= √ .
j =1 j =1
σ11 σ22
Ti T T T
bi =
µ , σhi = hi − h 2 i , h, i = 1, 2.
n n n
b
Pour calculer Q(θ; θ(r) ) = E log f (Y, U; θ) | y, θ(r) , on doit évaluer
2
Eθ(r) W1j | w2j , Eθ(r) W1j | w2j , j = m + 1, . . . , m + m1
2
Eθ(r) W2j | w1j , Eθ(r) W2j | w1j , j = m + m1 + 1, . . . , n
Or on sait par les propriétés de la loi multinormale que W2 | w1 suit une loi normale
−1
W2 | W1 = w1 ∼ N µ2 + σ12 σ11 (w1 − µ1 ), σ22 (1 − ρ2 ) .
(r )
(r ) (r ) σ (r )
Eθ(r) W2j | w1j = w2j = µ2 + 12 w1j − µ1
(r )
σ11
67
(r ) 2 (r )
2
Eθ(r) W2j | w1j = w2j + σ22.1 ,
Dans l’étape M de l’algorithme, on remplace les valeurs manquantes wij et wij2 pour
i = 1, 2 par leurs espérances conditionnelles, substituées dans les expressions pour
Ti , Thi , soit
(r ) (r ) (r ) (r )
(r +1) Ti (r +1) Thi T T
µi = , σhi = − h 2i , h, i = 1, 2.
n n n
On considère un cas simplifié où les observations manquent à un seul groupe.
w1 8 11 16 18 6 4 20 25 9 13
w2 10 14 16 15 20 4 18 22 ? ?
K K
f X i |θ ( xi | θ) = ∑ πk f k (xi | θk ), ∑ πk = 1
k =1 k =1
68
suivent une distribution multinomiale avec 1 essai. La log-vraisemblance peut s’écrire
n K
`(θk , πk ; z, x) = ∑ ∑ zik (log (πk ) + log ( f k (xi | θk ))) .
i =1 k =1
(r )
À l’étape r de l’algorithme, on impute zi par son espérance conditionnelle γi sachant
(r ) (r )
π (r) , θ1 , . . . , θK , qui découle de la formule de Bayes. La distribution conditionnelle
pour Ck est une distribution discrète sur {1, . . . , K } et puisque {Ci = k} ≡ { Zik = 1}
Dès lors,
(r +1) (r +1)
On optimise alors chacune des termes séparément de façon à obtenir θ1 , . . . , θK
et π ( r + 1 ) . Le premier terme de l’équation (6.8) correspond à une vraisemblance multi-
nomiale, et donc comme précédemment, on obtient l’estimateur du maximum de vrai-
semblance
(r )
(r +1) ∑in=1 γk ( xi )
πk = (r )
.
∑Kj=1 ∑in=1 γ j ( xi )
n
(r +1) (r )
θk = arg max ∑ γk ( xi ) log( f k ( xi | θk ))
θk i =1
Dans le cas particulier où f k est une loi multinormale, les expressions pour le maximum
de vraisemblance de θk ≡ (µk , Σk ) pour k = 1, . . . , K sont explicites.
Algorithme 6.3 (Espérance-maximisation pour mélange fini de lois multinormales)
(0)
• Initialiser γk ( xi ) pour i = 1, . . . , n et k = 1, . . . , K
• Pour itération r = 1, . . . jusqu’à convergence
– Étape M : calculer les paramètres qui maximisent la vraisemblance étant donné
69
(r −1)
γk ( xi ), soit
n (r ) n
(r ) (r −1) (r ) n (r ) 1 (r −1)
nk = ∑ γk ( x i ), πk = k ,
n
µk = (r ) ∑ γk ( xi ) xi
i =1 n k i =1
(r )
et Σk dépend de la structure de la matrice de covariance (voir équation (6.5)).
(r )
– Étape E : imputer les valeurs zik par γk ( xi ) étant donnés les paramètres estimés
à l’étape M,
(r ) (r ) (r )
π k f k µ k , Σ k | xi
(r )
γk ( x i ) = (r ) (r ) (r )
∑Kj=1 π j f j µ j , Σ j
| xi
Dans notre problème, il peut arriver que la matrice Σ b k soit mal conditionnée. 8 La
convergence de l’algorithme EM peut être lente si le nombre de groupe est élevé.
∂2
IU |Y (θ; y) = −E fU |Y,θ `U |Y (θ; U, Y ) | y
∂θ∂θ>
∂2
IU,Y (θ) = −E fU,Y |θ ` U,Y ( θ; U, Y ) .
∂θ∂θ>
bk = xl , Σ
8. S’il y a un groupe avec un seul individu xl , on aura alors µ b k → Od et la log-vraisemblance
tendra vers l’infini.
70
En dérivant équation (6.6) par rapport à θ deux fois, on obtient
∂2 ∂2 ∂2
` Y ( θ; y ) = ` U,Y ( θ; u, y ) − `U |Y,θ (θ; u, y).
∂θ∂θ> ∂θ∂θ> ∂θ∂θ>
∂2
`Y (θ; y) = IU,Y (θ) − IU |Y (θ; y).
∂θ∂θ>
La première contribution est l’information maximale que l’on peut obtenir en n’ayant
pas observé U en prenant l’espérance sur tous les U possibles ; le deuxième terme est
la quantité d’information manquante, conséquence des données manquantes, que l’on
doit soustraire. En prenant l’espérance cette fois par rapport à f Y |θ, on obtient
IY (θ) = IU,Y (θ) − E fY |θ IU |Y,θ (θ; Y )
Un article de Louis (1982) montre que l’on peut exprimer l’information manquante
IU |Y,θ (θ; Y ) = E fU |Y,θ Sc (u, y; θ)Sc> (u, y; θ) − S(y; θ)S(y; θ)>
Une analyse exploratoire des données (à l’aide de nuages de points) peut être utile pour
diagnostiquer les groupements et détecter les aberrances. D’autres possibilités incluent
les profils (coordonnées parallèles), les diagrammes en étoiles, les faces de Chernoff,
les ACP et les diagrammes Andrews, correspondant à
x
f x (t) = √1 + x2 sin(t) + x3 cos(t) + · · ·
2
Les couleurs correspondent aux étiquettes des groupements. Si les courbes s’empilent,
alors les individus sont ressemblants.
71
F IGURE 9 – Diagrammes d’Andrews et en coordonnées parallèles pour le jeu de don-
nées iris
2
1
0
-1
-2
-3 -2 -1 0 1 2 3
72
Chapitre 7
Analyse discriminante et classification
L’analyse discriminante vise deux buts :
1. Séparation : décrire les caractères différentiels d’observations provenant de popu-
lations connues. Essayer de trouver les caractères discriminants qui séparent le plus
une collection d’individus.
2. Classification (ou allocation) : trier les observations en deux ou plusieurs groupes.
Obtenir une règle optimale d’allocation qui permet d’assigner un individu nouveau à
l’un des groupes.
En pratique, les deux buts se mélangent.
R1
R2
donné par
CEMC = C ( R2 | Π1 ) P ( R2 | Π1 ) p1 + C ( R1 | Π2 ) P ( R1 | Π2 ) p2
73
Proposition 7.1
Les régions R1 et R2 qui minimisent ce coût CEMC sont
f1 (x) C ( R1 | Π2 ) p2 f1 (x) C ( R1 | Π2 ) p2
R1 := ≥ , R2 := < .
f2 (x) C ( R2 | Π1 ) p1 f2 (x) C ( R2 | Π1 ) p1
R1 R2
0.8
Densité
Π1 Π2
0.4
0.0
-2 0 2 4 6
en notant que tous les termes sont positifs. Le minimum sera donc atteint lorsque l’in-
tégrant est plus petite ou égale à zéro. Ainsi, R1 sera telle que C ( R1 | Π2 ) p2 f 2 ( x ) −
C ( R2 | Π1 ) p1 f 1 ( x ) ≤ 0, c’est-à-dire tel que
f1 (x) C ( R1 | Π2 ) p2
≥ .
f2 (x) C ( R2 | Π1 ) p1
74
1. Minimiser la probabilité totale de mauvaise classification (revient au cas précédent
avec C ( R1 | Π2 ) = C ( R2 | Π1 ).
2. Allouer une nouvelle observation X0 à la population avec la plus grande probabilité
a posteriori
P ( X0 | Π 1 ) p 1 · p1 f 1 ( x0 )
P ( Π 1 | X0 ) = ∼
P ( X0 | Π 1 ) p 1 + P ( X0 | Π 2 ) p 2 p1 f 1 ( x0 ) + p2 f 2 ( x0 )
P ( X0 | Π 2 ) p 1 · p2 f 2 ( x0 )
P ( Π 2 | X0 ) = ∼
P ( X0 | Π 1 ) p 1 + P ( X0 | Π 2 ) p 2 p1 f 1 ( x0 ) + p2 f 2 ( x0 )
1
f i ( x) = (2π )− p/2 |Σ|−1/2 exp − ( x − µi )> Σ−1 ( x − µi )
2
et donc
1 C ( R1 | Π2 ) p2
R1 : (µ1 − µ2 )> Σ−1 x − (µ1 − µ2 )> Σ−1 (µ1 + µ2 ) ≥ log
2 C ( R2 | Π1 ) p1
1 ( R1 | Π2 ) p2
C
R2 : (µ1 − µ2 )> Σ−1 x − (µ1 − µ2 )> Σ−1 (µ1 + µ2 ) < log
2 C ( R2 | Π1 ) p1
Dans ce premier cas, la discrimination est une droite formée par les points d’intersec-
tion des ellipses. En pratique, on utilisera les estimateurs usuels et on remplacera µ1
par x̄1 , µ2 par x̄2 et Σ par S p . La fonction de classification/discriminant d’Anderson
sera donnée par
1 C ( R1 | Π2 ) p2
1 1
( x̄1 − x̄2 )> S−
p x− ( x̄ − x̄2 )> S−
p ( x̄1 + x̄2 ) ≥ log
2 1 C ( R2 | Π1 ) p1
2. Le cas où Σ1 6= Σ2 mène à
1 C ( R1 | Π2 ) p2
R1 : − x> (Σ1−1 − Σ2−1 ) x + (µ1> Σ1−1 − µ2> Σ2−1 ) x − C ≥ log
2 C ( R2 | Π1 ) p1
75
où C est donné par
1 | Σ | 1 > −1
log 1 +
C= µ1 Σ1 µ1 − µ2> Σ2−1 µ2
2 | Σ2 | 2
La structure de la courbe dépend de Σ1−1 − Σ2−1 , qui peut être une parabole ou une
ellipse, mais peut ne pas être définie positive.
1 1
− log (|Si |) − ( x − x̄i )> Si−1 ( x − x̄i )> + log( pi ).
2 2
est le plus grand. Si on fait en plus l’hypothèse que les Σi sont égaux, x est alloué à la
population Πk pour laquelle
1 1
− ( x − x̄i )> S− >
p ( x − x̄i ) + log( pi )
2
est le plus grand. La quantité qui apparaît plus haut n’est rien d’autre que la distance
de Mahalanobis Di2 vue précédemment.
( a > δ )2
max = δ> Σ−1 δ.
a a> Σa
76
avec égalité si a = kΣ−1 δ. Le maximum vaut donc δ> Σ−1 δ (d’où l’égalité) et il est
atteint en prenant a = Σ−1 δ. La combinaison linéaire y = (µ1 − µ2 )> Σ−1 x est appelée
fonction discriminante de Fisher.
1 1
m= (µ1Y + µ2Y ) = (µ1 − µ2 )> Σ−1 (µ1 + µ2 )
2 2
et soit x à allouer à
avec en pratique x̄1 , x̄2 et S p = ((n1 − 1)S1 + (n2 − 1)S2 )/(n1 + n2 − 2).
0.2
0.0
-0.2
-0.4
x1 = log(activité FAH)
77
4
2
0
y
-2
-4
-3 -2 -1 0 1 2 3 4
En projetant dans une direction, on obtient le même critère dans le cas de lois multi-
normales en dimension deux. Le résultat diffère dans le cas général, comme l’illustre la
Figure 13.
g
1
µ̄ :=
g ∑ µj
j =1
et
g
B= ∑ (µ j − µ̄)(µ j − µ̄)> ,
j =1
>
g 2 g
∑ j=1 µ jY − µ̄Y a> ∑ j=1 µ j − µ̄ µ j − µ̄ a a> Ba
= = .
σY2 a> Σa a> Σa
78
Maximisons a> Ba sujet à la contrainte a> Σa = 1, avec Lagrange, soit
L = a> Ba − λ a> Σa − 1
et donc
∂L
= 2Ba − 2λΣa = 0,
∂a
qui donne Ba = λΣa ou Σ−1 Ba = λa. On retombe sur un problème de valeurs propres–
vecteurs propres. La maximisation successive (avec orthonormalité par rapport à Σ) de
cette expression est donnée par les vecteurs propres de Σ−1 B et est atteinte pour les
min( p, g − 1) vecteurspropres correspondants
(car rang( B) = g − 1). On vérifie que
Var ai> X = 1 et Cov ai> X, a> .
j X = δij
En pratique, on calcule les valeurs propres et les vecteurs propres de Σ−1/2 BΣ−1/2 ,
puisque comme lors de l’analyse canonique, la matrice de départ n’est pas symétrique.
Si λi est valeur propre de Σ−1/2 BΣ−1/2 pour i = 1, . . . , k = min( g − 1, p) et ei est
vecteur propre de Σ−1/2 BΣ−1/2 , alors ai = Σ−1/2 ei et de ce fait ai> Σ1/2 Σ1/2 a j = δij .
∑ i ( n i − 1) S i Wc
Sp = =
∑i i ( n − 1 ) ∑i i − g
n
avec comme à l’accoutumée
g
∑ j=1 n j X̄ j
X̄ = g
∑ j =1 n j
>
∑ nj
b=
B X̄ j − X̄ X̄ j − X̄
j
g
c=
W ∑ ( n j − 1) S j .
j =1
La fonction Y i = b ai> x, où b
ai est le vecteur propre correspondant à la valeur propre b
λi
−1 b − 1 > e
de S p B ∝ W B avec b
c b a S pb
i a j = δij , est appelé i fonction discriminante.
Allocation
79
On peut aussi se résoudre à n’utiliser que r < k fonctions discriminantes, comme lors
d’une ACP.
0m g 0m g ··· 1m g
∗ ∗ −1 ∗
b et nS∗ S22
tel que yij = 1 si xi appartient au groupe j, et nS11 =T 12 S21 = B.b Aussi
−1 −1
T
b B b a valeur propre γbi , W
c B b a valeur propre b
λi et ces dernières sont reliées par la
relation λi = γ
b bi /(1 − γbi )
2. L’analyse discriminante est très fortement liée au test MANOVA (moyennes diffé-
rentes pour faire une discrimination).
3. Il existe une technique de régression pas à pas permettant de faire une analyse
discriminante.
1
h( x) = a> x− ( µ + µ2 )
2 1
avec
1
P ( R1 | Π2 ) = P ( R2 | Π1 ) = Φ − ∆
2
où
∆ 2 = ( µ 1 − µ 2 ) > Σ −1 ( µ 1 − µ 2 )
80
estimé empirique P b = nij /n j . Même réserves pour cette méthode.
3. Validation croisée :
Effectuer la discrimination sur X −r , en ôtant l’observation numéro r, et calculer les
(r ) (r ) (r )
régions R1 , . . . , R g . Observer si l’observation r ∈ R1 . Soit ni1 le nombre d’indi-
(r )
vidus de Π1 pour lesquels xr ∈ Ri , i 6= 1, autrement dit sont mal classés. Alors
∗ = n∗ /n , pour i 6 = 1. Faire la même chose pour les échantillons 2, . . . , g. Cette
pi1 i1 1
méthode est meilleure au niveau de l’évaluation, mais est intensive en calculs.
p
f Y (y; p) = exp y log + log(1 − p)
1− p
= exp yθ + log(1 + eθ ) .
g(E (Y | X )) = η = α + X β, η∈R
pour une fonction lien g adéquate. On peut choisir par exemple la fonction lien na-
turelle g(·) = logit(·), qui correspond à p = expit(η ). Le modèle binomial résultant
satisfait les contraintes inhérente à l’hypothèse distributionnelle, dans le cas présent
E (Y | X ) ∈ (0, 1), tout en relâchant l’hypothèse de symétrie des résidus inhérente au
modèle linéaire.
P ( X | G1 ) P ( G1 )
P ( G1 | X ) =
P ( X | G1 ) P ( G1 ) + P ( X | G2 ) P ( G2 )
P ( X | G2 ) P ( G2 ) −1
= 1+
P ( X | G1 ) P ( G1 )
81
X | G2 ∼ Nd (µ2 , Σ), on peut exprimer en forme close le maximum a posteriori, soit
P ( G1 | X ) = exp α + β> X P ( G2 | X )
−1
P ( G2 | X ) = 1 + exp α + β> X
avec
β = Σ −1 ( µ 1 − µ 2 )
1 P ( G1 )
α = − (µ1 + µ2 )> Σ−1 (µ1 − µ2 ) + log
2 1 − P ( G1 )
Cette formulation nous force à imposer une hypothèse distributionnelle sur les X. La
régression logistique (avec η = logit( p) est plus parcimonieuse puisque l’on modélise
directement P Gj | X i et que seuls les coefficients de régressions sont spécifiés (la
0.4
0.0
-3 -2 -1 0 1 2 3
P ( Gk | X )
log = αk + β>
k X, k = 1, . . . , K − 1
P ( GK | X )
82
servation i appartienne au groupement j est alors donnée par
exp(α j + β>
j Xi) exp(α j + β>
j Xi)
P Gj | X i = .
=
∑kK=1 exp(αk + βk X i )
>
1 + ∑kK=−11 exp(αk + β>
k Xi)
Un arbre de décision est une séquence de partitions binaires récursives qui mène au
partitionnement des données. On parle d’arbre de régression si la variable dépendante
est continue, et d’arbre de classification dans le cas de données catégoriques.
Arbres de classification
Arbre
Arbredede
Arbre de
classification
classification
classification desdes
des
iris iris
iris Classification des iris
7
versicolor
6
Longueur des pétales
long. pétales<2.45
≥2.45
4
larg. pétales<1.75
virginica
3
≥1.75
50 0 0 0 49 5 0 1 45
setosa
1
F IGURE 15 – Arbre de classification pour les données iris (gauche) et régions corres-
pondantes (droite).
83
à τm en deux hyperplans définis par
( g) (d)
Rm ( jm , cm ) = { X | X jm ≤ cm , X ∈ Rm }, Rm ( jm , cm ) = { X | X jm > cm , X ∈ Rm },
1
pbmk =
Nm ∑ I ( yi = k )
xi ∈ R m
L’erreur de classification est moins sensible aux changements dans les probabilités d’as-
signation aux noeuds et est moins utilisée pour guider la croissance de l’arbre.
L’algorithme procède comme suit : à partir d’une première division, on traverse l’arbre
en séparant chaque noeud terminal intermédiaire jusqu’à saturer l’arbre, en divisant
une branche seulement si l’effectif de cette dernière est supérieure à un certain seuil
nmin .
84
dénotée | T0 |. Le choix optimal du sous-arbre de classification T ⊂ T0 est déterminé à
l’aide d’une critère prenant en compte la complexité du modèle et la qualité des pré-
dictions.
|T |
Cα ( T ) := ∑ Nl Ql (T ) + α|T |,
l =1
Les arbres de décisions sont simplistes, mais sont à la base de plusieurs techniques mo-
dernes d’apprentissage statistique, comme les forêts aléatoires, les réseaux de neurones
et les machines à vecteurs de support.
85
Chapitre 8
Copules
Dans ce dernier chapitre, nous aborderons la notion de copule, qui permet de regrouper
sous un même étendard les distributions multivariées.
1. comment obtenir des fonctions de répartition multivariées valides avec des marges
arbitraires ?
2. comment comparer des données dont les marges diffèrent ?
Lemme 8.1
Soit F une fonction de répartition univariée et sa fonction de quantile,
Alors
Preuve
F ( F ← (u)) = lim F ( x n ).
xn → F ← (u)
xn > F ← (u)
Maintenant xn > F ← (u), donc il existe xn∗ ∈ A := { x : F ( x ) ≥ u} tel que xn∗ < xn .
86
F est non-décroissante, donc u ≤ F ( xn∗ ) ≤ F ( xn ) et de ce fait xn ∈ A, c’est-à-dire
F ( xn ) ≥ u. Ainsi F ◦ F ← (u) = limn→∞ F ( xn ) ≥ u. Si F est continue,
et donc yn ∈
/ A implique que F (yn ) < u.
G (Y ) ∼ U (0, 1)
P ( G ← (U ) ≤ x ) = G ( x )
F ← (u) ≤ x ⇔ u ≤ F(x)
F ( x ) = P ( X ≤ x ) = P ( F ← (U ) ≤ x ) = P (U ≤ F ( x )) = F ( x )
P ( F ← (U ) ≤ x ) = P (U ≤ F ( x )) = F ( x ), x ∈ R.
87
Exemple 8.1 (Génération de variables exponentielles)
Si U ∼ U (0, 1), alors − log(U ) ∼ E (1).
Si les distributions marginales sont inconnues, elles devront être estimées. On peut
utiliser un estimateur nonparamétrique de F : la fonction de répartition empirique, Fen .
Ce choix est motivé par le résultat suivant :
Théorème 8.4 (Glivenko–Cantelli)
Soit X ∼ F et Fen ( x ) := n−1 ∑in=1 I ( Xi ≤ x )
a.s.
k Fen ( x ) − F ( x )k∞ −→ 0
Il n’est pas difficile de dériver la normalité asymptotique de Fen puisque les indicateurs
√ d
sont des variables Bernoulli et que donc n( Fen ( x ) − F ( x )) −
→ N (0, F ( x )(1 − F ( x )))
par application du théorème central limite.
Pour transformer non-paramétriquement les données à l’échelle (pseudo)-uniforme,
on calcule les rangs des observations, dénotés Ri que l’on renormalise par un facteur
(n + 1)−1 . Les données ainsi obtenues sont dénommées pseudo-observations. Le choix
de (n + 1)−1 plutôt que n−1 évite les problèmes à la bordure et n’a pas d’effet asymp-
totiquement. 9 On aura ainsi
e i = rang( Xi ) = Ri .
U
n+1 n+1
La transformée intégrale de probabilité sert dans les diagrammes P–P (voir défini-
tion 2.19) pour vérifier l’adéquation d’une hypothèse paramétrique. La fonction de
quantile est utilisée dans les diagrammes Q–Q.
Copule
Une copule lie une fonction de répartition et des lois marginales. Formellement, c’est
une fonction de répartition multivariée dont les marges sont uniformes.
Définition 8.5 (Copule)
Une copule est une application C : [0, 1]d → [0, 1] satisfaisant
1. C a des marges uniformes : C (u) = ui si u j = 1 ∀ j 6= i et ui ∈ [0, 1].
2. C (u) = 0 si ui = 0 pour au moins un i ;
3. C est ∆-monotone, c’est-à-dire est non-décroissante en toute composante,
1 1
∑dj=1 i j
P (U ∈ ( a, b]) = ∆(a,b] C := ∑ ··· ∑ (−1) C (v1i1 , . . . , vdid ) ≥ 0
i1 =0 i d =0
88
La condition 3. équivaut à nécessiter que le volume entre deux points de Rd soit non-
négatif (voir définition 1.2). Si la densité de C (u) existe, cette condition revient à re-
quérir que c(u) ≥ 0 pour tout u ∈ (0, 1)d .
pendance parfaite, soit la fonction de répartition de (U, . . . , U ). Les deux copules sont
singulières. Un autre cas intéressant est celui de l’indépendance : les composantes d’un
vecteur aléatoire X sont mutuellement indépendantes (Xi ⊥ ⊥ X j pour tout i 6= j) si et
seulement si
d
Π (u) := C (u1 , . . . , ud ) = ∏ ui , u ∈ [0, 1]d
i =1
1 1 1
Π(u1 , u2 )
1.0
1.0
0.8
0.8
0.8
0.6
0.6
0.6
U2
U2
U2
0.4
0.4
0.4
0.2
0.2
0.2
0.0
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
U1 U1 U1
89
Ces copules sont à la fois absolument continues et dotées d’une singularité. Puisque
∂2 u − α1 , α
si u1 1 > u2α2
1
C ( u1 , u2 ; α1 , α2 ) =
∂u1 ∂u2 u − α2 , α
si u1 1 < u2α2 ;
2
la masse de la composante singulière est concentrée sur la courbe u1 1 = u2α2 ∈ [0, 1]2 .
α
1.0
0.8
0.6
u2
1
0.4
c(u1 , u2 )
0.2
0.5
1
0.0
0.8
0
0.0 0.2 0.4 0.6 0.8 1.0 1 0.6
0.8 0.4
0.6
u1 0.4 u1
0.2 0.2
u2 0 0
Pourquoi restreindre son attention aux distributions multivariées dont les marges sont
uniformes ? Le résultat suivant démontre qu’il existe une relation entre les fonctions de
répartitions F de marges F1 , . . . , Fd et les copules.
F ( x1 , . . . , xd ) = C ( F1 ( x1 ), . . . , Fd ( xd )) (8.10)
Si les distributions marginales sont continues, alors C est unique. Autrement, C est
uniquement définie sur Im( F1 ) × · · · × Im( Fd ).
90
Preuve Nous supposerons que les fonctions F1 , . . . , Fd sont continues. Le cas général
est traité dans Nelsen (2006).
= P Uj ≤ Fj ( x j ) ∀ j
= C ( F1 ( x1 ), . . . , Fd ( xd ))
= P Uj ≤ Fj ( x j ) ∀ j
= C ( F1 ( x1 ), . . . , Fd ( xd )).
F telle que définie par équation (8.10) est donc la fonction de répartition de X et ses
marges sont F1 , . . . , Fd par la transformation des quantiles.
{0, 1/2, 1} pour j = 1, 2. Toute copule telle que C (1/2, 1/2) = 1/4 satisfait ce critère
(par exemple la copule d’indépendance C (u1 , u2 ) = u1 u2 ou bien encore la copule
diagonale C (u1 , u2 ) = min{u1 , u2 , (u21 + u22 )/2}.
Une propriété fondamentale des copules est leur invariance à des transformations stric-
tement croissantes des distributions marginales.
Proposition 8.7
Soit ( X1 , . . . , Xd ) un vecteur aléatoire dont les marges sont continues et une collec-
tion {φi }id=1 de fonctions strictement croissantes sur Im( Xi ), respectivement. Alors
(φ1 ( X1 ), . . . , φd ( Xd )) et ( X1 , . . . , Xd ) ont la même copule C.
91
(puisque X j a par hypothèse une fonction de répartition continue, φj ( X j ) change sur
un ensemble de mesure nulle). Puisque φj est croissant sur Im( X j ) et que X j a une
distribution continue, φj ( X j ) a également une distribution continue et
Fφj (X j ) ( x ) = P φj ( X j ) ≤ x
= P Tj ( X j ) < x = P X j < Tj← ( x )
= P X j ≤ φ← j (x)
= Fj (φ←
j ( x ))
Les implications du théorème de Sklar sont nombreuses. D’une part, il permet d’étu-
dier la dépendance en séparant les effets marginaux de la structure conjointe. En effet,
D’autre part, le résultat bien que général n’est pas constructif. Mikosch (2006) articule
plusieurs critiques, dont nous retenons un échantillon sélectif :
• la classe des copules est trop large pour être utile en pratique.
• le choix d’une copule en est souvent un de convenance mathématique.
• les copules ne s’insèrent pas dans le cadre existant des processus stochastiques : ce
sont des modèles strictement statiques.
C ( u1 , u2 ) = 1 − (1 − u1 ) − (1 − u d ) + C (1 − u1 , 1 − u2 )
= C (1 − u1 , 1 − u2 ) + u1 + u2 − 1.
92
1.0
3.0
A
C
2.5
0.8
2.0
0.6
X2
X2
1.5
0.4
1.0
0.2
0.5
B
0.0
0.0
0.0 0.5 1.0 1.5 2.0 0.0 0.2 0.4 0.6 0.8 1.0
X1 X1
d
( X1 , . . . , X d ) = ( X π ( 1 ) , . . . X π ( d ) )
L’intervalle borné [0, 1]d est utile pour la visualisation et la distribution uniforme facilite
l’obtention des formules, puisque la forme de la densité est extrêmement simple. En
93
utilisant la transformation intégrale de probabilité et la fonction de quantiles, il est en
revanche possible d’obtenir des distributions avec des marges autres que uniformes.
Une telle construction est appelée méta copule..
3
3
2
2
1
1
0
0
-1
-1
-1
-2
-2
-2
-3
-3
-3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
3
3
2
2
1
1
0
0
-1
-1
-1
-2
-2
-2
-3
-3
-3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
3
3
2
2
1
1
0
0
-1
-1
-1
-2
-2
-2
-3
-3
-3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
F IGURE 19 – Méta copules (via Mvdc) avec lois marginales N (0, 1). De gauche à droite :
haut en bas : Plackett, Gaussienne, Student–t ; Gumbel–Hougaard, Clayton, Frank ; Ali-
Mikhail-Haq, Joe, Farlie-Gumbel-Morgenstern. Modèles (sauf FGM) calibrés pour que
τ ≈ 1/3.
94
8.3 Mesure de la dépendance
Bornes de Fréchet–Hoeffding
Les distributions multivariées ont des bornes naturels en terme de dépendance. Dans
le cas bivarié, ces deux bornes correspondent à des copules et sont strictes. Dans le
cas d ≥ 3, la borne inférieure ne décrit plus un modèle valide. Les bornes de Fréchet–
Hoeffding, de la série 12, peuvent s’écrire pour toute copule C (u1 , . . . , ud )
d
( )
max ∑ ui + 1 − d, 0 ≤ C (u) ≤ min {u1 , . . . , ud } =: M(u)
i =1
Mesures d’association
P5. r = 0 si et seulement si X ⊥
⊥Y
Notez qu’il n’existe pas de mesure satisfaisant P4 et P5 simultanément. Cela est dû à
l’existence de distributions sphériques. On peut en revanche exiger que X ⊥ ⊥ Y im-
plique que r = 0. Ces conditions, ré-énoncées dans un ouvrage non-technique, suivent
les grandes lignes de Schweizer & Wolff (1981), qui proposent de baser une mesure
d’association sur la copule. Cela permet de respecter P4 (contrairement au ρ de Pear-
son) et l’estimé résultant est toujours bien défini puisque l’ensemble [0, 1] est borné (par
95
contraste, ρ nécessite des variances finies pour les lois marginales). Une ultime condi-
tion souhaitable, hormis celle qui ont déjà été énoncées, provient de Scarsini (1984) et
veut que
d
P6. si ( Xn , Yn ) −
→ ( X, Y ) alors r ( Xn , Yn ) → r ( X, Y )
Mesure de dépendance linéaire la plus connue, elle est adaptée aux lois elliptiques.
Facile à calculer, elle est directement interprétable pour la loi multinormale, pour la-
√
quelle ρ = σ12 / σ11 σ22 . Pour une distribution arbitraire, les propriétés suivantes sont
valides :
• les corrélations linéaires atteignables forment un ensemble fermé [ρmin , ρmax ] in-
cluant 0.
• la corrélation minimale (maximale) est atteinte dans le cas de variables antimono-
tones (comonotones).
d
• Cor ( X, Y ) = ±1 si et seulement si Y = ± aX + b pour a > 0, b ∈ R.
• X ⊥ ⊥ Y implique que Cor ( X, Y ) = 0. L’inverse est vrai si la loi est multinormale
(faux en général)
Les quelques exemples suivants servent à démolir quelques mythes entourant la cor-
rélation linéaire.
Exemple 8.6 (Lois de Pareto)
Concernant les derniers points, si X, Y proviennent d’une loi Pareto de paramètre 3 et
sont indépendantes, alors ρ( X, Y ) = 0, mais ρ( X 2 , Y ) n’existe pas.
Exemple 8.7 (Lois lognormales)
Reprenons l’exemple des bornes de Fréchet de la série 12, cette fois en fonction de
lois marginales Xi ∼ LN (0, σi2 ), i ∈ {1, 2}. Nous avons déjà démontré que les bornes
±1 ne sont pas toujours atteignables, comme les graphiques suivants l’illustrent. Si
σ12 = 1, σ22 = 25 alors ρ ∈ [−0.000002824, 0.000419091] !
1
C (u1 , u2 ) = u1 u2 1 − 2θ u1 − (u1 − 1)(u2 − 1)
2
On peut montrer aisément que les marges sont uniformes et que ρ = 0 pour tout
θ ∈ [−1, 1], bien que la copule ne soit pas l’indépendance. Plus généralement : toute
96
0 1
ρmax
ρmin
−0.5 0.5
−1 0
4 4
4 4
2 2 2 2
σ2 σ1 σ2 σ1
0 0
$ de Spearman
$( X1 , X2 ) = ρ( F1 ( X1 ), F2 ( X2 )).
n
12 1 1
$ ( Xi , X j ) =
n ( n2 − 1) ∑ rang Xt,i − (n + 1) rang Xt,j − (n + 1)
2 2
.
t =1
97
τ de Kendall
C’est une mesure nonparamétrique basée sur les rangs, qui mesure la concordance. Les
paires ( Xt1 , Xt2 ) et ( Xs1 , Xs2 ) sont concordantes si ( Xt1 − Xs1 )( Xt2 − Xs2 ) > 0.
1.0
( Xt1 , Xt2 )
0.8
0.8
( Xt1 , Xt2 )
0.6
0.6
( Xs1 , Xs2 )
0.4
0.4
( Xs1 , Xs2 )
0.2
0.2
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.0 0.2 0.4 0.6 0.8 1.0
Le τ de Kendall et le $ de Spearman sont basés sur les rangs et satisfont P1, P2 et P4.
En revanche, leur dérivation peut être ardue.
Note
Il est impossible de résumer la dépendance et de condenser toute l’information dans
un scalaire : les méta copules de la Figure 19 ont toutes le même τ de Kendall (à l’ex-
ception de la copule de FGM dont la borne supérieure est plus faible que τ = 1/3). La
plupart des mesures ne capturent pas les relations nonlinéaires complexes, comme un
nuage de point en étoile tel qu’illustré dans la figure 21. C’est pourquoi la représenta-
tion graphique des données demeure cruciale.
98
Coefficient de dépendance de queue
Nous revoyons à tour de rôle les différentes classes de modèles et les propriétés défi-
nissant ces dernières.
Bien connues, ces copules sont dites induites, c’est-à-dire que leur construction découle
du théorème de Sklar et des modèles définis précédemment (définition 2.17). Quelques
métacopules gaussiennes (modèles dont les marginales sont transformées d’uniformes
à normales) sont présentées en figure 21.
Les copules elliptiques sont populaires pour plusieurs raisons. D’abord, leur densité est
explicite, bien que la copule soit implicite (sous forme d’intégrale, comme la fonction
de répartition de la loi normale). Par exemple, la fonction de répartition de la copule
99
Normale Student-t, ν = 1 Student-t, ν = 3
3
3
2
2
1
1
0
0
-1
-1
-1
-2
-2
-2
-3
-3
-3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
F IGURE 21 – Contour de la densité des métacopules pour des lois elliptiques (marges
N (0, 1)).
gaussienne pour d = 2
Z Φ −1 ( u ) Z Φ −1 ( u 2 )
1 x2 + y2 − 2ρxy
1
CN (u; ρ) = p exp − dy dx
1 − ρ2 −∞ −∞ 2(1 − ρ2 )
1 1 >
−1
f ℘(Σ) = g − x (℘(Σ)) x .
|℘(Σ)|1/2 2
100
pour la copule de Student-t,
s
√ 1 − ρij
λl = λu = 2tν+1 ν + 1
1 + ρij
où ρij est l’élément hors-diagonale de ℘(Σ) (voir Demarta & McNeil (2005)).
1.0
1.0
1.0
0.8
0.8
0.8
0.6
0.6
0.6
U2
U2
U2
0.4
0.4
0.4
0.2
0.2
0.2
0.0
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
U1 U1 U1
2
τ= arcsin(ρ)
π
6 ρ
$ = arcsin
π 2
101
1.0
ρ
τ
$
0.5
0.0
r
-0.5
-1.0
Le (pseudo)-inverse ψ← : [0, 1] → [0, ∞] est donné par l’inverse de ψ sur (0, 1] et par
Les copules archimédiennes sont très populaires, notamment parce qu’elles sont ap-
parues très tôt dans la littérature. Elles ont souvent un ou deux paramètres de dépen-
dance, ce qui facilite l’estimation mais limite leur applicabilité. De nombreuses pro-
priétés extrémales et de dépendance sont disponibles à partir du générateur ψ. Elles
sont échangeables (symétriques). Certaines familles couramment utilisées incluent les
copules de Gumbel–Hougaard, Joe, Clayton, Ali–Mikhail–Haq et Frank. Pour les cinq
familles, les densités sont disponibles sous forme fermée et l’erreur moyenne quadra-
tique est ∝ 1/nd si les marges sont connues, voir l’article de Höfert, Machler et McNeil
(2012) pour des indications à ce sujet et les difficultés numériques sous-jacentes. Le
modèle est en revanche difficilement réaliste en dimension élevée, mais des modèles
de copules imbriquées ont commencé à émerger dans la littérature.
Une formule pour le τ de Kendall est disponible, dérivée par Genest & Rivest (1993),
102
est
Z 1
ψ← (t)
τ = 1+4 dt
0 (ψ← (t))0
ψ0 (2q)
λu = 2 − 2 lim
q →0+ ψ0 (q)
ψ0 (2q)
λl = 2 lim
q→∞ ψ0 (q)
Famille ΘC ψ(t)
A [0, 1) (1 − θ ) / ( e t − θ )
C (0, ∞) (1 + θt)−1/θ
F (0, ∞) −log(1 − (1 − −θ −t
− 1/θ
e )e )/θ
G [1, ∞) exp − t
J [1, ∞) 1 − (1 − e−t )1/θ
Famille τ Im(τ) λL λU
1
A 1 − [2( θ + (1 − θ )2 log(1 − θ )]/3θ 2 (0, 3) 0 0
C θ/(θ + 2) (0,1) 2−1/θ 0
Rθ
F 1 − 4 0 t/[θ (et − 1)] dt − 1 /θ (0,1) 0 0
103
2. Échantillonner X, où X j ∼ U (0, 1) pour j = 1, . . . , d.
3. Retourner Ui = ψ(− log( X j )/X0 ) pour j = 1, . . . , d.
log(u2 )
C A (u1 , u2 ) = exp log(u1 u2 )A
log(u1 u2 )
où la fonction de Pickands A : [0, 1] → [1/2, 1] est une application convexe telle que
Comme leur nom l’indique, les copules de valeurs extrêmes ont des connections avec
les distributions max-stables, auxquelles elles sont complètement équivalentes.
Cas limites :
1/θ t−θ − 1
ψ(t) = (1 + θt)−
+ , ψ← (t) =
θ
strict si θ > 0, peut être vu comme transformée de Laplace d’une loi Γ(1/θ, 1/θ ). Le τ
de Kendall est τCl = θ/(θ + 2) et est borné entre −1/(2d − 3) et 1. D’autre propriétés
sont dérivées dans la série 13.
104
Note
La paramétrisation de la copule de Clayton présenté ci-dessus diffère de celle de R, qui
utilise plutôt ψ(t) = (1 + t)−1/θ comme générateur.
1.0
0.8
0.8
0.6
0.6
U2
U2
0.4
0.4
0.2
0.2
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
U1 U1
1.0
0.8
0.8
0.6
0.6
U2
U2
0.4
0.4
0.2
0.2
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
U1 U1
Inférence nonparamétrique
105
thèses de régularité, mais nécessite n grand. La copule empirique est néanmoins au
coeur de la plupart des tests d’indépendance et d’adéquation.
Cette copule est l’équivalent de la fonction empirique en dimension d avec des marges
uniformes.
Inférence paramétrique
d
f ( x; θ0 ) = c( F1 ( x1 ; θ0,1 , . . . Fd ( xd ; θ0,d ); θ0,C ) ∏ f j ( x j ; θ0,j ),
j =1
où
∂d
c(u) = C ( u1 , . . . , u d ), u ∈ [0, 1]d
∂u1 · · · ∂ud
n
`(θ; X) = ∑ `(θ; X i )
i =1
n n d
= ∑ `C (θC ; F1 (Xi1 ; θ1 ), . . . , Fd (Xid ; θd )) + ∑ ∑ ` j (θj ; Xij ),
i =1 i =1 j =1
où
106
L’estimateur du maximum de vraisemblance est donné par
Pour cette raison, la plupart des praticiens procèdent en deux étapes : estimation des
lois marginales d’abord, puis des paramètres de la copule.
Joe et Xu (1996) ont proposé une approche pour l’inférence en deux étapes.
IPM
θC = arg max `(θC , b
b θ1 , . . . , b
θd ; X).
θC ∈ΘC
IPM
θC , b
Les fonctions d’inférence pour les estimateurs sont donc (b θ1 , . . . , b
θd ).
Inférence semiparamétrique
n e Rij
U
e ij = Fn,j ( Xij ) =
n+1 n+1
107
2. Estimer b
θ0,C par
n n
EMPV
θC
b = arg max ∑ `C (θC ; U e id ) = arg max ∑ log c(U
e i1 , . . . , U e i ; θC ).
θC ∈ΘC i =1 θC ∈ΘC i =1
La dernière méthode semi-paramétrique est basée sur le méthode des moments. Dans
le cas où θ0,C est unidimensionnel, il est possible d’obtenir pour plusieurs familles de
copules des formules explicites pour le τ de Kendall ou le ρ de Spearman. On peut
alors procéder à l’inversion de $ ou de τ : si la copule est paramétrisée par θ0,C , cela
revient à estimer θbn := τ −1 (τn ). τn est une U-statistique et de ce fait il est possible de
prouver la normalité asymptotique de cette méthode basée sur la méthode δ.
Validation de modèles
Une fois l’estimation complétée, une question cruciale demeure la validation du mo-
dèle. À ce sujet, quelques tests d’adéquations, c’est-à-dire le test de l’hypothèse H0 :
C ∈ Cθ , sont disponibles : voir Genest & al (2009) et la revue de littérature de l’ar-
ticle, de même que Kojadinovic & Yan (2011). Ces tests sont basés sur une technique
d’auto-amorçage (bootstrap) paramétrique ou multiplicatif, et parmi les hypothèses
nécessaires à leur application figurent notamment l’hypothèse d’unicité des rangs (ab-
sence de doublons).
Remarque
L’adéquation ne doit pas être confondue avec la sélection de modèles. Le praticien doit
utiliser un modèle dont les propriétés empiriques ressemblent à celle du modèle choisi.
Peu d’articles se penchent sur la sélection, mais Huard, Évin & Favre (2006) proposent
une alternative bayésienne.
108
Index
ACP, 36 corrélation, 5
composante principale, 36 Cramér-Wold, 10
test d’isotropie partielle, 39
algorithme espérance-maximisation, 63 dépendance de queue, 99
analyse canonique, 49 dendrogramme, 57
coefficient de corrélation canonique, diagramme
50 P–P, 17
variables canoniques, 50 Q–Q, 17
analyse des correspondances, 53 discrimination
analyse discriminante, voir discrimination fonction de Fisher, 77
approximation linéaire, 76
de Bartlett, 30 logistique, 81
de Box, 29 méthode de Fisher, 78
arbre qualité d’une, 80
classification, 83 dissimilarité, 57
decision, 83
EM
élagage, 83
algorithme, 66
impureté de noeud, 84
données complètes, 65
bornes de Fréchet–Hoeffding, 95 données manquantes, 66
information observée, 70
classification, 73 mélange fini, 69
CEMC, 73 variables latentes, 65
lois multinormales, 76 énergie
cluster, voir partitionnement de données test de normalité, 21
copule, 89
antimonotone, 89 fonction caractéristique, 9
archimédienne, 101 fonction discriminante, 79
Clayton, 104 formule de Lance et Williams, 59
comonotone, 89
Glivenko–Cantelli, 88
densité, 106
elliptique, 99 χ2
empirique, 106 test d’adéquation de, 18
gaussienne, 100 Kolmogorov-Smirnov
Gumbel–Hougaard, 104 test d’adéquation de, 19
indépendance, 89
inférence, 105 loi
Marshall–Olkin, 89 Hotelling, 15
méta, 94 multinormale, 8
de valeurs extrêmes, 104 normale, 8
109
Wilks, 29 silhouette, 61
Wishart, 13 similarité, 57
Sklar, théorème de, 90
Mahalanobis statistique de Box, 35
distance de, 20, 76
test de normalité, 20 τ de Kendall, 98
MANOVA, 30 théorème de Frobenius, 41
critères, 33 transformation des quantiles, 87
Mardia transformation linéaire, 6
test de normalité, 20 transformée intégrale de probabilité, 87
Marshall-Olkin, 104
matrice variance, 5
de poids, 46 conjointe, 31
de chargement, 45, 46 inter-groupe, 31
de scores, 45, 46 intra-groupe, 31
matrice de variance, 5
Wishart
méthodes hiérarchiques, 58
distribution, voir loi Wishart
barycentre, 58
propriétés, 13
distance complète, 58
distance moyenne, 58
distance unique, 58
médiane, 58
Ward, 59
moyenne, 4
multinomiale, 83
NIPALS, algorithme, 46
partitionnement de données, 57
pseudo-observations, 86
régression
lasso, 44
PLS, 45
ridge, 43
SCAD, 44
sur composantes principales, 45
régression logistique, 82
ρ de Pearson, 96
$ de Spearman, 97
Shapiro–Wilks
test d’adéquation de, 19
110