Introduction à l'Analyse en Composantes Principales
Introduction à l'Analyse en Composantes Principales
Prérequis :
— notions sur l’algèbre linéaire (matrices)
— statistique descriptive
Objectif :
— maitriser la technique de l’analyse en composante principale
1.1 Définition
L’Analyse en Composantes Principales (ACP) est une méthode descriptive qui a pour
objectif l’analyse de données qui ne comportent pas de structure préalable. Le but principale
est de résumer l’information contenue dans un tableau composé d’un nombre élevé de ligne et de
colonne.
C’est un outil important pour traiter les données quantitatives et aide à la synthèse de l’infor-
mation. Ce cours sur l’ACP se veut introductif, pour un besoin d’approfondissement, on peut se
servir des ouvrages cités à la bibliographie. Il est à souligner ici que cette technique d’analyse des
données repose sur une socle théorique lequel ne fait partie de ce cours.
1
Figure 1.1 –
Exemple 1. Les notes, obtenues par six étudiants dans trois unités d’enseignement, sont présentés
dans le tableau suivant
1.3 Principe
L’ACP permet de :
— résumer les informations contenus dans un tableau en n individus et p variable
— remplacer les p variables avec q nouvelles variables avec q < p.
D’un point de vue géométrique, le nuage de points présentant les données s’inscrit dans un espace
de p dimensions, parce que chaque individu est représenté par un point dans l’espace Rp .
Si la dimension p = 2 ou p = 3 il est facile de représenter le nuage de points, ce qui n’est plus
le cas lorsque p > 3.
Les questions que l’on se pose sur les individus et celles qu’on se pose sur les variables ne sont
pas de même nature.
2
A propos des individus, on essaie d’évaluer leur ressemblance : deux individus se ressemblent
d’autant qu’ils possèdent des valeurs proches pour l’ensemble des variables. En ACP, la ressem-
blance est assurée par la distance d (i, j) entre deux individus, elle est définie par
p
X
2
d (i, j) = (xik − xjk )2 .
k=1
A propos de deux variables, on essaie d’évaluer leur liaison. En ACP, la liaison entre deux variables
est mesurée par le coefficient de corrélation linéaire :
n
1 X xik − xk xih − xh
r (k, h) = .
n i=1 σk σh
L’objectif général de l’ACP est une étude exploratoire. Les deux voies principales de cette explo-
ration sont :
— Un bilan des ressemblance entre individus. On cherche alors à répondre à des questions
du type suivant : quels sont les individus qui se ressemblent ? Quels sont ceux qui diffèrent ?
— Un bilan de liaison entre variables. Les questions sont alors : quelles variables sont
corrélées entre elles ? Quelles sont celles qui s’opposent (corrélées négativement) ? Existe-t-
il des groupes de variables corrélées entre elle ?
1.4 Démarche
Soit n individus caractérisés par p variables. Ces données sont présentées dans un tableau appelé
Matrice des données de dimensions n × p. Les étapes pour déterminer la composante principale :
1. centrage et réduction des données,
2. déterminer les valeurs propres et les vecteurs propres sur la base de la matrice de corréla-
tion entre les variables,
3. déterminer les axes factoriels, sélectionner les composantes principales.
⇒Centrage et réduction des données
— Les p variables sont, lesquelles peuvent être de nature différente, seront centrées et réduites,
pour homogénéiser les unités,
— Les données sont centrées et réduites renvoie au fait que pour chaque variable la moyenne
est nulle et la variance est égale à 1.
— La matrice centrée réduite est obtenue par la formule
xij − xj
Xij = .
σj
— la matrice de variances covariances permet de mesurer la liaison linéaire qui peut exister
entre un couple de variables statistiques
V ar (X1) cov (X1, X2) cov (X1, X3)
cov (X2, X1) V ar (X2) cov (X1, X3)
cov (X3, X1) cov (X3, X2) V ar (X3)
Si cov (X 2 , X 1 ) = 0, les variables X 1 et X 2 sont indépendantes.
Si cov (X 1 , X 2 ) 6= 0,les variables X 1 et X 2 sont dépendantes (il existe une liaison linéaire
entre les variables).
3
— La matrice de variance covariances entre les individus, laquelle permet d’analyser leurs
relations bilatérales, est obtenue par la formule
1
A= XX t ,
n
(xij −xj )
CR : matrice Centrée Réduite ⇐⇒ CR : Xij = σj
CRt : matrice Centrée Réduite transposée.
Ck = XM µα
8. Représenter les individus dans l’espace réduit en utilisant les composantes principales.
9. Calculer les contributions aux axes.
(a) Part du point individu Xi prise en compte dans l’axe µα
2
(C i )
cos (θik ) = k .
2
||Xi ||
4
(b) Contribution de l’individu à l ;inertie de l’axe
2
pi (Cki )
Crα (i) = .
λk
1
2. Il y a équiprobabilité dans la population des étudiants, donc N = Diag 6
.
5
3. Matrice variance-covariance
1
A = X tX
6
2 −3 −5
−2 2 0
2 −2 0 4 2 −6
1 0 4 2
= −3 2 4 0 −2 −1
6 4 0 2
−5 0 2 2 0 1
2 −2 0
−6 −1 1
64 −8 −8
1
= −8 34 22 .
6
−8 22 34
64 34 34
On en déduit que V ar (X 1 ) = 6
,V ar (X 2 ) = 6
,V ar (X 3 ) = 6
.
4. La métrique est la matrice M = I3 car les notes des étudiants sont exprimés dans le même
système de représentation, on dit que les notes sont des données homogènes. Ces qui ne
serait pas cas si ces données avaient des unités différentes.
5. Recherche des axes principaux.
On a AM = AI3 = A. Soit λ ∈ R :
64 − λ −8 −8
1
dét (A − λI3 ) = −8 34 − λ 22
6
−8 22 34 − λ
= −36 (λ − 12) (λ − 8) (λ − 2) .
NB : calculer le déterminant par l’une des méthodes apprise au cours d’algèbre linéaire
D’où dét (A − λI3 ) = 0 implique λ1 = 12 , λ2 = 8 et λ3 = 2.
6. Qualité de la représentation (Cette étape permet de connaitre le nombre des axes factorielles
à retenir pour mener l’étude)
Valeurs propres Qi
12 55%
8 91% ≥ 80% Il ressort de ce tableaux que deux axes suffisent pour ré-
2 100%
Total=22
duire le tableau initiale.
7. Calcul des valeurs propres µ1 et µ2 .
Première composante
principale.
x
On pose µ∗1 y et AM µ∗1 = Aµ∗1 = 12µ∗1 .
z
64 −8 −8 x x
∗ ∗ 1
Aµ1 = 12µ1 ⇐⇒ −8 34 22 y = 12 y
6
−8 22 34 z z
6
D’où
−8x − 8y − 8z = 0
(1)
−8x − 38y − 22z = 0 (2)
−8x + 22y − 38z = 0 (3)
Deuxième composante
principale.
x
On pose µ∗2 y et AM µ∗2 = Aµ∗2 = 12µ∗2 .
z
64 −8 −8 x x
∗ ∗ 1
Aµ2 = 12µ2 ⇐⇒ −8 34 22 y =8 y
6
−8 22 34 z z
D’où
16x − 8y − 8z = 0
(a)
−8x − 14y − 22z = 0 (b)
−8x + 22y − 14z = 0 (c)
7
donnée en termes de 6 notes.
C1 = XM µ1 = XI3 µ1
= Xµ1
2 −3 −5
−2 2 0
−2
√1 1
0 4 2
= 4 0 2 6
2 −2 0 1
−6 −1 1
−2
1
√ 1
C1 = 6
−1
−1
2
C2 = XM µ2 = XI3 µ2
= Xµ2
2 −3 −5
−2 2 0
1
0 4 2 1
= √ 1
4 0 2 3 1
2 −2 0
−6 −1 1
−2
0
√ 2
C2 = 3
2
0
−2
9
−2
0
√ 2
1
−3 2 4 0 −2 −2
6
3
2
0
−2
cor (X 2 : N2 , C2 ) = √ 34 √ = 0, 68
6
8
−2
1
√ 1
1
−5 0 2 2 0 5
6
6
−1
−1
2
cor (X 3 : N3 , C1 ) = √ 34 √ = 1
2
6
8
−2
0
√ 2
1
−5 0 2 2 0 5
6
3
2
0
−2
cor (X 3 : N3 , C2 ) = √ 34 √ = 0, 63.
6
8
Exemple 3. On a relevé dans trois boutiques B1, B2 et B3 d’une ville, les prix affichés pour
quatre produits sous quatre marques différentes A,B, C et D.
10
B1 B2 B3
A 16 20 12
B 20 12 22
C 16 24 26
D 28 24 20
1 1
1. On veut faire lACP de ce tableau. Vérifier que u∗1 = √13 1 et u∗1 = √1 1 sont des
6
1 −2
valeurs propres de cette ACP.
2. Représenter le nuage de points produit dans le plan principal.
3. Représenter le produit supplémentaire E t = 16 8 12 .
4. Représenter graphiquement les variables B1, B2 et B3.
Solution.
1. u∗1 et µ∗2 sont des vecteurs propres de AM, lorsqu’il existe λ1 et λ2 des nombres réels tels
que AM µ∗1 = λ1 µ∗1 et AM µ∗2 = λ2 µ∗2 .
Tableau centré
Le centre de gravité est Gt = 20 20 20 , il faut le vérifier. la matrice des données est
16 20 12
20 12 22
R= 16 24 26 .
28 24 20
D’où la matrice centré est
−4 0 −8
0 −8 2
X= 64 4
.
6
8 4 0
Calcul de la matrice variance covariance
Il ya équiprobabilité des données de la distribution des boutiques par conséquent pi = 41 et
la métrique est M = I3 car les données sont homogènes.
24 4 2
1
A = X T X = 4 24 2
4
2 2 26
24 4 2 1 1
AM µ∗1 = λ1 µ∗1 équivaut à 4 24 2 √13 1 = λ1 √13 1 . D’où √303 = √λ13 , donc
2 2 26 1 1
λ1 = 30.
24 4 2 1 1
AM µ∗2 = λ2 µ∗2 équivaut à 4 24 2 √16 1 = λ1 √16 1 . D’où √246 = √λ16 ,
2 2 26 −2 −2
donc λ2 = 24.
Le plan principal : on cherche à projeter les données dans un espace à deux dimensions.
D’autre part T r (AM ) = 3i=1 λi = 24 + 24 + 26 = 74. Donc λ3 = 20.
P
11
2. Coordonnées de produits dans le plan principale. Au préalable, il faut s’assurer ici que les
vecteurs propres sont normés.
−4 0 −8 −4
1 √
C1 = XM µ∗1 =
0 −8 2 √1 1 = 3 −2
64 4 6 3 2
1
8 4 0 4
−4 0 −8 +2
0 −8 2 1 1 √ −2
C2 = XM µ∗2 = √ 1 = 6
64 4 6 6 −2
−2
8 4 0 +2
Trouver les coordonnées des points individus et représenter ces points sur le plan factorielle.
3. Coordonnées de E. Cette question permet de voir comment intégrer un individu supplémen-
taire dans l’étude, ce qui peut permettre de vérifier
un hypothèse.
1 1
∗
1 1
C1 = XM µ1 = 16 − 20 8 − 20 12 − 20 √3 1 = −4 8 − 12 −8 √3 1 =
1 1
√
−8 3
1 1
C2 = XM µ∗1 = 16 − 20 8 − 20 12 − 20 √16 1 = −4 8 − 12 −8 √16 1 =
−2 −2
0.
t
i (X i ) √M Cα
4. Représentation des variables à l’aide des coefficients de corrélations : cor (X , Cα ) = σ i λα .
X
−4
√ −2
1
−4 0 −4 −8
4
3
2
4
cor (X 1 : B1, C1 ) = √ √
24 30
= 0.39
+2
√ −2
1
−4 0 −4 −8
4
6
−2
+2
cor (X 1 : B1, C2 ) = √ √
24 24
= −0.41
−4
√ −2
1
0 −8 4 4
4
3
2
4
cor (X 1 : B2, C1 ) = √ √
24 30
= 0.64
+2
√ −2
1
0 −8 4 4
4
6
−2
+2
cor (X 2 : B2, C2 ) = √ √
24 24
= 0.41
12
−4
√ −2
1
−8 2 6 0
4
3
2
4
cor (X 1 : B3, C1 ) = √ √
26 30
= 0.62
+2
√ −2
1
0 −8 4 4
4
6
−2
+2
cor (X 2 : B3, C2 ) = √ √
26 24
= −0.78
Dessiner le cercle de corrélation.
La première composante C1 est positivement corrélée avec les trois variables, elle nous informe sur
la quantité moyenne des produits dans les boutiques. La deuxième composante C2 est positivement
corrélé avec B2 et négativement avec B1 et B3 ; C1 nous informe sur la différence entre les quantités
des produits dans les boutiques B1 et B3 et la boutique B2.
Exercice 4. Une étude consiste à déterminer les facteurs de la localisation internationale d’une
marque. Soit le tableau des données suivantes :
Taux de crois. Taux d’inflation
Nombre d’usine
éco. (%) (%)
Pays A 300 2 6
Pays B 450 2 4
Pays C 950 8 2
Pays D 700 7 5
13
Bibliographie
14