100% ont trouvé ce document utile (1 vote)
41 vues14 pages

Introduction à l'Analyse en Composantes Principales

Transféré par

onanaemma48
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
100% ont trouvé ce document utile (1 vote)
41 vues14 pages

Introduction à l'Analyse en Composantes Principales

Transféré par

onanaemma48
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 1

Analyse en composante principale (ACP)

Prérequis :
— notions sur l’algèbre linéaire (matrices)
— statistique descriptive

Objectif :
— maitriser la technique de l’analyse en composante principale

1.1 Définition
L’Analyse en Composantes Principales (ACP) est une méthode descriptive qui a pour
objectif l’analyse de données qui ne comportent pas de structure préalable. Le but principale
est de résumer l’information contenue dans un tableau composé d’un nombre élevé de ligne et de
colonne.
C’est un outil important pour traiter les données quantitatives et aide à la synthèse de l’infor-
mation. Ce cours sur l’ACP se veut introductif, pour un besoin d’approfondissement, on peut se
servir des ouvrages cités à la bibliographie. Il est à souligner ici que cette technique d’analyse des
données repose sur une socle théorique lequel ne fait partie de ce cours.

1.2 Le tableau des données


L’utilisation éventuelle de l’ACP se trouve dans la situation suivante : on possède un tableau
rectangulaire de mesures, donc les colonnes contiennent des variables numériques continues (men-
surations, taux,etc.), et donc les lignes représentent des individus sur lesquels ces variables sont
mesurées.

1
Figure 1.1 –

Exemple 1. Les notes, obtenues par six étudiants dans trois unités d’enseignement, sont présentés
dans le tableau suivant

UE1 UE2 UE3


E1 8 1 0
E2 4 6 5
E3 6 8 7
E4 10 4 7
E5 8 2 5
E6 0 3 6

1.3 Principe
L’ACP permet de :
— résumer les informations contenus dans un tableau en n individus et p variable
— remplacer les p variables avec q nouvelles variables avec q < p.
D’un point de vue géométrique, le nuage de points présentant les données s’inscrit dans un espace
de p dimensions, parce que chaque individu est représenté par un point dans l’espace Rp .
Si la dimension p = 2 ou p = 3 il est facile de représenter le nuage de points, ce qui n’est plus
le cas lorsque p > 3.

Figure 1.2 – Représentation graphique pour p=2 et p=3

Les questions que l’on se pose sur les individus et celles qu’on se pose sur les variables ne sont
pas de même nature.

2
A propos des individus, on essaie d’évaluer leur ressemblance : deux individus se ressemblent
d’autant qu’ils possèdent des valeurs proches pour l’ensemble des variables. En ACP, la ressem-
blance est assurée par la distance d (i, j) entre deux individus, elle est définie par
p
X
2
d (i, j) = (xik − xjk )2 .
k=1

A propos de deux variables, on essaie d’évaluer leur liaison. En ACP, la liaison entre deux variables
est mesurée par le coefficient de corrélation linéaire :
n   
1 X xik − xk xih − xh
r (k, h) = .
n i=1 σk σh
L’objectif général de l’ACP est une étude exploratoire. Les deux voies principales de cette explo-
ration sont :
— Un bilan des ressemblance entre individus. On cherche alors à répondre à des questions
du type suivant : quels sont les individus qui se ressemblent ? Quels sont ceux qui diffèrent ?
— Un bilan de liaison entre variables. Les questions sont alors : quelles variables sont
corrélées entre elles ? Quelles sont celles qui s’opposent (corrélées négativement) ? Existe-t-
il des groupes de variables corrélées entre elle ?

1.4 Démarche
Soit n individus caractérisés par p variables. Ces données sont présentées dans un tableau appelé
Matrice des données de dimensions n × p. Les étapes pour déterminer la composante principale :
1. centrage et réduction des données,
2. déterminer les valeurs propres et les vecteurs propres sur la base de la matrice de corréla-
tion entre les variables,
3. déterminer les axes factoriels, sélectionner les composantes principales.
⇒Centrage et réduction des données
— Les p variables sont, lesquelles peuvent être de nature différente, seront centrées et réduites,
pour homogénéiser les unités,
— Les données sont centrées et réduites renvoie au fait que pour chaque variable la moyenne
est nulle et la variance est égale à 1.
— La matrice centrée réduite est obtenue par la formule
xij − xj
Xij = .
σj
— la matrice de variances covariances permet de mesurer la liaison linéaire qui peut exister
entre un couple de variables statistiques
V ar (X1) cov (X1, X2) cov (X1, X3)
cov (X2, X1) V ar (X2) cov (X1, X3)
cov (X3, X1) cov (X3, X2) V ar (X3)
Si cov (X 2 , X 1 ) = 0, les variables X 1 et X 2 sont indépendantes.
Si cov (X 1 , X 2 ) 6= 0,les variables X 1 et X 2 sont dépendantes (il existe une liaison linéaire
entre les variables).
3
— La matrice de variance covariances entre les individus, laquelle permet d’analyser leurs
relations bilatérales, est obtenue par la formule
1
A= XX t ,
n

X : matrice centrée ⇐⇒ X : xij = (rij − xj )


X t : matrice centrée transposée.
— La matrice covariances entre les individus, laquelle permet d’analyser leurs relations bilaté-
rales, est obtenue par la formule
1
U= CRt ? CR
n

(xij −xj )
CR : matrice Centrée Réduite ⇐⇒ CR : Xij = σj
CRt : matrice Centrée Réduite transposée.

1.5 Algorithme de l’ACP


Pour appliquer l’ACP, il faut suivre les étapes suivantes.
1. Centrer le tableau R des données initiales pour obtenir la matrice centrée X.
2. Déterminer la matrice diagonales N = Diag(pi ) où pi est la fréquence attribuée à l’individu
pi = 1. Dans les cas de l’équiprobabilité de la distribution des n individus pi = n1 .
P
i,
3. Calculer la matrice A = X t N X (matrice variance-covariance). Lorsque pi = n1 , A = n1 X t X.

Ip données homogénes
4. Déterminer la métrique M =
D 12 données hétérogènes.
σ
i

5. Rechercher les axes principaux µα tels que µtα M µα =1 de la matrice AM.


⇒ Calculer les valeurs propres :det (AM − λIp ) = 0.
⇒ Déterminer les vecteurs propres µα : AM µα = λα µα .
6. Calculer les quantités de la représentation
P
i≤q λi
Qq = Pn ≥ 80%
i=1 λi

dans le but de déterminer le nombre des axes factoriels.


7. Calculer les composantes principales

Ck = XM µα

8. Représenter les individus dans l’espace réduit en utilisant les composantes principales.
9. Calculer les contributions aux axes.
(a) Part du point individu Xi prise en compte dans l’axe µα
2
(C i )
cos (θik ) = k .
2
||Xi ||
4
(b) Contribution de l’individu à l ;inertie de l’axe
2
pi (Cki )
Crα (i) = .
λk

10. Représentation des variables à l’aide des coefficients de corrélations


t
i
 (X i ) M Cα
cor X , Cα = √ .
σ X i λα
⇒ cercle de corrélation

1.6 Cas d’application


Exemple 2. Après une session d’évaluation, les notes de 6 étudiants pour 3 UE sont présentés la
le tableaux ci-contre
UE1 UE2 UE3
E1 8 1 0
E2 4 6 5
E3 6 8 7
E4 10 4 7
E5 8 2 5
E6 0 3 6

Faire l’ACP de ces données.


1. On a
 
8 1 0

 4 6 5 

 6 8 7 
R= 

 10 4 7 

 8 2 5 
0 3 6

Alors le centre de gravité est G = 6 4 5 . La matrice centré est alors
   
8−6 1−4 0−5 2 −3 −5

 4−6 6−4 5−5  
  −2 2 0 
 6−6 8−4 7−5   0 4 2 
X= = .

 10 − 6 4−4 7−5  
  4 0 2 
 8−6 2−4 5−5   2 −2 0 
0−6 3−4 6−5 −6 −1 1

1

2. Il y a équiprobabilité dans la population des étudiants, donc N = Diag 6
.

5
3. Matrice variance-covariance
1
A = X tX
6  
2 −3 −5
  −2 2 0 
2 −2 0 4 2 −6  
1  0 4 2 
=  −3 2 4 0 −2 −1   
6  4 0 2 
−5 0 2 2 0 1  
 2 −2 0 
−6 −1 1
 
64 −8 −8
1
=  −8 34 22  .
6
−8 22 34
64 34 34
On en déduit que V ar (X 1 ) = 6
,V ar (X 2 ) = 6
,V ar (X 3 ) = 6
.
4. La métrique est la matrice M = I3 car les notes des étudiants sont exprimés dans le même
système de représentation, on dit que les notes sont des données homogènes. Ces qui ne
serait pas cas si ces données avaient des unités différentes.
5. Recherche des axes principaux.
On a AM = AI3 = A. Soit λ ∈ R :

64 − λ −8 −8
1
dét (A − λI3 ) = −8 34 − λ 22
6
−8 22 34 − λ
= −36 (λ − 12) (λ − 8) (λ − 2) .

NB : calculer le déterminant par l’une des méthodes apprise au cours d’algèbre linéaire
D’où dét (A − λI3 ) = 0 implique λ1 = 12 , λ2 = 8 et λ3 = 2.
6. Qualité de la représentation (Cette étape permet de connaitre le nombre des axes factorielles
à retenir pour mener l’étude)
Valeurs propres Qi
12 55%
8 91% ≥ 80% Il ressort de ce tableaux que deux axes suffisent pour ré-
2 100%
Total=22
duire le tableau initiale.
7. Calcul des valeurs propres µ1 et µ2 .
Première composante
  principale.
x
On pose µ∗1  y  et AM µ∗1 = Aµ∗1 = 12µ∗1 .
z
    
64 −8 −8 x x
∗ ∗ 1
Aµ1 = 12µ1 ⇐⇒ −8 34 22   y  = 12 y 

6
−8 22 34 z z

6
D’où

−8x − 8y − 8z = 0
 (1)
−8x − 38y − 22z = 0 (2)

−8x + 22y − 38z = 0 (3)

Eq(1) − Eq (2) : 30y − 30z = 0. D’où y = z (4)  


−2
Eq(4) dans Eq(3) ; −8x + 22y − 38y = 0 implique x = −2y. D’où µ∗1  1  .
1

Ensuite, il faut normaliser le vecteur µ1 . √
||µ∗1 ||2 = (−2)2 + 12 + 12 = 6, d’où ||µ∗1 || = 6 et
 
∗ −2
µ1 1
µ1 = ∗
= √  1 .
||µ1 || 6 1

Deuxième  composante
 principale.
x
On pose µ∗2  y  et AM µ∗2 = Aµ∗2 = 12µ∗2 .
z
    
64 −8 −8 x x
∗ ∗ 1
Aµ2 = 12µ2 ⇐⇒ −8 34 22   y  =8 y 

6
−8 22 34 z z

D’où

16x − 8y − 8z = 0
 (a)
−8x − 14y − 22z = 0 (b)

−8x + 22y − 14z = 0 (c)

Eq(b) − Eq (c) : −36y + 36z = 0. D’où y = z (d)  


1
Eq(d) dans Eq(a) ; 16x − 8y − 8y = 0 implique x = y. D’où µ∗2  1  .
1

Ensuite, il faut normaliser le vecteur µ1 . √
||µ∗2 ||2 = (1)2 + 12 + 12 = 6, d’où ||µ∗1 || = 3 et
 
∗ 1
µ2 1  
µ2 = = √ 1 .
||µ∗1 || 3 1

8. Calcul des composantes principales.


NB :Les composantes principales représentent les représentations des individus sur les axes
principales. Ces composantes sont les coordonnées des projections orthogonales des indivi-
dus sur ces axes. On a ainsi un réduction en deux colonnes de l’information initialement

7
donnée en termes de 6 notes.

C1 = XM µ1 = XI3 µ1
= Xµ1
 
2 −3 −5
 −2 2 0   
  −2
 √1  1 
 0 4 2 
= 4 0 2  6

 2 −2 0  1
−6 −1 1
 
−2
 1 
√  1 
 
C1 = 6 
 
 −1 

 −1 
2

C2 = XM µ2 = XI3 µ2
= Xµ2
 
2 −3 −5
 −2 2 0   
  1
 0 4 2  1  

= √ 1
 4 0 2   3 1
 2 −2 0 
−6 −1 1
 
−2
 0 
√  2 
 
C2 = 3 
 2 

 
 0 
−2

9. Représentation graphique des individus √ √ 


Représenter sur une plan muni d’un repère orthonormé les points de coordonnées I1 −2 6, −2 3 ,
√  √ √  √ √  √  √ √ 
I2 6, 0 , I3 6, 2 3 , I4 − 6, 2 3 , I5 − 6, 0 , I6 2 6, −2 3 . Cette représenta-
tion graphique permet de voir graphique la ressemblance des individus, elle peut ainsi servir
à établir des regroupements des individus.
10. Calcul des contribution
2
pi (C i )
(a) Contribution de l’individu Xi à l’inertie de l’axe µk , k = 1, 2. Cri (k) = λkk
i. Par rapport à l’axe µ1 :
1
√ 2
6(
−2 6)
Cr1 (1) = 12
= 0.33,
Cr2 (1) = 0.08,Cr3 (1) = 0.06,Cr4 (1) = 0.08,Cr5 (1) = 0.08,Cr6 (1) = 0.33.
8
ii. Par rapport à l’axe µ2
1
√ 2
6(
−2 3)
Cr1 (2) = 12
= 0.22,
Cr2 (2) = 0,Cr3 (2) = 0.25,Cr4 (2) = 0.25,Cr5 (2) = 0,Cr6 (1) = 0.25.

Remarque : Si Cri (k) u 1, l’individu Xi doit être retirer du tableau initiale et il


faut refaire l’ACP.
2
2 (Cki )
(b) Part de l’individu Xi prise en compte à l’inertie de l’axe µα ; cos (θik ) = ||X ||2
i M

i. Par rapport à l’axe µ1


√ 2
2 (−2 6) 24
Cos (θ11 ) =  = 4+9+25
= 0, 63,
 
2 
2 3 −5 


3 


−5
√ 2
2 ( 6) 6
Cos (θ21 ) =  = 
4+4+0
= 0, 75,
 
2 
−2 2 0   2 



0
Cos2 (θ31 ) = 0.3, Cos2 (θ41 ) = 0.3, Cos2 (θ51 ) = 0.75, Cos2 (θ61 ) = 0.63
ii. Par rapport à l ;axe µ2
Cos2 (θ12 ) = 0.32, Cos2 (θ22 ) = 0, Cos2 (θ31 ) = 0.3, Cos2 (θ32 ) = 0.6, Cos2 (θ42 ) =
0.6, Cos2 (θ52 ) = 0, Cos2 (θ31 ) = 0.52.
t
(X i ) √M Cα
11. Représentation des variable à l’aide des coefficients de corrélation cor (X i , Cα ) = σX i λα
.
 

−2 



1 


 √  1 
1
2 −2 0 4 2 −2
 
6
6 



−1 





−1 


2 √
cor (X 1 : N1 , C1 ) = √ 64 √ =− 2
3
6
12
 

−2 



0 


 √  2 
1
2 −2 0 4 2 −2
 
6
3 



2 





0 


−2
cor (X 1 : N1 , C2 ) = √ 64 √ = 1
2
6
8
 

−2 



1 


 √  1 
1
−3 2 4 0 −2 −2
 
6
6 



−1 





−1 


2
cor (X 2 : N2 , C1 ) = √ 34 √ = 0, 59
6
12

9
 

−2 



0 


 √  2 
1
−3 2 4 0 −2 −2
 
6
3 



2 





0 


−2
cor (X 2 : N2 , C2 ) = √ 34 √ = 0, 68
6
8
 

−2 



1 


 √  1 
1
−5 0 2 2 0 5
 
6
6 



−1 





−1 


2
cor (X 3 : N3 , C1 ) = √ 34 √ = 1
2
6
8
 

−2 



0 


 √  2 
1
−5 0 2 2 0 5
 
6
3 



2 





0 


−2
cor (X 3 : N3 , C2 ) = √ 34 √ = 0, 63.
6
8

Il faut dessiner le cercle de corrélation.


Résumé :
Le résumé consiste en un tableau regroupant tous les paramètres et en une interprétation des
résultats obtenus. L’interprétation se sert des grandes tendances qu’on observe et est importante
car c’est elle fait parler les résultats obtenus à la suite de l’étude.
comp. principales Contributions Inertie
C1 C2 1er axe 2e axe 1er axe 2e axe
√ √
X1 -2√ 6 -2 3 0.32 0.22 0.63 0.33
X2 √6 0
√ 0 0 0.75 0
X3 √6 2√3 0.25 0.25 0.3 0.6
X4 −√ 6 2 3 0.25 0.25 0.3 0.6
X5 −√ 6 0√ 0 0 0.75 0
X 2 6 −2 3 0.25 0.25 0.63 0.32
Coefficient de corrélation des variables
1er axe 2e axe

N1 − 23 1
2
N2 0.59 0.68
1
N3 2
0.68
C2 est positivement corrélé aux trois variables N1, N2 et N3, elle informe sur le résultat général
des étudiant. C1 est positivement corrélé à N2 et N3 ; mais négativement à N1, elle nous informe
sur la différence des résultants entre N1 et les deux autres UE.

Exemple 3. On a relevé dans trois boutiques B1, B2 et B3 d’une ville, les prix affichés pour
quatre produits sous quatre marques différentes A,B, C et D.

10
B1 B2 B3
A 16 20 12
B 20 12 22
C 16 24 26
D 28 24 20
   
1 1
1. On veut faire lACP de ce tableau. Vérifier que u∗1 = √13  1 et u∗1 = √1  1  sont des
6
1 −2
valeurs propres de cette ACP.
2. Représenter le nuage de points produit dans le plan principal.

3. Représenter le produit supplémentaire E t = 16 8 12 .
4. Représenter graphiquement les variables B1, B2 et B3.
Solution.
1. u∗1 et µ∗2 sont des vecteurs propres de AM, lorsqu’il existe λ1 et λ2 des nombres réels tels
que AM µ∗1 = λ1 µ∗1 et AM µ∗2 = λ2 µ∗2 .
Tableau centré 
Le centre de gravité est Gt = 20 20 20 , il faut le vérifier. la matrice des données est
 
16 20 12
 20 12 22 
R=  16 24 26  .

28 24 20
D’où la matrice centré est
 
−4 0 −8
 0 −8 2 
X=  64 4
.
6 
8 4 0
Calcul de la matrice variance covariance
Il ya équiprobabilité des données de la distribution des boutiques par conséquent pi = 41 et
la métrique est M = I3 car les données sont homogènes.
 
24 4 2
1
A = X T X =  4 24 2 
4
2 2 26
     
24 4 2 1 1
AM µ∗1 = λ1 µ∗1 équivaut à  4 24 2  √13  1  = λ1 √13  1 . D’où √303 = √λ13 , donc
2 2 26 1 1
λ1 = 30.      
24 4 2 1 1
AM µ∗2 = λ2 µ∗2 équivaut à  4 24 2  √16  1  = λ1 √16  1 . D’où √246 = √λ16 ,
2 2 26 −2 −2
donc λ2 = 24.
Le plan principal : on cherche à projeter les données dans un espace à deux dimensions.
D’autre part T r (AM ) = 3i=1 λi = 24 + 24 + 26 = 74. Donc λ3 = 20.
P
11
2. Coordonnées de produits dans le plan principale. Au préalable, il faut s’assurer ici que les
vecteurs propres sont normés.
   
−4 0 −8   −4
1 √ 
C1 = XM µ∗1 = 
0 −8 2  √1  1  = 3  −2 


 64 4 6  3  2 
1
8 4 0 4

   
−4 0 −8   +2
 0 −8 2  1 1 √  −2 
C2 = XM µ∗2 =   √  1  = 6 
 64 4 6  6  −2 
−2
8 4 0 +2
Trouver les coordonnées des points individus et représenter ces points sur le plan factorielle.
3. Coordonnées de E. Cette question permet de voir comment intégrer un individu supplémen-
taire dans l’étude, ce qui peut permettre de vérifier
 un hypothèse.  
1 1

 1  1
C1 = XM µ1 = 16 − 20 8 − 20 12 − 20 √3  1  = −4 8 − 12 −8 √3  1 =
1 1

−8 3    
1 1
C2 = XM µ∗1 = 16 − 20 8 − 20 12 − 20 √16  1  = −4 8 − 12 −8 √16  1  =
 

−2 −2
0.
t
i (X i ) √M Cα
4. Représentation des variables à l’aide des coefficients de corrélations : cor (X , Cα ) = σ i λα .
  X


−4 
 √  −2 
1
−4 0 −4 −8
 
4
3 



2 


4
cor (X 1 : B1, C1 ) = √ √
24 30
= 0.39
 

+2 
 √  −2 
1
−4 0 −4 −8
 
4
6 



−2 


+2
cor (X 1 : B1, C2 ) = √ √
24 24 
= −0.41


−4 
 √  −2 
1
0 −8 4 4
 
4
3 



2 


4
cor (X 1 : B2, C1 ) = √ √
24 30
= 0.64
 

+2 
 √  −2 
1
0 −8 4 4
 
4
6 



−2 


+2
cor (X 2 : B2, C2 ) = √ √
24 24
= 0.41

12
 

−4 
 √  −2 
1
−8 2 6 0
 
4
3 



2 


4
cor (X 1 : B3, C1 ) = √ √
26 30
= 0.62
 

+2 
 √  −2 
1
0 −8 4 4
 
4
6 



−2 


+2
cor (X 2 : B3, C2 ) = √ √
26 24
= −0.78
Dessiner le cercle de corrélation.
La première composante C1 est positivement corrélée avec les trois variables, elle nous informe sur
la quantité moyenne des produits dans les boutiques. La deuxième composante C2 est positivement
corrélé avec B2 et négativement avec B1 et B3 ; C1 nous informe sur la différence entre les quantités
des produits dans les boutiques B1 et B3 et la boutique B2.

Exercice 4. Une étude consiste à déterminer les facteurs de la localisation internationale d’une
marque. Soit le tableau des données suivantes :
Taux de crois. Taux d’inflation
Nombre d’usine
éco. (%) (%)
Pays A 300 2 6
Pays B 450 2 4
Pays C 950 8 2
Pays D 700 7 5

Faites une ACP de ce tableau. Considérer la polynôme caractéristique aλ3 + bλ2 + cλ + d de la


matrice AM est telle que d = 0. Faites les calculs en considérant une précision aux centièmes près.

13
Bibliographie

[1] Escofier B.,Pagés J. Analyses factorielles simples et multiples, Dunod, 2008


[2] Lebart L, Morineau A., Piron M. Statistique exploratoire multidimensionnelle, Dunod,3e edi-
tion,2000
[3] Sporta G., Probabilités, Analyse des données et statistiques, Techniga 2006
[4] Tenehaux M., Statistiques, Méthodes pour décrire , expliquer et prévoir, Dunod, 2006

14

Vous aimerez peut-être aussi