0% ont trouvé ce document utile (0 vote)
79 vues7 pages

Analyse Factorielle des Correspondances

Transféré par

Hamza Bennis
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
79 vues7 pages

Analyse Factorielle des Correspondances

Transféré par

Hamza Bennis
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Analyse Factorielle des Correspondances (AFC)

1. Introduction

L’Analyse Factorielle des Correspondances a pour but l’étude de la relation de dépendance qui
existe entre deux variables qualitatives. La correspondance est illustrée par des représentations
graphiques, très utiles pour analyser de telles dépendances.

L’AFC permet de répondre à deux questions:

- y-a-t-il un lien entre les deux caractères étudiés ?

- Si oui, comment se comporte un facteur par rapport à l’autre facteur ?

L’AFC constitue donc un prolongement du test Chi2 de l’indépendance de deux variables


nominales. L'AFC va permettre d'affiner cette première analyse en quantifiant et en ordonnant
l'importance des associations trouvées et en offrant également une représentation graphique
des modalités lignes et des modalités colonnes mettant en évidence de façon optimale ces
associations.

L’AFC s’applique à des données qui se présentent sous forme d’un tableau de fréquences à deux
entrées. Ces fréquences constituent les éléments d’une matrice, de dimensions n lignes et p
colonnes, n et p représentant les nombres de modalités relatives aux deux critères pris en
considération.

Les lignes et les colonnes sont de même nature, elles jouent un rôle symétrique contrairement à
la matrice des données pour une ACP, où les lignes correspondent aux individus et les colonnes
aux variables. Cette symétrie permet de réaliser deux ACP et de porter les deux analyses sur un
même graphique.

Le principe de l’AFC est identique à celui de l’ACP, à savoir identifier un petit nombre de
dimensions pour simplifier et interpréter un ensemble de données relativement important tout en
minimisant au maximum la perte d’information.

2. Interprétation des résultats de l’AFC

L’interprétation d’une AFC est composée des étapes suivantes:

2.1. Analyse du tableau de contingence

Il s’agit du tableau de fréquences ou tableau des correspondances, cette analyse porte sur les
fréquences conditionnelles exprimées en pourcentages lignes et pourcentages colonnes, appelées
aussi profils lignes et profils colonnes.
2.2. Choix du nombre de dimensions

Le nombre total de dimensions est égal au minimum du nombre de lignes et nombre de


colonnes diminué de 1. Le choix du nombre de dimensions principales est basé sur le taux
d’inertie qui quantifie la part d’information extraite par chaque dimension. C’est l’équivalent
de la variance en ACP.

Une valeur propre importante (c'est-à-dire proche de 1) pour un axe donné signifie que celui-ci
décrit une association très forte entre certaines modalités de la variable 'ligne' et certaines
modalités de la variable 'colonne'. Au contraire, une valeur propre faible sur un axe dénote de
simples fluctuations aléatoires sur cet axe.

2.3. Interprétation des dimensions.

Pour interpréter une dimension, on utilise:

- Les contributions des lignes et des colonnes à la dimension: elles représentent, en


pourcentage, les parts de chaque modalité dans l’inertie totale de la dimension. Plus cette part
est élevée, et plus la modalité caractérise le mieux la dimension.

- Qualité de la représentation des lignes et des colonnes dans les sous-espaces constitués
des dimensions: elle indique la capacité des dimensions à restituer l’information contenue
dans la variable initiale. Un pourcentage élevé traduit une perte d’information minime.

- Représentation graphique: Contrairement à l’Analyse en Composantes Principales, où on


effectue habituellement des graphiques séparés pour les individus et variables, l’AFC utilise
une représentation graphique simultanée des points lignes et des points colonnes dans un plan
factoriel, elle met en correspondance les liens éventuels entre les modalités des deux caractères
étudiés.

Dans ces graphiques, la proximité de deux points lignes ou de deux points colonnes traduit la
similitude des profils, c’est à dire des distributions conditionnelles, relatifs à ces deux lignes ou
à ces deux colonnes.

En pratique, on repère en premier lieu les points lignes et les points colonnes qui ont une forte
contribution aux facteurs utilisés pour la représentation graphique et qui ont, en même temps,
une qualité de représentation satisfaisante. Pour ces points, on examine alors les projections
sur les axes et plus particulièrement le signe de ces projections, de manière à mettre en
évidence les éventuelles similitudes ou oppositions.

3. Exemple.
Dans une étude d'investigation, on s'est intéressé à la fréquence d’achat d’une marque d’un
produit d’hygiène en fonction de l’âge du consommateur. On voudrait savoir quelle est la
tranche d’âge la plus réceptive du produit. Un échantillon de 420 personnes a été interrogé. On
a effectué croisement entre les différentes classes d’âge des répondants et la variable fréquence
d’achat comportant 4 modalités.
Les classes d’âges sont au nombre de 6: Moins de 20 ans; 20 à moins de 25 ans; 25 à moins de
35 ans; 35 à moins de 45 ans; 45 à moins de 60 ans; 60 ans et plus.

Les modalités de la variable fréquence d’achat sont: Systématiquement; Souvent;


Occasionnellement et Jamais.

Les données ont été saisies sur SPSS en définissant deux variables: la variable âge et la
variable fréquence d’achat. Les modalités de la variable âge sont codées de 1 à 6, celles de la
variable fréquence d’achat sont codées de 1 à 4.

Une analyse factorielle des correspondances a été effectuée dans le but de savoir si la
fréquence d’achat est liée à l’âge du consommateur, et dans l’affirmative, comment se
comporte cette fréquence d’achat en fonction des différentes tranches d’âge.

La procédure SPSS pour réaliser une AFC est la suivante:

- Analyse Ü Réduction de dimensions Ü Factorisation Ü Analyse des correspondances.

- Dans Ligne, glisser la variable correspondant aux lignes du tableau croisé. Cliquer sur définir
intervalle, saisissez la valeur minimale des codes (généralement 1) et la valeur maximale
(généralement le nombre de modalités) puis cliquez sur mettre à jour puis poursuivre.

- Dans Colonne, glisser la variable correspondant aux colonnes du tableau croisé. Cliquer sur
définir intervalle, saisissez la valeur minimale des codes (généralement 1) et la valeur
maximale (généralement le nombre de modalités) puis cliquez sur mettre à jour puis
poursuivre.

- Dans Modèles, saisissez le nombre de dimensions à retenir dans dimensions de la solution


(souvent 2 ou 3).

- Dans Statistiques, cochez profils lignes et profils colonnes.

- Dans diagrammes, cocher diagramme double

Les résultats de l’analyse sont:

Tableau des correspondances

Frequence_Achat

Classe_Age Systematiq Souvent Occasion Jamais Marge active

- de 20 7 7 24 10 48

20 -25 4 26 39 7 76

25 -35 6 19 26 10 61

35-45 13 31 37 4 85
45-60 4 46 36 13 99

>=60 12 20 13 6 51

Marge active 46 149 175 50 420

Chaque case du tableau représente le nombre d’individus présentant les deux modalités
considérées. Dans la première case par exemple, 7 individus sont âgés de moins de 20 ans et
déclarent faire achat systématique du produit.

Profils lignes

Frequence_Achat

Classe_Age Systematiq Souvent Occasion Jamais Marge active

- de 20 ,146 ,146 ,500 ,208 1,000

20 -25 ,053 ,342 ,513 ,092 1,000

25 -35 ,098 ,311 ,426 ,164 1,000

35-45 ,153 ,365 ,435 ,047 1,000

45-60 ,040 ,465 ,364 ,131 1,000

>=60 ,235 ,392 ,255 ,118 1,000

Masse ,110 ,355 ,417 ,119

Ce tableau présente le pourcentage que représente l’effectif du tableau des correspondances par
rapport au total de la ligne. Ainsi 14,6 % des individus âgés de moins de 20 ans, déclarent
acheter systématiquement le produit. L’analyse de cette première ligne montre que les
consommateurs âgés de moins de 20 ans ont tendance à acheter occasionnellement le produit
(50%). Un achat souvent du produit semble être une tendance pour les plus de 60 ans (39,2%).
Profils colonnes

Frequence_Achat

Classe_Age Systematiq Souvent Occasion Jamais Masse

- de 20 ,152 ,047 ,137 ,200 ,114

20 -25 ,087 ,174 ,223 ,140 ,181

25 -35 ,130 ,128 ,149 ,200 ,145

35-45 ,283 ,208 ,211 ,080 ,202

45-60 ,087 ,309 ,206 ,260 ,236


>=60 ,261 ,134 ,074 ,120 ,121

Marge active 1,000 1,000 1,000 1,000

Ce tableau présente le pourcentage que représente l’effectif du tableau des correspondances par
rapport au total de la colonne. Ainsi 15,2 % des individus achetant systématiquement le
produit, sont âgés de moins de 20 ans. L’analyse de cette première colonne montre que l’achat
systématique du produit est surtout un comportement de la tranche d’âge 35 à moins de 45 ans
(28,3%).

b) Choix du nombre de dimensions.

Le nombre total de dimensions est égal au minimum du nombre de lignes et nombre de


colonnes diminué de 1. La variable âge a 6 modalités, la fréquence d’achat en a 4, donc le
nombre de dimensions est égal à (4-1)=3.
Récapitulatif
Proportion
d'inertie

Valeur Khi-
Dimension singulière Inertie deux Sig. Expliqué Cumulé
1 ,208 ,043 ,446 ,446
2 ,190 ,036 ,372 ,818
3 ,133 ,018 ,182 1,000
Total ,097 40,887 ,000a 1,000 1,000
a. 15 degrés de liberté

Au seuil de signification de 5 %, la valeur calculée de Khi deux (40,887) est de loin supérieur
à la valeur théorique de la table qui est, pour 15 degré de liberté, de 25, ou la probabilité de
signification (sig. = 0,000) est inférieur au seuil de 5 %, on rejette donc l’hypothèse de
l’indépendance des deux variables. On conclut donc que l’âge des consommateurs a une
influence sur la fréquence d’achat du produit.

Le choix du nombre de dimensions principales est basé sur le taux d’inertie qui quantifie la
part d’information extraite par chaque dimension. La première dimension contribue pour 44,6
% de l’inertie totale, la deuxième dimension contribue pour 37,2 % alors que la troisième
dimension ne contribue que pour 18,2 %, soit moitié moins que la seconde dimension. Les
deux dimensions contribuent ensemble pour 81,8 % de l’inertie totale. Il semble donc logique
de négliger la troisième dimension pour ne retenir que les deux premières.

c) Interprétation des dimensions.

- Les contributions des lignes aux dimensions et qualité de la représentation des lignes dans les
sous-espaces constitués des dimensions.

Caractéristiques des points lignesa


Score dans la
Classe_Age dimension Contribution
De point à inertie de De dimension à
dimension inertie de point
Masse 1 2 Inertie 1 2 1 2 Total
- de 20 ,114 ,474 -,944 ,025 ,123 ,535 ,214 ,775 ,989
20 -25 ,181 -,399 -,188 ,011 ,138 ,034 ,568 ,115 ,683
25 -35 ,145 ,000 -,297 ,003 ,000 ,067 ,000 ,711 ,711
35-45 ,202 ,211 ,296 ,013 ,043 ,093 ,150 ,270 ,419
45-60 ,236 -,523 ,244 ,020 ,310 ,074 ,667 ,132 ,799
>=60 ,121 ,814 ,556 ,026 ,386 ,197 ,654 ,279 ,933
Total actif 1,000 ,097 1,000 1,000

Pour la variable âge, la contribution la plus forte à la dimension 1 est celle de la tranche 60 ans
et plus (38,6 %). La dimension 2 quant à elle, résulte de la contribution de la tranche moins de
20 ans (53,5 %).

Les tranches d’âge 45 à moins de 60 ans et 60 ans et plus sont les mieux représentées sur la
dimension 1 (respectivement 66,7% et 65,4%), tandis que la dimension 2 représente mieux la
tranche moins de 20 ans (77,5%).

- Les contributions des colonnes aux dimensions et qualité de la représentation des colonnes
dans les sous-espaces constitués des dimensions.
Caractéristiques des points colonnesa

Score dans la
dimension Contribution

De point à inertie de De dimension à


dimension inertie de point
Frequence_Achat Masse 1 2 Inertie 1 2 1 2 Total
Systematiq ,110 1,265 ,270 ,038 ,841 ,042 ,957 ,040 ,996
Souvent ,355 -,268 ,508 ,023 ,122 ,480 ,227 ,741 ,968
Occasion ,417 -,128 -,322 ,015 ,033 ,227 ,092 ,535 ,628
Jamais ,119 ,083 -,633 ,020 ,004 ,251 ,008 ,447 ,456
Total actif 1,000 ,097 1,000 1,000

Pour la variable fréquence d’achat, la contribution la plus forte à la dimension 1 est celle de
l’achat systématique (84,1 %). La dimension 2 quant à elle, résulte de la contribution de la
modalité souvent (48 %).

La modalité achat systématique est la mieux représentée sur la dimension 1 (95,7%), tandis
que la dimension 2 représente mieux la modalité souvent (74,1%).

On peut donc affirmer que sur la dimension1, il y a une certaine correspondance entre la
tranche d’âge 60 ans et plus et la modalité achat systématique, alors que la dimension 2 mais
en correspondance la tranche d’âge moins de 20 ans et la modalité d’achat souvent mais en
sens opposé puisque les scores dans la dimension 2 de ces deux modalités sont de signes
opposés.

- Représentation graphique.
Ce diagramme confirme le résultat des tableaux des contributions, en effet, on peut voir sur
l’axe horizontal une certaine correspondance entre la tranche d’âge 60 ans et plus et la
modalité achat systématique, par contre sur l’axe vertical, on peut voir une nette opposition
entre la tranche d’âge moins de 20 ans et la modalité d’achat souvent.

Comme synthèse du résultat de cette analyse factorielle des correspondances, on peut affirmer
qu’il y a une opposition entre une classe d’âge âgée (60 ans et plus) à laquelle semble être
associé un comportement d’achat systématique du produit et une classe d’âge très jeune (moins
de 20 ans) dont le comportement n’est pas clairement défini, mais opposé à un comportement
que l’on pourrait qualifier de régulier (souvent). Les classes intermédiaires sont assez mal
prises en compte dans l’analyse.

Vous aimerez peut-être aussi