Analyse Factorielle des Correspondances
L’Analyse Factorielle des Correspondances (AFC) est une méthode d’analyse multi-
variée qui permet de résumer et de visualiser un tableau de contingence, c’est-à-dire un
tableau croisant deux variables qualitatives. Ce tableau fournit, au croisement de la ligne
i et de la colonne j, l’effectif des individus présentant simultanément la modalité i de la
première variable et la modalité j de la seconde.
Les objectifs principaux de l’AFC sont :
— comparer les lignes entre elles,
— comparer les colonnes entre elles,
— interpréter les relations entre lignes et colonnes.
Le test du χ2 permet de déterminer s’il existe ou non une dépendance entre les variables.
L’AFC va plus loin en mettant en évidence la structure de cette dépendance et en mon-
trant comment elle s’organise entre les modalités des lignes et des colonnes à travers une
représentation graphique de faible dimension.
Étapes pour réaliser une Analyse Factorielle des Corres-
pondances (AFC)
1. Préparer les données
— Les données doivent être organisées sous forme de tableau de contingence (lignes
× colonnes).
— Les valeurs du tableau représentent des effectifs (comptages).
— Les lignes et les colonnes correspondent aux modalités de deux variables quali-
tatives.
2. Vérifier la pertinence de l’AFC (test du χ2 )
— Avant l’analyse, on vérifie l’existence d’une dépendance entre les variables à
l’aide du test du χ2 .
3. Réaliser l’AFC
— L’analyse factorielle des correspondances est appliquée au tableau de contin-
gence.
4. Choisir le nombre d’axes
— Le choix se fait à partir des valeurs propres et des pourcentages d’inertie expli-
quée.
5. Analyser les résultats
— Résultats pour les lignes
— Coordonnées factorielles
— Contributions aux axes
— Qualité de représentation (cos2 )
— Résultats pour les colonnes
— Coordonnées factorielles
— Contributions aux axes
— Qualité de représentation (cos2 )
6. Représentations graphiques et interprétation
— Visualisation des plans factoriels (lignes, colonnes ou représentation conjointe).
— Identifier les associations entre les modalités des lignes et des colonnes.
1
— Interpréter les axes à partir des modalités les plus contributives.
— Comprendre où se situe la dépendance entre les variables et comment elle s’or-
ganise.
7. Synthèse
— Résumer les principales oppositions mises en évidence par l’analyse.
— Relier les résultats obtenus à la problématique initiale.
Étude de cas
Les données analysées proviennent de l’enquête Emploi réalisée par l’INSEE en 2003
auprès des personnes en âge de travailler. L’analyse porte sur deux variables qualitatives,
décrites à l’aide de leurs modalités. Dans le cadre de l’Analyse Factorielle des Correspon-
dances (AFC), les modalités de la variable placée en ligne sont appelées profils lignes,
tandis que celles de la variable placée en colonne sont appelées profils colonnes. Les lignes
du tableau correspondent aux classes d’âge quinquennales des personnes interrogées. Par
exemple, la modalité ag15 désigne les individus âgés de 15 à moins de 20 ans. Les colonnes
correspondent au type d’activité, décliné en cinq modalités :
— occup : personnes actives occupées, c’est-à-dire exerçant un emploi ;
— chom : personnes au chômage, actives sans emploi et en recherche d’un emploi ;
— chbt : chômeurs au sens du BIT (définition légèrement différente) ;
— etud : personnes scolarisées ou étudiantes ;
— inac : personnes inactives.
Étape 1 : Préparer les données
La première étape de l’Analyse Factorielle des Correspondances (AFC) consiste à
organiser les données sous la forme d’un tableau de contingence. Dans ce cas, le tableau
croise deux variables qualitatives :
— en lignes, les classes d’âge quinquennales des individus (ag15, ag20, . . ., ag75) ;
— en colonnes, le type d’activité (occupé, chômeur, étudiant, inactif, etc.).
Chaque cellule du tableau contient un effectif, correspondant au nombre d’individus ap-
partenant simultanément à une classe d’âge donnée et à une catégorie d’activité donnée.
Par exemple, la valeur située à l’intersection de la ligne ag15 et de la colonne etud repré-
sente le nombre de personnes âgées de 15 à moins de 20 ans qui sont étudiantes.
Les totaux en lignes et en colonnes indiquent respectivement le nombre total d’individus
par classe d’âge et par type d’activité. Ce tableau d’effectifs constitue la base nécessaire
à la réalisation de l’AFC.
2
Table 1 – Effectifs par classe d’âge et type d’activité (en 2003)
Âge occup chom chbt etud inac Total
ag15 2591 932 106 21446 739 25814
ag20 10707 2714 149 7190 1915 22675
ag25 14257 2044 38 565 2416 19320
ag30 18371 1922 56 69 3060 23478
ag35 19207 1863 45 0 2930 24045
ag40 20494 1734 37 0 2703 24968
ag45 19544 1344 32 0 3052 23972
ag50 18632 1459 17 0 4105 24213
ag55 12066 904 22 0 9402 22394
ag60 2042 99 13 0 13320 15474
ag65 411 2 1 0 14546 14960
ag70 125 1 2 0 15613 15741
ag75 88 0 0 0 28403 28491
Total 138535 15018 518 29270 102204 285545
Étape 2 : Vérifier la pertinence de l’AFC (test du χ2 )
Avant de réaliser l’Analyse Factorielle des Correspondances (AFC), il est essentiel de
s’assurer que les deux variables du tableau de contingence sont dépendantes, c’est-à-
dire qu’il existe des associations significatives entre leurs modalités. Pour cela, on utilise
le test du χ2 de Pearson, qui teste l’hypothèse nulle :
H0 : les variables sont indépendantes
H1 : les variables sont dépendantes
Dans notre cas, le test a donné :
X 2 = 351 669, df = 48, p-value < 2.2 × 10−16
Interprétation :
— La p-value est extrêmement faible, bien inférieure à 0,05.
— On rejette donc l’hypothèse d’indépendance.
— Les variables sont fortement dépendantes, ce qui justifie la réalisation de l’AFC.
Étape 3 : Réaliser l’AFC
— L’analyse factorielle des correspondances est appliquée au tableau de contingence.
Étape 4 : Choisir le nombre d’axes
Le choix du nombre d’axes à retenir se fait à partir des valeurs propres et des
pourcentages d’inertie expliquée.
3
Table 2 – Valeurs propres et pourcentages d’inertie expliquée
Dimension Valeur propre % de variance Variance cumulée (%)
Dim 1 0.6851 55.63 55.63
Dim 2 0.5381 43.69 99.32
Dim 3 0.0082 0.67 99.99
Dim 4 0.00015 0.01 100.00
On remarque que la construction de 4 axes d’inertie correspond aux 4 valeurs propres,
puisque le nombre maximal d’axes est donné par :
min{(nombre de colonnes − 1), (nombre de lignes − 1)} = min(5 − 1, 13 − 1) = 4.
Les deux premiers axes rendent compte de la quasi-totalité de l’inertie des nuages de
profils. Il est donc suffisant de s’intéresser au plan factoriel formé par l’axe 1 et l’axe 2.
Lorsque la décroissance des valeurs propres est plus progressive, on retient les axes dont
le pourcentage d’inertie est supérieur à la moyenne, calculée comme :
100 100
Inertie moyenne = = = 25%.
nombre de valeurs propres 4
Figure 1 – Graphique des valeurs propres
Les trois premiers axes expriment 99.32% de l’inertie totale : autrement dit, 99% de
l’information du tableau de données est résumée par les deux premières dimensions. Nous
pouvons donc nous contenter de décrire ces trois premiers axes.
4
Étape 5 : Analyser les résultats
Analyse des profils colonnes (type d’activité)
L’analyse des résultats de l’Analyse Factorielle des Correspondances (AFC) repose sur
l’étude des profils colonnes, correspondant ici aux modalités de la variable type d’activité.
Cette analyse s’appuie sur trois indicateurs complémentaires :
— les coordonnées factorielles ;
— les contributions aux axes ;
— la qualité de représentation, mesurée par les cosinus carrés (cos2 ).
1. Contributions aux axes Les contributions mesurent la part de chaque modalité
dans la construction d’un axe. Une modalité est considérée comme structurante si sa
contribution dépasse la contribution moyenne, donnée par :
100 100
= = 20%.
nombre de modalités 5
Axe 1
Les contributions montrent que :
— la modalité etud contribue très fortement à l’axe 1 (71,9 %) ;
— la modalité inac contribue également de manière importante (27,2 %).
Ces deux modalités sont donc les principales responsables de la construction du premier
axe. Les autres modalités présentent des contributions très faibles et ne participent pas
significativement à cet axe.
Axe 2
Pour le second axe :
— occup contribue à hauteur de 43,0 % ;
— inac contribue à hauteur de 37,0 %.
Ces deux modalités dépassent largement la contribution moyenne et structurent l’axe 2.
La modalité etud, avec une contribution de 17,1 %, inférieure au seuil de 20 %, n’est pas
retenue comme modalité structurante de cet axe.
Table 3 – Contributions des profils colonnes aux axes factoriels (en %)
Profil colonne Dim 1 Dim 2 Dim 3 Dim 4
occup 0.09 42.98 8.26 0.15
chom 0.64 2.94 84.70 6.46
chbt 0.16 0.00 6.33 93.33
etud 71.91 17.08 0.69 0.06
inac 27.20 36.99 0.01 0.00
2. Qualité de représentation (cos2 ) Les cosinus carrés mesurent la qualité de projec-
tion d’une modalité sur un axe : plus le cos2 est proche de 1, meilleure est la représentation.
Axe 1
La modalité etud est très bien représentée sur l’axe 1 (cos2 = 0,84), tandis que inac
est également bien représentée (cos2 = 0,48). Ces deux modalités sont parfaitement re-
présentées dans le plan factoriel (axe 1, axe 2), la somme de leurs cos2 sur ces deux axes
étant égale à 1 :
etud : 0,84 + 0,16 = 1, inac : 0,48 + 0,52 = 1.
5
La modalité chbt présente un cos2 élevé sur l’axe 1 (0,61), indiquant qu’elle s’exprime sur
cet axe. Toutefois, sa contribution étant faible, elle n’a pas participé à sa construction.
Axe 2
La modalité occup est presque exclusivement représentée sur l’axe 2 (cos2 = 0,99). La
modalité inac est correctement représentée sur cet axe (cos2 = 0,51), tout en s’exprimant
également sur l’axe 1.
Table 4 – Cosinus carrés (qualité de représentation) des profils colonnes
Profil colonne Dim 1 Dim 2 Dim 3 Dim 4
occup 0.0026 0.9945 0.0029 0.0000
chom 0.1611 0.5822 0.2563 0.0004
chbt 0.6125 0.0122 0.2960 0.0793
etud 0.8427 0.1572 0.0001 0.0000
inac 0.4835 0.5165 0.0000 0.0000
3. Coordonnées factorielles des profils colonnes Les coordonnées factorielles in-
diquent la position de chaque modalité sur les axes factoriels. Une coordonnée élevée en
valeur absolue signifie que la modalité est fortement associée à l’axe considéré.
Sur l’axe 1, les modalités etud et inac se distinguent par des coordonnées élevées
et de signes opposés, traduisant une opposition marquée entre ces deux types d’activité.
Sur l’axe 2, les modalités occup et inac apparaissent éloignées de l’origine, indiquant un
contraste important sur ce second axe.
Table 5 – Coordonnées factorielles des profils colonnes
Profil colonne Dim 1 Dim 2 Dim 3 Dim 4
occup 0.0350 -0.6905 -0.0374 0.0007
chom 0.2883 -0.5480 0.3636 -0.0135
chbt 0.7700 -0.1086 0.5353 0.2771
etud 2.1924 0.9470 -0.0235 -0.0009
inac -0.7216 0.7458 0.0013 -0.0001
4. Interprétation des axes (profils colonnes) L’axe 1 oppose principalement les
étudiants (etud) aux inactifs (inac). Il peut être interprété comme une opposition entre
scolarisation et inactivité. L’axe 2 oppose les actifs occupés (occup) aux inactifs (inac),
traduisant un contraste entre participation au marché du travail et absence d’activité.
Analyse des profils lignes (classes d’âge)
L’analyse des profils lignes concerne ici les classes d’âge quinquennales. Elle vise à
comprendre la manière dont les différentes tranches d’âge se positionnent sur les axes
factoriels et à identifier celles qui contribuent réellement à leur construction. Comme
précédemment, l’interprétation repose sur trois indicateurs complémentaires :
— les coordonnées factorielles ;
— les contributions aux axes ;
— la qualité de représentation, mesurée par les cosinus carrés (cos2 ).
6
La variable âge comportant 13 modalités, la contribution moyenne attendue d’une
modalité est :
100
≈ 7,7%.
13
Une modalité est considérée comme structurante pour un axe si sa contribution dépasse
ce seuil.
1. Contributions aux axes Axe 1
Sur le premier axe, seules quelques modalités présentent une contribution supérieure
à la moyenne :
— ag15 contribue très fortement (63,6 %) ;
— ag75 (11,0 %) ;
— ag70 (6,0 %) et ag65 (5,5 %) présentent également des contributions notables.
Ces résultats montrent que l’axe 1 est principalement structuré par l’opposition entre les
classes d’âge les plus jeunes et les plus âgées.
Axe 2
Sur le second axe, les contributions importantes concernent principalement :
— ag75 (18,9 %) ;
— ag15 (16,1 %) ;
— ag70 (10,3 %) ;
— ag65 (9,0 %),
ainsi que certaines classes d’âge intermédiaires, notamment ag40 et ag45. L’axe 2 est donc
également structuré par une opposition liée à l’âge, selon une logique complémentaire à
celle de l’axe 1, intégrant davantage les classes d’âge intermédiaires.
Table 6 – Contributions des profils lignes (classes d’âge) aux axes factoriels
Classe d’âge Dim 1 (%) Dim 2 (%) Dim 3 (%) Dim 4 (%)
ag15 63.64 16.12 8.49 1.58
ag20 8.06 0.02 57.16 16.93
ag25 0.01 4.66 13.05 54.30
ag30 0.02 6.69 0.43 1.90
ag35 0.02 7.37 0.04 0.00
ag40 0.01 8.30 2.64 0.15
ag45 0.04 7.21 10.60 9.10
ag50 0.11 5.62 4.95 4.66
ag55 1.23 0.18 2.26 1.41
ag60 4.35 5.60 0.09 7.78
ag65 5.48 9.02 0.01 0.20
ag70 6.01 10.26 0.09 0.16
ag75 11.00 18.94 0.20 1.82
2. Qualité de représentation (cos2 ) Les cosinus carrés permettent d’évaluer la qualité
de représentation des classes d’âge sur les axes.
Axe 1
La classe ag15 est très bien représentée sur l’axe 1 (cos2 = 0,83). Les classes ag20
et ag55 présentent également une excellente qualité de représentation (cos2 = 0,92 et
cos2 = 0,88 respectivement). Les classes d’âge élevées (ag60 à ag75) sont correctement
7
représentées, souvent partagées entre les axes 1 et 2. Certaines modalités, comme ag65
à ag75, bien que modérément représentées sur l’axe 1, sont parfaitement décrites dans le
plan factoriel (axe 1, axe 2), leurs cos2 cumulés étant égaux à 1.
Axe 2
Les classes d’âge intermédiaires (ag25 à ag50) sont très bien représentées sur l’axe
2, avec des cos2 proches de 1, indiquant qu’elles s’expriment quasi exclusivement sur ce
second axe. En revanche, bien que ag15 contribue fortement à la construction de l’axe 2,
sa qualité de représentation sur cet axe est faible (cos2 = 0,16). Cette modalité ne peut
donc pas être retenue pour interpréter l’axe 2.
Table 7 – Cosinus carrés (qualité de représentation) des profils lignes
Classe d’âge Dim 1 Dim 2 Dim 3 Dim 4
ag15 0.833 0.166 0.0013 0.0000
ag20 0.919 0.002 0.0781 0.0004
ag25 0.004 0.953 0.0406 0.0031
ag30 0.004 0.995 0.0010 0.0001
ag35 0.004 0.996 0.0001 0.0000
ag40 0.002 0.993 0.0048 0.0000
ag45 0.007 0.971 0.0218 0.0003
ag50 0.024 0.963 0.0129 0.0002
ag55 0.880 0.100 0.0193 0.0002
ag60 0.497 0.503 0.0001 0.0002
ag65 0.436 0.564 0.0000 0.0000
ag70 0.427 0.573 0.0001 0.0000
ag75 0.425 0.575 0.0001 0.0000
3. Coordonnées factorielles des profils lignes Les coordonnées factorielles indiquent
la position de chaque classe d’âge sur les axes. Les classes d’âge les plus jeunes (ag15) et
les plus âgées (ag65 à ag75) se projettent loin de l’origine sur les deux premiers axes, ce
qui révèle leur rôle majeur dans la structuration du nuage des profils lignes. À l’inverse,
les classes d’âge intermédiaires (environ 25 à 50 ans) sont proches de l’origine sur l’axe
1, mais fortement positionnées sur l’axe 2, traduisant une organisation progressive selon
l’âge.
4. Interprétation des axes (profils lignes) L’axe 1 oppose principalement les plus
jeunes (15–19 ans) aux classes d’âge les plus élevées, traduisant une structuration marquée
selon l’âge. L’axe 2 met en évidence une organisation complémentaire, valorisant davantage
les classes d’âge intermédiaires et renforçant la distinction entre les extrêmes de l’échelle
des âges.
Étape 6 : Représentations graphiques – Visualisation du plan fac-
toriel
Principe général La représentation graphique constitue une étape essentielle de l’Ana-
lyse Factorielle des Correspondances (AFC). Elle permet de synthétiser les résultats numé-
riques (coordonnées factorielles, contributions et qualités de représentation) et de faciliter
l’interprétation globale des relations entre les modalités.
8
Table 8 – Coordonnées factorielles des profils lignes (classes d’âge)
Classe d’âge Dim 1 Dim 2 Dim 3 Dim 4
ag15 2.1962 0.9795 -0.0878 -0.0051
ag20 0.8340 -0.0396 0.2431 0.0178
ag25 0.0383 -0.6090 0.1258 -0.0346
ag30 -0.0420 -0.6617 0.0208 0.0059
ag35 -0.0437 -0.6861 -0.0060 0.0003
ag40 -0.0341 -0.7146 -0.0498 0.0016
ag45 -0.0557 -0.6800 -0.1018 0.0127
ag50 -0.0936 -0.5971 -0.0692 -0.0091
ag55 -0.3282 -0.1106 -0.0486 0.0052
ag60 -0.7419 0.7460 -0.0116 0.0146
ag65 -0.8464 0.9626 0.0034 -0.0024
ag70 -0.8642 1.0009 0.0118 -0.0021
ag75 -0.8690 1.0106 0.0129 -0.0052
Figure 2 – Plan factoriel 1-2
Le graphique présenté correspond à une représentation conjointe des profils lignes
(classes d’âge) et des profils colonnes (types d’activité) dans le premier plan factoriel
(Axe 1, Axe 2), qui concentre l’essentiel de l’inertie totale :
Axe 1 : 55,63 % Axe 2 : 43,69 %
soit un total de 99,32 % de l’inertie cumulée.
Les points bleus représentent les classes d’âge (profils lignes), tandis que les triangles
rouges représentent les types d’activité (profils colonnes).
Lecture du plan factoriel
— La proximité entre une classe d’âge et un type d’activité traduit une association
forte entre ces deux modalités.
9
— Les modalités éloignées de l’origine sont celles qui contribuent le plus à la structu-
ration des axes factoriels.
— Les modalités proches de l’origine présentent un profil moyen et sont peu discrimi-
nantes.
Interprétation graphique Sur l’axe 1, on observe une opposition nette entre :
— les jeunes classes d’âge (ag15, ag20), proches de la modalité etud,
— et les classes d’âge élevées (ag60 à ag75), associées à la modalité inac.
Cet axe traduit principalement une dimension d’âge lié au statut d’activité, opposant la
scolarisation à l’inactivité.
Sur l’axe 2, les classes d’âge intermédiaires (25 à 50 ans) se projettent fortement et
se rapprochent de la modalité occup, ce qui traduit une forte association avec l’activité
professionnelle.
Enfin, la modalité chom apparaît proche de l’origine, indiquant qu’elle ne caractérise
pas fortement un groupe d’âge particulier dans le plan factoriel.
Étape 8 : Synthèse
La synthèse constitue l’aboutissement de l’Analyse Factorielle des Correspondances
(AFC). Elle vise, d’une part, à résumer les principales oppositions mises en évidence
par l’analyse factorielle et, d’autre part, à relier ces résultats à la problématique initiale
portant sur les relations entre classes d’âge et types d’activité.
Au-delà de l’interprétation détaillée des axes factoriels, il est également possible d’ex-
ploiter le positionnement relatif de l’ensemble des profils qui s’expriment correctement
dans le plan factoriel (Axe 1, Axe 2), c’est-à-dire ceux dont les cosinus carrés cumulés
sont suffisamment proches de 1. Cette lecture globale repose sur la règle dite quasi-
barycentrique propre à l’AFC, qui permet d’interpréter les profils lignes en fonction de
leur proximité avec les profils colonnes, et réciproquement.
Principales oppositions mises en évidence
Le premier axe factoriel met en évidence une double opposition. Il oppose, d’une part,
les jeunes âgés de 15 à 19 ans aux personnes âgées de 75 ans et plus, et, d’autre part, les
scolaires-étudiants aux inactifs. Cet axe traduit ainsi une dimension d’âge fortement lié
au statut d’activité, allant de la scolarisation à l’inactivité.
Le deuxième axe factoriel oppose principalement les personnes âgées de 40 à 44 ans
aux personnes de 75 ans et plus. Du point de vue du type d’activité, il met en contraste
les actifs occupés et les inactifs. Cet axe souligne une opposition complémentaire à celle
du premier axe, centrée sur la participation au marché du travail.
Lecture globale du plan factoriel et lien avec la problématique
En s’appuyant sur les propriétés quasi-barycentriques de l’AFC, la structure du tableau
de contingence initial peut être résumée de la manière suivante :
— Les scolaires-étudiants sont essentiellement constitués de personnes âgées de 15
à 19 ans. Les autres classes d’âge, bien qu’exprimées dans le plan factoriel, sont
clairement éloignées de cette modalité.
10
— Les actifs occupés correspondent majoritairement aux classes d’âge comprises entre
25 et 54 ans, et se distinguent nettement des autres tranches d’âge.
— Les inactifs regroupent principalement des personnes âgées de 60 ans et plus, jus-
qu’aux âges les plus élevés, à l’exclusion des autres classes d’âge.
La modalité chômeurs, dont la qualité de représentation cumulée dans le plan (Axe 1, Axe 2)
est correcte, se caractérise par une relative proximité avec les classes d’âge comprises entre
25 et 55 ans, traduisant une plus forte présence de ces âges dans le chômage. Elle est se-
condairement associée, de façon plus faible, aux classes d’âge les plus jeunes et les plus
âgées.
Enfin, le fort regroupement des classes d’âge de 60 à plus de 75 ans témoigne de
leur grande homogénéité du point de vue du type d’activité, ces classes étant toutes
très proches de la modalité inactif. Une observation similaire peut être faite pour les
classes d’âge de 25 à 55 ans, qui forment un ensemble relativement homogène autour de la
modalité actif occupé. À l’inverse, certaines classes d’âge extrêmes occupent des positions
plus isolées et spécifiques dans le plan factoriel.
En conclusion, l’AFC met clairement en évidence une structuration conjointe de l’âge
et du type d’activité, confirmant que la position sur le marché du travail est fortement
déterminée par l’âge, ce qui répond directement à la problématique initiale de l’étude.
11