Tableau de contingence et test du khi-deux
On a relevé sur un ensemble d'individus statistiques les valeurs prises par deux variables
qualitatives, comportant un nombre réduit de modalités. On peut rassembler les résultats dans
un tableau de contingence (tri croisé).
Exemple : origine sociale des étudiants de 1ère année et choix d'un secteur disciplinaire à
l'université :
Tableau des effectifs observés Oij
Droit Sciences Médecine IUT Total
Exp. agri. 80 99 65 58 302
Patron 168 137 208 62 575
Cadre sup. 470 400 876 79 1825
Employé 145 133 135 54 467
Ouvrier 166 193 127 129 615
Total 1029 962 1411 382 3784
La première ligne et la première colonne donnent les modalités des deux variables X et Y
étudiées.
On se pose la question suivante : existe-t-il un lien entre l'origine sociale des étudiants (CSP
des parents) et le choix de l'un ou l'autre des secteurs disciplinaires ?
Autrement dit : les variables X et Y sont-elles (statistiquement) dépendantes ?
Le tableau précédent constitue le tableau des effectifs observés Oij.
On forme alors le tableau des effectifs théoriques Tij :
Droit Sciences Médecine IUT
Exp. agri. 82,12 76,78 112,61 30,49
Patron 156,36 146,18 214,41 58,05
Cadre sup. 496,28 463,97 680,52 184,24
Employé 126,99 118,72 174,14 47,14
Ouvrier 167,24 156,35 229,32 62,09
Les valeurs contenues dans ce tableau sont calculées à partir de la formule :
Total ligne i ´ Total colonne j
Tij =
Total Général
302 ´1029
Exemple : 82,12 =
3784
On calcule alors un tableau des contributions au khi-2 :
Droit Sciences Médecine IUT
Exp. agri. 0,05 6,43 20,13 24,83
Patron 0,87 0,58 0,19 0,27
Cadre sup. 1,39 8,82 56,15 60,11
Employé 2,55 1,72 8,80 1,00
Ouvrier 0,01 8,59 45,66 72,12
Chaque contribution est calculée par :
(Oij - Tij ) 2
Ctrij = ;
Tij
Exemple : 0,05 =
(80 - 82,12 )2
82,12
La somme de toutes ces contributions est la distance du c2 séparant ces deux tableaux.
c Obs
2
= å Ctrij = 0,05 + ... + 72,12 = 320,2
i, j
Pour réaliser un test du c2 (ce qui suppose que les données observées constituent un
échantillon tiré au hasard dans une population), on pose les hypothèses :
H0 : Les variables X et Y sont indépendantes
H1 : Les variables X et Y sont dépendantes
Sous l'hypothèse H0, la distance entre les deux tableaux suit une loi du c2 à 12 degrés de
liberté. Ce dernier nombre est défini par la formule :
ddl = (Nb Modalités lignes -1)(Nb Modalités colonnes -1) = 12
On choisit un seuil (5% par exemple) et on lit dans une table la valeur critique correspondante
:
On formule ensuite la règle de décision :
Loi du khi-2
y=ch i2 (x;1 2 )
0 ,1 0
0 ,0 8
0 ,0 6
0 ,0 4
95% 5%
0 ,0 2
0 ,0 0
0 5 10 15 20 25 30
H0 retenue H0 rejetée ; H1 retenue
c 2
Crit = 21,03
Dans notre exemple, le c2 observé est très supérieur au c2 critique. On retient donc l'hypothèse
H1 : il existe un lien entre les deux variables étudiées.
Profils lignes et interprétation
L’un des objectifs de l’analyse descriptive d’un tableau de contingence est
d’analyser les “ressemblances” entre les modalités d’une même variable. Ceci est
l’objectif du calcul des profils
Pour calculer les profils lignes, on divise chaque ligne tu tableau observé par le
total de la ligne.
Tableau des profils lignes
Droit Sciences Médecine IUT Total
Exp. agri. 26% 33% 22% 19% 100%
Patron 29% 24% 36% 11% 100%
Cadre sup. 26% 22% 48% 4% 100%
Employé 31% 28% 29% 12% 100%
Ouvrier 27% 31% 21% 21% 100%
Total 27% 25% 37% 10% 100%
L’interprétation des profils lignes se fait en fixant une catégorie ligne. Par
exemple :
26% des enfants des exploitants agricoles choisissent droit.
On observe que les lignes Exp. Agri. et ouvrier ont presque les mêmes valeurs.
On dit que les deux profils lignes sont semblables
Profils colonnes et interprétation
Pour calculer les profils colonnes, on divise chaque ligne tu tableau
observé par le total de la colonne.
Tableau des profils colonnes
Droit Sciences Médecine IUT Total
Exp. agri. 8% 10% 5% 15% 8%
Patron 16% 14% 15% 16% 15%
Cadre sup. 46% 42% 62% 21% 48%
Employé 14% 14% 10% 14% 12%
Ouvrier 16% 20% 9% 34% 16%
Total 100% 100% 100% 100% 100%
L’interprétation des profils colonnes se fait en fixant une catégorie colonne.
Par exemple :
8 % des étudiants en droit sont issue d’une famille d’exploitants agricoles.
On observe que les colonnes droit et science ont presque les mêmes valeurs. On
dit que les deux profils colonnes sont semblables. C’est à dire que ces deux
établissements ont la même composition en termes d’origine sociale (ou CSP du
père)
Tableau des attractions et répulsions
Les valeurs contenues dans ce tableau sont calculées à partir de la formule :
𝑂$% − 𝑇$%
𝐴𝑡𝑟$% =
𝑇$%
Droit Sciences Médecine IUT
Exp. agri. -0,025865786 0,289449409 -0,422794411 0,902430568
Patron 0,074427684 -0,062807557 -0,029893076 0,068099249
Cadre sup. -0,052954724 -0,137869165 0,287257264 -0,571202754
Employé 0,141791681 0,12023933 -0,22475138 0,145419689
Ouvrier -0,007412675 0,234406639 -0,446200296 1,077793385
Attraction :
Si la valeur de la cellule est positive alors les modalités correspondantes
s’attirent.
Par exemple :
Les modalités Exp agri et IUT s’attirent car la valeur de la cellule est 0,28.
Ceci signifie que les enfants des Exp agri sont souvent attirés par les IUT, plus
que la moyenne nationale.
Répulsion :
Si la valeur de la cellule est négative alors les modalités correspondantes se
repoussent.
Par exemple :
Les modalités Cadres sup et IUT se repoussent car la valeur de la cellule
est – 0,57. Ceci signifie que les enfants des cadres sup choisissent rarement les
IUT, et ce moins que la moyenne nationale.