M2 Pro Ingnierie Mathmatique
Universit d'Angers, Universit de Nantes
Anne 2011-2012
TD de Corrlation
Exercice 1 : Corrlation linaire
On veut tudier la corrlation entre le nombre de vhicules en circulation et le nombre d'accidents
en Suisse. Pour cela, on dispose de 6 observations releves dans 6 cantons suisses :
Canton
VS
BL
SO
FR
TG
NE
Vhicules
132981
112172
109543
108064
103324
78795
Accidents
3335
2224
1758
1661
1941
2391
1. Calculer le coecient de corrlation empirique entre les deux variables.
2. Donner un intervalle de conance 95% pour (X, Y ).
3. On suppose que les deux variables sont normalement distribues. Tester l'hypothse H0 :
(X, Y ) = 0 contre H1 : (X, Y ) 6= 0. Conclure.
4. Aux vues des rsultats, un modle de rgression linaire simple est-il adquate ?
P
P
P
On donne : (xi x
)(yi y) = 23427208.33 ; (xi x
)2 = 1517014451 ; (yi y)2 = 1876231.3.
Exercice 2 : Corrlation partielle
On tudie la qualit d'enseignement de 20 coles des Etats-Unis (Mid-Atlantic et New-England).
On cherche expliquer Y, la moyenne des tests verbaux obtenue pour chaque cole, l'aide des 5
variables suivantes :
X1 : salaire des enseignants par lve ;
X2 : pourcentage des pres cols blancs parmi les lves ;
X3 : statut socio-conomique des familles obtenu en calculant entre la taille des familles, le
niveau d'ducation des parents, et le nombre d'appareils lectro-mnagers dans le mnage ;
X4 : moyenne des tests verbaux des professeurs ;
X5 : moyenne du niveau d'ducation des mres des lves.
On donne la matrice des corrlations :
X1
X2
X3
X4
X5
Y
X1 1 0.1811 0.2296 0.5027 0.1968 0.1923
X2
1
0.8272 0.0511 0.9271 0.7534
1
0.1833 0.8191 0.9272
R=
X3
X4
1
0.1238 0.3336
X5
1
0.7330
Y
1
1. Commenter.
2. Calculer rx3 y.x2 et commenter.
Parfum
Un "nez" note la qualit de n = 10 parfums. La qualit est une variable de 1 10 et les prix des
parfums (en euros) sont prsents dans le tableau ci-dessous :
Parfum
1
2
3
4
5
6
7
8
9
10
Qualit
10
1
2
5
4
3
6
7
9
8
Prix
63.3
40
35
34.3
33
31.6
36.6
32
37.3
35.3
Proposer et discuter l'utilisation des dirents tests pour rpondre la question suivante : les
prix dpendent-ils de la qualit ?
M2 Pro Ingnierie Mathmatique
Universit d'Angers, Universit de Nantes
Anne 2011-2012
TP de corrlation
Exercice 1 : Dcathlon
On veut tudier la corrlation partielle entre les direntes preuves du dcathlon. Pour cela, on
dispose d'un tableau des rsultats de 41 athltes aux 10 preuves du dcathlon des jeux olympiques
(chier "[Link]") :
1. Rcuprer les donnes et rsumer les donnes.
2. Commenter la sortie graphique de la commande plot(decathlon).
3. Calculer la matrice de corrlation empirique R et commenter. Distinguer deux familles de
disciplines.
4. Tester la dpendance linaire entre les variables X100mH et X100m, puis entre les variables
Longueur et X100m l'aide du test de Pearson. Quel est le signe du coecient de corrlation
empirique ? Expliquer.
5. Tester la dpendance entre ces variables, l'aide du test de Kendall et du test de Spearman.
Commenter.
Exercice 2 : Autocorrlation des rsidus
Tester l'autocorrlation des rsidus des rgressions proposes aux TP prcdents l'aide des test
de Durbin-Watson et de Box-Pierce. L'hypothse d'indpendance des rsidus est-elle valable pour
chacune d'entre elle ?
Exercice 3 : Corrlation non-linaire
On tudie l'acclration de la tte d'un motard aprs un choc. Les donnes sont disponibles dans
le chier "[Link]".
1. Rcuprer les donnes et faites une pr-analyse des donnes.
2. Calculer la correlation empirique entre le temps coul aprs le choc et l'acclration de la
tte du motard. Commenter.
3. Tester la corrlation entre les deux variables l'aide des tests de Spearman et Kendall. Que
remarquez-vous ?
Exercice 4 : Esprance de vie
On tudie l'esprance de vie dans 38 pays, en fonction du nombre de TV par habitant et du
nombre de Docteur en Physique par habitant. On dispose aussi de l'esprance de vie des hommes
et des femmes sparemment.
1. Rcuprer les donnes (chier "[Link]") et faites la phase de pr-analyse.
2. Calculer la matrice de corrlation empirique et commenter les rsultats obtenus.
3. Tester la corrlation entre l'esprance de vie et le nombre d'habitants par TV, puis entre
l'esprance de vie et le nombre d'habitants par Docteur en Physique. Que conclure ?
4. Construire un modle de rgression linaire pour expliquer l'esprance de vie en fonction de
ces deux indicateurs.
5. Tester la signicativit du modle et tester l'autocorrlation d'ordre 1 des rsidus l'aide du
test de Durbin Watson, et l'absence d'autocorrlation grce au test de Box-Pierce.