Cours4 2020
Cours4 2020
Cours 4
R. Billot et G. Coppin
2016 - 2017
Tests Indépendance de variables
Objectifs du cours
Objs:
1 Finir les tests
2 Jouer avec dépendance et indépendance de variables
Tests Indépendance de variables
Petits rappels
Une étude menée fin 2008 sur 298 logements parisiens choisis au
hasard dans l’annuaire assure que le prix du loyer au mètre carré est
de 18,4 euros, avec un écart-type mesuré de 3,2 euros.
• modéliser brièvement la situation
• on suppose que l’enquête est demandée par l’Observatoire des
loyers parisiens. Comment exprimeriez-vous l’intervalle de
confiance relatif au prix moyen du loyer au mètre carré à Paris.
• on suppose que l’enquête est demandée par le Collectif Jeudi
Noir. Même question.
• on suppose que l’enquête est demandée par la Confédération
nationale des propriétaires-bailleurs. Même question.
Tests Indépendance de variables
• Population = ?
• Données / variables = ? Indépendantes ?
• Paramètre d’intérêt (estimateur) = ?
• Intervalle de confiance = ?
Tests Indépendance de variables
Une seule chance, vous avez intérêt à montrer que l’examen était plus
dur cette année, en considérant l’hypothèse H0 µ2014 = µ2013 et donc
la statistique :
√ 10, 8 − 10
T = 30 = 1, 37
3, 2
Et effectivement, la valeur de F −1 (1 − α) pour un test de Student à
90% est de 1,3 .. en unilatère. Vous avez donc intérêt à présenter
l’hypothèse H0 sous la forme unilatère. Sinon, Patrick M. ne vous
rattrapera pas.
Maintenant, les enseignants de LUSSI ne sont pas non plus ignares en
statistiques : que pensez vous que Patrick M. va vous répondre ?
Tests Indépendance de variables
Tests Indépendance de variables
Comparer une distribution Mesures d'une variable Les distributions observée et Les salaires d'une société suivent-ils une Kolmogorov-Smirnov
observée à une distribution quantitative sur un échantillon théorique sont les mêmes distribution normale de moyenne 2500 et
théorique paramètres de la distribution d'écart-type 150?
théorique
Comparer deux distributions Mesures d'une variable Les deux échantillons suivent la Les distributions de poids humain sont- Kolmogorov-Smirnov
observées quantitative sur deux même distribution elles différentes entre ces deux régions?
échantillons
Tests pour les valeurs extrêmes Mesures sur un échantillon L'échantillon ne comprend pas de Cette donnée est-elle une valeur Test de Dixon / test de Grubbs Boxplot
valeur extrême (selon la extrême?
distribution normale)
Tests de normalité d'une série de Mesures sur un échantillon L'échantillon suit une distribution La distribution observée s'écarte-t-elle Tests de normalité
mesures (peuvent être utilisés normale d'une distribution normale?
pour tester les conditions 2, 4, 7)
Tests Indépendance de variables
Rappel Student
On mesure les masses d’une équipe de bons gros gras mesurées avant
et après un régime (draconien). On suppose que les lois sous-jacentes
sont normales.
Sujet 1 2 3 4 5 6 7 8 9 10
Avant 86 92 75 84 66 75 97 67 99 68
Après 66 76 63 62 74 70 86 69 81 92
Différence 20 16 12 22 -8 5 11 -2 18 -24
Rappel Student
On mesure les masses d’une équipe de bons gros gras mesurées avant
et après un régime (draconien). On suppose que les lois sous-jacentes
sont normales.
Sujet 1 2 3 4 5 6 7 8 9 10
Avant 86 92 75 84 66 75 97 67 99 68
Après 66 76 63 62 74 70 86 69 81 92
Différence 20 16 12 22 -8 5 11 -2 18 -24
Sujet 1 2 3 4 5 6 7 8 9 10
Avant 86 92 75 84 66 75 97 67 99 68
Après 66 76 63 62 74 70 86 69 81 92
Différence 20 16 12 22 -8 5 11 -2 18 -24
L’hypothèse nulle est que ces tirages peuvent être obtenus par hasard.
Puisque l’on a 7 différences positives, on évalue
Rang 10 9 8 7 6 5 4 3 2 1
Différence -24 22 20 18 16 12 11 -8 5 -2
les sommes des rangs positifs et des rangs négatifs devraient être
équivalentes.
Tests Indépendance de variables
n n n
X 1X 1X n(n + 1)
E(W+ /R) = ri E(Zi ) = ri = i=
2 2 4
i=1 i=1 i=1
n n n
X 1 X 2 1 X 2 n(n + 1)(2n + 1)
Var(W+ /R) = ri2 Var(Zi ) = ri = i =
4 4 24
i=1 i=1 i=1
On montre que W+ peut être approximée et donc testée par une loi
normale à partir de n = 10 (pour certains auteurs n = 25 ?).
Il suffit donc de tester W+ sur N(E(W+ /R), Var(W+ /R)).
Tests Indépendance de variables
Appliqué à l’exemple
Rang 10 9 8 7 6 5 4 3 2 1
Différence -24 22 20 18 16 12 11 -8 5 -2
W+ = 41
E(W+ /R) = 27.5
Var(W+ /R) = 96.25
ce qui aboutit à Z = 0.14
L’hypothèse nulle peut être conservée avec α = 5%. Pourquoi ?
Tests Indépendance de variables
> [Link](c(20, 16, 12, 22, -8, 5, 11, -2, 18, -24))
Wilcoxon signed rank test
data: c(20, 16, 12, 22, -8, 5, 11, -2, 18, -24)
V = 41, p-value = 0.1934
alternative hypothesis: true location is not equal to 0
Tests Indépendance de variables
Test du χ2
Rappel :
Definition
si X1 , X2 , .., Xk sont des variables aléatoires indépendantes et
identiquement distribuées selon une loi N(0, 1), alors la loi de
X12 + X22 + .. + Xk2 est une loi dite du χ2 à k degrés de libertés et on la
note χ2k .
Tests Indépendance de variables
Utilisation du χ2
Phase Nouvelle lune Premier quartier Pleine lune Dernier quartier Total
Effectif observé 89 88 92 91 360
Effectif théorique 90 90 90 90 360
Tests Indépendance de variables
Valeur du χ2
Table du χ2
χ 2
TABLE DU CHI-DEUX : χ2(n) p
p
n 0.90 0.80 0.70 0.50 0.30 0.20 0.10 0.05 0.02 0.01
1 0,0158 0,0642 0,148 0,455 1,074 1,642 2,706 3,841 5,412 6,635
2 0,211 0,446 0,713 1,386 2,408 3,219 4,605 5,991 7,824 9,210
3 0,584 1,005 1,424 2,366 3,665 4,642 6,251 7,815 9,837 11,341
4 1,064 1,649 2,195 3,357 4,878 5,989 7,779 9,488 11,668 13,277
5 1,610 2,343 3,000 4,351 6,064 7,289 9,236 11,070 13,388 15,086
6 2,204 3,070 3,828 5,348 7,231 8,558 10,645 12,592 15,033 16,812
7 2,833 3,822 4,671 6,346 8,383 9,803 12,017 14,067 16,622 18,475
8 3,490 4,594 5,527 7,344 9,524 11,030 13,362 15,507 18,168 20,090
9 4,168 5,380 6,393 8,343 10,656 12,242 14,684 16,919 19,679 21,666
10 4,865 6,179 7,267 9,342 11,781 13,442 15,987 18,307 21,161 23,209
11 5,578 6,989 8,148 10,341 12,899 14,631 17,275 19,675 22,618 24,725
12 6,304 7,807 9,034 11,340 14,011 15,812 18,549 21,026 24,054 26,217
13 7,042 8,634 9,926 12,340 15,119 16,985 19,812 22,362 25,472 27,688
14 7,790 9,467 10,821 13,339 16,222 18,151 21,064 23,685 26,873 29,141
15 8,547 10,307 11,721 14,339 17,322 19,311 22,307 24,996 28,259 30,578
16 9,312 11,152 12,624 15,338 18,418 20,465 23,542 26,296 29,633 32,000
17 10,085 12,002 13,531 16,338 19,511 21,615 24,769 27,587 30,995 33,409
18 10,865 12,857 14,440 17,338 20,601 22,760 25,989 28,869 32,346 34,805
19 11,651 13,716 15,352 18,338 21,689 23,900 27,204 30,144 33,687 36,191
20 12,443 14,578 16,266 19,337 22,775 25,038 28,412 31,410 35,020 37,566
21 13,240 15,445 17,182 20,337 23,858 26,171 29,615 32,671 36,343 38,932
22 14,041 16,314 18,101 21,337 24,939 27,301 30,813 33,924 37,659 40,289
23 14,848 17,187 19,021 22,337 26,018 28,429 32,007 35,172 38,968 41,638
24 15,659 18,062 19,943 23,337 27,096 29,553 33,196 36,415 40,270 42,980
25 16,473 18,940 20,867 24,337 28,172 30,675 34,382 37,652 41,566 44,314
26 17,292 19,820 21,792 25,336 29,246 31,795 35,563 38,885 42,856 45,642
27 18,114 20,703 22,719 26,336 30,319 32,912 36,741 40,113 44,140 46,963
28 18,939 21,588 23,647 27,336 31,391 34,027 37,916 41,337 45,419 48,278
29 19,768 22,475 24,577 28,336 32,461 35,139 39,087 42,557 46,693 49,588
30 20,599 23,364 25,508 29,336 33,530 36,250 40,256 43,773 47,962 50,892
Pour n > 30, on peut admettre que 2χ2 - 2n-1 ≈ N(0,1)
le point critique vaut 7,82 et notre mesure vaut 3,83 et l’écart est assez petit pour être justifié par le hasard, on conservera donc
l’hypothèse nulle.
Tests Indépendance de variables
Pk (Nj,n −npref
j )
2
• Statistiques de test (effectifs) C = j=1 npref
j
Autre exemple
Mois J F M A M J J A S O N D
Ventes 1 3 4 6 6 5 3 1 2 1 2 2
Qu’en pensez-vous ?
Tests Indépendance de variables
L’hypothèse nulle H0 est que les saisons sont équivalentes pour les
ventes.
On effectue les regroupements par saison :
> [Link](c(8,17,6,5))
Chi-squared test for given probabilities
data: c(8, 17, 6, 5)
X-squared = 10, df = 3, p-value = 0.01857
Tests Indépendance de variables
Quelques explications
95 33
194 × × = 16, 2
194 194
Tests Indépendance de variables
On obtient :
Notes A B C D G Total
Patrick M. 14 15 26 18 22 95
Patrick M. théo 17,1 16,2 24,5 18,1 19,1 95
Gilles C. 21 18 24 19 17 99
Gilles C. théo 17,9 16,8 25,5 18,9 19,9 99
Total 35 33 50 37 39 194
Total 35 33 50 37 39 194
Tests Indépendance de variables
Le dénouement
> [Link](toto)
data: toto
X-squared = 4.5683, df = 4, p-value = 0.3345
> toto <- matrix(c(14, 15, 36, 18, 17, 5, 21, 18, 24, 19, 15, 2), nrow =2, byrow = TRUE)
> [Link](toto)
data: toto
X-squared = 5.3386, df = 5, p-value = 0.376
Message d’avis :
In [Link](toto) : l’approximation du Chi-2 est peut-être incorrecte
Tests Indépendance de variables
Un petit exemple
T2 T2
oui non
T1 oui 200 50 250
T1 non 80 270 350
280 320 600
La proportion de satisfaits est passée de 41.7% à 46.7%. Peu significatif. Mais les échantillons
ne sont pas indépendants.
Tests Indépendance de variables
T2 oui T2 non
T1 oui p11 p12 p1.
T1 non p21 p22 p2.
p.1 p.2
p12 +p21
Avec l’hypothèse nulle, p12 = p21 est estimé par 2
. La statistique est :
n12 +n21 2 n12 +n21 2
(n12 − 2
) + (n21 − 2
) (n12 − n21 )2
D= n12 +n21
=
n12 + n21
2
i i−1
Dks (Fon0 ,saute
F)de=1/nmaxà chaque {| F
observation,
i=1,..,n 0 (X
voir i ) − de la|,figure
l’illustration | F50.
0 (X ) − que
On irappelle |}
la fonction de répartition F de
ref n par
est quant à elle définie
ref n
Fref : x ! {L x} où L⇠ ref .
Le résultat fondamental est que, lorsque ✓0 = ref , alors Fn est très proche de Fref ,
c’est le théorème de Glivenko-Cantelli.
> [Link](rnorm(1000))
Shapiro-Wilk normality test
data: rnorm(1000)
W = 0.9984, p-value = 0.4822
> [Link](rnorm(1000))
Shapiro-Wilk normality test
data: rnorm(1000)
W = 0.9957, p-value = 0.00642
Tests Indépendance de variables
r est très sensible aux points extrêmes et en ce sens n’est pas très
robuste. La relation de corrélation n’est pas transitive.
Tests Indépendance de variables
10
20
5
0
15
-5
y2
y3
-10
10
-15
-20
5
-25
2 4 6 8 10 12 2 4 6 8 10 12
x x
12
12
10
10
8
8
6
y1
y4
6
4
4
2
2
0
2 4 6 8 10 12 4 6 8 10 12
x x2
Tests Indépendance de variables
Validité de la corrélation
On montre que
r √
T=√ n−2
1 − r2
suit une loi de Student à (n − 2) degrés de liberté. De façon pratique,
on rejette l’hypothèse d’indépendance avec un risque 5% quand T est
à l’extérieur de l’intervalle -2, 2.
Dans le cas de l’exemple, on calcule
r = 0.87
T = 11.02
et donc on ne peut pas attribuer la dépendance au hasard.
Tests Indépendance de variables
Validité de la régression
Coefficient de Spearman
Il est courant de ne disposer que d’un ordre sur les individus et non de
variables numériques (ordre de classement, préférences, mesures non
directement utilisables sur une échelle, etc..). On affecte un rang à
chaque individu.
Objet 1 2 .... n
Rang 1 r1 r2 rn
Rang 2 s1 s2 sn
Tests Indépendance de variables
cov(r, s)
rs =
sr ss
Comme les rangs sont des permutations de 1 à n, on sait que
r = s = n+1
2 . Après quelques premiers calculs, on obtient:
1 P n+1 2
n i ri si − ( 2 )
rs = 2
n −1
12
soit
Tests Indépendance de variables
cov(r, s)
rs =
sr ss
Comme les rangs sont des permutations de 1 à n, on sait que
r = s = n+1
2 . Après quelques premiers calculs, on obtient:
1 P n+1 2
n i ri si − ( 2 )
rs = 2
n −1
12
soit
6 i di2
P
rs = 1 −
n(n2 − 1)
avec di = ri − si
Tests Indépendance de variables
Lorsque:
• rs = 1, les deux classements sont identiques
• rs = −1, les deux classements sont inverses l’un de l’autre
• rs = 0, les deux classements sont indépendants
Tests Indépendance de variables
Neuf étudiants ont subi (c’est le mot, les pauvres) deux examens de
statistiques et d’aide à la décision. Les résultats sont les suivants :
Stats 50 23 28 34 14 54 46 52 53
Décision 38 28 14 26 18 40 23 30 27
Stats 6 2 3 4 1 9 5 7 8
Décision 8 6 1 4 2 9 3 7 5
Concrètement ..
2S
τ=
n(n − 1)
• on ordonne les xi de 1 à n.
• on compte pour chaque xi le nombre de yj > yi pour les j > i ce
qui donne R
• S = 2R − n(n−1)
2 et
4R
• τ = n(n−1) −1
Tests Indépendance de variables
Exemple
xi 1 2 3 4 5 6 7 8 9 10
yi 3 1 4 2 6 5 9 8 10 7
6 i di2
P
rs = 1 − = 0.84
n(n2 − 1)
R = 7 + 8 + 6 + 6 + 4 + 4 + 1 + 1 = 37
S = 74 − 45 = 29
donc τ = 0.64
Tests Indépendance de variables
et hop
> x <- c(50, 23, 28, 34, 14, 54, 46, 52, 53)
> y <- c(38, 28, 14, 26, 18, 40, 23, 30, 27)
> cor(x,y, method = "pearson")
0.6794456
> cor(x,y, method = "spearman")
0.6833333
> cor(x,y, method = "kendall")
0.5
Tests Indépendance de variables
Bon appétit !