Introduction à la statistique STT1700
Introduction à la statistique STT1700
STATISTIQUE
STT1700
David Haziza
Département de mathématiques et de statistique
Automne 2016
Qu’est ce que la statistique?
2
Chapitre 1
Statistiques descriptives
4
Exemple 1.1 Le tableau 1.1 présente le salaire annuel
(en millions de dollars américains) des 40 CEO (Chief
Executive Officiers) les mieux payés en 2006 ainsi que
leur âge et leur plus haut diplôme obtenu. Ces données
ont été publiées dans le magazine Forbes, édition du 8
mai 2006.
5
Tableau 1.1 Salaires des CEO (Forbes, 2006)
Rang Nom Compagnie Salaire Age Diplôme
1 Fairbank CapitalOne 249.42 55 MBA
2 Semel Yahoo 230.55 63 MBA
3 Silverman Cendant 139.96 65 Droit
4 Karatz KBHome 135.53 60 Droit
5 Fuld LehmanBros 122.67 60 MBA
6 Irani OccidentalPetro 80.73 71 PhD
7 Ellison Oracle 75.33 61 Aucun
8 Thompson Symantec 71.84 57 Maitrise
9 Crawford CaremarkRx 69.66 57 Bacc.
10 Mozilo Countrywide 68.96 67 Bacc.
11 Chambers CiscoSystems 62.99 56 MBA
12 Dreier RylandGroup 56.47 58 Bacc.
13 Frankfort Coach 55.99 60 MBA
14 Hovnanian HovnanianEnt 47.83 48 MBA
15 Drosdick Sunoco 46.19 62 Maitrise
16 Toll TollBrothers 41.31 65 Droit
17 Ulrich Target 39.64 63 Bacc.
18 Rollins Dell 39.32 53 MBA
19 Cazalot MarathonOil 37.48 55 Bacc.
20 Novak YumBrands 37.42 53 Bacc.
21 Papa EOGResources 36.54 59 MBA
22 Termeer Genzyme 36.38 60 MBA
23 Adkerson FreeportCopper 35.41 59 MBA
24 Sharer Amgen 34.49 58 Maitrise
25 Sugarman IStar 32.94 43 MBA
26 David UnitedTech 32.73 64 MBA
27 Simpson XTOEnergy 32.19 57 MBA
28 Lanni MGMMirage 31.54 63 MBA
29 Jacobs Qualcomm 31.44 64 PhD
30 Bollenbach HiltonHotels 31.43 63 MBA
31 Mulva ConocoPhillips 31.34 59 MBA
32 Mack MorganStanley 31.23 61 Bacc.
33 Williams Aetna 30.87 57 Maitrise
34 Lesar Halliburton 29.36 53 MBA
35 Hanway Cigna 28.82 54 MBA
36 Cayne BearStearns 28.4 72 Aucun
37 Amos Aflac 27.97 54 Bacc.
38 Thiry DaVita 27.89 50 MBA
39 Rowe Exelon 26.9 60 Droit
40 Cornelius Guidant 25.18 62 MBA
6
Le tableau 1.2 représente la distribution de la variable
«Diplôme » dans l’exemple 1.1
7
1.2 Quelques méthodes graphiques
Ici, nous mentionnons quelques méthodes graphiques :
8
Le diagramme à bâtons est une représentation courante
de la distribution d’une variable qualitative.
20
15
Fréquence
10
0
Aucun Bacc. Droit Maitrise MBA PhD
Diplôme
9
Le diagramme circulaire est une autre représentation
courante de la distribution d’une variable qualitative.
10.0%
50.0%
12.5%
10
L’histogramme est la représentation la plus courante de
la distribution d’une variable quantitative. Comment
construire un histogramme?
2,0 3,1 1,9 2,5 1,9 2,3 2,6 3,1 2,5 2,1
2,9 3,0 2,7 2,5 2,4 2,7 2,5 2,4 3,0 3,4
2,6 2,8 2,5 2,7 2,9 2,7 2,8 2,2 2,7 2,1
Solution :
1. On choisit 8 classes.
2. Étendue 3,4 1,9 1,5 . La largeur approximative
des classes est donc : 1,5 / 8 0,1875 .
3. Arrondir 0.1875 à 0.2. Donc, la largeur de la classe
est égale à 0,2.
4. La première classe doit contenir la plus petite valeur,
1,9. Donc la première classe contiendra les données qui
tombent dans l’intervalle [1,9; 2,1), etc.
5. On construit le tableau suivant :
12
Figure 1.3 Histogramme de la variable Moyenne
académique dans l’exemple 1.2
4
Fréquence
0
2.0 2.2 2.4 2.6 2.8 3.0 3.2 3.4
Moyenne académique
13
Remarques :
14
Le graphique « tiges et feuilles » est une autre
représentation courante de la distribution d’une variable
quantitative.
15
Exemple 1.3
Voici les notes de l’examen final pour le cours STT1700.
On cherche à construire un graphique « tiges et
feuilles ».
53 98 54 45
55 85 70 57
48 50 84 49
69 64 73 91
50 100 82 58
83 84 96 52
16 78 70 37
68 83 44 81
61 49 59 72
16
Solution : Les notes varient de 16 à 100. Les tiges seront
donc données par : 1, 2, 3,…, 10.
1 6
2
3 7
4 45899
5 002345789
6 1489
7 00238
8 1233445
9 168
10 0
18
Le mode
Le mode d’une série de données est défini comme la
donnée qui a la plus grande fréquence (i.e., la donnée
qui apparait le plus de fois).
La moyenne arithmétique
Soit x1, x2, ... , xn une série de n données. Leur moyenne
arithmétique est définie par
x xi
1 n
n i 1
19
Remarque : Soit une série de n données, y1 ,..., yn et
supposons que les yi s’écrivent comme yi a bxi .
Si l’on connait la moyenne arithmétique des xi , alors
il est facile d’obtenir la moyenne arithmétique des yi :
y a bx
22, 28, 18, 29, 34, 20, 25, 37, 16, 24.
1 F = (9/5) x 1 C +32
Afin de calculer la moyenne des 10 jours en
Fahrenheit, on pourrait transformer en Fahrenheit
chacune des données et calculer la moyenne des
données transformées. On peut obtenir la moyenne en
degrés Fahrenheit plus rapidement en calculant :
20
La médiane
La médiane est la donnée centrale d’une série, lorsque
les données sont rangées en ordre croissant ou
décroissant.
est 7.
1, 3, 5, 7, 9 , 10, 13, 15
est (7 + 9)/2 = 8.
21
Remarques :
22
1.4 Mesures de dispersion
L’étendue
L’étendue est définie comme la différence entre la plus
grande donnée et la plus petite donnée.
18 13 11 22 1 4 6 17 8
23
Écart-type et variance
( x x )
n 2
s2 i 1 i
n 1
i1 i
( x x )
n 2
s
n 1
Formules de calcul:
On démontre facilement que
i1 i
( x x ) i1 i
x nx
n 2 n 2 2
n 1 n 1
24
Remarques :
x x 0.
n
(1) i
i 1
(2) Soit yi a bxi où a et b sont des constantes. Soit
sx2 la variance des xi et s y2 la variance des yi . On
démontre aisément les relations suivantes:
s 2y = b2 sx2 , et donc s y b sx .
25
(4) Il est parfois utile de connaitre la position relative
d’une observation. Par exemple, dans le contexte d’un
examen, vous voudriez peut être savoir comment votre
note se compare à celle des autres étudiants dans la
classe. Un exemple d’une mesure de position relative est
la cote z :
xx
z=
sx
26
Exemple 1.7 Considérons les données de l’exemple 1.5.
Après calculs, on obtient s x 6.78. On a le tableau
suivant :
xi zi
22 -0.48650
28 0.39805
18 -1.07620
29 0.54547
34 1.28259
20 -0.78135
25 -0.04423
37 1.72486
16 -1.37104
24 -0.19165
x 25.3; sx 6.78 z 0; sz 1
27
L’écart interquartile (interquartile range)
IQR Q3 Q1
28
n 1
Q1 est la donnée en position et Q3 est la
4
3 n 1
donnée en position .
4
n 1 3 n 1
Rien ne garantit que les valeurs et
4 4
seront entières. Dans ce cas, les positions des
quartiles sont déterminées par interpolation.
29
Exemple 1.8 On a 26 données
56
La médiane est donnée par 5,5
2
La position de Q1 est donnée par 27/4 = 6,75. Donc Q1
est donnée par la valeur à ¾ de la distance entre les
valeurs 3 et 4 et on a Q1= 3,75.
Donc,
IQR Q3 Q1 = 8,25-3,75 = 4,5.
30
Remarques:
(1) Contrairement à s 2 , l’IQR est une robuste aux
valeurs aberrantes.
31
1.5 Une autre méthode graphique : Le diagramme en
boite ou boxplot
200
190
180
170
Taille
160
150
140
130
33
On peut également faire des « side-by-side boxplots »
qui permettent de comparer la distribution d’une
variable quantitative selon les modalités d’une variable
qualitative. La Figure 1.8 représente 2 « side by side
boxplots » décrivant la taille (en cm) selon le sexe.
200
190
180
170
Taille
160
150
140
130
F M
Sexe
34
1.6 Une règle empirique : la règle 68-95-99
35
Remarques :
36
1.7 Corrélation et droite des moindres carrés
37
Figure 1.9 Relation entre la note de l’intra 1 et celle de
l’intra 2 dans le cours STT1700 de la session d’automne
2010
38
Un indice de la force d’une relation linéaire est le
coefficient de corrélation r, une mesure définie par
i1 ( xi x )( yi y )
n
r
i1 i
( x x ) i1 i( y y )
n 2 n 2
n 1 i 1 sx
1 n ( xi x ) ( yi y )
sy
Remarques :
(1) -1 ≤ r ≤ 1
(2) |r| = 1 si et seulement si il existe des
constantes a et b telles que yi = a + bxi pour
tout i, c’est-à-dire, si et seulement si les points
du nuage se situent tous sur une même droite.
(3) r 0 lorsqu’on a une association positive et
r 0 lorqu’elle est negative.
39
(4) La corrélation est définie comme le produit
xi x
croisée (divisée par n 1 ) des quantités et
sx
yi y
. La corrélation demeure donc inchangée si on
sy
change les unités de mesure de l’une et/ou de l’autre
variable.
40
Figure 1.10 Différent types de relations
Formule de calcul
La formule suivante permet de calculer le coefficient de
corrélation plus aisément:
r xi yi nxy
i x 2
nx 2
iy 2
ny 2
41
Droite des moindres carrés
Lorsque le nuage de points montre qu’il existe une
relation entre deux variables, et que cette relation est
linéaire, il est bon de l’exprimer à l’aide de l’une
équation d’une droite,
y a + bx.
D= i1 i i
( y y
ˆ )
n 2
42
La droite des moindres carrés est celle qui minimise D.
Le problème est donc
minimiser D i1 i
e i1 i i
( y y
ˆ )
n2 n 2
( yi a bxi )2
n
i 1
par rapport à a et b.
43
Les valeurs de a et b qui minimisent D satisfont:
2 ( yi a bxi ) 0,
D n
a i 1
2 ( yi a bxi ) xi 0.
D n
b i 1
i1 yi a bxi xi y y bx bx x
n n
y y b( x x ) x
i 1 i i i
n
y y x b x x x
i 1 i i i
n n
i 1 i i i 1 i i
ce qui entraîne
y yx .
n
b
x xx
i 1 i i
n
i 1 i i
44
Il existe une autre expression pour le numérateur. Notez
que
i1 ( xi x )( yi y ) = i1 xi ( yi y ) -
x ( yi y )
n n n
= x ( y y) - x
i 1
( yi y )
n n
= x ( y y),
i 1 i i i 1
n
i 1 i i
x x y y
n
i i
b i 1
.
xi x
n
2
i 1
45
Les coefficients de la droite des moindres carrés sont
donc:
x x y y
n
i i
b i 1
, et a = y - b x .
x x
n
2
i
i 1
n xi yi xi yi
n
n n
b i 1 i 1 i 1 .
n xi2 xi
n n 2
i 1 i 1
46
Remarques :
sx s
r b , et donc b r y
sy sx
47
Figure 1.12 Droite des moindres carrés dans l’exemple
1.7
48
Exemple 1.10 Une étude sur la nutrition dans les pays en
voie de développement a recueilli des données dans le
village de Nahya en Égypte. Le tableau 1.4 exhibe le
poids moyen de 170 enfants de Nahya qui ont été pesé
tous les mois durant leur première année de vie.
1 4,3 7 7,2
2 5,1 8 7,2
3 5,7 9 7,2
4 6,3 10 7,2
5 6,8 11 7,5
6 7,1 12 7,8
49
Figure 1.13 Droite des moindres carrés dans l’exemple 1.10
50
Chapitre 2
Probabilités
51
Définitions
52
Exemple 2.1
On tire une personne aléatoirement dans la population et
on recueille son groupe sanguin. On a Ω = {A, B, AB,
O}. Les événements E1 A , E2 B , E3 AB et
E4 O sont les événements élémentaires.
Exemple 2.2
1) Expérience: Lancer deux pièces de monnaie : Ω =
{PP , PF , FP , FF}.
Combinaisons d'événements
Opération Sens concret
AB équivaut à l’énoncé « A ou B s’est
Réunion
produit ».
AB équivaut à l’énoncé « A et B se sont
Intersection
produits ».
Complémen Ac équivaut à l’énoncé « A ne s’est pas
tation produit ».
A - B (ou A\B) équivaut à l’énoncé « A s’est
Différence produit mais pas B » .Notez que A \ B =
ABc.
54
Lois de Morgan:
(AB)c = AcBc
et
(AB)c = AcBc.
Décomposition utile:
A = (AB) (ABc),
(AB)(ABc) = Ø.
55
Événement impossible et événement certain.
Formellement,
56
Exemple 2.3 On tire au hasard une personne au
hasard dans une certaine population.
57
Axiomes
Propriétés
1 P Ac 1 P A
58
3 P A P A B P A B c
59
Exemple 2.4 Soit A et B deux événements tels que
Déterminer : a) P A B ; b) P Ac B c ;
c) P B Ac .
Solution :
60
Exemple 2.5 Un étudiant prend un cours de biologie
et un cours de statistique. La probabilité qu’il
réussisse le cours de biologie est 0,5 alors que la
probabilité qu’il réussisse celui de statistique est 0,7.
La probabilité qu’il réussisse les deux cours est 0,3.
Déterminer :
a) La probabilité qu’il réussisse au moins un cours.
b) Il échoue aux deux cours.
c) Il échoue au cours de statistique mais réussit le
cours de biologie.
Solution :
61
2.2 Attribution des probabilités
0 ≤ p() ≤ 1
pour tout . De plus, la somme des probabilités de
tous les éléments de est égale à 1
p( ) = 1.
62
1/2. En général, si contient n résultats équiprobables,
alors chacun a probabilité 1/n.
63
Probabilité d'un événement
P ( A) P ( )
A
Card ( A)
P ( A)
Card ()
64
2.3 Probabilités conditionnelles
Afin de saisir la notion de probabilité conditionnelle,
considérons les exemples suivants :
65
Remarques Dans les exemples précédents, soit A : la
personne est francophone et B : la personne tirée vient
du Québec. Alors, P A B 0.8 .
Définition La probabilité
conditionnelle d'un événement B étant
donné un événement A, dénotée par
P(B|A), est définie par
P( A B)
P ( B | A)
P ( A)
66
La notion de probabilité conditionnelle permet de donner
une formule générale de la probabilité de l'intersection de
deux événements A et B, formule qui découle
immédiatement de la définition formelle de probabilité
conditionnelle:
P ( A B ) P ( A) P ( B | A)
P( A B) P( B) P( A | B)
67
Exemple 2.6
68
Exemple 2.7 Tirages successifs sans remise
69
Exemple 2.8 Afin de déterminer les intentions de vote
de la population, 100 personnes ont été interviewées et
on leur a demandé pour quel parti politique A, B, C, elles
allaient voter. Les données sont exhibées dans le tableau
ci-dessous.
Parti
A B C
Sexe
Hommes 13 21 19
Femmes 20 8 19
70
Solution : Soient
A : la personne tirée vote pour A.
B : la personne tirée vote pour B.
C : la personne tirée vote pour C.
H : la personne tirée est un homme.
F : la personne tirée est une femme.
71
2.4 Indépendance d'événements
P(B|A) = P(B).
72
Cette définition est équivalente à chacune des deux
suivantes:
P(A|B) = P(A) , P(B|A) = P(B),
Remarques
73
Exemple 2.9 Épreuves indépendantes
74
Dans plusieurs applications, les épreuves indépendantes
prennent la forme de tirages successifs avec remise.
75
Exemple 2.11 On tire au hasard une personne d'une
certaine population. Considérons les événements
suivants:
A: La personne choisie a les yeux bleus
B: La personne choisie a les yeux bruns
C: La personne choisie a les cheveux blonds
D: La personne choisie est en faveur de la
peine capitale pour tout meurtre
E: La personne choisie est en faveur de la
peine capitale pour le meurtre d'un policier
Dire si les propositions suivantes sont vraies ou
fausses. Discutez.
a) A et B sont indépendants
b) A et B sont incompatibles
c) P(AB) = 0
d) E D
e) P(A|C) > P(A)
f) A et D sont indépendants
g) B et D sont incompatibles
h) P(D) > P(E)
i) P(D|E) = P(D)/P(E)
j) P(E|D) = 1
k) P(DE) = P(E).
76
Généralisation de la notion d’indépendance à plusieurs
événements
P ( A1 A2 ... An ) P ( A1 ) P ( A2 )...P ( An )
P ( Ai Ai ... Ai ) P ( Ai ) P ( Ai )...P ( Ai )
1 2 k 1 2 k
77
Exemple 2.12 Indépendance de 3 événements
P(BC) = P(B)P(C),
ainsi que
P(ABC) = P(A)P(B)P(C).
78
Ch ap it re 3
Va ri ab les al é ato ire s d is crè te s
3.1Variables aléatoires
Une variable aléatoire, généralement dénotée par une
lettre majuscule comme X, Y, Z, est une caractéristique
numérique des résultats d'une expérience. C’est une
fonction qui fait correspondre un nombre à chaque
élément de l’espace échantillon.
Définition
Une variable aléatoire est une fonction X qui fait
correspondre à chaque élément un nombre
X().
79
Exemple 3.1 Le nombre X de faces lorsqu’on lance une
pièce de monnaie trois fois, est une variable aléatoire:
c’est une correspondance entre les éléments de l’espace
échantillon et les valeurs de la variable aléatoire. La
correspondance pour X est la suivante:
Ici, on a
80
Si on a déjà établi une probabilité sur, il est aisé de la
"transporter" à l'ensemble des valeurs de X. Supposons,
par exemple, qu'on ait admis l'équiprobabilité des 8
résultats dans . Alors,
81
Variables aléatoires discrètes : ce sont celles dont les va-
leurs forment un ensemble fini, ou infini dénombrable
(comme l’ensemble des entiers, par exemple).
D = {x | P(X = x) > 0}
82
Fonction de masse
p(x) = P[X = x]
83
Exemple 3.2 Nombre de FACE en trois lancers
x 0 1 2 3
p(x) 1/8 3/8 3/8 1/8 1
Figure 3.1
Distribution de X: nombre de FACE en trois lancers
84
Exemple 3.3 Deux dés: somme des résultats
On lance deux dés. Soit X la somme des deux résultats
obtenus. Déterminer la fonction de masse p de X
x 2 3 4 5 6 7 8 9 10 11 12
p(x) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/362/361/361
85
Propriétés d’une fonction de masse
p ( x ) 0 et p ( x) = 1
x
Fonction de répartition
La fonction de répartition est une autre fonction associée
à une variable aléatoire. En voici une définition:
F ( x) p (k )
kx
86
Voici la fonction de répartition de la variable définie à
l’exemple 3.3.
0 si x 2
1/ 36 si 2 x 3
3 / 36 si 3 x 4
6 / 36 si 4 x 5
10 / 36 si 5 x 6
15 / 36 si 6 x 7
F ( x)
21/ 36 si 7 x 8
26 / 36 si 8 x 9
30 / 36 si 9 x 10
33 / 36 si 10 x 11
35 / 36 si 11 x 12
1 si 12 x
87
La figure 3.2 présente la fonction de masse de la variable
définie à l’exemple 3.3.
Figure 3.2
Fonction de répartition de
X: la somme des résultats obtenus en deux lancers d’un
dé
88
Propriétés d’une fonction de répartition
1. 0 ≤ F(x) ≤ 1;
2. F est croissante;
89
3.2 - Espérance et variance d'une variable aléatoire
E ( X ) xp ( x )
x
90
Exemple 3.4 Une compagnie d'assurance offre une
police d'annulation de voyage (seule cause d'annulation
acceptée: maladie). La prime est de 72 $ par personne;
le coût pour la compagnie d'assurance est de 800 $
lorsqu'il y a annulation. Supposons que, d'après les
statistiques, la probabilité qu'un client tombe malade (et
donc annule son voyage) est de 0,02. Déterminer
l’espérance du gain de la compagnie lorsqu'elle assure
une personne (négligez tous frais, sauf le versement de
800 $ s'il y a lieu).
Solution :
91
Exemple 3.5 Le jeu de la roulette utilise un plateau
comprenant 38 cases dont 36 sont numérotées 1, 2,…,
36, et les deux dernières sont numérotées 0 et 00. Le
croupier lance une boule dans le sens inverse de la
rotation de la roulette qui va s’arrêter sur un numéro (le
numéro gagnant!) de la roulette. On considère deux
versions du jeu (en pratique, il existe plusieurs autres
versions).
92
Espérance mathématique d’une fonction de X
Par exemple, si ( X ) X 2 , on a
E X 2 x 2 p( x ).
x
Ou encore, si ( X ) e X , on a
E e X e x p( x ).
x
Interprétation de l’espérance
93
Variance d’une variable aléatoire
Var X X2 E X 2 2
Démonstration :
94
Définition L'écart-type d'une variable aléatoire
sa variance:
X = Écart-type de X = Var ( X )
Solution :
95
Fonction affine d'une variable aléatoire
Y = |b| X
Démonstration :
96
Exemple 3.7 Espérance, variance et écart-type d'une
fonction affine
Solution :
97
3.3 - Plusieurs variables
Un même contexte expérimental peut donner lieu à
plusieurs variables aléatoires. Si, par exemple, on tire au
hasard un ménage dans un quartier, on peut observer X,
le revenu du ménage; ou Y, le nombre d'enfants; ou
encore Z, le nombre de chambres à coucher. Il arrive
également qu'on définisse de nouvelles variables aléatoi-
res comme fonctions de variables observées. Le plus
souvent, ce sont des sommes qu'on calculera, ou des
fonctions linéaires. Par exemple, si X est le revenu du
père de famille, Y celui de la mère, alors dans les enquê-
tes sociales ou économiques on s'intéressera
particulièrement au revenu du couple, Z = X + Y. Que
peut-on dire de l’espérance ou de la variance d’une
somme de variables aléatoires? Il y a un théorème qui
montre comment calculer l’espérance d’une fonction
linéaire de variables aléatoires:
i 1
E ai X i ai E X i ai i
n n
i 1
n
i 1
98
Corollaires
1 E X i i : l’espérance d’une somme de
n
i 1
n
i 1
a) E X i n .
n
i 1
1 n
b) Si X X i alors E( X ) = µ.
n i1
99
Théorème 3.4 Soit X 1 ,..., X n n variables aléatoires
indépendantes de moyennes µ1,... , µn et de variances
12 ,... , 2n . Soit a1 ,..., an n constantes. Alors
i 1
Var ai X i ai Var X i ai2 i2
n n
i 1
2
n
i 1
Corollaires
1. Var X i i : la variance d’une somme de
n n 2
i 1 i 1
variables aléatoires indépendantes est égale à la
somme des variances.
a) Var X i = n2.
n
i 1
1 n
b) Si X X i , alors Var( X ) = 2/n.
n i1
100
Exemple 3.8 On suppose que le poids (en kg) des adultes
se distribue avec une moyenne de 64 et un écart-type de
12. Soit X le poids total de 14 personnes qui s'entassent
dans un ascenseur. Calculez l'espérance mathématique et
la variance de X.
Solution :
101
Exemple 3.9 Pour chacune des paires de variables
aléatoires X et Y, dites si d'après vous X > Y ou si
Y > X :
a) X: La valeur d'une action que vous venez d'acheter,
dans une semaine;
Y: La valeur d'une action que vous venez d'acheter,
dans un an.
102
e) X: Le temps d'attente dans une file où il n'y a qu'une
personne devant vous;
Y: Le temps d'attente dans une file où il y a 2
personnes devant vous.
f) X: La proportion d'objets défectueux dans un
échantillon de 10 objets tirés d'une certaine population;
Y: La proportion d'objets défectueux dans un
échantillon de 100 objets tirés d'une certaine population.
g) X: Le nombre d'objets défectueux dans un échantillon
de 10 objets tirés sans remise d'une certaine population;
Y: Le nombre d'objets défectueux dans un échantillon
de 10 objets tirés avec remise d'une certaine population;
h) X: Le revenu moyen de 10 familles choisies au hasard
dans une population;
Y: Le revenu moyen de 100 familles choisies au
hasard dans une population.
103
Théorème 3.5 Soit X 1 ,..., X n n variables aléatoires
indépendantes de moyennes µ1, ... , µn Alors
104
La loi binomiale s’applique à toute expérience qui
satisfait les conditions suivantes:
(i) Elle est composée d’une suite de n épreuves
indépendantes.
(ii) Chaque épreuve peut donner lieu à deux résultats, «
succès » et « échec » . Ces épreuves sont souvent
appelées « épreuves de Bernoulli. ».
(iii) La probabilité p de succès à chaque épreuve reste
fixe.
105
Exemples 3.10
106
Si X ~ B(n ; p) alors la fonction de masse de X est
donnée par
p(x) P{X x} nx p x (1 p ) n x ,
x = 0,1,…,n.
où
n n!
x x !(n x )!
Démonstration :
107
Exemple 3.11
On choisit au hasard une famille, parmi les familles
ayant 5 enfants. Quelle est la probabilité qu’il y ait
moins de deux filles dans cette famille?
Solution : En supposant l’indépendance entre les
naissances (relativement au sexe de l’enfant), le
nombre de filles dans une famille de cinq enfants est
une B(5 ; 0,5). Par conséquent, la probabilité
cherchée est:
P(X ≤ 1) = P{X = 0}+ P{X = 1} =
5 1 1
5 1 1
0 1 = 6/32.
0 5 1 4
Figure 3.2
Fonction de masse d’une variable X ~ B(5 ; 0,5)
108
Exemple 3.12 Détermination de n
Les 25 employés d’un certain bureau organisent une
loterie. Ils sont numérotés de 1 à 25 et chaque
semaine un numéro est choisi au hasard parmi les
nombres de 1 à 25. L’employé qui porte ce numéro
gagne un prix de 25 $. Jean se demande combien de
semaines la loterie doit durer afin qu’il ait au moins
70% des chances de gagner le prix durant cette pé-
riode.
0 n n
P(X = 0) = n
0
1 24
25 25
24
25
< 0,30
ln(0,3)
On veut donc que n > 29,4933. La
ln(24 / 25)
loterie devra donc durer au moins trente semaines
pour que Jean ait au moins 70% des chances de
gagner une fois.
109
Exemple 3.13 : Dans un village où ont été entreposés des
déchets chimiques, on constate que 8 personnes ont été
atteintes d’une certaine sorte de cancer dans une période
de 5 ans. Étant donné que la population du village n’est
que de 8 000, ce nombre semble excessif. Une
commission chargée de déterminer si les déchets chi-
miques ont contribué à hausser le taux prélève des
données sur les populations de plusieurs villages de taille
et situation comparables. La commission découvre que
durant la même période, il y a eu 588 cas dans un bassin
de population de 2 350 000 habitants. Considérer ce taux
comme un taux normal (et connu sans erreur) pour cal-
culer la probabilité d’avoir 8 cas ou plus dans une
population de 8 000. Expliquer ce que ce calcul peut
contribuer à la question posée par la commission.
Solution :
110
Exemple 3.14 : Depuis 1988, le gouvernement américain
a exigé la peine de mort dans 36 cas impliquant des
trafiquants de drogues. Des 36 trafiquants, 4 seulement
étaient de race blanche. On sait par ailleurs que 75% des
accusés (de trafic de drogues) sont blancs. Donner un
argument aussi complet que possible pour démontrer
qu’il y a une discrimination systémique en faveur des
blancs. Les données proviennent des promoteurs d’un
projet de loi appelé The Racial Justice Act qui a été à
l’étude au Congrès américain. Le but de ce projet était
de permettre à une personne de race noire condamné à
mort de présenter pour sa défense une argumentation
semblable à celle que vous donnerez. Le projet n’a pas
été adopté.
Solution :
111
3.5 – Une généralisation la loi binomiale : la loi
multinomiale
L’expérience de Bernoulli est une expérience où les seuls
résultats possibles sont {Succès; Échec}. Une loi bino-
miale est constituée d’expériences de Bernoulli. On peut
facilement s’imaginer des contextes où les résultats sont
plus nombreux.
112
Notons qu’un individu donné ne peut choisir qu’une
seule occupation. Ainsi, à un individu i donné, on peut
associer un vecteur Xi de 6 composantes, où apparaît un
1 dans la position 1 et des 0 ailleurs s’il est travailleur, un
1 en position 2 et des 0 ailleurs s’il est à la recherche
d’un emploi, etc. Il s’agit d’une simple extension de
l’expérience de Bernoulli. Si nous interrogeons n per-
sonnes afin de connaître leur occupation, on pourra
déterminer combien parmi elles travaillent, combien
étudient, etc. Nous pouvons présenter cette information
sous la forme d’un vecteur: (x1; x2; …; xk). Cette
notation signifie que parmi les n individus interrogés, x1
se déclarent travailleurs, x2 se considèrent étudiants, etc.
113
Une expérience aléatoire est une expérience de Bernoulli
généralisée si, et seulement si, elle conduit à k résultats
possibles. Les k résultats possibles sont, par convention,
{R1; R2; …; Rk} et nous dénotons par pk P{Rk}. On
dénote le résultat d’une expérience de Bernoulli
généralisée par un vecteur ayant des zéros partout sauf en
position i, où nous plaçons un 1 signifiant que Ri s’est
réalisé.
n n!
x ,..., x x !... x !
1 k 1 k
n n! n
Notons que
n x x !( n x)! x
de sorte que le coefficient binomial n’est autre qu’un
coefficient multinomial avec k 2.
114
Définition Une variable multinomiale est une variable
aléatoire (vectorielle), X = (X1, X2, ... , Xk), comptant le
nombre d’occurrences de chacune des k catégories de
résultat dans une suite de n expériences de Bernoulli
généralisées indépendantes et où la probabilité
d’appartenir à la ie catégorie est pi. Chacune des
composantes prend sa valeur dans l’ensemble
{0; 1; …; n}. Notons que x1 x2 … + xk n. De plus,
on a
n x1 x2
P X ( x1 , x2 , ... , xk ) p1 p2 ... pkxk
x1 x2 ... xk
115
Exemple 3.15 Dans une certaine province trois partis
sont en lice. Si dans la population 50% des gens
favorisent le parti A, 40% le parti B, et 10% le parti C,
calculons la probabilité que sur 6 personnes choisies au
hasard dans cette province, 3 favorisent A, 1 favorise B et
2 favorisent C.
Par conséquent,
n
P[X = (3 , 1 , 2)] = (0,5) (0,4) (0,1)
3 1 2
31 2
6!
0,125 0,4 0,01 0,03
3!1! 2!
116
Chapitre 4
Variables aléatoires continues
117
Fonction de répartition
La fonction de répartition F ~ [0 ; 1], est définie,
dans le cas continu comme dans le cas discret, par
F(x) = P[X ≤ x], x
Une fonction de répartition jouit des propriétés suivantes.
1. 0 ≤ F(x) ≤ 1;
118
Fonction de densité
Une variable aléatoire X est dite continue si elle possède
une fonction de densité, c'est-à-dire, s’il existe une fonc-
x
F(x) f (t )dt
où f satisfait les conditions suivantes:
1. f(x) ≥ 0, x ;
2. f admet au plus un nombre fini de
discontinuités sur chaque intervalle fini de ;
f (t ) dt 1.
3.
119
Figure 4.1 Fonction de densité
Si a ≤ b, P (a X b) f ( x )dx .
b
120
Remarque Relation entre une fonction de masse et une
fonction de densité
Le premier graphique ci-dessous (Figure 4.2) présente la
distribution des tailles (en pouces) d’un groupe d’adultes.
Les tailles sont arrondies à l’entier le plus proche; il
s’agit donc d’une variable discrète qui ne prend que des
valeurs entières comme 64, 65, 66, etc.
Dans la représentation graphique, les probabilités,
indiquées sur l’axe vertical, sont proportionnelles aux
hauteurs des rectangles. Mais puisque les bases sont de
même largeur, les probabilités sont également
proportionnelles aux aires des rectangles. Nous voulons
préserver cette propriété des représentations par
histogramme.
Dans le deuxième graphique, les tailles sont
arrondies au demi-pouce le plus proche. Il s’agit donc
d’une variable discrète encore, prenant les valeurs 64;
64,5; 65; 65,5, etc. On a gardé la même échelle, mais
cette fois-ci, la hauteur d’un rectangle, indiquée sur l’axe
vertical, représente la probabilité divisée par la largeur
(0,5) de l’intervalle; donc la hauteur représente la densité
de probabilité et non la probabilité comme telle. Ici
aussi, la probabilité d’une valeur est représentée par
l’aire d’un rectangle, c’est-à-dire, par la densité
multipliée par la base.
121
Dans le troisième graphique, le processus se poursuit
avec une variable dont l’écart entre les valeurs est de 0,2
pouces. On conçoit bien qu’à la limite l’histogramme
converge vers une courbe dans laquelle la probabilité
d’un intervalle est donnée par l’aire de la surface sous la
courbe au-dessus de l’intervalle.
122
123
Espérance et variance d’une variable aléatoire continue
E X xf ( x)dx
et
V X x X f ( x )dx
2
124
4.3 Loi normale
2
125
La figure 4.3 présente les graphiques de la densité d’une
loi normale de moyenne 0 et de variance égales à 1, 5 et
10. Une densité normale est une courbe symétrique par
rapport à sa moyenne et présente des points d’inflexion
de part et d’autre de celle-ci, à une distance d’un écart-
type.
0,4 StDev
1
5
10
0,3
Density
0,2
0,1
0,0
-30 -20 -1 0 0 10 20 30
X
f ( x)dx 1
On peut vérifier que
126
Théorème 4.2 Toute fonction linéaire d'une variable
normale est normale
Si X ~ N(µ ; 2 ) et Y a + bX alors
Y ~ N(a + bµ ; b2 2 )
Corollaire Si X : N(µ ; 2 ), alors
X
Z ~ N (0 ; 1)
1
e dx
b
(1/ 2 )( x ) /
P(a < X < b) =
2 2
a
2
Calculs de probabilités
127
Exemple 4.1 Calcul des probabilités pour une
normale centrée-réduite
Soit Z ~ N(0 ; 1). Calculer
Solution :
128
Pour des variables normales de moyenne et variance
quelconques, il faut pouvoir «ramener» une normale
arbitraire N(µ ; 2 ) à une N(0 ; 1).
Solution :
129
Variables normales indépendantes
i 1
130
Cas particuliers importants du Théorème 4.3 :
n
131
Exemple 4.3 On prélève un échantillon de n = 15
factures d'une très grande population de moyenne µ =
300 $ et écart-type = 60 $. Quelle est la probabilité
que la valeur moyenne de l'échantillon se situe à 10 $ ou
moins de la moyenne de la population)? On suppose que
la population est normale.
Solution :
132
4.4 Théorème limite central
133
Afin de mieux comprendre le TLC, considérons les
exemples suivants :
134
Question Puisque X est une variable aléatoire, quelle
est sa distribution? Cette distribution est appelée
distribution d’échantillonnage.
2 x (2)
1 , x2(2) ,..., x10(2) X2
3 x (3)
1 , x2(3) ,..., x10(3) X3
. . .
. . .
50 x(50)
1 , x2(50) ,..., x10(50) X 50
135
Les figures suivantes montrent la distribution de X pour
R échantillons de taille n 10 et n = 30. Ici,
R 10;100;1000 et 10000.
136
Histogramme pour 10 échantillons avec n = 10
3
Fréquence
0
2.0 2.5 3.0 3.5 4.0 4.5
Moyenne échantillonnale (Xbar)
16
14
12
10
Fréquence
0
2.8 3.2 3.6 4.0 4.4
Moyenne échantillonnale (Xbar)
137
Histogramme pour 1000 échantillons avec n = 10
160
140
120
100
Fréquence
80
60
40
20
0
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
Moyenne échantillonnale (Xbar)
700
600
500
Fréquence
400
300
200
100
0
2.0 2.5 3.0 3.5 4.0 4.5 5.0
Moyenne échantillonnale (Xbar)
138
Histogramme pour 10 échantillons avec n = 30
3
Fréquence
0
2.8 3.0 3.2 3.4 3.6 3.8 4.0
Moyenne échantillonnale (Xbar)
12
10
8
Fréquence
0
2.7 3.0 3.3 3.6 3.9 4.2
Moyenne échantillonnale (Xbar)
139
Histogramme pour 1000 échantillons avec n = 30
90
80
70
60
50
Fréquence
40
30
20
10
0
2.75 3.00 3.25 3.50 3.75 4.00 4.25
Moyenne échantillonnale (Xbar)
800
700
600
500
Fréquence
400
300
200
100
0
2.4 2.7 3.0 3.3 3.6 3.9 4.2 4.5
Moyenne échantillonnale (Xbar)
140
Exemple 4.5 Considérons la distribution exponentielle.
Si X a une distribution exponentielle, alors sa fonction de
densité est de la forme
141
Histogramme pour 10 échantillons avec n = 10
3.0
2.5
2.0
Fréquence
1.5
1.0
0.5
0.0
0.4 0.6 0.8 1.0 1.2 1.4
Moyenne échantillonnnale (Xbar)
16
14
12
10
Fréquence
0
0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8
Moyenne échantillonnale
142
Histogramme pour 1000 échantillons avec n = 10
140
120
100
80
Fréquence
60
40
20
0
0.3 0.6 0.9 1.2 1.5 1.8 2.1 2.4
Moyenne échantillonnale (Xbar)
600
500
400
Fréquence
300
200
100
0
0.35 0.70 1.05 1.40 1.75 2.10 2.45 2.80
Moyenne échantillonnale (Xbar)
143
Histogramme pour 10 échantillons avec n = 30
3
Fréquence
0
0.6 0.7 0.8 0.9 1.0 1.1
Moyenne échantillonnale (Xbar)
12
10
8
Fréquence
0
0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3
Moyenne échantillonnale
144
Historgramme pour 100 0échantillons avec n = 30
120
100
80
Fréquence
60
40
20
0
0.6 0.8 1.0 1.2 1.4 1.6 1.8
Moyenne échantillonnale
400
300
Fréquence
200
100
0
0.6 0.8 1.0 1.2 1.4 1.6 1.8
Moyenne échantillonnale (Xbar)
145
Historgramme pour 10 échantillons avec n = 100
3
Fréquence
0
0.8 0.9 1.0 1.1 1.2 1.3
Moyenne échantillonnale (Xbar)
20
15
Fréquence
10
0
0.8 0.9 1.0 1.1 1.2 1.3
Moyenne échantillonnale (Xbar)
146
Histogramme pour 1000 échantillons avec n = 100
90
80
70
60
Fréquence
50
40
30
20
10
0
0.80 0.88 0.96 1.04 1.12 1.20 1.28 1.36
Moyenne échantillonnale (Xbar)
400
300
Fréquence
200
100
0
0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4
Moyenne échantillonnale (Xbar)
147
Théorème 4.4 Théorème limite central
T i 1 X i ~ N (n ; T2 )
n
où T = n .
148
Exemple 4.6 L'épaisseur des pièces de 25 ¢ est une
variable de moyenne 1,625 mm et d'écart-type 0,16 mm.
Une succursale de banque qui reçoit régulièrement des
dépôts sous forme de rouleaux de 40 pièces de 25 ¢
mesure la longueur de chaque rouleau déposé et rejette
les rouleaux de moins de 64 mm de longueur. Quelle est
la probabilité de rejeter un rouleau de 40 pièces?
Solution :
149
Récapitulatif
(1) Si les données proviennent d’une population
normale, alors la distribution de leur moyenne X
(ou la distribution de leur somme) est
normalement distribuée quelque soit la taille de
l’échantillon
(2) Si les données ne proviennent pas d’une
population normale, alors la distribution de leur
moyenne X (ou la distribution de leur somme)
est normalement distribuée si la taille de
l’échantillon est suffisamment grande. C’est le
TCL. Habituellement, une taille n 30 est jugée
suffisante dans beaucoup de situations mais il ne
faut appliquer cette règle aveuglément. Si les
données proviennent d’une population dont la
distribution est très éloignée de la distribution
normale, alors il faut s’attendre à avoir besoin
d’une taille d’échantillon plus grande pour que le
TCL soit valide.
(3) La distribution de X (qui est une statistique
comme on le verra au chapitre 5) est appelée la
distribution d’échantillonnage. La distribution
d’échantillonnage d’une statistique est la fonction
de masse de cette statistique.
150
(4) Le TCL jouera un rôle important dans le reste du
cours car il nous permettra de construire des
intervalles de confiance et des tests d’hypothèse.
i 1
151
Les variables aléatoires X i sont indépendantes puisque
les épreuves sont indépendantes. De plus, leur moyenne
µ et variance 2 sont données par µ = E( X i ) = p, 2 =
Var( X i ) = pq.
N(np ; npq).
152
Théorème 4.5 Approximation normale de la binomiale
X np
~ N(0 ; 1),
npq
Distribution Plot
0.5 Distribution n p
Binomial 5 0.2
Distribution Mean StDev
Normal 1 0.894427
0.4
0.3
Density
0.2
0.1
0.0
-2 -1 0 1 2 3 4 5
X
153
Figure 4.5 Loi binomiale vs. loi normale avec n = 10
Distribution Plot
0.35 Distribution n p
Binomial 10 0.2
0.25
0.20
Density
0.15
0.10
0.05
0.00
-2 -1 0 1 2 3 4 5 6 7
X
Distribution Plot
0.16 Distribution n p
Binomial 40 0.2
Distribution Mean StDev
0.14
Normal 8 2.52982
0.12
0.10
Density
0.08
0.06
0.04
0.02
0.00
0 2 4 6 8 10 12 14 16 18
X
154
Figure 4.7 Loi binomiale vs. loi normale avec n = 100
Distribution Plot
Distribution n p
0.10 Binomial 100 0.2
Distribution Mean StDev
Normal 20 4
0.08
0.06
Density
0.04
0.02
0.00
10 15 20 25 30 35
X
155
Exemple 4.7 Le chroniqueur d’un journal créé un émoi
dans un ménage après avoir informé ses lecteurs de la
durée moyenne d’une grossesse : 266 jours. Dans ce
ménage, la femme avait accouché 312 jours après le
départ de son mari, un marin, et celui-ci parle déjà de
divorce et engage un avocat. L’avocat se renseigne : il
apprend qu’effectivement, la durée d’une grossesse est
distribuée selon une loi normale de moyenne de 266
jours, avec un écart-type de 16 jours.
a) L’avocat s’adresse à vous et vous demande de faire
un calcul de probabilité pour montrer que la femme
a été infidèle. Faites ce calcul et expliquez à
l’avocat comment il doit s’exprimer à la cour.
b) C’est au tour de l’avocat de la femme de vous
consulter maintenant. Il vous dit : « je veux bien
croire que 312 jours, c’est beaucoup, mais il y a
quand même eu 5000 femmes enceintes dans la
ville durant cette période, et il ne faudrait pas trop
s’étonner que l’une d’elle ait eu une grossesse de
durée excessive. Le contraire m’aurait surpris.
Votre mandat : montrez qu’en effet ce qui a été
observé n’a rien d’étonnant.
156
Solution :
157
4.6 Loi du khi-deux
1
f(x) = x e ,x>0
/2 1 x / 2
( / 2)2 /2
est un entier positif appelé nombre de degrés de
e dt.
liberté et () t 1 t
158
Théorème 4.6 Soit Z ~ N(0 ; 1). Alors Z2 ~ 12 .
X X1 + … + Xn ~ 2
où i1 i .
n
X Z12 ... Z n2 .
Alors X ~ 2n .
159
Figure 4.8 Fonctions densité de probabilité de la loi du
2 pour quelques valeurs de .
Distribution Plot
Chi-Square
0.16 df
5
0.14 10
20
100
0.12
0.10
Density
0.08
0.06
0.04
0.02
0.00
0 20 40 60 80 100 120 140 160
X
160
4.7 Loi de Student
E(T) = 0 et Var(T) = , > 2.
2
161
La fonction de densité de Student est unimodale et
symétrique par rapport à l’origine. Sa forme est
semblable à celle de la loi N(0 ; ), sauf qu’elle décroît
Distribution Plot
Distribution Mean StDev
0.4
Normal 0 1
Distribution df
T 1
0.3
Density
0.2
0.1
0.0
-10 -5 0 5 10
X
162
Figure 4.10 Loi normale vs. loi de Student à 10 d.l.
Distribution Plot
Distribution Mean StDev
0.4
Normal 0 1
Distribution df
T 10
0.3
Density
0.2
0.1
0.0
-4 -3 -2 -1 0 1 2 3 4
X
Distribution Plot
Distribution Mean StDev
0.4
Normal 0 1
Distribution df
T 40
0.3
Density
0.2
0.1
0.0
-4 -3 -2 -1 0 1 2 3 4
X
163
Chapitre 5
Estimation ponctuelle
164
Considérons le premier exemple, une population de
salariés, et supposons qu’on veuille estimer la moyenne
µ de leurs revenus. Puisqu’il serait trop coûteux d’inter-
roger tous les salariés de la population, on se contente
d’un échantillon de n personnes. On se servira alors de
la moyenne des n personnes de l’échantillon pour estimer
µ. Intuitivement, l’idée d’utiliser la moyenne de
l’échantillon pour estimer la moyenne de la population
semble parfaitement raisonnable, même banale. Mais
ceci ne nous empêche pas de chercher une façon plus
formelle et objective de justifier cette procédure, car les
problèmes d’estimation ne sont pas toujours aussi
évidents. La question posée dans l’exemple suivant n’a
pas de réponse évidente.
165
Exemple 5.2 On tire un échantillon de 10 ménages afin
d’estimer le nombre de téléphones par personne dans la
population. Supposons qu’on obtienne les données
suivantes.
Ménage 1 2 3 4 5 6 7 8 9 10
Nombre de 5 4 6 8 3 5 2 3 5 2
personnes
Nombre de 2 3 3 2 4 4 2 3 2 3
téléphones
1 2 3 3 2 4 4 2 3 2 3
0,79
10 5 4 6 8 3 5 2 3 5 2
166
Laquelle des deux façon est meilleure?
167
5.2 Statistiques et estimateurs
1 n
T1(X1 , … , Xn) = X X : le salaire
n i 1 i
moyen.
i1 i
( X X )
n 2
168
Le traitement théorique d’un problème d’inférence
portant sur une population F(x | ) consiste à choisir une
statistique appropriée (par exemple, X , S, p, …, etc.) et
associer à chaque valeur de la statistique choisie une «
décision » à propos du paramètre. La «décision» peut
prendre différentes formes, trois desquelles seront
traitées dans ce cours:
169
L’estimation ponctuelle consiste à trouver un estimateur
d’un paramètre inconnu , c’est-à-dire, une statistique
dont les valeurs auraient tendance, en un certain sens, à
s’approcher du paramètre.
1 n
Par exemple, la moyenne arithmétique X X
n i 1 i
n 1
utilisée comme estimation de leur variance 2 .
170
Un test d’hypothèse consiste à déterminer une règle pour
décider quand une hypothèse Ho concernant un
paramètre doit être rejetée. Par exemple,
171
Estimateurs
172
5.3 Estimateurs sans biais
173
Estimateur sans biais d’une moyenne
Démonstration :
174
Démonstration:
X
p̂ = .
n
175
Théorème 5.3 Soit p la proportion des individus d’une
population qui appartiennent à une certaine classe C. Soit
X le nombre d’individus qui appartiennent à la classe C
dans un échantillon de taille n. Alors
X
p̂ = est un estimateur sans bais de p.
n
Démonstration:
176
5.4 Variance d’un estimateur
Le fait qu’un estimateur soit sans biais, quoique
rassurant, ne garantit pas nécessairement une bonne
précision. Un estimateur sans biais prend en moyenne la
valeur juste; mais ceci ne l’empêche pas de s’en écarter
de beaucoup. La moyenne X d’un échantillon aléatoire
simple X1 , … , Xn n’est pas le seul estimateur sans biais
de la moyenne µ: chacune des observations Xi, par
exemple, est sans biais. Il est intuitivement clair que X
est préférable à un estimateur basé sur une seule des
observations. On conçoit qu’il a une plus forte tendance
à rester près de . C’est là une autre caractéristique
souhaitable dans un estimateur: nous voulons qu’il ait
tendance à rester près du paramètre. Autrement dit, nous
voulons qu’un estimateur ait une petite variance.
Variance de X et de p̂
n
X
et que
p(1 p )
Var ( pˆ ) 2pˆ
n
177
Ce qu’il faut remarquer ici, c’est que le dénominateur est
n: plus n augmente, plus la variance est petite. Ceci cor-
respond à ce que l’on sait déjà par intuition: une
estimation est d’autant meilleure que l’échantillon est
grand.
Variance de S2
Var(S2) = 2/(n-1).
178
Exemple 5.4 Soit X1 , … , Xn un échantillon aléatoire
simple d’une population de moyenne µ. Montrez que les
estimateurs T1 X 1, T2 2 X1 X2 et
T3 2 i 1
i
X i sont tous sans biais pour µ.
n
n(n 1)
Calculez leur variance, et dites pourquoi X est
préférable à ces trois.
Solution :
179
Exemple 5.5 Soit X1 , … , Xn un échantillon aléatoire
tiré d’une population de moyenne et de variance 2.
Considérons l’ensemble des estimateurs de la forme ̂
i 1 n
i 1 / n.
n
a 2
i 1
Solution :
180
Chapitre 6
Intervalles de confiance pour de grands
échantillons
6.1 Introduction
182
6.2 Intervalle de confiance pour µ
X X
Z= = N(0 ; )
/ n X
où
X
.
n
Soit z /2 un nombre provenant d’une loi normale de
moyenne 0 et de variance 1 tel que
P N (0,1) z /2 / 2.
Du fait que
X
P z /2 z /2 = 1
X
nous obtenons, en inversant les inégalités,
P X z/2 X X z/2 X = 1
183
L’intervalle
[ X z/2 X X z/2 X ]
La demi-largeur de l’intervalle, z/2 X = z/2 , est
n
appelée marge d’erreur.
184
Remarques sur la marge d’erreur:
z
n /2 .
2
m
185
La formule [ X z/2 X X z/2 X ] ne peut être
calculée en pratique, puisqu’elle exige qu’on connaisse
, ce qui n’arrive que dans des situations très
exceptionnelles. Il serait naturel alors de remplacer par
un estimateur S dans l’expression ci-dessus. Puisque
in1 ( X i X )
S
2
2
n 1
est un estimateur sans biais de , nous estimerons X2
2
S2 S
par ˆ
2
et X par ˆ X .
n n
X
186
Exemple 6.1 Estimation d'une moyenne
D'une grande population de comptes de banque, on
prélève un échantillon de taille n = 30 afin d'estimer
la valeur moyenne d'un compte ainsi que le montant
total des comptes. Voici les résultats, en dollars:
240,82 232,50 740,8 860,32 224,10 7,15 324,12 240,12 190,08 182,75
160,21 148,22 132, 119,25 113,85 108,30 107,10 101,19 99,21 93,12
88,13 80,15 78,13 72,15 67,13 65,14 41,10 32,17 10,02 9,15
187
6.3 Estimation d’une proportion p
Considérons une population dont une proportion p des
membres appartient à une certaine classe . Supposons
pq
où 2pˆ .
n
188
Alors, on peut affirmer que
pˆ p
P z /2 z /2 1
pˆ
pq
Cependant, p̂ est fonction de p et est donc
n
inconnu. Une solution approximative, presque toujours
pq
ˆˆ
adéquate, consiste à estimer p̂ par : ˆ pˆ , ce qui
n
mène à
pˆ z /2 ˆ pˆ p pˆ z /2 ˆ pˆ .
189
Remarque La marge d’erreur est donnée par :
pq
m z 2 .
n
Si on veut une marge d’erreur m pour un niveau de
confiance donné, la taille d’échantillon n requise est
donnée par
z2 /2 p(1 p )
n .
m 2
p(1-p) vs p
0.25
0.20
0.15
p(1-p)
0.10
0.05
0.00
0.0 0.2 0.4 0.6 0.8 1.0
p
190
Exemple 6.2 Estimation d'une proportion
Lors d’un sondage auprès de 500 personnes et portant sur
leurs opinions politiques, 180 personnes se sont déclarées
favorables au parti A. Estimer la proportion p des gens
favorables au parti A au moyen d’un intervalle de
confiance de niveau 90%.
Solution :
191
6.4 Estimation d’une différence de moyenne
192
Figure 6.1 Comparaison de deux échantillons
indépendants
Population 1
Population 2
n1 n2
12 22 12 22
X X 2 z/2 1 2 X 1 X 2 z/2
n1 n2 n1 n2
1
193
Bien sûr, les variances 12 et 22 ne sont pas connues en
pratique. On les estimera alors par S12 et S 22 . Un intervalle
de confiance à 100(1 - )% est donné par
X X 2 z/2 1 2 X 1 X 2 z/2
S12 S22 S12 S 22
n1 n2 n1 n2
1
194
6.5 Estimation d’une différence de proportions
p1 1 p1 p2 1 p2 p 1 p1 p2 1 p2
pˆ1 pˆ 2 z/2 p1 p2 pˆ1 pˆ 2 z /2 1
n1 n2 n1 n2
195
Bien sûr, les proportions p1 et p2 ne sont pas connues en
pratique. On acceptera de les estimer par p̂1 et p̂2 . Un
intervalle de confiance à 100(1 - )% est donné par
196
Chapitre 7
Tests d’hypothèses pour de grands échantillons
7.1 Introduction
197
Exemple 7.2 Un professeur qui prétend pouvoir distinguer
l’écriture d’un garçon de celle d’une fille offre de mettre
sa prétention à l’épreuve à l’aide de 32 copies d’examen
dont 16 sont écrites par des filles et 16 par des garçons.
On forme, de façon aléatoire, 16 couples de copies, où
dans chaque couple une copie appartient à une fille, l’autre
à un garçon. Le professeur décide lequel des deux
membres de chaque couple appartient à une fille. Sur les
16 essais, il réussit 14 fois. Est-ce que ceci prouve qu’il a
une certaine capacité de distinguer les écritures?
198
Supposons pour l’instant que p 1/2. Alors
X ~ B(16 ; 1/2) et E[X] 8. Ceci veut dire qu’on
s’attend à avoir 8 succès sur 16. Or il y en a eu bien
plus. Un nombre de succès aussi grand est-il probable
lorsque p 1/2 ? La probabilité d’un nombre de succès
aussi grand que 14 lorsque p 1/2 est 0,0021. Donc si
p 1/2, il est très peu probable d’avoir 14 succès ou
plus. On dit alors qu’un tel nombre de succès ne se
serait probablement par réalisé si p ne valait vraiment
que 1/2. On se permet donc de conclure que p > 1/2,
c’est-à-dire que le professeur a une certaine capacité de
distinguer les deux écritures.
199
Remarque La philosophie sous-jacente à un test
d’hypothèse est similaire au processus qui prévaut dans
un procès. Un individu est accusé de meurtre. La cour
devra décider si l’individu est coupable ou s’il est
innocent. Lorsque le procès commence, il y a
présomption d’innocence. Autrement dit, l’individu est
considéré innocent jusqu’à preuve du contraire. Afin de
prouver que l’individu est coupable, la couronne
recueillera et présentera tous les faits (par exemple, test
d’ADN, empreintes digitales, etc.) afin d’obtenir la
condamnation de l’individu. S’il y a suffisamment
d’évidence, la cour déclarera l’individu coupable de
meurtre. Par contre, si la couronne n’arrive pas à amasser
suffisamment de preuves, la cour déclarera que
l’individu est non coupable. Notons que la cour ne
déclare pas que l’individu est innocent. Peut-être ce
dernier est-il innocent ou peut-être qu’il n’y a pas
suffisamment de preuves pour le déclarer coupable.
Le même type de raisonnement prévaut dans un contexte
de test d’hypothèse.
200
7.2 Développement formel
1
Alternative : HA : p > .
2
L’une et l’une seule des deux hypothèses doit être vraie,
car on exclut d’emblée la possibilité que p < 1/2. Nous
déciderons laquelle des deux est vraie après avoir fait
l’expérience et observé X.
201
Mais nous pouvons, avant même de faire l’expérience,
fixer l’ensemble des valeurs de X pour lesquelles on
rejettera Ho. Une chose est évidente : nous ne
rejetterons Ho que si X est trop grand, c’est-à-dire, si et
seulement si
X ≥ C,
203
Taille de la région critique
La probabilité de rejeter Ho lorsqu’elle est vraie est
appelée taille de la région critique.
204
Posons 0,05. Nous devons déterminer une région
critique de taille inférieure ou égale à 0,05. Le tableau
montre que la région critique que nous devons choisir est
X ≥ 12. On dit alors qu’on a un test à 5 %. La taille de
la région critique est de 0,0384.
Ho : p 0,01
L’alternative est
HA : p > 0,01,
205
On rejettera le lot si le nombre de boulons défectueux est
trop grand : la région critique sera de la forme X ≥ C où
C est un entier qu’on choisit de telle sorte que
C 0 1 2 3 4 5 6
P{X ≥ C | p 1 0,8660 0,5954 0,3233 0,1420 0,0517 0,0160
0,01}
206
Types d’erreur
207
Nous avons donc quatre situations possibles. Elles sont
schématisées dans le tableau suivant :
Réalité
Ho vraie Ho fausse
On Erreur de
Bonne
rejette première
décision
Ho espèce
Décision On
Bonne Erreur de
accepte
décision seconde espèce
Ho
208
7.3 Les cinq composantes d’un test d’hypothèse
Quelques exemples :
(1) Un sociologue cherche à démontrer que le salaire
horaire moyen dans la population des clercs au
Québec est différent de 14$, qui représente la
moyenne canadienne. Dans ce cas, on a
Ho : 14
et
HA : 14.
209
Rejeter l’hypothèse nulle reviendra conclure que
le salaire moyen au Québec est différent de 14$.
Ho : 3,372
et
HA : 3,372.
210
Un organisme pour la défense des femmes cherche à
démontrer que les femmes gagnent moins que les
hommes pour un même emploi. L’hypothèse
alternative sera donc : « les femmes gagnent moins
que les hommes pour un même emploi » alors que
l’hypothèse nulle sera : « le salaire des hommes et des
femmes est identique pour un même emploi ». Dans
ce cas, on a
Ho : F H
et
HA : F H .
211
On distingue 3 types d’hypothèses alternatives HA :
Celles du type p < 0,01. On dira alors du test que
c’est un test unilatéral à gauche.
Celles du type p > 0,01. On dira alors du test que
c’est un test unilatéral à droite.
Celles du type p 0,01. On dira alors du test que
c’est un test bilatéral.
212
La statistique du test est un nombre représentant en
quelque sorte une mesure de la distance (standardisée)
entre ce que l’on observe dans l’échantillon et
l’hypothèse nulle. Si cette distance est grande, cela
signifie que l’hypothèse nulle n’est probablement pas
vraie auquel cas elle sera rejetée en faveur de l’hypothèse
alternative. En revanche, si la distance est petite, alors
cela signifie que l’hypothèse nulle est vraisemblable
auquel cas on ne la rejettera pas.
214
7.4 Tests d’hypothèses pour µ
215
Nous voudrons confronter une hypothèse nulle
Ho : 0
à l’alternative
HA : < 0
216
Puisque la taille n de l’échantillon est grande, le TLC
nous permet d’affirmer que X ~ N( 0 ; X2 )
Quand rejette-t-on Ho ?
X 0 C 0
P( X C ) P ≤
X X
C 0
z
X
C ≤ 0 z X
217
Si on prend la plus grande valeur de C qui satisfait cette
condition, nous obtenons la règle suivante :
On rejette Ho si X ≤ 0 z X
X 0
On rejette Ho si ≤ - z
X
(iii) Méthode par la p-valeur: on calcule la p-valeur qui
est donnée par
p-valeur = P Z z0 | 0 ,
X 0
où z0 est la valeur observée de . Quand rejettera-t-
X
on H0? Lorsque la p-valeur est plus petite ou égale à !
218
Exemple 7.4 D’un grand lot de boîtes de conserves, on
décide de prélever un échantillon de 40 boîtes de
conserves afin de s’assurer que le lot est acceptable,
c’est-à-dire, que le poids moyen µ du lot est bien de 400g
tel qu’affiché. L’hypothèse nulle est
Ho : µ = 400.
Considérons l’alternative
HA : µ < 400.
219
(i) Méthode par la région critique :
En termes de X , cette règle devient : on rejette Ho si
396,5 400
8,85 1,645.
0,3952
On rejette H0 car 8,85 1.645 . Cette région critique
est illustrée dans la figure 7.2.
220
(iii) Méthode par la p-valeur : on calcule
221
Exemple 7.5 Dans l’exemple 7.4 nous avons pris pour
alternative l’hypothèse
HA : µ < 400.
222
On cherche C tel que
| X 400 |
P C ,
X
où est, comme d’habitude, fixée à l’avance.
Or,
C P X 400 C X
| X 400 |
P
X
= P X C X 400 P X 400 C X
= P Z C P Z C .
| X 400 |
P C ,
X
on a donc C z 2 .
223
Il en découle : On rejette Ho si
X > 400 z 2 X
ou si
X ≤ 400 z 2 X
X 400
z /2
X
224
Or nous avions déterminé dans l’exemple 7.4 que
X =396,5.
396,5 400
z0 8.85.
0,3952
Puisque 8.85 1,96, on rejette Ho.
225
Le tableau suivant résume la procédure dans le cas
de tests unilatéraux ou bilatéraux.
226
7.5 Test sur la différence de deux moyennes
227
Par le TLC, on a donc
X 1 ~ N(µ1 ; 12 n1 ), i = 1, 2, .... , n1
X 2 ~ N(µ2 ; 22 n2 ), j = 1, 2, .... , n2
X 1 X 2 ~ N(µ1-µ2 ; 12 n1 22 n2 )
Ho : 1 2
contre l'une des alternatives
HA: 1 2 ≠
HA: 1 2 >
HA : 1 2 <
228
Variances connues
X1 X 2
X1 X 2
Z X1 X 2
12 22
n1 n2
On rejettera Ho lorsque
229
On peut également utiliser l’approche par la p-valeur
pour prendre une décision. Notons d’abord que Z X1 X 2
(ii) P Z X X z0 | 1 2 si l’hypothèse alternative
est de la forme : HA: 1 2 <
1 2
(iii) 2 P Z X X z0 | 1 2 si l’hypothèse alternative
est de la forme : HA: 1 2
1 2
230
Variances inconnues
En pratique, bien sûr, 12 et 22 ne sont pas connues et les
critères proposés ne sont pas utilisables. Puisque n1 et n2
sont grands, les tests ci-dessus peuvent quand même être
employés ; il suffit de remplacer 12 et 22 par leurs esti-
mateurs respectifs
1 n 1 n
S =
2
( X 1i X 1 ) 2 et S
2
( X 2i X 2 ) 2 .
n1 1 i 1 n2 1 i 1
1 2
On utilise alors
X1 X 2
Z X1 X 2
S12 S 22
n1 n2
231
Exemple 7.6 Un diététicien a développé un nouveau
régime alimentaire faible en lipides, en glucides et en
cholestérol. Bien que le régime visait initialement les
individus atteints de maladies cardio-vasculaires, le
diététicien souhaite étudier l’effet du régime sur des
personnes soufrant d’obésité. Deux échantillons de
personnes obèses de taille 100 ont été sélectionnés. Le
premier groupe est soumis au nouveau régime développé
par le diététicien alors que le deuxième groupe est
soumis à un régime régulier qui comprend
approximativement la même quantité de nourriture que le
premier sauf qu’il est plus riche en lipides, en glucides et
en cholestérol. Pour chaque individu soumis à l’un des
deux régimes, on a recueilli le poids perdu (ou gagné) au
bout de 3 semaines. Effectuez un test d’hypothèse pour
déterminer si le nouveau régime à un effet bénéfique.
Utilisez 5%.
Nouveau régime X 1 9.31; S1 4.668
Régime régulier X 2 7.40; S 2 4.035
Solution :
232
7.6 Test sur données appariées
233
(ii) Une meilleure manière d’effectuer cette expérience
est de sélectionner un seul échantillon d’individus. A
chaque individu, on administrera les deux crèmes. Par
exemple, la crème A sur le coté droit du corps et la
crème B sur le coté gauche. Pour chaque individu, on
recueillera deux données (une paire d’observations). La
première étant une mesure du dommage qu’a subie la
peau soumise aux rayons du soleil pour la crème solaire
A et la deuxième étant une mesure du dommage qu’a
subie la peau soumise aux rayons du soleil pour la crème
solaire B. On pourra alors tester s’il y a une différence
entre les deux crèmes solaires, Mais attention, on ne peut
appliquer les techniques présentées à la section 7.5 car
les deux ensembles de données ne proviennent pas
d’échantillons indépendants!
On examinera les différences entre chaque paire
d’observations, raison pour laquelle on appelle ce type de
tests « test pour données appariées ». On supposera dans
cette section que la taille d’échantillon est grande (> 30).
Soit X 1 , X 2 ,..., X n et Y1 , Y2 ,..., Yn deux séries
d’observations disponibles pour n individus. Pour
l’individu i, on observe donc la paire
X i , Yi , i 1, 2,..., n. On travaillera avec les différences
D Yi X i .
234
Par exemple, dans l’exemple précédent, X i représente le
dommage qu’a subie la peau soumise aux rayons du
soleil pour la crème solaire B et Yi représente le
dommage qu’a subie la peau soumise aux rayons du
soleil pour la crème solaire A.
On cherche à tester Ho : D contre l’alternative HA :
D 0. On est donc ramené à un test pour une moyenne
tel que décrit dans la section 7.4.
235
un même « émetteur ». L’émetteur était lui-même
hypnotisé lorsque l’étudiant l’était. On prend note du
nombre de réponses correctes parmi 100. Supposez que
la taille n 15 de l’échantillon est assez grande pour que
s’appliquent les théorèmes limites. Voici les résultats :
Étudiant 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
État normal 18 19 16 21 16 20 20 14 11 22 19 29 16 27 15
Sous hypnose 25 20 26 26 20 23 14 18 18 20 22 27 19 27 21
236
7.7 Tests sur une proportion
Ho : p = po
et l’alternative
H A : p ≠ p o.
237
On rejette donc Ho quand
Solution :
238
7.8 Test sur la différence entre deux proportions
239
On veut tester l’hypothèse
Ho : p1 = p2 p
où
p1 (1 p1 ) p2 (1 p2 ) p (1 p ) p (1 p )
pˆ1 pˆ 2
n1 n2 n1 n2
pˆ (1 pˆ ) pˆ (1 pˆ )
ˆ pˆ pˆ ,
1 2
n1 n2
où
X1 X 2
pˆ (pooled estimate)
n1 n2
240
La statistique
pˆ 1 pˆ 2
Z pˆ1 pˆ 2
ˆ pˆ pˆ
1 2
241
Exemple 7.9 Durant la dernière décennie, les campagnes
anti-tabac, financées par les gouvernements provinciaux
et fédéraux, se sont multipliées. Supposons que la
Société Canadienne du Cancer a tiré un échantillon de
1500 individus en 1997 et qu’en 2007, elle tire de
nouveau un échantillon d’individus afin de déterminer si
la proportion de fumeurs au Canada a diminué. Soient X 1
le nombre de fumeurs dans l’échantillon en 1997 et X 2 le
nombre de fumeurs dans l’échantillon en 2007. Les
résultats des deux enquêtes sont exhibés ci-dessous. Les
données indiquent-elles que la proportion de fumeurs au
Canada a diminué durant cette période de 10 ans?
Utilisez 5%.
Solution :
242
7.9 Erreur de première et deuxième espèces
et fonction de puissance
Rappels :
243
Un bon test d’hypothèse en est un pour lequel les deux
probabilités et sont petites. Mais rappelons que seule
est parfaitement contrôlée.
244
Pour une valeur fixée a priori de , nous aimerions que
la puissance du test soit la plus grande possible. En effet,
un test puissant a la capacité de détecter de petits écarts à
l’hypothèse nulle. Il permettra donc, avec une grande
probabilité, de déclarer que l’hypothèse nulle est fausse
si, en réalité, elle est vraiment fausse.
On a donc
245
Il est impossible de donner à cette probabilité une valeur
unique : elle est fonction de µ. En effet, Ho fausse peut
vouloir dire n’importe quelle valeur de µ inférieure à
400. Dénotons cette fonction par : (µ) = P(rejeter Ho |
µ).
246
La figure 7.3, qui présente un graphique de la fonction de
puissance dans l’exemple 7.4.
247
Remarques à propos de la fonction de puissance (Figure
7.3)
La valeur de au point µ = 400 est 0,05, la
probabilité d’une erreur de première espèce.
Lorsque µ < 400, la valeur de est supérieure à 0,05,
ce qui est normal : lorsque µ < 400, Ho est fausse, et
il faut bien que la probabilité de la rejeter soit élevée.
Lorsque µ n’est que légèrement inférieure à 400, la
valeur de , bien que légèrement supérieure à 0,05,
est faible. Ce qui signifie que lorsque Ho n’est que
« un petit peu fausse », il est peu probable qu’on la
rejette.
Inversement, lorsque µ est bien plus petit que 400, la
probabilité de rejet est forte : un écart est d’autant
plus facile à détecter qu’il est important.
En principe, les valeurs de (µ) pour µ > 400 sont
sans intérêt, puisque nous avons d’emblée décidé
d’exclure ces valeurs.
248
Reprenons maintenant l’exemple 7.5. On avait déterminé
la région critique suivante :
on rejette Ho si
X ≥ 400,77 ou si X ≤ 399,22.
249
La figure 7.4 présente le graphique de cette fonction de
puissance.
250
Chapitre 8
Inférence pour de petits échantillons
8.1 Introduction
251
8.2 Inférence pour µ
inconnu.
X X
t
ˆ S/ n
X
252
Théorème 8.1 Si X et S2 sont la moyenne et la
variance d’un échantillon aléatoire de taille n tiré
d’une population N(µ ; 2), alors
(n 1) S 2
2) ~ 2
2
n 1
X
T= ~ tn-1,
ˆ X
253
On désigne par t ;a le point qui a une probabilité a d’être
X tn1;/2 ˆ X X tn1;/2 ˆ X
254
Encore une fois, la statistique
X 0
T
ˆ X
HA : ≠ 0
0 0
ˆ X
*Dans le tableau t0 désigne la statistique du test.
255
Exemple 8.1 Des expériences passées ont permis de
déterminer que le temps moyen de sommeil des gens est
de 7,7 heures. Une compagnie pharmaceutique, voulant
tester la valeur d’un nouveau somnifère, a effectué des
expériences. Un échantillon de taille 10, où le somnifère
a été utilisé, a donné les résultats suivants :
7,8 8,3 7,2 9,1 8,4 6,8 7,3 7,7 8,9 9,2
Solution :
256
8.3 Inférence pour deux moyennes
257
Lorsque n1 et n2 sont grands, la statistique
X1 X 2
Z X1 X 2
S 2
S 2
1 2
n1 n2
258
Si le contexte nous permet de supposer que les
populations sont normales et qu'elles ont la même
variance 2 , on peut déterminer des intervalles de
confiance ou construire des tests en faisant appel à une
loi de Student appropriée. Si 12 22 , les
259
On peut montrer que
n1 n2 2
est un estimateur sans biais de 2 et qu’il est optimal (la
démonstration est laissée en exercice).
2 n1 1 2
260
Finalement, la statistique
X1 X 2
TX1 X 2
1 1
S
n1 n2
X X 2 tn n 2; /2 S 1 2 X 1 X 2 tn n 2; /2 S
1 1 1 1
.
n1 n2 n1 n2
1 1 2 1 2
261
Supposons que 1 et 2 sont inconnues et qu'on veuille
tester l'hypothèse que, pour un nombre donné,
Ho : 1 2
contre l'une des alternatives
HA: 1 2 ≠
HA: 1 2 >
HA: 1 2 <
262
On rejettera Ho lorsque
Remarques :
(1) Le test précédent suppose que les deux échantillons
sont indépendants. Dans le cas de données appariées
(voir section 7.6), on travaillera sur les différences, ce
qui nous ramènera à un test pour une moyenne tel que
décrit dans la section 8.2.
(2) Rappelons que le test d’égalité de deux moyennes
suppose que les variances sont égales. Si les variances
sont très différentes, le test d’hypothèse risque de mener
à une conclusion invalide. En pratique, on effectuera le
test si
(le plus grand S2/le plus petit S2) < 3.
263
Exemple 8.2 Un jardinier amateur veut savoir si
l’engrais qu’il utilise est vraiment efficace. Pour ce faire,
il a privé d’engrais 2 de ses plants de tomates, choisis a
hasard en début de saison, et n’a donné de l’engrais
qu’aux 6 autres plants. Les plants sans engrais ont fourni
respectivement 12,3 et 13,6 kg de tomates. Pour les
plants traités à l’engrais, les résultats, en kg, ont été :
14,1 12,8 15,1 13,7 13,4 15,4
L’engrais a-t-il un effet sur la production de tomates?
Utilisez 10%.
Solution :
264
Chapitre 9
Tests du khi-deux
265
On prélève un échantillon de 780 suicides, puis on les
classe en 4 catégories, selon le moment de la semaine où
le suicide a eu lieu : le début de la semaine (lundi), le
milieu de la semaine (mardi à jeudi), la fin de la semaine
(vendredi), et le week-end (samedi-dimanche).
Supposons qu’on obtienne la distribution suivante :
266
L’écart entre les deux tableaux nous permettra de rejeter
Ho ou pas. Si l’écart est important, on rejette Ho.
2 =
(O - T ) 2
i i
,
i Ti
267
Région critique
2 > C.
268
Il faut donc que
269
Le modèle
Modèle: X = (X1, X2, X3, X4) ~ MN(n; p1, p2, p3, p4)
1 1 3 3
T1 E ( X 1 | H o ) n 780 ; T2 E ( X 2 | H o ) n 780
7 7 7 7
1 1 2 2
T3 E ( X 3 | H o ) n 780 ; T4 E ( X 4 | H o ) n 780
7 7 7 7
270
En général, le problème est le suivant. Les observations
constituent un vecteur de loi multinomiale :
où p10, p20, ..., pk0 sont des nombres positifs tels que
p
k
2
k
( X i npio ) 2
i 1 npio
271
9.2 Tests d’indépendance
Ici aussi nous présenterons un cas particulier avant de
décrire la procédure formellement. Considérons les
données suivantes sur deux variables, la « scolarité » et
« l’attitude face à l’avortement ».
Tableau 9.3 : Distribution conjointe (fréquences) des
variables « scolarité » et « attitude face à l’avortement ».
Attitude face à
l’avortement
Pour Mixte Contre
≤8 31 23 56 110
Scolarité 9 — 12 171 89 177 437
> 12 116 39 74 229
Total 318 151 307 776
272
Tableau 9.4 : Distribution conjointe (fréquences
relatives) des variables « scolarité » et « attitude face à
l’avortement ».
Attitude face à
l’avortement
Pour Mixte Contre
≤8 0,039 0,029 0,072 0,141
Scolarité 9 — 12 0,220 0,114 0,228 0,563
> 12 0,149 0,050 0,095 0,296
Total 0,409 0,196 0,396 1,000
273
La distribution marginale de la variable « scolarité » est
exhibée dans le tableau 9.5.
274
La distribution conjointe de deux variables contient toute
l’information nécessaire à l’étude de la relation entre les
variables. Mais elle ne met pas cette relation clairement
en évidence. La notion de relation ou de dépendance
entre deux variables s’exprime en termes de distributions
conditionnelles. Une distribution conditionnelle de la
variable « attitude face à l’avortement » est la
distribution de cette variable confinée à une tranche de la
population, cette tranche étant définie par une valeur de
la variable « scolarité ».
275
Le tableau 9.7 donne la distribution conditionnelle de
l’attitude étant donné chaque niveau de scolarité :
276
L’hypothèse nulle est formulée comme suit :
HA : non H0.
277
Les observations dans les 9 cases du tableau 9.3 sont une
réalisation de 9 variables aléatoires
X11 X12 X13
X21 X22 X23
X31 X32 X33
qui suivent conjointement une loi multinomiale:
Modèle:
X =(X11, X12, X13, X21, X22, X23, X31, X32, X33) ~
(n; p11, p12, p13, p21, p22, p23, p31, p32, p33)
278
Tableau 9.8 : Vraie distribution conjointe des variables
des variables « scolarité » et « attitude face à
l’avortement ».
Attitude face à
l’avortement
Pour Mixte Contre
≤8 p11 p12 p13 p1.
Scolarité 9 — 12 p21 p22 p23 p 2.
> 12 p31 p32 p33 p3.
Total p.1 p.2 p.3 1
npi . p. j
Mais les pi. et les p.j ne sont pas connus; elles devront
donc être estimées. Les estimateurs pˆ i. et pˆ . j sont
donnés par
pˆ i. j X ij pˆ . j i X ij
1 1
n n
279
Les estimations des pi. et des p.j ainsi que les effectifs
théoriques sont présentés dans le tableau 9.9.
280
La valeur de la statistique 2 est
2
3 3 ( X ij npi . p. j ) 2
= 17,7
i 1 j 1 npi . p. j
281
Autre modélisation
282
Visiblement, les effectifs de la marge de droite sont
fixes: on a décidé, avant de prélever les données, qu’on
prendrait respectivement 100, 155 et 200 cas dans les
trois hôpitaux. Ce ne sont pas des variables aléatoires.
Dans le tableau 9.12, on nomme les variables observées.
283
L’hypothèse nulle est
284
9.3 Dépendance et causalité
Lorsque l’on étudie la dépendance entre deux variables,
on envisage presque toujours la possibilité d’un lien de
causalité entre les variables. Par exemple, plusieurs
études établissent l’existence d’un lien entre l’état de
santé et la consommation de cigarettes. Si on montre, au
moyen de techniques statistiques, qu’il existe un lien
entre l’état de santé et la consommation de cigarettes, on
résiste difficilement à la tentation de conclure que la
cigarette cause la maladie. Bien que cette conclusion soit
vraisemblable, on court le risque d’identifier trop
hâtivement une variable à la cause et l’autre à l’effet. Il
est fort possible que la dépendance entre deux variables
soit due, non pas à l’effet de l’une sur l’autre, mais à
l’effet simultané d’une troisième variable sur les deux
premières. Nous illustrons ce phénomène par un exemple
fictif mais révélateur.
285
Tableau 9.13 : Effectifs observés
Y : conséquences de la maladie
Normale 64 56 120
286
Tableau 9.14 : Effectifs observés chez les jeunes rats
Y : conséquences de la maladie
Élevée 8 12 20
Normale 32 48 80
Total 40 60 100
Normale 32 8 40
287
Parmi les jeunes rats, le taux de mortalité est de 40%,
quelle que soit la pression. Parmi les vieux, le taux de
mortalité est de 80% quelle que soit la pression. Donc,
contrairement à la conclusion suggérée par le tableau
9.13, la pression n’agit pas de façon directe sur la
mortalité. C’est apparemment l’âge qui agit en même
temps sur la pression et sur la mortalité.
288
Chapitre 10
Régression linéaire simple
10.1 Introduction
289
Pour ce faire, nous devons adopter un modèle pour
décrire la population. Nous allons présenter dans ce
chapitre un modèle appelé régression linéaire simple.
290
Ces données, avec la droite des moindres carrés sont
représentées comme 18 points dans 2 dans la figure
10.1.
Figure 10.1 Relation entre le taux de cholestérol (y) et
poids (x)
Taux de cholestérol = 217.5 + 0.7767 Poids
S 12.7423
310
R-Sq 54.4%
R-Sq(adj) 51.5%
300
290
Taux de cholestérol
280
270
260
250
50 60 70 80 90 100 110
Poids
291
Rappelons que la droite des moindres carrés est la droite
y = b o + b 1x
qui minimise
(y
n
D= i yˆi ) 2
i 1
y y x x
n
i i
b1 = i 1
et bo = y b1 x
xi x
n
2
i 1
292
10.2 Le modèle de régression linéaire simple
293
x est la variable indépendante ou la variable
prédictrice. C’est la variable utilisée pour prédire la
variable dépendante y. Il est important de noter que
les observations x1, …. ,xn de x sont considérées
comme des constantes.
294
Le modèle (10.1) peut être vu comme la somme de
deux composantes : une composante déterministe
(non-aléatoire), o + 1xi et une composante
aléatoire
(2) E i 0.
295
(3) V i 2 . L'hypothèse que les i ont toutes la
même variance est appelée hypothèse
d'homoscédasticité. Il est difficile de traiter un
modèle qui n’inclue pas cette hypothèse. Notons
que 2 est un paramètre inconnu qu’il nous faudra
estimer.
296
Remarque Voici une façon d’interpréter les suppositions
du modèle dans le contexte de l’exemple 10.1. Pour
chaque valeur de x, considérons l’ensemble des individus
dont le poids est xi. Les taux de cholestérol dans cette
sous-population sont distribués selon une loi normale.
Le taux de cholestérol pour ces individus dépend de x : il
est égal à o + 1x. La variance est la dispersion des
2
297
10.3 Estimation des paramètres
Proposition 10.1 : E b0 0 et E b1 1 .
Démonstration :
298
Sous l'hypothèse que les yi sont de loi normale, on peut
démontrer la proposition suivante :
Proposition 10.2 : On a
2
( xi x )
(i) b1 ~ N ( ; b ) , où
2
1
2
b1 2
.
b1 1 b0 0
~ N (0 ; 1) et ~ N (0 ; 1).
b1 b0
299
Démonstration :
300
Il nous reste à estimer 2 et à estimer les variances de
bo et b1 données par la Proposition 10.2.
i 1 yi yˆi y (b b1 xi )
n 2 n 2
ˆ 2 i 1 i 0
n2 n2
l’estimateur ˆ 2 i 1 i
.
n2
301
Une fois 2 estimée, nous pouvons facilement estimer les
variances de bo et b1 :
ˆ 2 1 x2
( xi x )2 i
ˆ
2
et ˆ ˆ
2 2
2
n ( x x )
b1 b0
302
Distribution des statistiques de tests
b1 1
Nous avons montré que Z1 = ~ N (0 ; 1) et que
b1
b0 0
Zo = ~ N(0 ; 1). Lorsqu’on remplace les écarts-
b0
b1 1
T1 ~ tn 2
ˆ b1
et
b0 0
T0 ~ tn 2 .
ˆ b0
303
10.4 Inférence statistique; intervalles de confiance et
tests d’hypothèse
et
b1 tn 2; /2 ˆ b1 1 b1 tn 2; /2 ˆ b1
304
Dans l’exemple 10.1, les intervalles de confiance à 95%
pour 0 et 1 sont respectivement donnés par :
et
305
On peut également tester des hypothèses concernant les
paramètres 0 et 1. On sera presque toujours intéressé à
teste l’hypothèse que 1 0. En effet, si on rejette
306
Les tests d'hypothèses pour 1 et β 0 se font de la même
façon que les tests pour une moyenne µ.
Si on cherche à tester
Ho : 1 = c
vs
HA : 1 c
b1 c
tn 2;/2
ˆ b1
307
De même, si on cherche à tester
Ho : 0 = c
vs
HA : 0 c
alors on rejettera Ho si
b0 c
tn 2;/2 .
ˆ b0
Ho : 1 = 0
vs
HA : 1 0
b1 0
Après calculs, on trouve que = 4,37 et puisque
ˆ b1
t16;0.025 2,12, on rejette H0 et on conclut que le poids et
le taux de cholestérol sont liés.
308
10.5 Intervalles de confiance pour E(y) et limites de
prédiction
ˆ y b0 b1 x*
1 ( x *
x ) 2
2ˆ y 2 n .
n
i 1
( xi x ) 2
1 ( x *
x ) 2
ˆ 2ˆ x ˆ 2 n .
n
i 1
( xi x ) 2
309
Un intervalle de confiance à 100(1-)% pour y est
donné par
(258,54;275,82)
Limites de prédiction
310
Mais on ne prétend pas que la probabilité est 1- que le
prochain y qui correspond à x* se situera entre ces deux
bornes. Pour déterminer des bornes dans lesquelles une
valeur future de y se trouvera avec une probabilité de 1 -
, nous procédons de la façon suivante. Si y x* est la
E( y x* y ) = 0
et
Var y x* ˆ y = Var( y x* ) + Var ( ˆ y ).
311
La variance Var( y x* ) = 2 est estimée par ̂ 2 et
1 ( x* x ) 2
ˆ 2y * ˆ y ˆ ˆ n
2 2
n ( xi x ) 2
x
i 1
1 ( x* x ) 2
ˆ 1 n
2
n
( x x ) 2
i
i 1
312
Dans l’exemple 10.1, supposons que le prochain individu
entrant dans le bureau d’un médecin pèse 64 kg. Alors,
après calculs, on peut affirmer avec 95% de sécurité que
cette observation se situera entre les bornes
(238,82;295,54)
i
n
La somme des carrés ( y y ) 2
, que nous appelons
i 1
313
i
n
La première, ( y
ˆ y ) 2
, appelée « somme des carrés
i 1
i 1
( y y ) ( yˆ y ) ( yi yˆi ) 2
n n n
2 2
i i
i 1 i 1 i 1
SCT = SCE + SCR
314
Graphiquement, SCE est la somme des carrés des
distances verticales entre les points sur la droite des
moindres carrés ŷ b0 b1 x et les points sur la droite
horizontale y = y . Cette somme de carrés a tendance à
être petite si la droite des moindres carrés s'approche
d'une droite horizontale, c'est-à-dire, si les données ne
témoignent pas d'une forte dépendance entre y et x. SCR
est la somme des distances verticales entre les points du
nuage et la droite des moindres carrés. Cette somme de
carrés a tendance à être petite si les points sont
rapprochés de la droite des moindres carrés, cas où la dé-
pendance entre y et x est forte.
315
Remarques
̂ 2 = SCR/(n-2)
Donc SCR petit signifie que les yi ont tendance à être
peu dispersés par rapport à leur moyenne
o + 1x i ,
ce qui se manifeste dans l'échantillon par un
nuage de points rapproché de la droite des
moindres carrés. Nous avons aussi la relation
suivante entre ̂1 et SCR :
SCR ( yi y ) b i
n n
2
1
2
( x x ) 2
.
i 1 i 1
(x x ) .
n
SCE = b 1
2
i
2
i 1
316
Relation entre b1 et le coefficient de corrélation
Le coefficient de corrélation
n
(xi - x )(yi - y )
S xy
r= = i 1
( xi x ) i
Sx Sx n n
2
( y y ) 2
i 1 i 1
317
Donc r > 0 si et seulement si la droite des moindres
carrés est de pente positive, et r = 0 si et seulement si la
droite des moindres carrés est horizontale. Pour interpré-
ter les valeurs intermédiaires de r, nous avons l'égalité
suivante :
r = SCE/SCT
2
318
Revenons à l’exemple 10.1 et demandons à un logiciel
statistique (par exemple, MINITAB) d’effectuer
l’analyse de régression avec comme variable dépendante
le taux de cholestérol et comme variable indépendante, le
poids.
Analysis of Variance
Source DF SS MS F P
Regression 1 3095,3 3095,3 19,06 0,000
Residual Error 16 2597,9 162,4
Total 17 5693,1
319
Comment interpréter tous ces nombres?
320
321
Annexe A : Aire pour la loi normale
Note : Un nombre dans la table correspond à l’aire sous la courbe à gauche. Exemple : Si X ~ N (0,1), P(X 1,25)
= 0,8944.
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,00 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,10 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,20 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,30 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,40 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,50 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,60 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,70 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,80 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,90 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,00 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,10 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,20 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,30 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,40 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,50 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,60 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,70 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,80 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,90 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,00 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,10 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,20 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,30 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,40 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,50 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,60 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,70 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,80 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,90 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,00 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,10 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,20 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,30 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,40 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,50 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
3,60 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,70 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,80 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,90 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
4,00 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
322
Annexe B : Table de la loi khi-deux
Chaque case donne la valeur x pour laquelle P(X x) = p lorsque X est de loi 2 à degrés de liberté 2 .
Exemple : Si X ~ 52 , P(X 1,610) = 0,1.
P
0,010 0,025 0,05 0,1 0,9 0,95 0,975 0,99
1 0,000 0,001 0,004 0,016 2,706 3,841 5,024 6,635
2 0,020 0,051 0,103 0,211 4,605 5,991 7,378 9,210
3 0,115 0,216 0,352 0,584 6,251 7,815 9,348 11,345
4 0,297 0,484 0,711 1,064 7,779 9,488 11,143 13,277
5 0,554 0,831 1,145 1,610 9,236 11,070 12,833 15,086
6 0,872 1,237 1,635 2,204 10,645 12,592 14,449 16,812
7 1,239 1,690 2,167 2,833 12,017 14,067 16,013 18,475
8 1,646 2,180 2,733 3,490 13,362 15,507 17,535 20,090
9 2,088 2,700 3,325 4,168 14,684 16,919 19,023 21,666
10 2,558 3,247 3,940 4,865 15,987 18,307 20,483 23,209
11 3,053 3,816 4,575 5,578 17,275 19,675 21,920 24,725
12 3,571 4,404 5,226 6,304 18,549 21,026 23,337 26,217
13 4,107 5,009 5,892 7,042 19,812 22,362 24,736 27,688
14 4,660 5,629 6,571 7,790 21,064 23,685 26,119 29,141
15 5,229 6,262 7,261 8,547 22,307 24,996 27,488 30,578
16 5,812 6,908 7,962 9,312 23,542 26,296 28,845 32,000
17 6,408 7,564 8,672 10,085 24,769 27,587 30,191 33,409
18 7,015 8,231 9,390 10,865 25,989 28,869 31,526 34,805
19 7,633 8,907 10,117 11,651 27,204 30,144 32,852 36,191
20 8,260 9,591 10,851 12,443 28,412 31,410 34,170 37,566
21 8,897 10,283 11,591 13,240 29,615 32,671 35,479 38,932
22 9,542 10,982 12,338 14,041 30,813 33,924 36,781 40,289
23 10,196 11,689 13,091 14,848 32,007 35,172 38,076 41,638
24 10,856 12,401 13,848 15,659 33,196 36,415 39,364 42,980
25 11,524 13,120 14,611 16,473 34,382 37,652 40,646 44,314
26 12,198 13,844 15,379 17,292 35,563 38,885 41,923 45,642
27 12,879 14,573 16,151 18,114 36,741 40,113 43,195 46,963
28 13,565 15,308 16,928 18,939 37,916 41,337 44,461 48,278
29 14,256 16,047 17,708 19,768 39,087 42,557 45,722 49,588
30 14,953 16,791 18,493 20,599 40,256 43,773 46,979 50,892
323
Annexe C : Table de la loi de Student
Chaque case donne la valeur x pour laquelle P(X x) = p lorsque X est de loi de Student à degrés de liberté : t
Exemple : Si X ~ t14, P(X 1,07628) = 0,15.
p : Surface à droite
0,25 0,2 0,15 0,10 0,05 0,025 0,01 0,005
1 1,00000 1,37638 1,96261 3,07768 6,31375 12,70620 31,82052 63,65674
2 0,81650 1,06066 1,38621 1,88562 2,91999 4,30265 6,96456 9,92484
3 0,76489 0,97847 1,24978 1,63774 2,35336 3,18245 4,54070 5,84091
4 0,74070 0,94096 1,18957 1,53321 2,13185 2,77645 3,74695 4,60409
5 0,72669 0,91954 1,15577 1,47588 2,01505 2,57058 3,36493 4,03214
6 0,71756 0,90570 1,13416 1,43976 1,94318 2,44691 3,14267 3,70743
7 0,71114 0,89603 1,11916 1,41492 1,89458 2,36462 2,99795 3,49948
8 0,70639 0,88889 1,10815 1,39682 1,85955 2,30600 2,89646 3,35539
9 0,70272 0,88340 1,09972 1,38303 1,83311 2,26216 2,82144 3,24984
10 0,69981 0,87906 1,09306 1,37218 1,81246 2,22814 2,76377 3,16927
11 0,69745 0,87553 1,08767 1,36343 1,79588 2,20099 2,71808 3,10581
12 0,69548 0,87261 1,08321 1,35622 1,78229 2,17881 2,68100 3,05454
13 0,69383 0,87015 1,07947 1,35017 1,77093 2,16037 2,65031 3,01228
14 0,69242 0,86805 1,07628 1,34503 1,76131 2,14479 2,62449 2,97684
15 0,69120 0,86624 1,07353 1,34061 1,75305 2,13145 2,60248 2,94671
16 0,69013 0,86467 1,07114 1,33676 1,74588 2,11991 2,58349 2,92078
17 0,68920 0,86328 1,06903 1,33338 1,73961 2,10982 2,56693 2,89823
18 0,68836 0,86205 1,06717 1,33039 1,73406 2,10092 2,55238 2,87844
19 0,68762 0,86095 1,06551 1,32773 1,72913 2,09302 2,53948 2,86093
20 0,68695 0,85996 1,06402 1,32534 1,72472 2,08596 2,52798 2,84534
21 0,68635 0,85907 1,06267 1,32319 1,72074 2,07961 2,51765 2,83136
22 0,68581 0,85827 1,06145 1,32124 1,71714 2,07387 2,50832 2,81876
23 0,68531 0,85753 1,06034 1,31946 1,71387 2,06866 2,49987 2,80734
24 0,68485 0,85686 1,05932 1,31784 1,71088 2,06390 2,49216 2,79694
25 0,68443 0,85624 1,05838 1,31635 1,70814 2,05954 2,48511 2,78744
26 0,68404 0,85567 1,05752 1,31497 1,70562 2,05553 2,47863 2,77871
27 0,68368 0,85514 1,05673 1,31370 1,70329 2,05183 2,47266 2,77068
28 0,68335 0,85465 1,05599 1,31253 1,70113 2,04841 2,46714 2,76326
29 0,68304 0,85419 1,05530 1,31143 1,69913 2,04523 2,46202 2,75639
30 0,68276 0,85377 1,05466 1,31042 1,69726 2,04227 2,45726 2,75000
35 0,68156 0,85201 1,05202 1,30621 1,68957 2,03011 2,43772 2,72381
40 0,68067 0,85070 1,05005 1,30308 1,68385 2,02108 2,42326 2,70446
50 0,67943 0,84887 1,04729 1,29871 1,67591 2,00856 2,40327 2,67779
60 0,67860 0,84765 1,04547 1,29582 1,67065 2,00030 2,39012 2,66028
70 0,67801 0,84679 1,04417 1,29376 1,66691 1,99444 2,38081 2,64790
80 0,67757 0,84614 1,04320 1,29222 1,66412 1,99006 2,37387 2,63869
90 0,67723 0,84563 1,04244 1,29103 1,66196 1,98667 2,36850 2,63157
100 0,67695 0,84523 1,04184 1,29007 1,66023 1,98397 2,36422 2,62589
Annexe D : Rappels sur les ensembles
Concepts de base
Définition 1: Un ensemble A est une collection d’objets. Les objets sont appelés éléments.
Remarques :
1) Si A B et B A , alors A B .
2) La négation de p A , A B , A B est p A , A B , A B, respectivement.
Définition 3 : Dans le contexte de la théorie des probabilités, tous les ensembles considérés
sont des sous-ensembles d’un ensemble universel que l’on désigne par . L’ensemble vide
qui est l’ensemble ne contenant aucun élément est désigné par .
(a) Union : Soient A et B deux ensembles. L’union de A et B est l’ensemble des éléments
qui appartiennent à A ou à B. On désigne l’union de A et B par A B . On dira que
x A B si x appartient à au moins l’un des deux ensembles A et B.
A B
A B
325
Remarque : La figure ci-dessus est appelée diagramme de Venn.
Exemples :
A B
A B
Exemples :
A B
326
Annexe E : Rappels sur les sommations
Soient a1 ,..., an n nombres réels; soient b1 ,..., bn n nombres réels; soit c un nombre réel.
a
n
(i) i a1 ... an .
i 1
c c ... c nc.
n
(iii)
i 1
(a a nc 2 2c ai .
n n n
(vii) i c) 2 (a1 c)2 ... (an c)2 ( a12 c 2 2a1c) ... (an2 c 2 2an c) = 2
i
i 1 i 1 i 1
327
Annexe F : Rappels sur le concept de valeur absolue
Pour tout nombre réel x , la valeur absolue de x (notée x ) est définie par :
x x si x 0;
x x si x 0;
x 0 si x 0.
(i) x b si et seulement si b x b.
(ii) x b si et seulement si x b ou x b.
(iii) x a b si et seulement si a b x a b.
(iv) x a b si et seulement si x a b ou x a b.
Remarque : Si on pose a 0 dans (iii) et (iv), on retombe sur (i) et (ii), respectivement.
328