0% ont trouvé ce document utile (0 vote)
24 vues328 pages

Introduction à la statistique STT1700

Transféré par

cheikhna.ndiaye
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
24 vues328 pages

Introduction à la statistique STT1700

Transféré par

cheikhna.ndiaye
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

INTRODUCTION À LA

STATISTIQUE
STT1700

David Haziza
Département de mathématiques et de statistique

Automne 2016
Qu’est ce que la statistique?

La statistique est la science dont le but est de donner un


sens aux données. L’étude statistique comporte
généralement 4 étapes :
(1) la collecte des données ;
(2) le traitement des données collectées, aussi appelé
la statistique descriptive.
(3) l’analyse et l’interprétation des données aussi
appelée l'inférence statistique, qui s'appuie sur la
statistique mathématique.
(4) la diffusion des résultats d’analyse.

Dans ce cours, l’emphase est mise sur l’étape 2 (chapitre


1) mais surtout sur l’étape 3 (chapitres 2-10).

Applications de la statistique : pharmacologie,


psychologie, médecine, environnement, cour de
justice, sondages, physique, chimie, sciences sociales,
marketing, finance, économétrie, etc.

2
Chapitre 1
Statistiques descriptives

1.1 Introduction: variables et distributions

Unité statistique (ou unité) : objet pour lequel nous


sommes intéressés à recueillir de l’information. Peut être
un individu, une compagnie, etc.

Population : ensemble d’unités que l’on cherche à étudier


(la population des personnes atteintes du VIH au Canada,
la population des électeurs au Québec, la population de
voitures fabriquées dans une chaine de production
donnée, la population des accidents observés à une
certaine intersection dans la ville de Montréal, etc.)

Échantillon : n’importe quel sous ensemble de la


population

Variable : caractéristique d’une unité qui peut prendre


différentes valeurs (modalités) pour différentes unités.

Variable qualitative : classe les individus dans un groupe


ou une catégorie. Par exemple, le sexe d’un individu
(homme, femme) ou le niveau de scolarité d’un individu
(primaire, secondaire, universitaire)
3
Variable quantitative : variable dont les valeurs sont
numériques. Les valeurs prises par une telle variable
peuvent être continues (température, poids d’un individu)
ou discrète (années de scolarité, nombre d’enfants dans
un ménage).

Distribution d’une variable : La distribution d’une


variable est une correspondance entre les valeurs de la
variable et leurs fréquences ou leurs fréquences relatives.
La fréquence représente le nombre d’observations
appartenant à une catégorie et la fréquence relative est la
fréquence divisée par le nombre total d’observations. La
fréquence relative est parfois multipliée par 100, de
façon à représenter un pourcentage.

4
Exemple 1.1 Le tableau 1.1 présente le salaire annuel
(en millions de dollars américains) des 40 CEO (Chief
Executive Officiers) les mieux payés en 2006 ainsi que
leur âge et leur plus haut diplôme obtenu. Ces données
ont été publiées dans le magazine Forbes, édition du 8
mai 2006.

Ce jeu de données comprend 3 variables qualitatives


(Nom, Compagnie et Diplôme) ainsi qu’une variable
quantitative discrète (Rang) et 2 variables quantitatives
continues (Salaire et Age).

5
Tableau 1.1 Salaires des CEO (Forbes, 2006)
Rang Nom Compagnie Salaire Age Diplôme
1 Fairbank CapitalOne 249.42 55 MBA
2 Semel Yahoo 230.55 63 MBA
3 Silverman Cendant 139.96 65 Droit
4 Karatz KBHome 135.53 60 Droit
5 Fuld LehmanBros 122.67 60 MBA
6 Irani OccidentalPetro 80.73 71 PhD
7 Ellison Oracle 75.33 61 Aucun
8 Thompson Symantec 71.84 57 Maitrise
9 Crawford CaremarkRx 69.66 57 Bacc.
10 Mozilo Countrywide 68.96 67 Bacc.
11 Chambers CiscoSystems 62.99 56 MBA
12 Dreier RylandGroup 56.47 58 Bacc.
13 Frankfort Coach 55.99 60 MBA
14 Hovnanian HovnanianEnt 47.83 48 MBA
15 Drosdick Sunoco 46.19 62 Maitrise
16 Toll TollBrothers 41.31 65 Droit
17 Ulrich Target 39.64 63 Bacc.
18 Rollins Dell 39.32 53 MBA
19 Cazalot MarathonOil 37.48 55 Bacc.
20 Novak YumBrands 37.42 53 Bacc.
21 Papa EOGResources 36.54 59 MBA
22 Termeer Genzyme 36.38 60 MBA
23 Adkerson FreeportCopper 35.41 59 MBA
24 Sharer Amgen 34.49 58 Maitrise
25 Sugarman IStar 32.94 43 MBA
26 David UnitedTech 32.73 64 MBA
27 Simpson XTOEnergy 32.19 57 MBA
28 Lanni MGMMirage 31.54 63 MBA
29 Jacobs Qualcomm 31.44 64 PhD
30 Bollenbach HiltonHotels 31.43 63 MBA
31 Mulva ConocoPhillips 31.34 59 MBA
32 Mack MorganStanley 31.23 61 Bacc.
33 Williams Aetna 30.87 57 Maitrise
34 Lesar Halliburton 29.36 53 MBA
35 Hanway Cigna 28.82 54 MBA
36 Cayne BearStearns 28.4 72 Aucun
37 Amos Aflac 27.97 54 Bacc.
38 Thiry DaVita 27.89 50 MBA
39 Rowe Exelon 26.9 60 Droit
40 Cornelius Guidant 25.18 62 MBA

6
Le tableau 1.2 représente la distribution de la variable
«Diplôme » dans l’exemple 1.1

Tableau 1.2 Distribution de la variable «Diplôme »


dans l’exemple 1.1
Valeurs Fréquence Fréquence
Relative
Aucun 2 0,05
Bacc. 8 0,2
Droit 4 0,1
Maitrise 4 0,1
MBA 20 0,5
PhD 2 0,05
40 1

Il existe de nombreuses méthodes graphiques permettant


d’illustrer la distribution d’une variable.

7
1.2 Quelques méthodes graphiques
Ici, nous mentionnons quelques méthodes graphiques :

Pour variable qualitative :

(i) Diagramme circulaire (Pie chart, en anglais)


(ii) Diagramme à bâtons (Bar chart, en anglais)

Pour variable quantitative :

(i) l’histogramme (Histogram, en anglais)


(ii) le graphique « tiges et feuilles » (Stem-and-leaf,
en anglais)
(iii) le diagramme en boîte (Box plot, en anglais)
(voir section 1.5)

8
Le diagramme à bâtons est une représentation courante
de la distribution d’une variable qualitative.

Dans l’exemple 1.1, on avait exhibé la distribution de la


variable « Diplôme ». Ci-dessous, on a un diagramme à
bâtons.

Figure 1.1 Diagramme à bâtons pour


la variable « Diplôme » dans l’exemple
1.1

Diagramme à bâtons de la variable Diplome

20

15
Fréquence

10

0
Aucun Bacc. Droit Maitrise MBA PhD
Diplôme

9
Le diagramme circulaire est une autre représentation
courante de la distribution d’une variable qualitative.

Figure 1.2 Diagramme circulaire pour


la variable « Diplôme » dans l’exemple
1.1

Pie Chart of Diplome


C ategory
A ucun
5.0% 5.0%
Bacc.
Droit
Maitrise
17.5%
MBA
PhD

10.0%

50.0%

12.5%

10
L’histogramme est la représentation la plus courante de
la distribution d’une variable quantitative. Comment
construire un histogramme?

1. Choisir un nombre de classe, habituellement entre 5


et 10.

2. Déterminer l’étendue (étendue = plus grande valeur –


plus petite valeur). On obtient la largeur de la classe en
divisant l’étendue par le nombre de classes choisi à
l’étape 1.

3. Arrondir vers le haut la largeur de la classe obtenu à


l’étape 2 à une valeur appropriée (si nécessaire).

4. Déterminer les bornes des classes. La plus petite


classe doit inclure la plus petite donnée. Si une
observation est sur les bornes, compte-t-elle à droite ou à
gauche? Le livre les classe à gauche mais il est possible
de les classer à droite.

5. Construire un tableau comprenant les classes, leur


fréquence respective ainsi que leur fréquence relative
respective.

6. Construire l’histogramme en mettant les intervalles


sur l’axe horizontal et où les fréquences (ou les
fréquences relatives) représente la hauteur des bâtons.
11
Exemple 1.2 Les données suivantes représentent la
moyenne académique de 30 étudiants au département de
mathématiques et de statistique

2,0 3,1 1,9 2,5 1,9 2,3 2,6 3,1 2,5 2,1
2,9 3,0 2,7 2,5 2,4 2,7 2,5 2,4 3,0 3,4
2,6 2,8 2,5 2,7 2,9 2,7 2,8 2,2 2,7 2,1

Solution :
1. On choisit 8 classes.
2. Étendue  3,4  1,9  1,5 . La largeur approximative
des classes est donc : 1,5 / 8  0,1875 .
3. Arrondir 0.1875 à 0.2. Donc, la largeur de la classe
est égale à 0,2.
4. La première classe doit contenir la plus petite valeur,
1,9. Donc la première classe contiendra les données qui
tombent dans l’intervalle [1,9; 2,1), etc.
5. On construit le tableau suivant :

Classe Intervalle Fréquence Fréquence


Relative
1 1,9 à < 2,1 3 3/30
2 2,1 à < 2,3 3 3/30
3 2,3 à < 2,5 3 3/30
4 2,5 à < 2,7 7 7/30
5 2,7 à < 2,9 7 7/30
6 2,9 à < 3,1 4 4/30
7 3,1 à < 3,3 2 2/30
8 3,3 à < 3,5 1 1/30

12
Figure 1.3 Histogramme de la variable Moyenne
académique dans l’exemple 1.2

Histogramme de la variable Moyenne académique

4
Fréquence

0
2.0 2.2 2.4 2.6 2.8 3.0 3.2 3.4
Moyenne académique

13
Remarques :

(1) Si on avait un très grand nombre d’observations et


que l’on utilisait un grand nombre de classes, chacune
d’une largeur très étroite, alors l’aspect général de
l’histogramme serait une courbe assez lisse.

(2) Le choix du nombre de classes a souvent un impact


important sur le « look » de l’histogramme.

(3) Distribution symétrique

Distribution asymétrique à droite

Distribution asymétrique à gauche

14
Le graphique « tiges et feuilles » est une autre
représentation courante de la distribution d’une variable
quantitative.

Comment construire une graphique « tiges et feuilles »?

1. Séparer chaque nombre en une tige qui contient tous


les chiffres sauf le dernier et une feuille, soit le dernier
chiffre. Les tiges ont autant de chiffres que nécessaire,
alors que la feuille n’a qu’un seul chiffre.

2. On place les tiges sur une colonne verticale avec la


plus petite tige en haut et on fait une ligne à droite de
cette colonne.

3. On écrit chaque feuille à droite de sa tige en ordre


croissant.

15
Exemple 1.3
Voici les notes de l’examen final pour le cours STT1700.
On cherche à construire un graphique « tiges et
feuilles ».

53 98 54 45
55 85 70 57
48 50 84 49
69 64 73 91
50 100 82 58
83 84 96 52
16 78 70 37
68 83 44 81
61 49 59 72

16
Solution : Les notes varient de 16 à 100. Les tiges seront
donc données par : 1, 2, 3,…, 10.

Figure 1.4 Graphique « Tiges et feuilles »

1 6
2
3 7
4 45899
5 002345789
6 1489
7 00238
8 1233445
9 168
10 0

Avantages : Le graphique « tiges et feuilles » exhibe non


seulement les fréquences et la forme de la distribution
(comme un histogramme) mais également les données
elles mêmes.

Remarque : Les méthodes graphiques sont intéressantes


et utiles afin de décrire des données. Cependant, les
graphiques ne donnent pas d’information suffisamment
précise pour mener une inférence (par exemple,
intervalle de confiance, test d’hypothèse, etc.) Nous
avons donc besoin de mesures numériques. Ceci fera
l’objet des sections 1.3 et 1.4.
17
1.3 Mesures de tendance centrale

Une mesure de tendance centrale est un indice de la


position du centre d’une série de données ou d’une
distribution. Elle donne une idée de l’ordre de grandeur
des données.

Nous considérons 3 mesures de tendance centrale.

18
Le mode
Le mode d’une série de données est défini comme la
donnée qui a la plus grande fréquence (i.e., la donnée
qui apparait le plus de fois).

Exemple 1.6 : Voici le poids en kg de 15 vaches


425 489 505 398 478 489 500 401 490 399 415 504 433
351 451

Ici, le mode est 489 qui apparait 2 fois, contrairement à


toutes les autres données qui n’apparaissent qu’une seule
fois.

Remarque : Le mode n’est pas unique. Dans l’exemple


1.6, si on ajoute la donnée 401, alors il y aura 2 modes :
489 et 401.

La moyenne arithmétique
Soit x1, x2, ... , xn une série de n données. Leur moyenne
arithmétique est définie par
x   xi
1 n
n i 1

19
Remarque : Soit une série de n données, y1 ,..., yn et
supposons que les yi s’écrivent comme yi  a  bxi .
Si l’on connait la moyenne arithmétique des xi , alors
il est facile d’obtenir la moyenne arithmétique des yi :

y  a  bx

Exemple 1.5 Supposons que l’on dispose des


températures pour 10 journées estivales en degrés
Celsius :

22, 28, 18, 29, 34, 20, 25, 37, 16, 24.

La moyenne des 10 observations est égale à 25.3.


Maintenant, une personne vous demande de lui donner
la moyenne des 10 jours en degrés Fahrenheit car elle
ne comprend pas bien l’échelle des Celsius. La règle
suivante est bien connue :

1 F = (9/5) x 1 C +32
Afin de calculer la moyenne des 10 jours en
Fahrenheit, on pourrait transformer en Fahrenheit
chacune des données et calculer la moyenne des
données transformées. On peut obtenir la moyenne en
degrés Fahrenheit plus rapidement en calculant :

(9/5) x 25.3 + 32 = 77. 54

20
La médiane
La médiane est la donnée centrale d’une série, lorsque
les données sont rangées en ordre croissant ou
décroissant.

Lorsque les données sont en nombre impair, la médiane


est la donnée centrale. Par exemple, la médiane des
données
1, 3, 5, 7 , 9, 10, 13

est 7.

Lorsque les données sont en nombre pair, la médiane est


la moyenne des deux données centrales. Par exemple, la
médiane des données

1, 3, 5, 7, 9 , 10, 13, 15

est (7 + 9)/2 = 8.

21
Remarques :

(1) Que le nombre de données soit pair ou impair, le


nombre d’observations en dessous de la médiane est égal
au nombre d’observations au dessus de la médiane.

(2) Contrairement à la moyenne arithmétique, la médiane


n’est pas affectée par la présence de valeurs atypiques
(ou valeurs aberrantes). Dans l’exemple précédent, la
moyenne arithmétique est égale à 7,875. Si on remplace
la dernière valeur, 15, dans l’exemple précédent par 315,
la médiane reste inchangée alors que la moyenne
arithmétique est maintenant égale à 45,375. On dira alors
que la médiane est une mesure de tendance centrale
robuste à la présence de valeurs aberrantes.

22
1.4 Mesures de dispersion

Habituellement, il n’est pas suffisant de rapporter une


mesure de tendance centrale car cette dernière ne peut, à
elle seule, donner une idée complète d’une série de
données ou d’une distribution. On rapportera également
des mesures de dispersion (ou de volatilité).

Il existe plusieurs mesures de dispersion :

L’étendue
L’étendue est définie comme la différence entre la plus
grande donnée et la plus petite donnée.

Exemple 1.6 On a la série de donnée suivante :

18 13 11 22 1 4 6 17 8

L’étendue est égale à 22-1=21.

23
Écart-type et variance

Comme mesure de la dispersion d’une série de données,


on utilise l’écart-type; une quantité associée à l’écart-
type est la variance.

Soit x1, x2, ... , xn une série de n données. Leur variance


est définie par

 ( x  x )
n 2

s2  i 1 i

n 1

L’écart-type est la racine carrée de la variance, soit

 i1 i
( x  x )
n 2

s
n 1

Formules de calcul:
On démontre facilement que

 i1 i
( x  x )  i1 i
x  nx
n 2 n 2 2

n 1 n 1

24
Remarques :

  x  x   0.
n
(1) i
i 1
(2) Soit yi  a  bxi où a et b sont des constantes. Soit
sx2 la variance des xi et s y2 la variance des yi . On
démontre aisément les relations suivantes:

s 2y = b2 sx2 , et donc s y  b sx .

Revenons à l’exemple 1.5. L’écart-type des températures


en degrés Celsius est égal à s x  6.78 . Si l’on veut
l’écart-type des données en degrés Fahrenheit, il suffit
d’appliquer la règle précédente pour obtenir :
s y  (9 / 5)  6.78  12.204.

(3) La variance est fonction de la moyenne des


observations. Comme la moyenne, la variance n’est pas
robuste à la présence de valeurs aberrantes.

25
(4) Il est parfois utile de connaitre la position relative
d’une observation. Par exemple, dans le contexte d’un
examen, vous voudriez peut être savoir comment votre
note se compare à celle des autres étudiants dans la
classe. Un exemple d’une mesure de position relative est
la cote z :
xx
z=
sx

Notons que la cote z est une transformation linéaire des


xi du type a  bxi , où a   x sx et b  1 sx . Il s’ensuit
que la moyenne et l’écart-type de z sont z = 0 et sz  1.

La cote z est une distance standardisée entre une donnée


et la moyenne des données. Notons que la cote z n’a pas
d’unité.

26
Exemple 1.7 Considérons les données de l’exemple 1.5.
Après calculs, on obtient s x  6.78. On a le tableau
suivant :
xi zi

22 -0.48650

28 0.39805

18 -1.07620

29 0.54547

34 1.28259

20 -0.78135

25 -0.04423

37 1.72486

16 -1.37104

24 -0.19165

x  25.3; sx  6.78 z  0; sz  1

27
L’écart interquartile (interquartile range)

Définition : Le pième percentile ou quantile d’un jeu de


données présenté en ordre croissant est la valeur telle
qu’au plus p% des valeurs sont en dessous d’elle et au
plus (100-p)% sont au dessus.

Les percentiles les plus utilisés sont le 25ième, le 50ième et


75ième appelés respectivement le premier quartile (Q1), la
médiane (Q2) et le troisième quartile Q3.

L’écart interquartile est défini selon

IQR  Q3  Q1

Comment obtenir Q1 et Q3?

28
 n  1
 Q1 est la donnée en position et Q3 est la
4
3  n  1
donnée en position .
4
 n  1 3  n  1
 Rien ne garantit que les valeurs et
4 4
seront entières. Dans ce cas, les positions des
quartiles sont déterminées par interpolation.

29
Exemple 1.8 On a 26 données

11 2 333 44 55555 666 777 8 999999

56
La médiane est donnée par  5,5
2
La position de Q1 est donnée par 27/4 = 6,75. Donc Q1
est donnée par la valeur à ¾ de la distance entre les
valeurs 3 et 4 et on a Q1= 3,75.

De manière similaire, la position de Q3 est donnée par


0.75x27 = 20,25. Donc Q3 est donnée par la valeur à 1/4
de la distance entre les valeurs 8 et 9 et on a Q3= 8,25.

Donc,
IQR  Q3  Q1 = 8,25-3,75 = 4,5.

30
Remarques:
(1) Contrairement à s 2 , l’IQR est une robuste aux
valeurs aberrantes.

(2) Le résumé de 5 chiffres (five-number summary dans


le livre) est composé de : min, Q1, médiane, Q3, max.

31
1.5 Une autre méthode graphique : Le diagramme en
boite ou boxplot

Le boxplot est une autre méthode graphique permettant


d’étudier la distribution d’une variable quantitative. Le
boxplot incorpore le résumé de 5 chiffres (minimum,
Q1, médiane, Q3). La figure 1.7 représente le boxplot
décrivant la taille (en cm) de 1000 hommes et 1000
femmes.
 La boite est délimitée par Q1 et Q3. La longueur de
la boite représente donc l’IQR.
 La ligne dans la boite représente la médiane. Si la
ligne coupe la boite en 2 rectangles égaux, alors la
distribution est symétrique. Sinon elle est
asymétrique.
 Les étoiles représentent les données qui sont jugées
aberrantes. Une donnée x est jugée aberrante si
x  Q1  1.5 IQR ou si x > Q3  1.5 IQR
32
 Les points Q1  1.5 IQR et Q3  1.5 IQR sont souvent
appelés « clôtures » (fences, en anglais)

Figure 1.7 Boxplot pour la variable Taille


Boxplot pour la variable Taille
210

200

190

180

170
Taille

160

150

140

130

33
On peut également faire des « side-by-side boxplots »
qui permettent de comparer la distribution d’une
variable quantitative selon les modalités d’une variable
qualitative. La Figure 1.8 représente 2 « side by side
boxplots » décrivant la taille (en cm) selon le sexe.

Figure 1.8 Boxplot pour la variable Taille selon la


variable Sexe

Boxplot de Taille vs. Sexe


210

200

190

180

170
Taille

160

150

140

130
F M
Sexe

34
1.6 Une règle empirique : la règle 68-95-99

Un histogramme est en forme de cloche s’il possède un


seul mode, s’il est symétrique et si ses queues diminuent
graduellement.

Si un histogramme est en forme de cloche, alors la règle


empirique suivante, appelée la règle 68-95-99,
s’applique.

Soit une série de n données dont la distribution est en


frome de cloche. Alors :

(i) l’intervalle  x  s, x  s  contient approx. 68% des


données.
(ii) l’intervalle  x  2s, x  2 s  contient approx. 95% des
données.
(iii) l’intervalle  x  3s, x  3s  contient approx. 99% des
données.

35
Remarques :

(1) Si la distribution n’est pas en forme de cloche, on


peut toujours appliquer la règle 68-95-99, mais les
résultats risquent d’être fort imprécis.

(2) Les données comprises dans l’intervalle


 x  s, x  s  sont celles dont la cote z se situe entre -
1 et 1. De manière similaire, les données comprises
dans l’intervalle  x  2s, x  2 s  sont celles dont la
cote z se situe entre -2 et 2 et les données comprises
dans l’intervalle  x  3s, x  3s  sont celles dont la
cote z se situe entre -3 et 3.

(3) Cette règle sera justifiée plus formellement au


Chapitre 4.

36
1.7 Corrélation et droite des moindres carrés

Jusqu’ici, nous avons mis l’accent sur la description


d’une variable (qualitative ou quantitative). En pratique,
la relation entre deux variables quantitatives continues
est fréquemment étudiée. Cette relation est exposée
clairement à l’aide d’un nuage de points. Considérons
l’exemple suivant :

Exemple 1.9 Est-ce qu’il y a un lien entre la note de


l’intra 2 et la note de l’intra 1 dans le cours STT1700?
À la session d’automne 2010, 184 étudiants ont
composé les deux examens intra-trimestriels : l’intra 1 et
l’intra 2. Posons
x: note obtenue par un étudiant à l’intra 1
y: note obtenue par un étudiant à l’intra 2

37
Figure 1.9 Relation entre la note de l’intra 1 et celle de
l’intra 2 dans le cours STT1700 de la session d’automne
2010

La Figure 1.9 montre clairement qu’il y a une relation


entre les deux variables. De plus, cette relation semble
linéaire. Mais certaines relations sont plus fortes que
d’autres.

38
Un indice de la force d’une relation linéaire est le
coefficient de corrélation r, une mesure définie par

 i1 ( xi  x )( yi  y )
n

r
 i1 i
( x  x )  i1 i( y  y )
n 2 n 2

 n  1  i 1 sx
1 n ( xi  x ) ( yi  y )

sy

Remarques :
(1) -1 ≤ r ≤ 1
(2) |r| = 1 si et seulement si il existe des
constantes a et b telles que yi = a + bxi pour
tout i, c’est-à-dire, si et seulement si les points
du nuage se situent tous sur une même droite.
(3) r  0 lorsqu’on a une association positive et
r  0 lorqu’elle est negative.

39
(4) La corrélation est définie comme le produit
 xi  x 
croisée (divisée par  n  1 ) des quantités   et
 sx 
 yi  y 
  . La corrélation demeure donc inchangée si on
 sy 
change les unités de mesure de l’une et/ou de l’autre
variable.

(5) Attention : le coefficient de corrélation donne une


mesure de la force de la relation entre 2 variables si cette
dernière est linéaire. Si la relation n’est pas linéaire, on
ne peut utiliser le coefficient de corrélation.

(6) Le coefficient de corrélation n’est pas robuste à la


présence d’observations atypique. En effet, la présence
d’une seule valeur atypique peut faire varier le
coefficient de corrélation de manière drastique.

40
Figure 1.10 Différent types de relations

Relation linéaire positive et forte Relation linéaire négative et faible

Relation non-linéaire Aucune relation

Formule de calcul
La formule suivante permet de calculer le coefficient de
corrélation plus aisément:

r  xi yi  nxy
i x 2
 nx 2
 iy 2
 ny 2

Dans l’exemple 1.7, on calcule r = 74,7%, ce qui indique


que la relation est positive et relativement forte entre la
note de l’intra 1 et celle de l’intra 2.

41
Droite des moindres carrés
Lorsque le nuage de points montre qu’il existe une
relation entre deux variables, et que cette relation est
linéaire, il est bon de l’exprimer à l’aide de l’une
équation d’une droite,
y  a + bx.

Cette droite doit passer le plus près possible des points


du nuage. Pour préciser cette notion, nous devons définir
une mesure de la distance entre le nuage et la droite.
Celle que nous adoptons est une quantité D définie par:

D=  i1 i i
( y  y
ˆ )
n 2

où yˆi  a  bxi est le point sur la droite d’abscisse xi .


La quantité D est donc la somme des carrés des distances
verticales, ei = yi  yˆi , entre les points du nuage et la
droite.

42
La droite des moindres carrés est celle qui minimise D.
Le problème est donc

minimiser D   i1 i 
e  i1 i i
( y  y
ˆ )
n2 n 2

  ( yi  a  bxi )2
n

i 1
par rapport à a et b.

Figure 1.11 Minimiser les distances verticales

43
Les valeurs de a et b qui minimisent D satisfont:

 2 ( yi  a  bxi )  0,
D n

a i 1

 2 ( yi  a  bxi ) xi  0.
D n

b i 1

La première équation donne


y  a  bx  a  y  bx .

En substituant cette expression à a dans la deuxième


équation, nous obtenons

 i1  yi  a  bxi  xi    y  y  bx  bx  x
n n

   y  y  b( x  x )  x
i 1 i i i
n

   y  y  x  b  x  x  x
i 1 i i i
n n
i 1 i i i 1 i i

ce qui entraîne
 y  yx .
n

b
 x  xx
i 1 i i
n
i 1 i i

44
Il existe une autre expression pour le numérateur. Notez
que

 i1 ( xi  x )( yi  y ) =  i1 xi ( yi  y ) -
 x ( yi  y )
n n n

=  x ( y  y) - x
i 1

( yi  y )
n n

=  x ( y  y),
i 1 i i i 1
n
i 1 i i

utilisant le fait que  i 1 ( yi  y ) = 0. On montre de la


n

même façon que


 i1 i i
x ( x  x ) =  i1 ( xi  x )2 .
n n

Nous obtenons alors

  x  x  y  y 
n

i i
b i 1
.
  xi  x 
n
2

i 1

45
Les coefficients de la droite des moindres carrés sont
donc:

  x  x  y  y 
n

i i
b i 1
, et a = y - b x .
 x  x 
n
2
i
i 1

Voici une formule de calcul de b:

n xi yi    xi   yi 
n
 n  n 
b  i 1  i 1  i 1  .

n xi2    xi 
 
n n 2

i 1  i 1 

46
Remarques :

(1) La droite des moindres carrés passe par le point


( x , y ).
(2) En comparant les expressions de b et de r, on constate que
r et b sont de même signe et que r = 0 <=> b = 0. Nous avons
la relation suivante:

sx s
r b , et donc b  r y
sy sx

Donc r > 0 si et seulement si la droite des moindres


carrés est de pente positive, et r = 0 si et seulement si la
droite des moindres carrés est horizontale.

(3) Le coefficient a est appelée ordonnée à l’origine


et représente la valeur sur la droite lorsque x = 0. Le
coefficient b représente la pente de la droite des
moindres carrés. Donc, lorsque l’on augmente x d’une
unité, la variable y croit de b unités si b > 0 et décroit de
b unités si b < 0.

47
Figure 1.12 Droite des moindres carrés dans l’exemple
1.7

Dans l’exemple 1.7, on a a = -7,6543 et b =


0,9808. La droite de régression est donc donnée
par
y = -7,6543 + 0,9808 x

Par exemple, pour un étudiant qui a obtenu 55% à


l’intra 1, on prédit que sa note à l’intra 2 sera
égale à 46, 29% puisque

y = -7,6543 + 0,9808 x 55 =46, 29.

48
Exemple 1.10 Une étude sur la nutrition dans les pays en
voie de développement a recueilli des données dans le
village de Nahya en Égypte. Le tableau 1.4 exhibe le
poids moyen de 170 enfants de Nahya qui ont été pesé
tous les mois durant leur première année de vie.

Tableau 1. Poids (y) et âge (x)

Age (mois) Poids (kg) Age (mois) Poids (kg)

1 4,3 7 7,2

2 5,1 8 7,2

3 5,7 9 7,2

4 6,3 10 7,2

5 6,8 11 7,5

6 7,1 12 7,8

49
Figure 1.13 Droite des moindres carrés dans l’exemple 1.10

D’après la Figure 1.13, il y a bien une relation


entre le poids d’un bébé et son âge. Cependant,
cette relation n’est pas linéaire. Par conséquent, la
droite des moindres carrés ne fournit pas une
description adéquate de la relation entre le poids et
l’âge des bébés.

50
Chapitre 2
Probabilités

2.1 – Définitions, axiomes et propriétés


Avant de donner des définitions formelles, essayons de
comprendre la signification du mot probabilité.
Considérons les expériences suivantes :
1) On lance une pièce de monnaie. Intuitivement, on
sait que la probabilité d’obtenir FACE est ½.
Quelle est l’interprétation de P(FACE)=1/2?

2) Le lecteur de météo au télé-journal nous dit que


demain, il y a 35% de chance de précipitations;
c’est-à-dire, la probabilité qu’il pleuve demain est
35%. Comment interpréter cette affirmation?

3) On lance un dé équilibré. On sait que la probabilité


d’obtenir 2 est 1/6. Quelle est l’interprétation de
P(obtenir 2)=1/6?

51
Définitions

Expérience aléatoire Une expérience aléatoire est une


expérience dont on ne peut pas prédire les résultats
avec certitude.
Espace échantillon L'ensemble des résultats possibles
d'une expérience aléatoire est appelé espace
échantillon. Il sera dénoté par Ω.
Événement Un événement A est un sous-ensemble de
l'espace échantillon Ω.
Événement élémentaire Un événement élémentaire est
un événement qui ne peut être décomposé.

Remarque : Les définitions d’événement et d’événement


élémentaire implique qu’un événement est une union
d’événements élémentaires.

52
Exemple 2.1
On tire une personne aléatoirement dans la population et
on recueille son groupe sanguin. On a Ω = {A, B, AB,
O}. Les événements E1  A , E2  B , E3  AB et
E4  O sont les événements élémentaires.

Exemple 2.2
1) Expérience: Lancer deux pièces de monnaie : Ω =
{PP , PF , FP , FF}.

Les quatre événements élémentaires sont : E1  PP ,


E2  PF , E3  FP et E4  FF.

Événement Signification courante


{PP, PF} Le premier lancer donne une pile
{PP, PF, FP} Obtenir au moins une pile
{PF, FP} Obtenir exactement une pile

Remarque : Considérons le premier évènement {PP,


PF}. On dira que l’évènement s’est réalisé si le lancer
des deux pièces de monnaie conduit à PP ou PF. Sinon,
on dira que l’évènement ne s’est pas réalisé.
53
2) Expérience: Lancer un dé : Ω = {1,2,3,4,5,6}

Événement Signification courante


{1, 2, 3} Le résultat est inférieur ou égal à 3
{2, 4, 6} Le résultat est pair
{1, 5} Avoir "1" ou "5"

Remarque : Considérons le deuxième évènement {2, 4,


6}. On dira que l’évènement s’est réalisé si le lancer du
dé à 2, 4 ou 6. Sinon (lorsque le résultat du dé est un
nombre impair), on dira que l’évènement ne s’est pas
réalisé.

Combinaisons d'événements
Opération Sens concret
AB équivaut à l’énoncé « A ou B s’est
Réunion
produit ».
AB équivaut à l’énoncé « A et B se sont
Intersection
produits ».
Complémen Ac équivaut à l’énoncé « A ne s’est pas
tation produit ».
A - B (ou A\B) équivaut à l’énoncé « A s’est
Différence produit mais pas B » .Notez que A \ B =
ABc.

54
Lois de Morgan:
(AB)c = AcBc
et
(AB)c = AcBc.

Décomposition utile:

A = (AB)  (ABc),

où (AB) et (ABc) sont disjoints, c'est-à-dire,

(AB)(ABc) = Ø.

55
Événement impossible et événement certain.

L'ensemble vide  et l'ensemble Ω sont respectivement,


l’événement impossible et l’événement certain.

Événements disjoints ou incompatibles

Deux événements A et B sont dits disjoints ou


mutuellement exclusifs, ou incompatibles, s'ils ne
peuvent pas se produire en même temps.

Formellement,

A et B sont dits incompatibles si AB = Ø

56
Exemple 2.3 On tire au hasard une personne au
hasard dans une certaine population.

Considérons les événements suivants:


A: La personne choisie a les yeux bleus
B: La personne choisie a les cheveux
blonds
C: La personne choisie a les yeux verts

Événement Sens concret


AC
AB
Ac
A–B
(AB)c
Ac Bc

57
Axiomes

Définition : Une fonction P qui fait correspondre à


chaque événement A   un nombre réel P(A) est
appelée une probabilité si elle satisfait les axiomes
suivants:

A1 P(A)  0 pour tout événement A


A2 Si A1, A2, ..., Ak sont des événements disjoints
deux à deux, alors
P(A1AAk) = P(A1) + P(A2) + ... + P(Ak)
A3 P() = 1

Propriétés

1 P  Ac   1  P  A 

2 P() = 0: la probabilité de l'événement


impossible est 0.

58
3 P  A  P  A  B   P  A  B c 

4 Si B  A, alors P(B) ≤ P(A)

5 P(A) ≤ 1 pour tout événement A  

6 P(A - B) = P(A) - P(AB)

7 P(AB) = P(A) + P(B) - P(AB)

59
Exemple 2.4 Soit A et B deux événements tels que

P  A   0,3, P  B   0,5 et P  A  B   0,7 .

Déterminer : a) P  A  B  ; b) P  Ac  B c  ;

c) P  B  Ac  .

Solution :

60
Exemple 2.5 Un étudiant prend un cours de biologie
et un cours de statistique. La probabilité qu’il
réussisse le cours de biologie est 0,5 alors que la
probabilité qu’il réussisse celui de statistique est 0,7.
La probabilité qu’il réussisse les deux cours est 0,3.

Déterminer :
a) La probabilité qu’il réussisse au moins un cours.
b) Il échoue aux deux cours.
c) Il échoue au cours de statistique mais réussit le
cours de biologie.

Solution :

61
2.2 Attribution des probabilités

A chaque résultat    on fait correspondre une


probabilité p(), un nombre qui satisfait

0 ≤ p() ≤ 1
pour tout . De plus, la somme des probabilités de
tous les éléments de  est égale à 1
 p( ) = 1.


Remarque Comment attribue-t-on ces probabilités? Il


y a deux façons de le faire, l'une a priori, l'autre
empirique.

Méthode a priori Les probabilités « a priori » sont des


probabilités qui semblent intuitivement « raisonnables »,
généralement à cause de certains aspects physiques de
l'expérience. Cette intuition conduit normalement à un
modèle particulièrement simple, appelé modèle
d'équiprobabilité, dans lequel on attribue à chaque
résultat la même probabilité. Il s'agit là d'une
supposition — a priori raisonnable — au sujet de la
nature du phénomène observé. Par exemple, lorsqu'on
lance un sou, il est naturel de supposer, à moins d'évi-
dence contraire, que la probabilité d'avoir face est égale
à la probabilité d'avoir pile. Cette probabilité vaut alors

62
1/2. En général, si  contient n résultats équiprobables,
alors chacun a probabilité 1/n.

Méthode empirique L'hypothèse d'équiprobabilité est


une hypothèse scientifique qu'on doit tôt ou tard confron-
ter à l'expérience; et elle peut être remise en question à la
suite de certains faits d'observation empirique. Il est
naturel, par exemple, de supposer équiprobables les
résultats « garçon » et « fille » lorsqu'on observe une
naissance; pourtant, les nombreuses données sur les
naissances montrent que cette hypothèse n'est pas stric-
tement vraie. On constate en effet que la proportion de
garçons à la naissance est plutôt de 51 % et non de 50 %.
Dans la plupart des applications l'intuition ne fournit
même pas une première approximation. Seules les
données d'enquêtes peuvent fournir l'information.
Quelle est, par exemple, la probabilité qu'une personne
tirée dans la population canadienne ait 70 ans ou plus?
On n’en aurait aucune idée sans les données du
recensement qui révèlent que le pourcentage de
Canadiens de 70 ans et plus est de 7,6 %. La probabilité
voulue est donc de 0,76. De même, les données
actuarielles nous permettent d’estimer que la probabilité
qu'une femme de 18 ans vive jusqu'à l’âge de 65 ans et
au-delà est de 0,87.

63
Probabilité d'un événement

Ayant défini la probabilité d'un résultat, nous pouvons


définir la probabilité d'un événement: la probabilité d'un
événement A est la somme des probabilités des résultats
contenus dans A:

P ( A) P ( )
 A

Sous l'hypothèse d'équiprobabilité, cette règle prend une


forme particulièrement simple:

Card ( A)
P ( A)
Card ()

où Card(.) désigne la cardinalité d’un ensemble, le


nombre d’éléments qu’il contient.

64
2.3 Probabilités conditionnelles
Afin de saisir la notion de probabilité conditionnelle,
considérons les exemples suivants :

1) On tire une personne au hasard au Canada. On sait


que P (la personne tirée soit francophone)  0.2 . Si
après avoir tiré cette personne, on sait qu’elle vient du
Québec, alors P (la personne tirée soit francophone)
 0.8 .

2) On tire une carte dans un jeu de 52 cartes. On sait


4 1
P (la carte tirée soit un Roi)   . Si vous avez
52 13
vu que la carte tirée est une figure noire, alors P (la
2 1
carte tirée soit un Roi)   .
6 3

65
Remarques Dans les exemples précédents, soit A : la
personne est francophone et B : la personne tirée vient
du Québec. Alors, P  A B   0.8 .

Soit A : la carte tirée est un Roi et B : la carte tirée est


une figure noire. Alors, P  A B   1 3 .

Définition La probabilité
conditionnelle d'un événement B étant
donné un événement A, dénotée par
P(B|A), est définie par
P( A  B)
P ( B | A)
P ( A)

à condition que P(A)  0.

Remarque La probabilité conditionnelle P(B|A) n'est pas


définie si P(A) = 0, puisque la définition ci-dessus
entraînerait alors une division par 0. Cette restriction est
conforme au sens intuitif de probabilité conditionnelle:
on ne saurait imposer comme condition qu'un événement
impossible se soit réalisé.

66
La notion de probabilité conditionnelle permet de donner
une formule générale de la probabilité de l'intersection de
deux événements A et B, formule qui découle
immédiatement de la définition formelle de probabilité
conditionnelle:

P ( A  B )  P ( A) P ( B | A)

Puisqu’on peut échanger A et B dans cette formule, on a


aussi:

P( A  B)  P( B) P( A | B)

67
Exemple 2.6

Une personne est choisie au hasard dans une colonie de


vacances. Soit  l'espace échantillon,  = {l'ensemble
de tous les vacanciers}. Soit A l'événement " la personne
choisie s'est inscrite au tennis", B l'événement " la
personne choisie s'est inscrite au golf". On peut
identifier les probabilités P(A) et P(B) aux pourcentages
de ceux qui jouent au tennis et au golf, respectivement;
de même, la probabilité P(AB) est le pourcentage de
personnes qui jouent au tennis et au golf. La probabilité
conditionnelle de B étant donné A, P(B|A), qui est égale à
P(AB)/P(A), représente le pourcentage de ceux qui
jouent au golf parmi ceux qui jouent au tennis.

68
Exemple 2.7 Tirages successifs sans remise

D'une urne qui contient 3 boules rouges et 5 blanches,


on tire sans remise deux boules, l'une après l'autre. Soit
A = "la première boule est rouge" et B = "la deuxième
boule est blanche". Alors P(A)=3/8. Quant à P(B), on
ne l'obtient pas immédiatement. Ce qu'on peut obtenir
immédiatement, c'est P(B|A), la probabilité que B se pro-
duise, sachant que A s'est produit. Si A s'est produit, la
première boule tirée est rouge, il ne reste plus que 7
boules dans l'urne, dont deux sont rouges et 5 blanches;
donc P(B|A) = 5/7. De même, P(B|A ) = 4/7.
C

Question : Que vaut P(B)?

69
Exemple 2.8 Afin de déterminer les intentions de vote
de la population, 100 personnes ont été interviewées et
on leur a demandé pour quel parti politique A, B, C, elles
allaient voter. Les données sont exhibées dans le tableau
ci-dessous.
Parti
A B C
Sexe
Hommes 13 21 19
Femmes 20 8 19

Si on tire une personne au hasard dans ce groupe,


déterminer les probabilités suivantes :
a) La personne tirée vote pour A.
b) La personne tirée vote pour A si on sait que c’est une
femme.
c) La personne tirée vote pour B ou C si on sait que
c’est un homme
d) La personne tirée est une femme si on sait qu’elle
vote pour C.

70
Solution : Soient
A : la personne tirée vote pour A.
B : la personne tirée vote pour B.
C : la personne tirée vote pour C.
H : la personne tirée est un homme.
F : la personne tirée est une femme.

71
2.4 Indépendance d'événements

Deux événements A et B sont indépendants si la


probabilité conditionnelle de B étant donné A est égale à
la probabilité inconditionnelle de B, c'est-à-dire, si

P(B|A) = P(B).

Puisque P(AB) = P(A)P(B|A), cette condition est


équivalente à
P(AB) = P(A) P(B).

Et c'est plutôt cette égalité qui servira de définition


formelle:

Définition: Deux événements A et B


sont dits indépendants si et seulement
si
P(AB) = P(A) P(B)

72
Cette définition est équivalente à chacune des deux
suivantes:
P(A|B) = P(A) , P(B|A) = P(B),

à condition que les probabilités conditionnelles


impliquées soient définies, c'est-à-dire, que P(B) ≠ 0
pour la première, et que P(A) ≠ 0 pour la deuxième.

Remarques

(1) Ne pas confondre les notions d’événements


incompatibles et événements indépendants!

(2) Si A et B sont indépendants, alors


(i) A et BC sont indépendants
(ii) AC et B sont indépendants
(iii) AC et BC sont indépendants

73
Exemple 2.9 Épreuves indépendantes

On lance un dé deux fois. Quelle est la probabilité


d'avoir un nombre inférieur à 3 suivi d'un nombre
supérieur à 5?

Solution : Soit A = « le premier lancer donne un


nombre inférieur à 3 » et B = « le deuxième lancer donne
un nombre supérieur à 5 ». On cherche donc P(AB).
Les événements A et B sont indépendants car ils
correspondent à deux épreuves qui n'exercent pas
d'influence l'une sur l'autre. Donc P(AB) = P(A)P(B),
et puisque P(A) = 1/3, P(B) = 1/6, P(AB) =
(1/3)(1/6)= 1/18.

74
Dans plusieurs applications, les épreuves indépendantes
prennent la forme de tirages successifs avec remise.

Exemple 2.10 Indépendance et dépendance: tirages


avec et sans remise
D'une population qui contient 100 pièces fabriquées dont
12 sont défectueuses on tire successivement deux pièces.
Soit A = "la première pièce est défectueuse" et B = "la
deuxième pièce n'est pas défectueuse". Déterminer
P(AB) en supposant que les tirages se font a) avec
remise, b) sans remise.

Solution : Il est évident que P(A) = 0,12.

a) Les événements A et B sont indépendants puisque


les tirages se font avec remise et donc P(AB) =
P(A) P(B)= 0,12  0,88 = 0,1056;

b) P(AB) = P(A)P(B|A) = (12/100) (88/99) = 0,1067.

75
Exemple 2.11 On tire au hasard une personne d'une
certaine population. Considérons les événements
suivants:
A: La personne choisie a les yeux bleus
B: La personne choisie a les yeux bruns
C: La personne choisie a les cheveux blonds
D: La personne choisie est en faveur de la
peine capitale pour tout meurtre
E: La personne choisie est en faveur de la
peine capitale pour le meurtre d'un policier
Dire si les propositions suivantes sont vraies ou
fausses. Discutez.
a) A et B sont indépendants
b) A et B sont incompatibles
c) P(AB) = 0
d) E  D
e) P(A|C) > P(A)
f) A et D sont indépendants
g) B et D sont incompatibles
h) P(D) > P(E)
i) P(D|E) = P(D)/P(E)
j) P(E|D) = 1
k) P(DE) = P(E).

76
Généralisation de la notion d’indépendance à plusieurs
événements

La notion d'indépendance se généralise à plusieurs


événements A1 ,..., An Il faudrait, entre autres, que

P ( A1  A2 ... An )  P ( A1 ) P ( A2 )...P ( An )

mais cela ne suffit pas.

On dit des événements A1, A2,... , An qu’ils sont


mutuellement indépendants si pour k = 2, ... , n, on a

P ( Ai  Ai  ...  Ai )  P ( Ai ) P ( Ai )...P ( Ai )
1 2 k 1 2 k

pour tout choix i1, ... , ik de k entiers parmi les entiers 1,


2, 3, ... , n.

77
Exemple 2.12 Indépendance de 3 événements

Les événements A, B, et C sont mutuellement


indépendants si et seulement si les conditions
suivantes sont vérifiées

P(AB) = P(A)P(B), P(AC) = P(A)P(C),

P(BC) = P(B)P(C),

ainsi que

P(ABC) = P(A)P(B)P(C).

78
Ch ap it re 3
Va ri ab les al é ato ire s d is crè te s

3.1Variables aléatoires
Une variable aléatoire, généralement dénotée par une
lettre majuscule comme X, Y, Z, est une caractéristique
numérique des résultats d'une expérience. C’est une
fonction qui fait correspondre un nombre à chaque
élément de l’espace échantillon.

Définition
Une variable aléatoire est une fonction X qui fait
correspondre à chaque élément    un nombre
X().

79
Exemple 3.1 Le nombre X de faces lorsqu’on lance une
pièce de monnaie trois fois, est une variable aléatoire:
c’est une correspondance entre les éléments de l’espace
échantillon et les valeurs de la variable aléatoire. La
correspondance pour X est la suivante:

Ici, on a

  PPP, PPF , PFP, FPP, PFF , FFP, FPF , FFF 

Correspondance entre les éléments de  et les valeurs de


X

Si ω  PPP, alors X (ω)  0 alors que si ω  FPP, on a


X (ω)  1.

80
Si on a déjà établi une probabilité sur, il est aisé de la
"transporter" à l'ensemble des valeurs de X. Supposons,
par exemple, qu'on ait admis l'équiprobabilité des 8
résultats dans . Alors,

P[X = 0] = P[{(PPP)}] = 1/8


P[X = 1] = P[{(PPF),(PFP),(FPP)}] = 3/8
P[X = 2] = P[{(FFP), (FPF), (PFF)}] =3/8
P[X = 3] = P[{(FFF)}] = 1/8

Nous distinguerons deux types de variables aléatoires:


les variables aléatoires discrètes et les variables
aléatoires continues.

Dans ce chapitre, on considère le cas des variables


aléatoires discrètes. Le cas des variables aléatoires
continues sera traité au chapitre 4.

81
Variables aléatoires discrètes : ce sont celles dont les va-
leurs forment un ensemble fini, ou infini dénombrable
(comme l’ensemble des entiers, par exemple).

Définition Le support discret d’une variable


aléatoire X est l’ensemble D des valeurs

x dont la probabilité est non nulle:

D = {x | P(X = x) > 0}

Parfois le nombre de valeurs est un nombre infini (dans


la plupart des modèles qui traitent des files d'attente, par
exemple, le nombre d'arrivées à un comptoir de service
pendant un certain intervalle de temps est une variable
qui prend les valeurs 0,1,2, ..., sans fin.)

82
Fonction de masse

Si x désigne une valeur quelconque d'une variable


aléatoire X, il est théoriquement possible de calculer la
probabilité que X prenne la valeur x, dénotée par
P[X = x] ou p(x).

Définition La fonction de masse p(x) d'une


variable aléatoire discrète X est une fonction
qui fait correspondre à chaque valeur x de X
la probabilité que X prenne la valeur x:

p(x) = P[X = x]

83
Exemple 3.2 Nombre de FACE en trois lancers

On lance trois pièces de monnaie. Soit X le nombre de


FACE obtenus. Déterminer la fonction de masse p de X.

Solution : X est précisément la variable décrite au début


de cette section et nous avons déjà déterminé sa
fonction de masse, puisque nous avons calculé P[X =
x] pour x = 0, 1, 2, 3. Les valeurs x et les probabilités
correspondantes p(x) constituent la fonction de masse
qui peut être présentée sous forme de tableau:

x 0 1 2 3
p(x) 1/8 3/8 3/8 1/8 1

Figure 3.1
Distribution de X: nombre de FACE en trois lancers

Remarque Une fonction de masse n'est pas


nécessairement symétrique comme celle de la figure ci-
dessus.

84
Exemple 3.3 Deux dés: somme des résultats
On lance deux dés. Soit X la somme des deux résultats
obtenus. Déterminer la fonction de masse p de X

Solution : Le support de X est l’ensemble {2, 3, ... ,


12}. On admet l'équiprobabilité des 36 résultats dans
.

x 2 3 4 5 6 7 8 9 10 11 12
p(x) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/362/361/361

85
Propriétés d’une fonction de masse

Une fonction de masse p(x) doit satisfaire les conditions


suivantes:

p ( x )  0 et  p ( x) = 1
x

Fonction de répartition
La fonction de répartition est une autre fonction associée
à une variable aléatoire. En voici une définition:

Définition Soit X une variable aléatoire


discrète. La fonction de répartition de
X est une fonction F définie par

F(x) = P(X ≤ x) pour tout x  R

La fonction de répartition donne pour chaque point x, la


probabilité accumulée jusqu’à ce point:

F ( x)   p (k )
kx

86
Voici la fonction de répartition de la variable définie à
l’exemple 3.3.
0 si x  2
1/ 36 si 2  x  3

3 / 36 si 3  x  4
6 / 36 si 4  x  5

10 / 36 si 5  x  6

15 / 36 si 6  x  7
F ( x)  
21/ 36 si 7  x  8
26 / 36 si 8  x  9

30 / 36 si 9  x  10
33 / 36 si 10  x  11

35 / 36 si 11  x  12
1 si 12  x

87
La figure 3.2 présente la fonction de masse de la variable
définie à l’exemple 3.3.

Figure 3.2
Fonction de répartition de
X: la somme des résultats obtenus en deux lancers d’un

88
Propriétés d’une fonction de répartition

Une fonction de répartition jouit des propriétés sui-


vantes :

1. 0 ≤ F(x) ≤ 1;

2. F est croissante;

3. lim F(x)  0 et lim F(x)  1;


x x

4. F(x) est continue à droite.

89
3.2 - Espérance et variance d'une variable aléatoire

Définition Soit X une variable de fonction de


masse p. Alors l'espérance
mathématique de X, dénotée par E(X),
est définie par

E ( X )   xp ( x )
x

L’espérance de X est aussi appelée moyenne de X.


Habituellement, l’espérance mathématique d’une
variable aléatoire X est dénotée par E ( X )  µX ou plus
simplement par E ( X )  µ.

90
Exemple 3.4 Une compagnie d'assurance offre une
police d'annulation de voyage (seule cause d'annulation
acceptée: maladie). La prime est de 72 $ par personne;
le coût pour la compagnie d'assurance est de 800 $
lorsqu'il y a annulation. Supposons que, d'après les
statistiques, la probabilité qu'un client tombe malade (et
donc annule son voyage) est de 0,02. Déterminer
l’espérance du gain de la compagnie lorsqu'elle assure
une personne (négligez tous frais, sauf le versement de
800 $ s'il y a lieu).
Solution :

91
Exemple 3.5 Le jeu de la roulette utilise un plateau
comprenant 38 cases dont 36 sont numérotées 1, 2,…,
36, et les deux dernières sont numérotées 0 et 00. Le
croupier lance une boule dans le sens inverse de la
rotation de la roulette qui va s’arrêter sur un numéro (le
numéro gagnant!) de la roulette. On considère deux
versions du jeu (en pratique, il existe plusieurs autres
versions).

a) La version « Straight Up » : Vous misez 1 dollar sur


un des numéros. Si vous gagnez, vous remportez 35 fois
votre mise. Soit X votre gain. Déterminez E  X  .

b) La version « Split » : Vous misez 5 dollars sur deux


numéros adjacents. Si vous gagnez, vous remportez 17
fois votre mise. Soit X votre gain. Déterminez E  X  .

92
Espérance mathématique d’une fonction de X

Soit Y une variable aléatoire définie par Y = ( X ) , où X


est une variable discrète. Alors l’espérance de Y peut
être calculée par la formule

E  ( X )    ( x ) p ( x)
x

Par exemple, si ( X )  X 2 , on a

E  X 2    x 2 p( x ).
x

Ou encore, si ( X )  e X , on a

E  e X    e x p( x ).
x

Interprétation de l’espérance

On lance un dé. Soit X le résultat obtenu. Il n’est pas


difficile de montrer que E(X) = 3.5.

Quelle est l’interprétation de E(X) = 3.5?

93
Variance d’une variable aléatoire

L’espérance d’une variable aléatoire est un indice de la


position de sa distribution. Nous définissons maintenant
un indice de la dispersion d’une variable aléatoire.

Définition Soit X une variable de fonction de


masse p et de moyenne µ.
Alors la variance de X, dénotée par
Var(X), est définie par
Var ( X )  E  ( X  ) 2    ( x  )2 p ( x)
x

Habituellement, la variance d’une variable aléatoire X est


dénotée par 2 ou  2X .

Théorème 3.1 Soit X une variable aléatoire de moyenne


µ. Alors

Var  X    X2  E  X 2    2

Démonstration :

94
Définition L'écart-type d'une variable aléatoire

X, dénotée par  ou X, est la racine carrée de

sa variance:

X = Écart-type de X = Var ( X )

Exemple 3.6 Dans l’exemple 3.5, on s’intéresse à


déterminer la variance du gain pour les deux versions du
jeu de roulette.

Solution :

95
Fonction affine d'une variable aléatoire

Si X est une variable aléatoire et a et b sont des


constantes, alors Y = a + bX est aussi une variable
aléatoire.

Théorème 3.2 Soit X est une variable aléatoire et a et b


des constantes. Alors

µY = E(a + bX) = a + bE(X)= a + b  X


 Y2 = Var(a + bX) = b 2 Var(X) = b 2  2X

 Y = |b| X

Démonstration :

96
Exemple 3.7 Espérance, variance et écart-type d'une
fonction affine

Vous donnez ordre à votre courtier de vous acheter 12


actions de la compagnie ABC au prix du marché X.
Supposons que µX = 27, X = 3. Vous recevrez une
facture dont le montant Y est la valeur de vos actions,
plus une commission forfaitaire de 50 $. Déterminer
l'espérance et l'écart-type de Y.

Solution :

Y = 50 + 12X. Alors µY = 50 + 12µX = 50 + 12(27) =


374 $. Y = |12|X = 12(3) = 36 $.

97
3.3 - Plusieurs variables
Un même contexte expérimental peut donner lieu à
plusieurs variables aléatoires. Si, par exemple, on tire au
hasard un ménage dans un quartier, on peut observer X,
le revenu du ménage; ou Y, le nombre d'enfants; ou
encore Z, le nombre de chambres à coucher. Il arrive
également qu'on définisse de nouvelles variables aléatoi-
res comme fonctions de variables observées. Le plus
souvent, ce sont des sommes qu'on calculera, ou des
fonctions linéaires. Par exemple, si X est le revenu du
père de famille, Y celui de la mère, alors dans les enquê-
tes sociales ou économiques on s'intéressera
particulièrement au revenu du couple, Z = X + Y. Que
peut-on dire de l’espérance ou de la variance d’une
somme de variables aléatoires? Il y a un théorème qui
montre comment calculer l’espérance d’une fonction
linéaire de variables aléatoires:

Théorème 3.3 Soient X 1 ,..., X n n variables aléatoires de


moyennes µ1, ... , µn. Soient a1 ,..., an n constantes.
Alors

 i 1

E  ai X i   ai E  X i    ai i
n n

i 1
n

i 1

98
Corollaires

 
1 E  X i   i : l’espérance d’une somme de
n

i 1
n

i 1

variables aléatoires est égale à la somme des


espérances.

2 Supposons que µ1 = ... = µn = µ. Alors

 
a) E  X i  n .
n

i 1

1 n
b) Si X   X i alors E( X ) = µ.
n i1

3 Soit X et Y deux variables aléatoires, et a et b


deux constantes. Alors

E(aX+bY) = aE(X) + bE(Y),

E(X+Y) = E(X) + E(Y)

E(X-Y) = E(X)  E(Y)

Il existe des résultats semblables pour la variance d’une


fonction linéaire de variables aléatoires, mais nous les
énoncerons ici dans un cas particulier, le cas où les
variables sont indépendantes.

99
Théorème 3.4 Soit X 1 ,..., X n n variables aléatoires
indépendantes de moyennes µ1,... , µn et de variances
 12 ,... ,  2n . Soit a1 ,..., an n constantes. Alors

 i 1

Var  ai X i   ai Var  X i    ai2 i2
n n

i 1
2
n

i 1

Corollaires
1. Var   X i    i : la variance d’une somme de
 n  n 2
 i 1  i 1
variables aléatoires indépendantes est égale à la
somme des variances.

2. Supposons que  12 =... =  2n = 2. Alors

a) Var   X i  = n2.
 n 
 i 1 
1 n
b) Si X   X i , alors Var( X ) = 2/n.
n i1

3. Soit X et Y deux variables aléatoires indépendantes, et


a et b deux constantes. Alors

a) Var(aX+bY) = a2Var(X) + b2Var(Y)


b) Var(X+Y) = Var(X) + Var(Y)
c) Var(X  Y) = Var(X) + Var(Y)

100
Exemple 3.8 On suppose que le poids (en kg) des adultes
se distribue avec une moyenne de 64 et un écart-type de
12. Soit X le poids total de 14 personnes qui s'entassent
dans un ascenseur. Calculez l'espérance mathématique et
la variance de X.

Solution :

101
Exemple 3.9 Pour chacune des paires de variables
aléatoires X et Y, dites si d'après vous  X >  Y ou si
Y >  X :
a) X: La valeur d'une action que vous venez d'acheter,
dans une semaine;
Y: La valeur d'une action que vous venez d'acheter,
dans un an.

b) X: La température le 1e janvier prochain à Montréal;

Y: La température le 1e janvier prochain à Nairobi.


c) X: Le poids d'une personne choisie au hasard dans
une école de garçons;
Y: Le poids d'une personne choisie au hasard dans
une école mixte.
d) X: Le temps que vous mettez à vous rendre à
l'université à pied;
Y: Le temps que vous mettez à vous rendre à
l'université en métro.

102
e) X: Le temps d'attente dans une file où il n'y a qu'une
personne devant vous;
Y: Le temps d'attente dans une file où il y a 2
personnes devant vous.
f) X: La proportion d'objets défectueux dans un
échantillon de 10 objets tirés d'une certaine population;
Y: La proportion d'objets défectueux dans un
échantillon de 100 objets tirés d'une certaine population.
g) X: Le nombre d'objets défectueux dans un échantillon
de 10 objets tirés sans remise d'une certaine population;
Y: Le nombre d'objets défectueux dans un échantillon
de 10 objets tirés avec remise d'une certaine population;
h) X: Le revenu moyen de 10 familles choisies au hasard
dans une population;
Y: Le revenu moyen de 100 familles choisies au
hasard dans une population.

103
Théorème 3.5 Soit X 1 ,..., X n n variables aléatoires
indépendantes de moyennes µ1, ... , µn Alors

E(X1  X2  ...  Xn) = E(X1)  E(X2)  ... 


E(Xn)

3.4 – Une loi discrète importante : la loi binomiale

On constate dans les applications classiques de la


statistique que des expériences assez diverses peuvent
avoir un noyau théorique commun — un ensemble de
caractéristiques essentielles qui rend possible des
groupements de variables de même loi, c'est-à-dire des
variables dont la fonction de masse est
mathématiquement de même forme. Dans ce chapitre,
nous étudions deux lois importantes : la loi binomiale et
la loi multinomiale (voir section 3.5).

104
La loi binomiale s’applique à toute expérience qui
satisfait les conditions suivantes:
(i) Elle est composée d’une suite de n épreuves
indépendantes.
(ii) Chaque épreuve peut donner lieu à deux résultats, «
succès » et « échec » . Ces épreuves sont souvent
appelées « épreuves de Bernoulli. ».
(iii) La probabilité p de succès à chaque épreuve reste
fixe.

Si X est le nombre de succès obtenus au cours d’une telle


expérience, alors X est de loi binomiale de paramètres n
et p.

On écrit X ~ B(n ; p) pour signifier: « X suit une loi


binomiale de paramètres n et p ».

105
Exemples 3.10

1. On tire un échantillon de 15 pièces dans un lot de


pièces fabriquées. X est le nombre de pièces
défectueuses.

2. Dans un sondage d’opinion on interroge 500


personnes choisies au hasard dans une population. X est
le nombre de ceux qui répondent « oui » à la question
« Êtes-vous en faveur d’un enseignement religieux dans
les écoles? ».

3. On observe 25 naissances dans un hôpital. X est le


nombre de garçons parmi les nouveaux-nés.

4. On teste une nouvelle pilule auprès de 15 personnes


souffrant de migraines. X est le nombre de sujets qui ont
trouvé la pilule efficace.

106
Si X ~ B(n ; p) alors la fonction de masse de X est
donnée par

p(x)  P{X  x}   nx  p x (1  p ) n x ,
x = 0,1,…,n.



n n!

x x !(n  x )!

Théorème 3.6 Si X ~ B(n ; p), alors


E[X]  np et Var[X]  np(1  p)  npq.

Démonstration :

107
Exemple 3.11
On choisit au hasard une famille, parmi les familles
ayant 5 enfants. Quelle est la probabilité qu’il y ait
moins de deux filles dans cette famille?
Solution : En supposant l’indépendance entre les
naissances (relativement au sexe de l’enfant), le
nombre de filles dans une famille de cinq enfants est
une B(5 ; 0,5). Par conséquent, la probabilité
cherchée est:
P(X ≤ 1) = P{X = 0}+ P{X = 1} =


5 1 1

5 1 1
0      1     = 6/32.
0 5 1 4

2 2 2 2

Figure 3.2
Fonction de masse d’une variable X ~ B(5 ; 0,5)

108
Exemple 3.12 Détermination de n
Les 25 employés d’un certain bureau organisent une
loterie. Ils sont numérotés de 1 à 25 et chaque
semaine un numéro est choisi au hasard parmi les
nombres de 1 à 25. L’employé qui porte ce numéro
gagne un prix de 25 $. Jean se demande combien de
semaines la loterie doit durer afin qu’il ait au moins
70% des chances de gagner le prix durant cette pé-
riode.

Solution : Soit n le nombre de semaines où les


employés feront cette loterie. Durant cette période,
Jean peut gagner 0, 1, …, ou n fois. Évaluons la
probabilité que Jean ne gagne aucune fois durant cette
période. Par la formule vue précédemment, on a

  
0 n n
P(X = 0) = n
0
 1   24 
   
 25   25 
 24 
 
 25 
< 0,30
ln(0,3)
On veut donc que n >  29,4933. La
ln(24 / 25)
loterie devra donc durer au moins trente semaines
pour que Jean ait au moins 70% des chances de
gagner une fois.

109
Exemple 3.13 : Dans un village où ont été entreposés des
déchets chimiques, on constate que 8 personnes ont été
atteintes d’une certaine sorte de cancer dans une période
de 5 ans. Étant donné que la population du village n’est
que de 8 000, ce nombre semble excessif. Une
commission chargée de déterminer si les déchets chi-
miques ont contribué à hausser le taux prélève des
données sur les populations de plusieurs villages de taille
et situation comparables. La commission découvre que
durant la même période, il y a eu 588 cas dans un bassin
de population de 2 350 000 habitants. Considérer ce taux
comme un taux normal (et connu sans erreur) pour cal-
culer la probabilité d’avoir 8 cas ou plus dans une
population de 8 000. Expliquer ce que ce calcul peut
contribuer à la question posée par la commission.
Solution :

110
Exemple 3.14 : Depuis 1988, le gouvernement américain
a exigé la peine de mort dans 36 cas impliquant des
trafiquants de drogues. Des 36 trafiquants, 4 seulement
étaient de race blanche. On sait par ailleurs que 75% des
accusés (de trafic de drogues) sont blancs. Donner un
argument aussi complet que possible pour démontrer
qu’il y a une discrimination systémique en faveur des
blancs. Les données proviennent des promoteurs d’un
projet de loi appelé The Racial Justice Act qui a été à
l’étude au Congrès américain. Le but de ce projet était
de permettre à une personne de race noire condamné à
mort de présenter pour sa défense une argumentation
semblable à celle que vous donnerez. Le projet n’a pas
été adopté.
Solution :

111
3.5 – Une généralisation la loi binomiale : la loi
multinomiale
L’expérience de Bernoulli est une expérience où les seuls
résultats possibles sont {Succès; Échec}. Une loi bino-
miale est constituée d’expériences de Bernoulli. On peut
facilement s’imaginer des contextes où les résultats sont
plus nombreux.

Par exemple, dans une enquête telle que celle sur la


promotion de la santé faite par Statistique Canada, on
demande aux gens d’indiquer leur activité principale au
cours des douze derniers mois. Les réponses possibles
sont: {Travailleur; À la recherche d’un emploi; Étudiant;
Retraité; Ménagère; Autre}. Il y a donc 6 résultats
possibles. On peut dénoter par p1 la probabilité qu’un
individu réponde qu’il est «travailleur», par p2 la
probabilité qu’il soit à la recherche d’un emploi, …, et
par p6 la probabilité qu’il ait une autre activité.

112
Notons qu’un individu donné ne peut choisir qu’une
seule occupation. Ainsi, à un individu i donné, on peut
associer un vecteur Xi de 6 composantes, où apparaît un
1 dans la position 1 et des 0 ailleurs s’il est travailleur, un
1 en position 2 et des 0 ailleurs s’il est à la recherche
d’un emploi, etc. Il s’agit d’une simple extension de
l’expérience de Bernoulli. Si nous interrogeons n per-
sonnes afin de connaître leur occupation, on pourra
déterminer combien parmi elles travaillent, combien
étudient, etc. Nous pouvons présenter cette information
sous la forme d’un vecteur: (x1; x2; …; xk). Cette
notation signifie que parmi les n individus interrogés, x1
se déclarent travailleurs, x2 se considèrent étudiants, etc.

113
Une expérience aléatoire est une expérience de Bernoulli
généralisée si, et seulement si, elle conduit à k résultats
possibles. Les k résultats possibles sont, par convention,
{R1; R2; …; Rk} et nous dénotons par pk  P{Rk}. On
dénote le résultat d’une expérience de Bernoulli
généralisée par un vecteur ayant des zéros partout sauf en
position i, où nous plaçons un 1 signifiant que Ri s’est
réalisé.

La fonction de masse de loi multinomiale fait intervenir


le coefficient multinomial défini de la façon suivante:

 n  n!

 x ,..., x  x !... x !
 1 k  1 k

n  n! n
Notons que      
 n  x  x !( n  x)!  x 
de sorte que le coefficient binomial n’est autre qu’un
coefficient multinomial avec k  2.

114
Définition Une variable multinomiale est une variable
aléatoire (vectorielle), X = (X1, X2, ... , Xk), comptant le
nombre d’occurrences de chacune des k catégories de
résultat dans une suite de n expériences de Bernoulli
généralisées indépendantes et où la probabilité
d’appartenir à la ie catégorie est pi. Chacune des
composantes prend sa valeur dans l’ensemble
{0; 1; …; n}. Notons que x1  x2  … + xk  n. De plus,
on a

 n  x1 x2
P  X  ( x1 , x2 , ... , xk )     p1 p2 ... pkxk
 x1 x2 ... xk 

Nous dénoterons ce fait par

X = (X1, X2, ... , Xk)~ MN(n; p1; p2; … ; pk).

115
Exemple 3.15 Dans une certaine province trois partis
sont en lice. Si dans la population 50% des gens
favorisent le parti A, 40% le parti B, et 10% le parti C,
calculons la probabilité que sur 6 personnes choisies au
hasard dans cette province, 3 favorisent A, 1 favorise B et
2 favorisent C.

Solution : Ici, X ~ MN(6; 0,5; 0,4; 0,1).

Par conséquent,

 n 
P[X = (3 , 1 , 2)] =  (0,5) (0,4) (0,1)
3 1 2

 31 2 
6!
  0,125  0,4  0,01  0,03
3!1! 2!

Remarque : Lorsque X = (X1, X2, ... , Xk)~ MN(n;


p1; p2; … ; pk), chacune des composantes Xj du
vecteur X suit une loi binomiale de paramètres n et
pj. Autrement dit, on a Xj ~B(n, pj), j = 1,…k. Il
s’ensuit que E(Xj) = npj.

116
Chapitre 4
Variables aléatoires continues

4.1 Fonctions de répartition et de densité

Pour les variables aléatoires discutées au chapitre


précédent, on peut identifier une série (finie ou infinie)
de valeurs isolées x1, x2, ... auxquelles correspondent,
par la fonction de masse, des probabilités P(X = x1), P(X
= x2), ... . Ce sont des variables discrètes ou
discontinues. Les variables aléatoires continues, en
revanche, prennent une infinité de valeurs que l'on ne
peut dénombrer. Typiquement, l'ensemble des valeurs
d'une variable aléatoire continue est un intervalle (borné
ou non) de nombres réels. Pour ces variables, il n'existe
pas de fonction de masse. Il existe toujours, cependant,
une fonction de répartition:

Exemples de variables aléatoires continues :

(1) Soit X le poids (en kgs) d’un individu tiré au


hasard dans une population.

(2) Soit Y la durée de vie d’une ampoule tirée au


hasard dans un lot d’ampoules.

117
Fonction de répartition
La fonction de répartition F ~   [0 ; 1], est définie,
dans le cas continu comme dans le cas discret, par
F(x) = P[X ≤ x], x 
Une fonction de répartition jouit des propriétés suivantes.
1. 0 ≤ F(x) ≤ 1;

2. F est non décroissante;

3. lim F(x)  0 et lim F(x)  1;


x x

4. F(x) est continue à droite.

118
Fonction de densité
Une variable aléatoire X est dite continue si elle possède
une fonction de densité, c'est-à-dire, s’il existe une fonc-

tion f telle que pour x .


x
F(x)  f (t )dt

où f satisfait les conditions suivantes:
1. f(x) ≥ 0, x ;
2. f admet au plus un nombre fini de
discontinuités sur chaque intervalle fini de ;

 f (t ) dt  1.

3.


119
Figure 4.1 Fonction de densité

Si a ≤ b, P (a  X  b)   f ( x )dx .
b

Si f est continue, alors f est la dérivée de F: f(x) 


d
F ( x)
dx

Remarque Dans un modèle continu, un point unique a


toujours probabilité nulle: P(X = x) = 0 pour tout x. Par
conséquent, toute inégalité stricte peut être remplacée par
une égalité non stricte, et inversement, sans que la
probabilité change. Ainsi, si X est continue,
P(a < X < b) = P(a ≤ X < b) = P(a < X ≤ b) = P(a ≤ X ≤ b)

120
Remarque Relation entre une fonction de masse et une
fonction de densité
Le premier graphique ci-dessous (Figure 4.2) présente la
distribution des tailles (en pouces) d’un groupe d’adultes.
Les tailles sont arrondies à l’entier le plus proche; il
s’agit donc d’une variable discrète qui ne prend que des
valeurs entières comme 64, 65, 66, etc.
Dans la représentation graphique, les probabilités,
indiquées sur l’axe vertical, sont proportionnelles aux
hauteurs des rectangles. Mais puisque les bases sont de
même largeur, les probabilités sont également
proportionnelles aux aires des rectangles. Nous voulons
préserver cette propriété des représentations par
histogramme.
Dans le deuxième graphique, les tailles sont
arrondies au demi-pouce le plus proche. Il s’agit donc
d’une variable discrète encore, prenant les valeurs 64;
64,5; 65; 65,5, etc. On a gardé la même échelle, mais
cette fois-ci, la hauteur d’un rectangle, indiquée sur l’axe
vertical, représente la probabilité divisée par la largeur
(0,5) de l’intervalle; donc la hauteur représente la densité
de probabilité et non la probabilité comme telle. Ici
aussi, la probabilité d’une valeur est représentée par
l’aire d’un rectangle, c’est-à-dire, par la densité
multipliée par la base.

121
Dans le troisième graphique, le processus se poursuit
avec une variable dont l’écart entre les valeurs est de 0,2
pouces. On conçoit bien qu’à la limite l’histogramme
converge vers une courbe dans laquelle la probabilité
d’un intervalle est donnée par l’aire de la surface sous la
courbe au-dessus de l’intervalle.

Figure 4.2 Une fonction de densité est une limite


d’histogrammes

Distribution des tailles d’une population d’adultes

122
123
Espérance et variance d’une variable aléatoire continue

On remplace simplement les sommes (utilisées dans le


cas de variable aléatoires discrètes) par des intégrales.

Si X est une variable aléatoire continue, alors

E  X    xf ( x)dx



et

V X     x   X  f ( x )dx
 2


Les propriétés des espérances et variances (sommes, etc.)


restent valides dans le cas continu grâce à la propriété de
linéarité des intégrales.

124
4.3 Loi normale

La loi normale est l’une des lois les plus importantes de


la statistique. Non seulement permet-elle de modéliser
des variables courantes dans le quotidien et dans les
sciences, telles la taille et parfois le poids d’individus,
mais elle joue un rôle capital au niveau de l’inférence
statistique. Une définition, en termes de la fonction de
densité, suit:

Définition: Une variable aléatoire X est


distribuée selon une loi normale de paramètres
 et 2, notée X ~ N(µ ; 2), si elle a pour
densité la fonction
1
f(x)  e  (1/ 2 )( x  ) / 
2 2

2 

125
La figure 4.3 présente les graphiques de la densité d’une
loi normale de moyenne 0 et de variance égales à 1, 5 et
10. Une densité normale est une courbe symétrique par
rapport à sa moyenne et présente des points d’inflexion
de part et d’autre de celle-ci, à une distance d’un écart-
type.

Figure 4.3 Loi normale de moyenne 0


Distribution Plot
Normal; Mean=0

0,4 StDev
1
5
10

0,3
Density

0,2

0,1

0,0
-30 -20 -1 0 0 10 20 30
X

 f ( x)dx  1

On peut vérifier que


Théorème 4.1 Si X ~ N(µ ;  2 ), alors E(X)  µ et


Var(X)   2 

126
Théorème 4.2 Toute fonction linéaire d'une variable
normale est normale
Si X ~ N(µ ; 2 ) et Y  a + bX alors
Y ~ N(a + bµ ; b2 2 )
Corollaire Si X : N(µ ;  2 ), alors

X 
Z  ~ N (0 ; 1)

Comment calculer P(a < X < b) si X ~ N(µ ;  2 )?


On peut bien sûr appliquer la définition en obtient


1
e dx
b
 (1/ 2 )( x  ) / 
P(a < X < b) =
2 2

a
2 

Cette manière de faire, est tout à fait valide, bien que


relativement complexe.

Calculs de probabilités

En pratique, on va plutôt transformer X en Z et utiliser


des tables fournissant les aires sous une courbe normale
particulière, la courbe N(0 ; 1).

127
Exemple 4.1 Calcul des probabilités pour une
normale centrée-réduite
Soit Z ~ N(0 ; 1). Calculer

a) P[Z > 1,25];


b) P[Z ≤ -1];
c) P[1,15 < Z ≤ 2,11];
d) P[0 < Z ≤ 1];
e) P[-2< Z ≤ 1],

Solution :

128
Pour des variables normales de moyenne et variance
quelconques, il faut pouvoir «ramener» une normale
arbitraire N(µ ; 2 ) à une N(0 ; 1).

Exemple 4.2 Calcul des probabilités pour une normale


quelconque

Supposons que les montants correspondant à une


population de factures sont de moyenne µ = 200 $ et
d'écart-type  = 80 $. En supposant que les
montants des factures sont de loi normale,
déterminer la probabilité qu'une facture tirée au ha-
sard corresponde à un montant compris entre 40 $ et
280 $.

Solution :

129
Variables normales indépendantes

Considérons des variables aléatoires indépendantes X1,


…, Xn. Le théorème suivant affirme que si elles sont
toutes normale, alors toute combinaison linéaire — et
donc en particulier leur somme — est normale. En voici
une formulation précise.

Théorème 4.3 Soit X1, …, Xn n variables aléatoires


indépendantes, Xi ~ N (i ; i2 ) , i  1, …, n, et a1, ... , an

des constantes. Si X   ai X i , alors


n

i 1

X~N   i1 aii ;  i1 ai2i2


n n

130
Cas particuliers importants du Théorème 4.3 :

(1) Les constantes ai sont toutes égales à 1. Dans ce cas,


X n'est que la somme
T =  i 1 X i ;
n

(2) Les constantes ai sont toutes égales à 1/n. Dans ce


cas, X est la moyenne arithmétique : X =  i 1 X i / n .
n

Nous obtenons le corollaire suivant en substituant 1 et


1/n à ai dans le résulta du théorème 4.3 :

Corollaire Si X1, …, Xn sont indépendantes, chacune de


même loi N(µ ;  2 ), alors
 2 
T ~ N ( n ; n ) et X ~ N   ; 
2

 n 

131
Exemple 4.3 On prélève un échantillon de n = 15
factures d'une très grande population de moyenne µ =
300 $ et écart-type  = 60 $. Quelle est la probabilité
que la valeur moyenne de l'échantillon se situe à 10 $ ou
moins de la moyenne de la population)? On suppose que
la population est normale.

Solution :

132
4.4 Théorème limite central

Dans la section précédente, nous avons vu que si les


variables aléatoires indépendantes X1, …, Xn sont de loi
normale, alors leur moyenne à est de loi normale. Ce
théorème est utile pour traiter des problèmes
d'échantillonnage, dans lesquels la moyenne d'un
échantillon est utilisée pour estimer la moyenne d'une
population. Mais l'hypothèse que chacune des variables
X1, …, Xn est elle-même normale signifie que la
distribution de la population échantillonnée est normale.
Cette hypothèse est plutôt restrictive: les populations
sont rarement normales.

Il existe, cependant, un théorème fondamental qui a pour


remarquable conclusion que la somme et la moyenne de
n variables aléatoires indépendantes suivent
approximativement une loi normale, même si la
population n'est pas normale: la seule condition exigée
est que n soit assez grand. Il s'agit du Théorème Limite
Central (TLC).

133
Afin de mieux comprendre le TLC, considérons les
exemples suivants :

Exemple 4.4 On lance un dé n fois. On obtient donc un


jeu de données composé de n observations. Si X désigne
le résultat obtenu lors d’un lancer, sa fonction de masse
est donnée par :

Lançons le dé n = 10 fois. On obtient alors un échantillon


avec 10 observations. Répétons cette expérience (lancer
un dé 10 fois) 50 fois. On obtient donc 50 échantillons,
chacun composé de 10 observations.

Dans chaque échantillon (aléatoire), on calcule la


moyenne échantillonnale X . Notons que X est une
variable aléatoire puisque l’échantillon est aléatoire.

134
Question Puisque X est une variable aléatoire, quelle
est sa distribution? Cette distribution est appelée
distribution d’échantillonnage.

Tableau 4.1 50 lancés de 10 dés


Échantillon no. Observations Moyenne
échantillonnale
1 x (1)
1 , x2(1) ,..., x10(1)  X1

2 x (2)
1 , x2(2) ,..., x10(2)  X2

3 x (3)
1 , x2(3) ,..., x10(3)  X3

. . .
. . .
50 x(50)
1 , x2(50) ,..., x10(50)  X 50

135
Les figures suivantes montrent la distribution de X pour
R échantillons de taille n  10 et n = 30. Ici,
R  10;100;1000 et 10000.

On voit que pour n  10 , la distribution de X tend vers


une distribution en forme de cloche centrée en 3,5 à
mesure que R augmente. Par conséquent, la distribution
de X tend vers une loi normale avec n =10. Bien sûr, ce
résultat reste vrai lorqu’on augmente la taille de
l’échantillon (par exemple, n = 30 et n = 100).

Remarque Dans cet exemple, on avait commencé par


générer des échantillons à partir d’une distribution
uniforme (i.e., les résultats d’un dé). Si on avant
commencé avec une autre distribution, est-ce que la
distribution de X aurait eu le même comportement?

136
Histogramme pour 10 échantillons avec n = 10

3
Fréquence

0
2.0 2.5 3.0 3.5 4.0 4.5
Moyenne échantillonnale (Xbar)

Histogramme pour 100 échantillons avec n = 10


18

16

14

12

10
Fréquence

0
2.8 3.2 3.6 4.0 4.4
Moyenne échantillonnale (Xbar)

137
Histogramme pour 1000 échantillons avec n = 10
160

140

120

100
Fréquence

80

60

40

20

0
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
Moyenne échantillonnale (Xbar)

Histogramme pour 10000 échantillons avec n =10


800

700

600

500
Fréquence

400

300

200

100

0
2.0 2.5 3.0 3.5 4.0 4.5 5.0
Moyenne échantillonnale (Xbar)

138
Histogramme pour 10 échantillons avec n = 30

3
Fréquence

0
2.8 3.0 3.2 3.4 3.6 3.8 4.0
Moyenne échantillonnale (Xbar)

Histogramme pour 100 échantillons avec n = 30


14

12

10

8
Fréquence

0
2.7 3.0 3.3 3.6 3.9 4.2
Moyenne échantillonnale (Xbar)

139
Histogramme pour 1000 échantillons avec n = 30
90

80

70

60

50
Fréquence

40

30

20

10

0
2.75 3.00 3.25 3.50 3.75 4.00 4.25
Moyenne échantillonnale (Xbar)

Histogramme pour 10000 échantilloons avec n = 30


900

800

700

600

500
Fréquence

400

300

200

100

0
2.4 2.7 3.0 3.3 3.6 3.9 4.2 4.5
Moyenne échantillonnale (Xbar)

140
Exemple 4.5 Considérons la distribution exponentielle.
Si X a une distribution exponentielle, alors sa fonction de
densité est de la forme

Encore une fois, les figures suivants montrent la


distribution de X avec R échantillons de taille
n  10, n  30 et n  100 . Encore une fois les valeurs de
R sont : 10, 100, 1000 et 10 000.
Que remarque t-on?

141
Histogramme pour 10 échantillons avec n = 10

3.0

2.5

2.0
Fréquence

1.5

1.0

0.5

0.0
0.4 0.6 0.8 1.0 1.2 1.4
Moyenne échantillonnnale (Xbar)

Histogramme pour 100 échantillons avec n = 10


18

16

14

12

10
Fréquence

0
0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8
Moyenne échantillonnale

142
Histogramme pour 1000 échantillons avec n = 10
140

120

100

80
Fréquence

60

40

20

0
0.3 0.6 0.9 1.2 1.5 1.8 2.1 2.4
Moyenne échantillonnale (Xbar)

Histogramme pour 10000 échantillons avec n =10


700

600

500

400
Fréquence

300

200

100

0
0.35 0.70 1.05 1.40 1.75 2.10 2.45 2.80
Moyenne échantillonnale (Xbar)

143
Histogramme pour 10 échantillons avec n = 30

3
Fréquence

0
0.6 0.7 0.8 0.9 1.0 1.1
Moyenne échantillonnale (Xbar)

Histogramme pour 100 échantillons avec n = 30

12

10

8
Fréquence

0
0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3
Moyenne échantillonnale

144
Historgramme pour 100 0échantillons avec n = 30
120

100

80
Fréquence

60

40

20

0
0.6 0.8 1.0 1.2 1.4 1.6 1.8
Moyenne échantillonnale

Histogramme pour 10000 échantillons avec n = 30


500

400

300
Fréquence

200

100

0
0.6 0.8 1.0 1.2 1.4 1.6 1.8
Moyenne échantillonnale (Xbar)

145
Historgramme pour 10 échantillons avec n = 100

3
Fréquence

0
0.8 0.9 1.0 1.1 1.2 1.3
Moyenne échantillonnale (Xbar)

Histogramme pour 100 échantillons avec n = 100

20

15
Fréquence

10

0
0.8 0.9 1.0 1.1 1.2 1.3
Moyenne échantillonnale (Xbar)

146
Histogramme pour 1000 échantillons avec n = 100
90

80

70

60
Fréquence

50

40

30

20

10

0
0.80 0.88 0.96 1.04 1.12 1.20 1.28 1.36
Moyenne échantillonnale (Xbar)

Histogramme pour 10000 échantillons avec n = 100

400

300
Fréquence

200

100

0
0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4
Moyenne échantillonnale (Xbar)

147
Théorème 4.4 Théorème limite central

Soient X1, …, Xn, une suite de variables aléatoires


indépendantes de même loi, de moyenne µ et de variance
2. Alors la variable X tend en loi vers une normale
2
de moyenne  et de variance  X  .
2

En pratique, ceci signifie que si n est assez grand, alors

on peut supposer que

T   i 1 X i ~ N (n ; T2 )
n

où T = n .

Remarque On ne peut pas être définitif ni très précis


quant à ce qu'on entend par « n grand ». En pratique, on
se donne comme limite le nombre 30: si n ≥ 30, on dit
que n est «grand» et donc que X est approximativement
de loi N(µ ;  2 /n). Mais il est évident que
l'approximation ne sera pas toujours bonne pour n ≥ 30,
ni nécessairement mauvaise pour n < 30.

148
Exemple 4.6 L'épaisseur des pièces de 25 ¢ est une
variable de moyenne 1,625 mm et d'écart-type 0,16 mm.
Une succursale de banque qui reçoit régulièrement des
dépôts sous forme de rouleaux de 40 pièces de 25 ¢
mesure la longueur de chaque rouleau déposé et rejette
les rouleaux de moins de 64 mm de longueur. Quelle est
la probabilité de rejeter un rouleau de 40 pièces?

Solution :

149
Récapitulatif
(1) Si les données proviennent d’une population
normale, alors la distribution de leur moyenne X
(ou la distribution de leur somme) est
normalement distribuée quelque soit la taille de
l’échantillon
(2) Si les données ne proviennent pas d’une
population normale, alors la distribution de leur
moyenne X (ou la distribution de leur somme)
est normalement distribuée si la taille de
l’échantillon est suffisamment grande. C’est le
TCL. Habituellement, une taille n  30 est jugée
suffisante dans beaucoup de situations mais il ne
faut appliquer cette règle aveuglément. Si les
données proviennent d’une population dont la
distribution est très éloignée de la distribution
normale, alors il faut s’attendre à avoir besoin
d’une taille d’échantillon plus grande pour que le
TCL soit valide.
(3) La distribution de X (qui est une statistique
comme on le verra au chapitre 5) est appelée la
distribution d’échantillonnage. La distribution
d’échantillonnage d’une statistique est la fonction
de masse de cette statistique.

150
(4) Le TCL jouera un rôle important dans le reste du
cours car il nous permettra de construire des
intervalles de confiance et des tests d’hypothèse.

4.5 Approximation normale de la loi binomiale

Une variable de loi binomiale peut être approchée par


une variable de loi normale lorsque n est grand. Ceci est
une application immédiate du théorème limite central.

En effet, une variable binomiale peut être vue comme

une somme X   X i , où X i  1 si le ie essai est un


n

i 1

succès et X i  0 si le ie essai est un échec. X représente


donc bien le nombre de succès en n essais. On a X i  1
avec probabilité p et X i  0 avec probabilité q  1  p.

151
Les variables aléatoires X i sont indépendantes puisque
les épreuves sont indépendantes. De plus, leur moyenne
µ et variance  2 sont données par µ = E( X i ) = p,  2 =
Var( X i ) = pq.

La variable X peut donc être approchée par une

N(np ; npq).

En plus d'exiger que n soit grand il faut que p ne soit ni


trop grand ni trop petit car dans ces cas la loi binomiale
est fortement asymétrique. En général, plus p est proche
des extrémités 0 ou de 1, plus il faut que n soit grand.
Une façon de combiner ces conditions est d'exiger que np
et nq ne soient pas trop petits.

152
Théorème 4.5 Approximation normale de la binomiale

Soit X ~ B(n ; p) et supposons que n ≥ 30, np ≥ 5, et


nq  5. Alors, il est approximativement vrai que

X  np
~ N(0 ; 1),
npq

ou encore, que X ~ N(np ; npq).

Remarque : Les Figures 4.4-4.7 illustrent le fait que


lorsque n croît, l’approximation de la loi binomiale par la
loi normale devient meilleure.

Figure 4.4 Loi binomiale vs. loi normale avec n = 5

Distribution Plot
0.5 Distribution n p
Binomial 5 0.2
Distribution Mean StDev
Normal 1 0.894427
0.4

0.3
Density

0.2

0.1

0.0
-2 -1 0 1 2 3 4 5
X

153
Figure 4.5 Loi binomiale vs. loi normale avec n = 10
Distribution Plot
0.35 Distribution n p
Binomial 10 0.2

0.30 Distribution Mean StDev


Normal 2 1.26491

0.25

0.20
Density

0.15

0.10

0.05

0.00
-2 -1 0 1 2 3 4 5 6 7
X

Figure 4.6 Loi binomiale vs. loi normale avec n = 40

Distribution Plot
0.16 Distribution n p
Binomial 40 0.2
Distribution Mean StDev
0.14
Normal 8 2.52982

0.12

0.10
Density

0.08

0.06

0.04

0.02

0.00
0 2 4 6 8 10 12 14 16 18
X

154
Figure 4.7 Loi binomiale vs. loi normale avec n = 100

Distribution Plot
Distribution n p
0.10 Binomial 100 0.2
Distribution Mean StDev
Normal 20 4
0.08

0.06
Density

0.04

0.02

0.00
10 15 20 25 30 35
X

155
Exemple 4.7 Le chroniqueur d’un journal créé un émoi
dans un ménage après avoir informé ses lecteurs de la
durée moyenne d’une grossesse : 266 jours. Dans ce
ménage, la femme avait accouché 312 jours après le
départ de son mari, un marin, et celui-ci parle déjà de
divorce et engage un avocat. L’avocat se renseigne : il
apprend qu’effectivement, la durée d’une grossesse est
distribuée selon une loi normale de moyenne de 266
jours, avec un écart-type de 16 jours.
a) L’avocat s’adresse à vous et vous demande de faire
un calcul de probabilité pour montrer que la femme
a été infidèle. Faites ce calcul et expliquez à
l’avocat comment il doit s’exprimer à la cour.
b) C’est au tour de l’avocat de la femme de vous
consulter maintenant. Il vous dit : « je veux bien
croire que 312 jours, c’est beaucoup, mais il y a
quand même eu 5000 femmes enceintes dans la
ville durant cette période, et il ne faudrait pas trop
s’étonner que l’une d’elle ait eu une grossesse de
durée excessive. Le contraire m’aurait surpris.
Votre mandat : montrez qu’en effet ce qui a été
observé n’a rien d’étonnant.

156
Solution :

157
4.6 Loi du khi-deux

La loi khi-deux est une autre loi continue importante. La


fonction de densité est donnée par

1
f(x) = x e ,x>0
 /2 1  x / 2

( / 2)2  /2


est un entier positif appelé nombre de degrés de

 e dt.

liberté et ()  t 1  t

On peut montrer (mais on ne le fera pas!) que

E[X]   et Var[X]  .

On écrit X ~  2 pour signifier que X suit une loi khi-


deux à  degrés de liberté.

L'importance de cette loi provient de son lien avec des


variables normales centrées réduites: une variable khi-
deux est une somme de carrés de variables N(0 ; 1).
Nous commençons par le cas d'une seule variable
N(0 ; 1).

158
Théorème 4.6 Soit Z ~ N(0 ; 1). Alors Z2 ~ 12 .

Nous généraliserons ce théorème en montrant qu'une


variable  2 est une somme de carrés de  variables
aléatoires N(0 ; 1) indépendantes. Mais nous énonçons
d'abord ceci:

Proposition 4.1 Soit X1, …, Xn, n variables aléatoires


indépendantes, Xi ~  2i . Alors la somme

X  X1 + … + Xn ~  2
où    i1  i .
n

Théorème 4.7 Soit Z1 ,..., Z n n variables aléatoires


indépendantes, chacune de loi N(0 ; 1) et soit

X  Z12  ...  Z n2 .

Alors X ~  2n .

Démonstration Les Z i2 sont indépendantes, chacune de


loi 12 . Par la Proposition 4.1, leur somme suit une loi
 n2 .

159
Figure 4.8 Fonctions densité de probabilité de la loi du
2 pour quelques valeurs de  .

Distribution Plot
Chi-Square
0.16 df
5
0.14 10
20
100
0.12

0.10
Density

0.08

0.06

0.04

0.02

0.00
0 20 40 60 80 100 120 140 160
X

160
4.7 Loi de Student

La loi de Student est une autre loi continue importante.

Définition Soit W et V deux variables


aléatoires indépendantes où
W ~ N(0 ; ) et V ~ 2 . Alors la variable
W
T=
V /
suit une loi appelée loi de Student à  degrés de
liberté.

On écrit « T ~ t » pour signifier que T suit une loi de


Student à  degrés de liberté.

On peut démontrer (mais on ne le fera pas!) que si


T ~ t , alors


E(T) = 0 et Var(T) = ,  > 2.
2

161
La fonction de densité de Student est unimodale et
symétrique par rapport à l’origine. Sa forme est
semblable à celle de la loi N(0 ; ), sauf qu’elle décroît

moins rapidement à mesure que la variable s’éloigne de


l’origine. Cependant, lorsque le nombre de degrés de
liberté croit l’apparence des deux lois devient de plus en
plus similaire. Ceci est illustré par les Figures 4.9-4.11.

Figure 4.9 Loi normale vs. loi de Student à 1 d.l.

Distribution Plot
Distribution Mean StDev
0.4
Normal 0 1
Distribution df
T 1

0.3
Density

0.2

0.1

0.0
-10 -5 0 5 10
X

162
Figure 4.10 Loi normale vs. loi de Student à 10 d.l.

Distribution Plot
Distribution Mean StDev
0.4
Normal 0 1
Distribution df
T 10

0.3
Density

0.2

0.1

0.0
-4 -3 -2 -1 0 1 2 3 4
X

Figure 4.11 Loi normale vs. loi de Student à 40 d.l.

Distribution Plot
Distribution Mean StDev
0.4
Normal 0 1
Distribution df
T 40

0.3
Density

0.2

0.1

0.0
-4 -3 -2 -1 0 1 2 3 4
X

163
Chapitre 5
Estimation ponctuelle

5.1 Population et échantillon

Une partie de la statistique consiste à estimer ce qu’on


appelle les paramètres d’une population.

Exemple 5.1 Voici quelques exemples de


populations et de paramètres:
Population Paramètre
L’ensemble des La moyenne µ des revenus des
salariés québécois salariés québécois
Un lot de boulons L’écart-type  des longueurs
des boulons
L’ensemble des La proportion p des étudiants
étudiants de l’UdM qui demeurent chez leurs
parents
L’ensemble des Le nombre moyen de postes de
ménages d’une radio par personne
petite ville

164
Considérons le premier exemple, une population de
salariés, et supposons qu’on veuille estimer la moyenne
µ de leurs revenus. Puisqu’il serait trop coûteux d’inter-
roger tous les salariés de la population, on se contente
d’un échantillon de n personnes. On se servira alors de
la moyenne des n personnes de l’échantillon pour estimer
µ. Intuitivement, l’idée d’utiliser la moyenne de
l’échantillon pour estimer la moyenne de la population
semble parfaitement raisonnable, même banale. Mais
ceci ne nous empêche pas de chercher une façon plus
formelle et objective de justifier cette procédure, car les
problèmes d’estimation ne sont pas toujours aussi
évidents. La question posée dans l’exemple suivant n’a
pas de réponse évidente.

165
Exemple 5.2 On tire un échantillon de 10 ménages afin
d’estimer le nombre de téléphones par personne dans la
population. Supposons qu’on obtienne les données
suivantes.

Ménage 1 2 3 4 5 6 7 8 9 10
Nombre de 5 4 6 8 3 5 2 3 5 2
personnes
Nombre de 2 3 3 2 4 4 2 3 2 3
téléphones

Comment estimer le paramètre « nombre de


téléphones par personne »?

Une façon consiste à diviser le nombre total de


téléphones par le nombre total de personnes, soit:

2 33 2  4 4 2 3 23 28


  0,65 .
5 4  6 835 2 35 2 43

Mais on pourrait également songer à calculer le


nombre de téléphones par personne dans chaque
ménage, et en calculer ensuite la moyenne:

1 2 3 3 2 4 4 2 3 2 3
            0,79
10  5 4 6 8 3 5 2 3 5 2 

166
Laquelle des deux façon est meilleure?

C’est la première méthode qui est préférable. Mais pour


en arriver là, il faut d’abord établir des critères, et avant
cela, définir le contexte de façon formelle.

Définition Une suite de n variables


aléatoires X1, …, Xn est appelée échantillon
aléatoire simple si X1, …, Xn sont
indépendantes et suivent une même loi.

La population sera identifiée à la fonction de répartition


F qui dépendra d’un paramètre . Nous dénoterons donc
la population par F(x | ).

167
5.2 Statistiques et estimateurs

Soit X1, …, Xn un échantillon aléatoire simple provenant


d’une population F(x | ). Toute variable aléatoire
T(X1 , … , Xn) fonction de X1, …, Xn est appelée une
statistique.

Exemple 5.3 Voici quelques exemples de


statistiques calculées à partir d’un échantillon aléa-
toire simple X1 , … , Xn de n salaires.


1 n
 T1(X1 , … , Xn) = X  X : le salaire
n i 1 i

moyen.

 i1 i
( X  X )
n 2

 T2(X1 , … , Xn) = S  : l’écart-


n 1
type des salaires.

 T3(X1 , … , Xn) = Méd(X1 , … , Xn): la médiane


des n données X1 , … , Xn.

 T4(X1 , … , Xn) = p̂ : la proportion des salaires


inférieurs à 40 000$.

168
Le traitement théorique d’un problème d’inférence
portant sur une population F(x | ) consiste à choisir une
statistique appropriée (par exemple, X , S, p, …, etc.) et
associer à chaque valeur de la statistique choisie une «
décision » à propos du paramètre. La «décision» peut
prendre différentes formes, trois desquelles seront
traitées dans ce cours:

1) Estimation ponctuelle: On peut décider que le


paramètre a telle ou telle valeur.

2) Estimation par intervalle: On peut décider que le


paramètre se trouve vraisemblablement dans tel ou tel
intervalle.

3) Test d’hypothèses: On peut décider que la valeur du


paramètre est ou n’est pas égale à un nombre fixé
d’avance.

169
L’estimation ponctuelle consiste à trouver un estimateur
d’un paramètre inconnu , c’est-à-dire, une statistique
dont les valeurs auraient tendance, en un certain sens, à
s’approcher du paramètre.


1 n
Par exemple, la moyenne arithmétique X  X
n i 1 i

est généralement utilisée comme estimateur de


l’espérance mathématique µ des variables X1 , … , Xn, et
 ( X  X )
n 2

la variance échantillonnale S2 = est


i 1 i

n 1
utilisée comme estimation de leur variance  2 .

L’estimation par intervalle de confiance consiste à


déterminer deux bornes, LI et LS, toutes deux fonctions
des observations, et affirmer que le paramètre se situe
entre ces deux bornes. Une telle affirmation peut, bien
sûr, être erronée, mais les bornes sont déterminées de
façon que la probabilité d’erreur soit faible.

170
Un test d’hypothèse consiste à déterminer une règle pour
décider quand une hypothèse Ho concernant un
paramètre doit être rejetée. Par exemple,

« Rejeter l’hypothèse Ho que   10 si X > 14,3 »

est une règle, ou un test statistique.

Dans ce chapitre, nous traiterons du problème


d’estimation ponctuelle. La notion d’intervalle de
confiance sera discutée au chapitre 6, et celle de test
d’hypothèse au chapitre 7.

171
Estimateurs

Toute statistique T  T(X1 , … , Xn) utilisée pour faire


une estimation d’un paramètre  est appelée estimateur
de  et notée ˆ  T(X1 , … , Xn).

Dans certains cas, le choix d’un estimateur est naturel et


intuitif: nous estimons la moyenne  d’une population
par la moyenne X de l’échantillon; ou bien nous
estimons une probabilité de succès par la proportion de
succès dans l’échantillon. Mais il nous faut des critères
objectifs pour choisir un estimateur, car parfois 1)
plusieurs estimateurs semblent aussi «naturels» l’un que
l’autre; 2) aucun estimateur ne se présente à l’esprit
comme particulièrement naturel; et 3) certains
estimateurs peuvent sembler naturels alors que d’autres
sont en fait meilleurs.

172
5.3 Estimateurs sans biais

Qu’est-ce qui fait qu’un estimateur est préférable à un


autre? L’une des qualités généralement souhaitées d’un
estimateur est celui d’être sans biais:

Définition Un estimateur ˆ est dit


sans biais pour  si E(ˆ )   quelle
que soit la valeur de .

Cette propriété est souhaitable parce qu’elle signifie que


l’estimateur n’a tendance ni à sous-estimer ni à
surestimer le paramètre: « en moyenne » il vise juste.

173
Estimateur sans biais d’une moyenne

Théorème 5.1 Soit {X1 , … , Xn} un échantillon aléatoire


provenant d’une population de moyenne . Alors
X   i 1 X i est un estimateur sans bais de .
1 n
n

Démonstration :

Estimateur sans biais d’une variance


Le théorème suivant présente un estimateur sans biais de
la variance  2 d’une population.

Théorème 5.2 Soit {X1 , … , Xn} un échantillon aléatoire


provenant d’une population de moyenne µ et de variance
 ( X  X )
n 2

 2 . Alors S2 = i 1 i est un estimateur sans


n 1
bais de  2 .

174
Démonstration:

Estimateur sans biais d’une proportion p

On prélève un échantillon de taille n d’une grande


population de pièces fabriquées, afin d’estimer la
proportion p de pièces défectueuses dans la population.
Si X est le nombre de pièces défectueuses dans
l’échantillon, il est naturel de considérer comme
estimateur de p la proportion échantillonnale

X
p̂ = .
n

175
Théorème 5.3 Soit p la proportion des individus d’une
population qui appartiennent à une certaine classe C. Soit
X le nombre d’individus qui appartiennent à la classe C
dans un échantillon de taille n. Alors

X
p̂ = est un estimateur sans bais de p.
n

Démonstration:

176
5.4 Variance d’un estimateur
Le fait qu’un estimateur soit sans biais, quoique
rassurant, ne garantit pas nécessairement une bonne
précision. Un estimateur sans biais prend en moyenne la
valeur juste; mais ceci ne l’empêche pas de s’en écarter
de beaucoup. La moyenne X d’un échantillon aléatoire
simple X1 , … , Xn n’est pas le seul estimateur sans biais
de la moyenne µ: chacune des observations Xi, par
exemple, est sans biais. Il est intuitivement clair que X
est préférable à un estimateur basé sur une seule des
observations. On conçoit qu’il a une plus forte tendance
à rester près de . C’est là une autre caractéristique
souhaitable dans un estimateur: nous voulons qu’il ait
tendance à rester près du paramètre. Autrement dit, nous
voulons qu’un estimateur ait une petite variance.

Variance de X et de p̂

Nous savons que


2
Var ( X )   2

n
X

et que

p(1  p )
Var ( pˆ )  2pˆ 
n

177
Ce qu’il faut remarquer ici, c’est que le dénominateur est
n: plus n augmente, plus la variance est petite. Ceci cor-
respond à ce que l’on sait déjà par intuition: une
estimation est d’autant meilleure que l’échantillon est
grand.

Variance de S2

Si on suppose que la population est normale, on peut


démontrer (mais nous le ferons pas!) le résultat suivant:

Var(S2) = 2/(n-1).

178
Exemple 5.4 Soit X1 , … , Xn un échantillon aléatoire
simple d’une population de moyenne µ. Montrez que les
estimateurs T1  X 1, T2  2 X1  X2 et

T3  2 i 1
i
X i sont tous sans biais pour µ.
n

n(n  1)
Calculez leur variance, et dites pourquoi X est
préférable à ces trois.

Solution :

179
Exemple 5.5 Soit X1 , … , Xn un échantillon aléatoire
tiré d’une population de moyenne  et de variance 2.
Considérons l’ensemble des estimateurs de la forme ̂ 

 a X i où a1 , … , an sont des constantes.


n
i 1 i

a) Quelles conditions les ai devraient-elles


satisfaire pour que ̂ soit sans biais?
b) Parmi tous les estimateurs sans biais de la forme
̂   i 1 ai X i , montrer que celui qui a la plus
n

petite variance est X .

Suggestion: Déduisez de l’inégalité   ai    0 que


 1
n 2

i 1  n

 i  1 / n.
n
a 2

i 1

Solution :

180
Chapitre 6
Intervalles de confiance pour de grands
échantillons

6.1 Introduction

Pour un échantillon donné, un estimateur prend une


valeur unique, notre estimation du paramètre. Si un
échantillon de boîtes de conserves vous donne un poids
moyen x  200 g, vous présenterez cette valeur comme
estimation de la moyenne de la population. Mais il y a
peu de chance que cette valeur coïncide exactement avec
µ. L’énoncé « la moyenne de la population est de 200 »
est plutôt audacieux et presque certainement faux. Une
affirmation moins téméraire, comme « la moyenne de la
population se trouve entre 195 et 205 » a de meilleures
chances d’être vraie.

C’est ce qu’on appelle une estimation par intervalle de


confiance: on entoure la valeur observée d’un certain
intervalle (a, b) et on affirme « µ se trouve dans (a, b) ».
181
La probabilité que cette proposition soit vraie est
d’autant plus grande que l’intervalle est large. On choi-
sira donc cet intervalle de telle sorte que la probabilité de
dire vrai soit assez bonne.

Dans ce chapitre, on considérera le cas de grandes tailles


d’échantillons n. Le cas de n petit sera traité au chapitre
8.

182
6.2 Intervalle de confiance pour µ

Considérons un échantillon aléatoire X1, …, Xn. Puisque


n est grand, on a par le TLC que X ~ N(µ ; 2/n) et

X  X 
Z= =  N(0 ; )
/ n X


X 
.
n
Soit z /2 un nombre provenant d’une loi normale de
moyenne 0 et de variance 1 tel que
P  N (0,1)  z /2    / 2.

Du fait que
 X  
P   z /2   z /2  = 1  
  X 
nous obtenons, en inversant les inégalités,

P  X  z/2  X    X  z/2  X  = 1  

183
L’intervalle
[ X  z/2  X    X  z/2  X ]

est appelé intervalle de confiance à 100(1 - )%: la


probabilité que l’intervalle [ X  z/2  X    X  z/2  X ]
recouvre la moyenne µ est 1-.

100(1 - )% est appelé le niveau de confiance de


l’intervalle.

Pour un intervalle de niveau 90%, on a z/2  1.645 ; pour


un intervalle de niveau 95%, on a z/2  1.96 et pour un
intervalle de niveau 99%, on a z/2  2.58. Donc, à
mesure que le niveau de confiance croît, la largeur d’un
intervalle de confiance croît également. La largeur d’un
intervalle de confiance, L, est définie comme la
différence de la borne supérieure et de la borne
inférieure. On a
L  2 z/2  X .


La demi-largeur de l’intervalle, z/2  X = z/2 , est
n
appelée marge d’erreur.

184
Remarques sur la marge d’erreur:

La marge d’erreur diminue lorsque n augmente. En


fait, en prenant 4 fois plus d’observations, on diminue
la marge d’erreur de moitié.

(1) La marge d’erreur est grande si  est grand pour


un n donné.

(2) On voudrait avoir la plus petite marge d’erreur et


le plus grand niveau de confiance.
Malheureusement, ce sont deux objectifs
contradictoires. Plus le niveau de confiance est
grand, plus la marge d’erreur est grande.

(3) Si on veut une marge d’erreur m pour un niveau


de confiance donné, la taille d’échantillon n
requise est donnée par

 z 
n   /2  .
2

 m 

185
La formule [ X  z/2  X    X  z/2  X ] ne peut être
calculée en pratique, puisqu’elle exige qu’on connaisse
, ce qui n’arrive que dans des situations très
exceptionnelles. Il serait naturel alors de remplacer  par
un estimateur S dans l’expression ci-dessus. Puisque
 in1 ( X i  X )
S 
2
2

n 1
est un estimateur sans biais de  , nous estimerons  X2
2

S2 S
par ˆ 
2
et  X par ˆ X  .
n n
X

Puisque n est grand, la statistique


X 
ˆ X
suit à peu près une loi N(0 ; 1).

On peut donc continuer à employer la procédure décrite


dans cette section, avec pour seule modification le
X 
remplacement de  X par ˆ X dans la formule .
X

186
Exemple 6.1 Estimation d'une moyenne
D'une grande population de comptes de banque, on
prélève un échantillon de taille n = 30 afin d'estimer
la valeur moyenne d'un compte ainsi que le montant
total des comptes. Voici les résultats, en dollars:
240,82 232,50 740,8 860,32 224,10 7,15 324,12 240,12 190,08 182,75
160,21 148,22 132, 119,25 113,85 108,30 107,10 101,19 99,21 93,12
88,13 80,15 78,13 72,15 67,13 65,14 41,10 32,17 10,02 9,15

a) Estimer la moyenne µ de la population et l'écart-type


de l'estimateur.

b) Déterminer un intervalle de confiance à 95% pour la


moyenne µ.

187
6.3 Estimation d’une proportion p
Considérons une population dont une proportion p des
membres appartient à une certaine classe . Supposons

que dans un échantillon de taille n, on trouve X unités


appartenant à la classe .

Si les tirages sont faits avec remise, ou si la population


est grande, alors X ~ (n ; p). Pourvu que n ne soit pas

trop petit, la distribution de X s’approche d’une


X
 (np ; npq) (Théorème 4.5). Puisque pˆ  , on peut
n
appliquer le Théorème 4.2 avec a = 0 et b = 1/n pour
obtenir
pˆ ~   p; 2pˆ 

pq
où  2pˆ  .
n

188
Alors, on peut affirmer que
 pˆ  p 
P   z /2   z /2   1  
  pˆ 

Un intervalle de confiance de niveau 1  est donc


donné par
pˆ  z /2  pˆ  p  pˆ  z /2  pˆ

pq
Cependant,  p̂  est fonction de p et est donc
n
inconnu. Une solution approximative, presque toujours
pq
ˆˆ
adéquate, consiste à estimer  p̂ par : ˆ pˆ  , ce qui
n
mène à
pˆ  z /2 ˆ pˆ  p  pˆ  z /2 ˆ pˆ .

189
Remarque La marge d’erreur est donnée par :

pq
m  z 2 .
n
Si on veut une marge d’erreur m pour un niveau de
confiance donné, la taille d’échantillon n requise est
donnée par
z2 /2 p(1  p )
n .
m 2

Problème : p n’est pas connue (puisque c’est ce qu’on


cherche à estimer). Si on a une idée de sa valeur, on peut
l’utiliser dans la formule précédente afin de déterminer n.
Sinon, on utilisera p = 0.5. Pourquoi? Parce qu’elle
mènera à la plus grande valeur de n possible pour un m
donné. Pourquoi? Voir le graphique ci-dessous :

p(1-p) vs p

0.25

0.20

0.15
p(1-p)

0.10

0.05

0.00
0.0 0.2 0.4 0.6 0.8 1.0
p

190
Exemple 6.2 Estimation d'une proportion
Lors d’un sondage auprès de 500 personnes et portant sur
leurs opinions politiques, 180 personnes se sont déclarées
favorables au parti A. Estimer la proportion p des gens
favorables au parti A au moyen d’un intervalle de
confiance de niveau 90%.

Solution :

191
6.4 Estimation d’une différence de moyenne

En pratique, il est fréquent d’avoir à estimer deux


groupes appartenant à une population. Par exemple, on
peut vouloir comparer le salaire annuel des hommes et
celui des femmes au Canada. Considérons une
population qui est divisée en deux-sous populations :
Population 1 et Population 2. On tire un échantillon
aléatoire de taille n1 dans la Population 1 et un
échantillon aléatoire de taille n2 dans la Population 2
(voir Figure 6.1). Soient X 11 , X 12 ,..., X 1n1 et
X 21 , X 22 ,..., X 2 n2 les échantillons observés. On supposera
que les deux échantillons sont indépendants. Soient
1 et  12 la moyenne et la variance dans la Population 1
et soient  2 and  22 la moyenne et la variance dans la
population 2. On cherche à construire un intervalle de
confiance pour la différence, 1   2 . On supposera que
les tailles n1 et n2 sont grande (chacune  30) .

192
Figure 6.1 Comparaison de deux échantillons
indépendants
Population 1
Population 2

n1 n2

Un intervalle de confiance à 100(1 - )% est donné par

12  22 12  22
X  X 2   z/2   1   2   X 1  X 2   z/2 
n1 n2 n1 n2
1

Les étapes pour la construction de l’intervalle ci-dessus


sont laissées en exercice!

193
Bien sûr, les variances 12 et  22 ne sont pas connues en
pratique. On les estimera alors par S12 et S 22 . Un intervalle
de confiance à 100(1 - )% est donné par

X  X 2   z/2  1   2   X 1  X 2   z/2
S12 S22 S12 S 22
 
n1 n2 n1 n2
1

Exemple 6.3: La durée de vie de deux types de pneus est


comparée au moyen d’essais routiers. Un échantillon de
n1  100 pneus de type 1 et n2  100 pneus de type 2 ont
servi aux tests. La durée de vie d’un pneu est définie par
le nombre de km effectué par le pneu avant qu’il ne
devienne inutilisable. Les résultats sont exhibés dans le
tableau suivant :
Pneus de type 1 X 1  26400 km; S12  1 440 000
Pneus de type 2 X 2  25100 km; S 22  1 960 000
Construisez un intervalle de confiance pour 1   2 , la
différence moyenne de la durée de vie des deux types de
pneus. Que concluez-vous?
Solution :

194
6.5 Estimation d’une différence de proportions

Au lieu d’estimer la différence de deux moyennes, on


peut vouloir estimer la différence de deux proportions.
Considérons une population qui est divisée en deux-sous
populations : Population 1 et Population 2. On tire un
échantillon aléatoire de taille n1 dans la Population 1 et
un échantillon aléatoire de taille n2 dans la Population 2
(Voir Figure 6.1). On supposera que les deux
échantillons sont indépendants. Soient p1 la proportion
d’individus dans la population 1 qui possède une certaine
caractéristique et p2 la proportion d’individus dans la
population 2 qui possède ladite caractéristique. On
cherche à construire un intervalle de confiance pour la
différence, p1  p2 . On supposera que les tailles n1 et n2
sont grande (chacune  30) . Soient p̂1 et p̂2 les
proportions observés dans les échantillons tirés de la
population 1 et de la population 2, respectivement,
d’individus qui possèdent la caractéristique d’intérêt.
Un intervalle de confiance à 100(1 - )% est donné par

p1 1  p1  p2 1  p2  p 1  p1  p2 1  p2 
 pˆ1  pˆ 2   z/2   p1  p2   pˆ1  pˆ 2   z /2 1 
n1 n2 n1 n2

Les étapes pour la construction de l’intervalle ci-dessus


sont laissées en exercice!

195
Bien sûr, les proportions p1 et p2 ne sont pas connues en
pratique. On acceptera de les estimer par p̂1 et p̂2 . Un
intervalle de confiance à 100(1 - )% est donné par

pˆ1 1  pˆ1  pˆ 2 1  pˆ 2  pˆ 1  pˆ1  pˆ 2 1  pˆ 2 


 pˆ1  pˆ 2   z /2   p1  p2   pˆ1  pˆ 2   z /2 1 
n1 n2 n1 n2

Exemple 6.4: Une enquête a été effectuée dans les écoles


secondaires dans une certaine région du Québec.
L’échantillon de taille 200 était composé de n1  100
filles et n2  100 garçons. Parmi les 100 filles, 46 ont
avoué consommer de l’alcool sur une base régulière alors
que 58 des 100 garçons interrogés ont avoué consommer
de l’alcool sur une base régulière. Construire un
intervalle de confiance de niveau 90% pour la différence
pF  pG , où pF et pG désignent les proportions dans la
population de filles et de garçons qui consomment de
l’alcool sur une base régulière, respectivement. Que
concluez-vous?
Solution :

196
Chapitre 7
Tests d’hypothèses pour de grands échantillons

7.1 Introduction

Une application importante de la théorie des probabilités


consiste à évaluer la vraisemblance d’hypothèses
scientifiques à partir des résultats d’une expérience. Ceci
nous amène à introduire une procédure importante dans
le domaine de la statistique : le test d’hypothèse.

Exemple 7.1 Vous lancez une pièce de monnaie 100 fois


et obtenez le résultat FACE 90 fois. L’hypothèse que la
pièce est équilibrée est-elle vraisemblable ?

La réponse intuitive est que non, l’hypothèse que la pièce


est équilibrée n’est pas vraisemblable. Pourquoi? Parce
que nous avons observé 90 FACE, 40 de plus que le
nombre auquel on s’attend avec une pièce équilibrée; et
que s’il est probable que le nombre de faces s’écarte un
petit peu de 50, il est très peu probable que l’écart soit
aussi grand que 40. Donc l’hypothèse que la pièce est
équilibrée n’est pas plausible. Nous la rejetons.

197
Exemple 7.2 Un professeur qui prétend pouvoir distinguer
l’écriture d’un garçon de celle d’une fille offre de mettre
sa prétention à l’épreuve à l’aide de 32 copies d’examen
dont 16 sont écrites par des filles et 16 par des garçons.
On forme, de façon aléatoire, 16 couples de copies, où
dans chaque couple une copie appartient à une fille, l’autre
à un garçon. Le professeur décide lequel des deux
membres de chaque couple appartient à une fille. Sur les
16 essais, il réussit 14 fois. Est-ce que ceci prouve qu’il a
une certaine capacité de distinguer les écritures?

Nous sommes en présence d’une expérience composée de


16 épreuves (n  16), et le nombre de succès X suit une
loi binomiale de paramètres n = 16 et p. La valeur de p
nous est inconnue : c’est justement sur p que porte la
question. Si le professeur est absolument incapable de
distinguer l’écriture féminine de l’écriture masculine,
alors ses réponses sont purement aléatoires et p  1/2 ; si,
par contre, il saisit quelque peu la différence, alors
p > 1/2. Nous formulons donc notre question de la façon
suivante :

198
Supposons pour l’instant que p  1/2. Alors
X ~ B(16 ; 1/2) et E[X]  8. Ceci veut dire qu’on
s’attend à avoir 8 succès sur 16. Or il y en a eu bien
plus. Un nombre de succès aussi grand est-il probable
lorsque p  1/2 ? La probabilité d’un nombre de succès
aussi grand que 14 lorsque p  1/2 est 0,0021. Donc si
p  1/2, il est très peu probable d’avoir 14 succès ou
plus. On dit alors qu’un tel nombre de succès ne se
serait probablement par réalisé si p ne valait vraiment
que 1/2. On se permet donc de conclure que p > 1/2,
c’est-à-dire que le professeur a une certaine capacité de
distinguer les deux écritures.

L’analyse que nous venons de faire est appelée test


d’hypothèse. L’hypothèse à tester est que p  1/2, et le
test a mené à son rejet. Elle est rejetée parce que si elle
était vraie un nombre de succès aussi grand que celui qui
a été observé aurait été fort peu probable (une probabilité
d’environ 0,2 %).

199
Remarque La philosophie sous-jacente à un test
d’hypothèse est similaire au processus qui prévaut dans
un procès. Un individu est accusé de meurtre. La cour
devra décider si l’individu est coupable ou s’il est
innocent. Lorsque le procès commence, il y a
présomption d’innocence. Autrement dit, l’individu est
considéré innocent jusqu’à preuve du contraire. Afin de
prouver que l’individu est coupable, la couronne
recueillera et présentera tous les faits (par exemple, test
d’ADN, empreintes digitales, etc.) afin d’obtenir la
condamnation de l’individu. S’il y a suffisamment
d’évidence, la cour déclarera l’individu coupable de
meurtre. Par contre, si la couronne n’arrive pas à amasser
suffisamment de preuves, la cour déclarera que
l’individu est non coupable. Notons que la cour ne
déclare pas que l’individu est innocent. Peut-être ce
dernier est-il innocent ou peut-être qu’il n’y a pas
suffisamment de preuves pour le déclarer coupable.
Le même type de raisonnement prévaut dans un contexte
de test d’hypothèse.

200
7.2 Développement formel

Reprenons l’exemple 7.2 et supposons que l’expérience


n’ait pas encore été faite. Le but de l’expérience est de
tester une hypothèse que nous appelons l’hypothèse nulle
et désignons par Ho, à savoir
1
Hypothèse nulle : Ho : p  .
2
Nous formulons une autre hypothèse, appelée
l’alternative et désignée par HA, soit

1
Alternative : HA : p > .
2
L’une et l’une seule des deux hypothèses doit être vraie,
car on exclut d’emblée la possibilité que p < 1/2. Nous
déciderons laquelle des deux est vraie après avoir fait
l’expérience et observé X.

201
Mais nous pouvons, avant même de faire l’expérience,
fixer l’ensemble des valeurs de X pour lesquelles on
rejettera Ho. Une chose est évidente : nous ne
rejetterons Ho que si X est trop grand, c’est-à-dire, si et
seulement si

X ≥ C,

où C est un nombre à déterminer.

L’ensemble des valeurs X ≥ C est appelé région critique.

Région critique : l’ensemble des valeurs de X pour


lesquelles on rejettera Ho.

Il reste à déterminer la valeur de C. Considérons les


conséquences d’un choix quelconque, disons C  10 : on
fera l’expérience et on rejettera Ho si X ≥ 10. Il est
possible que Ho soit vraie et que néanmoins X ≥ 10 ;
auquel cas on rejetterait Ho à tort. C’est une erreur
qu’on ne peut être sûr d’éviter ; le risque de la commettre
est toujours présent. Mais la région critique peut être
choisie de façon à réduire ce risque à un niveau
acceptable. Que vaut cette probabilité lorsque la région
critique est {X ≥ 10} ?
202
Figure 7.1 Région critique pour tester Ho : p = 1/2
contre HA : p > 1/2

P{rejeter Ho | Ho est vraie}  P{X > 10 | p  1/2}


= 0,2272

Cette probabilité n’est pas négligeable : si Ho est vraie,


la probabilité est de 22,72 % qu’on la rejette quand
même. Dans la plupart des applications on trouverait ce
risque d’erreur inacceptable. Le contexte nous fera
normalement souhaiter une probabilité plus faible que
celle-ci.

203
Taille de la région critique
La probabilité de rejeter Ho lorsqu’elle est vraie est
appelée taille de la région critique.

Taille de la région critique : Probabilité de rejeter Ho


lorsque Ho est vraie

On souhaite que cette taille soit petite. En général, on


fixe un seuil, désigné par , et on choisit la région
critique de telle sorte que sa taille ne soit pas supérieure à
. Considérons quelques régions critiques et déter-
minons leur taille :
Région Taille
critique
X ≥ 11 0,1051
X ≥ 12 0,0384
X ≥ 13 0,0106
X ≥ 14 0,0021
X ≥ 15 0,0002
X ≥ 16 0,000015

204
Posons   0,05. Nous devons déterminer une région
critique de taille inférieure ou égale à 0,05. Le tableau
montre que la région critique que nous devons choisir est
X ≥ 12. On dit alors qu’on a un test à 5 %. La taille de
la région critique est de 0,0384.

Exemple 7.3 Un procédé de fabrication de boulons est


considéré satisfaisant si le pourcentage de boulons
défectueux est de 1%. Un inspecteur prélève un
échantillon de 200 boulons pour savoir si le procédé est
satisfaisant. Soit X le nombre de boulons défectueux
qu’on trouvera dans l’échantillon.

Alors X ~ B(200 ; p). L’hypothèse nulle est

Ho : p  0,01
L’alternative est
HA : p > 0,01,

car le but de l’inspection est de déceler des lots pour


lesquels p > 0,01. Posons  = 5 %.

205
On rejettera le lot si le nombre de boulons défectueux est
trop grand : la région critique sera de la forme X ≥ C où
C est un entier qu’on choisit de telle sorte que

P{X ≥ C | p  0,01} ≤ 0,05

Dans le tableau suivant nous calculons la probabilité


P{X ≥ C | p  0,01} pour quelques valeurs de C.

C 0 1 2 3 4 5 6
P{X ≥ C | p  1 0,8660 0,5954 0,3233 0,1420 0,0517 0,0160
0,01}

La région critique de niveau 0,05 est donc {X ≥ 6}. Elle


est de taille à peu près égale à 0,0160.

206
Types d’erreur

Nous avons mentionné l’erreur qui consiste à rejeter Ho


quand Ho est vraie. Cette erreur est appelée erreur de
première espèce.

Erreur de première espèce : Rejeter Ho lorsque Ho est


vraie

Probabilité d’erreur de première espèce :


  P  rejeter H 0 H 0 est vraie 

L’autre erreur possible, l’erreur de seconde espèce,


consiste à accepter Ho quand Ho est fausse.

Erreur de seconde espèce: accepter Ho quand Ho est


fausse

Probabilité d’erreur de deuxième espèce :

  P  accepter H 0 H 0 est fausse 

207
Nous avons donc quatre situations possibles. Elles sont
schématisées dans le tableau suivant :

Réalité
Ho vraie Ho fausse
On Erreur de
Bonne
rejette première
décision
Ho espèce
Décision On
Bonne Erreur de
accepte
décision seconde espèce
Ho

La taille d’une région critique est donc la probabilité


d’une erreur de première espèce.

Un test d’hypothèse est conçu de telle façon que la


probabilité d’une erreur de première espèce ne soit pas
supérieure à , fixé à l’avance.

Remarque : L’erreur de première espèce est également


appelée erreur de type I (type I error) et l’erreur de
deuxième espèce est appelée erreur de type II (type II
error)

208
7.3 Les cinq composantes d’un test d’hypothèse

(1) L’hypothèse nulle H0


(2) L’hypothèse alternative HA
(3) La statistique du test et sa p-valeur
(4) La région critique
(5) La conclusion

Revenons sur ces 5 composantes plus en détail :

(1) et (2) L’hypothèse alternative HA est généralement


celle que le chercheur essaie de démontrer alors que
l’hypothèse nulle H0 est l’hypothèse contraire. Cette
dernière est généralement l’hypothèse ‘neutre’. C’est
généralement une affirmation de type « pas d’effet » ou
« pas de différence ».

Quelques exemples :
(1) Un sociologue cherche à démontrer que le salaire
horaire moyen dans la population des clercs au
Québec est différent de 14$, qui représente la
moyenne canadienne. Dans ce cas, on a

Ho :   14
et
HA :   14.

209
Rejeter l’hypothèse nulle reviendra conclure que
le salaire moyen au Québec est différent de 14$.

(2) Selon Statistique Canada, la moyenne du poids


des bébés à la naissance au Canada est égale à
3,372kg pour les deux sexes. Cependant, un
pédiatre Albertain croit que la moyenne du poids à
la naissance est bien supérieure à la moyenne
canadienne en Alberta. Dans ce cas, on a

Ho :   3,372
et
HA :   3,372.

Si on ne rejette pas l’hypothèse nulle à l’issue du


test d’hypothèse, cela ne veut pas dire que nous
acceptons que l’hypothèse nulle est vraie mais
plutôt que il n’y a pas assez de preuve permettant
de la rejeter en faveur de l’hypothèse alternative.
Autrement dit, l’hypothèse nulle est peut-être
fausse mais les données recueillies ne fournissent
pas suffisamment d’éléments pour nous permettre
de la rejeter. La conclusion appropriée est donc
« On ne rejette pas l’hypothèse nulle » et non pas
« On accepte l’hypothèse nulle ».

210
Un organisme pour la défense des femmes cherche à
démontrer que les femmes gagnent moins que les
hommes pour un même emploi. L’hypothèse
alternative sera donc : « les femmes gagnent moins
que les hommes pour un même emploi » alors que
l’hypothèse nulle sera : « le salaire des hommes et des
femmes est identique pour un même emploi ». Dans
ce cas, on a
Ho :  F   H
et
HA :  F   H .

Rejeter l’hypothèse nulle revient à dire que les


données recueillies fournissent suffisamment d’éléments
afin de conclure qu’il y a discrimination en défaveur des
femmes.

211
On distingue 3 types d’hypothèses alternatives HA :
 Celles du type p < 0,01. On dira alors du test que
c’est un test unilatéral à gauche.
 Celles du type p > 0,01. On dira alors du test que
c’est un test unilatéral à droite.
 Celles du type p  0,01. On dira alors du test que
c’est un test bilatéral.

Comment choisir une des trois hypothèses alternatives?


C’est ce que l’on cherche à démontrer qui le dictera.

(3) Afin de décider si l’hypothèse formulée est


supportée ou non par les données, il faut une méthode
qui permettra de déterminer si l’écart observé entre la
valeur de la statistique obtenue dans l’échantillon et celle
du paramètre spécifiée dans l’hypothèse est trop
important pour être uniquement imputable au hasard.

212
La statistique du test est un nombre représentant en
quelque sorte une mesure de la distance (standardisée)
entre ce que l’on observe dans l’échantillon et
l’hypothèse nulle. Si cette distance est grande, cela
signifie que l’hypothèse nulle n’est probablement pas
vraie auquel cas elle sera rejetée en faveur de l’hypothèse
alternative. En revanche, si la distance est petite, alors
cela signifie que l’hypothèse nulle est vraisemblable
auquel cas on ne la rejettera pas.

La p-valeur est une probabilité calculée à partir de la


statistique du test.

Définition La p-valeur est la probabilité d’observer


statistique de test aussi grande (i.e., plus grande ou égale
à) que celle observée si l’hypothèse nulle est vraie.

On rejettera donc H0 lorsque la p-valeur sera petite. En


effet, une petite p-valeur signifie que si l’hypothèse nulle
est vraie, il est très improbable d’observer une distance
entre ce que l’on a recueilli dans l’échantillon et
l’hypothèse nulle, aussi grande que celle obtenue.

La statistique du test ainsi que sa p-valeur sont deux


mesures qui nous permettront de prendre une décision
quant au rejet ou au non-rejet de l’hypothèse nulle. Une
des deux mesures suffit pour prendre une décision.
213
(4) La région critique est l’ensemble des valeurs de la
statistique du test pour lesquelles on rejettera l’hypothèse
nulle. La taille de la région critique est égale à  , qui est
fixée à l’avance. Habituellement, les valeurs de  sont
égales à 1%, 5% ou 10%.

(5) La conclusion d’un test doit toujours être clairement


exprimée dans le contexte de l’expérience. Si l’on rejette
l’hypothèse nulle, on dira que les résultats sont
statistiquement significatifs. Dans le cas contraire, on
dira qu’ils ne sont pas statistiquement significatifs.

214
7.4 Tests d’hypothèses pour µ

Supposons que d’une population, on prélève un


échantillon de grande taille n afin de déterminer si oui ou
non, la moyenne µ est égale à une constante donnée µo.
Par exemple, le poids réel du contenu d’une boîte de
conserves suit une certaine distribution (pas
nécessairement normale), et un inspecteur du
gouvernement veut savoir si oui ou non, le poids moyen
de toutes les boîtes est égal au poids affiché de  0 
400 g.

Le modèle est le suivant. Nous observons un échantillon


aléatoire simple, c’est-à-dire, n variables aléatoires indé-
pendantes et identiquement distribuées X1, X2, ... , Xn, de
moyenne µ et de variance .

215
Nous voudrons confronter une hypothèse nulle

Ho :    0
à l’alternative
HA :  <  0

Il est naturel de baser le test sur la statistique X =


(1/n)  i 1 X i , puisque X est un estimateur de ; et il est
n

également naturel de prendre pour région critique une


région de la forme
X ≤ C
puisque ce sont les petites valeurs de X qui devraient
mener à la conclusion que  <  0 — et au rejet de Ho.

Pour que le test soit de niveau , il faut choisir C de telle


sorte que
P{ X ≤ C | Ho} ≤ 

216
Puisque la taille n de l’échantillon est grande, le TLC
nous permet d’affirmer que X ~ N(  0 ; X2 )

approximativement lorsque Ho est vraie.

Quand rejette-t-on Ho ?

Afin de prendre une décision, on peut utiliser 3 méthodes


équivalentes : (i) la méthode par la région critique; (ii) la
méthode par la valeur critique et (iii) la méthode par la p-
valeur.

(i) Méthode par la région critique: Le nombre C doit


donc satisfaire

 X  0 C  0 
P( X  C )   P   ≤ 
 X X 

C  0
    z
X
 C ≤  0  z  X 

217
Si on prend la plus grande valeur de C qui satisfait cette
condition, nous obtenons la règle suivante :

On rejette Ho si X ≤  0  z  X

Cette région représente la région critique.

(ii) Méthode par le point critique: Nous allons, dans les


tests qui suivent, trouver plus commode d’exprimer la
région critique en fonction de la variable centrée-réduite
X  0
Z  . On dira donc plutôt :
X

X  0
On rejette Ho si ≤ - z
X

(iii) Méthode par la p-valeur: on calcule la p-valeur qui
est donnée par

p-valeur = P  Z  z0 |    0  ,
X  0
où z0 est la valeur observée de . Quand rejettera-t-
X
on H0? Lorsque la p-valeur est plus petite ou égale à  !

218
Exemple 7.4 D’un grand lot de boîtes de conserves, on
décide de prélever un échantillon de 40 boîtes de
conserves afin de s’assurer que le lot est acceptable,
c’est-à-dire, que le poids moyen µ du lot est bien de 400g
tel qu’affiché. L’hypothèse nulle est
Ho : µ = 400.

Considérons l’alternative
HA : µ < 400.

On pèse les 40 boites qui affichent un poids moyen


X  396,5 . Supposons que l’écart-type de la population
est connu :  = 2,5. Posons  = 0,05. On a alors
z = 1,645. On a  X = / n = 2,5/ 40 = 0,3952.

Doit-on rejeter Ho ? On considère les 3 méthodes.

219
(i) Méthode par la région critique :
En termes de X , cette règle devient : on rejette Ho si

X ≤ 400 – (1,645 x 0,3952)= 399, 34.

Puisque X  396.5 , on rejette l’hypothèse nulle. On


conclut que le fabricant des boites de conserve ne dit pas
la vérité et que sa machine est réglée afin de produire des
boites ayant un poids inférieur à 400g.

(ii) Méthode par le point critique : On calcule

396,5  400
 8,85   1,645.
0,3952
On rejette H0 car 8,85  1.645 . Cette région critique
est illustrée dans la figure 7.2.

220
(iii) Méthode par la p-valeur : on calcule

p-valeur = P  Z  8,85 |   400 


 P  N (0;1)  8,85 |   400 
 0.
La p-valeur étant plus petite que 0.05, on rejette
l’hypothèse nulle.
Figure 7.2 - Région critique pour l’exemple 7.4

Dans l’exemple 7.4, on a utilisé les 3 approches pouvant


servir à prendre une décision. L’approche par la p-valeur
est populaire puisque les logiciels de statistique
fournissent tous les p-valeurs.

221
Exemple 7.5 Dans l’exemple 7.4 nous avons pris pour
alternative l’hypothèse
HA : µ < 400.

Ceci signifiait que nous ne voulions rejeter Ho que si le


contenu des boîtes était insuffisant. Ce serait, par exem-
ple, l’attitude d’un inspecteur gouvernemental dont le
seul souci serait de protéger le consommateur.

Mais le fabricant normalement serait intéressé à détecter


tout écart à la norme, qu’il soit en trop ou en moins. On
voudra donc rejeter Ho si µ > 400 aussi bien que si µ <
400. On signifie ceci en posant les hypothèses de cette
façon :
Ho : µ = 400,
HA : µ ≠ 400.

On rejette Ho lorsque X s’éloigne trop de 400. La région


critique est donc de la forme
| X  400 |
> C,
X
où C doit être choisi de telle sorte que la probabilité de
rejeter Ho à tort soit au plus .

222
On cherche C tel que

 | X  400 | 
P  C   ,
 X 
où est, comme d’habitude, fixée à l’avance.

Or,

 C   P  X  400  C  X 
 | X  400 | 
P
 X 
= P  X  C  X  400   P  X  400  C  X 
= P  Z  C   P  Z  C  .

Puisque on cherche C tel que

 | X  400 | 
P  C   ,
 X 
on a donc C  z 2 .

223
Il en découle : On rejette Ho si

X > 400  z 2  X
ou si
X ≤ 400  z 2  X

Ou encore, la région critique est

X  400
 z /2
X

Rappelons que  = 2,5 et donc que  X = / n = 2,5/ 8


= 0,3952. Posons  = 0,05. On a alors z = 1,96, et on
rejettera Ho si
X  400
 1,96
0,3952

En termes de X , cette règle devient : on rejette Ho si


X ≥ 400,77 ou si X ≤ 399,22.

224
Or nous avions déterminé dans l’exemple 7.4 que
X =396,5.

(i) Par la méthode de la région critique, on rejette Ho car


X ≤ 399,22.

(ii) Par la méthode du point critique, on a

396,5  400
z0   8.85.
0,3952
Puisque 8.85  1,96, on rejette Ho.

(iii) Par la méthode de la p-valeur, on a

p -valeur  P  Z  8,85 |   400   P  Z  8,85 |   400   0.

Puisque la p-valeur est inférieure à 0,05, on rejette


H o.

225
Le tableau suivant résume la procédure dans le cas
de tests unilatéraux ou bilatéraux.

Hypothèses Région critique p-valeur


Ho :    0 X  0 P  Z  z0 |    0 
< -z
HA :  <  0 X
Ho :    0 X  0 P  Z  z0 |    0 
> z
HA :  >  0 X
Ho :    0 X  0 2 P  Z  z0 |    0 
> z 2
HA :  ≠  0 X
Note : Dans le tableau précédent, Z ~ N(0 ; 1).

Remarque : Tous ces critères supposent que l’écart-type


 est connu, ce qui n’est presque jamais le cas en
pratique. Puisque la taille de l’échantillon n est supposée
grande, on remplacera  par S et les procédures décrites
ci-dessus demeurent valides.

226
7.5 Test sur la différence de deux moyennes

Plusieurs enquêtes et expériences scientifiques ont pour


but de déterminer s'il y a une différence entre les
moyennes de deux populations.

Le modèle mathématique est le suivant : Considérons


une population qui est divisée en deux-sous populations :
Population 1 et Population 2. On tire un échantillon
aléatoire de taille n1 dans la Population 1 et un
échantillon aléatoire de taille n2 dans la Population 2
(voir Figure 6.1). Soient X 11 , X 12 ,..., X 1n1 et
X 21 , X 22 ,..., X 2 n2 les échantillons observés. On supposera
que les deux échantillons sont indépendants. Soient
1 et  12 la moyenne et la variance dans la Population 1
et soient  2 and  22 la moyenne et la variance dans la
population 2. On cherche à construire un intervalle de
confiance pour la différence, 1   2 . On supposera que
les tailles n1 et n2 sont grande (chacune  30) .

227
Par le TLC, on a donc
X 1 ~ N(µ1 ; 12 n1 ), i = 1, 2, .... , n1
X 2 ~ N(µ2 ;  22 n2 ), j = 1, 2, .... , n2

Et, grâce à l’indépendance des 2 échantillons, on a

X 1  X 2 ~ N(µ1-µ2 ; 12 n1   22 n2 )

Supposons que 1 et  2 sont inconnues et qu'on veuille


tester l'hypothèse que, pour un nombre  donné,

Ho : 1   2  
contre l'une des alternatives
HA: 1   2 ≠ 
HA: 1   2 > 
HA : 1   2 < 

Notons que le cas   0 est le plus courant.

228
Variances connues

Intuitivement, nous devrions baser notre test sur l'écart

X1  X 2  

La statistique du test est donnée par

X1  X 2  
Z X1  X 2 
12 22

n1 n2

On rejettera Ho lorsque

(i) Z X1  X 2 > z si l’hypothèse alternative est de la forme :


HA: 1   2 > 
(ii) Z X1  X 2 <  z si l’hypothèse alternative est de la
forme : HA: 1   2 < 
(iii) Z X1  X 2 > z 2 si l’hypothèse alternative est de la
forme : HA: 1   2  

229
On peut également utiliser l’approche par la p-valeur
pour prendre une décision. Notons d’abord que Z X1  X 2 

N(0 ; 1). Dans ce cas, on rejettera Ho lorsque

(i) P  Z X  X  z0 | 1   2    si l’hypothèse alternative


est de la forme : HA: 1   2 > 
1 2


(ii) P  Z X  X  z0 | 1   2    si l’hypothèse alternative
est de la forme : HA: 1   2 < 
1 2


(iii) 2 P  Z X  X  z0 | 1   2  si l’hypothèse alternative
est de la forme : HA: 1   2  
1 2

230
Variances inconnues
En pratique, bien sûr, 12 et  22 ne sont pas connues et les
critères proposés ne sont pas utilisables. Puisque n1 et n2
sont grands, les tests ci-dessus peuvent quand même être
employés ; il suffit de remplacer 12 et  22 par leurs esti-
mateurs respectifs

 
1 n 1 n
S =
2
( X 1i  X 1 ) 2 et S 
2
( X 2i  X 2 ) 2 .
n1  1 i 1 n2  1 i 1
1 2

On utilise alors

X1  X 2  
Z X1  X 2 
S12 S 22

n1 n2

231
Exemple 7.6 Un diététicien a développé un nouveau
régime alimentaire faible en lipides, en glucides et en
cholestérol. Bien que le régime visait initialement les
individus atteints de maladies cardio-vasculaires, le
diététicien souhaite étudier l’effet du régime sur des
personnes soufrant d’obésité. Deux échantillons de
personnes obèses de taille 100 ont été sélectionnés. Le
premier groupe est soumis au nouveau régime développé
par le diététicien alors que le deuxième groupe est
soumis à un régime régulier qui comprend
approximativement la même quantité de nourriture que le
premier sauf qu’il est plus riche en lipides, en glucides et
en cholestérol. Pour chaque individu soumis à l’un des
deux régimes, on a recueilli le poids perdu (ou gagné) au
bout de 3 semaines. Effectuez un test d’hypothèse pour
déterminer si le nouveau régime à un effet bénéfique.
Utilisez   5%.
Nouveau régime X 1  9.31; S1  4.668
Régime régulier X 2  7.40; S 2  4.035

Solution :

232
7.6 Test sur données appariées

Supposons que l’on cherche à comparer deux crèmes


solaires A et B. Il y a au moins deux manières d’effectuer
l’expérience :

(i) On sélectionne un échantillon d’individus de taille n1


à qui on administrera la crème solaire A et on sélectionne
un deuxième échantillon de taille n2, indépendant du
premier, à qui on administrera la crème solaire B.
Comme on l’a fait en section 7.5, on peut effectuer un
test d’hypothèse du type Ho : 1   2   contre
l’alternative HA : 1   2 ≠ ù 1 est une mesure du
dommage moyen qu’a subie la peau soumise aux rayons
du soleil pour la crème solaire A et  2 est une mesure du
dommage moyen qu’a subie la peau soumise aux rayons
du soleil pour la crème solaire B.
Le problème dans ce cas est que le test pourrait ne pas
être équitable pour l’une des deux crèmes solaires si, par
exemple, les individus à qui on administre la crème A
ont la peau plus foncée que ceux à qui on administre la
crème B, sachant que les peaux foncées sont moins
sensibles aux effets du soleil.

233
(ii) Une meilleure manière d’effectuer cette expérience
est de sélectionner un seul échantillon d’individus. A
chaque individu, on administrera les deux crèmes. Par
exemple, la crème A sur le coté droit du corps et la
crème B sur le coté gauche. Pour chaque individu, on
recueillera deux données (une paire d’observations). La
première étant une mesure du dommage qu’a subie la
peau soumise aux rayons du soleil pour la crème solaire
A et la deuxième étant une mesure du dommage qu’a
subie la peau soumise aux rayons du soleil pour la crème
solaire B. On pourra alors tester s’il y a une différence
entre les deux crèmes solaires, Mais attention, on ne peut
appliquer les techniques présentées à la section 7.5 car
les deux ensembles de données ne proviennent pas
d’échantillons indépendants!
On examinera les différences entre chaque paire
d’observations, raison pour laquelle on appelle ce type de
tests « test pour données appariées ». On supposera dans
cette section que la taille d’échantillon est grande (> 30).
Soit X 1 , X 2 ,..., X n et Y1 , Y2 ,..., Yn deux séries
d’observations disponibles pour n individus. Pour
l’individu i, on observe donc la paire
 X i , Yi  , i  1, 2,..., n. On travaillera avec les différences
D  Yi  X i .

234
Par exemple, dans l’exemple précédent, X i représente le
dommage qu’a subie la peau soumise aux rayons du
soleil pour la crème solaire B et Yi représente le
dommage qu’a subie la peau soumise aux rayons du
soleil pour la crème solaire A.
On cherche à tester Ho :  D  contre l’alternative HA :
 D  0. On est donc ramené à un test pour une moyenne
tel que décrit dans la section 7.4.

Exemple 7.7 Les expériences sur la perception


extrasensorielle sont souvent faites à l’aide des "Cartes
de Zener". C’est un jeu de 5 cartes distinctes.
Récemment, plusieurs recherches ont été faites pour
déterminer si l’hypnose n’aurait pas pour effet de
faciliter la perception extrasensorielle. Nous décrivons
ici une expérience faites avec 15 étudiants. On a
demandé à chacun d’eux de deviner l’identité de 200
cartes de Zener. Aux premiers 100 essais, l’étudiant était
dans un état normal. Aux 100 essais suivants il était
hypnotisé. A chaque essai le "message" était envoyé par

235
un même « émetteur ». L’émetteur était lui-même
hypnotisé lorsque l’étudiant l’était. On prend note du
nombre de réponses correctes parmi 100. Supposez que
la taille n  15 de l’échantillon est assez grande pour que
s’appliquent les théorèmes limites. Voici les résultats :

Étudiant 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

État normal 18 19 16 21 16 20 20 14 11 22 19 29 16 27 15

Sous hypnose 25 20 26 26 20 23 14 18 18 20 22 27 19 27 21

Peut-on conclure que l’hypnose facilite la perception


extrasensorielle ?

236
7.7 Tests sur une proportion

L’exemple 7.2 traite du test d’hypothèse concernant une


proportion. La procédure utilisée, basée sur la loi bino-
miale est plutôt onéreuse lorsque les observations sont
nombreuses. Lorsque n est grand, nous pouvons nous
servir de la loi normale comme approximation de la
distribution de p̂  X / n . Considérons l’hypothèse

Ho : p = po
et l’alternative
H A : p ≠ p o.

La région critique peut s’exprimer en fonction de la


statistique centrée-réduite
pˆ  po
Z= ,
po (1  po ) / n

qui suit à peu près une loi N(0 ; 1) sous Ho.

237
On rejette donc Ho quand

(i) Z > z si l’hypothèse alternative est de la forme :


H A : p > p o.
(ii) Z <  z si l’hypothèse alternative est de la forme :
HA: p < po.

(iii) Z > z 2 si l’hypothèse alternative est de la forme :
HA : p ≠ po

On peut également utiliser l’approche par la p-valeur
pour prendre une décision.

Exemple 7.8 Une enquête auprès d’utilisateurs de


drogues injectables, a montré que parmi les 423
personnes interrogées, 18 étaient infectées par le virus du
VIH. Des chercheurs veulent savoir si on peut conclure
que moins de 5% des utilisateurs de drogues injectables
dans la population sont infectés par le virus du VIH.
Utilisez   5%.

Solution :

238
7.8 Test sur la différence entre deux proportions

Considérons une population qui est divisée en deux-sous


populations : Population 1 et Population 2. On tire un
échantillon aléatoire de taille n1 dans la Population 1 et
un échantillon aléatoire de taille n2 dans la Population 2
(Voir Figure 6.1). On supposera que les deux
échantillons sont indépendants. Soient p1 la proportion
d’individus dans la population 1 qui possède une certaine
caractéristique et p2 ladite proportion d’individus dans la
population 2 qui possède la caractéristique. On supposera
que les tailles n1 et n2 sont grandes (chacune  30) .
Soient p̂1 et p̂2 les proportions observés dans les
échantillons tirés de la population 1 et de la population 2,
respectivement, d’individus qui possèdent la
caractéristique d’intérêt.

239
On veut tester l’hypothèse

Ho : p1 = p2 p

Le test devrait normalement être basé sur la


statistique
pˆ 1  pˆ 2
,
 pˆ  pˆ 1 2

p1 (1  p1 ) p2 (1  p2 ) p (1  p ) p (1  p )
 pˆ1  pˆ 2    
n1 n2 n1 n2

puisque p1 = p2 sous l’hypothèse nulle . La probabilité


p étant inconnue, nous devrons remplacer  pˆ  pˆ par 1 2

pˆ (1  pˆ ) pˆ (1  pˆ )
ˆ pˆ  pˆ   ,
1 2
n1 n2

X1  X 2
pˆ  (pooled estimate)
n1  n2

240
La statistique
pˆ 1  pˆ 2
Z pˆ1  pˆ 2 
ˆ pˆ  pˆ
1 2

suit à peu près une loi N(0 ; 1) sous Ho (Pourquoi?).

Donc on rejette Ho quand

(i) Z pˆ1  pˆ 2 > z si l’hypothèse alternative est de la forme :


HA : p1 > p2.

(ii) Z pˆ1  pˆ 2 <  z si l’hypothèse alternative est de la


forme : HA : p1 < p2.

(iii) Z pˆ1  pˆ 2 > z 2 si l’hypothèse alternative est de la


forme : HA : p1  p2.

On peut également prendre une décision en utilisant


l’approche par la p-valeur.

241
Exemple 7.9 Durant la dernière décennie, les campagnes
anti-tabac, financées par les gouvernements provinciaux
et fédéraux, se sont multipliées. Supposons que la
Société Canadienne du Cancer a tiré un échantillon de
1500 individus en 1997 et qu’en 2007, elle tire de
nouveau un échantillon d’individus afin de déterminer si
la proportion de fumeurs au Canada a diminué. Soient X 1
le nombre de fumeurs dans l’échantillon en 1997 et X 2 le
nombre de fumeurs dans l’échantillon en 2007. Les
résultats des deux enquêtes sont exhibés ci-dessous. Les
données indiquent-elles que la proportion de fumeurs au
Canada a diminué durant cette période de 10 ans?
Utilisez   5%.

1997 n1  1500; X 1  555


2007 n2  1750; X 2  578

Solution :

242
7.9 Erreur de première et deuxième espèces
et fonction de puissance

Dans cette section, nous revenons sur les concepts


d’erreurs de type 1 et d’erreur de type 2 et introduisons le
concept de la puissance d’un test ou fonction de
puissance.

Rappels :

Erreur de première espèce : rejeter Ho lorsque Ho est


vraie.

Erreur de deuxième espèce : accepter Ho lorsque Ho est


fausse.

Dans un test d’hypothèse, la seule erreur qui est


contrôlée est l’erreur de première espèce. Par
construction, la probabilité d’une erreur de première
espèce est inférieure ou égale à 

P(erreur de première espèce) = P(rejeter Ho | Ho vraie)
≤ .
Rappelons également que la probabilité d’erreur de
deuxième espèce est

  P  accepter H 0 H 0 est fausse 

243
Un bon test d’hypothèse en est un pour lequel les deux
probabilités et  sont petites. Mais rappelons que seule
est parfaitement contrôlée.

Supposons que l’on effectue un test d’hypothèse que et


que l’on fixe ; par exemple Cette probabilité
étant fixée, il serait peut-être désirable de contrôler
également . Autrement dit, on aimerait avoir la plus
petite valeur de  possible.

Pour cela, nous introduisons le concept de puissance


d’un test d’hypothèse. La puissance d’un test
d’hypothèse est définie selon

  1    P  rejeter H o | H o est fausse  .

Nous aimerions que cette probabilité soit la plus élevée


possible car elle représente la probabilité de prendre la
bonne décision : rejeter Ho lorsque Ho est fausse.

244
Pour une valeur fixée a priori de , nous aimerions que
la puissance du test soit la plus grande possible. En effet,
un test puissant a la capacité de détecter de petits écarts à
l’hypothèse nulle. Il permettra donc, avec une grande
probabilité, de déclarer que l’hypothèse nulle est fausse
si, en réalité, elle est vraiment fausse.

La fonction de puissance d’un test est un graphique de la


puissance du test   1   en fonction de la vraie valeur
du paramètre d’intérêt (par exemple, µ dans un test pour
une moyenne)

Reprenons l’exemple 7.4. Nous en étions arrivés à la


rège suivante :

rejeter Ho lorsque X < 399,34.

On a donc

  1   =P(rejeter Ho | Ho est fausse) = P( X ≤ 399,34 |


µ < 400).

245
Il est impossible de donner à cette probabilité une valeur
unique : elle est fonction de µ. En effet, Ho fausse peut
vouloir dire n’importe quelle valeur de µ inférieure à
400. Dénotons cette fonction par : (µ) = P(rejeter Ho |
µ).

Nous allons calculer (µ) pour plusieurs valeurs de µ


inférieures à 400; par exemple, 399,5; 399; 398,5; 398;
etc.

Cette fonction — la fonction qui donne, pour chaque


valeur du paramètre, la probabilité de rejeter Ho — est
appelée fonction de puissance.

246
La figure 7.3, qui présente un graphique de la fonction de
puissance dans l’exemple 7.4.

Figure 7.3 Fonction de puissance pour le test de


l’exemple 7.4
(µ) = P(rejeter Ho | µ)

247
Remarques à propos de la fonction de puissance (Figure
7.3)
 La valeur de  au point µ = 400 est 0,05, la
probabilité d’une erreur de première espèce.
 Lorsque µ < 400, la valeur de  est supérieure à 0,05,
ce qui est normal : lorsque µ < 400, Ho est fausse, et
il faut bien que la probabilité de la rejeter soit élevée.
 Lorsque µ n’est que légèrement inférieure à 400, la
valeur de , bien que légèrement supérieure à 0,05,
est faible. Ce qui signifie que lorsque Ho n’est que
« un petit peu fausse », il est peu probable qu’on la
rejette.
 Inversement, lorsque µ est bien plus petit que 400, la
probabilité de rejet est forte : un écart est d’autant
plus facile à détecter qu’il est important.
 En principe, les valeurs de (µ) pour µ > 400 sont
sans intérêt, puisque nous avons d’emblée décidé
d’exclure ces valeurs.

248
Reprenons maintenant l’exemple 7.5. On avait déterminé
la région critique suivante :

on rejette Ho si

X ≥ 400,77 ou si X ≤ 399,22.

La fonction de puissance de ce test est donc :

(µ) = P( X ≥ 400,77| µ) + P( X ≤ 399,22| µ)

Encore une fois, on va calculer(µ) pour plusieurs


valeurs de µ différentes de 400 : 400,5; 401; 401,5; 402;
399,5; 399; 398,5; etc.

249
La figure 7.4 présente le graphique de cette fonction de
puissance.

Figure 7.4 - Fonction de puissance pour le test de


l’exemple 7.3.2
(µ) = P(rejeter Ho | µ)

250
Chapitre 8
Inférence pour de petits échantillons
8.1 Introduction

Aux chapitres 6 et 7, nous avons introduit les notions


d’intervalles de confiance et de tests d’hypothèses pour
de grands échantillons, ce qui nous a permis de faire
appel au théorème limite central pour déterminer la
distribution d’une statistique. En pratique, on est parfois
confronté à des échantillons de petite taille. En effet, le
coût de collecte peut, dans certaines situations, être
élevé. Par exemple, dans le domaine pharmaceutique, on
soumet un échantillon d’individus à des tests médicaux
qui peuvent s’avérer très coûteux. Dans ce cas, les
échantillons sont habituellement de petite taille afin de
respecter les budgets de l’étude. Malheureusement, on ne
plus faire appel aux théorèmes limites dans le cas de
petits échantillons. On se contentera de supposer que les
observations proviennent de populations normales (ce
qui n’était pas nécessaire dans un contexte de grands
échantillons).

251
8.2 Inférence pour µ

Supposons encore que nous disposons d’un échantillon


X1, …, Xn d’une population N(µ ; 2) d’écart-type 

inconnu.

Si n est grand, nous avons vu à la section 7.4 que la


statistique

X  X 
t 
ˆ S/ n
X

suit à peu près une loi normale de moyenne 0 et de


variance 1. Qu’en est-il si n n’est pas grand?

252
Théorème 8.1 Si X et S2 sont la moyenne et la
variance d’un échantillon aléatoire de taille n tiré
d’une population N(µ ; 2), alors

1) Les variables aléatoires X et S2 sont


indépendantes.

(n  1) S 2
2) ~  2

2
n 1

Nous ne démontrerons pas ces résultats. À partir des


résultats 1) et 2), il est aisé de montrer que

X 
T= ~ tn-1,
ˆ X

car on peut écrire T comme


 X  
 
  / n .
S 2 / 2

Le numérateur est une N(0 ; ) et le dénominateur est

bien de la forme  2n1 / (n  1) (voir section 4.7).

253
On désigne par t ;a le point qui a une probabilité a d’être

excédé par une variable T de Student à  degrés de


liberté, c’est-à-dire,
P{T > t ;a )  a

Un intervalle de confiance pour  à 100(1- )% est


donné par

X  tn1;/2 ˆ X   X  tn1;/2 ˆ X

Supposons maintenant que nous voulons tester


l’hypothèse H0 :   0 contre l’une des alternatives
HA :  <0, HA :  > 0, HA :   0.

254
Encore une fois, la statistique

X  0
T
ˆ X

est de loi de Student à (n  1) degrés de liberté lorsque


H0 est vraie. Il suffit donc de remplacer le point critique
z (voir section 7.4) par tn1; . Le tableau suivant résume
la procédure dans le cas de tests unilatéraux ou
bilatéraux.

Hypothèses Région critique p-valeur


H0 :    0 X  0 P  Tn 1  t0 |    0 
< - tn1;
HA :  <  0 ˆ X
H0 :    0 X  0 P  Tn 1  t0 |    0 
> tn1;
HA :  >  0 ˆ X
H0 :    0 X  0 2 P T  t |    
> tn 1; 2
n 1

HA :  ≠  0
0 0

ˆ X
*Dans le tableau t0 désigne la statistique du test.

255
Exemple 8.1 Des expériences passées ont permis de
déterminer que le temps moyen de sommeil des gens est
de 7,7 heures. Une compagnie pharmaceutique, voulant
tester la valeur d’un nouveau somnifère, a effectué des
expériences. Un échantillon de taille 10, où le somnifère
a été utilisé, a donné les résultats suivants :
7,8 8,3 7,2 9,1 8,4 6,8 7,3 7,7 8,9 9,2

Le nouveau somnifère a-t-il un effet sur la durée du


sommeil? Utilisez   5%.

Solution :

256
8.3 Inférence pour deux moyennes

Plusieurs enquêtes et plusieurs expériences scientifiques


ont pour but de déterminer s'il y a une différence entre
les moyennes de deux populations.

Le modèle mathématique est le suivant : on dispose de


deux échantillons indépendants, X 11 , X 12 ,..., X 1n1 et

X 21 , X 22 ,..., X 2 n2 . Nous supposerons que ces observations

sont indépendantes et, de plus, nous faisons les


suppositions suivantes :
X1i ~ N(µ1 ; 12 ), i = 1, 2, .... , n1
X2i ~ N(µ2 ;  22 ), j = 1, 2, .... , n2
Soit X 1 et X 2 les moyennes de deux échantillons de
taille n1 et n2 respectivement, tirés de deux populations
de moyennes 1 et  2 et de variance 12 et  22
respectivement.

257
Lorsque n1 et n2 sont grands, la statistique

X1  X 2
Z X1  X 2  
S 2
S 2

1 2
n1 n2

suit à peut près une loi normale de moyenne 0 et de


variance 1 (voir section 7.5). Qu’en est-il si n1 et n2 sont
petits?

Malheureusement, la statistique Z X1  X 2 ne suit pas une loi

de Student. Il nous faudra faire une hypothèse


supplémentaire : celle qui consiste à supposer les
variances des deux populations sont égales; c’est-à-dire,
12   22 .

258
Si le contexte nous permet de supposer que les
populations sont normales et qu'elles ont la même
variance  2 , on peut déterminer des intervalles de
confiance ou construire des tests en faisant appel à une
loi de Student appropriée. Si 12   22  , les

statistiques S12 et S22 sont toutes deux des estimateurs


sans biais du même paramètre  2 et pour trouver un
estimateur commun, il faudra prendre une moyenne
pondérée de S12 et S22 .

En pratique, il peut probable de tomber sur une


population qui satisfait exactement les hypothèses de
normalité et de variances égales. Cependant, les tests et
intervalles de confiance présentés ci-dessous demeurent
valides si l’on ne s’écarte pas trop de ces hypothèses.

259
On peut montrer que

(n1  1) S12  (n2  1) S 22


S 
2

n1  n2  2
est un estimateur sans biais de  2 et qu’il est optimal (la
démonstration est laissée en exercice).

(n1  1) S12 (n2  1) S 22


Sachant que ~  2
et ~  n2 1 ,
2

 
2 n1 1 2

on peut montrer (la démonstration est laissée en


exercice) que
(n1  n2  2) S 2 (n1  1) S12  (n2  1) S 22
 ~  2n1  n2 2 .
 2
 2

260
Finalement, la statistique

X1  X 2
 TX1  X 2  
1 1
S 
n1 n2

suit une loi de Student avec n1  n2  2 degrés de libertés.


La démonstration est laissée en exercice.

Ce qui précède nous permet maintenant de construire des


intervalles de confiance ou des tests d’hypothèse.

Un intervalle de confiance à 100(1 - )% pour 1   2 est


donné par

X  X 2   tn n 2; /2 S   1   2   X 1  X 2   tn n 2; /2 S
1 1 1 1
 .
n1 n2 n1 n2
1 1 2 1 2

261
Supposons que 1 et  2 sont inconnues et qu'on veuille
tester l'hypothèse que, pour un nombre  donné,

Ho : 1   2  
contre l'une des alternatives
HA: 1   2 ≠ 
HA: 1   2 > 
HA: 1   2 < 

Comme au chapitre 7, notons que le cas   0 est le plus


courant.

262
On rejettera Ho lorsque

(i) TX1  X 2 > tn n 2; si l’hypothèse alternative est de la


forme : HA: 1   2 > 
1 2

(ii) TX1  X 2 < tn n 2; si l’hypothèse alternative est de la


forme : HA: 1   2 < 
1 2

(iii) TX1  X 2 > tn n 2; /2 si l’hypothèse alternative est de la


forme : HA: 1   2  
1 2

On peut également utiliser l’approche par la p-valeur


pour prendre une décision.

Remarques :
(1) Le test précédent suppose que les deux échantillons
sont indépendants. Dans le cas de données appariées
(voir section 7.6), on travaillera sur les différences, ce
qui nous ramènera à un test pour une moyenne tel que
décrit dans la section 8.2.
(2) Rappelons que le test d’égalité de deux moyennes
suppose que les variances sont égales. Si les variances
sont très différentes, le test d’hypothèse risque de mener
à une conclusion invalide. En pratique, on effectuera le
test si
(le plus grand S2/le plus petit S2) < 3.

263
Exemple 8.2 Un jardinier amateur veut savoir si
l’engrais qu’il utilise est vraiment efficace. Pour ce faire,
il a privé d’engrais 2 de ses plants de tomates, choisis a
hasard en début de saison, et n’a donné de l’engrais
qu’aux 6 autres plants. Les plants sans engrais ont fourni
respectivement 12,3 et 13,6 kg de tomates. Pour les
plants traités à l’engrais, les résultats, en kg, ont été :
14,1 12,8 15,1 13,7 13,4 15,4
L’engrais a-t-il un effet sur la production de tomates?
Utilisez   10%.

Solution :

264
Chapitre 9
Tests du khi-deux

Nous discutons ici deux tests basés sur la loi du khi-


deux: le test d’ajustement et le test d’indépendance. Ce
sont des techniques utilisées souvent avec des données
qualitatives: le test d’ajustement est employé pour une
seule variable qualitative, alors que le test d’indépendan-
ce s’applique à la distribution conjointe de deux
variables qualitatives.

9.1 Tests d’ajustement

Supposons qu’on prélève des données afin de déterminer


si le jour de la semaine a une influence sur les suicides.
L’hypothèse nulle est que les suicides ne sont pas
affectés par le jour de la semaine :
Ho : Les suicides sont également fréquents tous les jours
de la semaine

265
On prélève un échantillon de 780 suicides, puis on les
classe en 4 catégories, selon le moment de la semaine où
le suicide a eu lieu : le début de la semaine (lundi), le
milieu de la semaine (mardi à jeudi), la fin de la semaine
(vendredi), et le week-end (samedi-dimanche).
Supposons qu’on obtienne la distribution suivante :

Tableau 9.1 : Effectifs observés du nombre de suicides


Mardi- Samedi-
Jour Lundi Vendredi Total
jeudi dimanche
Effectif
observé 110 320 100 250 780

Cette distribution est appelée distribution observée.

Si l’hypothèse nulle est vraie, les 780 suicides devraient


se répartir de façon proportionnelle au nombre de jours:
1/7 le lundi; 3/7 les mardi-jeudi; 1/7 le vendredi; et 2/7
les samedi-dimanche. Cette répartition, appelée
distribution théorique, est présentée dans le tableau 9.2.

Tableau 9.2 : Effectifs théoriques du nombre de suicides


Mardi- Samedi-
Jour Lundi Vendredi Total
jeudi dimanche
Effectif
111,4 334,3 111,4 222,9 780
théorique

266
L’écart entre les deux tableaux nous permettra de rejeter
Ho ou pas. Si l’écart est important, on rejette Ho.

Écart entre les effectifs observés et théoriques

L’écart entre les deux tableaux est mesuré par une


quantité dénotée par 2 et définie par

2 = 
(O - T ) 2
i i
,
i Ti

où les Oi sont les effectifs observés et les Ti sont les


effectifs théoriques.

Dans l’exemple précédent, on a

(110  111, 4) (320  334,3) (100  111, 4)


2 
2 2 2
 
111, 4 334,3 111, 4
(250  222,9) 2

222,9
= 5,09.

Une distance entre les distributions théoriques et


observées de 5,09 est-elle assez grande pour nous
permettre de rejeter Ho?

267
Région critique

La région critique est basée sur 2. Ce sont les grandes


valeurs de 2 qui devraient mener au rejet de Ho car un
grand 2 reflète une grande différence entre les deux
tableaux. 2 est grand lorsque les effectifs observés
s’écartent beaucoup des effectifs théoriques, c’est-à-dire,
des effectifs auxquels on s’attend lorsque Ho est vraie.
La région critique sera donc de la forme

2 > C.

La constante C doit être choisie de telle sorte que la


probabilité d’une erreur de première espèce soit à peu
près égale à un certain nombre . Il est coutume
d’utiliser des valeurs de égales à 1%, 5% ou 10%.

268
Il faut donc que

P(2 > C | Ho) = 

Pour déterminer C, il faut connaître la distribution de 2


sous Ho.

Théorème 9.1 Lorsque Ho est vraie, la statistique 2 suit


à peu près une loi 2 , où  = (nombre de cases) -1.

Donc la région critique est  2  2; .

Dans l’exemple des suicides,  = 3 et si on prend


 0,05, le point critique est  3;0,05
2
= 7,8147. Puisque
2 = 5,08 ≤ 7,8147, on ne rejette pas Ho : on ne peut pas
affirmer que le taux de suicide varie selon le jour de la
semaine. L’écart entre les deux tableaux (observés et
théoriques) pourrait bien être dû au hasard tout seul.

269
Le modèle

Nous allons formuler maintenant le modèle sur lequel ce


test est basé. Nous le traiterons dans le cadre de
l’exemple. La généralisation se fera sans difficulté. Les
4 effectifs observés O1, O2, O3, O4 sont les valeurs d’un
vecteur aléatoire X = (X1, X2, X3, X4) qui suit une loi
multinomiale de paramètres n (= 780 dans l’exemple) et
(p1, p2, p3, p4):

Modèle: X = (X1, X2, X3, X4) ~ MN(n; p1, p2, p3, p4)

L’hypothèse nulle est :


1 3 1 2
H o : p1  , p2  , p3  , p4 
7 7 7 7

Les effectifs théoriques T1, T2, T3, T4 sont les


espérances des variables X1, X2, X3, X4 sous Ho:

1 1 3 3
T1  E ( X 1 | H o )  n  780 ; T2  E ( X 2 | H o )  n  780
7 7 7 7
1 1 2 2
T3  E ( X 3 | H o )  n  780 ; T4  E ( X 4 | H o )  n  780
7 7 7 7

270
En général, le problème est le suivant. Les observations
constituent un vecteur de loi multinomiale :

Modèle: X = (X1, X2, ... , Xk) ~ MN(n; p1, p2,..., pk)

L’hypothèse nulle est de la forme


Ho : p1 = p10, p2 = p20, ... , pk = pk0

où p10, p20, ..., pk0 sont des nombres positifs tels que

p
k

i0  1. La statistique 2 peut s’écrire


i 1

 
2
k
( X i  npio ) 2
i 1 npio

271
9.2 Tests d’indépendance
Ici aussi nous présenterons un cas particulier avant de
décrire la procédure formellement. Considérons les
données suivantes sur deux variables, la « scolarité » et
« l’attitude face à l’avortement ».
Tableau 9.3 : Distribution conjointe (fréquences) des
variables « scolarité » et « attitude face à l’avortement ».
Attitude face à
l’avortement
Pour Mixte Contre
≤8 31 23 56 110
Scolarité 9 — 12 171 89 177 437
> 12 116 39 74 229
Total 318 151 307 776

Ces données ont été recueillies afin de déterminer s’il y a


une relation entre les deux variables. Le tableau
précédent présente la distribution conjointe observée des
variables « scolarité » et « attitude face à l’avortement ».
Une distribution conjointe peut également s’exprimer en
fréquences relatives comme dans le tableau 9.4.

272
Tableau 9.4 : Distribution conjointe (fréquences
relatives) des variables « scolarité » et « attitude face à
l’avortement ».
Attitude face à
l’avortement
Pour Mixte Contre
≤8 0,039 0,029 0,072 0,141
Scolarité 9 — 12 0,220 0,114 0,228 0,563
> 12 0,149 0,050 0,095 0,296
Total 0,409 0,196 0,396 1,000

Le tableau 9.3 (ou 9.4) exhibe la distribution conjointe


des variables « scolarité » et « attitude face à
l’avortement » et contient donc plus d’information que
contiendraient deux tableaux donnant l’un la distribution
de la variable « scolarité » et l’autre, celle de la variable
« attitude face à l’avortement ».

Ces deux distributions, appelées distributions marginales,


se retrouvent intégralement dans les marges du tableau
9.3 (ou 9.4).

273
La distribution marginale de la variable « scolarité » est
exhibée dans le tableau 9.5.

Tableau 9.5 : Distribution marginale de la variable


« scolarité » .

Scolarité ≤8 9 — 12 > 12 Total


Fréquence
0,141 0,563 0,296 1,000
relative

La distribution marginale de la variable « attitude face à


l’avortement » est exhibée dans le tableau 9.6.

Tableau 9.6 : Distribution marginale de la variable


« attitude face à l’avortement » .
Scolarité Pour Mixte Contre Total
Fréquence
0,409 0,196 0,396 1,000
relative

274
La distribution conjointe de deux variables contient toute
l’information nécessaire à l’étude de la relation entre les
variables. Mais elle ne met pas cette relation clairement
en évidence. La notion de relation ou de dépendance
entre deux variables s’exprime en termes de distributions
conditionnelles. Une distribution conditionnelle de la
variable « attitude face à l’avortement » est la
distribution de cette variable confinée à une tranche de la
population, cette tranche étant définie par une valeur de
la variable « scolarité ».

Par exemple, la distribution conditionnelle de la variable


« attitude face à l’avortement » étant donné que la
variable scolarité = 9-12 est la distribution de la variable
« attitude face à l’avortement » limitée à l’ensemble des
individus qui ont une scolarité d’une durée 9 à 12 ans.

275
Le tableau 9.7 donne la distribution conditionnelle de
l’attitude étant donné chaque niveau de scolarité :

Tableau 9.7 : Distribution conditionnelle de la variable


« attitude face à l’avortement » étant donné la variable
« scolarité » .
Attitude face à
l’avortement
Pour Mixte Contre
≤8 0,28 0,21 0,51 1
Scolarité 9 — 12 0,39 0,20 0,41 1
> 12 0,51 0,17 0,32 1

Une certaine dépendance se manifeste clairement dans


ces distributions conditionnelles. La question est de
savoir si cette dépendance, évidente au niveau de
l’échantillon, existe aussi au niveau de la population.

276
L’hypothèse nulle est formulée comme suit :

H0 : Les variables « scolarité » et « attitude face à


l’avortement » sont indépendantes;

L’hypothèse alternative est :

HA : non H0.

277
Les observations dans les 9 cases du tableau 9.3 sont une
réalisation de 9 variables aléatoires
X11 X12 X13
X21 X22 X23
X31 X32 X33
qui suivent conjointement une loi multinomiale:

Modèle:
X =(X11, X12, X13, X21, X22, X23, X31, X32, X33) ~
(n; p11, p12, p13, p21, p22, p23, p31, p32, p33)

Le tableau 9.8 présente les probabilités p11, p12, p13, p21,


p22, p23, p31, p32, p33. Le tableau présente également
certaines fonctions de ces probabilités, soit p1., p2., p3.,
p.1, p.2, p.3, les sommes des probabilités des lignes et
des colonnes.

278
Tableau 9.8 : Vraie distribution conjointe des variables
des variables « scolarité » et « attitude face à
l’avortement ».
Attitude face à
l’avortement
Pour Mixte Contre
≤8 p11 p12 p13 p1.
Scolarité 9 — 12 p21 p22 p23 p 2.
> 12 p31 p32 p33 p3.
Total p.1 p.2 p.3 1

En fonction de ces paramètres, l’hypothèse nulle est


Ho: pij = pi. p.j pour tout i, j

Puisque, sous Ho, E(Xij) = npi.p.j, la statistique 2 devrait


normalement être
 2   i  j ij
( X  np p
i. . j ) 2

npi . p. j
Mais les pi. et les p.j ne sont pas connus; elles devront
donc être estimées. Les estimateurs pˆ i. et pˆ . j sont
donnés par
pˆ i.   j X ij pˆ . j   i X ij
1 1
n n

279
Les estimations des pi. et des p.j ainsi que les effectifs
théoriques sont présentés dans le tableau 9.9.

Tableau 9.9 : Effectifs théoriques


Attitude face à l’avortement
Pour Mixte Contre
≤8 776 p̂ 1. p̂ .1 776 p̂ 1. p̂ .2 776 p̂ 1. p̂ .3
p̂ 1.
=110/776
p̂ 2.
Scolarité 9 — 12 776 p̂ 2. p̂ .1 776 p̂ 2. p̂ .2 776 p̂ 2. p̂ .3
=437/776
> 12 776 p̂ 2. p̂ .1 776 p̂ 3. p̂ .2 776 p̂ 3. p̂ .3
p̂ 3.
=229/776
Total 1
p̂ .1 p̂ .2 p̂ .3
=318/776 =151/776 =307/776

Les calculs donnent :

Tableau 9.10 : Effectifs théoriques


Attitude face à l’avortement
Pour Mixte Contre
≤8 45,08 21,40 43,52 110
Scolarité 9 — 12 179,08 85,03 172,89 437
> 12 93,84 44,56 90,60 229
Total 318 151 307 776

280
La valeur de la statistique 2 est

 2  
3 3 ( X ij  npi . p. j ) 2
= 17,7
i 1 j 1 npi . p. j

Théorème 9.2 Lorsque Ho est vraie, la statistique 2 suit


à peu près une loi 2 , où  = (-1)(c-1),  étant le
nombre de lignes, c le nombre de colonnes, du tableau.

La région critique est donc


2 >  (2 1)( c 1);

Dans l’exemple, puisque 2 = 17,7 >  4;0,05


2
= 9,4877,
nous rejetons Ho à 5%. Nous concluons qu’il y a
vraiment une dépendance entre la scolarité et l’attitude
face à l’avortement.

281
Autre modélisation

Dans l’exemple de cette section, le chercheur a choisi


776 sujets et les a ensuite classés selon la scolarité et
l’attitude. Par conséquent, tous les effectifs observés
étaient aléatoires, y compris les effectifs des marges.
Mais il existe des situations où les effectifs des marges
sont fixés. Dans ce cas, le modèle d’une multinomiale
n’est pas valide. Par exemple, supposons qu’on veuille
savoir si la durée d’une hospitalisation pour une certaine
maladie dépend de l’hôpital; et que pour ce faire, on
choisit un certain nombre fixe de patients dans chaque
hôpital, et qu’on recueille les données suivantes :

Tableau 9.11 : Distribution conjointe des variables


« Durée de l’hospitalisation » et « Hôpital ».
Durée de l’hospitalisation
plus de 5
1-2 jours 3-5 jours
jours
1 40 20 40 100
Hôpital 2 50 35 65 150
3 95 45 60 200

282
Visiblement, les effectifs de la marge de droite sont
fixes: on a décidé, avant de prélever les données, qu’on
prendrait respectivement 100, 155 et 200 cas dans les
trois hôpitaux. Ce ne sont pas des variables aléatoires.
Dans le tableau 9.12, on nomme les variables observées.

Tableau 9.12 : Distribution conjointe des variables


« Durée de l’hospitalisation » et « Hôpital ».
Durée de l’hospitalisation
plus de 5
1-2 jours 3-5 jours
jours
1 X1 Y1 Z1 n1
Hôpital 2 X2 Y2 Z2 n2
3 X3 Y3 Z3 n3

Les 9 variables aléatoires dans le tableau ne suivent pas


une loi multinomiale. Le modèle est plutôt

(X1, Y1, Z1) ~ MN(n1 ; p1 , r1, s1),


(X2, Y2, Z2) ~ MN (n2 ; p2 , r2, s2),
(X3, Y3, Z3) ~ MN (n3 ; p3 , r3, s3).

283
L’hypothèse nulle est

Ho : (p1 , r1, s1) = (p2 , r2, s2) = (p2 , r2, s2)

Malgré la différence entre ce modèle (trois


multinomiales) et celui de l’exemple précédent (une
seule multinomiale), la procédure reste la même : on
utilise exactement le même test dans les deux cas.

284
9.3 Dépendance et causalité
Lorsque l’on étudie la dépendance entre deux variables,
on envisage presque toujours la possibilité d’un lien de
causalité entre les variables. Par exemple, plusieurs
études établissent l’existence d’un lien entre l’état de
santé et la consommation de cigarettes. Si on montre, au
moyen de techniques statistiques, qu’il existe un lien
entre l’état de santé et la consommation de cigarettes, on
résiste difficilement à la tentation de conclure que la
cigarette cause la maladie. Bien que cette conclusion soit
vraisemblable, on court le risque d’identifier trop
hâtivement une variable à la cause et l’autre à l’effet. Il
est fort possible que la dépendance entre deux variables
soit due, non pas à l’effet de l’une sur l’autre, mais à
l’effet simultané d’une troisième variable sur les deux
premières. Nous illustrons ce phénomène par un exemple
fictif mais révélateur.

Une expérience a été effectuée avec 300 rats atteints


d’une certaine maladie. Soit X la pression artérielle et Y
une variable qui identifie les conséquences éventuelles
de la maladie. L’expérience donne les résultats suivants :

285
Tableau 9.13 : Effectifs observés
Y : conséquences de la maladie

X : Pression Succombe Survit Total


artérielle

Élevée 136 44 180

Normale 64 56 120

Total 200 100 300

On constate que le taux de mortalité est de 75,6% parmi


les rats qui ont une pression élevée alors qu’il n’est que
de 53,3% parmi ceux ayant une pression normale. Peut-
on conclure que la pression élevée est la cause de ce taux
de mortalité?

C’est possible mais avant de tirer cette conclusion, on


décide une fois de plus d’examiner les données à la
lumière de l’information que l’on possède sur l’âge des
rats. Il y a 100 qu’on classifie comme « jeune » et 200
qu’on classifie comme « vieux ». On dresse les tableaux
suivants :

286
Tableau 9.14 : Effectifs observés chez les jeunes rats
Y : conséquences de la maladie

X : Pression Succombe Survit Total


artérielle

Élevée 8 12 20

Normale 32 48 80

Total 40 60 100

Tableau 9.15 : Effectifs observés chez les vieux rats


Y : conséquences de la maladie

X : Pression Succombe Survit Total


artérielle

Élevée 128 32 160

Normale 32 8 40

Total 160 40 200

287
Parmi les jeunes rats, le taux de mortalité est de 40%,
quelle que soit la pression. Parmi les vieux, le taux de
mortalité est de 80% quelle que soit la pression. Donc,
contrairement à la conclusion suggérée par le tableau
9.13, la pression n’agit pas de façon directe sur la
mortalité. C’est apparemment l’âge qui agit en même
temps sur la pression et sur la mortalité.

288
Chapitre 10
Régression linéaire simple

10.1 Introduction

Au chapitre 9, nous avons effectué des tests d’hypothèse


pour savoir si deux variables catégorielles étaient
indépendantes ou non. Dans ce chapitre, on s’intéresse à
la dépendance entre deux variables continues. Au
Chapitre 1, nous avons présenté la droite des moindres
carrés et le coefficient de corrélation comme techniques
descriptives. Ces techniques permettent de décrire la
relation entre deux variables à l’aide d’une droite, et de
mesurer la force de la dépendance linéaire dans un
échantillon. À l’époque, on n’avait pas encore fait la
distinction entre échantillon et population. Dans
plusieurs applications, cependant, on voudra tirer des
conclusions à propos d’une dépendance dans la
population, à partir de celle observée dans l’échantillon.

289
Pour ce faire, nous devons adopter un modèle pour
décrire la population. Nous allons présenter dans ce
chapitre un modèle appelé régression linéaire simple.

Exemple 10.1 Le Tableau 10.1 présente, pour un


ensemble de 18 individus, les valeurs de deux variables :
x : le poids d’un individu, en kg
y : le taux de cholestérol, en mg par 100 ml
Tableau 10.1 Taux de
cholestérol (y) et poids (x) de
18 individus
x y x y
50 262 82 261
56 250 82 296
58 265 86 268
64 280 93 277
64 264 94 300
68 256 95 305
72 281 101 310
76 293 104 286
78 271 108 301

290
Ces données, avec la droite des moindres carrés sont
représentées comme 18 points dans 2 dans la figure
10.1.
Figure 10.1 Relation entre le taux de cholestérol (y) et
poids (x)
Taux de cholestérol = 217.5 + 0.7767 Poids
S 12.7423
310
R-Sq 54.4%
R-Sq(adj) 51.5%

300

290
Taux de cholestérol

280

270

260

250

50 60 70 80 90 100 110
Poids

La figure 10.1 montre qu’il semble y avoir une relation


entre le poids d’individu et son taux de cholestérol et que
cette relation semble être linéaire.

291
Rappelons que la droite des moindres carrés est la droite

y = b o + b 1x

qui minimise

(y
n
D= i  yˆi ) 2
i 1

où yˆi = bo + b1xi. On obtient

  y  y  x  x 
n

i i
b1 = i 1
et bo = y b1 x
  xi  x 

n
2

i 1

Remarque : La notation a et b utilisée au chapitre 1 pour


désigner les coefficients des moindres carrés est
remplacée par la notation bo et b1.

Dans l’exemple 10.1, la droite des moindres carrés est


donnée par
y = 217,5 + 0,7767

292
10.2 Le modèle de régression linéaire simple

Afin de passer du pur descriptif à l’inférence, nous allons


définir un modèle de population, c’est-à-dire, un
ensemble de suppositions à propos de la population. Le
modèle est appelé modèle de régression simple.

Pour chacune des n unités dans l’échantillon, on dispose


d’une paire d’observations :  xi , yi  , i = 1,…,n. On
suppose, dans ce modèle que les variables x et y sont
liées selon
yi = o + 1xi + i (10.1)

 y est communément appelée variable dépendante.


C’est la variable que l’on cherche à modéliser, celle
que l’on cherche à expliquer.

293
 x est la variable indépendante ou la variable
prédictrice. C’est la variable utilisée pour prédire la
variable dépendante y. Il est important de noter que
les observations x1, …. ,xn de x sont considérées
comme des constantes.

 o représente l’ordonnée à l’origine et 1 représente


la pente de la droite. On utilise des lettres grecques
pour représenter l’ordonnée à l’origine et la pente
pour bien insister sur le fait que ce sont des
paramètres inconnus. Leur valeur respective serait
connue si on avait accès à toute la population, ce qui
n’est jamais le cas en pratique. Il nous faudra donc
les estimer.

 est une variable aléatoire qui est souvent appelée


erreur aléatoire ou bruit aléatoire.

294
 Le modèle (10.1) peut être vu comme la somme de
deux composantes : une composante déterministe
(non-aléatoire), o + 1xi et une composante
aléatoire 

Il est important de comprendre qu’un modèle statistique


est un ensemble d’hypothèses et le modèle de régression
linéaire simple n’échappe pas à la règle.

Quelles sont les hypothèses sous-jacentes au modèle de


régression linéaire simple?

(1) La relation entre la variable dépendante y et la


variable indépendante x est linéaire.

(2) E   i   0.

295
(3) V   i    2 . L'hypothèse que les  i ont toutes la
même variance est appelée hypothèse
d'homoscédasticité. Il est difficile de traiter un
modèle qui n’inclue pas cette hypothèse. Notons
que  2 est un paramètre inconnu qu’il nous faudra
estimer.

(4) Les  i sont des variables aléatoires mutuellement


indépendantes.

(5) La distribution des  i est normale. En combinant

(2) et (3), on peut écrire  i ~ N  0,  2  .

En combinant (10.1) avec les hypothèse (2)-(5), on


conclut que les yi sont des variables aléatoires

indépendantes normales de moyenne E(yi) = o + 1xi et


de variance  2 . On a

yi ~ N(o + 1xi; 2)

296
Remarque Voici une façon d’interpréter les suppositions
du modèle dans le contexte de l’exemple 10.1. Pour
chaque valeur de x, considérons l’ensemble des individus
dont le poids est xi. Les taux de cholestérol dans cette
sous-population sont distribués selon une loi normale.
Le taux de cholestérol pour ces individus dépend de x : il
est égal à o + 1x. La variance  est la dispersion des
2

taux de cholestérol dans cette sous-population. On


suppose que cette variance est la même pour toute sous-
population constituée des individus ayant un même
poids. C’est l’hypothèse d’homoscédasticité. Il est rare
qu’elle soit vérifiée exactement en pratique, mais on ne
s’attend pas à des effets très graves si les différences de
variances ne sont pas très grandes.

297
10.3 Estimation des paramètres

Nous avons 3 paramètres à estimer : o, 1, et  .


2

Il existe plusieurs critères possibles qui pourraient diriger


la recherche d’estimateurs de o et 1. Mais presque
tous mènent aux mêmes estimateurs, et ceux-ci sont
justement les quantités bo et b1 définies plus haut. Ce
sont des estimateurs sans biais de o et 1,
respectivement.

Proposition 10.1 : E  b0    0 et E  b1   1 .

Démonstration :

298
Sous l'hypothèse que les yi sont de loi normale, on peut
démontrer la proposition suivante :

Proposition 10.2 : On a
2
 ( xi  x )
(i) b1 ~ N ( ; b ) , où  
2
1
2
b1 2
.

(ii) b0 ~ N (0 ; b20 ) où


1 x2 
 i
   
2 2
2 
 n ( x  x ) 
b0

Il suit de (i) et de (ii) que

b1 1 b0 0
~ N (0 ; 1) et ~ N (0 ; 1).
b1 b0

299
Démonstration :

300
Il nous reste à estimer  2 et à estimer les variances de
bo et b1 données par la Proposition 10.2.

On acceptera sans démonstration qu’un estimateur sans


biais de la variance  2 est donné par

 i 1 yi  yˆi    y  (b  b1 xi ) 
n 2 n 2

ˆ 2   i 1 i 0

n2 n2

Remarque On peut justifier cet estimateur intuitivement.


On sait que 2 est la variance des  i  yi    0  1 xi  ,
lesquelles sont de moyenne nulle. Un estimateur de 
aurait donc été la moyenne des  i2 ,   i2 n , si ce n’était
que les  i2 ne sont pas connus. Mais on peut toujours
remplacer les  i par les estimateurs   yi   b0  b1 xi  ,
et c’est ce qu’on fait. Le dénominateur doit cependant
changer car le nombre de degrés de liberté de la somme
de carrés  ˆi2 n est n  2 et non plus n. Ce qui donne
 
ˆ
n 2

l’estimateur ˆ 2  i 1 i
.
n2

301
Une fois  2 estimée, nous pouvons facilement estimer les
variances de bo et b1 :

ˆ 2 1 x2 
 ( xi  x )2  i
ˆ 
2
et ˆ  ˆ  
2 2
2 
 n ( x  x ) 
b1 b0

Dans l’exemple 10.1, on vérifiera que ̂ 2  162,36 ,


ˆ b1  14,36 et ˆ b0  0,7767.

302
Distribution des statistiques de tests
b1 1
Nous avons montré que Z1 = ~ N (0 ; 1) et que
b1
b0 0
Zo = ~ N(0 ; 1). Lorsqu’on remplace les écarts-
b0

types aux dénominateurs par leurs estimations, les


variables qui en résultent suivent des lois de Student à
n  2 degrés de liberté:

b1 1
T1  ~ tn  2
ˆ b1

et
b0 0
T0  ~ tn  2 .
ˆ b0

303
10.4 Inférence statistique; intervalles de confiance et
tests d’hypothèse

En utilisant les résultats de la section 10.3, on peut


construire des intervalles de confiance à 100(1-) %
pour 0 et 1 et on obtient :

b0  tn2; /2 ˆ b0  0  b0  tn 2; /2 ˆ b0

et
b1  tn 2; /2 ˆ b1  1  b1  tn 2; /2 ˆ b1

où tn-2;/2 est le point critique correspondant à une loi de


student à n-2 degrés de liberté.

304
Dans l’exemple 10.1, les intervalles de confiance à 95%
pour 0 et 1 sont respectivement donnés par :

217,7  2,12 14,46 = (187,04;248,35)

et

0,7717  2,12 0,1779 = (0,394;1,148)

On conclut que l’ordonnée à l’origine ne passe pas par 0


et que la pente de la droite est non-nulle.

305
On peut également tester des hypothèses concernant les
paramètres 0 et 1. On sera presque toujours intéressé à
teste l’hypothèse que 1  0. En effet, si on rejette

l’hypothèse que β1  0 et on conclut que β1  0 , cela veut


dire que la pente de la droite est significativement
différente de 0 et il y a donc une relation entre les
variables y et x. Dans le contexte de l’exemple 10.1, le
modèle sera donc utile si l’on cherche à prédire le taux
de cholestérol d’un individu au moyen de son poids. Si
on ne rejette pas l’hypothèse que β1  0 , alors on ne peut
conclure qu’il y a une dépendance entre y et x et le
modèle est à toutes fins pratiques inutile car il ne
permettra pas de prédire le taux de de cholestérol d’un
individu au moyen de son poids.

Dans certaines situations, on peut être intéressé à tester


l’hypothèse β 0  0 . Autrement dit, on peut vouloir tester
si la relation passe ou pas par l’origine.

306
Les tests d'hypothèses pour 1 et β 0 se font de la même
façon que les tests pour une moyenne µ.

Si on cherche à tester
Ho : 1 = c
vs
HA : 1  c

où c est une constante donnée (le plus souvent c = 0),


alors on rejettera Ho si

b1  c
 tn 2;/2
ˆ b1

307
De même, si on cherche à tester
Ho : 0 = c
vs
HA : 0  c

alors on rejettera Ho si

b0  c
 tn 2;/2 .
ˆ b0

Dans l’exemple 10.1, les chercheurs affirment que le poids


et le taux de cholestérol sont liés. On cherche donc à tester

Ho : 1 = 0
vs
HA : 1  0

L’hypothèse nulle revient à tester que le poids et le taux


de cholestérol sont deux variables indépendantes.

b1  0
Après calculs, on trouve que = 4,37 et puisque
ˆ b1
t16;0.025  2,12, on rejette H0 et on conclut que le poids et
le taux de cholestérol sont liés.

308
10.5 Intervalles de confiance pour E(y) et limites de
prédiction

En pratique, on peut vouloir estimer E ( y )   y  0 +


1x qui représente la moyenne des y qui correspondent à
une valeur donnée de x, disons x*. On estimera
naturellement  y par et

ˆ y  b0  b1 x*

La variance de cet estimateur est donnée par

 
 1 ( x *
 x ) 2 
2ˆ y   2   n .
n
 
i 1
( xi  x ) 2


Cette variance est estimée par

 
 1 ( x *
 x ) 2 
ˆ 2ˆ x  ˆ 2   n .
n
 
i 1
( xi  x ) 2


309
Un intervalle de confiance à 100(1-)% pour  y est
donné par

ˆ y  tn 2; / 2 ˆ ˆ y   y ˆ y  tn 2; /2 ˆ ˆ y

Dans l’exemple 10.1, on peut vouloir construire un


intervalle de confiance pour estimer le taux de
cholestérol moyen pour les individus dont le poids est de
x* = 64 kg. Après calculs, on obtient l’intervalle

(258,54;275,82)

Limites de prédiction

Notez bien que l'intervalle ci-dessus est un intervalle de


confiance pour la moyenne des y qui correspondent à une
valeur donnée x*. On peut affirmer, avec 100(1-)% de
confiance, que cette moyenne satisfait les inégalités
suivantes:
ˆ y  tn 2; / 2 ˆ ˆ y   y ˆ y  tn 2; /2 ˆ ˆ y

310
Mais on ne prétend pas que la probabilité est 1- que le
prochain y qui correspond à x* se situera entre ces deux
bornes. Pour déterminer des bornes dans lesquelles une
valeur future de y se trouvera avec une probabilité de 1 -
, nous procédons de la façon suivante. Si y x* est la

future observation qui correspond à la valeur x*, notre


prédiction de y x* sera identique à notre estimation ˆ y de

la moyenne au point x*. L'écart y x*   y - satisfait

E( y x*   y ) = 0
et

 
Var y x*  ˆ y = Var( y x* ) + Var ( ˆ y ).

311
La variance Var( y x* ) =  2 est estimée par ̂ 2 et

Var( ˆ y ) est estimée par la formule donnée plus haut.


Donc

 
 1 ( x*  x ) 2 
ˆ 2y * ˆ y  ˆ  ˆ   n 

2 2

n ( xi  x ) 2 

x

 i 1 
 
 1 ( x*  x ) 2 
 ˆ  1  n 

2

 n
( x  x ) 2 
 
 
i
i 1

Les limites de prédiction à 100(1-)% sont

ˆ y  tn 2; /2 ˆ y * ˆ y  yx*  ˆ y  tn 2; /2 ˆ y * ˆ y


x x

Là on peut affirmer avec 100(1-)% de sécurité que la


prochaine observation se situera entre les deux bornes.

312
Dans l’exemple 10.1, supposons que le prochain individu
entrant dans le bureau d’un médecin pèse 64 kg. Alors,
après calculs, on peut affirmer avec 95% de sécurité que
cette observation se situera entre les bornes

(238,82;295,54)

10.6 Coefficient de corrélation

Dans cette section, nous revenons sur la notion de


coefficient de corrélation r vu au chapitre 1.

 i
n
La somme des carrés ( y  y ) 2
, que nous appelons
i 1

« somme des carrés totale » et dénotons par SCT est une


mesure de la dispersion totale des y, indépendamment
des x. Cette somme de carrés peut être décomposée en
deux parties.

313
 i
n
La première, ( y
ˆ  y ) 2
, appelée « somme des carrés
i 1

expliquée » et notée SCE, est la partie de la dispersion


des y qui est attribuable à la dispersion des x, donc
« expliquée » par x.

 i i , appelée « somme des carrés


n
La deuxième, ( y  ˆ
y ) 2

i 1

résiduelle » et notée SCR, est la partie de la dispersion


totale des y que l'on ne peut pas attribuer aux variations
des x. Nous avons donc :

 ( y  y )   ( yˆ  y )   ( yi  yˆi ) 2
n n n
2 2
i i
i 1 i 1 i 1
SCT = SCE + SCR

314
Graphiquement, SCE est la somme des carrés des
distances verticales entre les points sur la droite des
moindres carrés ŷ  b0  b1 x et les points sur la droite
horizontale y = y . Cette somme de carrés a tendance à
être petite si la droite des moindres carrés s'approche
d'une droite horizontale, c'est-à-dire, si les données ne
témoignent pas d'une forte dépendance entre y et x. SCR
est la somme des distances verticales entre les points du
nuage et la droite des moindres carrés. Cette somme de
carrés a tendance à être petite si les points sont
rapprochés de la droite des moindres carrés, cas où la dé-
pendance entre y et x est forte.

315
Remarques

1. SCR et ̂ 2 sont liés par la relation suivante:

̂ 2 = SCR/(n-2)
Donc SCR petit signifie que les yi ont tendance à être
peu dispersés par rapport à leur moyenne

 o +  1x i ,
ce qui se manifeste dans l'échantillon par un
nuage de points rapproché de la droite des
moindres carrés. Nous avons aussi la relation
suivante entre ̂1 et SCR :

SCR   ( yi  y )  b  i
n n
2
1
2
( x  x ) 2
.
i 1 i 1

2. SCE et b1 sont liés par la relation suivante :

 (x  x ) .
n
SCE = b 1
2
i
2

i 1

Donc SCE petit signifie que | b1 | est petit, et par


conséquent que la droite est près d'être horizontale.

316
Relation entre b1 et le coefficient de corrélation

Le coefficient de corrélation


n
(xi - x )(yi - y )
S xy
r= = i 1

 ( xi  x )  i
Sx Sx n n
2
( y  y ) 2

i 1 i 1

satisfait toujours |r| ≤ 1 et |r| = 1 si et seulement si


yi = a + bxi pour un certain a pour i = 1, ... , n.
Donc les valeurs r = 1 et r = -1 dénotent une corrélation
linéaire parfaite entre les xi et les yi.

En comparant les expressions de b1 et de r, on constate que r et


b1 sont de même signe et que r = 0 <=> b1 = 0. Nous avons la
relation suivante :
Sx S
r  b1 , et donc b1  r y
Sy Sx

317
Donc r > 0 si et seulement si la droite des moindres
carrés est de pente positive, et r = 0 si et seulement si la
droite des moindres carrés est horizontale. Pour interpré-
ter les valeurs intermédiaires de r, nous avons l'égalité
suivante :
r = SCE/SCT
2

Donc r est la proportion de la dispersion des y qui est


2

expliquée par la dispersion des x.

Dans l’exemple 10.1, on trouve après calculs :


r 2  0,544, ce qui indique que la relation entre le poids et
le taux de cholestérol est relativement forte.

318
Revenons à l’exemple 10.1 et demandons à un logiciel
statistique (par exemple, MINITAB) d’effectuer
l’analyse de régression avec comme variable dépendante
le taux de cholestérol et comme variable indépendante, le
poids.

La plupart des logiciels fourniront alors un tableau très


similaire à celui exhibé ci-dessous :

Regression Analysis: Taux de cholestérol versus Poids

The regression equation is


Taux de cholestérol = 217 + 0,777 Poids

Predictor Coef SE Coef T P


Constant 217,47 14,46 15,04 0,000
Poids 0,7767 0,1779 4,37 0,000

S = 12.7423 R-Sq = 54,4% R-Sq(adj) = 51,5%

Analysis of Variance

Source DF SS MS F P
Regression 1 3095,3 3095,3 19,06 0,000
Residual Error 16 2597,9 162,4
Total 17 5693,1
319
Comment interpréter tous ces nombres?

320
321
Annexe A : Aire pour la loi normale
Note : Un nombre dans la table correspond à l’aire sous la courbe à gauche. Exemple : Si X ~ N (0,1), P(X  1,25)
= 0,8944.
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,00 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,10 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,20 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,30 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,40 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,50 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,60 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,70 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,80 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,90 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,00 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,10 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,20 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,30 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,40 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,50 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,60 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,70 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,80 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,90 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,00 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,10 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,20 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,30 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,40 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,50 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,60 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,70 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,80 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,90 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,00 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,10 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,20 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,30 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,40 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,50 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
3,60 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,70 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,80 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,90 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
4,00 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

322
Annexe B : Table de la loi khi-deux
Chaque case donne la valeur x pour laquelle P(X  x) = p lorsque X est de loi 2 à  degrés de liberté 2 .
Exemple : Si X ~ 52 , P(X  1,610) = 0,1.

P
 0,010 0,025 0,05 0,1 0,9 0,95 0,975 0,99
1 0,000 0,001 0,004 0,016 2,706 3,841 5,024 6,635
2 0,020 0,051 0,103 0,211 4,605 5,991 7,378 9,210
3 0,115 0,216 0,352 0,584 6,251 7,815 9,348 11,345
4 0,297 0,484 0,711 1,064 7,779 9,488 11,143 13,277
5 0,554 0,831 1,145 1,610 9,236 11,070 12,833 15,086
6 0,872 1,237 1,635 2,204 10,645 12,592 14,449 16,812
7 1,239 1,690 2,167 2,833 12,017 14,067 16,013 18,475
8 1,646 2,180 2,733 3,490 13,362 15,507 17,535 20,090
9 2,088 2,700 3,325 4,168 14,684 16,919 19,023 21,666
10 2,558 3,247 3,940 4,865 15,987 18,307 20,483 23,209
11 3,053 3,816 4,575 5,578 17,275 19,675 21,920 24,725
12 3,571 4,404 5,226 6,304 18,549 21,026 23,337 26,217
13 4,107 5,009 5,892 7,042 19,812 22,362 24,736 27,688
14 4,660 5,629 6,571 7,790 21,064 23,685 26,119 29,141
15 5,229 6,262 7,261 8,547 22,307 24,996 27,488 30,578
16 5,812 6,908 7,962 9,312 23,542 26,296 28,845 32,000
17 6,408 7,564 8,672 10,085 24,769 27,587 30,191 33,409
18 7,015 8,231 9,390 10,865 25,989 28,869 31,526 34,805
19 7,633 8,907 10,117 11,651 27,204 30,144 32,852 36,191
20 8,260 9,591 10,851 12,443 28,412 31,410 34,170 37,566
21 8,897 10,283 11,591 13,240 29,615 32,671 35,479 38,932
22 9,542 10,982 12,338 14,041 30,813 33,924 36,781 40,289
23 10,196 11,689 13,091 14,848 32,007 35,172 38,076 41,638
24 10,856 12,401 13,848 15,659 33,196 36,415 39,364 42,980
25 11,524 13,120 14,611 16,473 34,382 37,652 40,646 44,314
26 12,198 13,844 15,379 17,292 35,563 38,885 41,923 45,642
27 12,879 14,573 16,151 18,114 36,741 40,113 43,195 46,963
28 13,565 15,308 16,928 18,939 37,916 41,337 44,461 48,278
29 14,256 16,047 17,708 19,768 39,087 42,557 45,722 49,588
30 14,953 16,791 18,493 20,599 40,256 43,773 46,979 50,892

323
Annexe C : Table de la loi de Student
Chaque case donne la valeur x pour laquelle P(X  x) = p lorsque X est de loi de Student à  degrés de liberté : t
Exemple : Si X ~ t14, P(X  1,07628) = 0,15.
p : Surface à droite
 0,25 0,2 0,15 0,10 0,05 0,025 0,01 0,005
1 1,00000 1,37638 1,96261 3,07768 6,31375 12,70620 31,82052 63,65674
2 0,81650 1,06066 1,38621 1,88562 2,91999 4,30265 6,96456 9,92484
3 0,76489 0,97847 1,24978 1,63774 2,35336 3,18245 4,54070 5,84091
4 0,74070 0,94096 1,18957 1,53321 2,13185 2,77645 3,74695 4,60409
5 0,72669 0,91954 1,15577 1,47588 2,01505 2,57058 3,36493 4,03214
6 0,71756 0,90570 1,13416 1,43976 1,94318 2,44691 3,14267 3,70743
7 0,71114 0,89603 1,11916 1,41492 1,89458 2,36462 2,99795 3,49948
8 0,70639 0,88889 1,10815 1,39682 1,85955 2,30600 2,89646 3,35539
9 0,70272 0,88340 1,09972 1,38303 1,83311 2,26216 2,82144 3,24984
10 0,69981 0,87906 1,09306 1,37218 1,81246 2,22814 2,76377 3,16927
11 0,69745 0,87553 1,08767 1,36343 1,79588 2,20099 2,71808 3,10581
12 0,69548 0,87261 1,08321 1,35622 1,78229 2,17881 2,68100 3,05454
13 0,69383 0,87015 1,07947 1,35017 1,77093 2,16037 2,65031 3,01228
14 0,69242 0,86805 1,07628 1,34503 1,76131 2,14479 2,62449 2,97684
15 0,69120 0,86624 1,07353 1,34061 1,75305 2,13145 2,60248 2,94671
16 0,69013 0,86467 1,07114 1,33676 1,74588 2,11991 2,58349 2,92078
17 0,68920 0,86328 1,06903 1,33338 1,73961 2,10982 2,56693 2,89823
18 0,68836 0,86205 1,06717 1,33039 1,73406 2,10092 2,55238 2,87844
19 0,68762 0,86095 1,06551 1,32773 1,72913 2,09302 2,53948 2,86093
20 0,68695 0,85996 1,06402 1,32534 1,72472 2,08596 2,52798 2,84534
21 0,68635 0,85907 1,06267 1,32319 1,72074 2,07961 2,51765 2,83136
22 0,68581 0,85827 1,06145 1,32124 1,71714 2,07387 2,50832 2,81876
23 0,68531 0,85753 1,06034 1,31946 1,71387 2,06866 2,49987 2,80734
24 0,68485 0,85686 1,05932 1,31784 1,71088 2,06390 2,49216 2,79694
25 0,68443 0,85624 1,05838 1,31635 1,70814 2,05954 2,48511 2,78744
26 0,68404 0,85567 1,05752 1,31497 1,70562 2,05553 2,47863 2,77871
27 0,68368 0,85514 1,05673 1,31370 1,70329 2,05183 2,47266 2,77068
28 0,68335 0,85465 1,05599 1,31253 1,70113 2,04841 2,46714 2,76326
29 0,68304 0,85419 1,05530 1,31143 1,69913 2,04523 2,46202 2,75639
30 0,68276 0,85377 1,05466 1,31042 1,69726 2,04227 2,45726 2,75000
35 0,68156 0,85201 1,05202 1,30621 1,68957 2,03011 2,43772 2,72381
40 0,68067 0,85070 1,05005 1,30308 1,68385 2,02108 2,42326 2,70446
50 0,67943 0,84887 1,04729 1,29871 1,67591 2,00856 2,40327 2,67779
60 0,67860 0,84765 1,04547 1,29582 1,67065 2,00030 2,39012 2,66028
70 0,67801 0,84679 1,04417 1,29376 1,66691 1,99444 2,38081 2,64790
80 0,67757 0,84614 1,04320 1,29222 1,66412 1,99006 2,37387 2,63869
90 0,67723 0,84563 1,04244 1,29103 1,66196 1,98667 2,36850 2,63157
100 0,67695 0,84523 1,04184 1,29007 1,66023 1,98397 2,36422 2,62589
Annexe D : Rappels sur les ensembles

Concepts de base

Définition 1: Un ensemble A est une collection d’objets. Les objets sont appelés éléments.

Notation : On écrit p  A (et on lit : "p appartient à A") si p est un élément de A.

Exemple: N  0,1,2,3,4,... est l’ensemble des entiers naturels.


On a 1  N, 4  N mais -2  N.

Définition 2 : Soient A et B deux ensembles. Si chaque élément de A est également un


élément de B, alors A est un sous-ensemble de B. On écrit A  B (et on lit « A est inclus dans
B »).

Exemple : Soit B  Ν  0,1,2,3,... et A  0,2,4,6,8.... Il est clair que A  B .

Remarques :

1) Si A  B et B  A , alors A  B .
2) La négation de p  A , A  B , A  B est p  A , A  B , A  B, respectivement.

Définition 3 : Dans le contexte de la théorie des probabilités, tous les ensembles considérés
sont des sous-ensembles d’un ensemble universel que l’on désigne par  . L’ensemble vide
qui est l’ensemble ne contenant aucun élément est désigné par .

Opérations dans les ensembles :

(a) Union : Soient A et B deux ensembles. L’union de A et B est l’ensemble des éléments
qui appartiennent à A ou à B. On désigne l’union de A et B par A  B . On dira que
x  A  B si x appartient à au moins l’un des deux ensembles A et B.

A B 

A B

325
Remarque : La figure ci-dessus est appelée diagramme de Venn.

Exemples :

1) Soient A  1,2,3,4 et B  2,4,5,6. Alors A  B  1,2,3,4,5,6 .


2) Soit A l’ensemble des individus aux cheveux blonds; soit B l’ensemble des individus
aux cheveux bruns. Alors A  B est l’ensemble des individus qui ont les cheveux
blonds ou les cheveux bruns.

(b) Intersection : Soient A and B deux ensembles. L’intersection de A et B est l’ensemble


des éléments qui appartiennent à A et à B. On désigne l’intersection de A et B par A  B .

A B 
A B

Exemples :

1) Soit A  1,2,3,4 et B  2,4,5,6. Alors, A  B  2, 4 .

2) Soit A  1,3,5,7,... et B  0,2,4,6,8,.... Alors A  B   .

Remarque : Si A  B   , on dit que A et B sont mutuellement exclusifs ou disjoints ou


incompatibles. Dans ce cas, le diagramme de Venn est le suivant :

A B 

326
Annexe E : Rappels sur les sommations

Soient a1 ,..., an n nombres réels; soient b1 ,..., bn n nombres réels; soit c un nombre réel.

a
n
(i) i  a1  ...  an .
i 1

 cai  ca1  ...  can  c(a1  ...  an )  c ai .


n n
(ii)
i 1 i 1

 c  c  ...  c  nc.
n
(iii)
i 1

 (ai  bi )  (a1  b1 )  ...  (an  bn )  (a1  ...  an )  (b1  ...  bn )   ai   bi .


n n n
(iv)
i 1 i 1 i 1

 (a  b )  (a  b )  ...  (a n  bn )  ( a1  ...  an )  (b1  ...  bn )   ai   bi .


n n n
(v) i i 1 1
i 1 i 1 i 1

 (a  c)  (a  c)  ...  (a  c)  (a1  ...  an )  nc   ai  nc.


n n
(vi) i 1 n
i 1 i 1

 (a a  nc 2  2c  ai .
n n n
(vii) i  c) 2  (a1  c)2  ...  (an  c)2  ( a12  c 2  2a1c)  ...  (an2  c 2  2an c) = 2
i
i 1 i 1 i 1

327
Annexe F : Rappels sur le concept de valeur absolue

Pour tout nombre réel x , la valeur absolue de x (notée x ) est définie par :

x  x si x  0;
x   x si x  0;
x  0 si x  0.

Remarque : x  max( x,  x).

Propriétés : Soit x un nombre réel et a et b deux nombres réels strictement positif.

(i) x  b si et seulement si b  x  b.
(ii) x  b si et seulement si x  b ou x  b.
(iii) x  a  b si et seulement si a  b  x  a  b.
(iv) x  a  b si et seulement si x  a  b ou x  a  b.

Remarque : Si on pose a  0 dans (iii) et (iv), on retombe sur (i) et (ii), respectivement.

328

Vous aimerez peut-être aussi