0% ont trouvé ce document utile (0 vote)
22 vues121 pages

Notes de cours en Statistique

Transféré par

frejusbouabi24
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
22 vues121 pages

Notes de cours en Statistique

Transféré par

frejusbouabi24
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Statistique

Anne Gégout-Petit
Master 1 IMOI
Université de Lorraine

7 mai 2019
2

Ce document contient des notes de cours de Statistique du master de mathématique de


l’Université de Lorraine. Il s’inspire en partie du cours de Vilijandas Bagdonavicius assuré à
l’Université Bordeaux Segalen il y a quelques années, des cours "Statistique inférentielle" et
"Tests statistiques" que je donnais à l’Institut de Santé Publique de la même université, des
cours de "statistique mathématique" du master MIMSE de Bordeaux , revus et corrigés par
Delphine Féral ou encore ceux d’économétrie en L3 MASS de l’UFR Sciences et Modélisation.
J’ai aussi consulté d’excellents livres comme celui de G. Stoltz et V. Rivoirard [8] qui donne
une vision large de la statistique ou encore [2] et [3] pour les modèles de régression, [1]
pour le traitement des variables qualitatives (χ2 et regression logistique). Lebart et al. [4]
et Saporta [6] sont des incontournables pour l’analyse des données. Ces notes, relues par
Clémence Karmann que je remercie, sont partielles et contiennent très certainement des
coquilles, fautes de frappe et autres inexactitudes dont je suis la seule responsable mais que
vous pouvez me signaler.
Table des matières

1 Statistique descriptive 7
1.1 Description univariée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.1 Les tableaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.2 Les représentations graphiques . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Description des variables quantitatives . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1 Distribution empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.2 Les caractéristiques de tendance centrale . . . . . . . . . . . . . . . . . 8
1.2.3 Caractéristiques de dispersion . . . . . . . . . . . . . . . . . . . . . . . 9

2 Estimation paramétrique 13
2.1 Modèle statistique : généralités . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Modèle paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.1 Hypothèses sur les lois de probabilité Pθ . . . . . . . . . . . . . . . . . 15
2.2.2 Loi et densité conjointes de l’échantillon (X1 , . . . , Xn ) . . . . . . . . . 15
2.3 Statistique et estimateur : définitions . . . . . . . . . . . . . . . . . . . . . . . 15
2.4 Deux méthodes usuelles d’estimation . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.1 La méthode des moments . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.2 La méthode du maximum de vraisemblance . . . . . . . . . . . . . . . 18
2.4.3 Détermination pratique de l’E.M.V . . . . . . . . . . . . . . . . . . . . 19
2.5 Quelques propriétés générales sur les estimateurs . . . . . . . . . . . . . . . . 21
2.5.1 Biais d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.5.2 Risque quadratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.5.3 Estimateur convergent . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.5.4 Compléments sur le modèle gaussien . . . . . . . . . . . . . . . . . . . 25
2.6 Statistique exhaustive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.7 Choix d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.7.1 Borne FDCR et estimateur efficace . . . . . . . . . . . . . . . . . . . . 29
2.7.2 Score et information de Fisher . . . . . . . . . . . . . . . . . . . . . . 29
2.7.3 Borne FDCR et efficacité . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.7.4 Compléments : Généralisation au cas multi-dimensionnel . . . . . . . . 34
2.7.5 La classe exponentielle de lois . . . . . . . . . . . . . . . . . . . . . . . 35
2.8 Normalité asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.8.1 Normalité Asymptotique de l’E.M.V. . . . . . . . . . . . . . . . . . . . 36
2.8.2 Un autre exemple de normalité asymptotique : la méthode delta . . . 39

3
4 TABLE DES MATIÈRES

2.9 Estimation par intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . 39


2.9.1 Les intervalles de confiances dans le modèle gaussien . . . . . . . . . . 41

3 Tests d’hypothèses statistiques 43


3.1 Aspects théoriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.1.1 Notion d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.1.2 Notion de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.1.3 Risques d’erreur dans un test . . . . . . . . . . . . . . . . . . . . . . . 45
3.1.4 Tests paramétriques et tests non paramétriques . . . . . . . . . . . . . 47
3.1.5 Optimalité des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.1.6 La p-valeur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.2 Tests d’hypothèses pour un échantillon . . . . . . . . . . . . . . . . . . . . . . 48
3.2.1 Hypothèses paramétriques simples, le test du rapport de vraisemblance 49
3.2.2 Hypothèses multiples, le test du rapport de vraisemblance généralisé . 50
3.3 Tests paramétriques usuels . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.3.1 Cas d’un échantillon, les tests d’ajustement . . . . . . . . . . . . . . . 52
3.3.2 Test de comparaison de deux échantillons . . . . . . . . . . . . . . . . 53

4 Tests non paramétriques 57


4.1 Le lemme de Pearson et les autres convergences vers la loi du Chi-Deux . . . 57
4.1.1 Le lemme de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.1.2 Le test du chi-deux d’ajustement. . . . . . . . . . . . . . . . . . . . . . 57
4.1.3 Convergence après estimation de paramètres . . . . . . . . . . . . . . 58
4.1.4 Application : le test du chi-deux d’indépendance . . . . . . . . . . . . 59
4.1.5 Application : le test du chi-deux d’homogénéité . . . . . . . . . . . . . 61
4.1.6 Application : Test de la médiane . . . . . . . . . . . . . . . . . . . . . 61
4.1.7 Test exact de Fischer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.2 La fonction de répartition empirique . . . . . . . . . . . . . . . . . . . . . . . 63
4.2.1 Test de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.2.2 Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . 65
4.2.3 Le test de Cramer-von Mises . . . . . . . . . . . . . . . . . . . . . . . 65
4.2.4 Paramètres de nuisance . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.3 Les statistiques d’ordre et de rang . . . . . . . . . . . . . . . . . . . . . . . . 66
4.3.1 Quelques résultats mathématiques . . . . . . . . . . . . . . . . . . . . 66
4.3.2 Application : le test de Wilcoxon-Mann-Withney . . . . . . . . . . . . 67
4.3.3 Application : le test de Wilcoxon-Mann-Withney pour séries appariées 68
4.3.4 Le test des signes pour séries appariées . . . . . . . . . . . . . . . . . . 69

5 Régression linéaire 71
5.1 Le modèle de régression simple . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.1.1 L’estimateurs des moindres carrés de β . . . . . . . . . . . . . . . . . 72
5.1.2 Décomposition de la variance . . . . . . . . . . . . . . . . . . . . . . . 73
5.1.3 L’estimation de la variance des erreurs . . . . . . . . . . . . . . . . . . 73
5.1.4 Test sur les coefficients du modèle . . . . . . . . . . . . . . . . . . . . 74
5.1.5 Coefficient de détermination . . . . . . . . . . . . . . . . . . . . . . . . 75
TABLE DES MATIÈRES 5

5.1.6 Intervalle de prévision . . . . . . . . . . . . . . . . . . . . . . . . . . . 75


5.2 Le modèle de régression multiple . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.2.1 L’estimateurs des moindres carrés de β . . . . . . . . . . . . . . . . . 77
5.2.2 L’estimation de la variance des erreurs . . . . . . . . . . . . . . . . . . 78
5.2.3 Estimateur du maximum de vraisemblance . . . . . . . . . . . . . . . 79
5.2.4 Test sur les coefficients du modèle . . . . . . . . . . . . . . . . . . . . 79
5.2.5 Sous modèles et décomposition de la variance . . . . . . . . . . . . . . 80
5.2.6 Coefficient de détermination . . . . . . . . . . . . . . . . . . . . . . . . 81
5.2.7 Intervalle de prévision . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.3 Validation du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.3.1 Analyse des résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.3.2 Choix de covariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.3.3 Extension aux variables qualitatives . . . . . . . . . . . . . . . . . . . 84

6 Régression logistique 85
6.1 Le modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6.1.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6.1.2 Modèle et interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6.1.3 Estimation des paramètres, tests associés . . . . . . . . . . . . . . . . 86
6.2 Adéquation du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6.2.1 Cas J << n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
6.2.2 Test d’Hosmer Lemeshow . . . . . . . . . . . . . . . . . . . . . . . . . 88
6.2.3 Pouvoir prédictif : Courbe ROC . . . . . . . . . . . . . . . . . . . . . 89

7 Méthodes bootstrap 91
7.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
7.2 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
7.3 Approximation de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
7.4 Approximation du biais d’un estimateur . . . . . . . . . . . . . . . . . . . . . 92
7.5 Intervalle de confiance de θ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
7.5.1 Intervalles de confiance empiriques . . . . . . . . . . . . . . . . . . . . 92
7.5.2 Intervalle de confiance corrigé du biais . . . . . . . . . . . . . . . . . . 92
7.6 Tests de permutation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
7.6.1 Comparaison de la distribution de deux échantillons . . . . . . . . . . 93
7.6.2 Comparaison de la moyenne de deux échantillons . . . . . . . . . . . . 93
7.6.3 Comparaison d’une moyenne observée et d’une moyenne théorique . . 94
7.7 Autres usages du bootstrap ou des tests de permutations . . . . . . . . . . . . 94

8 Analyse de données quantitatives 95


8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
8.2 Variables quantitatives et algèbre linéaire . . . . . . . . . . . . . . . . . . . . 96
8.2.1 Nuage des n points individus . . . . . . . . . . . . . . . . . . . . . . . 96
8.2.2 Centre de gravité du nuage des individus pondérés. . . . . . . . . . . 97
8.2.3 Nuage des p points variables . . . . . . . . . . . . . . . . . . . . . . . 97
8.2.4 Métriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
6 TABLE DES MATIÈRES

8.3 Analyse en Composantes principales (ACP) . . . . . . . . . . . . . . . . . . . 99


8.3.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
8.3.2 Coordonnée factorielles . . . . . . . . . . . . . . . . . . . . . . . . . . 100
8.3.3 Maximisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
8.3.4 Composantes Principales . . . . . . . . . . . . . . . . . . . . . . . . . 101
8.3.5 Formule de reconstitution . . . . . . . . . . . . . . . . . . . . . . . . . 102
8.3.6 Analyse du nuage des p points variables de Rn . . . . . . . . . . . . . 102
8.3.7 Lien avec la décomposition SVD . . . . . . . . . . . . . . . . . . . . . 103
8.3.8 ACP avec métriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
8.3.9 Réduction de la dimension . . . . . . . . . . . . . . . . . . . . . . . . . 104
8.3.10 Qualité de représentation sur les plans principaux . . . . . . . . . . . 104
8.3.11 Interprétation des résultats d’une ACP . . . . . . . . . . . . . . . . . . 106
8.3.12 Interprétation externe : variables et individus supplémentaires . . . . . 108
8.3.13 Notion de valeur-test . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
8.4 Analyse des correspondances . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
8.4.1 Notations, métrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
8.4.2 Analyse en composantes principales des nuages de profils-lignes . . . . 110
8.4.3 Analyse en composantes principales des nuages de profils-colonnes . . 110
8.4.4 Analyse des résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
8.5 Analyse des correspondances multiples . . . . . . . . . . . . . . . . . . . . . . 113
8.5.1 Inertie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
8.5.2 Coordonnées des individus . . . . . . . . . . . . . . . . . . . . . . . . . 114
8.5.3 Formule de transition . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
8.5.4 Interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
8.6 Autres méthodes factorielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
8.7 Classification non supervisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
8.7.1 Classification par nuées dynamiques (K-means) . . . . . . . . . . . . . 115
8.7.2 Classification Ascendante Hiérarchique . . . . . . . . . . . . . . . . . . 115
8.7.3 Classification mixte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
8.7.4 Analyse de la classification . . . . . . . . . . . . . . . . . . . . . . . . 116

9 Annexes 117
9.1 Lois usuelles et résultats mathématiques . . . . . . . . . . . . . . . . . . . . . 117

10 Références 119
Chapitre 1

Statistique descriptive

L’objet de cette section est de donner les outils de description d’une série statistique
observée (xi ){1≤i≤n} . Les outils dépendent du caractère de la variable, celui-ci étant qualita-
tif, quantitatif discret ou quantitatif continu. Lorsque la variable est quantitative on notera
(x(1) , x(2) , . . . , x(n) ) l’échantillon ordonné correspondant : (x(1) ≤ x(2) ≤ . . . ≤ x(n) ). En cas
d’exaeco, il y a plusieurs échantillons possibles le choix de l’un ou l’autre d’entre eux ne
changera pas les définitions ci-dessous.

1.1 Description univariée


1.1.1 Les tableaux
On présente la loi empirique sous forme de tableau donnant l’effectif observé pour chaque
modalité et éventuellement la fréquence correspondante
On obtient par exemple

Nombre d’enfants 1 2 3 4 ≥ 5 Total


Effectif 335 280 109 200 210
Fréquence
P
On note ni le nombre d’occurrences de la modalités xi . On a ni = n. on note fi = ni /n la
fréquence et on présente le plus souvent 100fi .

Variables quantitatives continues On regroupe les valeurs de la variable en K classes et


on traite la variable regroupée en classes comme une variable qualitative.

1.1.2 Les représentations graphiques

Variables qualitatives ou quantitatives discrètes On peut utiliser un diagramme en


bâton pour les deux types de variables, le principe est que la hauteur du bâton pour une
modalité xi est proportionnelle à l’effectif ni . Pour les variables qualitatives, on peut aussi
utiliser un diagramme circulaire, le principe cette fois est la proportionnalité de l’angle au
P
centre αi du secteur correspondant à la modalité xi avec ni . On a bien sûr αi = 2π.

7
8 CHAPITRE 1. STATISTIQUE DESCRIPTIVE

Variables quantitatives continues Cette fois-ci, on utilise un histogramme (à la différence


du diagramme en bâton, les rectangles se touchent). C’est la surface du rectangle qui est
proportionnelle à l’effectif de la classe. Donc si les classes ont des amplitudes égales, la hauteur
est proportionnelle à l’effectif. Si les amplitudes notées ai ne sont pas égales, la hauteur est
proportionnelle à ni /ai .
On obtient par exemple

Classes [e0 , e1 [ . . . [ej−1 , ej [ . . . [eK−1 , eK [ Total


Effectif n1 nj nK n
(1.1)
Fréquence nj /n
Densité nj /(n(ej − ej−1 ))

1.2 Description des variables quantitatives


1.2.1 Distribution empirique
Si on dispose d’un échantillon statistique (xi )1≤i≤n la distribution empirique est donnée
par la fonction de répartition empirique
n
1X
Fn (t) = 1
n i=1 {xi ≤t}

Cette fonction est une fonction en escalier, continue à droite, qui présente des points de
discontinuité en xi et dont les limites respectives en −∞ et ∞ sont 0 et 1.
Si on ne dispose que de la distribution en classe comme dans (1.1), on va représenter la
fonction de répartition aux points (ei )0≤i≤K par Fn (e0 ) = 0 et Fn (ei ) = n1 ik=1 nk
P

et on complète par une interpolation linéaire :


Fn (ei ) − Fn (ei−1 )
∀t ∈ [ei−1 , ei [, Fn (t) = Fn (ei−1 ) + (t − ei−1 )
ei − ei−1

1.2.2 Les caractéristiques de tendance centrale


On s’intéresse exclusivement aux variables quantitatives (discrètes ou continues).

La médiane La valeur m est la médiane de l’échantillon (xi )1≤i≤n , si elle vérifie Fn (m) = 0, 5
où F est la fonction de répartition empirique.
Comme la fonction de répartition Fn n’est pas continue, parfois cette valeur n’existe pas.
x +x
C’est le cas quand n est pair et on prend m = (n/2) 2 (n+1/2) , si n est impair, la valeur existe
et vaut x((n+1)/2) .

Lorsque l’on ne dispose que de valeurs regroupées en classe, on utilise Fn complétée


par interpolation linéaire. La médiane existe, mais comme dans le cas n pair, ce n’est pas
forcément une valeur prise par la série.

Le mode Le mode est la valeur du paramètre le plus représenté. Pour une variables quali-
tative ou une quantitative discrète, c’est la modalité mi qui correspond au ni le plus élevé.
1.2. DESCRIPTION DES VARIABLES QUANTITATIVES 9

Il peut y avoir plusieurs modes. Dans le cas d’une variable regroupée en classe, on parle de
classe modale.

La moyenne
Cas discret à partir des données de la distribution donnée par exemple dans le tableau

X x1 . . . xj . . . xK Total
(1.2)
Effectif n1 nj nK n
K
1X
x̄n = ni xi
n i=1

A partir de l’échantillon brut (xi )1≤i≤n :


n
1X
x̄n = xi
n i=1

Estimation de la moyenne à partir d’un regroupement en classe, on fait la moyenne pon-


dérée des centres des classes :
n
1X ei + ei−1
x̄n = ni
n i=1 2
Lorsque la dernière classe n’est pas un intervalle fini, il faut proposer une valeur qui a un
sens.

Proposition 1 Lorsque l’on connait la moyenne x̄an d’un échantillon de taille n (xai )1≤i≤n
et celle x¯b m d’un échantillon de taille m (xbi )1≤i≤m , la moyenne de l’échantillon regroupé est
donnée par
nx¯a n + mx¯b m
x̄n+m =
n+m
Cette formule se généralise bien sûr au regroupement de plus de deux séries.

1.2.3 Caractéristiques de dispersion

Minimum et maximum. Le minimum x(1) et le maximum x(n) de la série sont bien évidem-
ment des indicateurs de dispersion intéressants et simples à donner. On peut éventuellement
calculer l’étendue (x(n) − x(1) ).

Les quantiles Pour α ∈ [0, 1], le quantile empirique d’ordre α est le réel qα (s’il existe)
qui vérifie Fn (qα ) = α. S’il n’existe pas, on détermine i tel que Fn (x(i−1) ) ≤ α ≤ Fn (x(i) )
et on interpole ou on prend n’importe quel nombre dans l’intervalle [x(i−1) ; x(i) ]. Suivant le
contexte, on se contente de donner les quartiles ie les quantiles d’ordre (α = 0, 25 ; 0, 5 et
0, 75). Dans des séries plus longues comme les salaires d’une grande entreprise ou les revenus
des ménages d’une population, en plus des quartile, il est intéressant de donner les premiers
et les derniers centiles ou déciles. (α = 0, 01 ; 0, 1 ; 0, 9 ; 0, 99)
10 CHAPITRE 1. STATISTIQUE DESCRIPTIVE

La variance et l’écart-type La variance d’une série statistique (xi )1≤i≤n est la moyenne
des "écarts à la moyenne au carré", elle est donnée par
n
1X
s2n = (xi − x̄n )2 (1.3)
n i=1

Il faut évidemment pondérer la somme si les données sont regroupées comme dans le tableau
(1.1).
K
1X
s2n = ni (xi − x̄n )2
n i=1
La racine carrée de la variance est appelée écart-type de la série. Il est à noter qu’il s’exprime
dans la même unité que la série.

Comme la variance d’une variable aléatoire, la variance d’une série statistique se calcule à
l’aide de la moyenne empirique de la série et celle de la série des carrés à l’aide de la formule
de Koenig :
n
1X
s2n = x¯2 n − (x̄n )2 avec x¯2 n = (xi )2 (1.4)
n i=1

Si on dispose de deux échantillons (xai )1≤i≤n et (xbi )1≤i≤m , la variance de l’échantillon regroupé
s’exprime en fonction des variances sA2 B2 ¯a ¯b
n et sm et des moyennes x n et x m de ces deux séries.

ns2n + ms2m n(x¯a n − x̄n+m )2 + m(x¯a n − x̄n+m )2


s2n+m = + (1.5)
|
n+{z
m } | n+{z
m }
V1 V2

On peut remarquer que V 1 est la moyenne des variances alors que V 2 est la variance des
moyennes. Cette formule se généralise bien sûr au regroupement de plus de deux séries.

Les paramètres de mesure du lien entre deux variables quantitatives

On a deux séries de données quantitatives (xi ) et (yi ) pour 1 ≤ i ≤ n


1 Pn Pn
1. La covariance : Cov(X, Y ) = n i=1 (xi − x̄)(yi − ȳ) = ( n1 i=1 xi yi ) − x̄ȳ
Cov(X,Y )
2. Le coefficient de corrélation : ρ(X, Y ) = σx σy
Cov(X,Y )
3. La pente de la droite de régression : â = σx2
Cov(X,Y )
4. L’ordonnée à l’origine de la droite de régression : b̂ = ȳ − σx2

Les paramètres de mesure du lien entre une variable quantitative et une variable
qualitative

On a une série de couples de données (xi , yi ) pour 1 ≤ i ≤ n avec x qualitative à k modalités


(a1 , . . . , ak ) et y quantitative. On "trie" l’échantillon des (xi , yi )suivant les valeurs de x : on a
1.2. DESCRIPTION DES VARIABLES QUANTITATIVES 11

donc k sous-échantillons (y11 , . . . , yn1 1 ), ... , (y1k , . . . , ynk k ) où (y11 , . . . , yn1 1 ) constitue l’ensemble
des valeurs de yi correspondant à xi égal à la modalité 1 de x et ainsi de suite. On a n1 +
. . . + nk = n.
1. Les moyennes conditionnelles de y sachant x sont données par la moyenne de chacun
des groupes (y1j , . . . , ynj 1 ) : ȳ1 = ȳy|x=a1 = n11 ni=1
P 1 1
yi et plus généralement ȳj =
1 Pnj j
nj i=1 yi pour 1 ≤ j ≤ k
2. Les variances conditionnelles de y sachant x sont données par la variance de chacun
des groupes (y1j , . . . , ynj 1 ) : s2y|x=a1 = n11 ni=1 (yi1 − ȳ1 )2 = ( n11 ni=1 (yi1 )2 ) − (ȳ1 )2 et
P 1 P 1

1 Pnj j Pnj j 2
plus généralement s2y|x=aj = nj i=1 (yi − ȳj )2 = ( n1j i=1 (yi ) ) − (ȳj )2
1 Pk 2
3. La moyenne des variances conditionnelles : s2y|x = n j=1 nj sy|x=aj
1 Pk
4. La variance des moyennes conditionnelles : s2ȳ|x = n j=1 nj (ȳj − ȳ)2
1 Pk
5. Propriété : la moyenne de y dans l’échantillon total : ȳ = n j=1 nj ȳj

6. Propriété : la variance de y dans l’échantillon total : s2y = s2ȳ|x + s2y|x


s2ȳ|x
2 =
7. Le rapport de corrélation : ηy|x s2y

mettredesrésultatsdemathssurlesmodèlesgaussiens
12 CHAPITRE 1. STATISTIQUE DESCRIPTIVE
Chapitre 2

Estimation paramétrique

2.1 Modèle statistique : généralités


Soit X une variable aléatoire (v.a.) dont la loi de probabilité est inconnue. On veut obtenir
des informations sur cette loi. Pour cela on utilise les informations apportées par la donnée
(x1 , . . . , xn ) d’une réalisation (ou observation) d’un échantillon (X1 , . . . , Xn ) de la loi de X.

Définition 1 Soit n ≥ 1 un entier. On appelle n-échantillon de la loi de X tout n-uplet


(X1 , . . . , Xn ) de v.a. indépendantes et identiquement distribuées (i.i.d.), de même loi que X.
L’entier n est la taille de l’échantillon. Et on notera (X(1) , . . . , X(n) ), l’échantillon ordonné
correspondant, c’est-à-dire la permutation de l’échantillon qui vérifie (X(1) ≤ X(2) . . . , X(n) )

Pour construire une théorie mathématique de l’estimation, on suppose que :


— X est une variable aléatoire (v.a.) définie sur un espace probabilisé (Ω, F, P) et à
valeurs dans un espace probabilisable que l’on notera (X , BX ). Dans ce cours, on
prendra des v.a. X réelles ou vectorielles. Ainsi X = R ou X = Rd et BX désignera la
tribu borélienne associée. On note QX la loi de la v.a. X, c’est une loi de probabilité
sur (X , BX ).
— Hypothèse : la loi QX appartient à une famille de probabilités P (sur (X , BX )) indicées
par un paramètre inconnu θ :

P = {Pθ , θ ∈ Θ}.

La famille P est appelée modèle statistique. On dira aussi que (X1 , . . . , Xn ) est un échan-
tillon du modèle P = (Pθ , θ ∈ Θ).

Remarque. La connaissance du phénomène étudié (via l’étude de la série statistique (x1 , . . . , xn ))


permet d’avoir une idée pour le choix de la famille P.

Il existe deux types de modèles statistiques :


1. si le paramètre θ est de dimension finie : P est un modèle paramétrique.
Exemples :

13
14 CHAPITRE 2. ESTIMATION PARAMÉTRIQUE

(a) si X est une variable aléatoire réelle de loi normale (gaussienne) de moyenne incon-
nue mais de variance connue égale à 1. Alors la loi de X est continue et ne dépend
que de son espérance (dite aussi moyenne) que l’on note usuellement : µ = E(X).
On a donc ici : θ = µet Θ = R. La
√  loi de X est donc la loi N (θ, 1) de densité :
2
fX (x) = (1/ 2π) exp −(x − θ) /2 ∀x ∈ R.
(b) Plus généralement : lorsque la loi de X appartient à une famille de lois réelles
usuelles (Poisson, Bernoulli, Binomiale, Exponentielle, Gamma, Normales, etc . . .)
mais dont certains paramètres (comme la moyenne, la variance, . . .) sont inconnus.
2. si Θ n’est pas de dimension finie : alors il faut estimer toute la loi de X et on dit que
P est un modèle non paramétrique. Exemples :
(a) la famille P constituée de toutes les lois de probabilité sur R qui sont centrées.
(b) la famille P constituée de toutes les lois de probabilité sur R qui sont symétriques.
ce chapitre, nous nous plaçons dans le cadre paramétrique uniquement.

2.2 Modèle paramétrique


On considère (X1 , . . . , Xn ) un échantillon du modèle P = {Pθ , θ ∈ Θ} où :
– Θ ⊂ Rp est l’espace paramétrique (c’est l’espace dans lequel θ peut prendre sa valeur)
– p est la dimension du paramètre : pour p = 1, on parle de paramètre (ou modèle)
unidimensionnel ; pour p > 1, on parle de paramètre (ou modèle) multidimen-
sionnel ou vectoriel
– Pθ est la loi de probabilité correspondant à la valeur θ du paramètre ; c’est une loi de
probabilité sur (X , BX ) = (Rd , B(Rd )) avec d ≥ 1.
Le modèle est implicitement supposé identifiable c’est-à-dire que : θ1 6= θ2 implique Pθ1 6=
Pθ2 . Autrement dit : le paramètre θ détermine de manière unique la loi Pθ .

Exemple 1 : 1) P = {E(λ); λ > 0}, où E(λ) désigne la loi exponentielle de paramètre λ :


c’est un modèle unidimensionnel avec θ = λ et Θ =]0, +∞[.
2) P = {B(p); p ∈ [0, 1]}, où B(p) désigne la loi de Bernoulli de paramètre p : c’est un modèle
unidimensionnel avec θ = p et Θ = [0, 1].
3) P = {N (µ, σ 2 ); µ ∈ R, σ > 0} : c’est un modèle bi-dimensionnel où le paramètre θ est le
vecteur θ = (µ, σ 2 ) et Θ = R×]0, +∞[.

Commentaires. Dans ce cadre paramétrique : le problème est l’estimation du paramètre


inconnu θ grâce à laquelle on obtiendra une estimation complète de la loi de X et donc de
toute caractéristique usuelle de cette loi (moyenne, variance, médiane ...).
Le paramètre θ identifie chaque loi Pθ de la famille P mais n’est pas nécessairement une
caractéristique usuelle de cette loi. Toute caractéristique usuelle dépend par contre du para-
mètre θ : c’est donc une fonction de θ. Par exemple : la moyenne (ou espérance)= µ(θ), la
variance= σ 2 (θ) (lorsqu’elle(s) existe(nt) !). . . Parfois on souhaite estimer une fonction g(θ)
de θ sans nécessairement passer par l’estimation de θ.
2.3. STATISTIQUE ET ESTIMATEUR : DÉFINITIONS 15

Remarque. Il existe plusieurs façons de paramétrer une famille de lois.

Remarque. Le paramètre inconnu θ ne fluctue pas : il est fixe, c’est une constante.

2.2.1 Hypothèses sur les lois de probabilité Pθ


Dans ce cours, nous étudierons des modèles paramétriques où la famille P est constituée
de lois de probabilité Pθ qui sont absolument continues ou bien discrètes. On rappelle que :
— si la loi Pθ est absolument continue : elle se caractérise par une densité de probabilité
notée
R
fθ : X → R+ est une fonction mesurable (borélienne), positive qui vérifie
X fθ (x) dx = 1.
— si la loi Pθ est discrète : X(Ω) est un sous-ensemble fini ou dénombrable de X . La
loi Pθ est caractérisée par les quantités Pθ [X = x] pour tout x ∈ X(Ω). Ainsi : elle
est caractérisée par la donnée de la fonction : x ∈ X(Ω) ⊂ X 7→ Pθ [X = x] ∈ [0, 1]
P
appelée fonction de probabilité qui vérifie x∈X(Ω) Pθ [X = x] = 1.

On définit : (
fθ (x) dans le cas continu,
f (x; θ) =
Pθ [X = x] dans le cas discret.
On dira que f (.; θ) est la densité de la loi Pθ (en réalité la théorie de la mesure justifie
cette terminologie, autant dans le cas continu que discret).

Exemple 2 : Donner f (.; θ) dans les cas suivants : 1) Pθ = B(p) avec θ = p 2) Pθ = U(0, θ).

2.2.2 Loi et densité conjointes de l’échantillon (X1 , . . . , Xn )


Comme les v.a. Xi sont i.i.d et de même loi que X, la donnée de f (.; θ) suffit à déterminer
la loi de l’échantillon i.e. du n-uplet (X1 , . . . , Xn ). Cette densité conjointe est donnée par :
∀(x1 , . . . , xn ) ∈ X(Ω)n ,
 n n
 Y Y



 f (xi ; θ) = fθ (xi ) si Pθ continue,
f (x1 , . . . , xn ; θ) = i=1 i=1
n
Y


P [X
 θ 1

 = x 1 , . . . , X n = x n ] = Pθ [X = xi ] si Pθ discrète.
i=1

2.3 Statistique et estimateur : définitions


Etant donné un modèle paramétrique P = {Pθ , θ ∈ Θ ⊂ Rp } (avec p ≥ 1) : pour esti-
mer θ ou plus généralement une fonction g(θ) de θ, on utilise les informations apportées par
l’échantillon (X1 , . . . , Xn ) par l’intermédiaire d’une fonction de (X1 , . . . , Xn ), appelée statis-
tique, dont on étudie les propriétés.

Définition 2 On appelle statistique toute variable aléatoire Tn = t(X1 , . . . , Xn ) fonction


de l’échantillon avec t : X n → Rq est une fonction mesurable (borélienne) qui ne dépend pas
de θ. Ainsi Tn est une v.a. de (Ω, F, P) −→ (Rq , B(Rq )) avec Tn (ω) = t (X1 (ω), . . . , Xn (ω)).
16 CHAPITRE 2. ESTIMATION PARAMÉTRIQUE

Remarque. Une statistique Tn est indépendante du paramètre θ mais sa loi va dépendre de


θ.

Définition 3 Si la statistique Tn est à valeurs dans Θ alors c’est un estimateur de θ.


Une réalisation de Tn sur l’échantillon :tn = t(x1 , . . . , xn ) est appelée estimation de θ. Plus
généralement, si on cherche à estimer une fonction g(θ) ∈ Rk du paramètre inconnu θ : un
estimateur de g(θ) est une variable aléatoire qui est à valeurs dans g(Θ), qui ne dépend pas
de θ mais qui est fonction de l’échantillon (X1 , . . . , Xn ).

Remarque. ATTENTION : Un estimateur est donc une variable aléatoire (i.e. une fonction)
tandis qu’une estimation est une valeur déterministe (i.e. une constante).

Exemple 3 : Reprenons Pθ = N (µ, 1) avec ici θ = µ. Une statistique naturelle permettant


d’estimer le paramètre θ (moyenne d’une loi normale réduite) peut être naturellement la
n
1X
variable aléatoire : Tn (X1 , . . . , Xn ) = Xi appelée moyenne empirique des Xi (ou de
n i=1
l’échantillon) et notée X n . Etant donnée une réalisation (x1 , . . . , xn ) de l’échantillon (c’est
un vecteur de Rn ), la valeur observée (ou réalisation) de cette variable aléatoire est le réel :
n
1X
xi noté xn .
n i=1
Le but de l’estimation est de trouver une statistique Tn pour estimer θ, i.e. un estimateur
de θ. Mais la définition d’une statistique est bien large et on voit que toutes les fonctions
t ne donneront pas d’information pertinente ! Par exemple : les fonctions t(X1 , . . . , Xn ) = 0
et t(X1 , . . . , Xn ) = (X1 , . . . , Xn ) répondent toutes deux à la définition d’une statistique. Ce-
pendant : on voit que la première n’apporte clairement aucune information sur le paramètre
inconnu θ tandis que la seconde conserve toute l’information sur l’échantillon dont une partie
n’est peut-être pas utile pour estimer θ (cette dernière remarque est liée à la notion d’ex-
haustivité d’une statistique que nous ne développerons pas, cf. le livre de M. Lejeune pour
plus de détails). Remarquons quand même que (X1 , . . . , Xn ) est une statistique mais pas un
estimateur car il n’est pas à valeurs dans Θ.

La théorie de l’estimation consiste à donner des méthodes pour construire des


estimateurs, à en étudier les propriétés et à construire des critères de qualité
pour les choisir.

2.4 Deux méthodes usuelles d’estimation


On considère une v.a. réelle (v.a.r.) X dont la loi de probabilité est inconnue et appar-
tient au modèle paramétrique P = {Pθ , θ ∈ Θ} avec Θ ⊂ Rp et p ≥ 1. Soit (X1 , . . . , Xn ) un
n-échantillon de la loi de X.

Ici nous présentons deux méthodes permettant de calculer de manière systématique un


estimateur pour le paramètre θ d’un modèle statistique : la méthode dite des moments et la
méthode dite du maximum de vraisemblance. Nous verrons en TD que, suivant le modèle, ces
deux méthodes peuvent donner ou non le même estimateur.
2.4. DEUX MÉTHODES USUELLES D’ESTIMATION 17

2.4.1 La méthode des moments


Notation. L’espérance (lorsqu’elle existe !) d’une v.a. h(X) fonction de X dépend de θ par
l’intermédiaire de la loi de X et sera notée Eθ [h(X)].

Définition 4 Soit r ≥ 1 un entier.


— Le moment empirique d’ordre r est la variable aléatoire : n1 ni=1 (Xi )r .
P

— X n = n1 ni=1 Xi est la moyenne empirique.


P
2
— Vn2 = n1 ni=1 (Xi − X n )2 = n1 ni=1 Xi2 − X n est la variance empirique.
P P

— Si (x1 , . . . , xn ) une réalisation de l’échantillon, mr = n1 ni=1 (xi )r = le moment em-


P

pirique observé d’ordre r avec en particulier m1 = n1 ni=1 xi = xn = la moyenne


P

empirique observée.

Définition 5 soit r ≥ 1, le moment d’ordre r de la loi de X - s’il existe - est appelé moment
théorique d’ordre r. Il dépend de θ, on le note Mr (θ) : Mr (θ) = Eθ [X r ]. En particulier :
M1 (θ) = Eθ [X] est l’espérance de X.

Remarque. Pour une réalisation (x1 , . . . , xn ) de l’échantillon (X1 , . . . , Xn ), le moment em-


pirique observé mr ne dépend par contre pas de θ !

Principe de la méthode des moments :

Cas uni-dimensionnel p = 1 :
pour une réalisation (x1 , . . . , xn ) de l’échantillon, la méthode consiste à prendre pour estima-
tion de θ la valeur telle que la moyenne théorique coïncide avec la moyenne empirique. Ainsi
on doit résoudre l’équation d’inconnue θ : M1 (θ) = m1 .
S’il existe une et une unique solution alors on la note θ̂M , elle vaut : θ̂M = M1−1 (xn ). La
statistique encore notée θ̂M définie par θ̂M = M1−1 (X n ) sera l’estimateur des moments de θ.

Remarque. Evidemment la définition précédente n’a de sens que si Eθ (X) (i.e. M1 (θ)) existe
et si l’équation M1 (θ) = m1 admet une solution et une seule.

Exercice : Montrer que l’estimateur des moments du paramètre λ > 0 de la loi de Poisson
P(λ), du paramètre p ∈ [0, 1] de la loi de Bernoulli B(p), est p̂M = X n . Que représente le
paramètres à estimer dans ces deux cas ? Généraliser à θ = Eθ [X]. Donner l’estimateur des
moments du paramètre λ > 0 de la loi exponentielle E(λ) et de θ lorsque la variable X est
une uniforme sur [0, θ].
Cas θ de dimension p ≥ 1 :
pour obtenir les estimateurs des p composantes (θ1 , . . . , θp ) de θ, la méthode consiste à poser
un système de p équations, à p inconnues (qui sont les composantes de θ), en égalant moments
théoriques et moments empiriques.

Définition 6 On considère Θ ⊂ Rp avec p ≥ 1. On pose : θ = (θ1 , . . . , θp ) et on suppose que


pour tout θ ∈ Θ, la loi Pθ admet un moment d’ordre p. Si, pour une réalisation (x1 , . . . , xn )
18 CHAPITRE 2. ESTIMATION PARAMÉTRIQUE

du n-échantillon (X1 , . . . , Xn ), le système à p équations :




 M1 (θ) = m1 = xn

 M2 (θ)

= m2
..


 .

 M (θ) =
p mp
admet une solution unique en θ, alors cette solution est appelée estimation des moments
de θ et elle est notée θ̂nM (x1 , . . . , xn ) ou θ̂nM .
La variable aléatoire correspondante θ̂nM (X1 , . . . , Xn ) à valeurs dans Θ est appelée estima-
teur des moments de θ et sera généralement notée θ̂nM .
Remarque. Au lieu de prendre les p premiers moments, on peut plus généralement prendre
p moments distincts qui sont tels que l’on obtient un système de p équations à p inconnues
(les composantes θ1 , . . . , θp de θ) admettant une unique solution.

Exemple 5 : Si θ = (µ, σ 2 ) ∈ R × R+ et si Pθ admet pour espérance µ et pour variance σ 2 ,


M 2
alors : θ̂ = X n , Vn donc la moyenne et la variance théoriques sont estimées (par la
méthode des moments) par la moyenne et la variance empiriques.

2.4.2 La méthode du maximum de vraisemblance


Définitions et principe Soit (X1 , . . . , Xn ) un n-échantillon issu d’un modèle paramétrique
P = {Pθ , θ ∈ Θ ⊂ Rp } avec p ≥ 1. Les variables aléatoires Xi sont à valeurs dans X = Rd
avec d ≥ 1.

Définition 7 Soit (x1 , . . . , xn ) ∈ X n une réalisation de l’échantillon. La fonction :


θ ∈ Θ 7−→ f (x1 , . . . , xn ; θ)
est appelée la vraisemblance de θ pour la réalisation (x1 , . . . , xn ). Nous noterons sa
valeur en θ par L(θ; x1 , . . . , xn ) ou simplement L(θ) s’il n’y a pas d’ambiguïté.
Autrement dit : pour tout θ ∈ Θ, L(θ) = L(θ; x1 , . . . , xn ) = f (x1 , . . . , xn ; θ).
Remarque. La vraisemblance et la densité conjointe sont deux façons de considérer le même
objet mais d’un point de vue sont différent : ici les valeurs (x1 , . . . , xn ) sont fixées aux obser-
vations, on regarde une fonction du paramètre θ. On peut aussi considérer la vraisemblance
comme une fonction aléatoire de θ qui dépend de l’échantillon (X1 , . . . , Xn ).
Exemple 6 : Donner la vraisemblance dans le cas des modèles de Bernoulli et exponentiel.

Idée de la méthode du maximum de vraisemblance :


Elle se comprend aisément dans le cas discret. En effet, si Pθ est une loi discrète, on a :
L(θ; x1 , . . . , xn ) = Pθ [(X1 , . . . , Xn ) = (x1 , . . . , xn )] = Pθ [X1 = x1 , . . . , Xn = xn ].
On est donc tenté de dire que le θ qui a produit la donnée (x1 , . . . , xn ) est celui qui confère
la plus grande probabilité aux observations relevées autrement dit celui qui maximise la vrai-
semblance L(θ; x1 , . . . , xn ).
2.4. DEUX MÉTHODES USUELLES D’ESTIMATION 19

Définition 8 Supposons que pour toute observation (x1 , . . . , xn ) de l’échantillon (X1 , . . . , Xn ),


il existe une et une seule valeur de θ, notée θ̂nM V (x1 , . . . , xn ) (ou simplement θ̂nM V ), telle que
la vraisemblance soit maximale i.e. telle que :

L(θ̂nM V ; x1 , . . . , xn ) = sup L(θ; x1 , . . . , xn ).


θ∈Θ

On dit que θ̂nM V (x1 , . . . , xn )


est une estimation du maximum de vraisemblance de θ. La
variable aléatoire correspondante θ̂nM V (X1 , . . . , Xn ) à valeurs dans Θ est appelée estimateur
du maximum de vraisemblance (en abrégé E.M.V) de θ. Nous la noterons pour simplifier
θ̂nM V ou θ̂M V .

Remarque. En anglais, l’[Link]. est le M.L.E. pour Maximum Likehood Estimator.

2.4.3 Détermination pratique de l’E.M.V


La technique du maximum de vraisemblance est utilisable quelque soit le modèle paramé-
trique considéré. Cependant, l’E.M.V ne peut s’obtenir explicitement que si la vraisemblance
L est explicite, donc si le modèle est bien explicité (cas de tous les exemples traités dans ce
cours). La méthode des moments ne nécessite pas cette spécification.

Définition 9 On définit également la log-vraisemblance du modèle comme le logarithme


de la vraisemblance. C’est donc la fonction :
n
X
θ ∈ Θ 7−→ ln L(θ; x1 , . . . , xn ) = ln f (xi ; θ).
i=1
Maximiser la vraisemblance ou la log-vraisemblance revient au même puisque la fonction ln
est strictement croissante. Maximiser la log-vraisemblance donne lieu parfois à des calculs
plus simples.

Remarque. Suivant le modèle, les méthodes des moments et du maximum de vraisemblance


peuvent donner ou non le même estimateur.
Remarques :
1. Si ln L(θ; x1 , . . . , xn ) est différentiable en θ, et si θ̂n est un EMV de θ alors il vérifie

∂L(θ; X1 , . . . , Xn ) ∂ ln L(θ; X1 , . . . , Xn )
=0 ou = 0.
∂θ θ=θ̂n ∂θ θ=θ̂n

Cette équation permet de trouver les valeurs possibles de l’E.M.V.

2. Même si ln L(θ; x1 , . . . , xn ) est différentiable en θ, on n’a pas forcément une solution


explicite de θ̂nM V . Il faut alors utiliser des méthodes numériques de maximisation.
Cependant, notons que si le modèle a de bonnes propriétés de régularité, la détermination de
l’E.M.V est simplifiée. C’est l’objet des deux propriétés suivantes.
20 CHAPITRE 2. ESTIMATION PARAMÉTRIQUE

Définition 10 Pour tout θ ∈ Θ, on appelle support de la loi Pθ (ou de f ) l’ensemble des


réalisations (valeurs) possibles de cette loi i.e. l’ensemble :

∆θ := {x ∈ Rd ; f (x, θ) > 0}.

Exemple 7 : Donner le support des lois Pθ = B(p), Pθ = E(λ), Pθ = N (µ, σ 2 ) et


Pθ = U(0, θ).

Propriété 1 : Cas uni-dimensionnel p = 1 et Θ ⊂ R.


Supposons que le modèle vérifie les propriétés suivantes :
(H1) le support ∆θ de Pθ est indépendant de θ et sera noté ∆.
(H2) Θ est un ouvert.
∂ ∂2
(H3) L est 2-fois dérivable en θ i.e. : f (x, θ) et f (x, θ) sont définies pour tout
∂θ ∂θ2
(x, θ) ∈ ∆ × Θ.
Alors θ̂n est l’E.M.V de θ si et seulement si


(i) ln L(θ; X1 , . . . , Xn ) =0 (équation de vraisemblance),
∂θ θ=θ̂n
∂2
(ii) ln L(θ; X1 , . . . , Xn ) < 0.
∂θ2 θ=θ̂n

Exercice : Donner l’E.M.V. dans les modèles suivants : modèle exponentiel avec Pθ = E(λ)
avec θ = λ > 0 et le modèle de Bernoulli avec θ = p ∈ [0, 1] et Pθ = B(p).

Nous allons donner la version multi-dimensionnelle de la Propriété 1 c’est-à-dire pour θ


dans Θ ⊂ Rp avec p ≥ 2. A la place des dérivées, on manipule des dérivées partielles et la
condition de négativité (ii) se transforme en une condition de "matrice définie négative" qui
signifie :

Rappels : Soit A = (aj,k )1≤j,k≤p une matrice réelle carrée d’ordre p. On dit que la matrice
A est dite définie négative si :
p
X
pour tout vecteur y = (y1 , . . . , yp ) ∈ Rp non nul, yAy t := aj,k yj yk < 0.
j,k=1
On peut montrer que si A est une matrice réelle carrée d’ordre p et symétrique. Alors A
est diagonalisable et on a : A est définie négative ssi toutes les valeurs propres de A sont
strictement négatives.

Propriété 2 : Cas multidimensionnel p ≥ 2, Θ ⊂ Rp avec p ≥ 2.


Supposons que le modèle vérifie les hypothèses (H1) et (H2) et la propriété suivante :
(H30 ) L est 2-fois différentiable en θ autrement dit :

- pour tout 1 ≤ j ≤ p : f (x; θ) est définie pour tout (x, θ) ∈ ∆ × Θ,
∂θj
∂2
- et pour tout (j, k) ∈ {1, . . . , p}2 : f (x; θ) est définie pour tout (x, θ) ∈ ∆ × Θ.
∂θj ∂θk
2.5. QUELQUES PROPRIÉTÉS GÉNÉRALES SUR LES ESTIMATEURS 21

Alors θ̂n est l’E.M.V de θ si et seulement si


(i) ln L(θ; X1 , . . . , Xn ) =0 (les équations de vraisemblance),
∂θ θ=θ̂n
!
∂2
(ii) la matrice hessienne de ln L c’est-à-dire la matrice ln L(θ; X1 , . . . , Xn ) ,
∂θj ∂θk 1≤j,k≤p
calculée en θ̂n , doit être définie négative.

Exercice. Montrer que l’E.M.V du paramètre θ = (µ, σ 2 ) pour le modèle gaussien Pθ =
N (µ, σ 2 ) coïncide avec celui des moments i.e. que : θ̂M V = X n , Vn2 .

Remarques : 1) Les hypothèses de régularité posées jusqu’à présent sont vérifiées pour la
majorité des modèles classiques (par exemple : de Poisson, de Bernoulli, géométrique, nor-
male, exponentielle . . .). Cependant le modèle Pθ = U(0, θ) ne rentre pas dans ce cadre.
2) On verra plus loin que l’EMV est très utilisé car dans de nombreux cas, il a de bonnes
propriétés asymptotiques (i.e. lorsque la taille n de l’échantillon tend vers +∞). C’est pour-
quoi, il est souvent dans les logiciels.

Remarque. Il est clair (quitte à reparamétriser la famille) que si g : Θ → Rp est une fonction
borélienne et bijective alors (si θ̂M V existe) : g(θ̂M V ) est l’EMV de g(θ).

Commentaires. Il faut noter qu’il existe d’autres méthodes classiques d’estimation : la mé-
thode empirique (la plus naturelle), la méthode de substitution (qui généralise la méthode des
moments), la méthode des moindres carrés, la méthode bayésienne . . . L’utilisation des capa-
cités de calcul sur ordinateur permet aussi d’agréger différents estimateurs pour en trouver
des meilleurs.

2.5 Quelques propriétés générales sur les estimateurs


Dans toute cette section, on se restreint au cas d’un modèle paramétrique uni-dimensionnel
réel i.e. que l’on considère une variable aléatoire réelle (v.a.r.) X de loi inconnue QX appar-
tenant à un modèle paramétrique P = {Pθ , θ ∈ Θ} avec Θ ⊂ R. On considère (X1 , . . . , Xn )
un n-échantillon de X. On note Eθ [h(X1 , . . . , Xn )], l’espérance, si elle existe, d’une fonction
h(X1 , . . . , Xn ) de l’échantillon (X1 , . . . , Xn ). La variance de h(X1 , . . . , Xn ), si elle existe, est
notée Vθ (h(X1 , . . . , Xn )).

Remarque : Toutes les notions de ces sections sont généralisables au cas multi-dimensionnel
où Θ ⊂ Rp avec p ≥ 2, mais la complexité des résultats augmente notablement. Par exemple, la
notion de variance est remplacée par celle de matrice de covariance. Nous donnerons quelques
détails en fin de Chapitre. Dans la section précédente, nous avons présenté deux méthodes
(celles des moments et du maximum de vraisemblance) permettant de construire un ou deux
estimateur(s) de θ pour tous les modèles usuels. Il existe aussi d’autres méthodes.
Il est donc utile de définir des critères naturels permettant :
22 CHAPITRE 2. ESTIMATION PARAMÉTRIQUE

- d’évaluer la qualité d’un estimateur,


- et, lorsqu’on dispose d’au moins deux estimateurs, de les comparer.
Un estimateur Tn de θ sera un "bon estimateur" s’il est suffisamment proche, en un certain
sens, de θ. Il faut donc définir une mesure de l’écart entre θ et Tn . Cette mesure est dite risque
de l’estimateur. On a intérêt à ce que le risque d’un estimateur soit le plus petit possible. Par
exemple, les quantités : Tn − θ, |Tn − θ|, (Tn − θ)2 expriment bien un écart entre Tn et θ. Mais
comme il est plus facile d’utiliser des quantités déterministes que des quantités aléatoires, on
s’intéresse en priorité aux espérances des quantités précédentes : ce sont les notions de biais
et risque quadratique définis ci-dessous.

2.5.1 Biais d’un estimateur


Définition 11 On appelle biais de l’estimateur Tn pour le paramètre θ la quantité :
bθ (Tn ) = Eθ [Tn ] − θ.
On dit que Tn est un estimateur sans biais de θ si bθ (Tn ) = 0, sinon on dit que Tn est
biaisé.
Si l’estimateur Tn est biaisé, mais que bθ (Tn ) → 0 quand n → +∞, on dit que Tn est
asymptotiquement sans biais pour θ.

Exercice : 1) Montrer que si les Xi admettent une espérance µ inconnue (qui est fonction
de θ i.e. µ = µ(θ)) : la moyenne empirique X n est un estimateur sans biais de µ.
2) Si les Xi admettent un moment d’ordre 2 et si leur variance σ 2 = σ 2 (θ) est inconnue,
alors : la variance empirique Vn2 est un estimateur biaisé mais asymptotiquement sans biais
de la variance σ 2 .

2.5.2 Risque quadratique


La dispersion d’un estimateur autour de la valeur inconnue du paramètre θ est une donnée
importante mesurée par le risque quadratique.
Définition 12 On appelle risque quadratique (ou erreur quadratique moyenne) de
l’estimateur Tn pour le paramètre θ la quantité :
Rθ (Tn ) = Eθ [(Tn − θ)2 ].
Le biais mesure l’erreur systématique faite en estimant θ. Par exemple, si Eθ [Tn ] − θ < 0,
cela signifie que Tn aura tendance à sous-estimer θ. Le risque quadratique mesure la distance
au carré à laquelle Tn se situe en moyenne par rapport à θ. On peut comprendre les rôles
respectifs du biais et de l’erreur quadratique moyenne en faisant l’analogie avec un jeu de tir
de fléchettes sur une cible : le biais correspond à un décalage systématique (i.e. le centre des
tirs n’est pas le centre de la cible) et le risque quadratique mesure la dispersion des tirs.

Propriétés : 1) On a pour tout θ ∈ Θ : Rθ (Tn ) = (bθ (Tn ))2 + Vθ (Tn ).


2) Si Tn est un estimateur sans biais de θ alors : Rθ (Tn ) = Vθ (Tn ).
2.5. QUELQUES PROPRIÉTÉS GÉNÉRALES SUR LES ESTIMATEURS 23

Commentaires : Le risque quadratique est le critère généralement utilisé pour mesurer la


qualité d’un estimateur et choisir entre deux estimateurs d’un même paramètre θ :
- La variance d’un estimateur mesure sa variabilité. Si l’estimateur est sans biais, cette varia-
bilité est autour de θ. Si on veut estimer correctement θ, il ne faut pas que cette variabilité
soit trop forte. On a donc intérêt à ce qu’un estimateur soit sans biais et de faible variance.
En pratique, si on observe plusieurs jeux de données similaires, on obtient une estimation
de θ pour chacun d’entre eux. Alors si l’estimateur est de faible variance, ces estimations se-
ront toutes proches les unes des autres, et s’il est sans biais leur moyenne sera très proche de θ.
- Par ailleurs, on en déduit immédiatement que de deux estimateurs sans biais, le meilleur est
celui qui a la plus petite variance. Ainsi, l’idée est de minimiser le risque quadratique Rθ (Tn ),
c’est-à-dire miniser le biais (si possible l’annuler) ainsi que la variance de l’estimateur.

Remarque. Nous verrons plus loin dans le cours que la variance d’un estimateur sans biais
de θ ne peut pas descendre en dessous d’une certaine borne, dite Borne de Cramer-Rao.
(1) (2)
Définition 13 (Comparaison d’estimateurs) Si Tn et Tn sont deux estimateurs du pa-
(1) (2) (1) (2)
ramètre θ, on dit que Tn domine Tn (ou que Tn est préférable à Tn ) si :
(1) (2)
(i) pour tout θ ∈ Θ, Rθ (Tn ) ≤ Rθ (Tn ),
(1)
(ii) l’inégalité étant stricte pour au moins une valeur de θ : ∃θ0 ∈ Θ, Rθ0 (Tn ) <
(2)
Rθ0 (Tn ).

Finalement, on considèrera que le meilleur estimateur possible de θ est un estimateur


sans biais et de variance minimale (ESBVM). Un tel estimateur n’existe pas forcé-
ment. Il existe des méthodes pour déterminer directement un ESBVM dans certains cas :
elles sont basées sur des techniques sophistiquées comme l’exhaustivité et la complétion que
nous ne développerons pas ici faute de temps (cf. M. Lejeune). Dans le cadre de ce cours, on
pourra parfois montrer facilement qu’un estimateur est un ESBVM en utilisant la quantité
d’information de Fisher que nous définirons dans la Section suivante.

Remarque : Un estimateur biaisé peut être intéressant si son erreur quadratique moyenne
est inférieure à la variance d’un estimateur sans biais.

Remarque : Si l’on s’intéresse à l’estimation plus générale d’une fonction g(θ) de θ, toutes les
définitions précédentes s’étendent directement en remplaçant θ par g(θ) (par contre évidem-
ment dans la notation de l’espérance et de la variance, on garde θ en indice i.e. les notations
Eθ et Vθ puisque les lois des estimateurs de g(θ) dépendent de la loi de (X1 , . . . , Xn ) donc
de Pθ !).
ATTENTION : Ce n’est pas parce que Tn est un bon estimateur de θ que g(Tn ) est un bon
estimateur de g(θ). Par exemple, on a souvent : Eθ (Tn ) = θ tandis que Eθ (g(Tn )) 6= g(θ).

2.5.3 Estimateur convergent


On s’intéresse ici au comportement asymptotique d’un estimateur i.e. lorsque la taille n
de l’échantillon tend vers l’infini. Il est logique de s’attendre à ce que, plus la taille n des
24 CHAPITRE 2. ESTIMATION PARAMÉTRIQUE

données augmente, plus on a d’information sur le phénomène aléatoire observé, donc meilleure
sera l’estimation. En théorie, avec une observation infinie, on devrait pouvoir estimer θ sans
aucune erreur. On peut traduire cette affirmation par le fait que le risque de l’estimateur
Tn doit tendre vers 0 quand la taille n de l’échantillon tend vers l’infini. Cela revient à dire
que l’estimateur Tn doit converger, en un certain sens, vers θ. Il s’agit en fait d’étudier la
convergence de la suite de variables aléatoires (Tn )n vers la constante θ. On sait qu’il existe
plusieurs types de convergence de suites de variables aléatoires. On peut étudier la convergence
presque sûre, la convergence en probabilité, et surtout - compte tenu de la définition du risque
quadratique - la convergence en moyenne quadratique (ou convergence dans L2 ).

Définition 14 Soit Tn un estimateur de θ :


a) On dit que Tn est un estimateur faiblement convergent pour θ (ou qu’il converge
faiblement vers θ) s’il converge en probabilité vers θ i.e. si :

∀ > 0, lim Pθ |Tn − θ| ≥  = 0.
n→+∞

On utilise souvent l’anglicisme ’consistant’ pour convergent.


b) On dit que Tn est un estimateur fortement convergent de θ (ou qu’il converge
fortement vers θ) s’il converge presque sûrement vers θ i.e. si :

Pθ lim Tn = θ = 1.
n→+∞

c) On dit que Tn est unconverge en moyenne quadratique (ou dans L2 ) vers θ si


son erreur quadratique moyenne tend vers 0 lorsque n tend vers l’infini i.e. si :

Rθ (Tn ) := Eθ (Tn − θ)2


 
−→ 0.
n→+∞

Remarque. Comme les convergences presque sûre et dans L2 impliquent toutes les deux
la convergence en probabilité, alors,
si un estimateur converge fortement OU en moyenne quadratique, alors il converge faiblement.

Nous donnons dans la suite deux critères pratiques qui permettent d’établir la conver-
gence de certaines suites d’estimateurs.

Critère de convergence faible et en moyenne quadratique d’un estimateur :


Si Tn est un estimateur sans biais de θ ou asymptotiquement sans biais de θ et si Vθ (Tn ) −→ 0
quand n → +∞, alors l’estimateur Tn converge faiblement et en moyenne quadratique vers
θ.

Le résultat suivant, conséquence du Lemme de Borel-Cantelli, assure la convergence forte :

Critère de convergence forte d’un estimateur :


Si (Tn )n∈N est une suite telle que :
X 
∀ > 0, Pθ |Tn − θ| ≥  < +∞
n∈N
2.5. QUELQUES PROPRIÉTÉS GÉNÉRALES SUR LES ESTIMATEURS 25

alors Tn est un estimateur fortement convergent de θ.

On rappelle aussi deux autres outils qui permettront d’étudier la convergence d’estima-
teurs :

Loi forte des grands nombres :


Soit (Yn )n∈N une suite de v.a. réelles indépendantes, de même loi (i.i.d.) et intégrables (i.e.
E(|Y1 |) < +∞) et d’espérance µ. Alors :
n
1X
Yn = Yi converge presque sûrement (et donc en probabilité) vers µ = E[Y1 ].
n i=1

Propriété de continuité :
Si (Yn )n∈N converge en probabilité (resp. presque sûrement) vers une v.a. Y et si g est une
fonction continue, alors la suite (g(Yn )) converge aussi en probabilité (resp. presque sûrement)
vers g(Y ).
Le résultat suivant généralise le précédent à un couple de variables aléatoires (Xn , Yn ) en
fonction de la convergence des lois marginales, pourvu que l’une d’entre elles soit converge
vers une variable déterministe.
Lemme de Slutzky
Soit (Xn )n∈N et (Yn )n∈N deux suites de vecteurs respectivement à valeurs dans Rm et Rp .
L L
Si Xn −→ X et Yn −→ y avec y déterministe, alors la loi joint de (Xn , Yn ) converge :
L
(Xn , Yn ) −→ (X, y).

Exemple 11 : 1) X n est un estimateur fortement convergent pour l’espérance µ des Xi .


2) De plus, si les Xi sont de carré intégrable, alors :
X n converge fortement et en moyenne quadratique vers l’espérance µ des Xi .

3) De plus, si les Xi admettent un moment d’ordre 4, alors : Vn2 = n1 ni=1 (Xi − X n )2 et


P
1 Pn
Sn2 = n−1 2 2
i=1 (Xi − X n ) convergent fortement et en moyenne quadratique vers σ .

2.5.4 Compléments sur le modèle gaussien


Le modèle gaussien est évidemment très important en statistique et nous donnons ici des
lois dérivées de la loi normales et des propriétés issues des propriétés des vecteurs gaussiens.
Dans le cadre gaussien c’est-à-dire pour Xi de loi N (µ, σ 2 ), on peut montrer l’indépendance
des statistiques X n et Sn2 et déterminer explicitement leurs lois.
Evidemment, comme la loi gaussienne admet des moments de tous ordres, toutes les propriétés
énoncées dans l’Exemple 11 sur X n et Sn2 , estimateurs respectifs de l’espérance µ et de la
variance σ 2 , sont vérifiées.

Définition 15 Soit d ≥ 1 un entier. Soit X = (X1 , . . . Xd ) un vecteur gaussien de Rd muni


de sa norme euclidienne ||.||2 . On suppose E[X] = 0 et var(X) = Idd . La loi de la variable
26 CHAPITRE 2. ESTIMATION PARAMÉTRIQUE

aléatoire
||X||22 = X12 + . . . Xd2
ne dépend que de d et s’appelle la loi du chi-deux à d degrés de liberté. (Si X n’est pas centré
et E[X] = µ la loi dépend aussi de µ via sa norme au carré ||µ||2 et s’appelle la loi du chi-deux
décentrée en ||µ||2 à d degrésde liberté.
d 1

Si µ = 0, c’est la loi Γ , appelée chi-deux à d degrés de liberté et notée χ2 (d). La
2 2
densité de la loi du chi-deux est donnée par
Z +∞
1
x→ d xd/2−1 e−x/2 1R+ (x) avec Γ(a) = ta−1 e−t dt
2 Γ(d/2) 0

Cette définition de la loi du chi-deux signifie que lorsque qu’un vecteur X suit une loi
normale N (0, Σ) et si la matrice σ est de rang plein d alors le réel X t Σ−1 X ' χ2 (d). De
même la normalité asymptotique d’un estimateur va entraîner une loi du χ2 asymptotique
pour la norme au carré d’une version centrée réduite de cet estimateur. Ce phénomène est à
l’origine de nombreuses procédures de test, souvent appelée test de Wald.

Définition 16 Soient Z et Y deux v.a. réelles indépendantes telles que Z ∼ N (µ, 1) et


Y ∼ χ2 (d).
√ Z
Alors la variable T = d √ suit une loi continue appelée loi de Student à d degrés de
Y
liberté. Si µ = 0, on la note : T ∼ T (d). La densité de T (d) est donnée par
!−(d+1)/2
Γ((d + 1)/2) x2
x→ 1+( )
Γ(d/2) d

Le moment d’ordre r de la loi de Student n’existe que si d > m. Dès qu’elle existe, son
d
espérance vaut 0, de même sa variance vaut d−2 .

Définition 17 Y et Z deux v.a. réelles indépendantes telles que Y ∼ χ2 (d1 ) et Z ∼ χ2 (d2 )


Y /d1
Alors la variable T = suit une loi continue appelée loi de Fischer-Snedecor à (d1 , d2 )
Z/d2
degrés de liberté.

Le théorème suivant est très utilisé dans les modèles gaussiens car il permet de montrer
que dans le modèle gaussien, X̄n et Vn2 sont indépendants.

Théoreme 1 Soit un vecteur gaussien X ' N (0, Idk ) et une décomposition de Rk en r sous-
espaces orthogonaux de dimensions respectives d1 , . . . dr : E1 ⊕ . . . ⊕ Er . Alors les projections
orthogonales ΠE1 , . . . , ΠEr de X forment des vecteurs gaussiens indépendants et pour tout
1 ≤ j ≤ r, ||ΠEj (X)||2 suit une loi χ2 (dj ).

Le théorème se généralise à des vecteurs gaussiens non centrés. Il est très utilisé dans les
modèles gaussiens car il permet de montrer que dans ce cas, X̄n et Vn2 sont indépendants
comme le dit le théorème suivant.
2.6. STATISTIQUE EXHAUSTIVE 27

Théoreme 2 Soit (Xn )n≥1 une suite de v.a.r. i.i.d. de même loi normale N (µ, σ 2 ) avec
µ ∈ R et σ > 0. Alors, pour tout entier n ≥ 1 :
1. les statistiques X n et Sn2 sont indépendantes,
σ2 (n − 1)Sn2
2. leurs lois sont respectivement : X n ∼ N (µ, ) et ∼ χ2 (n − 1),
n σ2
√ Xn − µ
3. et on a : n ∼ T (n − 1).
Sn

2.6 Statistique exhaustive


La notion d’exhaustivité est introduite pour caractériser les statistiques Tn = t(X1 , . . . , Xn )
qui résument toute l’information sur QX contenue dans l’échantillon (X1 , . . . , Xn ) nécessaire
à l’estimation du paramètre inconnu θ. Il est clair qu’une statistique (la moins économique)
qui contient toute cette information est l’échantillon (X1 , . . . , Xn ). Pourtant, peut-on trouver
une statistique Tn beaucoup plus simple (comme X n , Vn2 , . . .) telle qu’il suffise de connaître
uniquement Tn , et qu’on puisse oublier l’échantillon initial ? Généralement, la réponse à cette
question est négative, mais moyennant certaines hypothèses sur la loi QX des Xi , une telle
statistique Tn existe.
S’agissant d’estimer θ, on peut s’attendre à ce qu’un “bon” estimateur soit une statistique qui
ne retienne que ce qui est utile de l’échantillon. Les notions d’exhaustivité et d’exhaustivité
minimale viennent préciser cela. S’agissant d’estimer θ, certaines statistiques peuvent être
exclues du fait qu’elles n’utilisent pas de façon exhaustive toute l’information contenue dans
l’échantillon (X1 , . . . , Xn ). A l’inverse, on peut s’attendre à ce qu’un "bon" estimateur soit
une statistique qui ne retienne que ce qui est utile de l’échantillon. Les notions d’exhaustivité
et d’exhaustivité minimale viennent préciser cela.
Dans cette section, Θ ⊂ Rp avec p ≥ 1.

Définition. On dit que Tn est une statistique exhaustive pour θ ∈ Θ si la loi condition-
nelle de (X1 , . . . , Xn ) sachant Tn ne dépend pas de θ i.e. si la loi conditionnelle de l’échantillon
(X1 , . . . , Xn ) sachant Tn = tn est indépendante du paramètre θ.

Interprétation. Intuitivement, Tn est une statistique exhaustive pour θ si toute l’infor-


mation sur θ (ou QX ) contenue dans l’échantillon (X1 , . . . , Xn ) est dans Tn . Ainsi, lorsque
la valeur prise par la statistique exhaustive Tn est connue (égale à tn ), alors l’échantillon
(X1 , . . . , Xn ) ne fournit plus d’information sur le paramètre inconnu θ car sa loi ne dépend
plus de θ.

Le théorème suivant montre que l’on n’a pas besoin de calculer explicitement (ce qui peut
être assez lourd) la loi conditionnelle de (X1 , . . . , Xn ) sachant Tn pour extraire des statistiques
exhaustives.

Théorème de factorisation. Une statistique Tn = t(X1 , . . . , Xn ) est exhaustive pour


θ ∈ Θ ⊂ Rp si et seulement si la densité conjointe (ou fonction de probabilité) f : X n ×Θ → R+
28 CHAPITRE 2. ESTIMATION PARAMÉTRIQUE

de (X1 , . . . , Xn ) se factorise sous la forme :

f (x1 , . . . , xn ; θ) = g(t(x1 , . . . , xn ); θ)h(x1 , . . . , xn ) (2.1)

où g et h sont deux fonctions indépendantes de θ telles que g : Rq × Θ → R et h : X n → R.

Remarque. Si Tn est une statistique exhaustive pour θ alors l’EMV de θ peut s’écrire
comme une fonction de Tn .

Proposition. 1) si Tn est une statistique exhaustive fonction d’une autre statistique Tn0
c’est-à-dire de la forme Tn0 = u(Tn ), alors Tn0 est encore une statistique exhaustive.
2) si Tn est exhaustive et si u est une fonction bijective, alors u(Tn ) est encore une statistique
exhaustive.

Remarque. Le 2) de la proposition nous dit qu’une statistique exhaustive n’est pas unique
et sera définie à une bijection près.

Exemples. Donner une ou des statistiques exhaustives pour : 1) Pθ = P(λ), 2)Pθ =


E(λ).

Commentaires et compléments.
- Le point 1) de la Proposition montre que la notion d’exhaustivité n’implique pas une réduc-
tion au minimum de l’information utile dans l’échantillon pour estimer θ mais une réduction
suffisante. Ainsi l’échantillon (X1 , . . . , Xn ) est évidemment une statistique exhaustive. Or,
s’il s’agit d’estimer un paramètre θ de dimension p, on peut s’attendre (si la taille n de
l’échantillon est ≥ p) à ce qu’une statistique exhaustive de dimension p procure un résumé
minimum de l’information. On parle alors de statistique exhaustive minimale (par exemple
pour Pθ = N (µ, σ 2 ) avec θ = (µ, σ 2 ) : (X n , Vn2 ) est certainement une statistique exhaustive
minimale).
- Une statistique Tn∗ est dite exhaustive minimale si elle est exhaustive et si pour toute statis-
tique exhaustive Tn , il existe une fonction u telle que Tn∗ = u(Tn ). Nous n’aborderons pas ici
la recherche d’une statistique exhaustive minimale (cf. les Refs pour plus de détails). On ad-
mettra cependant intuitivement que si Θ ⊂ Rp alors une statistique exhaustive à valeurs dans
Rp est en règle générale minimale. Une statistique qui contiendrait soit une partie seulement
de l’information relative à θ, soit une part superflue, ne saurait être considérée comme un
estimateur adéquat de θ. Nous énonçons donc le principe suivant : tout estimateur pertinent
est fonction d’une statistique exhaustive minimale.

2.7 Choix d’un estimateur


Dans toute cette section, on va se restreindre au cas d’un modèle paramétrique uni-dimensionnel
i.e. P = {Pθ , θ ∈ Θ} avec Θ ⊂ R.

Remarque. Certaines des notions et propriétés que nous allons donner admettent une ex-
tension dans le cas multi-dimensionnel où Θ ⊂ Rp avec p ≥ 2 : cf. Section 2.7.4 pour plus de
2.7. CHOIX D’UN ESTIMATEUR 29

compléments.

2.7.1 Borne FDCR et estimateur efficace


On a défini la notion de risque quadratique comme critère pour choisir entre 2 estima-
teurs d’un même paramètre θ (ou plus généralement d’une fonction g(θ)). Cette section a
pour objectif de montrer que sous de bonnes conditions, la variance d’un estimateur sans
biais d’une fonction g(θ) est minorée par une valeur dépendant de g(θ) et intrinsèque à la
famille de densités (ou fonctions de probabilité) considérée. Ce minorant est appelée Borne de
Cramer-Rao. Parmi les estimateurs sans biais, on cherchera donc l’existence d’un estimateur
de variance minimum qui atteint cette borne, il sera dit efficace.

2.7.2 Score et information de Fisher


Dans le modèle paramétrique P, une notion de quantité d’information contenue dans ce
modèle peut être définie au travers de la densité f : c’est l’information de Fisher (notée I(θ))
qui évalue la faculté de discrimination du modèle entre 2 valeurs proches du paramètre θ.
Ainsi on cherche à mesurer une certaine variabilité : il faut naturellement des hypothèses de
dérivabilité par rapport à θ.

On est donc amené à faire un certain nombre d’hypothèses de régularité sur f pour
pouvoir établir certaines propriétés. Tout d’abord, on reprend celles assurant l’existence de
l’E.M.V :
(H1) le support des lois Pθ est indépendant de θ et est noté : ∆ = {x ∈ X ; f (x, θ) > 0}
(H2) Θ est un ouvert
(H3) la fonction de vraisemblance est 2-fois dérivable par rapport à θ ce qui équivaut à
∂ ∂2
supposer que : f (x, θ) et f (x, θ) sont définies ∀(x, θ) ∈ X × Θ.
∂θ ∂θ2
Dans ce qui suit, on suppose que (H1), (H2) et (H3) sont vérifiées.

Définition 18 - On appelle fonction score du modèle la fonction S définie par :


S : X × Θ −→ R ; (x, θ) 7−→ S(x, θ) = (ln f (x; θ)).
∂θ

La v.a. associée S(X, θ) = (ln f (X; θ)) est appelée v.a. score du modèle.
∂θ
- De plus, si S(X; θ) est de carré intégrable alors sa variance existe. L’information de
Fisher du modèle est la fonction I définie par :

I : Θ −→ R+ ; θ 7−→ I(θ) = Vθ [S(X, θ)] .

2) - Le score de l’échantillon (X1 , . . . , Xn ) est la v.a.r notée Sn (X1 , . . . , Xn ; θ) et définie


par :

Sn (X1 , . . . , Xn ; θ) = (ln L(θ; X1 , . . . , Xn )).
∂θ
30 CHAPITRE 2. ESTIMATION PARAMÉTRIQUE

- De plus, si S(X; θ) est de carré intégrable alors Sn (X1 , . . . , Xn ; θ) l’est aussi.


L’information de Fisher de l’échantillon (X1 , . . . , Xn ) est la fonction notée In et définie
par :

 
In (θ) = Vθ [Sn (X1 , . . . , Xn ; θ)] = Vθ (ln L(θ; X1 , . . . , Xn )) .
∂θ

Remarque. Le score n’est défini que si (H1), (H2) et (H3) sont vraies.

Commentaires. - L’information de Fisher ne dépend pas de X, c’est-à-dire de l’échan-


tillon. Elle ne dépend que de θ et du modèle choisi. C’est une information contenue dans le
modèle sur le paramètre θ.
- Dans la formule : I(θ) = Vθ (S(X, θ)), deux sortes de variabilité interviennent : celle donnée
par la dérivée et celle exprimée par la variance de la v.a. qui en résulte. Il est donc clair que
"I(θ) ou In (θ) grand" traduit une grande variation de la nature des probabilités du modèle au
voisinage de Pθ : la vraie valeur du paramètre inconnu est donc bien discriminée des autres
et c’est en ce sens que I(θ) fournit une information sur le modèle. A l’inverse, si "In (θ) est
petit", on est amené à rechercher l’E.M.V dans une région très vaste.

Notez que l’on a, par définition des scores S et Sn et du lien entre la vraisemblance L et
la densité f , la relation suivante :
n
X
Sn (X1 , . . . , Xn ; θ) = S(Xi ; θ) (2.2)
i=1

qui est une somme de n v.a.r. i.i.d. et de même loi que S(X; θ). Donc on a :

Propriété 1. On a : In (θ) = nI(θ). (2.3)

En renforçant l’hypothèse de régularite du modèle, on peut montrer que les scores sont
des v.a. centrées.
(H4) Conditions d’intégration et de dérivation sous le signe intégral (resp.
somme) dans le cas continu (resp. discret) :
∂ ∂2
les fonctions x 7→ f (x, θ) et x 7→ 2 f (x, θ) sont intégrables et sont telles que :
∂θ ∂θ
- dans le cas continu, on peut dériver deux fois f (x; θ) selon θ sous le signe intégral
i.e. :
∂j ∂j
Z Z
f (x; θ) dx = f (x; θ) dx pour j = 1 et 2.
∂θj X X ∂θ
j

- dans le cas discret, f (x; θ) = Pθ (X = x) et la condition porte sur les sommations en


lieu et place des intégrales i.e. que :
∂j X ∂j
 X
f (x; θ) = f (x; θ) dx pour j = 1 et 2.
∂θj x∈X(Ω) x∈X(Ω)
∂θj
2.7. CHOIX D’UN ESTIMATEUR 31

Remarque. La condition (H4) peut paraître restrictive mais elle est en fait réalisée dans
la plupart des modèles de lois usuelles.

L’hypothèse (H4) assure que les v.a. scores sont centrées. De plus, sous cette hypothèse
(H4), on peut facilement calculer l’information de Fisher : comme le montre la proposition
suivante.

Proposition 2 Si (H4) est vraie, alors :


a) les v.a. scores du modèle et de l’échantillon sont centrées i.e.

Eθ [S(X, θ)] = 0 et Eθ [Sn (X1 , . . . , Xn ; θ)] = 0. (2.4)

b) (Calcul pratique de l’information de Fisher)


" # " #
∂2 ∂2
I(θ) = Vθ (S(X, θ)) = −Eθ (ln f (X; θ)) et In (θ) = nI(θ) = −Eθ (ln L(θ; X1 , . . . , Xn )) .
∂θ2 ∂θ2
(2.5)

Remarque : Dans la pratique, on utilise souvent la dernière formule de (2.5) car ces calculs
font souvent suite à l’étude de l’E.M.V qui a en général nécessité le calcul de la dérivée
première et seconde de la log-vraisemblance par rapport à θ.

Exemple 12 : Déterminer l’information de Fisher In (θ) pour :


1) le modèle de Poisson : Pθ = P(λ) avec θ = λ > 0.
2) le modèle gaussien : Pθ = N (µ, σ 2 ) où θ = µ ∈ R est inconnue mais la variance σ 2 > 0 est
connue.

Démonstration de la Proposition dans le cas continu : pour le cas discret : il faut


dans ce qui suit remplacer les intégrales par des sommes).
Preuve de a) : Comme on vient de le remarquer, on a : Sn (X1 , . . . , Xn ; θ) = ni=1 S(Xi ; θ)
P

est somme de n v.a.r de même loi que la v.a. score du modèle S(X; θ) (l’indépendance n’in-
tervient pas ici) donc par linéarité de l’espérance, il faut et il suffit de démontrer que S(X, θ)
est centrée. Par définition, on a :
∂  ∂

ln f (x; θ) = f (x; θ) f (x; θ)
∂θ ∂θ
donc :
∂ ∂
Z Z    Z
Eθ [S(X, θ)] = S(x, θ) f (x; θ) dx = f (x; θ) f (x; θ) f (x; θ) dx = f (x; θ) dx.
X X ∂θ X ∂θ
Par (H4), on peut permuter différentielle et intégrale d’où :
∂ ∂
Z
Eθ [S(X, θ)] = f (x; θ) dx = (1) = 0
∂θ X ∂θ
32 CHAPITRE 2. ESTIMATION PARAMÉTRIQUE

et la dernière intégrale est égale à 1 pour tout θ puisque f est une densité de probabilité sur X .

Preuve de b) : Si les scores sont centrées, on relie les informations de Fisher aux espérances
des carrés de ces scores via le fait que pour toute v.a.r. Y fonction de X ou de l’échantillon
(X1 , . . . , Xn ) de carré intégrable et centrée, on a : Vθ (Y ) = Eθ (Y 2 ). Par exemple, on a donc :
I(θ) = Eθ (S(X; θ)2 ).
 ∂2 
Donc il suffit (par la Propriété 1) de montrer que Eθ (S(X; θ)2 ) = −Eθ

2
ln f (X; θ) .
∂θ
- Pour cela, on part de cette espérance. Or on a :
2
∂2  ∂2 ∂
  
ln f (x; θ) = f (x; θ) f (x; θ) − f (x; θ) f (x; θ)
∂θ2 ∂θ2 ∂θ

donc l’espérance associée donne :

 ∂2  ∂2
Z
f (x; θ) dx − Eθ (S(X; θ)2 ).

Eθ ln f (X; θ) =
∂θ2 X ∂θ2
Il s’agit donc de montrer que l’intégrale par rapport à X ci-dessus est nulle. Par (H4), on
∂2
peut permuter le signe intégrale (resp. somme dans le cas discret) et la dérivée seconde ∂θ 2
donc on a :
∂2 ∂2 ∂2
Z Z
2
f (x; θ) dx = 2
f (x; θ) dx = 2 (1) = 0. 
X ∂θ ∂θ X ∂θ

2.7.3 Borne FDCR et efficacité


On suppose de plus que l’information de Fisher existe et est inversible (i.e. non nulle) :
(H5) 0 < I(θ) < +∞ (ou 0 < In (θ) < +∞).

Définition 19 Si les 5 hypothèses (H1) à (H5) sont vérifiées, on dit que le modèle est
régulier.

Même si ces hypothèses paraissent lourdes, beaucoup de modèles de lois usuelles sont réguliers.
Le résultat suivant donne une minoration de la variance pour les estimateurs sans biais
de θ :

Théoreme 3 Inégalité de Cramer-Rao. (Version simple)


On suppose que le modèle est régulier. Soit Tn = t(X1 , . . . , Xn ) estimateur sans biais de θ à
valeurs dans R et telle que : Vθ (Tn ) < ∞ pour tout θ ∈ Θ. On suppose que que la condition
de régularité (*) du Théorème 4 est statisfaite. Alors :

1
∀θ ∈ Θ, Vθ (Tn ) = Eθ [(Tn − θ)2 ] ≥ = 1/In (θ). (2.6)
nI(θ)

Définition 20 — La partie de droite de (2.6) est appelée borne de Cramer-Rao (ou


borne FDRC) du modèle pour le paramètre θ (FDRC pour Fréchet, Darmois,
Cramer et Rao). Nous la noterons Kn (θ). Cette notion dépend de l’estimateur et du
modèle.
2.7. CHOIX D’UN ESTIMATEUR 33

— Un estimateur Tn de θ est dit efficace si c’est un estimateur sans biais de θ ET s’il


atteint la borne FDCR du modèle i.e. si : Vθ (Tn ) = Kn (θ) = 1/In (θ) pour tout θ ∈ Θ.
Kn (θ)
— Si Tn est un estimateur sans biais de θ qui n’est pas efficace, mais que →1
Vθ (Tn )
quand n → +∞, on dit que Tn est un estimateur asymptotiquement efficace de
θ.

Exercice : 1) Modèle de Poisson Pθ = P(λ) : λ̂M M V = X est un estimateur efficace


n = λ̂n n
de λ.
2) Le modèle gaussien Pθ = N (µ, σ 2 ) avec σ connue : µ̂M = µ̂M V = X n est un estimateur
efficace de µ.

Remarques. - Un estimateur efficace est donc préférable à tout autre estimateur sans biais.
Toutefois, il peut exister un estimateur biaisé qui lui soit préférable.
La borne FDCR peut ne pas être atteinte (on peut en fait caractériser les modèles et les pa-
ramètres pour lesquels il existe un estimateur qui atteint la borne FDCR : ce sont les modèles
appartenant à ce qu’on appelle la classe exponentielle des lois, ).
- L’efficacité fait le lien entre l’estimation et la théorie de l’information : plus l’information
de Fisher est grande et plus la borne de Cramer Rao est petite i.e. plus on a de chances de
trouver un estimateur de faible variance.

Si l’on s’intéresse à l’estimation d’une fonction g(θ) de θ, le théorème suivant donne des
propriétés analogues à celles du précédent.

Théoreme 4 : Inégalité de Cramer-Rao. On suppose que le modèle est régulier. Soit Tn =


t(X1 , . . . , Xn ) une statistique à valeurs dans R et telle que : Vθ (Tn ) < ∞ pour tout θ ∈ Θ.
De plus, si Tn est un estimateur sans biais de g(θ) (donc g(θ) = Eθ (Tn )) et si on a :
Condition (*) : la dérivée g 0 (θ) i.e. la dérivée en θ de l’espérance Eθ (Tn ), peut s’obtenir
∂ R P
en permutant ∂θ et l’intégrale X n (resp. la somme x∈X n ) dans le cas continu (resp.
discret).
Alors : 2
g 0 (θ) 2
∀θ ∈ Θ, Rg(θ) (Tn ) = Vθ (Tn ) ≥ = g 0 (θ) /In (θ). (2.7)
nI(θ)

Remarques. Les définitions pour (2.7) de borne de Cramer-Rao (ou FDRC), d’efficacité
et d’efficacité asymptotique de l’estimateur Tn pour g(θ) se généralisent sans difficulté.
34 CHAPITRE 2. ESTIMATION PARAMÉTRIQUE

2.7.4 Compléments : Généralisation au cas multi-dimensionnel


Considérons Θ ⊂ Rp avec p ≥ 2 c’est-à-dire l’estimation simultanée des p composantes
(θ1 , . . . , θp ) de θ.
• La notion de biais d’un estimateur s’étend facilement : si Tn = (Tn1 , . . . , Tnp ) est un estima-
1 p

teur de θ, son biais est le vecteur des biais : bθ (Tn ) = Eθ (Tn ) − θ1 , . . . , Eθ (Tn ) − θp .
• Pour ce qui est de l’extension de la notion de risque quadratique : plusieurs options sont
possibles. Souvent, on considère la matrice de covariance de Tn lorsque celui-ci est sans biais
ou de Tn − θ sinon : la raison est que le déterminant de cette matrice mesure le volume de la
dispersion de Tn autour de sa moyenne.
Rappel : si Tn = (Tn1 , . . . , Tnp ) est un vecteur aléatoire à valeurs dans Rp et dont toutes les
composantes sont de carré intégrable alors la matrice de covariance de Tn notée Γθ (Tn ) est
la matrice symétrique :
 
Γθ (Tn ) = covθ (Tni , Tnj ) avec covθ (Tni , Tnj ) := Eθ (Tni Tnj ) − Eθ (Tni )Eθ (Tnj ).
1≤i,j≤p

Une fois le critère de risque quadratique choisi, on pourra parler d’estimateur dominant.

• Les résultats de Cramer-Rao se généralisent eux aussi de la manière suivante :

Comme pour l’E.M.V (cf. pages 6-7), on suppose que le modèle vérifie (H1),(H2) et (H3’).
- L’information de Fisher du modèle est ici une matrice carrée d’ordre p. C’est la matrice
I(θ) définie par I(θ) = (Ii,j (θ))1≤i,j≤p avec :
" #
∂ ∂
(I(θ))i,j = Eθ ln f (X; θ) ln f (X; θ) . (2.8)
∂θi ∂θj

- Hypothèse (H4’) et Condition (*’) : L’hypothèse (H4) et la Condition (*) du Théorème 4


∂ ∂2
se généralisent en remplaçant les dérivées première et seconde i.e. resp. ∂θ f (x; θ) et ∂θ 2 f (x; θ)

par les dérivées partielles premières et secondes i.e. resp. par ∂θi f (x; θ) pour 1 ≤ i ≤ p et
∂2
pour 1 ≤ i, k ≤ p.
∂θi ∂θk f (x; θ)
Sous (H4’), on a la formule pratique suivante pour le calcul de la matrice d’information de
Fisher :
" #
∂2
pour tout 1 ≤ i, j ≤ p, (I(θ))i,j = −Eθ ln f (X; θ) . (2.9)
∂θi ∂θj
- L’hypothèse (H5’) qui généralise (H5) est : la matrice I(θ) existe et est inversible.

Théoreme 5 : Inégalité de Cramer-Rao dans le cas multi-dimensionnel.


On considère un modèle paramétrique multi-dimensionnel P = {Pθ , θ ∈ Θ} avec Θ ⊂ Rp et
p ≥ 2.
Le modèle est régulier i.e. : les hypothèses (H1),(H2),(H3’),(H4’) et (H5’) sont satis-
faites. Soit Tn = (Tn1 , . . . , Tnp ) une statistique telle que sa matrice de covariance Γθ (Tn )
existe pour tout θ ∈ Θ. On suppose que Tn est un E.S.B. de g(θ) i.e. : g(θ) = Eθ (Tn ) =
2.7. CHOIX D’UN ESTIMATEUR 35

Eθ (Tn1 ), . . . , Eθ (Tnp ) ∈ Rp .


On suppose de plus que Tn satisfait la condition (*’).


Sous toutes ces conditions, g est différentiable. On note g 0 (θ) la matrice des dérivées de g(θ) :

g 0 (θ) est de dimension p × p avec g 0 (θ) i,j = (Eθ (Tni )). Alors la matrice de covariance

∂θj
Γθ (Tn ) vérifie :
1 0 1 0
∀θ ∈ Θ : Γθ (Tn ) ≥ g (θ)I −1 (θ)g 0 (θ)t i.e. Γθ (Tn ) − g (θ)I −1 (θ)g 0 (θ)t est définie positive.
n n
(2.10)

Remarque : Une matrice réelle carrée d’ordre p est définie positive si son opposé -A est
une matrice définie négative

Corollaire 1 : Inégalité de Cramer-Rao dans le cas multi-dimensionnel.


Sous les conditions précédentes, si Tn est un E.S.B. de θ alors la matrice de covariance Γθ (Tn )
vérifie :
1 −1 1 −1
∀θ ∈ Θ : Γθ (Tn ) ≥ I (θ) i.e. que la matrice Γθ (Tn ) − I (θ) est définie positive.
n n
(2.11)

2.7.5 La classe exponentielle de lois


Dans cette section, nous étudions une "jolie famille de lois" appelée classe exponentielle
qui regroupe une bonne partie des lois usuelles et pour laquelle on démontre facilement des
résultats d’existence de stat exhaustive, d’estimateur sans biais de variance minimale, etc ...
Définition 21 Soit un modèle régulier de lois (f (x; θ); θ ∈ Θ ⊂ Rk ). On dit que le modèle
appartient à la classe exponentielle de lois s’il existe des fonctions a, c1 , c2 , . . . , ck de Θ dans
R et b, d1 , . . . , dk de R dans R et A mesurable inclut dans R tels que f (x; θ) peut s’écrire :

(f (x; θ) = a(θ)b(x) exp(c1 (θ)d1 (x) + c2 (θ)d2 (x) + . . . + ck (θ)dk (x))1A (x) ∀x ∈ R (2.12)

Remarques :
— Le nombre de ci est égal à la dimension de θ
— Le support de la loi doit être indépendant de θ, car cette forme ne permet pas l’ap-
parition d’une indicatrice dépendant de θ (1{x∈[0,θ]} par exemple). La loi uniforme sur
[0, θ] n’est pas dans la classe exponentielle.
— Montrer que les lois de Bernouilli (θ = p), de Poisson θ = λ, la loi normale (θ = (µ, σ 2 ))
sont des lois de la classe exponentielle

Proposition 3 Soit X dont la loi appartient à la classe exponentielle (f (x; θ); θ ∈ Θ ⊂ Rk ),


alors avec les notations de la définition 21, la statistique
n
X n
X n
X
Tn = ( d1 (Xi ), d2 (Xi ), . . . , dk (Xi )) (2.13)
i=1 i=1 i=1

est une statistique exhaustive.


36 CHAPITRE 2. ESTIMATION PARAMÉTRIQUE

La démonstration est immédiate par le théorème de factorisation ??.

Exemple : Donner une statistique pour les lois de Bernouilli (θ = p), de Poisson (θ = λ),
la loi normale (θ = (µ, σ 2 )) , la loi de Pareto f (x; θ) = θaθ x−(θ+1) , la loi beta f (x; θ) =
Γ(α+β+2) −(α) (1 − x)β 1
Γ(α+1)Γ(β+1) x {x∈]0,1[} . (θ = (α, β))

Proposition 4 Soit X dont la loi discrète appartient à la classe exponentielle avec un pa-
ramètre de dimension 1, (f (x; θ); θ ∈ Θ ⊂ R), alors avec les notations de la définition 21,
la famille de distribution de la statistique exhaustive T (X1 , . . . , Xn ) = ni=1 d1 (Xi ) notée
P

(g(x; θ); θ ∈ Θ ⊂ R) est une famille exponentielle discrète à 1 paramètre

Démonstration :
X
Pθ (T (X) = t) = Pθ (x)
(x)/T (x)=t
X n
Y
= a(θ)n [b(xi ) exp(c1 (θ)d1 (xi ))1A (xi )]
(x)/T (x)=t i=1
 
X n
Y
= a(θ)n  b(xi ) exp(c1 (θ)t)1A∗ (t)
(x)/T (x)=t i=1

(on utilise la notation x = (x1 , . . . , xn ) pour des raisons de place et on note A∗ , l’image de
A × . . . × A par (x1 , . . . , xn ) → ni=1 d1 (xi )).
P

Théoreme 6 de Rao Blackwell Soit X dont la loi appartient à la classe exponentielle


(f (x; θ); θ ∈ Θ ⊂ Rk ), alors avec les notations de la définition 21, la statistique
n
X n
X n
X
Tn = ( d1 (Xi ), d2 (Xi ), . . . , dk (Xi )) (2.14)
i=1 i=1 i=1

est une statistique exhaustive complète.

Corollaire 2 Si Θ ⊂ R, si la famille des lois du modèle (f (x; θ); θ ∈ Θ) est exponentielle,


s’il existe une statistique fonction de la statistique minimale ni=1 d(Xi ) qui soit sans biais
P

pour θ, alors elle est unique et elle est de variance minimale pour θ.

Corollaire 3 On déduit de la proposition précédente que dans une situation de sondage, une
proportion observée est sans biais de variance minimale pour la proportion correspondante p
de la population.

2.8 Normalité asymptotique


2.8.1 Normalité Asymptotique de l’E.M.V.
Sous les hypothèses de régularité (H1) à (H5) (qui garantissent l’existence de l’E.M.V
θ̂nM Vet l’inégalité de Cramer-Rao), on peut montrer que l’E.M.V θ̂nM V de θ est un estimateur
2.8. NORMALITÉ ASYMPTOTIQUE 37

(au moins) faiblement convergent de θ. Ici, on va préciser la vitesse de convergence lorsque


n → +∞ i.e. le comportement de la suite θ̂nM V − θ.
Rappels sur la convergence en loi
Rappel : la loi d’une v.a.r Y est déterminée de manière unique par la donnée de sa fonction
de répartition FY définie par : pour tout t ∈ R, FY (t) := P[Y ≤ t].

Définition 22 On dit qu’une suite de v.a.r. (Yn )n∈N définies sur le même espace probabilisé
L
(Ω, F, P) converge en loi vers une v.a.r. Y et on note Yn −→ Y si :

lim FYn (t) = FY (t) en tout point t de continuité de la fonction de répartition FY .


n→∞

Notez qu’il existe d’autres définitions équivalentes de la convergence en loi.

Propriété : si (Yn ) converge en probabilité vers une v.a.r. Y alors (Yn ) converge en loi vers Y .

Rappel 3 : Théorème Central Limite (TCL). Soit (Yn )n∈N une suite de v.a. réelles
indépendantes, de même loi (i.i.d.) et de carré intégrable avec µ = E(Y1 ) et σ 2 = Var(Y1 ).
Alors la moyenne empirique
n
1X √ Yn−µ L
Yn = Yi vérifie n −→ N (0, 1) si n → +∞.
n i=1 σ

En particulier : pour tous réels a < b, on a lorsque n → +∞ :


" √ # Z b
n 1 2 /2
P a< (Y n − µ) ≤ b −→ P [a < Z ≤ b] = √ e−x dx où Z ∼ N (0, 1).
σ 2π a

Application : dans la pratique, si Y1 est une v.a.r quantitative continue alors, dès que n ≥ 30,
on fera l’approximation de la loi de Y n par la loi normale N (µ, σ 2 /n).

Définition 23 Une suite d’estimateurs (Tn ) de θ est dite asymptotiquement normale si



pour tout θ ∈ Θ, la suite n (Tn − θ) converge en loi vers une loi gaussienne N (0, v(θ)).

Remarque : Pour établir la normalité asympotique, on a souvent recours au TCL. Le théo-


rème suivant donne la normalité asymptotique de l’E.M.V. sous les hypothèses "habituelles"
pour l’E.M.V.

Théoreme 7 : Soit X une v.a. de loi inconnue QX issue d’un modèle paramétrique P =
{Pθ , θ ∈ Θ} avec Θ ⊂ R. On suppose ici que les conditions de régularité (H1) à (H5) sont
vérifiées.
Soit (X1 , . . . , Xn ) un n-échantillon i.i.d. de même loi que X. Alors :
√  MV 
L 1 q  
L
n θ̂n − θ −→ N (0, ) soit encore : In (θ) θ̂nM V − θ −→ N (0, 1).
I(θ)
(2.15)
38 CHAPITRE 2. ESTIMATION PARAMÉTRIQUE

Nous admettrons ce résultat très important qui explique que l’EMV est très utilisé en
pratique puisqu’il implique les propriétés suivantes :
1. θ̂nM V est un estimateur asymptotiquement sans biais de θ.
2. θ̂nM V est asymptotiquement efficace (i.e. Vθ (θ̂nM V ) se rapproche de la borne de Cramer-
Rao : 1/In (θ)).
3. θ̂nM V converge vers θ en moyenne quadratique.
4. θ̂nM V devient gaussien quand n grandit. Application : pour l’estimation par intervalle
de confiance.
5. Ainsi, par i) et ii) : si on a beaucoup de données, l’E.M.V est en général le meilleur
estimateur possible.
V = X et √n X − λ −→ L
 
Exemple 14 : Pour le modèle de Poisson Pθ = P(λ), on a λ̂M n n n
N (0, λ). (Ce résultat est en fait une application directe du TCL puisque si X ∼ P(λ) on a :
E(X) = V(X) = λ).

Exemple 15 : Modèle exponentiel Pθ = E(λ) : étudier la normalité asymptotique de


λ̂M V = 1/X n .

Remarque. Pour le modèle non régulier Pθ = U(0, θ), on a vu que θ̂nM V = X(n) =
max1≤i≤n Xi est un estimateur convergent de θ. Parcontre, la conclusion
 du Théorème pré-
cédent n’est pas vérifiée ici : on peut démontrer que n (θ − X(n) ) converge en loi vers la loi
exponentielle E(1/θ).

• On a aussi un résultat de normalité asymptotique qui étend le résultat du Théorème 3 au


cas multi-dimensionnel. Ici, comme on travaille avec des vecteurs de Rp : il faut adapter la
définition de convergence en loi (cf. un cours classique de Probabilités). Et alors la loi limite
est celle d’un vecteur gaussien de Rp .

Théoreme 8 : Normalité asymptotique de l’E.M.V.


Considérons un modèle paramétrique multi-dimensionnel P = {Pθ , θ ∈ Θ} avec Θ ⊂ Rp et
p ≥ 2.
On suppose ici que le modèle vérifie les conditions de régularité du Théorème 4. Alors :
√  MV 
L
n θ̂n − θ −→ Np (0, I −1 (θ)) lorsque n → +∞ (2.16)

où Np (0, I −1 (θ)) est la loi d’un vecteur gaussien de Rp qui est centré et de matrice de cova-
riance égale à I −1 (θ) (la matrice inverse de l’information de Fisher).

Application : ce résultat montre ici aussi que l’E.M.V. a de bonnes propriétés. De plus, il est
souvent utilisé pour calculer des régions de confiance du vecteur inconnu θ ∈ Rp (ellipsoïdes
de confiance).
2.9. ESTIMATION PAR INTERVALLE DE CONFIANCE 39

2.8.2 Un autre exemple de normalité asymptotique : la méthode delta


Théoreme 9 On se donne une suite (Un )n∈N de vecteurs aléatoires de Rm , une suite de réels
déterministes (an )n∈N et une application ` : Rm → Rp tels que
(i) an → +∞
(ii) il existe U ∈ Rm , un vecteur déterministe et un vecteur aléatoire V tels que

L
an (Un − U ) −→ V

(iii) ` est une fonction différentiable en U , de différentielle notée D`(U ) ∈ Mp,m (R).
Alors, on a la convergence en loi

L
an (`(Un ) − `(U )) −→ D`(U ) × V

On pense évidemment à un corollaire du T.C.L. et du Théorème 9 lorsque la loi des Xi



admet un moment d’ordre 2 avec Un = X̄n , an = n et ` vérifiant (iii). On a alors

Corollaire 4 Soit (X1 , . . . , Xn ) un n-échantillon de vecteurs de Rm de loi commune admet-


tant un moment d’ordre deux, d’espérance µ et de matrice de variance-covariance Σ. Si ` est
une fonction différentiable en µ de différentielle notée Dl(µ), alors
√ L
 
n(`(X̄n ) − `(µ)) −→ N 0, Dl(µ)ΣDl(µ)t

2.9 Estimation par intervalle de confiance


Jusqu’à maintenant nous avons proposé un estimateur ponctuel Tn d’un paramètre θ mais
nous savons que dans de nombreux cas, la loi de cet estimateur est soit connue, soit connue
"asymptotiquement" comme pour l’E.M.V. et elle est liée à θ. Aussi nous pouvons assortir
cette estimation ponctuelle d’un intervalle dit intervalle de confiance car nous mesurons la
confiance accordée à l’assertion : le paramètre réel θ inconnu appartient à cet intervalle

Définition 24 Soit α ∈ [0, 1], l’ensemble aléatoire C(Tn ) est une région de confiance au
niveau (1 − α) pour θ si pour tout θ ∈ Θ,

Pθ (g(θ) ∈ C(Tn )) ≥ 1 − α

Définition 25 Soit α ∈ [0, 1], l’ensemble aléatoire C(Tn ) est une région de confiance au
niveau (1 − α) au niveau asymptotique pour g(θ) si pour tout θ ∈ Θ,

lim Pθ (g(θ) ∈ C(Tn )) ≥ 1 − α


n→∞
40 CHAPITRE 2. ESTIMATION PARAMÉTRIQUE

Les régions de confiance sont généralement des intervalles mais même dans ce cas, elles ne
sont en général pas unique. C’est pourquoi, en l’absence de contrainte liée à la question,
on donnera un intervalle centré bilatère centré (ie C(Tn ) = [A(Tn ); B(Tn )] avec Pθ (g(θ) ≤
A(Tn )) et Pθ (g(θ) ≥ B(Tn )) ≤ α/2) ou unilatère à droite ou à gauche (ie de la forme
C(Tn ) = [−∞; B(Tn )] ou [A(Tn ); +∞]). Dans tous les cas, on parle d’intervalles de confiance.
Il est à noter que g(θ) n’est pas une variable aléatoire, c’est bien l’intervalle de confiance qui
est aléatoire puisqu’il dépend du vecteur aléatoire échantillon (X1 , . . . Xn ). Il faut donc être
très prudent lorsqu’une fois les valeurs de l’échantillon observée (x1 , . . . xn ), l’intervalle n’est
plus aléatoire [A(tn ); B(tn )] n’est plus aléatoire, on ne peut donc plus parler de probabilité.
Le statisticien quand il propose cet intervalle comme intervalle de confiance pour g(θ) prend
donc un risque de se tromper qui est de α.
La construction des intervalles de confiance comme les tests statistiques que nous verrons
par la suite, utilise la loi ou la loi asymptotique de l’estimateur Tn . Si on connaît cette loi,
on peut prévoir un intervalle de prévision pour Tn avec une probabilité. Pour cela, on définit
les quantiles d’une loi.

Définition 26 Soit α ∈ [0, 1], on appelle quantile d’ordre α de la loi de variable aléatoire X
à support dans le réel qα défini par

qα = inf {x ∈ R tel que P(X ≤ x) ≥ α}

Les quantiles sont donnés généralement dans des tables, par des fonctions de Excel (atten-
tion la syntaxe est différente suivant les lois, des vérifications sont nécessaires !) ou par les
calculatrices et les logiciels de statistiques.

Exercice : Montrer que lorsque (X1 , . . . , Xn ) est un échantillon i.i.d. d’un loi N (µ, 1),
alors si zα est le quantile d’ordre α de la loi N (0, 1),
z1−α/2 z1−α/2
[X̄n − √ ; X̄n + √ ]
n n

est une intervalle de confiance bilatéral de niveau (1 − α) pour µ.


La méthode utilisée dans l’exercice précédent s’appelle la méthode du pivot : elle consiste,
quand c’est possible à faire une transformation de la statistique de sorte que sa loi ne dépende

plus du paramètre θ. Ici n(X̄n − µ) ' N (0, 1).
A l’aide des inégalités connus de la littérature probabiliste, on peut écrire des intervalles
de confiance, mais ils ne sont pas exacts.

Exercice : Montrer que lorsque (X1 , . . . , Xn ) est un échantillon i.i.d. d’une Bernouilli de
paramètre p ∈]0, 1[, l’intervalle aléatoire

1 1
[X̄n − √ ; X̄n + √ ]
2 nα 2 nα

est une procédure d’intervalle de confiance bilatéral de niveau (1 − α) pour µ. Que donne
l’intervalle de confiance asymptotique issu du théorème de Moivre-Laplace ?
2.9. ESTIMATION PAR INTERVALLE DE CONFIANCE 41

2.9.1 Les intervalles de confiances dans le modèle gaussien


Soit (X1 , . . . , Xn ) est un échantillon i.i.d. d’une loi N (µ, σ 2 ) alors les intervalles suivants
sont des procédures d’intervalles de confiance pour µ et σ 2 respectivement :

t1−α/2 (n − 1)Ŝn t1−α/2 (n − 1)Ŝn


[X̄n − √ ; X̄n + √ ]
n n
(n − 1)Ŝn2 (n − 1)Ŝn2
[ ; ]
q1−α/2 (n − 1) qα/2 (n − 1)

où tα (k) (resp qα (k)) est le quantile d’ordre α de la loi de Student à k degrés de liberté (resp.
1 Pn 2 2
de la loi du chi-deux) et Ŝn = n−1 i=1 (Xi X̄n ) est l’estimateur sans biais de la variance σ .
42 CHAPITRE 2. ESTIMATION PARAMÉTRIQUE
Chapitre 3

Tests d’hypothèses statistiques

3.1 Aspects théoriques


Dans tous les domaines, de l’expérimentation scientifique à la vie quotidienne, on est
amené à prendre des décisions sur une activité risquée au vu de résultats d’expériences ou
d’observations de phénomènes aléatoires. Par exemple :
• essais thérapeutiques : décider si un nouveau traitement médical est meilleur qu’un
ancien au vu du résultat de son expérimentation sur des malades.
• informatique : au vu des résultats des tests d’un nouveau système informatique, on
doit décider si ce système est suffisamment fiable et performant pour être mis en vente.
• finance : au vu du marché, décider si on doit ou pas se lancer dans une opération
financière donnée.
Dans chaque cas, le problème de décision consiste à trancher, au vu d’observations, entre
deux hypothèses. Un test d’hypothèses est une procédure statistique qui permet de choisir
entre ces deux hypothèses. En plus de la décision, le statisticien va annoncer le risque d’erreur
qu’il prend dans sa décision.

D’un point de vue mathématique, on considère une variable aléatoire X définie sur un
espace probabilisé (Ω, F, P) (en général ici réelle ou à valeurs dans Rd avec d ≥ 2 entier).
La loi de X est une probabilité inconnue notée QX . On suppose que cette loi QX appar-
tient un modèle statistique P = {Pθ , θ ∈ Θ} (non nécessairement paramétrique). On note
(X1 , . . . , Xn ) un n-échantillon associé.
L’objectif général des tests d’hypothèses est de préciser P : ces tests statistiques consistent à
formuler des hypothèses sur P puis à apporter un jugement sur ces hypothèses. Ce jugement
est basé sur les observations (x1 , . . . , xn ) de l’échantillon (X1 , . . . , Xn ) du modèle ainsi que
sur l’acceptation d’un certain risque d’erreur dans la prise de décision.

3.1.1 Notion d’hypothèses


Définition 27 On appelle hypothèse l’énoncé de toute propriété relative à P.

Supposer une telle hypothèse vraie, c’est se restreindre à un sous-ensemble de P.

43
44 CHAPITRE 3. TESTS D’HYPOTHÈSES STATISTIQUES

Remarque. Une hypothèse est une propriété portant sur le paramètre inconnu θ (ou plus
généralement sur une fonction g(θ) de θ). Elle se formule donc sous la forme : “θ appartient
à un certain sous-ensemble Θ0 de Θ”.

Exemple 1 :
1) Si P est la famille des lois continues sur R, on peut faire par exemple l’hypothèse H0 : la
loi considérée QX est une loi normale.
2) Si P est la famille des probabilités sur R admettent une espérance, on peut faire par
exemple l’hypothèse H0 : la moyenne est nulle. Autrement dit, si on note µ l’espérance in-
connue de QX , on veut donc tester : "H0 : µ = 0".
3) Si la variable aléatoire X considérée est un couple de R2 noté (Y, Z), on peut faire par
exemple l’hypothèse H0 : les v.a.r. Y et Z sont indépendantes.

Définition 28 L’hypothèse considérée a priori, notée H0 , est appelée l’hypothèse nulle.


L’hypothèse prise en compte si H0 n’est pas retenue est appelée l’hypothèse alternative et
sera notée H1 .Les hypothèses H0 et H1 ne peuvent pas arriver simultanément mais ne sont
pas forcément complémentaires. Ces hypothèses se formulent sous la forme :

H0 : θ ∈ Θ0 et H1 : θ ∈ Θ1 où Θ0 et Θ1 sont deux sous-ensembles disjoints de Θ.

Remarques. Nous verrons plus tard (section 3.1.3) que les hypothèses H0 et H1 ne jouent
pas des rôles symétriques et qu’il faudra les choisir soigneusement.

3.1.2 Notion de test


Définition 29 On appelle test statistique (ou test d’hypothèses), toute règle de décision
permettant de choisir entre H0 et H1 dans un modèle statistique P.

Description de la Règle de décision d’un test statistique de H0 contre H1 :


a) on construit une statistique Tn = t(X1 , . . . , Xn ) appelée statistique de test. Tn sera
à valeurs dans R si θ est réel (ce qui sera le cas en général dans ce cours),
b) si Tn sera à valeurs dans R, alors on définit une partition de R en deux classes :
• un domaine W (qui sera un intervalle ou une réunion d’intervalles) appelé région

critique du test ou région de rejet du test


• et son complémentaire A = W = R \ W appelé région de non-rejet du test.

c) La règle de décision dit, au vu d’une serie d’observations (x1 , . . . , xn ) de l’échantillon


(X1 , . . . , Xn ) si on rejette H0 ou si on ne la rejette pas (i.e. "on l’accepte"). Plus
précisément, si tn désigne la valeur observée de Tn i.e. tn = t(x1 , . . . , xn ) alors :
– si tn ∈ RC, on rejette H0 i.e. on choisit H1 . On dit alors que le test est significatif.
– sinon, tn ∈ / W et on ne rejette pas H0 . On dit que le test est non significatif. On
ne rejette pas H0 par défaut : en fait, dans ce cas, rien ne contredit H0 mais cela
ne veut pas dire que cette hypothèse est vraie.
Donnons maintenant une formulation mathématique de la notion de test
3.1. ASPECTS THÉORIQUES 45

Définition 30 On appelle test statistique (ou test d’hypothèses), toute fonction aléa-
toire Φ(Tn ) à valeur dans {0, 1}, où Tn est une statistique issue d’un échantillon de va i.i.d.
de loi P et φ est mesurable et peut dépendre de H0 et H1 . Lorsque Φ(Tn ) = 0 on conserve H0
et lorsque Φ(Tn ) = 1, on rejette H0 pour H1 .
Ainsi avec la description de la règle donnée ci-dessous, Φ(Tn ) = 1{Tn ∈W}

3.1.3 Risques d’erreur dans un test


Faire un test conduit à prendre des décisions dans un “univers aléatoire". Cela peut donc
conduire à des erreurs : rejeter H0 alors qu’elle est vraie ou l’accepter alors qu’elle est fausse :

Réalité (inconnue) Réalité (inconnue)


H0 H1
Décision : H0 bonne décision erreur de deuxième espèce
Décision : H1 erreur de première espèce bonne décision

Définition 31 1) On appelle risque la probabilité de faire une erreur de décision.


2) Le risque de première espèce est la probabilité de rejeter H0 à tort. Elle est notée :

α = P(rejeter H0 alors que H0 est vraie)

ce que l’on note (même si ce n’est pas une probabilité conditionnelle usuelle) :

α = P(rejet de H0 |H0 vraie).

On l’appelle aussi niveau du test ou niveau de signification ou seuil.


3) Le risque de deuxième espèce est la probabilité d’accepter H0 à tort :

β = P(accepter H0 alors que H0 est fausse) = P(accepter H0 |H0 fausse).

4) On appelle puissance d’un test la probabilité suivante :

π = 1 − β = P(rejeter H0 |H0 fausse).

C’est la capacité du test à détecter une hypothèse nulle fausse.

En fait cette définition n’est pas tout à fait précise car quand H0 ou H1 n’est pas réduit à
un singleton, les risques α et β dépendent de θ. Dans l’utilisation courante des tests, H0 est
très souvent réduite à un singleton aussi α est bien définie et surtout bien compréhensible
mais dans la pratique et l’étude des propriétés mathématiques des tests, on a besoin d’une
définition plus rigoureuse, que nous donnons ici :
Définition 32 Les risques de première espèce et de seconde espèce du test Φ(Tn ) sont définis
respectivement comme les fonctions α sur Θ0 et β sur Θ1 par :
α Θ0 → [0, 1] et β Θ1 → [0, 1]
θ → Pθ (Φ(Tn ) = 1) θ → Pθ (Φ(Tn ) = 0)

On définit la puissance du test comme la fonction 1−β et la taille α∗ du test par maxθ∈T heta0 α(θ).
46 CHAPITRE 3. TESTS D’HYPOTHÈSES STATISTIQUES

Commentaires sur le choix des hypothèses H0 et H1 :


• L’idéal serait évidemment de trouver une procédure qui minimise les deux risques d’erreur

α et β en même temps. Malheureusement, ils varient en sens inverse : c’est-à-dire que toute
procédure diminuant α va augmenter β et réciproquement. Dans la pratique, on va donc
considérer que l’une des deux erreurs est plus grave que l’autre, et tâcher d’éviter que cette
erreur se produise. Il est alors possible que l’autre erreur survienne. On va choisir pour H0 ,
l’hypothèse que l’on ne souhaite surtout pas voir rejetée à tort : donc H0 et H1 sont choisies
de sorte que l’erreur que l’on cherche à éviter soit l’erreur de première espèce α.
• Mathématiquement cela revient à se fixer la valeur du seuil du test α petit : les valeurs
usuelles de α sont 10%, 5%, 1%. La région de rejet du test dépend donc de α et sera notée
Wα . Noter qu’on ne contrôle pas l’erreur de 2ème espèce β puisqu’elle est déterminée à partir
de α et de la région de rejet Wα .
• Par conséquent, dans un problème de test, il faut choisir les hypothèses H0 et H1 de façon à
ce que ce qui soit vraiment intéressant, c’est de rejeter H0 . L’hypothèse H0 est choisie comme
suit :
- c’est une hypothèse communément établie (en vigueur jusque-là),
- c’est une hypothèse de prudence (critère de coût, de sécurité, . . . ).

Exemple 3 : Dans un tribunal, un jury doit se prononcer sur la culpabilité d’un accusé.
a) En France, le principe est que tout accusé est présumé innocent.
Enoncer les hypothèses du test puis les risques de 1ère espèce et de 2ème espèce correspon-
dants.
b) Dans une dictature, un tyran décide qu’il ne veut prendre aucun risque et qu’il préfère
garder en prison une personne dès qu’il a le moindre soupçon sur elle. Commenter.

Commentaires sur la conclusion d’un test : puisqu’on contrôle le risque α mais pas le
risque β, le rejet de H0 est une vraie décison tandis que son acceptation est plutôt un défaut
de rejet. Par exemple, si on n’a pas de preuve qu’un accusé est coupable, cela ne veut pas
forcément dire qu’il est innocent (et réciproquement). Ainsi, il vaut mieux dire "ne pas rejeter
H0 " plutôt que "accepter H0 ". En effet, si on rejette H0 : c’est que les observations sont telles
qu’il est très improbable (α petit) que H0 soit vraie. Si on ne rejette pas H0 : c’est qu’on ne
dispose pas de critères suffisants pour pouvoir dire que H0 est fausse, mais cela ne veut pas
dire que H0 est vraie. Donc : un test permet de dire qu’une hypothèse est très probablement
fausse ou seulement peut-être vraie.

Récapitulons l’ensemble de la démarche à suivre pour effectuer un test d’hypo-


thèses :
1) Choisir H0 et H1 de sorte que ce qui importe, c’est de contrôler l’erreur de rejet de H0
à tort.
2) Se fixer le seuil α selon la gravité des conséquences de l’erreur de première espèce.
3) Choisir la statistique de test Tn = t(X1 , . . . , Xn ) puis déterminer la région critique (ou
de rejet) Wα associée (cette région dépend de α).
3.1. ASPECTS THÉORIQUES 47

Notez que la loi de Tn sous H0 (i.e. lorsque l’hypothèse H0 est vraie) doit être connue
puisque par définition, on a : α = P(Tn ∈ Wα |H0 ).
4) Regarder si les observations se trouvent ou pas dans Wα .
5) Conclure au rejet ou au non-rejet de H0 .

Exemple 4 : Supposons que 2 machines A et B produisent le même produit mais que A


fabrique un produit plus cher et de meilleure qualité. On suppose que la qualité d’un produit
est mesurée par une variable aléatoire dont la variance vaut 1 : sa loi est une loi normale
N (5; 1) (resp. N (4; 1)) dans le cas de la machine A (resp. B).
Un client achète le produit le plus cher par lot de 10 et il veut contrôler qu’un lot donné
provient bien de la machine A.
1. Le producteur étant supposé honnête, quelles sont les hypothèses H0 et H1 testées par
le client ?
2. Pour un niveau α quelconque, effectuer ce test statistique de H0 contre H1 au niveau
α en prenant X n pour statistique de test.
3. On suppose ici que α = 5%. Déterminer la région de rejet associée.
Si on considère un échantillon de taille 10 et on relève une moyenne empirique de 4,53 :
quelle est la conclusion du test ?

3.1.4 Tests paramétriques et tests non paramétriques


Définition 33 On appelle test paramétrique, un test dans lequel les deux hypothèses H0
et H1 portent sur les valeurs d’un paramètre inconnu du modèle. Sinon le test est non pa-
ramétrique.

Exemple 2 :
1) Quand les hypothèses sont H0 : la moyenne µ est nulle et H1 : µ est non nulle, on va
faire un test paramétrique.
2) Si les hypothèses sont H0 : la loi considérée est la loi normale et H1 : la loi considérée n’est
pas la loi normale, on va faire un test non paramétrique.
3) Si les hypothèses sont H0 : Y et Z sont indépendantes et H1 : Y et Z ne sont pas indé-
pendantes, on va aussi faire un test non paramétrique.

Dans ce chapitre nous allons nous restreindre aux tests paramétriques. Dans le chapitre
3 suivant, nous étudierons quelques aspects de la statistique non paramétrique et nous pré-
senterons certains tests non paramétriques.

Définition. Dans un test paramétrique, on appelle :


- Hypothèse simple, une hypothèse qui ne contient qu’une seule valeur du paramètre in-
connu θ. Elle est donc de la forme θ = θ0 où θ0 ∈ Θ est une valeur fixée. Ex : “µ = 0” pour
H0 dans l’Exemple 1) précédent.
48 CHAPITRE 3. TESTS D’HYPOTHÈSES STATISTIQUES

- Hypothèse composite (ou multiple), une hypothèse qui contient plusieurs valeurs de θ
i.e. du type ”θ ∈ A” où A ⊂ Θ est une partie non vide et non réduite à un singleton.
Par exemple : “µ 6= 0” pour H1 dans l’Exemple 1) précédent. Autres exemples : θ 6= θ0 ,
θ > θ0 , θ ∈ [θ1 , θ2 ].

3.1.5 Optimalité des tests


Pour le même problème de décision, plusieurs tests (c’est-à-dire plusieurs régions critiques)
de même seuil α sont souvent possibles. Dans ce cas, le meilleur de ces tests est celui qui
minimisera la probabilité de l’erreur de seconde espèce β, c’est-à-dire celui qui maximisera la
puissance π. Le meilleur des tests possibles de seuil fixé sera dit test le plus puissant. Comme
nous le verrons en Section 2, un tel test peut parfois être déterminé.

Remarque. Pour avoir une bonne procédure de test, une autre exigence naturelle est la
suivante : il faut que l’on soit pratiquement sûr de détecter une hypothèse nulle qui serait
fausse lorsque l’on observe des échantillons de grande taille. Plus précisément : comme β
dépend de n, la puissance π aussi et est notée πn = π. On dit qu’un test est convergent si la
puissance πn → 1 lorsque la taille n de l’échantillon tend vers +∞. Les tests considérés ici le
seront tous en général.

3.1.6 La p-valeur
La présentation des tests faîte ici est construite à partir du risque α, qui permet, si on connaît
la taille de ou des échantillons en jeux, de proposer un critère de décision sans regarder les données.
Cette façon de présenter les tests est traditionnelle en France. Elle l’est moins dans le monde anglo-
saxons et surtout dans les logiciels où aucune zone d’acceptation ou de rejet n’est donnée. En fonction
des données on peut calculer la p-valeur (ou p-value en anglais ou probabilité critique niveau de
signification observé). Cette notion est définie définie ci-dessous :

Définition 34 La p-valeur (p-value) est la plus petite des valeurs de risque de première espèce pour
lesquelles la décision est de rejeter H0 : c’est la probabilité notée p, que, sous H0 , la statistique de test
prenne une valeur au moins aussi extrême que celle qui a été observée.

La règle de décision est simple, si la p-valeur est inférieure au seuil α fixé, alors, on rejette l’hypothèse
nulle au risque p. Sinon on ne rejette pas l’hypothèse nulle. Lorsque l’on réalise un test avec un logiciel,
celui-ci donne la p-valeur et c’est l’utilisateur qui prend la décision. Dans les articles scientifiques, c’est
la p-valeur qui est donnée. Celle-ci permet vraiment d’affiner le risque en cas de rejet. Lorsque l’on
fait un test avec la méthode de la zone de rejet, si celui-ci conclut au rejet de H0 , on peut calculer la
p-valeur a posteriori pour affiner le risque.

3.2 Tests d’hypothèses pour un échantillon


Dans cette section, on considère un modèle paramétrique réel P = {Pθ , θ ∈ Θ} avec Θ ⊂ R. On
note (X1 , . . . , Xn ) un n-échantillon associé.
3.2. TESTS D’HYPOTHÈSES POUR UN ÉCHANTILLON 49

3.2.1 Hypothèses paramétriques simples, le test du rapport de vraisem-


blance
Définition. Un test d’hypothèses simples est un test dans lequel les hypothèses nulle et alter-
native sont simples toutes les deux (comme l’Exemple 4 précédent). C’est donc un test du type :

H0 : θ = θ 0 contre (v.s.) H1 : θ = θ 1 où θ0 et θ1 sont deux réels fixés.

Dans ce cadre les fonctions risques définis à la définition 32 sont d’une grande simplicité puisque
les ensembles Θ0 et Θ1 sont réduits à un point. On obtient donc une seule valeur pour chacun des
risques et on peut les calculer explicitement.

Exemple 5 : Dans l’Exemple 4 précédent, calculer la puissance du test.

Définition. Etant donné α ∈]0, 1[, un test de région de rejet W = Wα de l’hypothèse H0 : θ = θ0


est dit de niveau α (ou de seuil de signification α) si :
• si Pθ0 (Tn ∈ W) = α dans le cas continu (i.e. lorsque Pθ est une loi continue).

• dans le cas discret, cette égalité peut ne pas être atteinte car Tn est une v.a. discrète. Dans ce cas,
on dit que le test est de niveau α si W est la plus grande région telle que : Pθ0 (Tn ∈ W) < α.

D’un point de vue mathématique, dans la construction d’un test, l’objectif général est de minimiser
le risque α et de maximiser la puissance π. Si l’on a plusieurs tests pour un même niveau α, cette
notion de puissance permet de les comparer :

Définition. Un test τ ∗ de niveau α et de région de rejet Wα∗ de l’hypothèse H0 : θ = θ0 contre


l’hypothèse H1 : θ = θ1 est appelé test le plus puissant de niveau α si :
pour tout autre test τ de niveau α et de région de rejet Wα , on a : 1 − βWα∗ ≥ 1 − βWα .

Remarque : Notez que dans les tests d’hypothèses paramétriques, les statistiques de test seront
souvent construites à partir d’estimateurs naturels (performants) du paramètre inconnu θ. En parti-
culier, on verra que souvent ces statistiques sont liées à l’E.M.V. de θ.

Dans le paragraphe suivant, on donne le résultat important dit Lemme de Neyman-Pearson qui
permet, d’une part de construire des tests d’hypothèses simples de façon systématique et, d’autre part,
de déterminer les meilleurs tests d’hypothèses simples (i.e. les plus puissants).

Le Test du Rapport de Vraisemblance Simple


Soit X une v.a. dont la loi inconnue appartient à un modèle paramétrique P = {Pθ , θ ∈ Θ}.
On note f (x; θ) la densité (resp. fonction) de probabilité de la loi Pθ dans le cas discret (resp.
continu). On considère (X1 , . . . , Xn ) un n-échantillon i.i.d. de même loi que X. La fonction de vrai-
semblance du paramètre Qn inconnu θ pour une réalisation (x1 , . . . , xn ) de l’échantillon (X1 , . . . , Xn ) est :
L(θ; x1 , . . . , xn ) = i=1 f (xi , θ).

Définition 35 Soient θ0 et θ1 sont deux valeurs fixées dans Θ. Soit α ∈ ]0, 1[.
On appelle Test du rapport de vraisemblance simple au niveau α de l’hypothèse H0 : θ = θ0
contre H1 : θ = θ1 , le test statistique :
• dont la statistique de test est le rapport des 2 vraisemblances (avec la convention 0/0 = 0) :
Qn
L(θ0 ; X1 , . . . , Xn ) f (Xi , θ0 )
Λn := λ(X1 , . . . , Xn ) := = Qi=1
n
L(θ1 ; X1 , . . . , Xn ) i=1 f (Xi , θ1 )
50 CHAPITRE 3. TESTS D’HYPOTHÈSES STATISTIQUES

appelée le rapport de vraisemblances


• et la région critique est de la forme :
 
Wα = λ(X1 , . . . , Xn ) ≤ kα où kα > 0 est tel que : Pθ0 [λ(X1 , . . . , Xn ) ≤ kα ] = α.

Remarque. On a toujours : 0 < kα < 1. En effet, α est toujours pris petit ce qui assure que kα < 1.

Commentaires. Le principe de ce test est de rejeter H0 pour des observations (x1 , . . . , xn ) condui-
sant à des valeurs de L(θ0 ; x1 , . . . , xn ) “petites” et des valeurs de L(θ1 ; x1 , . . . , xn ) “grandes”.
Ceci se traduit clairement dans le cas d’un modèle discret puisque L(θ; x1 , . . . , xn ) représente la pro-
babilité de la réalisation (x1 , . . . , xn ) si le paramètre vaut θ : L(θ; x1 , . . . , xn ) = Pθ [(X1 , . . . , Xn ) =
(x1 , . . . , xn )].
L(θ0 ; x1 , . . . , xn )
Le rejet de H0 s’exprime naturellement en demandant que le rapport des vraisemblances
L(θ1 ; x1 , . . . , xn )
soit “petit” donc ≤ kα (avec acceptation si ≥ kα ).
C’est la détermination de kα qui spécifie ce qu’il faut entendre par “petit”.

Remarque. λ(X1 , . . . , Xn ) est bien une statistique (i.e. indépendante de θ) puisque les valeurs θ0
et θ1 sont données.

Théorème (Lemme de Neyman-Pearson). Pour tout α ∈]0, 1[, le test du rapport de vrai-
semblance simple est le test le plus puissant au niveau α.

Exemple 6 : Vérifier que le test construit dans l’Exemple 4 de la section précédente est le test du
RV simple pour le paramètre θ dans le modèle gaussien Pθ = N (θ, 1) en testant :

H0 : θ = 5 contre H1 : θ = 4 au niveau α = 5%.

3.2.2 Hypothèses multiples, le test du rapport de vraisemblance généralisé


Un test d’hypothèses composites (ou multiples) sur θ est un test dans lequel l’une au moins
des deux hypothèses est composite i.e. contient au moins deux valeurs possibles pour θ. Autrement
dit, l’un au moins des deux sous-ensembles de Θ, notés Θ0 et Θ1 contient plus d’une valeur et tels
que H0 : θ ∈ Θ0 et H1 : θ ∈ Θ1 .

Définition 36 On suppose que Θ ⊂ R. On distingue deux types de tests liés à la forme des hypothèses
composites :
• Les tests unilatéraux : les hypothèses sont de la forme suivante :

 
θ ≤ θ0 θ ≥ θ0
H0 : contre H1 : θ > θ0 ou H0 : contre H1 : θ < θ0 .
θ = θ0 θ = θ0

- On dit unilatéral car H1 est située d’un côté ou de l’autre de H0 , donc on va rejeter à une extrémité.
- Exemple d’application : lorsqu’on cherche à juger si le paramètre θ dépasse un certain seuil (qui est
une norme de qualité, un seuil de pollution, un niveau antérieur, . . .).
• Tests bilatéraux : Seule H1 est composite avec : H0 : θ = θ0 contre H1 : θ 6= θ0 .
3.2. TESTS D’HYPOTHÈSES POUR UN ÉCHANTILLON 51

Le choix du type de test est lié à ce qu’on veut démontrer. Par exemple si on veut démontrer qu’une
substance diminue la fréquence cardiaque moyenne, l’hypothèse nulle sera que la substance ne modifie
pas la moyenne (hypothèse simple µ = 0 si µ est la différence des moyennes de la fréquence car-
diaque avant et après l’administration de la substance). L’hypothèse alternative sera composite mais
unilatérale (H1 : µ > 0).

Remarques : 1) En fait, il existe d’autres types de tests bilatéraux dans le cas où l’on veut tester
si le paramètre θ est situé dans un intervalle de tolérance. Dans ce cas, les 2 hypothèses sont multiples
et de la forme : H0 : θ ∈ [θ1 , θ2 ] contre H1 : θ < θ1 ou θ > θ2 .

On peut montrer (Admis) que les tests unilatéraux que nous allons considérer et où H0 : θ ≤ θ0
ou bien H0 : θ ≥ θ0 et H1 est son complémentaire, sont équivalents à tester resp. H0 : θ = θ0 contre
H1 : θ > θ0 ou bien : H0 : θ = θ0 contre H1 : θ < θ0 . Dans ce cas le calcul du risque α est simple
puisque H0 est simple. En revanche la puissance est bien une fonction de θ avec θ ∈ Θ1 .

Exemple 7 : Une usine dispose de plusieurs machines qui fabriquent le même produit mais de
différentes qualités. On suppose que la qualité d’un produit est mesurée par une variable aléatoire
normale dont la variance vaut 1 : sa moyenne µ = θ est inconnue.
Les critères de qualité du produit dépendent de la valeur de µ : µ < 5 (resp. µ > 5) correspond à
un produit de mauvaise (resp. bonne) qualité. De plus : µ = 5 correspond à un produit de qualité
moyenne. Le prix d’un produit dépend évidemment de sa qualité.
Le fournisseur est honnête. Un client achète les produits par lot de 10 produits de qualités différentes.
Le client veut vérifier si le prix des lots correspondent aux qualités annonçées.
Parmi les lots payés au prix (unitaire) moyen, le client prélève un lot qui donne x10 = 4, 53. Avec un
test de niveau α = 5%, le client peut-il affirmer que :
a) les lots payés au prix (unitaire) moyen ne sont pas de qualité moyenne ?
b) les lots payés au prix (unitaire) moyen sont de mauvaise qualité ?

Définition 37 On appelle Test du rapport de vraisemblance simple au niveau α de H0 : θ0 ∈


Θ0 contre H1 : θ1 ∈ Θ1 le test au niveau α ∈ ]0, 1[ défini par
• la statistique de test définie à partir des rapports de vraisemblance (avec la convention 0/0 =
0) :
Qn
supθ0 ∈Θ0 L(θ0 ; X1 , . . . , Xn ) supθ0 ∈Θ0 i=1 f (Xi , θ0 )
Λn := λ(X1 , . . . , Xn ) := = Qn
supθ1 ∈Θ1 L(θ1 ; X1 , . . . , Xn ) supθ1 ∈Θ1 i=1 f (Xi , θ1 )

appelée le rapport de vraisemblances


• et la région critique est de la forme :
 
Wα = λ(X1 , . . . , Xn ) ≤ kα où kα > 0 est tel que : Pθ0 [λ(X1 , . . . , Xn ) ≤ kα ] = α.

• Comme pour les tests d’hypothèses simples, on peut définir un critère d’optimalité des tests com-
posites (i.e. "meilleur test pour un même niveau α") naturellement basé sur cette fonction puissance.
Pour les tests simples, on parlait de test le plus puissant (test PP). Ici, on parle de test uniformé-
ment le plus puissant (test UPP).
• En général, il n’existe pas de test UPP. Cependant le résultat de Neyman-Pearson s’étend assez
naturellement à des situations d’hypothèses multiples unilatérales.
52 CHAPITRE 3. TESTS D’HYPOTHÈSES STATISTIQUES

Théoreme 10 Dans le modèle précédent, si H0 spécifie r composantes de θ, si de plus la densité


f (x, θ) vérifie des conditions de régularité (voir cours de probe à venir sur l’estimateur du maximum
de vraisemblance), alors, sous H0 , la statistique du test de vraisemblance généralisé vérifie quand n
tend vers l’infini :
L
−2 ln Λn −→ χ2 (r)

Ce théorème justifie l’utilisation du test du rapport de vraisemblance dans les logiciels. Attention son
application est à vérifier par l’utilisateur car cette loi est une loi asymptotique.

3.3 Tests paramétriques usuels


Nous donnons ici les tests paramétriques usuels généralement implantés dans les logiciels. Leur
construction découle d’une statistique de test de loi connue sous H0 s’imposant de façon naturelle,
indépendamment de toute considération d’optimalité. L’étude de l’optimalité se fait en amont et d’un
point de vue mathématique, par exemple en montrant que le test proposé est celui du rapport de
vraisemblance généralisé. On dit qu’un test est exact si la loi de la statistique de test est parfaitement
connue et n’est pas le résultat d’une approximation. La plupart du temps, le test est exact si on fait
des hypothèses de modèle pour la densité sous-jacente (sauf dans le cas binomial) sinon on parlera
de test asymptotique, correspondant à une loi asymptotique de la statistique de test, dans tous les
cas, il faudra vérifier les hypothèses de validité du test portant souvent sur le modèle ou la taille de
l’échantillon.

3.3.1 Cas d’un échantillon, les tests d’ajustement


Les tests d’ajustement sont ceux qui portent sur le modèle P dont sont issues les données. Cela
peut-être un test sur la moyenne, la variance voire même la distribution entière de la variable sous-
jacente. Les tests d’ajustement ne portent que sur un échantillon.

Test de comparaison d’une moyenne observée et d’une moyenne théorique


On suppose que les (Xi )1≤i≤n sont i.i.d. et si elles existent on notera E[X] = µ et V ar(X) = σ 2 .
On veut tester H0 : µ = µ0 . Dans tous les cas, on sent que la moyenne empirique X̄n estimateur
empirique et du maximum de vraisemblance va nous être utile pour construire une statistique de test.
Mais la loi de X̄n dépend du modèle.
1. Modèle gaussien : Xi ' N (µ, σ 2 )
(a) La variance σ 2 est connue : Alors X n ' N (µ, σ 2 ) ce qui signifie que :
X n − µ0
sous H0 , U = √ suit la loi N (0, 1). (3.1)
σ/ n
(b) La variance σ 2 est inconnue. On a toujours, X n ' N (µ, σ 2 ) mais la réalisation de la
statistique U n’est pas observable avec les données de l’échantillon car σ est inconnu. En
revanche si on remplace σ par son estimation on connaît la loi de

X n − µ0
sous H0 , T = √ suit la loi T (n − 1). (3.2)
Sn / n
2. Cas où Xi est à support continu et admet une espérance µ et une variance σ 2 .
D’après le Théorème Central Limite, et le lemme de Slutsky on a que les résultats (3.1) et
(3.2) sont vrais asymptotiquement (i.e. lorsque la taille n de l’échantillon tend vers +∞) : on
dit que ces tests sont robustes à la non-normalité. En pratique on fera l’approximation
dès que la taille de l’échantillon n ≥ 30.
3.3. TESTS PARAMÉTRIQUES USUELS 53

Test de comparaison d’une variance observée et d’une variance théorique pour


la loi normale N (µ, σ 2 )
L’hypothèse gaussienne est fondamentale ici. En effet, il n’y a pas de normalité asymptotique qui
tienne. Le test repose sur le fait que, dans le cas d’une loi N (µ, σ 2 ), la v.a. (n − 1)Sn2 /σ 2 suit une loi
n
1 X
χ2 (n − 1) avec Sn2 est la variance empirique corrigée définie par : Sn2 = (Xi − X n )2 . En plus,
n − 1 i=1
lorsque l’on teste une variance, la zone de rejet est très souvent unilatérale à droite. Car en général, on
n’est pas intéressé à rejeter une variance trop petite. Les hypothèses à tester sont donc H0 : σ 2 = σ02
et H1 : σ 2 > σ02 où σ02 > 0 est une valeur fixée. On rejette quand cette variable aléatoire est grande.
• Si la moyenne µ est inconnue (cas le plus courant en pratique) alors la statistique de test est

(n − 1)Sn2 /σ02 qui suit la loi χ2 (n − 1) sous H0 .

1
Pn 2
•Remarque : Si la moyenne µ est connue, Pon utilise comme statistique de test : Tn := n i=1 (Xi −µ)
n
qui est l’E.M.V. de σ 2 et le fait que : 2 2 2
i=1 (Xi − µ) /σ ∼ χ (n).

Test pour le paramètre p d’une loi de Bernoulli : comparaison fréquence (pro-


portion) observée/ fréquence théorique
Le test repose sur le Théorème Central Limite appliqué à une suite de variables aléatoires de
Bernouilli, encore appelé Théorème de Moivre-Laplace dans ce cas précis. Il se trouve que la pro-
portion empirique de succès P̂n est tout simplement la moyenne empirique X̄n . Attention comme les
variables de Bernouilli ne sont pas des variables à support continu, les conditions d’approximation
sont différentes.
- Hypothèse nulle : H0 : p = p0 avec p0 ∈]0, 1[ fixé.
- Conditions de validité du test : np0 ≥ 5 et n(1 − p0 ) ≥ 5.
P̂n − p0
- Statistique de test : sous H0 , la v.a. r suit approximativement la loi N (0, 1).
p0 (1 − p0 )
n
Remarque :
• Il existe aussi un test exact particulièrement adapté au cas d’échantillons de petite taille. Par
exemple : dans le cas d’un test d’hypothèses simples : H0 : p = p0 contre H1 : p = p1 , on peut
construire Ple test du rapport de vraisemblance simple qui est basé sur le nombre total de ’succès’
n
i.e. la v.a. i=1 Xi qui, sous H0 , suit la loi binomiale B(n, p0 ) (dont on peut trouver la fonction de
répartition avec un tableur par exemple). √ Pn
Pn n( i=1 Xi − np0 )
• Ce test est équivalent à la statistique centrée réduite de
i=1 Xi , p qui suit aussi
p0 (1 − p0 )
approximativement une loi N (0, 1) quand n est grand.

3.3.2 Test de comparaison de deux échantillons


On considère ici deux lois X et Y (en pratique 2 populations) et on cherche à comparer certains
de leurs paramètres (en général leurs moyennes ou leurs variances).

Test de comparaison de 2 moyennes : cas de 2 échantillons indépendants


On suppose que l’on dispose d’un échantillon (X1,1 , . . . , X1,n1 ) de taille n1 de la loi de X et d’un
échantillon (X2,1 , . . . , X2,n2 ) de taille n2 de la loi de Y . Ces deux échantillons sont indépendants.
On note µ1 (resp. µ2 ) la moyenne et σ12 (resp. σ22 ) la variance de X (resp. de Y ).
Pour j = 1 et 2, on note X j la moyenne empirique et Sj2 la variance empirique corrigée de l’échantillon
54 CHAPITRE 3. TESTS D’HYPOTHÈSES STATISTIQUES

n1 n1
er 1 X 2 1 X 2
j. Par exemple pour le 1 échantillon : X1 = X1,i et S1 = X1,i − X1 .
n1 i=1 n1 − 1 i=1
On dispose d’un test approximatif valable pour toutes v.a. X et Y admettant une variance à
condition que les tailles n1 et n2 des 2 échantillons soient suffisamment grandes :
- Choix de l’hypothèse nulle : H0 : µ1 = µ2
- Conditions de validité du test : n1 ≥ 30, n2 ≥ 30
X1 − X2
- Statistique de test : sous H0 , la v.a. s suit approximativement une loi N (0, 1).
S12 S22
+
n1 n2

Remarques. Dans le cas où X et Y sont des gaussiennes, on dispose de résultats plus précis :
1) d’une part, on dispose d’une procédure de test "exact" (i.e. valable pour toutes les tailles n1 et n2 )
de l’hypothèse H0 : µ1 = µ2 mais à condition que les échantillons aient la même variance inconnue
X1 − X2
σ 2 = σ12 = σ22 . on utilise la statistique de test r qui suit une loi
2 2 1 1
S1 (n1 − 1) + S2 (n2 − 1)( + )
n1 n2
de Student à (n1 + n2 − 2) degrés de liberté
2) Dans la pratique, on applique un test de comparaison des variances - qui s’appliquerait avant celui
des moyennes ! (cf. le Ch.9 du Livre de M. Lejeune pour plus de détails). Dans ce cas, on fait précéder
le test d’un test d’égalité des variances. Puis suivant le résultat :
— Si les variances ne sont pas significativement différentes, on applique le test exact précédent
X1 − X2
— Si les variances sont significativement différentes on utilise la statistique de test s
S12 S2
+ 2
n1 n2
mais le nombre de degrés de liberté est plus difficile à déterminer et le test est approximatif
Ces deux tests implémentés dans les logiciels courants (R et SAS) moresque l’on demande une procé-
dure de comparaison de moyenne de deux échantillons indépendants.

Test de comparaison de 2 moyennes : cas de 2 échantillons appariés


On suppose ici que l’on a deux échantillons de même taille n : (X1,1 , . . . , X1,n ) et (X2,1 , . . . , X2,n )
issus respectivement d’une v.a. X et d’une v.a. Y dont les lois admettent une moyenne et une variance
inconnues.
On note µ1 (resp. µ2 ) la moyenne et σ12 (resp. σ22 ) la variance de X (resp. de Y ).
• Ici on ne suppose plus que les échantillons sont indépendants. On suppose cependant que les n
couples {(X1,i , X2,i ); 1 ≤ i ≤ n} sont indépendants (donc i.i.d.). En revanche, les variables il n’y a pad
d’hypothèse d’indépendance entre les deux variables X1,i et X2,i . En particulier, elles peuvent être
corrélées. On considère que les deux séries sont appariées. Par exemple : elles peuvent modéliser la
taille du père et celle du fils, ou bien la tension artérielle avant un effort et la tension artérielle après
un effort, . . .. On ne peut donc pas utiliser le test précédent car la variance de X1 − X2 ne peut pas
être calculée à partir des variances de chacune des séries.
La démarche : considérer la différence D = X − Y alors pour tout 1 ≤ i ≤ n, Di = X1,i − X2,i ,
les v.a. Di sont i.i.d. de même loi que D. (D1 , . . . , Dn ) est donc un n-échantillon de la v.a. D de
moyenne inconnue µ = E(D) = µ1 − µ2 et de variance inconnue σ 2 = V(D) (comme les v.a. X1,i et
X2,i peuvent être corrélées, σ 2 n’est pas forcément égale à la somme σ12 + σ22 !). Le test H0 : µ1 = µ2
revient à tester H0 : µ = 0. On est donc ramené au cas où l’on a un seul échantillon, celui des diffé-
rences (D1 , . . . , Dn ), issu d’une v.a. D de variance inconnue σ 2 et dont on veut tester la nullité de la
moyenne µ : on applique donc la procédure de test de la Section 3.1.1. (dans le cas où la variance est
3.3. TESTS PARAMÉTRIQUES USUELS 55

inconnue).

Remarques. 1) Pour appliquer le test de la Section 3.1.1. dans le cas gaussien, la loi des Di doit
être normale (notez cependant que la normalité des X1,i et celle des X2,i ne sont ni nécessaires, ni
suffisantes).
2) Lorsque n ≥ 30 et même si les Di ne sont pas normalement distribuées, on peut utiliser ce test qui
alors approximatif et robuste : cf. la Généralisation donnée en Section 3.3.1. On peut aussi utiliser des
tests non paramétriques.

Test de comparaison de deux proportions (fréquences) observées : comparaison


des paramètres de deux lois de Bernoulli indépendantes
On suppose que l’on a deux échantillons indépendants (X1,1 , . . . , X1,n1 ) et (X2,1 , . . . , X2,n2 )
issus chacun d’une loi de Bernoulli de paramètres respectifs p1 et p2 . On cherche à comparer ces 2
proportions p1 et p2 .
Pour j = 1 et 2, la moyenne empirique Xj de l’échantillon j est aussi la fréquence empirique de
l’événement dans l’échantillon j et estime pj .
Il faut noter que, comme pour le test sur une proportion de la Section3.3.1, il existe une méthode
"exacte". Cependant, ici nous ne considèrerons que des échantillons de grandes tailles : on va donc
donner une méthode asymptotique valide dès lors que l’approximation gaussienne vaut pour chaque
échantillon :
- Choix de l’hypothèse nulle : H0 : p1 = p2 .
- Notation : pour j = 1 et 2, on note P̂j = Xj la proportion de succès dans l’échantillon j.
- Conditions de validité du test : nj p̂j ≥ 5 et nj (1 − p̂j ) ≥ 5 pour j = 1, 2 où ici les p̂j = xj
sont les proportions de succès observées.
P̂1 − P̂2
- Statistique de test : sous H0 , la v.a. r suit approximativement une loi N (0, 1)
1 1
P̂ (1 − P̂ )( + )
n1 n2
où P̂ est un estimateur de la proportion commune et inconnue p = p1 = p2 : c’est la proportion de
succès dans les 2 échantillons fusionnés :

n1 P̂1 + n2 P̂2
P̂ = .
n1 + n2

Remarque. Noter qu’il existe aussi des tests de comparaison de 2 proportions dans le cas d’échan-
tillons appariés (cf. Ch.9 du Livre de M. Lejeune).
56 CHAPITRE 3. TESTS D’HYPOTHÈSES STATISTIQUES
Chapitre 4

Tests non paramétriques

4.1 Le lemme de Pearson et les autres convergences vers la


loi du Chi-Deux
4.1.1 Le lemme de Pearson
Soit X une variable nominale à J modalités (m1 , . . . , mJ ) associées aux probabilités : p0i = P (X =
mi ) 1 ≤ i ≤ J. Pour un échantillon (X1 , . . . , Xn ) de v.a. i.i.d. à valeurs dans (m1 , . . . , mJ ), associé
au vecteur de probabilité p = (p1 . . . pJ )t notons N = (N1 , . . . , NJ )T le vecteur aléatoire, où la
composante
Pn Nj est le nombre des Xi , correspondants à la j-ième catégorie mj , c’est-à-dire : Nj =
i=1 1{Xi =mj } . Le vecteur (N1 , . . . , NJ ) suit la loi multinômiale associée aux pj :

n!
P {N1 = n1 , . . . , NJ = nJ } = pn1 pn2 . . . pnJ J .
n1 ! . . . nJ ! 1 2
On veut tester si l’échantillon est issu de la même loi que X, c’est-à-dire l’hypothèse nulle
H0 (p1 . . . pJ ) = (p01 . . . p0J ). On remarque que sous cette hypothèse H0 , ENj = np0j et que si H0
N
est réalisée, alors les p̂j = nj estimateurs empiriques des proportions pj sont proches des p0j . Dans le
but de tester l’écart à la loi multinômiale citée plus haut pour un vecteur de réalisation, on utilise la
statistique
J
X (Nj − np0j )2
X2 = (4.1)
j=1
np0j

Le lemme de Pearson donne la loi asymptotique de X 2 .

Théoreme 11 Si tous pj > 0 alors, lorsque n → ∞, la loi de la statistique (4.1) tend vers la loi du
chi deux à J − 1 degrés de liberté sous H0 . Sous H1 , elle converge vers l’infini.

La démonstration du Lemme de Pearson (faîte en cours) utilise le théorème de Cochran que nous
rappelons en annexe.

4.1.2 Le test du chi-deux d’ajustement.


Si on veut tester la loi d’un n-échantillon de variables qualitatives à J modalités à une loi sous
l’hypothèse nulle H0 (p1 . . . pJ ) = (p01 . . . p0J ), alors on rejettera l’hypothèse nulle lorsque X 2 >
q1−α (J − 1) où q1−α (J − 1) est le quantile de niveau (1 − α) de la loi du χ2 à (J − 1) d.d.l.. Le test est
asymptotiquement de niveau (1 − α) et il est consistant (la puissance tend vers 1 lorsque n tend vers

57
58 CHAPITRE 4. TESTS NON PARAMÉTRIQUES

l’infini. Dans la pratique, on utilisera cette approximation lorsque n ≥ 30 et tous les npj ≥ 5 sinon,
on regroupera des modalités.
Le test est particulièrement adapté à une loi à support fini mais pourra être utilisé pour une loi
discrète à support infini après regroupement des modalités ou une loi continue regroupée en classes
même s’il est préférable dans ce dernier cas d’utiliser le test de Kolmogorov qui est plus adapté et qui
ne dépend pas des classes.

4.1.3 Convergence après estimation de paramètres


Dans la pratique, on ne connaît pas forcément les paramètres théoriques pi et ceux-ci doivent
être estimés. Par exemple, on peut savoir que la loi d’une variable Y appartient à une famille
connue (normale, exponentielle, etc, ...) mais dont on ne connaît pas le paramètre θ (moyenne, ou
(moyenne,variance)). Si on divise l’intervalle ] − ∞, ∞] en k (2 ≤ k < n) intervalles

]x0 , x1 ], ]x1 , x2 ], . . . , ]xJ−1 , xJ [, x0 = −∞, xk = ∞,

On peut alors poser P (Y ∈]xi−1 P, nxi ]) = pi (θ) et pour un échantillon de Y , considérer le vecteur
N = (N1 , . . . , Nk )T avec Ni = i=1 1{Yi ∈]xi−1 ,xi ]} . Celui-ci suit une loi multinômiale associée aux
pi (θ). La statistique
k
X (Ni − np2i (θ))2
X 2 (θ) = (4.2)
i=1
npi (θ)

vérifie toujours les résultats du théorème de Pearson mais on ne peut pas la calculer puisque l’on
ne connaît pas les pi (θ). Il est naturel d’estimer θ mais la loi de la statistique X 2 (θ̂) lorsque θ est
remplacé par un estimateur est alors modifiée.
Considérons les différentes façons d’estimer θ est les statistiques X 2 associées.
1. L’estimateur du maximum de vraisemblance θ̂n pour θ, attention la loi limite de la
statistique modifiée X 2 (θ̂n ) est compliquée.
2. L’estimateur du minimum du chi-deux : c’est l’estimateur θ̃n , qui minimise la statistique
(4.2) par rapport à θ :
X 2 (θ̃) = inf X 2 (θ),
θ∈Θ

En règle générale, pour trouver l’estimateur θ̃n , il faut résoudre des équations compliquées.
3. L’estimateur du minimum du chi deux modifié θ̄n qui minimise en θ la statistique de
Pearson modifiée :
k
2
X (Ni − npi (θ))2
Xm (θ) = .
i=1
Ni

cela simplifie les calculs de la procédure précédente.


4. L’estimateur de maximum de vraisemblance pour des données groupées appelé θn∗ ,
il maximise la fonction de vraisemblance L∗ (θ) associée à la loi multinomiale et construite en
utilisant des données N1 , . . . , Nk :

n! N N N
L∗ (θ) = (p1 (θ)) 1 (p2 (θ)) 2 . . . (pk (θ)) k .
N1 !N2 !...Nk !

Sous les conditions exprimées ci-dessous, on obtient une asymptotique pour X 2 de l’équation 4.2 quel
que soit l’estimateur ci-dessous de θ.
Conditions de Cramér :
4.1. LE LEMME DE PEARSON ET LES AUTRES CONVERGENCES VERS LA LOI DU CHI-DEUX59

1) il existe un nombre réel c (c > 0) tel que pour tout i = 1, . . . , k

pi (θ) > c, θ ∈ Θ;
∂ 2 pi (θ)
2) les fonctions ∂θj2
sont continues dans l’ensemble Θ ;
3) le rang de la matrice d’information de Fisher J(θ) = J(θ)kl ,

1 ∂pi (θ)
J(θ)kl = √
pi pi ∂θj
est égale à s où s est la dimension de θ.

Théoreme 12 Si les conditions de Cramer sont vérifiées sous H0 , alors les statistiques X 2 (θ̃n ),
2
Xm (θ̄n ), X 2 (θn∗ ) et Rn (θ̂n∗ ) sont asymptotiquement (n → ∞) equivalentes :

X 2 (θ̃n ) = Xm
2
(θ̄n ) + op (1) = X 2 (θn∗ ) + op (1) = X 2 (Rn (θn∗ )) + op (1).

La loi de chaque statistique tend vers la loi du chi-deux à k − s − 1 degrés de liberté sous H0 et vers
l’infini sous H1 (enfin, il y a qq cas pathologique si θ ∈ H1 ∩ H̄0 ).

4.1.4 Application : le test du chi-deux d’indépendance


Soient A1 , . . . , Ak des événements disjoints avec A1 ∪ · · · ∪ As = Ω, où Ω est l’espace des événements
élémentaires, et B1 , . . . , Br sont des événements disjoints avec B1 ∪ · · · ∪ Br = Ω.
Supposons qu’on a n expériences et notons par Nij la variable aléatoire "nombre des expériences
où l’événement Ai ∩ Bj a lieu" parmi les n. Par exemple, les objets peuvent être classifiés d’après les
valeurs de deux covariables A et B, ayant k et l valeurs possibles, respectivement.
On a le tableau de contingence :

B1 ··· Bj ··· Br
A1 N11 ··· N1j ··· N1r N1·
... ··· ··· ··· ··· ··· ···
Ai Ni1 ··· Nij ··· Nir Ni·
... ··· ··· ··· ··· ··· ···
As Ns1 ··· Nsj ··· Nsr Ns·
N·1 ··· N·j ··· N·r n
Pr Ps Ps Pr
Ici Ni· = j=1 Nij , N·j = i=1 Nij , n = i=1 Ni· = j=1 N·j .
Posons
pij = P (Ai ∩ Bj ) (i = 1, . . . , k; j = 1, . . . , r)
On a une table correspondante des probabilités pij :

B1 ··· Bj ··· Bl
A1 p11 ··· p1j ··· p1r p1·
... ··· ··· ··· ··· ··· ···
Ai pi1 ··· pij ··· pir pi·
... ··· ··· ··· ··· ··· ···
Ak ps1 ··· psj ··· psr pk·
p·1 ··· p·j ··· p·l 1
Pr Ps Ps Pr Ps Pr
Ici pi· = j=1 pij = P (Ai ), p·j = i=1 pij = P (Bj ), i=1 pi· = j=1 p·j = i=1 j=1 pij = 1.
60 CHAPITRE 4. TESTS NON PARAMÉTRIQUES

supposons que l’on veuille tester l’hypothèse nunlle suivante " les ensembles des événements {Ai , i =
1, . . . , s} et {Bj , j = 1, . . . , r} sont indépendants" qui correspond à :

H0 : pij = pi· p·j pour tous i,j contre H1 : pij 6= pi· p·j pour au moins un couple (i, j).

Le vecteur aléatoire des Nij suit la loi multinomiale :

N = (N11 , . . . , N1r , . . . , Ns1 , . . . , Nsr ) ∼ M (n, p), p = (p11 , . . . , p1r , . . . , ps1 , . . . , psr ).

On va donc construire un test basé sur la statistique suivante :

s X r
X (Nij − npi· p·j )2
X2 = (4.3)
i=1 j=1
npi· p·j
Ps
Seulement
Pr les pi· et les p·j ne sont pas connus et doivent être estimés. Comme i=1 pi· = 1 et
j=1 p·j = 1, il faut estimer (s + r2) paramètres.
On peut montrer que l’estimateur du maximum de vraisemblance de la loi multinômiale sous H0
dont la fonction est donnée par :

s Y r s Y r s Y r
n! Y N n! Y N
Y N
L(p) = ; pijij = pi· ij p·j ij
N11 ! · · · Nsr ! i=1 j=1 N11 ! · · · Nsr ! i=1 j=1 i=1 j=1
s r
n! Y Y N
= pN i·
p ·j ,
N11 ! · · · Nsr ! i=1 i· j=1 ·j

sont donnés par


Ni· N·j
p̂i· = et p̂·j = .
n n
Donc, les estimateurs des probabilités pij sont

Ni· N·j
p̂ij = p̂i· · p̂·j = .
n n
D’après le théorème 12, sous l’hypothèse H0 la statistique

s X r
X (Nij − np̂i· p̂·j )2
X2 =
i=1 j=1
np̂i· p̂·j

a pour distribution limite, lorsque n → ∞, la distribution du chi deux à

sr − 1 − (s + r − 2) = (s − 1)(r − 1)

degrés de liberté.
Dans la pratique, on utilisera cette statistique sous la condition où tous les effectifs théoriques
N N
(i.e. les i·n ·j ) sont supérieurs ou égaux à 5. Sinon, on regroupera les modalités.
Remarque Ce test s’exprime de plusieurs manières. En effet, on peut considérer un couple de
variables aléatoires (X, Y ) resp à s et r modalités et tester si la loi du couple est ajustée à l’hypothèse
où les deux variables sont indépendantes. Et on retombe sur le même problème et la même statistique !
4.1. LE LEMME DE PEARSON ET LES AUTRES CONVERGENCES VERS LA LOI DU CHI-DEUX61

4.1.5 Application : le test du chi-deux d’homogénéité


Le problème est un peu différent que le précédent. Mais nous allons nous y ramener
Supposons que les vecteurs

ν (1) = (N11 , . . . , N1k )T , ν (2) = (N21 , . . . , N2k )T , . . . , ν (l) = (Nl1 , . . . , Nlk )T

sont indépendants et suivent les lois multinomiales :

ν (i) ∼ M (ni , pi1 , . . . , pik ).

Donc on suppose que ni = Ni· sont fixés. Par exemple, on partage n objets en l groupes indépendants
de taille n1 , . . . , nl , et pour le i-ième groupe on observe les nombres Ni1 , . . . , Nik des objets qui
correspondent aux valeurs B1 , . . . , Bk d’une covariable nominale X, respectivement.
Hypothèse nulle :
H0 : p1j = · · · = plj := pj pour tout j
H1 : il existe i, j : pi1 6= pij
On rappelle que p1 + p2 + . . . + pk = 1. Le problème est bien un problème d’homogénéité des l
échantillons mais on peut le reformuler comme un problème d’indépendance entre la variable aléatoire
X et la variable groupe à l modalités. On a donc que
l X k
X (Nij − ni p̂ij )2
X2 =
i=1 j=1
ni p̂ij

suit la loi asymptotique du chi-deux à (l − 1)(k − 1) degrés de libertés.

4.1.6 Application : Test de la médiane


Ce test permet de comparer les médianes de k échantillons indépendants de taille n1 , . . . , nk d’une
variable aléatoire X de loi admettant une densité par la méthode suivante :

H0 : M1 = ... = Mk := M.

Avec Mi la médiane du i-ième échantillon.


Alternative :
H1 : il existe s 6= l : Ms 6= Ml .
Soient
nj nj
X X
N1j = 1{Xij < M }, N2j = 1{Xij > M } (j = 1, . . . k).
i=1 i=1
les nombres des membres du j-ième échantillon supérieurs ou respectivement inférieurs à M . Posons
p1j = P (Xij < M ), p2j = P (Xij > M ). Sous H0 on a pl1 = . . . plk := pl = 21 (l = 1, 2) et donc
les vecteurs (N1i , N2i ) suivent la loi multinomiale M (ni , 21 , 12 ) et sont indépendants. Le théorème de
Pearson (voir 1.1.1.) implique que si nj sont grands, alors
2
X (Nij − nj pi )2
≈ χ2 (1)
i=1
n j pi

par indépendance des échantillons,


k X2
X (Nlj − nj /2)2
X2 = ≈ χ2 (k).
j=1
n j /2
l=1
62 CHAPITRE 4. TESTS NON PARAMÉTRIQUES

Mais dans la pratique, on ne connaît pas M , sous H0 , il faut l’estimer par la médiane empirique de
l’échantillon unifié ordonné :
Xk
X(1) ≤ ... ≤ X(n) , n = nj .
j=1

(X(n/2) + X(n/2+1) )/2, si n est pair
M̂ =
X((n+1)/2) , sinon

On note Xij le i-ème élément de l’échantillon j. La loi des Xij est continue donc P (Xij = M̂ ) = 0. Si
on a des Xij : Xij = M̂ , ils ne rentreront pas dans la définition des statistiques suivantes.
Soient
nj nj
X X
Ñ1j = 1{Xij < M̂ }, Ñ2j = 1{Xij > M̂ } (j = 1, . . . k).
i=1 i=1

Comme on a estimé la médiane, alors la statistique


k X2
X (Ñlj − nj /2)2
X̃ 2 = ≈ χ2 (k − 1) sous H0 .
j=1
n j /2
l=1

4.1.7 Test exact de Fischer


Ce test est à utiliser pour tester l’indépendance de deux variables qualitatives pour des échantillons
petits lorsque après regroupements ultimes il reste un tableau 2 × 2 qui ne vérifie pas les hypothèses
des effectifs supérieurs à 5.
On dispose donc du tableau suivant que nous représentons dans le cas typique utilisé en épidé-
miologie pour étudier l’effet d’un facteur de risque sur une maladie

Malade oui non Total


Facteur
oui a b a+b
non c d c+d
Total a + c b+d N

Avec N = a + b + c + d.
Sous l’hypothèse d’indépendance des deux variables, le taux de maladie dans chacune des popula-
tions exposées au risque ou non est estimé par le taux de maladie empirique dans toute la population
soit a+c
N . Si on s’intéresse au nombre de malade X dans la population des exposés de taille a + b sous
l’hypothèse H0 , celui-ci suit une loi hypergéométrique de paramètres (N, n = a + b, p = a+c
N ) et on a

a+c b+d
 
k n−k
P (X = k) = N

a+b

Par exemple la probabilité le table précédente si on connaît ses marges est donnée par

(a + c)!(b + d)!(a + b)!(c + d)!


P (X = a) =
N !a!c!b!d!
L’intervalle de pari de cette loi peut être long et fastidieux à calculer. En revanche il peut être
intéressant (surtout si le test est unilatéral !) de calculer la p-valeur du test en calculant la probabilité
d’obtenir un tableau au moins aussi éloigné de l’hypothèse d’indépendance que celui observé dans
l’échantillon. On verra un exemple en TD.
4.2. LA FONCTION DE RÉPARTITION EMPIRIQUE 63

4.2 La fonction de répartition empirique


Nous introduisons ici les outils nécessaires aux tests sur la loi d’une ou plusieurs variable-s
quantitative-s continue-s. L’un des estimateurs naturels de la loi d’une variable aléatoire dont on
a un échantillon est la fonction de répartition empirique qui sera utilisée pour les tests.

Définition 38 On appelle fonction de répartition empirique de l’échantillon (X1 , . . . , Xn ) la fonction


définie sur R et à valeurs dans [0, 1] par :
n
1X
F̂n (t) = 1{Xi ≤t} (4.4)
n i=1

La fonction empirique au point t donne la proportion de Xi qui sont inférieurs ou égaux à t dans
l’échantillon. On en déduit donc que nF̂n (t) suit une loi binomiale de paramètre B(n, F (t)) si F est
la fonction de répartition de la loi commune des Xi . On en déduit la proposition suivante sur la
convergence ponctuelle de nF̂n (t). On se rend compte que cette fonction part de zéro et saute à la
plus petite valeur des Xi puis à la suivante etc.. On définit donc les statistique d’ordre de l’échantillon
(X1 , . . . Xn )

Définition 39 Soit hk la fonction de Rn dans R qui à (x1 , . . . , xn ) fait correspondre la kième valeur
parmi les (x1 , x2 . . . , xn ) rangées dans l’ordre croissant. On note x(k) = hk (x1 , . . . , xn ). On a alors
x(1) ≤ x(2) ≤ . . . ≤ x(n) .
On appelle statistique d’ordre k la variable aléatoire

X(k) = hk (X1 , . . . , Xn ) (4.5)

Proposition 5 On a les propriétés suivantes pour F̂n


1. F̂n (t) est constante sur les intervalles [X(i) , X(i+1) [. Elle est croissante et prend ses valeurs
dans l’ensemble {0, n1 , . . . , nk , . . . , 1}
k
2. P (F̂n (t) = n) = Cnk (F (t))k (1 − F (t))n−k
3. Quand n → ∞, (F̂n (t) − F (t)) tend vers 0 p.s.
4. Quand n tend vers ∞,
√ F̂n (t) − F (t) L
np −→ N (0, 1)
F (t)(1 − F (t)
On a donc F̂n (t) a pour loi approchée N (F (t), F (t)(1−F
n
(t)
)

Exercice Cet exercice se propose de démontrer une partie de la Proposition précédente. On


suppose t fixé de R+ .
1. Montrer que F̂n (t) est un estimateur sans biais de F (t). Calculer sa variance.
2. Montrer que |F̂n (t) − F (t)| tend vers 0 p.s.
3. Montrer les points 2. et 3.

Pour comparer F̂n et F et en déduire des tests, on ne va plus considérer la convergence ponctuelle
mais travailler sur la norme infinie de la différence afin de comparer les distributions dans leur globalité.
Pour cela nous considérons Dn = supt∈R |F̂n (t) − F (t)|. On peut remarquer que le max est atteint aux
points de discontinuité de F̂n i.e. Dn = max(Dn+ , Dn− ), avec
m
Dn+ = sup (F̂n (X(m) ) − F (X(m) )) = sup ( − F (X(m) ))
1≤m≤n 1≤m≤n n
64 CHAPITRE 4. TESTS NON PARAMÉTRIQUES

− − − m−1
Dn− = sup (F (X(m) ) − F̂n (X(m) )) = sup (F (X(m) )− )
1≤m≤n 1≤m≤n n

On peut remarquer que Dn est bien positif car au moins égal à ( nn − F (X(n) ) qui vaut 0. Les propriétés
de Dn , Dn+ et Dn− , font l’objet de la proposition suivante qui n’est pas démontrée ici. En fait, on a
un résultat plus fort que le point 3. qui est plus connu sous le nom du théorème de Glivenko-Cantelli
qui dit que la convergence p.s. est uniforme pour t ∈ R. On peut trouver la démonstration dans de
nombreux ouvrages dont [8].

Proposition 6 On a les propriétés 1-4. pour F̂n sous l’hypothèse H0 : l’échantillon est issu de la loi
F.
1. Quand n → ∞, Dn = supt∈R |F̂n (t) − F (t)| tend vers 0 p.s.
2. La variable aléatoire
Dn = sup |F̂n (t) − F (t)| (4.6)
t∈R

a une loi qui ne dépend pas de la loi mère et nDn converge en loi lorsque n tend vers l’infini :

√ X 2
P ( nDn < t) →n→∞ 1 − 2 (−1)k−1 e−2(kt) (4.7)
k=1

3. Pour n suffisamment grand, on utilisera donc l’approximation suivante du quantile d’ordre


(1 − α) de Dn :
r
−ln(α/2) 1
d1−α (n) ≈ − (4.8)
2n 6n
4. On a aussi les lois asymptotiques pour Dn+ et Dn− :
√ √ 2
P ( nDn− < t) = P ( nDn+ < t) →n→∞ 1 − e−2t (4.9)

5. sous H1 , on a liminf Dn > 0 p.s.

Evidemment, l’hypothèse H0 n’est pas toujours aussi précise et se limite parfois à F dans une
famille de loi dépendant d’un paramètre θ qu’il faut estimer. Il peut alors être tentant d’utiliser le test
de Kolmogorov avec comme statistique de test Dn = supt∈R |F̂n (t) − Fθ̂ (t)|. Mais dans la majorité des
cas, Dn ne suit plus la loi de Kolmogorov d’une part ou même n’est pas libre de θ. On peut montrer
voir [8] et [9] que lorsque la famille de loi est exponentielle ou normale, la loi de Dn est "libre de
θ" pour θ̂n l’estimateur du maximum de vraisemblance et peut donc être tabulée facilement. Nous
ne rentrerons pas dans les détails de la mise en oeuvre du test sinon mais la correction adéquate est
implémentée dans les logiciels.

4.2.1 Test de Kolmogorov


Pour un échantillon (X1 , . . . , Xn ) de loi F , les résultats qui précèdent permettent de tester facile-
ment H0 F = F0 grâce à la statistique S = Dn . Si le test est bilatéral (H1 F 6= F0 ), on rejettera
H0 au risque α lorsque Dn > K(1−α) où K(1−α) est le quantile de la loi de Kolmogorov indépendante
de la loi mère. Dans la pratique, on utilisera la table de la loi exacte de Kolmogorov pour n ≤ 40 puis
l’approximation (4.8) au delà. De plus, on peut montrer que ce test est consistant.
Pour le test unilatéral, H1 F < F0 , (resp H1 F > F0 ), on utilisera Dn+ (resp. Dn− ) comme
statistique de test et l’approximation (4.9) quand n est grand.
4.2. LA FONCTION DE RÉPARTITION EMPIRIQUE 65

4.2.2 Test de Kolmogorov-Smirnov


Si maintenant on veut comparer la distribution de deux échantillons, il convient de comparer leur
fonction de répartition via les fonction de répartitions empiriques de chacun des échantillons. Soit deux
échantillons de taille n1 et n2 . On note F̂n11 (t) et F̂n22 (t) les deux fonctions de répartition empiriques
correspondantes. On pose
Dn1 ,n2 = sup |F̂n11 (t) − F̂n22 (t)| (4.10)
t∈R

On peut remarquer que la statistique Dn1 ,n2 peut être calculée de la façon suivante :

Dn1 ,n2 = max (Dn+1 ,n2 , Dn−1 ,n2 ),

où  
k
Dn+1 ,n2 = max − F̂n2 (X(k) )
1≤k≤n1 n1
 
j
Dn−1 ,n2 = max − F̂n1 (Y(j) ) .
1≤j≤n2 n2

Proposition 7 Sous H0 : F1 = F2 , la loi de Dn1 ,n2 ne dépend pas de la loi mère f mais seulement de
(n1 , n2 ) sa loi est appelée loi de Kolmogorov-Smirnov. De plus lorsque les deux tailles d’échantillons
tendent vers +∞, :
r ∞
n1 n2 X 2
P( Dn1 ,n2 ≤ t) → 1 − 2 (−1)k−1 e−2(kt) (4.11)
n1 + n2
k=1

Pour n suffisamment grand, on utilisera donc l’approximation suivante du quantile d’ordre (1 − α) de


Dn1 ,n2 :
s
−ln(α/2)(n1 + n2 ) (n1 + n2 )
d1−α (n1 , n2 ) ≈ − (4.12)
2n1 n2 6(n1 n2 )

Il est alors facile de construire un test de niveau donné pour l’hypothèse H0 , ce test est appelé
test de Kolmogorov-Smirnov. On peut de plus montrer que ce test est consistant.

4.2.3 Le test de Cramer-von Mises


Le test de Cramer-von Mises est aussi basé sur la distribution empirique F̂n (t) de l’échantillon
(X1 , . . . , Xn ). Comme le test de Kolmogorov Smirnov, c’est un test d’ ajustement à une loi H0 F =
F0 . On fait l’hypothèse que F0 est continue et ne charge pas les points ? La statistique de test est la
suivante Z ∞
Wn = (F̂n (t) − F0 (t))2 dF0 (t)
−∞
R 1 Pn
Le changement de variables x = F0 (t) permet de montrer que Wn = 0 ( n1 i=1 1{F (Xi )≤t} − t)2 dt.
Comme les F (Xi ) sont des v.a. i.i.d. uniformes sur [0, 1], Wn est libre de F0 . On peut donc tabuler sa
loi. D’autre part on peut aussi montrer que
n
X 2i − 1
1
Wn = + ( − F (X(i) ))2
12n i=1 2n

En utilisant la loi tablée, lorsque n est grand, on rejette au seuil de 5% si wn > 0, 46.
66 CHAPITRE 4. TESTS NON PARAMÉTRIQUES

4.2.4 Paramètres de nuisance


Les tests d’ajustements de Kolmogorov et Crame-von Mises ont des statistiques de test dont la
loi ne dépend pas de F0 à condition que celles-ci soit parfaitement connues. En revanche, si on veut
tester par exemple H0 : F appartient à la famille des lois normales et que µ et σ 2 doivent être estimés,
alors cette propriété n’est plus vérifiée. En revanche les moyens actuels de simulation permettent de
donner une distribution empirique de cette loi et de décider à partir de cette distribution empirique.

4.3 Les statistiques d’ordre et de rang


4.3.1 Quelques résultats mathématiques
On dispose d’un échantillon i.i.d. (X1 , . . . , Xn ) de v.a. à valeurs dans R de loi à densité (discrète
ou continue) f et de fonction de répartition F .
Proposition 8 La fonction de répartition de X(k) est donnée par
n
X
FX(k) (t) = Cnj (F (t))j (1 − F (t))n−j (4.13)
j=k

Démonstration : Il faut remarquer que l’événement


n
[ 
(X(k) ≤ t) = (X(j) ≤ t) ∩ (X(j+1) > t)
j=k

de plus P ((X(j) ≤ t) ∩ (X(j+1) > t)) = Cnj (F (t))j (1 − F (t))n−j en utilisant l’indépendance entre les
Xi et parce qu’il y a Cnj façon de choisir les j xi qui sont plus petits que t parmi les n.
Définition 40 Sous l’hypothèse que la loi mère est à densité continue, on définit le vecteur des rangs
(R1 , . . . , Rn ) associé à (X1 , . . . , Xn ) par :

Ri = k ⇔ Xi = X(k) (4.14)
L’hypothèse d’absolue continuité de X implique que presque sûrement, n’y a pas d’exaequo dans
(X1 , . . . , Xn ) et les rangs sont alors bien définis.
Proposition 9 On a les propriétés suivantes pour (R1 , . . . , Rn ) :
1. La loi de (R1 , . . . , Rn ) ne dépend pas de la loi mère f
2. E[Rj ] = n+1
2 ∀1≤j ≤n
3. V ar[Rj ] = (n+1)(n−1)
12 ∀1 ≤ j ≤ n
n+1
4. cov(Ri , Rj ) = − 12 ∀i 6= j
Démonstration : Les permutations de (X1 , . . . , Xn ) ont toutes la même proba. Il en résulte que le vec-
teur des rangs est uniformément distribué dans l’ensemble de toutes les permutations de {1, 2 . . . , n}.

1 n+1
ERj = (1 + ... + n) =
n 2
varRj = E(Rj2 ) − (ERj )2
12 + ... + n2 (n + 1)2 n(n + 1)(2n + 1) (n + 1)2
= − = − =
n 4  6n 4
n + 1 2n + 1 n + 1 (n + 1)(n − 1) n2 − 1
= − = =
2 3 2 12 12
4.3. LES STATISTIQUES D’ORDRE ET DE RANG 67

Le résultat concernant la covariance découle du fait que la somme des Ri est constante, ce qui entraîne :

V ar(R1 + . . . + Rn ) = nV ar(R1 ) + 2Cn2 cov(R1 , R2 ) = 0

d’où le résultat. En fait la loi des Ri est un peu différente si on autorise des exaequo (attribution du
rang moyen des exaequo), mais nous ne rentrerons pas dans ce cadre et nous ferons l’approximation
par le cas précédent.

Corollaire 5 Soit deux échantillons de taille n1 et n2 issus de la même loi. La somme des rangs Sn1
correspondant à l’échantillon 1 vérifie les propriétés suivantes :
1. La loi de Sn1 ne dépend pas de la loi mère f et suit la loi appelée loi de Wilcoxon de paramètre
(n1 ; n2 )
n1 (n1 +n2 +1)
2. E[Sn1 ] = 2
n1 n2 (n1 +n2 +1)
3. V ar[Sn1 ] = 12
4. Si n1 et n2 sont plus grands que 10, on fait l’approximation de la loi de Sn1 par la loi normale
correspondante.

Les points (1) à (3) se démontrent aisément par le calcul. Le point (4) n’est pas démontré ici.

Proposition 10 Soit (X1 , . . . , Xn ) un échantillon issu d’une loi centrée en 0. Soit (R1 , . . . , Rn ) le
vecteur aléatoire des rangs de (|X1 |, . . . , |Xn |), soit S + la somme des rangs de la série des termes
positifs :
Xn
+
S = Ri 1{Xi >0}
i=1

Sous l’hypothèse que la loi des Xi est à densité, alors la loi de S + est indépendante de f et

n(n + 1) n(n + 1)(2n + 1)


E(S+) = V ar(S + ) =
4 24
Lorsque n est supérieur à 15, on peut faire l’approximation par la loi normale correspondante.

4.3.2 Application : le test de Wilcoxon-Mann-Withney


Le test de Mann-Whitney/Wilcoxon ou test des rangs est un test non-paramétrique qui teste
l’égalité des distributions des deux séries indépendantes de valeurs à comparer. Le principe du test
est le suivant : on trie les valeurs des deux séries mises en commun dans le sens croissant, on attribue
le rang 1 à la plus petite valeur, le rang 2 à la valeur suivante et ainsi de suite. On calcule ensuite
le score de chacune des séries en sommant les rangs obtenus pour chacune d’elle. Sous l’hypothèse
d’absolue continuité de la loi sous-jacente, il n’y a pas d’exeaco. On verra comment les gérer dans
les cas pratiques. A l’aide d’une table adéquate, on décide si ces scores sont compatibles avec l’hypo-
thèse H0 d’égalité des distributions. Le test de Mann-Whithney/Wilcoxon s’applique sans condition
d’application. On peut calculer directement la p-value pour conclure.
On se place dans le cadre de deux variables aléatoires quantitatives X1 et X2 . Et on suppose que l’on
dispose de deux échantillons indépendants de tailles respectives n1 et n2 de ces deux variables.
1. Choix de l’hypothèse nulle H0 et de l’hypothèse alternative H1
H0 : X1 et X2 ont la même distribution
H1 Cas bilatéral X1 et X2 n’ont pas la même distribution
Cas unilatéral : X1 et X2 n’ont pas la même distribution et les valeurs de X1 sont supérieures
aux valeurs de X2 . (On peut bien sûr avoir la tendance contraire).
68 CHAPITRE 4. TESTS NON PARAMÉTRIQUES

2. Statistique de test La statistique de test S est le score de l’échantillon qui a le plus petit
effectif.
(a) cas où min(n1, n2) ≤ 10 : cette statistique ne suit pas une loi usuelle, mais on trouve
les probabilités correspondantes dans la table de Mann-Whitney/Wilcoxon. Nous donnons
la table pour n1 ≤ 10 et n2 ≤ 13. On peut aussi trouver des tables plus complètes sur
internet.
(b) cas où min(n1, n2) ≥ 10, d’après le corollaire 5, sous H0 , S suit approximativement une
loi normale et si n1 est le plus petit effectif :

n1 (n1 + n2 + 1) n1 n2 (n1 + n2 + 1)
S ' N( ; )
2 12
Sinon, on inverse le rôle des deux effectifs. La statistique de test est alors la variable centrée
réduite correspondante.
3. Région critique
(a) cas où min(n1, n2) ≤ 10 : on lit les valeurs Cl et CU utiles pour la région critique dans la
table de Wilcoxon :
i. cas bilatéral : [0, Cl ] ∩ [Cu ; +[. Ces 2 intervalles étant les plus grands possibles tels que
P (S < Cl ) ≤ 0, 025 et P (S > Cu ) ≥ 0, 025. Comme la table de Wilcoxon donne la
fonction de répartition de S il n’y a pas de problèmes pour trouver Cl . Pour CU , on le
choisira le plus petit possible tel que P (S < CU − 1) > 0, 975.
ii. cas unilatéral à gauche : [0, Cl ] le plus grand possible tel que P (S < Cl ) ≤ 0, 05
iii. cas unilatéral à droite : [Cu ; +∞[ le plus petit possible tel que P (S > Cu ) < 0, 05
c’est-à-dire P (S ≤ CU − 1) ≥ 0, 95.
(b) cas où min(n1 , n2 ) ≥ 10 : on a la région critique habituelle pour une loi normale centrée
réduite.
Il existe des extensions au test de Wilcoxon Mann-Withney pour la comparaison de la distribution
de k échantillons indépendants. Ce test s’appelle le test de Kruskal-Wallis et il est implémenté dans
les logiciels usuels de statistique. Il supplée au test de l’Anova lorsque l’hypothèse d’homocédasticité
n’est pas vérifié.

4.3.3 Application : le test de Wilcoxon-Mann-Withney pour séries appa-


riées
Comme son nom l’indique ce test s’applique aux séries quantitatives appariées. Le cas fictif sui-
vant donne un exemple d’application : en vue de prouver l’efficacité d’un nouveau traitement contre
l’hypertension, on traite 22 patients hypertendus successivement avec cette nouvelle molécule et avec
un placebo. L’ordre d’administration des traitements est tiré au sort et une période de deux semaines
sépare les deux mois correspondants aux deux périodes de traitement. On compare les mesures de la
tension artérielle systolique obtenues après chacun des deux traitements. Ici les données sont claire-
ment appariées et la taille de l’échantillon est trop faible pour appliquer le test de comparaison de
moyennes adapté aux séries appariées. On doit donc employer un test non-paramétrique. On emploiera
successivement le test des signes et le test de Wilcoxon pour séries appariées.
On dispose de deux séries quantitatives appariées que l’on désire comparer. On travaille avec la
série des différences. On élimine les paires concordantes (c’est-à-dire les paires pour lesquelles les deux
valeurs sont égales) et l’on ne garde que les paires discordantes (différence non-nulle entre les deux
valeurs). Sous H0 la variable aléatoire différence suit une loi centrée en 0 et on peut donc utiliser la
Proposition 10 pour construire un test comparant les rangs de la série des termes positifs et négatifs.
4.3. LES STATISTIQUES D’ORDRE ET DE RANG 69

On prend alors la statistique de test S + qui est la somme des rangs positifs et dès que n ≥ 20, on
utilisera l’approximation
n(n + 1) n(n + 1)(2n + 1)
S+ ' N ( , )
4 24
pour des valeurs de n plus petites, on utilisera la table adéquate.
De même que le test de Kruskal-Wallis généralise celui de Wilcoxon dans le cas indépendant,
il existe un test, appelé test de Friedmann pour la comparaison de k échantillon appariés (mesures
répétées sur les mêmes individus par exemple). Ce test n’est pas abordé ici.

4.3.4 Le test des signes pour séries appariées


Le test des signes s’utilise dans la même configuration que le test de Wilcoxon Mann-Withney
pour séries appariées mais ne tient compte que du signe de la différence des paires discordantes. Il est
assez naturel car basé sur la loi binomiale ou son approximation par la loi normale et se déroule de la
façon suivante :
1. Choix de l’hypothèse nulle H0 et de l’hypothèse alternative H1
H0 : X1 et X2 ont la même distribution
H1 Cas bilatéral X1 et X2 n’ont pas la même distribution
Cas unilatéral : X1 et X2 n’ont pas la même distribution et les valeurs de X1 sont supérieures
aux valeurs de X2 . (On peut bien sûr avoir la tendance contraire).
2. Statistique de test On note n le nombre de paires discordantes. On appelle N + le nombre
de paires positives. On appelle N − le nombres de paires négatives : n = N + + N − .
(a) cas où n ≤ 20 La statistique de test S est min(N + , N − ) (le plus petit des deux). Sous H0
d’égalité des distributions, chaque paire a une chance sur deux d’être positive ou négative
donc : S suit donc une loi binomiale B(n; 0, 5)
(b) cas où n > 20, d’après le corollaire 5 S = min(N + , N − ) suit approximativement une loi
normale S ' N ( n2 ; n4 )
3. Région critique
(a) cas où n ≤ 20 : on lit directement la p-value dans la table binomiale :
i. cas bilatéral : p = 2P (S ≤ s)
ii. cas unilatéral : p = 2P (S ≤ s)
(b) cas où n ≥ 20 : on a la région critique habituelle pour une loi normale.
On reprend l’exemple donné ci-dessus et l’on suppose que la mesure de la tension artérielle systo-
lique à la fin de chacun des traitements est donnée dans le tableau suivant :
Données des tensions artérielles systoliques (en mm hg) après traitement actif et après
placebo de 27 patients (exemple fictif)
no de patient 1 2 3 4 5 6 7 8 9 10 11
HTA placebo 175 155 170 170 150 170 170 200 150 150 190
HTA traitement 175 130 170 150 165 140 150 190 160 150 195
no de patient 12 13 14 15 16 17 18 19 20 21 22
HTA placebo 190 160 175 170 145 150 150 155 170 180 200
HTA traitement 160 135 175 150 125 155 140 125 145 160 200
On effectue la différence entre les deux valeurs (HTA placebo - HTA traitement).
Données des tensions artérielles systoliques (en mm hg) après traitement actif et après
placebo de 27 patients (exemple fictif)
70 CHAPITRE 4. TESTS NON PARAMÉTRIQUES

no de patient 1 2 3 4 5 6 7 8 9 10 11
Différence 0 25 0 20 -15 30 20 10 -10 0 -5
no de patient 12 13 14 15 16 17 18 19 20 21 22
Différence 30 25 0 20 20 -5 10 30 25 20 0
Parmi ces 22 paires, on voit que 17 paires sont discordantes et que parmi elles, 4 valeurs de la différence
entre la mesure après placebo et la mesure après traitement sont négatives et 13 valeurs sont positives.
Appliquer successivement le test des signes et celui de Wiilcoxon pour séries appariées.
Chapitre 5

Régression linéaire

5.1 Le modèle de régression simple


On postule l’existence d’un modèle qui régit les relations entre une variable Y appelée variable
d’intérêt et une variable X appelée variable indépendante ou covariance. La relation la plus simple
entre Y et X est une relation linéaire donnée par :
Yi = β0 + β1 xi + εi pour i = 1, · · · , n (5.1)
où :
- xi , représente la valeur prise par la covariable sur l’individu i (i représente parfois notamment
en économétrie une donnée temporelle), on ne considère pas les x comme des variables aléatoires mais
comme des conditions fixées (des fois a posteriori !).
- β1 , est la composante du vecteur des coefficients de régression associée à la variable explicative,
- β0 représente un terme constant,
-On note β = (β0 , β1 ) le vecteur des paramètres du modèle.
- les εi sont les erreurs de spécification (inconnues et aléatoires)

Interprétation Le coefficient β0 n’a pas toujours d’interprétation. Si jamais la nullité de la variable


x à un sens, alors β0 est la valeur moyenne de Y quand cette variable est nulle. L’interprétation de βi
est la suivante : c’est l’augmentation moyenne de Y lorsque la variable xi augmente d’une unité.
Les hypothèses

H1 : E(ε) = 0 ⇔ E(εi ) = 0 ∀1 ≤ i ≤ n
La perturbation est d’espérance nulle : l’ensemble des déterminants de Y qui n’ont pas été retenus
dans le modèle est d’espérance nulle. C’est-à-dire que E(Y |X = x) = β0 + β1 x.
Si cette hypothèse n’était pas satisfaite, le terme d’erreur aléatoire εi aurait une composante systé-
matique qui aurait dû être incluse dans la partie non aléatoire de l’équation de régression dans la
constante β0 notamment. Le modèle serait alors mal spécifié.

H2 V ar(εi ) = σ 2 pour tout 1 ≤ i ≤ n. C’est l’hypothèse dite d’homocédasticité. L’ampleur


des erreurs est la même pour tous les individus ou au cours du temps si on est dans le cadre de série
chronologique. σ 2 sera un paramètre supplémentaire du modèle qu’il faudra estimer.
H3 Les εi sont indépendants. Si H2 et H3 sont vérifiés simultanément, alors la matrice de variance
du vecteur ε est diagonale de la forme σ 2 Id.
H4 Les εi sont des variables indépendantes de distribution normale de moyenne nulle et de variance
σ 2 . Le vecteur ε vérifie
ε ∼ N (0, σ 2 Id)

71
72 CHAPITRE 5. RÉGRESSION LINÉAIRE

En pratique, cette condition est difficile à vérifier puisque les εi ne sont pas observés directement. En
revanche ils sont estimés par les résidus du modèle (voir 5.10) et on pourra faire un test de gaussiannité
des résidus. Dans la pratique, dès que l’échantillon est de taille assez importante et avec des conditions
sur la matrice X, les lois limites des estimateurs sont les mêmes que dans le cas gaussien.
Exemple : On souhaite modéliser la Tension Artérielle Systolique (TAS) d’un individu en fonction
de son âge. Il est relativement connu que la TAS augmente avec l’âge. On pose donc le modèle

T ASi = β0 + β1 xi + εi

On pourrait tirer le modèle par les cheveux en disant que β0 s’interprète comme la TAS d’un individu à
la naissance (x=0). Mais souvent le modèle n’est établi que pour une population homogène d’individus
(par exemple les adultes ) donc il est préférable de ne pas interpréter β0 . En revanche on interprète
β1 comme l’augmentation moyenne de la TAS quand l’individu vieillit d’un an.

5.1.1 L’estimateurs des moindres carrés de β


Le paramètre du modèle est β = (β0 , β1 ) qui est de dimension 2. On cherche à estimer le vecteur β
et une fois celui-ci estimé, il est tentant de "reconstruire" Y au moyen de x par la formule : Ŷ = β̂0 +β̂1 x.
L’estimation sera d’autant meilleure que les résidus de cette approximation de Y sont minimisés. Pour
cela, on considère la différence

ε̂i = Yi − Ŷi ε̂ = (εˆ1 , ..., εˆn )t = Y − Ŷ (5.2)

et le vecteur obtenu s’appelle le vecteur des résidus.

Définition 41 On appelle estimateur des moindre carrés du paramètre β du modèle (5.1) la valeur
de β qui minimise la somme des carrés des résidus, (ou la norme au carré de ε̂ ) :
n
X n
X
2
β̂ = arg min ||ε̂|| = arg min ε̂2i = arg min (Yi − (β0 + β1 xi ))2 .
β∈Rk β∈Rk i=1 β∈Rk i=1

Sous l’hypothèse H1, l ’estimateur des moindres carrés est donné par :
Pn
xi Yi −nx̄n Ȳn
β̂1 = Pi=1
n
x2 −n(x̄ )2
= cov(x,Y
s2
)
i n xn
i=1
(5.3)
β̂0 = Ȳn − β̂1 x̄n

Pour une valeur donnée xi , Ŷi = β̂0 + β̂1 xi est la valeur estimée de Yi par le modèle.

Proposition 11 Sous l’hypothèse H4,


(i) β̂ = (β̂0 , β̂1 ) est un estimateur sans biais de β,
(ii) La matrice de covariance de β̂ définie par
 
V ar(β̂0 ) Cov(β̂0 , β̂1 ))
V ar(β̂) =  
Cov(β̂1 , β̂0 ) V ar(β̂1 ))

est donnée par : P !


(xi )2
σ2 i=1
−x̄n
V ar(β̂) = P 2
n (5.4)
i=1 (xi − x̄n ) −x̄n 1
5.1. LE MODÈLE DE RÉGRESSION SIMPLE 73

(iii) Théorème de Gauss-Markov De tous les estimateurs sans biais de β de la forme BY ou


B est la matrice d’une application linéaire, β̂ est de variance minimale.
Le caractère sans biais de β̂ et l’expression de la variance nous donne immédiatement un critère de
consistance de l’estimateur β̂ qui ne dépend pas de la loi du bruit. La dépendance en n des termes est
omise.
Proposition 12 Sous les hypothèses H1-3, 5 alors si V ar(β̂) tend vers 0 avec n, l’estimateur β̂ est
consistant.
L’expression (5.4) nous dit que les cas pour lesquels V ar(β̂) ne tend pas vers 0 sont pathologiques.

5.1.2 Décomposition de la variance


On va décomposer la variance de la variable Y en fonction de l’information expliquée par la
covrariable x et ce qui est du bruit non interprétable. On a la décomposition suivante
n
X n
X
(Yi − Ȳn )2 = (Yi − Ŷi + Ŷi − Ȳn )2
i=1 i=1
n
X n
X n
X
= (Yi − Ŷi )2 + (Ŷi − Ȳn )2 + 2 (Yi − Ŷi )(Ŷi − Ȳn )
i=1 i=1 i=1
SCT = SCR + SCM
En effet, par des arguments de projection orthogonale dans Rn , on peut montrer que le double produit
est nul et on obtient
Pndonc la variance comme la somme de deux termes Pn : l’un SCM est la part de
la variance SCT = i=1 (Yi − Ȳn )2 expliquée par le modèle SCM = i=1 (β̂0 + β̂1 xi ) − Ȳn )2 , l’autre
Pn Pn
SCR = i=1 (Yi − Ŷi )2 = i=1 (εi )2 est la somme des carrés des résidus. est la part non expliquée par
le modèle liée au bruit ε.

5.1.3 L’estimation de la variance des erreurs


Il est naturel
Pn d’estimer la variancePn des εi non observables par l’estimation de celle des résidus
soit σ̂ 2 = n1 i=1 (ε̂i − ε̂¯n )2 = n1 i=1 (ε̂i )2 car (exercice ! trouver une projection orthogonale) ε̂¯n =
0. Mais comme nous le verrons à la proposition 13, cet estimateur n’est pas centré (mais il l’est
aymptotiquement !) aussi nous définissons :
Définition 42 On définit l’estimateur de σ 2 par l’équation suivante
n
1 X ||Y − Ŷ ||2
σ̂ 2 = (ε̂i − ε̂¯n )2 = (5.5)
n − 2 i=1 n−2

Le résultat suivant donne les propriétés des estimateurs lorsque l’hypothèse H4 de normalité de
ε est vérifiée. Ces hypothèses permettront de construire des tests sur les coefficients du modèle.
Proposition 13 Sous les hypothèses H1à4, les estimateurs β̂ et σ 2 vérifient :
1. β̂ et n−2 2 2
n σ̂ sont aussi les estimateurs du maximum de vraisemblance de (β, σ ).
2. β̂ et σ̂ 2 sont indépendants et de lois respectives
n−2 2 SCR
β̂ ' N (β, V ar(β̂)) σ̂ = ' χ2 (n − 2)
σ2 σ2
Il est facile de vérifier 1. par le calcul. Pour le point 2, remarquons tout d’abord que d’après (5.3),
β̂ est une transformation linéaire du vecteur gaussien Y et reste donc gaussien (sa moyenne et sa
variance ont déjà été explicitée à la proposition 11). La suite est une conséquence du théorème de
Cochran. Nous la démontrerons dans le cas général de la régression multiple.
74 CHAPITRE 5. RÉGRESSION LINÉAIRE

5.1.4 Test sur les coefficients du modèle


Grâce à la Proposition 13, sous l’hypothèse de normalité H4 qui donne la loi des estimateurs, il
est aisé de construire des tests sur les coefficients β et σ 2 au vu de l’observation des données. Ces tests
servent généralement à vérifier la non nullité de β1 , c’est-à-dire tester la pertinence de la variable x
pour expliquer Y donc la pertinence du modèle ! On pose donc :
H0 : β 1 = 0 contre H1 : β1 6= 0.
Un estimateur naturel de β1 est bien évidemment β̂1 dont on connaît la loi sous les hypothèses H1à4.

σ2 β̂1 − β1
β̂1 ' N (β1 , P 2
), soit p ' N (0, 1)
i=1 (xi − x̄n )
P
σ 2 / i=1 (xi − x̄n )2

Mais σ 2 étant inconnu, on va utiliser son estimation et nous aurons besoin du résultat de la propositions
14 pour trouver la loi de

β̂1 − β1 (β̂1 − β1 ) n − 2
Tn = q = p P
σˆ2 / i=1 (xi − x̄n )2
P ( SCR)/ i=1 (xi − x̄n )2

qui grâce à la proposition 16 suit une loi de Student à (n − 2) degrés de liberté.

Proposition 14 Sous les hypothèses H1à4, sous l’hypothèse nulle H0 , on a


SCT SCM
σ2 ' χ2 (n − 1) σ2 ' χ2 (1)

SCR
σ2 ' χ2 (n − 2) SCM ⊥ SCR

SCM
F = SCR /(n−2) ' F(1, n − 2)

où F(1, n − 2) est la loi de Fischer-Snedecor .

Corollaire 6 On suppose les hypothèses H1à4.


β̂1 −β1
(i) Sous l’hypothèse nulle H0 , la statistique de test Tn = p ˆ2 P suit une loi de
σ / (xi −x̄n )2
i=1
(n−2)
Student à (n − 2) d.d.l.. On rejettera donc H0 au risque α si |Tn | > t1−α/2 .

SCM (1,n−2)
(ii) Sous l’hypothèse nulle H0 , de manière équivalente, on rejette H0 si F = > f1−α
σˆ2

(iii) L’estimateur σ̂ 2 est non biaisé


(iv) On a une procédure d’intervalle de confiance à (1 − α)% du paramètre inconnu β1 :
" s s #
(n−2) σ̂ 2 (n−2) σ̂ 2
β̂1 − t1−α/2 P 2
; β̂1 + t1−α/2 P 2
i=1 (xi − x̄n ) i=1 (xi − x̄n )

De la même façon, sous les hypothèses H1à4, on peut montrer la normalité de toute combinaison
linéaire des coefficients βˆ0 et βˆ1 , en particulier pour un xi donné, de la valeur estimée Ŷi de Yi par le
modèle. On en déduit un intervalle de confiance pour Ŷi donné par
 s Pn 
σ̂ 2 (x2 + x 2 /n − 2x x̄ )
i i n
β̂0 + β̂1 xi ± t(n−2)
1−α/2
P j=1 j 2

i=1 (x i − x̄ n )

car cov(β̂0 + β̂1 xi ) est donné par x2i V ar(β̂1 ) + 2xi cov(β̂0 , β̂1 ) + V ar(β̂0 ), et grâce à (5.4).
5.1. LE MODÈLE DE RÉGRESSION SIMPLE 75

5.1.5 Coefficient de détermination


C’est la part de variance expliquée par la régression, plus il est proche de 1, meilleur est le modèle.

Définition 43 Le coefficient de détermination du modèle (5.1) est donné par


Pn
(Ŷi − Ȳn )2 SCM
R2 = Pni=1 = (5.6)
i=1 i(Y − Ȳn ) 2 SCT

On peut montrer que

Proposition 15
 2
cov(x, Y )
R2 = ρ2 = (5.7)
σx σY
2
R
F = (5.8)
(1 − R2 )/n − 2

De plus, les tests suivants sont équivalents :



 H0 : β1 = 0 |ρx,y |
H0 : (X, Y ) = 0 de statistique de test Tn ou F ou T ∗ = q

H0 : SCM = 0 (1 − ρ2x,y )/(n − 2)

5.1.6 Intervalle de prévision


On se place toujours dans le cadre du modèle (5.1) et on suppose que l’on observe la covariable
pour un individu supplémentaire, celle-ci étant notée xn+1 . On veut prédire Yn+1 et un intervalle de
prévision adéquat. On sait que Yn+1 = β0 + β1 xn+1 + εn+1 et il est raisonnable de prévoir Yn+1 par
p
Ŷn+1 = β̂0 + β̂1 xn+1 1 . Sous les hypothèses H1à4, grâce à la Proposition 13, on sait d’une part que
x0n+1 β̂ ' N (x0n+1 β, σ 2 x0n+1 V ar(β̂)xn+1 ). D’autre part, εn+1 est indépendant de β̂ (car ce dernier est
mesurable par rapport à (ε1 , . . . , εn ) et grâce à l’indépendance des εi sous H1à4).
p
Comme Yn+1 − Ŷn+1 = εn+1 − x0n+1 (β̂ − β), on obtient la loi de l’erreur de prévision :
Pn
p (x2n+1 + j=1 x2j /n − 2xn+1 x̄n )
2
Yn+1 − Ŷn+1 ' N (0, V ar(β̂0 + β̂1 xn+1 ) + V ar(εn+1 )) = N (0, σ (1 + Pn 2
)
i=1 (xi − x̄n )

après estimation de la variance σ 2 , on en déduit l’intervalle de prévision au risque α de Yn+1 :


s Pn
p (x2n+1 + j=1 x2j /n − 2xn+1 x̄n )
Ŷn+1 ± tn−2; α2 σ̂ 2 (1 + Pn 2
)
i=1 (xi − x̄n )

Cet intervalle est bien évidemment plus large que l’intervalle de confiance de l’espérance de Yi qui est
β0 + β1 xi . Car il tient compte de la variabilité dûe à ε.

1. Le p n’est pas une erreur de typo car ce n’est pas tout à fait l’estimation de Yi par la regression défini
à la section 5.2.1. Ici, l’estimateur de β n’utilise pas le couple (Yn+1 , xn+1 ). C’est bien un p de prévision.
76 CHAPITRE 5. RÉGRESSION LINÉAIRE

5.2 Le modèle de régression multiple


On postule l’existence d’un modèle qui régit les relations entre une variable Y appelée variable
d’intérêt et différentes variables que l’on peut voir aussi comme des conditions expérimentales. La
relation la plus simple entre Y est les conditions expérimentales est une relation linéaire donnée par :

Yi = β0 + β1 xi1 + β2 xi2 + · · · + βk−1 xi k−1 + εi pour i = 1, · · · , n

où :
- xij , j = 1, · · · , k − 1, représente la valeur prise par la j ème variable sur l’individu i (i représente
parfois notamment en économétrie une donnée temporelle), on ne considère pas les x comme des
variables aléatoires mais comme des conditions fixées (des fois a posteriori !).
- βj , j = 1, · · · , k − 1, est la composante du vecteur des coefficients de régression associée à la j ème
variable explicative,
- β0 représente un terme constant,
- les εi sont les erreurs de spécification (inconnues et aléatoires)

Ecriture matricielle :
Y = Xβ + ε (5.9)
où :  
      1 x11 x12 ··· x1 k−1
Y1 β0 ε1 
 1 x21 x22 ··· x2 k−1


 Y2   β1   ε2   .. .. .. .. .. 
Y =

.. ;

β=

.. ;

ε=

.. ;

et X = 
 . . . . . 

 .   .   .   1
 xt1 xt2 ··· xt k−1


Yn βk−1 εn  
1 xn1 xn2 ··· xn k−1

Interprétation Le coefficient β0 n’a pas toujours d’interprétation. Si jamais la nullité de toutes les
variables xi à un sens, alors β0 est la valeur moyenne de Y quand toutes les covariables sont nulles.
L’interprétation de βi est la suivante : c’est l’augmentation moyenne de Y lorsque la variable xi
augmente d’une unité et toute choses égale par ailleurs.
Les hypothèses

H1 : E(ε) = 0 ⇔ E(εi ) = 0 ∀1 ≤ i ≤ n
La perturbation est d’espérance nulle : l’ensemble des déterminants de Y qui n’ont pas été retenus
dans le modèle est d’espérance nulle. C’est-à-dire que E(Y |X) = Xβ.
Si cette hypothèse n’était pas satisfaite, le terme d’erreur aléatoire εi aurait une composante systé-
matique qui aurait dû être incluse dans la partie non aléatoire de l’équation de régression dans la
constante β0 notamment. Le modèle serait alors mal spécifié.

H2 V ar(εi ) = σ 2 pour tout 1 ≤ i ≤ n. C’est l’hypothèse dite d’homocédasticité. L’ampleur


des erreurs est la même pour tous les individus ou au cours du temps si on est dans le cadre de série
chronologique. σ 2 sera un paramètre supplémentaire du modèle qu’il faudra estimer.
H3 Les εi sont indépendants. Si H2 et H3 sont vérifiés simultanément, alors la matrice de variance
du vecteur ε est diagonale de la forme σ 2 Id.
H4 Les εi sont des variables indépendantes de distribution normale de moyenne nulle et de variance
σ 2 . Le vecteur ε vérifie
ε ∼ N (0, σ 2 Id)
En pratique, cette condition est difficile à vérifier puisque les εi ne sont pas observés directement. En
revanche ils sont estimés par les résidus du modèle (voir 5.10) et on pourra faire un test de gaussiannité
5.2. LE MODÈLE DE RÉGRESSION MULTIPLE 77

des résidus. Dans la pratique, dès que l’échantillon est de taille assez importante et avec des conditions
sur la matrice X, les lois limites des estimateurs sont les mêmes que dans le cas gaussien.
H5 rang(X) = k : pas de relation linéaire exacte entre certaines colonnes de X ; cela implique que
la matrice X 0 X est régulière et donc que la matrice inverse (X 0 X)−1 existe.

Exemple : On peut raisonnablement supposer qu’une loi de demande au temps t comporte comme
variables explicatives non seulement le prix PY du bien demandé, mais aussi le prix PX d’un substitut
(ou d’un concurrent) et le revenu R du consommateur :

Yt = β0 + β1 (PY )t + β2 (PX )t + β3 Rt + εt

5.2.1 L’estimateurs des moindres carrés de β


Les paramètres d’un tel modèle sont les βj pour 0 ≤ j ≤ k − 1 et σ 2 , ils sont donc au nombre
de k + 1. On cherche à estimer ces paramètres notamment le vecteur β et une fois celui-ci estimé, il
est tentant de "reconstruire" Y au moyen des xj par la formule : Ŷ = X β̂. L’estimation sera d’autant
meilleure que les résidus de cette approximation de Y sont minimisés. Pour cela, on considère la
différence
ε̂i = Yi − Ŷi ε̂ = (εˆ1 , ..., εˆn )t = Y − Ŷ = Y − X β̂ (5.10)
et le vecteur obtenu s’appelle le vecteur des résidus.

Définition 44 On appelle estimateur des moindre carrés du paramètre β du modèle (5.9) la valeur
de β qui minimise la somme des carrés des résidus, (ou la norme au carré de ε̂ :
n
X
β̂ = arg min ||ε̂||2 = arg min ε̂2i = arg min ||Y − Xβ||2 .
β∈Rk β∈Rk i=1 β∈Rk

Sous les hypothèses H1 et H5, l ’estimateur des moindres carrés est donné par :

β̂ = (X 0 X)−1 X 0 Y (5.11)

Remarques On voit que X β̂ est dans l’espace engendré par X d’une part et qu’il minimise la distance
||Y − Xβ||2 d’autre part. On en déduit que X β̂ est la projection sur l’espace engendré par X. C’est un
moyen de prouver (5.11) si l’on sait que la matrice de projection est donnée par ΠImX = X(X 0 X)−1 X 0 .
La proposition suivante donne les propriétés de l’estimateur β̂.

Proposition 16 Sous les hypothèses H1 et H5,


(i) β̂ est un estimateur sans biais de β,
(ii) La matrice de covariance de β̂ définie par
 
V ar(β̂0 ) Cov(β̂0 , β̂1 ) ... Cov(β̂0 , β̂k−1 )
 Cov(β̂1 , β̂0 ) V ar(β̂1 ) ... Cov(β̂1 , β̂k−1 ) 
V ar(β̂) = 
 
.. .. .. .. 
 . . . . 
Cov(β̂k−1 , β̂0 ) Cov(β̂k−1 , β̂1 ) ... V ar(β̂k−1 )

est donnée par :


V ar(β̂) = σ 2 (X 0 X)−1 , (5.12)
(iii) Théorème de Gauss-Markov De tous les estimateurs sans biais de β de la forme BY ou
B est la matrice d’une application linéaire, β̂ est de variance minimale.
78 CHAPITRE 5. RÉGRESSION LINÉAIRE

Le caractère sans biais de β̂ et l’expression de la variance nous donne immédiatement un critère de


consistance de l’estimateur β̂ qui dépend pas de la loi du bruit. La dépendance en n des termes est
omise.

Proposition 17 Sous les hypothèses H1-3, 5 alors si (X 0 X)−1 tend vers 0 avec n, l’estimateur β̂
est consistant.

Les termes de la matrice (X 0 X) ont été calculé en TD, le 1er terme est n et les autres sont des sommes
sur i de termes du type xij , xij xik . Si la matrice n’est pas singulière, on voit que les cas ou (X 0 X)−1
ne tend pas 0 sont pathologiques.

5.2.2 L’estimation de la variance des erreurs


Il est naturel
Pn d’estimer la variancePn des εi non observables par l’estimation de celle des résidus
soit σ̂ 2 = n1 i=1 (ε̂i − ε̂¯n )2 = n1 i=1 (ε̂i )2 car (exercice ! trouver une projection orthogonale) ε̂¯n =
0. Mais comme nous le verrons à la proposition 13, cet estimateur n’est pas centré (mais il l’est
aymptotiquement !) aussi nous définissons :

Définition 45 On définit l’estimateur de σ 2 par l’équation suivante


n
1 X ||Y − Ŷ ||2
σ̂ 2 = (ε̂i − ε̂¯n )2 = (5.13)
n − k i=1 n−k

Remarque En fait on peut démontrer aisément que ||Y − Ŷ ||2 = (Y − X β̂)0 (Y − X β̂) = Y 0 Y − β̂ 0 X 0 Y

Le résultat suivant donne les propriétés des estimateurs lorsque l’hypothèse H4 de normalité de ε est
vérifiée. Ces hypothèses permettront de construire des tests sur les coefficients du modèle.

Proposition 18 Sous les hypothèses H1à5, les estimateurs β̂ et σ 2 vérifient :


n−k 2
1. β̂ et n σ̂ sont aussi les estimateurs du maximum de vraisemblance de (β, σ 2 ).
2
2. β̂ et σ̂ sont indépendants et de lois respectives
n−k 2
β̂ ' N (β, σ 2 (X 0 X)−1 ) σ̂ ' χ2 (n − k)
σ2

Il est facile de vérifier 1. par le calcul. Pour le point 2, remarquons tout d’abord que d’après
(5.11), β̂ est une transformation linéaire du vecteur gaussien Y et reste donc gaussien (sa moyenne et
sa variance ont déjà été explicitée à la proposition 16). La suite est une nouvelle fois une conséquence
du théorème de Cochran. En effet ΠImX (ε) = X(β̂ − β) et Π(ImX)⊥ (ε) = (Y − Ŷ ) et ce sont les
projections du même vecteur gaussien sur des sous espaces orthogonaux, ils sont donc indépendants,
par transformation déterministe, on obtient l’indépendance des deux estimateurs et le théorème de
Cochran nous donne la loi de σˆ2 une fois remarqué que dimImX ⊥ = n − k.

Il est évident que l’hypothèse H4 de normalité n’est pas simple à vérifier cependant si l’échantillon
est de grande taille et n’est pas pathologique, on va obtenir la normalité asymptotique des estimateurs.
Pour cela définissons ΠX = X(X 0 X)−1 X 0 la matrice de projection sur l’espace engendré par X dans
Rn . Et notons hij son terme (i, j) et ||ΠX || = max1≤i≤n hii .

Proposition 19 Sous les hypothèses H1-3,5, si ||ΠX || →n→∞ 0, alors :


(i) β̂ et Ŷ sont asymptotiquement gaussiens
5.2. LE MODÈLE DE RÉGRESSION MULTIPLE 79

(ii) Ŷi − (Xβ)i converge vers 0 en moyenne quadratique donc en probabilité


Preuve : la démonstration du point (i) est donnée dans [2] et utilise une version généralisée du
théorème central limite. Pour le point (ii), comme on sait que Ŷi est sans biais pour (Xβ)i , il suffit de
regarder le terme de variance :
Xn n
X
V ar(Ŷi ) = V ar((ΠX (Y ))i ) = V ar( hij Yj ) = σ 2 h2ij = hii σ 2
j=1 j=1

car la matrice de projection est idempotente et donc Π0X ΠX = ΠX .

5.2.3 Estimateur du maximum de vraisemblance


Sous les hypothèses de loi du bruit ε, on peut chercher les estimateurs du maximum de vraisem-
blance des paramètres (β, σ 2 ).
Proposition 20 Sous les hypothèses H1à5, les estimateurs du maximum de vraisemblance de (β, σ 2 )
sont
ε̂0 ε̂ n−k 2
β̂EM V = β̂ = (X 0 X)−1 X 0 Y 2
σEM V = = σ̂
n n

5.2.4 Test sur les coefficients du modèle


Grâce à la Proposition 13, sous l’hypothèse de normalité H4 qui donne la loi des estimateurs, il
est aisé de construire des tests sur les coefficients β et σ 2 au vu de l’observation des données. Ces tests
servent généralement à vérifier la non nullité de β, c’est-à-dire tester la pertinence du modèle ! Ou à
tester des relations linéaires entre les βj pour 0 ≤ j ≤ k − 1. C’est pourquoi nous commençons par ce
test dont se déduiront les autres.
Soit C une matrice constante r × k de rang r ≤ k et c un vecteur r × 1. On cherche une statistique
de test pour l’hypothèse
H0 : Cβ = c
contre H1 : Cβ 6= c. Un estimateur naturel de Cβ est C β̂ dont on connaît la loi : C β̂ ' N (Cβ, σ 2 C(X 0 X)−1 C 0 )
a fortiori sous H0 : C β̂ − c ' N (0, σ 2 C(X 0 X)−1 C 0 ) dont on déduit, en remarquant que C(X 0 X)−1 C 0
est définie positive que
(C β̂ − c)t (C(X 0 X)−1 C 0 )−1 (C β̂ − c)
' χ2 (r)
σ2
De plus, en utilisant la propriété 2. de la Proposition 13, nous déduisons que β̂ et donc C β̂ sont
indépendantes de σˆ2 .
On en déduit le test de Fischer-Snedecor suivant
Proposition 21 Sous les hypothèses H1à5, la statistique de test F définie par
(C β̂ − c)t (C(X 0 X)−1 C 0 )−1 (C β̂ − c)/r
F = ,
σ̂ 2
suit, sous l’hypothèse H0 , la loi de Fischer-Snedecor F(r, n − k). On rejettera donc pour des valeurs
de F supérieures à f1−α (r, n − k) au risque α.
On peut de manière duale construire une ellipsoïde de confiance de (Cβ − c) (le plus souvent utilisée
pour C = Idk ) définie par
(C β̂ − c)t (C(X 0 X)−1 C 0 )−1 (C β̂ − c)/r
E.C.1−α = {c ∈ Rr : ≤ f1−α (r, n − k)} (5.14)
σ̂ 2
De la proposition 21, on en déduit les statistiques de tests pour différentes hypothèses sur β.
80 CHAPITRE 5. RÉGRESSION LINÉAIRE

Corollaire 7 1. Sous H0 : βj = βj0 ,

(β̂j − βj0 )2
F = = t2n−k ' F (1, n − k)
σ̂ 2 [(X 0 X)−1 ]j+1,j+1
et ce test est équivalent à

(β̂j − βj0 )
T = p ' T (n − k)
σ̂ [(X 0 X)−1 ]j+1,j+1

2. Sous H0 : β = 0k ,
β̂ 0 (X 0 X)β̂/k
F = ' F (k, n − k)
σ̂ 2

5.2.5 Sous modèles et décomposition de la variance


Si on veut tester la pertinence du modèle général β ∈ Rk par rapport à un sous modèle, on peut
se ramener au test vu à la section précédente Cβ = c. En effet, chercher un estimateur dans un sous-
modèle revient à chercher un estimateur β̂c vérifiant la contrainte Cβ = c. Dans ce nouveau modèle,
on peut aisément définir Ŷc = X β̂c , ε̂c = Y − Ŷc . La méthode des moindres carrés nous dit Ŷc = ΠV
où V est le sous espace de ImX engendré par {Xβc tel que Cβc = c} et V est de dimension (k − r).
En utilisant le théorème de Pythagore, on obtient :

||Y − Ŷc ||2 = ||Y − Ŷ ||2 + ||Ŷ − Ŷc ||2 (5.15)

et à l’aide du théorème de Cochran toujours, en écrivant :

ImX = V ⊕ A d’où Rk = V ⊕ A ⊕ (ImX)⊥


et grâce aux orthogonalités successives, on montre facilement que :

||Y − Ŷ ||2 2 ||Ŷ − Ŷc ||2


' χ (n − k) est indépendant de ' χ2 (r)
σ2 σ2
on obtient donc un test équivalent à celui de la Proposition 21 donné par la statistique :

(||Y − Ŷc ||2 − ||Y − Ŷ ||2 )/r


F = ' F (r, n − k) sous H0 : Cβ = c (5.16)
σ̂ 2
Cette formulation paraît moins facile à manipuler que le produit matriciel de la Proposition 21,
mais est plus naturelle lorsque l’on regarde le test des modèles emboités. En effet ||Y − Ŷc ||2 = ||ε̂c ||2 est
la somme des carrés des résidus contraints, c’est-à-dire des résidus du sous-modèle. Comme l’espace
contraint V est plus petit que ImX, ||Y − Ŷc ||2 ≥ ||Y − Ŷ ||2 et le numérateur de la statistique de test est
la différences des résidus du sous-modèles et du modèles complet. On comprend que si cette différence
est faible, on a peu à gagner à conserver le modèle complet alors qu’une différence forte montre que
les résidus sont réduits dans le modèle complet, d’où son intérêt.
En particulier, pour tester le modèle complet par rapport au modèle ou seul le coefficient constant
β0 est non-nul, nous utilisons la décomposition des carrés (5.15) pour la contrainte β̃ = (β1 , . . . , βk−1 ) =
0k−1 , ce qui donne Ŷc = Ȳn et le test s’écrit :

(SCT − SCR)/k − 1 SCM/k − 1


F = = ' F (k − 1, n − k) sous H0 : β̃ = 0k−1
SCR/n − k SCR/n − k
Il est courant de calculer la statistique de test en plusieurs étapes à l’aide des sommes des carrés (SC
avec R pour résidus) à l’aide du tableau d’analyse de variance.
5.2. LE MODÈLE DE RÉGRESSION MULTIPLE 81

Source de Degrés de Somme Moyenne F


variation liberté des carrés des carrés

SCM M CM
Régression k−1 SCM = ||Ŷ − Ȳn ||2 M C0 = k−1 M CR
X
= (Ŷi − Ȳ )2

SCR
Résiduelle n−k SCR = ||Y − Ŷ ||2 M CR = σ̂ 2 = n−k
X
= (Yi − Ŷi )2
X
Totale n−1 SCT = (Yi − ȳ)2
= Y 0 Y − nȳ 2

5.2.6 Coefficient de détermination


A l’aide du tableau d’analyse de variance ci-dessus, on peut aussi définir le coefficient de détermi-
nation. Nous avons

||Y − Ȳn ||2 = ||Y − Ŷ ||2 + ||Ŷ − Ȳn ||2


SCT = SCM + SCR
Si le modèle est bon, la différence entre Y et le vecteur des résidus Ŷ est petite et ||Ŷ − Ȳn ||2 est grand.
On définit ainsi le coefficient de détermination par :

||Ŷ − Ȳn ||2 var expliquée par le modèle


R2 = = (5.17)
||Y − Ȳn || 2 Var totale
Ce coefficient ne tient pas compte de la dimension du modèle aussi on définit le coefficient de déter-
mination ajusté :
(n − 1)SCR/(n − k)
Ra2 = 1 − (5.18)
SCT

5.2.7 Intervalle de prévision


On se place toujours dans le cadre du modèle (5.9) et on suppose que l’on observe le vecteur des
covariables pour un individu supplémentaire xn+1 = (1, x1,n+1 , . . . xk−1,n+1 ). On veut prédire Yk+1 et
un intervalle de prévision adéquat. On sait que Yn+1 = x0n+1 β + εn+1 et il est raisonnable de prévoir
p
Yn+1 par Ŷn+1 = x0n+1 β̂ 2 . Sous les hypothèses H1à5, grâce à la Proposition 13, on sait d’une part
que x0n+1 β̂ ' N (x0k+1 β, σ 2 ). D’autre part, εn+1 est indépendant de β̂ (car ce dernier est mesurable
par rapport à (ε1 , . . . , εn ) et grâce à l’indépendance des εi sous H1à5).
p
Comme Yn+1 − Ŷn+1 = εn+1 − x0n+1 (β̂ − β), on obtient la loi de l’erreur de prévision :
p
Yn+1 − Ŷn+1 ' N (0, σ 2 (1 + x0θ (X 0 X)−1 xn+1 ))
et après estimation de la variance σ 2 , la variable centrée et réduite suit une loi du Student à n − k
degrés de liberté
p
Yn+1 − Ŷn+1
' Student(n − k)
σ̂ (1 + x0n+1 (X 0 X)−1 xn+1 )
p

2. Le p n’est pas une erreur de typo car ce n’est pas tout à fait le résidu de la regression défini à la section
5.2.1. Ici, l’estimateur de β n’utilise pas le couple (Yn+1 , xn+1 ). C’est bien un p de prévision.
82 CHAPITRE 5. RÉGRESSION LINÉAIRE

On en déduit l’intervalle de prévision au risque α :


q
p
Ŷn+1 ± tn−k; α2 σ̂ 1 + x0n+1 (X 0 X)−1 xn+1

5.3 Validation du modèle


5.3.1 Analyse des résidus
Les hypothèses majeures du modèle H1à3 sont des hypothèses qui portent sur le bruit ε. Celui-ci
n’est pas observable mais il est approché par le vecteur des résidus ε̂. Il est donc important d’analyser
les résidus pour valider le modèle. Cette analyse sera essentiellement graphique mais apportera des
informations au moins dans certains cas où les hypothèses ne sont pas respectées. Les hypothèses
sont les suivantes : les bruits εi sont centrés, indépendants et ont tous la même variance. La première
hypothèse entraîne que les résidus sont centrés eux aussi, mais l’indépendance et l’homogénéité des
variances ne sont pas réalisées pour les résidus car on a que V ar(ε̂) = V ar(Y −ΠX Y ) = σ 2 (Id−ΠX ) 6=
σ 2 Id. Pour régler le problème
√ de l’homogénéité des variances, on peut diviser chaque ε̂i par son écart-
type, c’est-à-dire par 1 − hii où hii est le terme diagonal de ΠX . Malgré cette division, l’indépendance
n’est pas gagnée car ils ont été calculés à l’aide de β̂ qui dépend de tout l’échantillon. C’est pourquoi,
il est préférable de considérer les résidus studentisés par validation croisée définis par :

ε∗i
t∗i = √
σ̂i∗ 1 − hii

Ces résidus ε∗i = Ŷi − Ŷip correspondent en fait aux résidus de la prévision de Yi lorsque β et σ 2 ont
été estimés par les données X privées de l’individu i. Ils sont donc indépendants et suivent une loi de
Student à (n − 1) degrés de libertés. On peut noter aussi que ces résidus sont liés à la prévision de Yi
en fonction de l’observation des n − 1 autres couples de valeurs par :

Ŷi − Ŷip
t∗i = p ' Student(n − k − 1) (5.19)
σ̂i∗ (1 − x0i (X 0 X)−1 xi )

Dans la pratique, on confrontera les résidus studentisés à la loi de Student, ce qui permettra de détecter
des éventuelles violations des hypothèses comme la non indépendance. On pourra aussi détecter des
valeurs aberrantes.

Valeurs aberrantes
Dans la pratique, compte-tenu de (5.19), on confrontera les résidus studentisés à la loi de Student,
ce qui permettra de détecter des éventuelles violations des hypothèses comme la non indépendance.
On pourra aussi détecter des valeurs aberrantes. Ainsi lorsqu’une valeur t∗i est largement supérieure
au quantile d’ordre (1 − α/2) de la loi de Student(n-k-1), on essaiera de comprendre s’il n’y a pas
erreur de saisie, ... Et avant de laisser malgré tout l’individu dans l’échantillon, on vérifiera que ce
n’est pas un couple trop influent sur les paramètres. C’est l’objet de la section suivante.

Influence d’une observation


Nous l’avons vu à la section précédente, il convient de regarder si chacun des individus est influent
sur l’estimation du paramètre β. Pour cela on va étudier la différence β̂ − β̂i . Bien sûr plusieurs
distances et plusieurs seuils sont possibles mais on utilisera une distance bâtie sur un produit scalaire
du type (β̂ − β̂i )0 Q(β̂ − β̂i ) avec Q définie positive correspondant à la matrice utilisée pour le calcul
de la région de confiance utilisant la loi de Fischer en (5.14). On définit donc la distance de Cook
5.3. VALIDATION DU MODÈLE 83

Définition 46 La distance de Cook relative à l’individu i est donnée par


n
1 1 X
Ci = (β̂ − β̂i )0 (X 0 X)(β̂ − β̂i ) = ( (Ŷj − Ŷj(−i) )2
kσˆ2 ˆ2
k σ j=1

où Ŷj(−i) = x0j β̂i est l’estimation de Yj dans la régression qui n’a pas utilisé l’individu i. On peut
démontrer que
hii ε̂2i
Ci =
k(1 − hii )2 σˆ2
Une fois cette distance établie, il faut choisir un seuil. Si on se base sur la méthode établissant la
région de confiance (5.14), on est tenté de le comparer au quantile de la loi de Fischer fk,n−k (même
ce n’est pas la loi suivie par la quantité car on n’a pas l’indépendance). Cook (1977) propose le seuil
fk,n−k (0, 5) qui est proche de 1 quand n est grand.

Notons que (xi , Yi ) a une distance de Cook élevée si ε̂2i est élevé (point mal prédit par la régression)
ou si hii élevé. On a vu en à la section 5.3.1 que hii était le terme diagonal de la matrice ΠX de
projection de Y sur l’espace engendré par X. Or Ŷ = X β̂ = ΠX (Y ), ce qui entraîne,
n
X n
X
Ŷi = hij Yj = hii Yi + hij Yj .
j=1 j6=i

hii est donc le poids de l’observation i sur son propre ajustement et mesure donc la sensibilité de
l’estimation de β à l’individu i. De plus les hij étant tous positifs et de somme 1 à i fixé, on peut
envisager les cas extrêmes
1. hii = 1, ŷi est déterminé par yi ,
2. hii = 0, yi n’a pas d’influence sur ŷi .
Pn
De plus tr(ΠX ) = i=1 hii = k On peut aussi utiliser ce critère pour détecter ce qu’on appelle des
"points leviers"
Définition 47 Le point i est un point levier si le ie terme diagonale de la matrice de projection ΠX
hii dépasse les seuils suivants :
1. hii > 2k
n selon Hoaglin et Welsch
2. hii > 3k
n pour k > 6 et n − k > 12 selon Velleman et Welsch
3. hii > 0, 5 selon Huber

5.3.2 Choix de covariable


Nous avons vu plus haut que l’on peut utiliser des modèles emboîtés et tester l’utilité d’une ou
plusieurs covariables dans un modèle. On peut aussi s’aider de graphiques pour tester l’utilité de l’ajout
d’une covariable dans un modèle. Pour cela, on va représenter des résidus partiels définis comme suit
Définition 48 Les résidus partiels pour la variable Xj sont définis par
ε̂jP = ε̂ + β̂j Xj
où β̂j est la j e composante de β̂ dans le modèle (5.9).
Le graphe des résidus partiels en fonction de la valeur de Xj va donner grosso modo un nuage de
pente βj si la variable Xj a un intérêt pour le modèle linéaire, un nuage de pente nulle s’il n’y a pas
d’effet de Xj et éventuellement une tendance non linéaire auquel cas il faudra transformer Xj avant
de l’introduire dans le modèle. Bien sûr, ces outils diagnostiques sont heuristiques car si Xj est très
corrélé aux autres covariables, on obtiendra une pente alors que cette pente peut être expliquée par
les autres covariables.
84 CHAPITRE 5. RÉGRESSION LINÉAIRE

5.3.3 Extension aux variables qualitatives


Dans tout ce qui a précédé, les variables X1 , . . . , Xk étaient supposées quantitatives continues. On
peut envisager de regarder l’effet d’une variable qualitative sur une variable quantitative. Donnons
l’exemple suivant : on mesure la tension artérielle systolique dans une population dont on connaît pour
chacun des individus, l’âge et le statut pondéral à deux modalités (poids normal ou surpoids). Il est
connu dans la littérature que l’âge et le surpoids influence la tension. On transforme alors la variable
statut pondéral en une variable indicatrice du surpoids par exemple qui vaut donc 1 si l’individu est
en surpoids et 0 s’il a un poids normal. Dans notre cas particulier le modèle est le suivant :

Yi = β0 + β1 agei + β2 1SP
i εi

On interprète le coefficient comme la différence moyenne de TAS entre les individus qui un surpoids
et ceux qui n’en n’ont pas.

Si la variable qualitative a I > 2 modalités, alors on choisit une modalité de référence et on crée les
(I −1) indicatrices des modalités restantes. Chacun des coefficients s’interprète comme l’augmentation
moyenne de Y entre la modalité et la modalité de référence.

Bien sûr, on peut imaginer des cas plus compliqués comme le suivant ou la variable qualitative
influence non seulement le terme d’origine mais aussi la pente d’une ou plusieurs variables quantitatives
comme dans l’exemple suivant. On mesure la taille d’un groupe d’enfants de 5 à 10 ans en fonction
de leur âge et leur sexe. On peut émettre l’hypothèse (ou au moins vouloir la tester) que les garçons
grandissent plus vite que les femmes. Nous ne détaillerons pas ce cas nommé "Analyse de covariance" ou
"ANCOVA" dans ce poly. Il peut être traité (après transformation des matrices) comme un problème
de régression multiple. Le lecteur intéressé consultera [2] ou [3].
Chapitre 6

Régression logistique

6.1 Le modèle
6.1.1 Objectifs
Le modèle de régression logistique est un modèle souvent utilisé en biostatistique pour modéliser
la survenue d’un événement (maladie, ...) en fonction de covariables explicatives. Il est notamment
apprécié par les médecins épidémiologistes car les coefficients du modèle s’interprètent comme des
odds ratio qui sont des mesures de risque qui leur sont familières. L’objectif est donc de modéliser le
lien entre une variable binaire Y qui vaut 1 si un événement se réalise et 0 sinon en fonction d’un
vecteur de covariables x = (x1 , . . . , xk ).

6.1.2 Modèle et interprétation


On cherche donc l’espérance conditionnelle ou proba conditionnelle E[Y |x] = P(Y = 1|x) = π(x).
On peut être tenté par un modèle linéaire mais celui-ci doit prédire un nombre entre 0 et 1, ce qui
exp(z)
n’est pas garanti par le modèle. On utilise donc la fonction logistique f (z) = 1+exp(z) définie sur R et
à valeur dans [0, 1]. Le modèle de régression logistique pour le couple (Y, x) est donné par :

exp(β0 + β1 x1 + . . . βk xk )
P(Y = 1|x) = π(x) = (6.1)
1 + exp(β0 + β1 x1 + . . . βk xk )

exp(β0 + β1 xi1 + . . . βk xik )


π(xi ) =
1 + exp(β0 + β1 xi1 + . . . βk xik )
 
y
Si on utilise la fonction logit qui est l’inverse de la fonction logistique : g(y) = ln 1−y alors on trouve
une relation linéaire avec les covariables
 
π(xi )
ln = β0 + β1 xi1 + . . . βk xik
1 − π(xi )

Nous allons maintenant introduire quelques notions relatives aux variables qualitatives et notamment
au lien entre deux variables qualitatives.

85
86 CHAPITRE 6. RÉGRESSION LOGISTIQUE

Odds et odds ratio


Soit Z une variable qualitative à K modalités. On désigne la chance ou l’odds de voir se réaliser
la modalité Aj plutôt que la modalité Ak par le rapport

P(Z = Aj )
Ωjk =
P(Z = Ak )
Si la variable Z est binaire alors la probabilité de voir l’événement se réaliser est le rapport p/(1 − p)
qui est la côte ou l’odds de l’événement.

Si on s’intéresse maintenant à la loi jointe de deux variables binaires Z1 et Z2 correspondant


respectivement à la réalisation de deux événements numérotés 1 et 2. Cette loi jointe est donnée par
les πij = P((Z1 = i) ∩ (Z2 = j)). Alors lorsque Z1 = 1, l’odds de la réalisation de l’événement 2
(Z2 = 1) plutôt que la non-réalisation est Ω1 = ππ11
10
alors que lorsque l’événement 1 n’est pas réalisé,
cette cote est de Ω0 = ππ01
00
. On appelle l’odds ratio le rapport des deux côtes obtenues :
π11
Ω1 π10 π11 π00
OR = = π10 =
Ω0 π00 π10 π01

Ce rapport ou odds ratio vaut 1 si les deux variables sont indépendantes, est supérieur à 1 si la
réalisation de l’événement 2 est plus fréquente lorsque l’événement 1 est réalisé et inférieur à 1 sinon.
On peut généraliser cet odds ratio à la réalisation de deux modalités de variables qualitatives pas
forcément binaires.

Revenons au modèle logistique et à son interprétation. Supposons qu’il n’y ait qu’une seule variable
explicative x. Regardons l’odds ratio de l’événement Y = 1 quand x = a + 1 par rapport à x = a. En
remarquant grâce à la formule (6.1), que P(Y = 0|x) = 1 − π(x) = 1+exp(β0 +β11 x1 +...βk xk ) , on obtient

π(a + 1)(1 − π(a)) exp(β1 (a + 1))


= = exp(β1 )
(1 − π(a + 1))π(a) exp(β1 a)
exp(β1 ) est donc un odds ratio, s’il est supérieur à 1 l’augmentation de la variable x augmente la
probabilité d’occurrence de Y = 1.
S’il y a plusieurs variables explicatives, exp(βj ) est donc un odds ratio lié à l’augmentation de la
variable xj ajusté sur toutes les autres variables (xk )k6=j .

6.1.3 Estimation des paramètres, tests associés


On souhaite maintenant estimer le vecteur des paramètres β = (β0 , . . . , βk ) au vu de la réali-
sation d’un échantillon i.i.d. de (Y, x) : (Yi , xi )1≤i≤n avec xi = (xi1 , . . . , xin ). Pour cela, on écrit la
vraisemblance du modèle au vu des observations
n
Y
L(β; (Yi , xi )) = π(xi )Yi (1 − π(xi ))1−Yi
i=1

Même en prenant la log-vraisemblance qui simplifie l’écriture, le maximum en β de cette expression n’a
pas de forme littérale et il faut estimer un algorithme itératif (comme celui de Newton-Raphson) pour
maximiser la log-vraisemblance et obtenir l’estimateur β̂. Nous savons que l’estimateur du maximum
de vraisemblance a de bonnes propriétés notamment de convergence, de normalité asymptotique et
que la matrice de covariance est bien estimée par l’inverse de la matrice d’information de Fischer
(définie en (2.5)). Ceci permet d’écrire des intervalles de confiance asymptotique pour les paramètres
βj et après transformation pour l’odds ratio correspondant.
6.2. ADÉQUATION DU MODÈLE 87

Il est maintenant intéressant de tester la nullité des coefficients à savoir H0 : βj = 0. Nous nous
exp(β0 +β1 x)
plaçons d’abord dans le cas du modèle à une seule variable. π(x) = 1+exp(β 0 +β1 x)
, on teste donc
H0 : β1 = 0, il y a trois test possibles qui sont asymptotiquement équivalents.

Test du rapport de vraisemblance


Soit L̂0 (resp L̂1 ), la log vraisemblance maximale du modèle sans variable explicative (resp. du
modèle avec variable), alors sous H0 ,

SRV = −2[L̂0 − L̂1 ]

suit asymptotiquement une loi du χ2 à 1 d.d.l.

Test de Wald
Sous H0 , la statistique de test de Wald

β̂12
SW =
V ar(βˆ1 )

suit asymptotiquement une loi du χ2 à 1 d.d.l.

Test du score
On utilise la fonction score S(β) = Sn (X1 , . . . , Xn ; β) définie à la définition 18. Dans le cas d’une
seule covariable, la statistique de test est :
 2
Pn
i=1 x i (Yi − Ȳn )
SS =  q Pn

Ȳn (1 − Ȳn ) i=1 (xi − x̄n )2

qui suit sous H0 une loi du χ2 à 1 d.d.l.

Ces trois tests se généralisent au test de la nullité des k coefficients dans le cadre du modèle
multiple H0 : β1 = . . . = βk = 0, pour donner :

SRV = −2[L̂0 − L̂1 ]


SW = β̂ 0 I(β̂)β̂
SS = S(0)0 I(0)S(0)

chacune de ces trois statistiques suit une loi du χ2 à k d.d.l.. On peut aussi généraliser ces tests à la
nullité d’une partie des coefficients seulement (sous-modèle). Nous ne les verrons pas dans le cadre de
ce cours.

6.2 Adéquation du modèle


Une fois le modèle choisi, il peut être intéressant de le valider. Pour cela on utilisera la valeur
prédite par le modèle de la probabilité d’occurrence de Yi connaissant le vecteur de covariables xi .

exp(β̂0 + β̂1 xi1 + . . . + β̂k−1 xi(k−1) )


π̂i =
1 + exp(β̂0 + β̂1 xi1 + . . . + β̂k−1 xi(k−1) )
88 CHAPITRE 6. RÉGRESSION LOGISTIQUE

qui se traduit pour un individu i par :


On va utiliser cette estimation de la probabilité et la valeur observée yi pour tester l’adéquation
au modèle. Si on note J le nombre d’observations distinctes de vecteurs xi . Suivant J on va proposer
différents tests d’adéquation

6.2.1 Cas J << n


Supposons que les xi prennent leurs valeurs dansPnl’ensemble {x̃1 , . . . , x̃J }. Notons nj = card {xi tel que xi =
j
x̃j }, pour tout 1 ≤ j ≤ J, la variable aléatoire i=1,x i =x̃j
Yi suit une loi binomiale de paramètres
(nj , π(x̃j )). Alors si les nj sont assez grands, on peut faire l’approximation
Pnj
i=1,xi =x̃j Yi − nj π̂(x̃j )
p ≈ N (0, 1).
nj π̂(x̃j )(1 − π̂(x̃j ))

On obtient donc la statistique de test sous

J
Pnj !2
X i=1,xi =x̃j Yi − nj π̂(x̃j )
XP = p
j=1
nj π̂(x̃j )(1 − π̂(x̃j ))

qui, si le modèle est adéquat suit une loi du chi-deux à (J − k) ddl.


On a aussi un autre test basé sur la déviance

J nj Pnj ! nj Pnj !
X X ( i=1,x̃ j
Yi ) X (nj − i=1,xi =x̃j Yi )
XD = 4 ( Yi ) ln ) + (nj − Yi ) ln
j=1
nj π̂(x̃j i=1,x =x̃
nj (1 − π̂(x̃j ))
i=1,xi =(x̃j i j

qui, si le modèle est adéquat suit une loi du chi-deux à (J − k) ddl.


Evidemment, lorsque J est proche de n, les nj ne sont pas suffisamment grand pour ces approxi-
mations et les tests ne sont pas possibles.

6.2.2 Test d’Hosmer Lemeshow


Le principe est le suivant. On regroupe les valeurs prédites π̂(xi ) en J classes (déciles par exemples
ou autres) notée C1 , . . . CJ et on réalise un tableau de contingence

Groupe 1 ... j ... J


Y = 1 Obs o11 . . . o1j . . . o1J
Att e11 . . . e1j . . . e1J
Y = 0 Obs o01 . . . o0j . . . o0J
Att e01 . . . e0j . . . e0J
P P P P
avec o1j = i∈Cj yi , e1j = i∈Cj π̂i , o0j = i∈Cj (1 − yi ), e1j = i∈Cj (1 − π̂i ) pour tout 1 ≤ j ≤ J.
ON peut montrer que sous les hypothèses du modèle, la statistique de test

1 XJ
X (olj − elj )2
WHL =
j=1
elj
l=0

suit une loi du chi-deux à (J − 2) ddl.


6.2. ADÉQUATION DU MODÈLE 89

6.2.3 Pouvoir prédictif : Courbe ROC


Le modèle logistique fournit une estimation π̂i de la probabilité de Yi = 1. On peut décider que si
π̂i > π ∗ , alors on prédit Ŷi = 1. On mesure la qualité du modèle par sa sensibilité P (Ŷ = 1|Y = 1) et
sa spécificité P (Ŷ = 0|Y = 0). Ces quantités dépendent évidemment de π ∗ . Par exemple si π ∗ = 0 la
sensibilité est maximale et égale à 1 car tous les sujets sont prédits comme réalisant l’événement mais
la spécificité est nulle. A l’inverse si π ∗ = 1, la sensibilité est nulle mais la spécificité est excellente !. La
courbe ROC est le graphique du nuage de points de la sensibilité en fonction de (1- spécificité) pour
les différentes valeurs de π ∗ . Cette courbe résume le pouvoir prédictif de la régression pour toutes les
valeurs de seuil de probabilité π ∗ . Plus la courbe est au dessus de la bissectrice meilleur est le modèle.
(En effet une attribution aléatoire des valeurs Y donnerait en gros une courbe égale à la bissectrice.
Quant à l’éventuelle utilisation du modèle pour de la prédiction, le choix de π ∗ n’est pas anodin, car
l’objectif n’est pas forcément d’être meilleur en prédiction globalement mais plutôt de privilégier la
sensibilité ou la spécificité suivant les risques encourus par une intervention liée à la détection d’un
faux positif ou celui d’une non-intervention liée à une non-intervention pour un faux négatif.
90 CHAPITRE 6. RÉGRESSION LOGISTIQUE
Chapitre 7

Méthodes bootstrap

7.1 Objectifs
A partir d’un échantillon i.i.d. (X1 , . . . , Xn ) d’une loi donnée par sa fonction de répartition F sur
laquelle on veut faire de l’inférence en estimant un paramètre θ de F par la statistique θ̂(X1 , . . . , Xn ).
Cette statistique θ̂(X1 , . . . , Xn ) est elle-même une variable aléatoire dont la loi dépend de la distribu-
tion F inconnue et dont l’aléa est donné par le tirage de l’échantillon (X1 = x1 , . . . , Xn = xn ). On se
pose la question de la loi de cette variable aléatoire notamment sa moyenne (qui va mesurer le biais
par rapport à θ) et sa variance qui permettra de donner des intervalles de confiance pour θ.
Le problème est qu’en pratique, on n’a qu’un seul tirage de θ̂(X1 , . . . , Xn ). En statistique classique,
on s’en sort généralement en donnant un modèle pour la loi F (loi normale, exponentielle, Weibull,
etc ..) dont il reste à en estimer les paramètres. Cette méthode marche bien si on ne se trompe pas
de modèle mais peut conduire à des erreurs grossières dans le cas contraire. On s’en sort aussi si l’on
estime la moyenne car le T.C.L. donne la loi asymptotique de X̄n . Que dire en revanche de la médiane ?
de la variance de son estimateur par exemple ? Que dire aussi dans le cas de petits échantillons lorsque
l’on veut faire des tests et que l’on ne connait pas la loi ?

7.2 Principe
Le principe du bootstrap repose sur le théorème de Glivenko-Cantelli qui dit que si la taille de
l’échantillon n tend vers l’infini, alors sa fonction de répartition empirique F̂n tend uniformément
vers F (voir Proposition 4.6 du chapitre dédié aux tests de Kolmogorov). La méthode bootstrap est
une méthode non-paramétrique (parfois il peut y en avoir des versions paramétriques) qui n’a besoin
d’aucune hypothèse sur la loi des Xi . Au lieu de générer des échantillons i.i.d. issus de la loi F inconnue
pour étudier la variation de θ̂(X1 , . . . , Xn ), on va générer des échantillons avec la loi F̂n . Ceci se fait
en opérant des tirages avec remise dans l’échantillon (X1 = x1 , . . . , Xn = xn ).
On tire donc B échantillons avec remise à partir de (X1 , . . . , Xn ) : pour 1 ≤ b ≤ B, on a
(X1 , . . . , Xnb ) permettant de calculer b valeurs de la statistique θ̂b∗ = θ̂(X1b , . . . , Xnb ) qui vont don-
b

ner une bonne idée de la distribution de θ̂(X1 , . . . , Xn ).

7.3 Approximation de la variance


Par hypothèse, la variance de θ̂(X1 , . . . , Xn ) est donnée par
 2 
2
σθ (F ) = EF θ̂(X1 , . . . , Xn ) − EF (θ̂(X1 , . . . , Xn ))

91
92 CHAPITRE 7. MÉTHODES BOOTSTRAP

et on a l’approximation
 2 
σθ2 (F̂n ) = EF̂n θ̂(X1 , . . . , Xn ) − EF̂n (θ̂(X1 , . . . , Xn ))

Cette dernière quantité est approchée par méthode de Monte-Carlo par


B B
2 1 X ∗ 1 X ∗
σboot = σ̂θ2 (F̂n ) = (θ̂b − θ̄B )2 avec θ̄B = θ̂b
B B
b=1 b=1

7.4 Approximation du biais d’un estimateur


h i h i
Le biais d’un estimateur défini par EF θ̂(X1 , . . . , Xn ) − θ est estimé par EF̂n θ̂(X1 , . . . , Xn ) −
θ̂(x1 , . . . , xn ) lui même estimé par Monte Carlo par

B
1 X ∗
Biasboot = θ̂b − θ̂(x1 , . . . , xn )
B
b=1

7.5 Intervalle de confiance de θ


7.5.1 Intervalles de confiance empiriques
Pour donner un intervalle de confiance non paramétrique de θ, il y a plusieurs méthodes, les deux
premières conviennent lorsque la distribution est symétrique et sont données à l’aide des percentiles
de la distributions bootstrap de θ :
∗ ∗ ∗
[θ̂(α) , θ̂(1−α) ] avec θ̂(p) p-ième percentile de la distribution bootstrap (7.1)

On a aussi
∗ ∗
[2θ̂(x1 , . . . , xn ) − θ̂(1−α) , 2θ̂(x1 , . . . , xn ) − θ̂(α) ] (7.2)
On peut montrer que la probabilité que θ appartienne à chacun de ces intervalles est égale à (1 − α) +
O(n−1/2 ). Ces deux intervalles de confiance ne tiennent pas compte du biais.

7.5.2 Intervalle de confiance corrigé du biais


Pour corriger le biais on peut utiliser la méthode suivante donnée en plusieurs étapes
— On calcule la proportion p de l’échantillon bootstrap inférieur à θ̂(x1 , . . . , xn ) :

B
1 X
p := 1(θ̂b∗ ≤ θ̂(x1 , . . . , xn ))
B
b=1

— On calcule zp le quantile d’ordre p de la distribution normale centrée réduite


— Soit z1 = 2zp + zα/2 et z2 = 2zp + z1−α/2 et les probabilités correspondantes données par la
fonction de répartition de la loi normale centrée réduite Φ(z1 ) = α1 et Φ(z2 ) = α2 ,
∗ ∗
— l’intervalle de confiance corrigé du biais est donné par : [θ̂(α 1)
, θ̂(1−α2)
].
Il existe d’autres intervalles de confiance dit accélérés et corrigés du biais que nous ne donnerons pas
ici.
7.6. TESTS DE PERMUTATION 93

7.6 Tests de permutation


L’idée des tests de permutations remontent aux années 1930 avec Fischer mais ils ont été très
peu utilisés à l’époque car ils nécessitaient de grandes capacités de calcul. Ils sont réapparus vers les
années 1980. Comme toutes les méthodes liées au bootstrap, ils ne nécessitent pas d’hypothèses sur
les lois des échantillons observés et ne travaille qu’à partir de cet échantillon.

7.6.1 Comparaison de la distribution de deux échantillons


Supposons que l’on dispose de deux échantillons (X1 , . . . , Xn1 ) et (Y1 , . . . , Yn2 ) et que l’on veuille
tester l’hypothèse de l’égalité de leur distribution H0 = FX = FY que l’on peut mesurer par exemple
par l’égalité de leur moyenne. Une statistique simple pour mesurer la différence des moyennes est don-
née par θ̂ = X̄n1 − Ȳn2 la différence de leur moyenne empirique. Considérons l’échantillon (Z1 , . . . Zn )
des n = n1 + n2 valeurs de Xi et Yj réunies. Sous l’hypothèse H0 , quelle que soit la permutation
de cet échantillon que l’on scinde à nouveau en deux échantillons de taille respective n1 et n2 , la
différence de moyennes empiriques de ces deux nouveaux échantillons suit toujours la même loi. On
a donc un moyen d’estimer la distribution de θ̂ sous l’hypothèse H0 . Le test se conduit alors de la
manière suivante
— Calcul de la statistique de test θ̂ avec l’échantillon de départ
— Choix du nombre B de permutations
— Pour chaque échantillons permutés de Z scindé en deux échantillons de taille n1 et n2 , calcul
de θ̂b∗ égal à la différence de moyennes empiriques de ces deux échantillons
— Calcul de la p-valeur donnée dans le cas bilatéral par
B B
!
1 X ∗ 1 X ∗
p := min 1(θ̂b ≤ θ̂(x1 , . . . , xn )) ; 1(θ̂b ≥ θ̂(x1 , . . . , xn )
B i=1 B i=1

— Si cette p-valeur est inférieure au seuil α/2 où α est le risque de 1ère espèce choisi du test,
rejet de H0

7.6.2 Comparaison de la moyenne de deux échantillons


Supposons que l’on dispose de deux échantillons (X1 , . . . , Xn1 ) et (Y1 , . . . , Yn2 ) et que l’on veuille
tester l’hypothèse de l’égalité de leur moyenne H0 = µX = µY . La différence des moyennes se mesurent
par la statistique

X̄n − Ȳn2
θ̂∗ = p 2 1
σX /n1 + σY2 /n2
Considérons l’échantillon (Z1 , . . . Zn ) des n = n1 + n2 valeurs de Xi et Yj réunies et sa moyenne
empirique Z̄n . Définissons les échantillons de Y et X transformés par :

Xi0 = Xi − X̄n1 + Z̄n pour 1 ≤ i ≤ n1


Yj0 = Yj − Ȳn2 + Z̄n , pour 1 ≤ j ≤ n2

On tire B échantillons bootstrap de chacun des échantillons de X 0 et Y 0 et on calcule


∗b ∗b
X̄ 0 n1 − Y¯0 n2
θ̂b∗ = q
2∗b /n + σ 2∗b /n
σX 0 1 Y0 2

On obtient ainsi une distribution bootstrap de la stat de test sous H0 et l’on peut calculer la p-valeur
comme dans le test précédent et conclure.
94 CHAPITRE 7. MÉTHODES BOOTSTRAP

7.6.3 Comparaison d’une moyenne observée et d’une moyenne théorique


Supposons que l’on dispose d’un échantillon (X1 , . . . , Xn ) et que l’on veuille tester l’hypothèse de
l’égalité des moyennes H0 = µX = µ0 . La différence des moyennes se mesurent par la statistique

X̄n − µ
θ̂∗ = p 2
σX /n
On tire B échantillons bootstrap de l’échantillon des Xi et on calcule à chaque fois la statistique

X̄ ∗b − X̄n
θ̂b∗ = qn
σX2∗b /n
0

On obtient ainsi une distribution bootstrap de la stat de test sous H0 et l’on peut calculer la p-valeur
comme dans le test précédent et conclure.

7.7 Autres usages du bootstrap ou des tests de permutations


Bien sûr ce paragraphe ne présente que quelques usages du bootstrap mais on peut aussi utiliser
celui-ci :
— En régression pour estimer la variance des résidus sans hypothèses de normalité, soit "en boots-
trapant" les couples (Xi , Yi ) ce qui permet par ailleurs d’étudier la robustesse des estimations
β̂ b on obtient alors différent résidus dont on étudie la variance ; soit en bootstrapant les résidus
pour en étudier leur variance.
— En statistique spatiale, pour étudier par exemple l’agrégation d’une maladie sur une grille ou
dans le plan. On peut utiliser la statistique du joint count qui compte le nombre de points
malade qui ont un ou des voisins malades à une certaine distance. On compare la statistique
obtenue à la distribution bootstrap obtenue en permutant aléatoirement les pieds obtenus.
— En ACP, pour étudier la robustesse des premières composantes et valeurs propres ..
— Pour étudier la variabilité d’un coefficient de corrélation sans hypothèse de normalité ...
Chapitre 8

Analyse de données quantitatives

(chapitre en cours d’écriture)

8.1 Introduction
De nombreuses méthodes statistiques sont disponibles pour analyser l’information contenues dans
un fichier de données statistiques. Pour un statisticien, les données correspondent à des variables (on
suppose par exemple que l’on en a p) dont on connaît la valeur sur n individus. Pour donner un
exemple "jouet" : on a mesuré la tension artérielle diastolique, systolique et le taux de cholestérol de
6 patients. Les résultats sont présentés dans le tableau suivant

Diast Syst Chol


90 140 6
60 85 5,9
75 135 6,1
70 145 5,8
85 130 5,4
70 145 5

On se rend compte que l’information peut être stockée et considérée comme une matrice X à n
lignes (1 ligne par individu) et p colonnes (1 colonne par variable).
 
x11 x1j x1p

 | 


 | 

X= x
 i1 − x ij x ip 
 (8.1)

 | 

 | 
xn1 xin xnp
Un vecteur correspondant à une ligne i de la matrice X correspond aux données de l’individu i.
 
xi1
xi =  ...  ∈ Rp .
 

xip
On dira que xi est le vecteur "individu i", c’est un point dans Rp et on considérera le nuage des n
points individus i dans Rp . Un vecteur correspondant à la colonne j de la matrice X correspond aux

95
96 CHAPITRE 8. ANALYSE DE DONNÉES QUANTITATIVES

valeurs prises par la variable j pour les n individus


 
x1j
xj =  ...  ∈ Rn .
 

xnj

On dira que xj est le vecteur variable j, c’est un point de Rn et on considérera le nuage des p points
variables j dans Rn .
— L’étude séparée de chacune des variables est une phase indispensable dans le processus de
dépouillement des données, mais elle est tout à fait insuffisante. En effet, elle ne tient pas
compte des liaisons qui peuvent exister entre les variables, liaisons qui sont souvent l’aspect le
plus important. Il est donc préférable d’analyser les données en tenant compte de leur caractère
multidimensionnel.
— Lorsque l’on considère deux variables simultanément (x1 et x2 par exemple), il est facile de
représenter, sur un graphique plan, l’ensemble des données. Le simple examen visuel de l’allure
du nuage des points {(x1i , x2i ), i = 1, . . . , n} permet d’avoir une idée sur la forme et l’intensité
de la liaison entre ces deux variables, et de repérer les individus ou les groupes d’individus
ayant des caractéristiques voisines.
— Si l’on considère trois variables simultanément (x1 , x2 et x3 par exemple), l’étude visuelle est
encore possible en faisant de la géométrie dans l’espace. Les logiciels de statistique proposent
ce genre de graphiques intéractifs en trois dimensions dans lesquels il est possible de faire
tourner les axes pour observer le nuage des points {(x1i , x2i , x3i ), i = 1, . . . , n} sous toutes ses
formes.
— Lorsque l’on considère un nombre p de variables, avec p ≥ 4, la visualisation directe et totale de
toutes les données devient impossible. On peut étudier graphiquement les variables par groupes
de 2 ou de 3 variables : cependant, s’il y a par exemple p = 11 variables, cela représentera
p(p − 1)/2 = 55 nuages de points croisant 2 variables à regarder !
Il apparaît donc utile et nécessaire de trouver une autre manière de visualiser les données
multidimensionnelles.
L’objectif des méthodes factorielles est de "résumer l’information" contenues dans les données par
une matrice avec moins de variables par exemple (on aura de nouvelles variables dîtes "synthétiques") .
On cherchera pour cela les individus qui se ressemblent ou les variables qui se ressemblent. Pour cela il
faut donner des définitions mathématiques de distance entre variables et de distances entre individus.
La représentation par une matrice nous rapproche de ce que l’on connait au niveau mathématique en
calcul matriciel et algèbre linéaire. La prochaine section contribue à la définition d’opérations sur les
vecteurs variables et les individus. La suivante concerne l’Analyse en composantes principales.

8.2 Variables quantitatives et algèbre linéaire

8.2.1 Nuage des n points individus


Les n lignes de X définissent un nuage de points de Rp . On part donc d’un jeu de données
représentés par la matrice X données
Pn en (8.1). En général les individus i pour 1 ≤ i ≤ n sont associés
à des poids pi ≥ 0, tels que i=1 pi = 1. Le plus souvent les individus ont tous des poids égaux à
1/n mais si on a des données agrégées (taux de mortalité par région par exemple) les poids peuvent
être différents entre eux (et proportionnels au nombre d’habitants de la région dans notre exemple).
On notera N la matrice diagonale des poids :
8.2. VARIABLES QUANTITATIVES ET ALGÈBRE LINÉAIRE 97

 
p1 0 ··· 0
 .. .. 
 0 p2 . . 
N= ..

 .. .. 
 . . . 0 
0 ··· 0 pn

8.2.2 Centre de gravité du nuage des individus pondérés.


On notera le vecteur ligne du centre de gravité :
n
X
x̄ = (x̄1 , . . . , x̄j , . . . , x̄p ) avec x̄j = pi xij
i=1

1
Pn
Si les poids sont tous égaux, on retrouve la moyenne des xij : x̄j = n i=1 xij .

Matrice des données centrées


Pour une valeur donnée de la variable xj sur l’individu i : xij , il s’agit de retirer x̄j . On a donc
une nouvelle matrice Y dérivée de X :

Y = (yij )1≤i≤n,1≤j≤p avec yij = xij − x̄j (8.2)

En fait cela revient à translater le nuage de points des individus par le vecteur −x̄

Matrice centrée-réduite.
On verra que cette opération de réduction des variables centrées est importante car elle permet
de ne plus tenir compte de l’unité de mesure des variables (une taille en cm non-réduite, pèserait 100
fois plus qu’une taille en m non réduite) La variance empirique Sj2 et l’écart-type Sj de la variable xj
sont donnés par :
Xn q
Sj2 = pi (xij − x̄j )2 Sj = Sj2
i=1

La matrice réduite est donc


xij − x̄j
Z = (zij )1≤i≤n,1≤j≤p avec zij = yij /Sj = (8.3)
Sj

Toutes les variables z j sont alors centrées et de variance 1.

8.2.3 Nuage des p points variables


On peut regarder la matrice X comme la concaténation de ses p colonnes qui sont des variables.
On a d’ailleurs commencé à calculer des indices sur ces variables en calculant leur centre de gravité
x̄j et leur variance Sj2 . On peut remarquer que si l’on définit la matrice M par

1/S12
 
0 ··· 0
 .. .. 
0 1/S22 . .
Z = YM1/2
 
M= , alors
 .. .. .. 
 . . . 0 
0 ··· 0 1/Sn2
98 CHAPITRE 8. ANALYSE DE DONNÉES QUANTITATIVES

Matrice de Variance-covariance
On a déjà défini la variance de chacune des variables xj et celle-ci correspond à une mesure de
0
dispersion de la variable. La covariance empirique entre les variables xj et xj , est définie par :
n
X 0
Sjj 0 = pi (xij − x̄j )(xij 0 − x̄j )
i=1

Remarquons que Sjj = Sj2 . On définit alors la matrice de variance covariance par

Γ = (Sjj 0 )pxp = Yt N Y.

Les variances sont sur la diagonale et les covariance à l’extérieur, à remarquer que la matrice est
symétrique car Sjj 0 = Sj 0 j .

Matrice de corrélation
De la même manière que l’on réduit les variables, on ramène les covariances à la même échelle
pour pouvoir les comparer en divisant par les écart-types des variables concernées.
n 0
! n
xij − x̄j xij 0 − x̄j
 
Sjj 0 X X
rjj 0 = = pi = pi zij zij 0
Sj Sj 0 i=1
Sj Sj 0 i=1

R = (rjj 0 ) = Zt NZ

Exercice
Pour la matrice des données tension cholestérol donnée à la 1ère page et en prenant un poids 1/n,
calculer les matrices correspondantes centrée, centrée-réduite, la matrice de variance covariance, et de
corrélation.

8.2.4 Métriques
On a parlé en introduction que l’analyse de données consistait à résumer l’information sur les
individus et les variables dans l’espace Rp ou Rn . Il convient donc de se donner un cadre de travail
dans ces espaces.

Métrique pour l’espace Rp des points individus


Soit M une matrice p × p symétrique et définie positive. Alors M définit sur Rp :
— un produit scalaire , < x, y >M = xt M y
1/2
— une norme : ||x||M =< x, x >M
— une distance : dM (x, y) = ||x − y||M
<x,y>M
— un angles entre deux vecteurs défini par son cosinus : cos(θM (x, y)) = ||x||M ||y||M
p
— tout ce qui a précédé est défini pour x et y dans R .
On peut aussi définir des propriétés qui se définissent relativement à M :
— une matrice A est dîte M -symétrique si (M A)t = M A
— deux vecteurs x et y sont M -orthogonaux si < x, y >M = 0
— un vecteur x est M -normé si ||x||M = 1
Dans la suite, on va munir l’espace Rp de la métrique induite par M pour mesurer la distance
entre deux individus.
8.3. ANALYSE EN COMPOSANTES PRINCIPALES (ACP) 99

Métrique pour l’espace Rn des points variables


0
En général on mesure la proximité entre deux variable xj et xj par leur covariance empirique Sjj 0
ou leur corrélation rjj 0 . On munit Rn de la métrique induite par N=diag(pi ), et on retrouve
n n
X 0 X 0 0
Sjj 0 = pi (xij − x̄j )(xij 0 − x̄j ) = pi yij yij 0 = (y j )t N y j =< y j , y j >N
i=1 i=1
Sj2 = ||y j ||2N
0
Sjj 0 < y j , y j >N 0 0
rjj 0 = = j = cos(θN (y j , y j ) =< z j , z j >N
Sj Sj 0 ||y ||N ||y j 0 ||N

Du coup, la covariance entre deux variables est égales au produit scalaire induit par la métrique
N entre ces deux vecteurs de variables. La variance est égale à la norme au carré du vecteur variable,
et la corrélation correspond au cosinus de l’angle entre les deux vecteurs.

Projection
On considère le nuage des points individus centrés y1 , . . . , yn ∈ Rp , pondéré par N = diag(pi ) et
muni de la métrique M . On veut projeter chacun de ces points sur une droite de direction donnée par
un vecteur v.

Définition 49 La projection M -orthogonale d’un point de w de Rp sur l’axe ∆ engendré par un


vecteur v de Rp , de M norme 1 (||v||M = 1) est le vecteur pv (w) de la forme p.v où p est un réel et
tel que w − pv (w) soit M -orthogonal à ∆.
On montre facilement qu’il existe un seul vecteur pv (w) qui vérifie ces conditions :

pv (w) =< w, v >M .v (8.4)

On en déduit que la matrice de projection est égale à vv 0 M .


Exercice Montrer (8.4)

Si on note pv (yi ) la projection du vecteur de l’individu i, alors pv (yi ) = ψi .v avec ψi =< yi , v >M .
Les coordonnées correspondantes ψi de la projection M -orthogonale des n points individus centrés de
Rp sur l’axe ∆ engendré par un vecteur v de Rp , de M norme 1 forme une nouvelle variable ψ de Rn
défini par  
ψ1
 .. 
 .  Xp
fj y j
 
ψ= ψ
 i 
 = Y. M.v = Y.f =
 . 
|{z}
j=1
 ..  =f

ψn
On voit que ψ est une combinaison linéaire des colonnes de Y avec les coefficients de b. ψ est le
résumé des colonnes de Y appelée variable synthétique de direction v.

ψ comme combinaison linéaire de variable centrée, est centrée elle aussi.

8.3 Analyse en Composantes principales (ACP)


On garde toujours les notations de la section précédente, on munit Rp d’une métrique M et Rn
d’une métrique N . L’objet ici est de construire par projection, des variables synthétiques qui gardent
100 CHAPITRE 8. ANALYSE DE DONNÉES QUANTITATIVES

le maximum d’information sur les variables de départ. Il y a plusieurs ACP, on va réaliser ici la plus
standard en travaillant sur les données centrées réduites Z , avec M = Idp et N = diag(1/n). On dit
que l’on fait l’ACP normée sur les matrices de corrélation. D’autres ACP sont possibles correspondant
à d’autres métriques M pour l’espace des individus et N pour l’espace des variables.

8.3.1 Principe
On veut chercher un sous-espace Fk de Rp de dimension k ≤ r (r = rang(Z)), c’est-à-dire k axes
∆1 , . . . , ∆k M orthogonaux tels que le nuages des points individus projetés sur l’espace Fk "déforme"
le moins possible les distances entre les individus. Avant de définir plus précisément cette notion de
déformation, supposons que l’on ait réussi à identifier les vecteurs directeurs des ∆j M -normés à 1 :
v1 , . . . , vk , alors on peut définir les coordonnées factorielles des individus dans Fk .

8.3.2 Coordonnée factorielles


De la même manière que l’on a défini les coordonnées de projections sur une droite vectorielle en-
gendrée par v dans la section 8.4, des n points individus. On peut définir Ψ1 le vecteur des coordonnées
de la projection sur ∆1 on a
 
Ψ11
 .. 
 . 
Ψ1 = 
 
 Ψi1  avec Ψi1 =< zi , v1 >

 . 
 .. 
Ψn1

En faisant de même avec les k vecteurs vj pour 1 ≤ j ≤ k, on obtient une matrice Ψ de taille n × k

Ψ = (Ψij )1≤i≤n,1≤j≤k avec Ψij =< zi , vj > (8.5)

Les colonnes Ψj de cette matrice sont de nouvelles variables synthétiques. Ces formules se généralisent
à une ACP non normée associée à une métrique M il faut alors remplacer Z par Y et < ., . > par des
< ., . >M ou (car faire l’ACP sur Z revient à choisir la métrique M = diag(1/Sj2 ) si on travaille avec
Y)

Inertie des nuages de points individus


L’inertie totale est la moyenne pondérée des carrés des distances des n points de Rp au centre de
gravité x̄.
Xn
I(X) = pi d2M (xi , x̄)
i=1

Exercice Montrer que si M = Id et pi = 1/n, I(X) = S12 + . . . + Sp2 . Montrer d’autre part que si
M = D1/S 2 , I(X) = p.

8.3.3 Maximisation
On prend comme indice la somme pondérée des carrés des distances, soit
n X
X n
pi pi0 d2 (zi , zi0 )
i=1 i0 =1
8.3. ANALYSE EN COMPOSANTES PRINCIPALES (ACP) 101

Cette somme est liée à l’inertie de (Z) par la formule :


n X
X n n
X
pi pi0 d2 (zi , zi0 ) = 2 pi d2 (zi , z̄) = 2I(Z) = 2p (8.6)
i=1 i0 =1 i=1

qui mesure la dispersion du nuage. Or, on a toujours quelle que soit la projection pv la relation
d(pv (zi ), pv (zj )) ≤ d(zi , zj ). Donc on aura que I((Z)) > I(pv ((Z))). En revanche on peut chercher v
tel que la "contraction" pv soit minimale.
On commence par chercher un sous-espace de dimension 1, F1 associé à un vecteur v1 , tel que
la projection de (Z) sur F1 soit d’inertie maximale. Du coup l’inertie à maximiser est I(pv1 ((Z))) =
I(Ψ1 ).
n
X
var(Ψ1 ) = pi (Ψi1 − Ψ̄1 )2 = ||Ψ1 ||2N . (8.7)
i=1
Exercice Montrer l’égalité (8.6) et (5.12).
Maximiser I(Ψ1 ), revient donc à maximiser var(Ψ1 ).
Proposition 22 Le vecteur v1 qui vérifie ce critère est le vecteur propre principal (c’est-à-dire le
vecteur associé à la plus grande valeur propre λ1 ) de la matrice des corrélations R = (Z)t N (Z).

Corollaire 8
I(Ψ1 ) = var(Ψ1 ) = ||Ψ1 ||2N = λ1

Exercice Montrer la proposition 22 et le corollaire 8

On cherche ainsi de suite pour k ≥ 1, le sous-espace Fk de dimension k telle que l’inertie de l


projection de Z sur Fk soit maximale. De la même manière que précédemment, on montre que
X n
k X k
X
I(pFk ((Z)) = d2 (Ψj − Ψ̄j ) = var(Ψj )
j=1 i=1 j=1

Proposition 23 Le sous espace Fk s’écrit Fk = Fk−1 ⊕ ∆k où ∆k est dirigé par vk le k e vecteur


propre de R (associé à la k e plus grande valeur propre λk ) de la matrice des corrélations R = (Z)t N Z.
Pk
De plus pFk (Z) = j=1 p∆j (Z) et les p∆j (Z) sont orthogonaux.

Corollaire 9
k
X
I(pFk ((Z)) = λj
j=1

Exercice Montrer que les vk sont aussi R orthogonaux.

8.3.4 Composantes Principales


De la même manière que l’on a défini les coordonnées de projections sur une droite vectorielle en-
gendrée par v dans la section 8.4, des n points individus. On peut définir Ψ1 le vecteur des coordonnées
de la projection sur ∆1 on a
 
Ψ11
 .. 
 . 
1
 
Ψ =  Ψi1  avec Ψi1 =< xi , v1 >

 . 
 . .
Ψn1
102 CHAPITRE 8. ANALYSE DE DONNÉES QUANTITATIVES

En faisant de même avec les k vecteurs propres vj pour 1 ≤ j ≤ k, et si V est la matrice dont les
colonnes sont les coordonnées des vecteurs propres (normés à 1 et triés par ordre décroissant des
valeurs propres), on obtient une matrice Ψ de taille n × k :

Ψ = ZV = (Ψij )1≤i≤n,1≤j≤k avec Ψij =< zi , vj > (8.8)

Les colonnes Ψj de cette matrice sont de nouvelles variables synthétiques appelées composantes prin-
cipales de X.

Propriété des composantes principales


La j e composante principale est centrée et de variance λj .

8.3.5 Formule de reconstitution


Pp Pp
On a vu plus haut que Ψj = ZM vj , donc si M = Id, j=1 Ψj (vj )0 = j=1 Zvj (vj )0 = Z car les
vj sont normés. On peut donc reconstituer Z en fonction des composantes principales Ψj et on a
p
X
Z= Ψj (vj )0
j=1

Le principe de l’ACP, on le verra plus bas, peut être de réduire l’information et de ne garder qu’un
certain nombre k d’axes.

8.3.6 Analyse du nuage des p points variables de Rn


On calque l’analyse des individus que nous venons de faire pour faire l’analyse des variables. On
cherche un sous-espace Gk de Rn de dimension k, soit k axes N -orthogonaux tels que la projection
des points variables sur Gk déforme le moins possibles les distances entre les variables et donc leurs
corrélations. En effet dans la matrice centrée-réduite Z,
— les points variables sont sur l’hypersphère unité puisque ||z j ||N = var(z j ) = 1
0 0
— La corrélation entre deux variables z j et z j est égale au cosinus de l’angle rjj 0 =< z j , z j >N =
0 0
cosn (θ(z j , z j )). Dans Rn , si z j et z j sont proches en terme de distance avec la métrique N
0
alors cela signifie qu’elles sont corrélées et que xj et xj sont bien corrélées aussi.
0 0
Exercice : montrer que d2N (z j , z j ) = 2(1 − rjj 0 ). On en déduit que dN (z j , z j ) varie entre 0 et 2
0
suivant la corrélation entre xj et xj .

On appelle Φ = (Φij )1≤i≤p,1≤j≤k la matrice des coordonnées de la projection de Z dans l’espace


Gk , c’est la matrice des coordonnées factorielles des variables ou encore matrice des loadings (satu-
rations ) des variables sur les k premières composantes principales. Φα sa αe colonne. On appelle
u1 , u2 , . . . , uk les vecteurs directeurs des axes de Gk .
On a le résultat suivant

Proposition 24 Avec les notations du paragraphe précédent, on a les résultats suivants.


— le vecteur u1 de Rn , N -normé à 1, tel que ||Φ1 ||2Ip soit maximal, est le vecteur propre principal
(c’est-à-dire le vecteur associé à la plus grande valeur propre ) de la matrice ZZ0 N.
— les valeurs propres de ZZ0 Nsont égales à celles de R = (Z)t N (Z),
— le sous espace Gk s’écrit Gk = Gk−1 ⊕ ∆k où ∆k est dirigé par uk le k e vecteur propre de
Zt ZN (associé à la k e plus grande valeur propre λk )
— Φα = Z t N uα
8.3. ANALYSE EN COMPOSANTES PRINCIPALES (ACP) 103

On peut faire des parallèles entre les deux décompositions :


— vj est vecteur propre de Z0 NZIp et Ψj = ZIp vj
— uα est vecteur propre de ZIp Z0 N et Φα = Z0 Nuα
— La matrice n × k des scores est Ψ = ZV où V est la matrice des k vecteurs propres ordonnés
de R = Z0 NZ
— La matrice p × k des loadings est Φ = Z0 NU où U est la matrice des k vecteurs propres
ordonnés de ZZ0 N

8.3.7 Lien avec la décomposition SVD


Si Z de dim n × p est de rang r (souvent r = p), toutes ces décompositions ont un lien avec la
décomposition en valeur singulière de la matrice réelle Z avec les métriques induites par N sur Rn et
M = Ip sur Rp (SVD acronyme anglo-saxon) :

Z = |{z}
|{z} U |{z} V0
Λ |{z}
n×p n×r r×r r×p

avec √ √
— Λ = diag( λ1 , . . . , λr ) avec λj valeur propre de R mais aussi de ZZ0 N.
— U est la matrice dont les colonnes sont les vecteurs propres de ZZ0 N, et N -normés et N -
orthogonaux. U0 N U = Ir
— V est la matrice dont les colonnes sont les vecteurs propres de Z0 NZ, et normés et orthogonaux.
V0 V = Ir
— Cette décomposition en valeurs singulières donne directement les décomposition Φ et Ψ des
scores et des loadings
Ψ = ZV Φ = Z0 NU
— On a les formules de passage

1 1
vj = p Z0 Nuj = p φj
λj λj
1 1
uj = p ZNvj = p ψj
λj λj

8.3.8 ACP avec métriques


Nous donnons ici les résultats généralisés à l’ACP avec métrique M sur l’espace des individus

Proposition 25 Le sous espace Fk s’écrit Fk = Fk−1 ⊕ ∆k où ∆k est dirigé par vk le k e vecteur


propre de RM (associé à la k e plus grande valeur propre λk ) de la matrice RM = (Z)t N ZM . De
Pk
plus pFk (Z) = j=1 p∆j (Z) et les p∆j (Z) sont M -orthogonaux.

On obtient que
Ψij =< zi , vj >M Ψj = ZM vj = Zfj
A chaque projection, correspond "trois êtres mathématiques" :
— un axe ∆j de l’espace des individus Rp de vecteur unitaire vj
— un vecteur Ψj de l’espace des variables
— une forme linéaire fj appelée facteur
Lorsque l’ACP est centrée-réduite et M = Id, alors le vecteur vj et la forme linéaire fj sont confondus
mais le mot facteur donne son nom à l’analyse factorielle.
104 CHAPITRE 8. ANALYSE DE DONNÉES QUANTITATIVES

De même nous avons le lien avec la décomposition SV D de la matrice Z avec les métriques
(M, N ) :
Z = |{z}
|{z} U |{z} V0
Λ |{z}
n×p n×r r×r r×p

avec √ √
— Λ = diag( λ1 , . . . , λr ) avec λj valeur propre de R mais aussi de ZMZ0 N.
— U est la matrice dont les colonnes sont les vecteurs propres de ZMZ0 N, et N -normés et
N -orthogonaux. U0 N U = Ir
— V est la matrice dont les colonnes sont les vecteurs propres de Z0 NZM, et M-normés et
M-orthogonaux. V0 MV = Ir
— Cette décomposition en valeurs singulières donne directement les décomposition Φ et Ψ des
scores et des loadings
Ψ = ZMV Φ = Z0 NU
— On a les formules de passage
1 1
vj = p Z0 Nuj = p φj
λj λj
1 1
uj = p ZNvj = p ψj
λj λj
ou encore

Φ = VΛ1/2
Ψ = UΛ1/2

8.3.9 Réduction de la dimension


On a vu plus haut la formule de reconstitution :
p
X
Z= Ψj (vj )0
j=1

Le principe de l’ACP, est de réduire l’information et de ne garder qu’un certain nombre k d’axes.
Dans ce cas, cela revient à projeter les données Z sur l’espace Fk et on a
k
X p p
pFk (Z) = Ψj (vj )0 = UΛk V0 avec Λk = diag( λ1 , . . . , λk , 0, . . . , 0)
j=1

pFk (Z) est la meilleure représentation approchée de Z de rang k dans le sens où elle vérifie

||Z − pFk (Z)||M,N = min{||Z − P||M,N , P ∈ Mn,p , rang(P) = k}


P

avec ||A||2M,N = trace(AM A0 N )

8.3.10 Qualité de représentation sur les plans principaux


On a vu que le but de l’ACP est d’obtenir une représentation approchée du nuage des individus
dans un sous-espace de dimension plus faible que p. Il est alors nécessaire de pouvoir apprécier la perte
d’information subie et de savoir combien d’axes principaux il faut retenir.
8.3. ANALYSE EN COMPOSANTES PRINCIPALES (ACP) 105

Mesure globale de qualité


Le critère habituellement utilisé est celui du poucentage d’inertie totale expliquée.
— L’inertie totale I(Z) est égale à la somme des valeurs propres de cette matrice (λ1 ≥ · · · ≥ λp ),
soit :
I(Z) = λ1 + · · · + λp .
— La part d’inertie (ou de variance) expliquée par le kème axe est alors mesurée par le quotient

λk
.
I(Z)

— La part d’inertie (ou de variance) expliquée par les deux premiers axes est mesurée par le
quotient
λ1 + λ2
.
I(Z)
Il mesure l’applatissement du nuage sur le plan principal. Plus cette part d’inertie expliquée
est grande, meilleure est la représentation du nuage sur ce plan.
— La part d’inertie (ou de variance) expliquée par les k premiers axes est alors mesurée par le
quotient
λ1 + · · · + λk
.
I(Z)

Remarque 1. L’appréciation du pourcentage d’inertie expliquée doit faire intervenir le nombre p


de variables initiales. Par exemple, un pourcentage de 50% n’a pas le même intérêt sur tableau de 10
variables ou sur un tableau de 100 variables.

Remarque 2. Le nombre de valeurs propres non nulles donne la dimension de l’espace dans lequel
sont réellement les observations (c’est à dire dans lequel appartient effectivement le nuage de points).
Une valeur propre nulle montre qu’il existe une liaison linéaire entre les variables initiales.

Nombre d’axes à retenir


Le principal intérêt de l’ACP consistant à réduire la dimension de l’espace des individus, le choix
du nombre d’axes à retenir est un point essentiel (qui n’a pas hélas de solution universelle). Il existe,
dans la littérature statistique, de nombreux critères théoriques et empiriques. On va en mentionner
quelques uns ci-dessous.
— Critère empirique de base. On peut utiliser le pourcentage d’inertie expliquée par les q premiers
axes et choisir le nombre q d’axes tel que cette inertie expliquée dépasse un certain seuil (75%
par exemple). Attention, il reste néanmoins la nécessité de ne retenir que des axes principaux
utiles pour l’interprétation, c’est à dire interprétable.
— Critère dit de Kaiser. Lorsque l’on travaille sur des données centrées réduites ou que l’on fait
une ACP centrée réduite, on ne va retenir que les composantes principales Ψj correspondant
à des valeurs propres λj > 1.
En effet, les composantes princpales Ψj sont ici des combinaisons linéaires des variables centrées
réduites z j (de variance égale à 1) et sont de variance maximale égale V (Ψj ) = λj . Donc seules
présentent un intérêt les composantes principales de variance supérieure à celle des variables
initiales, soit λj > 1.
— Autre critère. On détecte dans le diagramme des valeurs propres (appelé éboulis des valeurs
propres) un “coude", mais cela n’est pas toujours aisé en pratique.
La version analytique de ce critère est la suivante :
i) calculer les différences premières : ξ1 = λ1 − λ2 , ξ2 = λ2 − λ3 , . . .
106 CHAPITRE 8. ANALYSE DE DONNÉES QUANTITATIVES

ii) calculer les différences secondes : δ1 = ξ1 − ξ2 , δ2 = ξ2 − ξ3 , . . .


iii) retenir le nombre q tel que δ1 , . . . , δq−1 soient toutes positives et que δq soit négative.

8.3.11 Interprétation des résultats d’une ACP


On a vu que l’ACP construit des axes principaux et des variables artificielles, appelées composantes
principales. L’idée est de résumer l’information sur les individus dans un espace plus petit, on va donc
étudier la qualité de la projection sur ces espaces. L’analyse de la projection des variables permet aussi
de mesurer la proximité entre les variables. L’ACP permet de faire des représentations graphiques afin
de visualiser l’existence éventuelle de groupes d’individus et de mettre en évidence des relations entre
variables.

Qualité de la représentation d’un individu i.


Le pourcentage d’inertie expliquée est un critère global prenant en compte tout le nuage des
individus. On envisage ici la qualité de représentation de chaque individu.
Il est intéressant de juger de la qualité de la projection d’un individu sur un plan factoriel, car deux
individus bien projetés et proches sur le plan factoriel sont aussi "proches" dans Rp c’est-à-dire en
considérant toutes les variables de départ. Cette qualité de la représentationde l’individu i sur l’axe j
est donnée par :
Ψ2ij
QLTj (i) = cos2 (θij ) =
||zi ||2
Notons que ||zi ||2 se calculent de deux façons suivant que l’ont développent ses coordonnées dans
l’espace des variables de départ ou dans l’espace des composantes principales.
p
X p
X
||zi ||2 = 2
zij = Ψ2ij
j=1 j=1

Les contributions sur les axes se cumulent ce qui veut dire que la qualité de représentation de l’individu
i dans le plan ∆j , ∆j 0 est donnée par
Ψ2ij + Ψ2ij 0
QLTj,j 0 (i) = cos2 (θij ) + cos2 (θij 0 ) =
||zi ||2
Si les individus sont mal représentés, il ne faut pas confondre proximité sur le plan principal et
proximité dans l’espace des individus, car il manque des composantes orthogonales.
Les sorties de la plupart des logiciels de statistique fournissent la qualité de la représentation de
l’individu i par rapport à chaque axe principal j en donnant la valeur du cosinus carré de l’angle entre
l’axe k et le vecteur xi , soit cos2 (θij ).

Contribution de l’individu i à l’axe j.


Il est souvent utile de calculer pour chaque axe j la contribution apportée par chaque individu
à la constitution de cet axe. Cette contribution est mesuré par la part de la variance de la jème
composante principale due à l’individu i, à savoir :

(Ψji )2
CT Rj (i) = pi .
λj
Pn Pn
De plus on a vu que V (Ψj ) = λj = i=1 pi Ψ2ij = λj i=1 CT Rj (i). On en déduit que si les pi sont
tous égaux, les individus qui contribuent le plus à l’axe j sont ceux qui ont un Ψij le plus élevé en
valeur absolue.
8.3. ANALYSE EN COMPOSANTES PRINCIPALES (ACP) 107

Normalement et surtout pour les premières composantes principales, il n’est pas souhaitable qu’un
individu ait une contribution excessive (cela serait un facteur d’instabilité) : le fait de retirer cet
individu de l’étude risquerait de modifier profondément les résultats de l’analyse. Il est alors préférable
de le sortir de l’étude et de le faire figurer ensuite en individu supplémentaire, voir la section suivante.
Dans la pratique, lorsque les poids des individus sont tous égaux au départ, on considère qu’un individu
contribue trop à la construction d’un axe si CT Rj (i) > 5/n

Représentation des variables : les cercles des corrélations


On cherche ici à donner une signification concrète aux composantes principales qui sont des combi-
naisons linéaires des variables initiales. Pour cela, il est nécessaire de calculer les corrélations linéaires
(ou cosinus) entre les variables initiales (centrées réduites ) z j et les composantes principales Ψk .
— Dans le cas où l’on fait une ACP centrée réduite, on calcule la corrélation linéaire entre la jème
variable et la kème composante principale : r(z j , Ψk ). Ces valeurs donnent les coordonnées
factorielles des variables xj : Φjk = r(z j , Ψk ) que l’on peut représenter encore une fois sous
forme matricielle :

Φ = (Φjk )1≤j≤p,1≤k≤p avec Φjk = r(z j , Ψk ) (8.9)

— On synthétise les différentes corrélations sur des figures appelée cercle des corrélations.
Pour le couple des deux premières composantes principales Ψ1 et Ψ2 , les coordonnées  de
la variable initiale z j dans le premier plan principal sont r(xj , Ψ1 ), r(xj , Ψ2 ) .
Le carré de la “longueur" du vecteur reliant le centre du cercle à la projection de la variable
z j dans le plan est dons un indicateur de la qualité de la représentation de ce vecteur dans le
1er plan principal et vaut
2
l1,2 (xj ) = (r(xj , Ψ1 ))2 + (r(xj , Ψ2 ))2

Evidemment ces définitions pour le plan factoriel (1, 2) sont valables pour les autres plans
factoriels notamment les (1, 3) et les (2, 3) qui contiennent aussi beaucoup d’information.
 Pour
un plan (k, l), les coordonnées de la variable z j deviennent r(xj , Ψk ), r(xj , Ψl ) et la longeur
2
associée est lk,l (xj ) = (r(xj , Ψk ))2 + (r(xj , Ψl ))2
— Pour l’interprétation d’un plan principal, on ne considèrera que les variables dont la projection
est proche de la circonférence du cercle, en effet, dans ce cas-là, les variables sont très bien
corrélées avec le plan principal considéré et elles sont donc bien représentées.
— Deux variables qui sont bien projetées dans un plan principal et qui sont très "proches" dans
ce plan, sont très corrélées entre elles.
— On peut définir la contribution de la variable xj à l’axe k par :

Φ2jk
 
r 2 x j , Ψk r2 xj , Ψk
Pp 2 l k
= =
l=1 r (x , Ψ ) λk λk
Pp 
Car l=1 r2 xl , Ψk = λk = V (Ψk ).
— De la même manière que la matrice

Représentation des individus sur le plan principal


On considère ici le graphique représentant la projection du nuage des individus sur le plan principal
1-2. Chaque individu i est représenté par les coordonnées de sa projection sur chacun des deux premiers
axes principaux, à savoir (Ψi1 , Ψi2 ).
108 CHAPITRE 8. ANALYSE DE DONNÉES QUANTITATIVES

Interprétation simultanée de la représentation des individus et du cercle des


corrélations.
Lorsque que la première composante principale est très corrélée positivement avec la variable xj
(ceci s’observe sur le cercle des corrélations), cela signifie que les individus ayant une forte coordonnée
positive sur l’axe 1 sont caractérisés par une valeur de la variable xj sensiblement supérieure à la
moyenne (sous réserve que ces individus soient bien représentés sur cet axe). Inversement, les individus
aident aussi à l’interprétation des axes principaux et des composantes principales : on cherchera par
exemple des individus opposés le long d’un axe.

8.3.12 Interprétation externe : variables et individus supplémentaires


On peut ne pas faire participer à l’analyse une ou plusieurs variables du fichier ou plusieurs in-
dividus. Les raisons de ne pas faire participer une variable ou un individu sont très différentes : on
peut s’intéresser à la réduction de dimension d’un groupe de variables bien défini et ne pas choisir
d’en mettre d’autres car elles n’ont pas le même statut (voir exemple poumon du TP). On exclura
un individu car il contribue trop à la définition de l’un des premiers axes et nuit à la caractérisation
globale du groupe. On fait alors tous les calculs des axes principaux et des composantes principales
sans ces variables et individus. Celles qui participent à l’analyse sont appelées variables actives (resp.
individus actifs) les autres sont des variables passives ou supplémentaires (resp. individus passifs ou
supplémentaires). On peut en revanche, regarder la corrélation de ces variables quantitatives supplé-
mentaires avec les axes principaux, dessiner ces variables dans les premiers plans principaux et projeter
les individus dans les plans principaux.
Les coordonnées d’une variable supplémentaire z s dans le plan principal (k, l) sont données par
r(xs , Ψk ), r(xs , Ψl ) . Les coordonnées dans le plan principal (k, l) d’un individu supplémentaire dont
le vecteur des covariables est xs sont (< zs , vk >, < zs , vl >)
Même si les variables qualitatives ne peuvent être intégrées à une ACP (qui ne concerne que le
lien entre les variables quantitatives), on peut regarder des variables qualitatives supplémentaires.
Pour une variable qualitative à K modalités, on a donc une partition des individus en K groupes. On
représente le centre de gravité de chaque groupe sur le nuage des individus dans le 1er plan factoriel.
On peut faire une anova pour comparer les moyennes des composantes principales dans chaque groupe
ou calculer des valeurs tests.

8.3.13 Notion de valeur-test


Si le barycentre des individus ayant la modalité Ak d’une variable qualitative supplémentaire X
a pour coordonnée akj sur la j e composante principale. Alors on réalise une sorte de test pour voir
si cette "moyenne" pour ce groupe d’individu, s’éloigne de 0 qui est la moyenne de la composante
principale sur la totalité du groupe. (Ce n’est pas un vrai test de comparaison de moyenne pour
échantillons indépendants mais on fait comme si ... On utilise la statistique
akj
z=q
λj n−nk
nk n−1

Cette valeur est à comparer avec les quantiles de la loi N (0, 1) autrement dit, si |z| > 2 on interprétera
la modalités Ak par rapport à la j e composante principale.

8.4 Analyse des correspondances


L’analyse des correspondances permet d’analyser le lien entre deux variables qualitatives. Pour
cette analyse, on va se ramener à une analyse en composantes principales avec une métrique adap-
8.4. ANALYSE DES CORRESPONDANCES 109

tée, ma métrique du χ2 . Etudier le lien entre deux variables qualitatives revient à mesurer l’écart à
l’hypothèse d’indépendance et on retrouve des notions introduites dans le cadre du test du chi-deux.

8.4.1 Notations, métrique


On travaille à partir du tableau de contingence entre les deux variables X à s modalités et Y à r
modalités.

B1 ··· Bj ··· Br
A1 N11 ··· N1j ··· N1r N1·
... ··· ··· ··· ··· ··· ···
Ai Ni1 ··· Nij ··· Nir Ni·
... ··· ··· ··· ··· ··· ···
As Ns1 ··· Nsj ··· Nsr Ns·
N·1 ··· N·j ··· N·r n
Pr Ps Ps Pr
Ici Ni· = j=1 Nij , N·j = i=1 Nij , n = i=1 Ni· = j=1 N·j .
On note E la matrice s × r des (Nij ) et les matrices diagonale D1 = diag(Ni. ) et D2 =
diag(N.j ). On s’intéresse en fait aux profils des lignes donnés par les s vecteurs de dimension r :
Nij −1
`i = ( N Nir
Ni. , . . . , Ni. , . . . Ni. ) soit les lignes de la matrice D1
i1
E et aux profils des colonnes donnés par
N N N
cj = ( N1j
.j
. . . Nij
.j
, . . . , Nsj
.j
) soit les colonnes de ED2 −1 .
Les profils lignes forment s points de Rr affectés des poids pi donnés par D1 /n. Le centre de
gravité de ce nuage est donné par
 n.1   
n p.1
 n.2   p.2 
−1 0 D1  n  
gl = (D1 E) 1= . = . 

n  ..   .. 
n.s
n p.s

Le vecteur gl est le vecteur des fréquences empiriques des modalités de la variables X. On a de même
que le centre de gravité des profils colonnes nuage de r points de Rs de poids donnés par D2 /n est
 
p1.
 p2. 
gc = 
 
.. 
 . 
ps.

On peut remarquer que le nuage des profils lignes est dans le sous-espace de Rr défini par
r
X
W1 = {x ∈ Rr ; xj = 1 xj ≥ 0 ∀1 ≤ j ≤ r}
j=1

dimension au plus égale à r − 1 car la somme des profils lignes est égale au vecteur composé de 1 et
de plus toutes les composantes sont positives ou nulles. Dans le cas de l’indépendance entre les deux
variables X et Y , les effectifs vérifient :
nij n.j nij ni.
= et =
ni. n n.j n

et les nuages sont réduits à leur centre de gravité.


110 CHAPITRE 8. ANALYSE DE DONNÉES QUANTITATIVES

Métrique du χ2
Pour calculer la distance entre deux profils lignes i et i0 on utilise la formule :
r  2
2 0
X n nij n i0 j
dχ2 (i, i ) = − = ||li − li0 ||nD2 −1
n
j=1 .j
ni. n i0 .

On remarque d’abord que si la variable Y est distribuée de la même façon dans la ligne i et la ligne
i0 , alors la distance est nulle quelles que soient les marginales Ni. et Ni0 . . Ensuite si deux profils
colonnes ont le même profil, remplacer ces deux colonnes par une colonne qui est la somme des deux
précédentes, ne doit rien changer dans cette distance entre les deux profils lignes (à vérifier par le
calcul...) ; ce qui n’est pas le cas dans la métrique euclidienne. Enfin, l’inertie totale du nuage est aussi
la quantité mesurant l’écart à l’indépendance
n n 2 s
1 X X nij − i.n .j X ni. 2
I= ni. n.j = d 2 (i, gl )
n i j n i=1
n χ

On peut remarquer que I est égale à la statistique du χ2 du tableau de contingence E divisée par n.
D’autre part, le vecteur Ogl est orthogonal à W1 au sens de la métrique du χ2 soit pour x dans W1 ,

(x − gl )0 nD2 −1 gl =< gl x, 0gl >nD2 −1 =< gl x, Ogl >χ2

en utilisant judicieusement que nD2 −1 gl = 1, que pour tout x ∈ W1 , x0 1 = 1 et


On a de même une métrique entre les profils colonnes
s  2
2 0
X n nij n i0 j
dχ2 (j, j ) = − = ||cj − cj 0 ||nD1 −1
n
i=1 i.
n.j n.j 0

8.4.2 Analyse en composantes principales des nuages de profils-lignes


Si on fait l’ACP (non réduite) de la matrice des profils lignes, alors on est ramené à une ACP
comme vu dans la section précédent avec
— Données : X = D1 −1 E
— Métrique : M = nD2 −1
— Poids : N = Dn1
On peut montrer que la matrice de variance de X est Γ = X0 NX − gl gl0 , il faut donc en trouver
les vecteurs et les valeurs propre pour réaliser l’ACP. On a vu juste avant que le vecteur Ogl est
orthogonal à W1 c’est donc un vecteur propre de V M associé à la valeur propre 0. En remarquant
que gl gl0 M est de rang 1, on en déduit que ΓM et X0 NXM ont les mêmes vecteurs propres et leurs
valeurs propres sont les mêmes sauf celle associée à gl qui a pour valeur propre 1. Il est donc inutile
de centrer l’ACP.
On a le résultat suivant :
— Les vecteurs propres (appelés facteurs) sont ceux de la matrice X0 NXM = E0 D−1 −1
1 ED2 . On
note V la matrice des vecteurs propres
— On peut montrer que les composantes principales qui sont les colonnes de Ψ = XMV sont les
vecteurs propres de D−1 −1 0 0
1 ED2 E tel que leur norme vérifie ψj D1 ψj /n = λj . On obtient donc
que si λj = 0 la composante principale ψj est nulle.

8.4.3 Analyse en composantes principales des nuages de profils-colonnes


Si on fait l’ACP (non réduite) de la matrice des profils colonnes, alors on est ramené à une ACP
comme vu dans la section précédent avec
8.4. ANALYSE DES CORRESPONDANCES 111

— Données : XC = D2 −1 E0
— Métrique : MC = nD1 −1
— Poids : NC = Dn2
— Les vecteurs propres (appelés facteurs) sont ceux de la matrice ED−1 0 −1
2 E D1 . On note U la
matrice des vecteurs propres
— On peut montrer que les composantes principales qui sont les colonnes de Φ = XC MCU sont
les vecteurs propres de D−1 0 −1 0
2 E D1 E tel que leur norme vérifie Φj D2 Φj /n = λj
On a donc que les valeurs propres des deux décompositions qui sont les mêmes et par décomposition
de la variance des composantes principales :
s r
1X 1X
λk = ni. Ψ2ik = n.j Φ2jk (8.10)
n i=1 n j=1

8.4.4 Analyse des résultats


Contribution et cosinus carré
Compte-tenu de la décomposition (8.10) de la valeur propre λk en tant que part de variance dûe
aux modalités des deux variables, on a la contribution du profil i à la composante k :
ni. 2
n Ψik
CT Rk (i) =
λk
et l’équivalent pour les profils colonnes. On peut aussi calculer la contribution totale du profil ligne i
à l’inertie totale : Ps−1
ni. k=1 Ψ2ik
CT R(i) = Ps−1
n k=1 λk

Le cosinus carré entre le profil li et sa projection sur l’axe k mesure de la qualité de la représentation
de ce profil par cet axe
Ψ2
cos2k (i) = 2 ik
dχ2 (li , gl )
de même par orthogonalité, on peut calculer le cosinus carré de la projection de li sur un sous-espace
en sommant les cos2k (i) correspondants.
On a bien sûr l’équivalent pour les profils colonnes.

Représentation graphique
La correspondance entre les deux ACP permet de représenter les modalités des deux variables
simultanément sur les plans principaux. La modalité Ai de la variables X est représentée dans le
premier plan par les coordonnées (Ψi1 , Ψi2 ) et ainsi de suite dans les autres plans. Celle de la modalité
Bj de la variable Y est donnée par (Φji , Φj2 ). Deux modalités de la même variable qui sont proches
dans le plan factoriel, (à condition d’être bien représentée avec un cos2 relativement proche de 1),
correspondent à un même type d’individus. Il est plus difficile d’interpréter deux modalités Ai et Bj de
deux variables différentes, la distance s’interprète en terme de liaison. Leur représentation (par exemple
avec q = 2) illustre alors la correspondance entre les deux modalités : lorsque deux modalités, éloignées
de l’origine, sont voisines (ou opposées), leur produit scalaire est de valeur absolue importante ; leur
cellule conjointe contribue alors fortement à la dépendance entre les deux variables. Dans le premier
cas ce sont deux modalités qui ont tendance à être prise ensemble (par les mêmes individus) dans le
second elles sont antagonistes, c’est -à-dire que si l’on l’une de ces modalités, alors on a une probabilité
faible d’avoir l’autre.
112 CHAPITRE 8. ANALYSE DE DONNÉES QUANTITATIVES

Ecart à l’indépendance et formule de reconstitution


La matrice des données est au plus de rang r ∧ s. Si par exemple s < r, en éliminant la valeur
propre nulle, on trouve que l’inertie du nuage se décompose comme suit.
s−1
X
I= λk
k=1

A l’aide des formules établies pour l’ACP, on peut montrer la formule de reconstitution
s−1
!
ni. nj. X Ψik Φjk
nij = 1+ √
n λk
k=1

Les composantes principales mesurent bien un écart à l’indépendance.

Réduction de la dimension
Si le but est de réaliser l’Analyse des correspondances pour réduire la dimension (cela servira
surtout en ACM) alors on peut garder les mêmes règles que pour l’ACP. La règle de Kayser devient
alors "ne garder que les composantes qui ont une valeur propre supérieure à la moyenne soit à I/((s ∧
r) − 1). La règle du coude peut être utilisée aussi.

Variables quantitatives associées


Tout individu qui a une coordonnée i de la variables X et j de la variables Y a pour coordonnée
sur l’axe k donnée par
1
z= (Ψik + Φik )
λk
ainsi nous avons une façon de représenter des variables qualitatives dans un "univers" quantitatif" ce
qui peut être fort utile si on cherche des distances entre individus pour une classification par exemple.

Tableau disjonctif complet


Définition 50 X1 est le tableau disjonctif complet de la variable X1 à r modalités si
 
h11 . . . h1j . . . h1r
 .. 

 . 

X1 =  hi1 . . . hij . . . hir 


 .. 
 . 
hn1 . . . hnj . . . hnr

vérifie hij = 1 si l’individu i à la modalité j de X1

Si X1 est le tableau disjonctif complet de X et X2 celui de Y alors on a les formules :

E = X01 X2 D1 = X01 X1 D2 = X02 X2

On peut montrer que l’analyse précédente aurait pu se faire en travaillant sur le tableau disjonctif
complet des deux variables X et Y , c’est à dire la matrice
 0
X1 X1 X01 X2
  
0 D1 E
[X1 |X2 ] [X1 |X2 ] = =
X02 X1 X02 X2 E0 D2
8.5. ANALYSE DES CORRESPONDANCES MULTIPLES 113

Ce tableau s’appelle le tableau de Burt. Il est possible de faire une ACP de ce tableau de Burt et d’en
avoir le lien avec l’AFC classique présentée plus haut mais nous le détaillerons pas ici.

La notion de tableau disjonctif complet se généralise à p variables X1 , . . . , Xp .

Définition 51 X est le tableau disjonctif complet des variables Pp X1 , . . . , Xp qui ont respectivement
m1 , . . . , mp modalités que l’on suppose indexées par (1, 2, . . . , i=1 mi ) si

X = (hij )1≤i≤n,1≤j≤Pp mi
i=1

et hij = 1 vérifie si l’individu i à la modalité j.

On peut remarquer que la somme d’une ligne de la matrice X vaut p et la somme des colonnes est le
vecteur des effectifs marginaux des modalités et le total général vaut np.
Cette façon de voir l’analyse des correspondances permet plusieurs choses : la première est de
remplacer les variables qualitatives par des facteurs quantitatifs (au plus s + r − 2) sur les n individus
(on ne l’a pas fait dans ce chapitre) ce qui permet ensuite de mesurer des proximités entre individus
pour réaliser une classification. Cela permet aussi de généraliser cette analyse à p variables qualitatives.

8.5 Analyse des correspondances multiples


On va généraliser l’analyse précédente et travailler sur le tableau disjonctif complet des p variables
X1 , . . . Xp avec le nombre de modalités m1 , . . . mp . Cette fois-ci, ce sont bien les individus qui sont en
lignes et l’ensemble des informations sur les variables en colonnes. On va faire une ACP de ce tableau
mais
Pp
On cherche donc les composantes principales comme des vecteurs à i=1 mi composantes

aj = (aj1 , . . . , ajp )0 chaque ajk a mk composantes

vérifiant p1 D−1 X0 Xaj = µj aj avec

X = [X1 | . . . |Xp ] D = diag(Dj ) B = X0 X = [X0 i Xj ]ij

La matrice B est appelée tableau de Burt est un "super tableau de contingence" de toutes les variables
deux à deux.
On peut calculer la contribution de la modalité Aji de la j e variable à la composante principale k.
Si nji est l’effectif de Aji
nji. j 2
np (aik )
CT Rk (Aji ) =
µk

8.5.1 Inertie
Pp
est de rang i=1 mi −Pp + 1 mais on cherche les valeurs propres non triviales (ni 0
La matrice X P
p p
ni 1) donc si n > i=1 mi son rang est i=1 mi − p valeurs propres. Donc la somme vaut
Pp
i=1 mi
I= −1
p
114 CHAPITRE 8. ANALYSE DE DONNÉES QUANTITATIVES

8.5.2 Coordonnées des individus


On peut alors avoir les coordonnées des individus sur l’axe factoriel j, alors le vecteur Ψj corres-
pondant vérifie
1
XD−1 X0 Ψj = µj Ψj
p
Soit
p
1 X
( Xi (X0i Xi )−1 X0i )Ψj = µj Ψj
p i=1

On somme les projecteurs sur chacun des espaces engendrés les modalités de la ie variable. Comme
d’habitude, on normalise n1 Ψj 0 Ψj = µj

8.5.3 Formule de transition


On a un lien entre les composantes principales "des individus" et celles des modalités :

1 1
Ψj = √ Xaj aj = √ D−1 X0 Ψj
µj p µj

qui s’interprète comme une moyenne arithmétique (à un coefficient près) des coordonnées auxquelles
il appartient ...

8.5.4 Interprétation
Nous pouvons donc représenter toutes les modalités des p variables sur les plans factoriels et,
si ces modalités sont bien représentées, on peut interpréter une proximité et une opposition comme
dans l’AFC de deux variables. Attention cependant, les rapports de valeurs propres ne sont pas
interprétables comme indicateurs de qualité globale ; on peut néanmoins regarder la décroissance
des premières valeurs propres pour choisir la dimension. Cette étape est cruciale car la réduction
de dimension est une étape intéressante avant une classification, c’est-à-dire un regroupement des
individus en classe homogènes.
Les coefficients de qualité de chaque modalité ne peuvent pas être interprétés ; seules les contri-
butions des modalités à l’inertie selon les axes sont interprétées, selon le même principe qu’en AFC.

8.6 Autres méthodes factorielles


On a vu en détail l’ACP qui est la méthode factorielle pour l’analyse simultanée de variables
quantitatives et une méthode factorielle pour étudier simultanément des variables qualitatives (c’est
l’analyse des correspondances multiples). Il existe aussi des méthodes pour l’étude simultanée des
variables qualitatives et quantitatives. Ces méthodes sont utiles pour l’analyse globale des variables
mais aussi en préalable à une classification. Ces fonctions sont disponibles dans PCAmixdata et
FactoMineR. En effet ne garder qu’une partie des axes factoriels avant une classification permet
de "lisser" les données dans le sens où les phénomènes trop rares sont concentrés sur les dernières
composantes principales. De cette façon, les individus "outlyers" ne formeront pas une classe à eux
seuls dans la classification. Sinon, une des grandes méthodes factorielles est l’analyse discriminante
qui est une méthode d’apprentissage supervisé reposant sur des méthodes linéaires comme l’ACP.
8.7. CLASSIFICATION NON SUPERVISÉE 115

8.7 Classification non supervisée


Nous ne détaillerons pas les méthodes de classification ici mais donnerons simplement leur principe
et des outils d’analyse avant un TP. Faire une classification de l’ensemble des individus {1, . . . , n} en
K classes, revient à choisir une partition de cet ensemble en PK = (C1 , . . . , CK ) d’ensemble non vides
et disjoints. L’idée est de faire des classes le plus homogènes possibles suivant des critères de distances
entre individus. On est dans le même contexte que dans l’ACP, on a une matrice X qui donnent
les valeurs de p variables quantitatives de n individus. Supposons que l’on ait une distance d entre
individus. Alors, pour mesurer l’homogénéité d’une classe Ck , on a par exemple

le diamètre : diam(Ck ) = max


0
d(xi , xi0 )
i,i ∈Ck

X
l’inertie : I(Ck ) = pi d(xi , gk ) où gk est le centre de gravité de Ck
i∈Ck

On a donc des critères de qualité d’une partition correspondants

le diamètre : diam(PK ) = max diam(Ck )


1≤k≤K

X
l’inertie : W (Pk ) = I(Ck ) où gk est le centre de gravité de Ck
1≤k≤K

Or il se trouve que l’inertie totale du nuagePse décompose en une inertie entre les classes et une inertie
à l’intérieur des classes, si l’on note µk = i∈Ck pi le poids de la classe Ck ,
n
X
I(X) = pi d2 (xi , x̄) = B + W où
i=1
K
X
B = µk d2 (gk , x̄) est l’inertie inter-classe
k=1
K
X
W = I(Ck ) est l’inertie intra-classes
k=1

Minimise W revient à maximiser B. Et on peut parler du pourcentage d’inertie expliqué par la partition
(1 − W
T ) × 100.

8.7.1 Classification par nuées dynamiques (K-means)


On utilise un algorithme dont le principe est de diminuer l’inertie intra-classe à chaque étape. On
part de K centres (souvent tirés au hasard). A chaque étape de l’algorithme :
1. On calcule les centres de gravité des classes : (gk )1≤k≤K
2. On affecte l’individu i dans la classe l si d(xi , gl ) = min1≤k≤K d(xi , gk )

8.7.2 Classification Ascendante Hiérarchique


Le principe est le suivant : on part de tous les individus qui forment chacun une classe. Si une
distance entre les individus a été définie. La première étape de l’algorithme va être de mettre dans
une même classe deux individus i et i0 pour lesquels d(xi , x0i ) ≤ inf j,k d(xj , xk ). Après cette étape,
on a donc n − 1 classes. On continue de la même façon sauf qu’il faut convenir d’une distance entre
un individu et un groupe d’individus et on agrège les clusters les plus proches jusqu’à n’obtenir plus
116 CHAPITRE 8. ANALYSE DE DONNÉES QUANTITATIVES

qu’une classe. A chaque étape on mesure la part de variance totale qui passe de la variance inter-
classe à la variance intra-classe. On peut ainsi dessiner un arbre d’agrégation ou dendogramme avec
comme hauteur de branche proportionnelle à ce delta de variance. La figure 8.1 montre un exemple
de dendogramme. L’inertie intra-classe est donnée en haut à droite pour l’ensemble à 1 puis 2, puis
3 clusters. Cet éboulis invite à faire une classification avec 2, 3 , 6 ou 7 classes. Il est intéressant de
travailler sur les variables centrées-réduites soit Z. On peut aussi, comme évoqué plus haut, faire une
analyse factorielle préalable et ne garder que les premiers axes.

8.7.3 Classification mixte


Souvent, on fait une CAH pour déterminer le nombre K. On garde les centres de gravité des
classes de la partition en K classes de la CAH. On "consolide" avec un algo de nuées mobiles.

2.0
1.5
Hierarchical Clustering

1.0
0.5
0.0
Click to cut the tree
inertia gain
2.0
1.5
1.0
0.5
0.0

1287
1157
1062
1276
1074
518
1274
453
1248
125
1100
383
1079
1190
115
249
1348
395
1171
703
693
78
1082
717
1091
139
1250
609
1081
423
698
225
565
507
1109
7
1149
131
1311
493
1354
514
1251
513
512
354
1230
33
1187
75
588
583
1075
223
1071
38
764
369
1265
1184
617
760
963
359
601
523
1156
635
1163
1246
961
121
126
84
468
630
585
716
649
31
261
573
506
80
1125
264
1154
105
1188
1150
1232
300
1309
1120
1158
1178
1253
82
301
357
1122
596
1113
1108
713
365
1305
1116
1096
81
130
777
628
128
1148
1179
1088
1102
1174
1072
1114
1111
1117
595
414
356
1067
144
521
263
770
515
1191
361
1247
438
1099
592
570
186
363
718
1110
1101
1089
772
1259
678
1177
869

Figure 8.1 – Exemple de dendogramme associé à une CAH

8.7.4 Analyse de la classification


Il est intéressant d’analyser la classification obtenue en regardant les moyennes des variables
quantitatives dans chaque classe et en regardant la répartition des variables qualitatives dans chaque
classe. Les logiciels donne des critères pour dire si une variable quantitative est significativement
différente en moyenne dans une classe que dans la population totale. Ils calculent aussi des valeurs
tests pour les variables qualitatives.
Chapitre 9

Annexes

9.1 Lois usuelles et résultats mathématiques


Nous donnons ici les définitions des lois de probabilités usuelles ainsi qu’un résultat fondamental
dans les espace gaussions : le théorème de Cochran

Loi de Laplace-Gauss, ou normale, de paramètres µ ∈ R et σ 2 > 0


On dit que X suit une loi de Laplace-Gauss, ou normale, de paramètres µ ∈ R et σ 2 > 0, notée
N (µ, σ 2 ), si sa densité est donnée par, pour tout réel x :

(x − µ)2
 
1
fX (x) = √ exp − .
σ 2π 2σ 2

Cette loi joue un rôle fondamental en probabilités et en statistique en raison du théorème limite
central.

Loi du Chi-deux à n degrés de liberté


La loi de la variable aléatoire X12 +X22 +. . . Xn2 , où les Xi sont des variables aléatoires indépendantes
de même loi N (0; 1) est appelée loi du Chi-deux à n degrés de liberté, notée χ2n . Sa densité est donnée
par, pour tout réel x :  x n
1
fX (x) = 1R+ (x) n/2 exp − x 2 −1 .
2 Γ(n/2) 2
R∞
où, pour tout entier a > 0, on note : Γ(a) = 0 ta−1 e−t dt. Cette loi est bien évidemment centrale
en statistique. En effet grâce au théorème central limite et à la normalité asymptotique de l’esti-
mateur du maximum de vraisemblance par exemple, les normes au carré d’une vecteur gaussien (ou
asymptotiquement gaussien) sont gaussiennes (ou asymptotiquement gaussiennes)

Loi de Student
Soit X et Y deux variables aléatoires indépendantes telles que X ' N (µ, σ 2 ) et Y ' χ2 (n) la loi
de la variables aléatoire
X
T =p
Y /n
est appelée loi de Student à d degrés de liberté, et de paramètre de décentrage µ, la loi est notée
T (µ, n). Très souvent µ = 0 et la loi est notée simplement T (n)

117
118 CHAPITRE 9. ANNEXES

1 Γ((n + 1)/2)  x n
fX (x) = 1R+ (x) exp − x 2 −1 .
nπ Γ(n/2) 2
où, pour tout entier p ≥ 1, on note :

K2p = 2p (p − 1)! et K2p+1 = (2p − 1)(2p − 3) . . . 3.1. 2π.

On démontrera (dans l’exercice ??) que c’est la loi d’une v.a de la forme X12 + X22 + . . . Xn2 , où les
Xi sont des variables aléatoires indépendantes de même loi N (0; 1), ce qui explique l’expression « à n
degrés de liberté ». Cette loi joue un grand rôle en statistique.

Loi Gamma
On dit que X suit une loi Gamma de paramètre (α, β) , notée Gamma(α, β), si, pour tout réel x :
1  x
fX (x) = 1R+ (x) exp − xα−1 β α .
Γ(α) 2

Attention suivant les ouvrages on peut paramétrer la loi Gamma par les paramètres (α, θ) en posant
β = 1/θ.
Montrer que si X suit une loi du χ2 (p) alors elle suit une loi Gamma de paramètres à déterminer.

Théorèmes de Cochran
Théoreme 13 Soit un vecteur gaussien X ' N (0, Idk ) et une décomposition de Rk en r sous-espaces
orthogonaux de dimensions respectives d1 , . . . dr : E1 ⊕ . . . ⊕ Er . Alors les projections orthogonales
ΠE1 , . . . , ΠEr forment des vecteurs gaussiens indépendants et pour tout 1 ≤ j ≤ r, ||ΠEj (X)||2 suit
une loi χ2 (dj ).

Le théorème se généralise à des vecteurs gaussiens non centrés.


Chapitre 10

Références

119
120 CHAPITRE 10. RÉFÉRENCES
Bibliographie

[1] A. Agresti Categorical Data Analysis Wiley, 2002.


[2] J.-M. Azaïs, J.-M. Bardet Le modèle linéaire par l’exemple Dunod, 2005.
[3] P.-A. Cornillon, E. Matzner-Lober Régression, théorie et applications. Springer, 2007.
[4] L. Lebart, Morineau, et al. Statistique exploratoire multidimensionnelle. Dunod, 2000.
[5] G. Pupion, P-C. Pupion Tests non paramétriques avec applications à l’économie et à la gestion.
Economica, 1998.
[6] G. Saporta Probabilités, analyse des données et statistique. Editions Technip , 2006.
[7] S. Siegel, N.J. Castellan. Nonparametric Statistics for the behavioral sciences. McGraw-Hill,
1988.
[8] G. Stoltz, V. Rivoirard Statistique mathématique en action Vuibert, 2012.
[9] V. van der Vaart. Asymptotic Statistics Cambridge University Press, 1998.
[10] F. Bertrand, M. Maumy-Bertrand . Statistiques pour les petits échantillons. "http ://www-
[Link]/ fbertran/enseignement/".

121

Vous aimerez peut-être aussi