Notes de cours en Statistique
Notes de cours en Statistique
Anne Gégout-Petit
Master 1 IMOI
Université de Lorraine
7 mai 2019
2
1 Statistique descriptive 7
1.1 Description univariée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.1 Les tableaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.2 Les représentations graphiques . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Description des variables quantitatives . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1 Distribution empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.2 Les caractéristiques de tendance centrale . . . . . . . . . . . . . . . . . 8
1.2.3 Caractéristiques de dispersion . . . . . . . . . . . . . . . . . . . . . . . 9
2 Estimation paramétrique 13
2.1 Modèle statistique : généralités . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Modèle paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.1 Hypothèses sur les lois de probabilité Pθ . . . . . . . . . . . . . . . . . 15
2.2.2 Loi et densité conjointes de l’échantillon (X1 , . . . , Xn ) . . . . . . . . . 15
2.3 Statistique et estimateur : définitions . . . . . . . . . . . . . . . . . . . . . . . 15
2.4 Deux méthodes usuelles d’estimation . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.1 La méthode des moments . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.2 La méthode du maximum de vraisemblance . . . . . . . . . . . . . . . 18
2.4.3 Détermination pratique de l’E.M.V . . . . . . . . . . . . . . . . . . . . 19
2.5 Quelques propriétés générales sur les estimateurs . . . . . . . . . . . . . . . . 21
2.5.1 Biais d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.5.2 Risque quadratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.5.3 Estimateur convergent . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.5.4 Compléments sur le modèle gaussien . . . . . . . . . . . . . . . . . . . 25
2.6 Statistique exhaustive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.7 Choix d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.7.1 Borne FDCR et estimateur efficace . . . . . . . . . . . . . . . . . . . . 29
2.7.2 Score et information de Fisher . . . . . . . . . . . . . . . . . . . . . . 29
2.7.3 Borne FDCR et efficacité . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.7.4 Compléments : Généralisation au cas multi-dimensionnel . . . . . . . . 34
2.7.5 La classe exponentielle de lois . . . . . . . . . . . . . . . . . . . . . . . 35
2.8 Normalité asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.8.1 Normalité Asymptotique de l’E.M.V. . . . . . . . . . . . . . . . . . . . 36
2.8.2 Un autre exemple de normalité asymptotique : la méthode delta . . . 39
3
4 TABLE DES MATIÈRES
5 Régression linéaire 71
5.1 Le modèle de régression simple . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.1.1 L’estimateurs des moindres carrés de β . . . . . . . . . . . . . . . . . 72
5.1.2 Décomposition de la variance . . . . . . . . . . . . . . . . . . . . . . . 73
5.1.3 L’estimation de la variance des erreurs . . . . . . . . . . . . . . . . . . 73
5.1.4 Test sur les coefficients du modèle . . . . . . . . . . . . . . . . . . . . 74
5.1.5 Coefficient de détermination . . . . . . . . . . . . . . . . . . . . . . . . 75
TABLE DES MATIÈRES 5
6 Régression logistique 85
6.1 Le modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6.1.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6.1.2 Modèle et interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6.1.3 Estimation des paramètres, tests associés . . . . . . . . . . . . . . . . 86
6.2 Adéquation du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6.2.1 Cas J << n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
6.2.2 Test d’Hosmer Lemeshow . . . . . . . . . . . . . . . . . . . . . . . . . 88
6.2.3 Pouvoir prédictif : Courbe ROC . . . . . . . . . . . . . . . . . . . . . 89
7 Méthodes bootstrap 91
7.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
7.2 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
7.3 Approximation de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
7.4 Approximation du biais d’un estimateur . . . . . . . . . . . . . . . . . . . . . 92
7.5 Intervalle de confiance de θ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
7.5.1 Intervalles de confiance empiriques . . . . . . . . . . . . . . . . . . . . 92
7.5.2 Intervalle de confiance corrigé du biais . . . . . . . . . . . . . . . . . . 92
7.6 Tests de permutation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
7.6.1 Comparaison de la distribution de deux échantillons . . . . . . . . . . 93
7.6.2 Comparaison de la moyenne de deux échantillons . . . . . . . . . . . . 93
7.6.3 Comparaison d’une moyenne observée et d’une moyenne théorique . . 94
7.7 Autres usages du bootstrap ou des tests de permutations . . . . . . . . . . . . 94
9 Annexes 117
9.1 Lois usuelles et résultats mathématiques . . . . . . . . . . . . . . . . . . . . . 117
10 Références 119
Chapitre 1
Statistique descriptive
L’objet de cette section est de donner les outils de description d’une série statistique
observée (xi ){1≤i≤n} . Les outils dépendent du caractère de la variable, celui-ci étant qualita-
tif, quantitatif discret ou quantitatif continu. Lorsque la variable est quantitative on notera
(x(1) , x(2) , . . . , x(n) ) l’échantillon ordonné correspondant : (x(1) ≤ x(2) ≤ . . . ≤ x(n) ). En cas
d’exaeco, il y a plusieurs échantillons possibles le choix de l’un ou l’autre d’entre eux ne
changera pas les définitions ci-dessous.
7
8 CHAPITRE 1. STATISTIQUE DESCRIPTIVE
Cette fonction est une fonction en escalier, continue à droite, qui présente des points de
discontinuité en xi et dont les limites respectives en −∞ et ∞ sont 0 et 1.
Si on ne dispose que de la distribution en classe comme dans (1.1), on va représenter la
fonction de répartition aux points (ei )0≤i≤K par Fn (e0 ) = 0 et Fn (ei ) = n1 ik=1 nk
P
La médiane La valeur m est la médiane de l’échantillon (xi )1≤i≤n , si elle vérifie Fn (m) = 0, 5
où F est la fonction de répartition empirique.
Comme la fonction de répartition Fn n’est pas continue, parfois cette valeur n’existe pas.
x +x
C’est le cas quand n est pair et on prend m = (n/2) 2 (n+1/2) , si n est impair, la valeur existe
et vaut x((n+1)/2) .
Le mode Le mode est la valeur du paramètre le plus représenté. Pour une variables quali-
tative ou une quantitative discrète, c’est la modalité mi qui correspond au ni le plus élevé.
1.2. DESCRIPTION DES VARIABLES QUANTITATIVES 9
Il peut y avoir plusieurs modes. Dans le cas d’une variable regroupée en classe, on parle de
classe modale.
La moyenne
Cas discret à partir des données de la distribution donnée par exemple dans le tableau
X x1 . . . xj . . . xK Total
(1.2)
Effectif n1 nj nK n
K
1X
x̄n = ni xi
n i=1
Proposition 1 Lorsque l’on connait la moyenne x̄an d’un échantillon de taille n (xai )1≤i≤n
et celle x¯b m d’un échantillon de taille m (xbi )1≤i≤m , la moyenne de l’échantillon regroupé est
donnée par
nx¯a n + mx¯b m
x̄n+m =
n+m
Cette formule se généralise bien sûr au regroupement de plus de deux séries.
Minimum et maximum. Le minimum x(1) et le maximum x(n) de la série sont bien évidem-
ment des indicateurs de dispersion intéressants et simples à donner. On peut éventuellement
calculer l’étendue (x(n) − x(1) ).
Les quantiles Pour α ∈ [0, 1], le quantile empirique d’ordre α est le réel qα (s’il existe)
qui vérifie Fn (qα ) = α. S’il n’existe pas, on détermine i tel que Fn (x(i−1) ) ≤ α ≤ Fn (x(i) )
et on interpole ou on prend n’importe quel nombre dans l’intervalle [x(i−1) ; x(i) ]. Suivant le
contexte, on se contente de donner les quartiles ie les quantiles d’ordre (α = 0, 25 ; 0, 5 et
0, 75). Dans des séries plus longues comme les salaires d’une grande entreprise ou les revenus
des ménages d’une population, en plus des quartile, il est intéressant de donner les premiers
et les derniers centiles ou déciles. (α = 0, 01 ; 0, 1 ; 0, 9 ; 0, 99)
10 CHAPITRE 1. STATISTIQUE DESCRIPTIVE
La variance et l’écart-type La variance d’une série statistique (xi )1≤i≤n est la moyenne
des "écarts à la moyenne au carré", elle est donnée par
n
1X
s2n = (xi − x̄n )2 (1.3)
n i=1
Il faut évidemment pondérer la somme si les données sont regroupées comme dans le tableau
(1.1).
K
1X
s2n = ni (xi − x̄n )2
n i=1
La racine carrée de la variance est appelée écart-type de la série. Il est à noter qu’il s’exprime
dans la même unité que la série.
Comme la variance d’une variable aléatoire, la variance d’une série statistique se calcule à
l’aide de la moyenne empirique de la série et celle de la série des carrés à l’aide de la formule
de Koenig :
n
1X
s2n = x¯2 n − (x̄n )2 avec x¯2 n = (xi )2 (1.4)
n i=1
Si on dispose de deux échantillons (xai )1≤i≤n et (xbi )1≤i≤m , la variance de l’échantillon regroupé
s’exprime en fonction des variances sA2 B2 ¯a ¯b
n et sm et des moyennes x n et x m de ces deux séries.
On peut remarquer que V 1 est la moyenne des variances alors que V 2 est la variance des
moyennes. Cette formule se généralise bien sûr au regroupement de plus de deux séries.
Les paramètres de mesure du lien entre une variable quantitative et une variable
qualitative
donc k sous-échantillons (y11 , . . . , yn1 1 ), ... , (y1k , . . . , ynk k ) où (y11 , . . . , yn1 1 ) constitue l’ensemble
des valeurs de yi correspondant à xi égal à la modalité 1 de x et ainsi de suite. On a n1 +
. . . + nk = n.
1. Les moyennes conditionnelles de y sachant x sont données par la moyenne de chacun
des groupes (y1j , . . . , ynj 1 ) : ȳ1 = ȳy|x=a1 = n11 ni=1
P 1 1
yi et plus généralement ȳj =
1 Pnj j
nj i=1 yi pour 1 ≤ j ≤ k
2. Les variances conditionnelles de y sachant x sont données par la variance de chacun
des groupes (y1j , . . . , ynj 1 ) : s2y|x=a1 = n11 ni=1 (yi1 − ȳ1 )2 = ( n11 ni=1 (yi1 )2 ) − (ȳ1 )2 et
P 1 P 1
1 Pnj j Pnj j 2
plus généralement s2y|x=aj = nj i=1 (yi − ȳj )2 = ( n1j i=1 (yi ) ) − (ȳj )2
1 Pk 2
3. La moyenne des variances conditionnelles : s2y|x = n j=1 nj sy|x=aj
1 Pk
4. La variance des moyennes conditionnelles : s2ȳ|x = n j=1 nj (ȳj − ȳ)2
1 Pk
5. Propriété : la moyenne de y dans l’échantillon total : ȳ = n j=1 nj ȳj
mettredesrésultatsdemathssurlesmodèlesgaussiens
12 CHAPITRE 1. STATISTIQUE DESCRIPTIVE
Chapitre 2
Estimation paramétrique
P = {Pθ , θ ∈ Θ}.
La famille P est appelée modèle statistique. On dira aussi que (X1 , . . . , Xn ) est un échan-
tillon du modèle P = (Pθ , θ ∈ Θ).
13
14 CHAPITRE 2. ESTIMATION PARAMÉTRIQUE
(a) si X est une variable aléatoire réelle de loi normale (gaussienne) de moyenne incon-
nue mais de variance connue égale à 1. Alors la loi de X est continue et ne dépend
que de son espérance (dite aussi moyenne) que l’on note usuellement : µ = E(X).
On a donc ici : θ = µet Θ = R. La
√ loi de X est donc la loi N (θ, 1) de densité :
2
fX (x) = (1/ 2π) exp −(x − θ) /2 ∀x ∈ R.
(b) Plus généralement : lorsque la loi de X appartient à une famille de lois réelles
usuelles (Poisson, Bernoulli, Binomiale, Exponentielle, Gamma, Normales, etc . . .)
mais dont certains paramètres (comme la moyenne, la variance, . . .) sont inconnus.
2. si Θ n’est pas de dimension finie : alors il faut estimer toute la loi de X et on dit que
P est un modèle non paramétrique. Exemples :
(a) la famille P constituée de toutes les lois de probabilité sur R qui sont centrées.
(b) la famille P constituée de toutes les lois de probabilité sur R qui sont symétriques.
ce chapitre, nous nous plaçons dans le cadre paramétrique uniquement.
Remarque. Le paramètre inconnu θ ne fluctue pas : il est fixe, c’est une constante.
On définit : (
fθ (x) dans le cas continu,
f (x; θ) =
Pθ [X = x] dans le cas discret.
On dira que f (.; θ) est la densité de la loi Pθ (en réalité la théorie de la mesure justifie
cette terminologie, autant dans le cas continu que discret).
Exemple 2 : Donner f (.; θ) dans les cas suivants : 1) Pθ = B(p) avec θ = p 2) Pθ = U(0, θ).
Remarque. ATTENTION : Un estimateur est donc une variable aléatoire (i.e. une fonction)
tandis qu’une estimation est une valeur déterministe (i.e. une constante).
empirique observée.
Définition 5 soit r ≥ 1, le moment d’ordre r de la loi de X - s’il existe - est appelé moment
théorique d’ordre r. Il dépend de θ, on le note Mr (θ) : Mr (θ) = Eθ [X r ]. En particulier :
M1 (θ) = Eθ [X] est l’espérance de X.
Cas uni-dimensionnel p = 1 :
pour une réalisation (x1 , . . . , xn ) de l’échantillon, la méthode consiste à prendre pour estima-
tion de θ la valeur telle que la moyenne théorique coïncide avec la moyenne empirique. Ainsi
on doit résoudre l’équation d’inconnue θ : M1 (θ) = m1 .
S’il existe une et une unique solution alors on la note θ̂M , elle vaut : θ̂M = M1−1 (xn ). La
statistique encore notée θ̂M définie par θ̂M = M1−1 (X n ) sera l’estimateur des moments de θ.
Remarque. Evidemment la définition précédente n’a de sens que si Eθ (X) (i.e. M1 (θ)) existe
et si l’équation M1 (θ) = m1 admet une solution et une seule.
Exercice : Montrer que l’estimateur des moments du paramètre λ > 0 de la loi de Poisson
P(λ), du paramètre p ∈ [0, 1] de la loi de Bernoulli B(p), est p̂M = X n . Que représente le
paramètres à estimer dans ces deux cas ? Généraliser à θ = Eθ [X]. Donner l’estimateur des
moments du paramètre λ > 0 de la loi exponentielle E(λ) et de θ lorsque la variable X est
une uniforme sur [0, θ].
Cas θ de dimension p ≥ 1 :
pour obtenir les estimateurs des p composantes (θ1 , . . . , θp ) de θ, la méthode consiste à poser
un système de p équations, à p inconnues (qui sont les composantes de θ), en égalant moments
théoriques et moments empiriques.
∂L(θ; X1 , . . . , Xn ) ∂ ln L(θ; X1 , . . . , Xn )
=0 ou = 0.
∂θ θ=θ̂n ∂θ θ=θ̂n
∂
(i) ln L(θ; X1 , . . . , Xn ) =0 (équation de vraisemblance),
∂θ θ=θ̂n
∂2
(ii) ln L(θ; X1 , . . . , Xn ) < 0.
∂θ2 θ=θ̂n
Exercice : Donner l’E.M.V. dans les modèles suivants : modèle exponentiel avec Pθ = E(λ)
avec θ = λ > 0 et le modèle de Bernoulli avec θ = p ∈ [0, 1] et Pθ = B(p).
Rappels : Soit A = (aj,k )1≤j,k≤p une matrice réelle carrée d’ordre p. On dit que la matrice
A est dite définie négative si :
p
X
pour tout vecteur y = (y1 , . . . , yp ) ∈ Rp non nul, yAy t := aj,k yj yk < 0.
j,k=1
On peut montrer que si A est une matrice réelle carrée d’ordre p et symétrique. Alors A
est diagonalisable et on a : A est définie négative ssi toutes les valeurs propres de A sont
strictement négatives.
∂
(i) ln L(θ; X1 , . . . , Xn ) =0 (les équations de vraisemblance),
∂θ θ=θ̂n
!
∂2
(ii) la matrice hessienne de ln L c’est-à-dire la matrice ln L(θ; X1 , . . . , Xn ) ,
∂θj ∂θk 1≤j,k≤p
calculée en θ̂n , doit être définie négative.
Exercice. Montrer que l’E.M.V du paramètre θ = (µ, σ 2 ) pour le modèle gaussien Pθ =
N (µ, σ 2 ) coïncide avec celui des moments i.e. que : θ̂M V = X n , Vn2 .
Remarques : 1) Les hypothèses de régularité posées jusqu’à présent sont vérifiées pour la
majorité des modèles classiques (par exemple : de Poisson, de Bernoulli, géométrique, nor-
male, exponentielle . . .). Cependant le modèle Pθ = U(0, θ) ne rentre pas dans ce cadre.
2) On verra plus loin que l’EMV est très utilisé car dans de nombreux cas, il a de bonnes
propriétés asymptotiques (i.e. lorsque la taille n de l’échantillon tend vers +∞). C’est pour-
quoi, il est souvent dans les logiciels.
Remarque. Il est clair (quitte à reparamétriser la famille) que si g : Θ → Rp est une fonction
borélienne et bijective alors (si θ̂M V existe) : g(θ̂M V ) est l’EMV de g(θ).
Commentaires. Il faut noter qu’il existe d’autres méthodes classiques d’estimation : la mé-
thode empirique (la plus naturelle), la méthode de substitution (qui généralise la méthode des
moments), la méthode des moindres carrés, la méthode bayésienne . . . L’utilisation des capa-
cités de calcul sur ordinateur permet aussi d’agréger différents estimateurs pour en trouver
des meilleurs.
Remarque : Toutes les notions de ces sections sont généralisables au cas multi-dimensionnel
où Θ ⊂ Rp avec p ≥ 2, mais la complexité des résultats augmente notablement. Par exemple, la
notion de variance est remplacée par celle de matrice de covariance. Nous donnerons quelques
détails en fin de Chapitre. Dans la section précédente, nous avons présenté deux méthodes
(celles des moments et du maximum de vraisemblance) permettant de construire un ou deux
estimateur(s) de θ pour tous les modèles usuels. Il existe aussi d’autres méthodes.
Il est donc utile de définir des critères naturels permettant :
22 CHAPITRE 2. ESTIMATION PARAMÉTRIQUE
Exercice : 1) Montrer que si les Xi admettent une espérance µ inconnue (qui est fonction
de θ i.e. µ = µ(θ)) : la moyenne empirique X n est un estimateur sans biais de µ.
2) Si les Xi admettent un moment d’ordre 2 et si leur variance σ 2 = σ 2 (θ) est inconnue,
alors : la variance empirique Vn2 est un estimateur biaisé mais asymptotiquement sans biais
de la variance σ 2 .
Remarque. Nous verrons plus loin dans le cours que la variance d’un estimateur sans biais
de θ ne peut pas descendre en dessous d’une certaine borne, dite Borne de Cramer-Rao.
(1) (2)
Définition 13 (Comparaison d’estimateurs) Si Tn et Tn sont deux estimateurs du pa-
(1) (2) (1) (2)
ramètre θ, on dit que Tn domine Tn (ou que Tn est préférable à Tn ) si :
(1) (2)
(i) pour tout θ ∈ Θ, Rθ (Tn ) ≤ Rθ (Tn ),
(1)
(ii) l’inégalité étant stricte pour au moins une valeur de θ : ∃θ0 ∈ Θ, Rθ0 (Tn ) <
(2)
Rθ0 (Tn ).
Remarque : Un estimateur biaisé peut être intéressant si son erreur quadratique moyenne
est inférieure à la variance d’un estimateur sans biais.
Remarque : Si l’on s’intéresse à l’estimation plus générale d’une fonction g(θ) de θ, toutes les
définitions précédentes s’étendent directement en remplaçant θ par g(θ) (par contre évidem-
ment dans la notation de l’espérance et de la variance, on garde θ en indice i.e. les notations
Eθ et Vθ puisque les lois des estimateurs de g(θ) dépendent de la loi de (X1 , . . . , Xn ) donc
de Pθ !).
ATTENTION : Ce n’est pas parce que Tn est un bon estimateur de θ que g(Tn ) est un bon
estimateur de g(θ). Par exemple, on a souvent : Eθ (Tn ) = θ tandis que Eθ (g(Tn )) 6= g(θ).
données augmente, plus on a d’information sur le phénomène aléatoire observé, donc meilleure
sera l’estimation. En théorie, avec une observation infinie, on devrait pouvoir estimer θ sans
aucune erreur. On peut traduire cette affirmation par le fait que le risque de l’estimateur
Tn doit tendre vers 0 quand la taille n de l’échantillon tend vers l’infini. Cela revient à dire
que l’estimateur Tn doit converger, en un certain sens, vers θ. Il s’agit en fait d’étudier la
convergence de la suite de variables aléatoires (Tn )n vers la constante θ. On sait qu’il existe
plusieurs types de convergence de suites de variables aléatoires. On peut étudier la convergence
presque sûre, la convergence en probabilité, et surtout - compte tenu de la définition du risque
quadratique - la convergence en moyenne quadratique (ou convergence dans L2 ).
Remarque. Comme les convergences presque sûre et dans L2 impliquent toutes les deux
la convergence en probabilité, alors,
si un estimateur converge fortement OU en moyenne quadratique, alors il converge faiblement.
Nous donnons dans la suite deux critères pratiques qui permettent d’établir la conver-
gence de certaines suites d’estimateurs.
On rappelle aussi deux autres outils qui permettront d’étudier la convergence d’estima-
teurs :
Propriété de continuité :
Si (Yn )n∈N converge en probabilité (resp. presque sûrement) vers une v.a. Y et si g est une
fonction continue, alors la suite (g(Yn )) converge aussi en probabilité (resp. presque sûrement)
vers g(Y ).
Le résultat suivant généralise le précédent à un couple de variables aléatoires (Xn , Yn ) en
fonction de la convergence des lois marginales, pourvu que l’une d’entre elles soit converge
vers une variable déterministe.
Lemme de Slutzky
Soit (Xn )n∈N et (Yn )n∈N deux suites de vecteurs respectivement à valeurs dans Rm et Rp .
L L
Si Xn −→ X et Yn −→ y avec y déterministe, alors la loi joint de (Xn , Yn ) converge :
L
(Xn , Yn ) −→ (X, y).
aléatoire
||X||22 = X12 + . . . Xd2
ne dépend que de d et s’appelle la loi du chi-deux à d degrés de liberté. (Si X n’est pas centré
et E[X] = µ la loi dépend aussi de µ via sa norme au carré ||µ||2 et s’appelle la loi du chi-deux
décentrée en ||µ||2 à d degrésde liberté.
d 1
Si µ = 0, c’est la loi Γ , appelée chi-deux à d degrés de liberté et notée χ2 (d). La
2 2
densité de la loi du chi-deux est donnée par
Z +∞
1
x→ d xd/2−1 e−x/2 1R+ (x) avec Γ(a) = ta−1 e−t dt
2 Γ(d/2) 0
Cette définition de la loi du chi-deux signifie que lorsque qu’un vecteur X suit une loi
normale N (0, Σ) et si la matrice σ est de rang plein d alors le réel X t Σ−1 X ' χ2 (d). De
même la normalité asymptotique d’un estimateur va entraîner une loi du χ2 asymptotique
pour la norme au carré d’une version centrée réduite de cet estimateur. Ce phénomène est à
l’origine de nombreuses procédures de test, souvent appelée test de Wald.
Le moment d’ordre r de la loi de Student n’existe que si d > m. Dès qu’elle existe, son
d
espérance vaut 0, de même sa variance vaut d−2 .
Le théorème suivant est très utilisé dans les modèles gaussiens car il permet de montrer
que dans le modèle gaussien, X̄n et Vn2 sont indépendants.
Théoreme 1 Soit un vecteur gaussien X ' N (0, Idk ) et une décomposition de Rk en r sous-
espaces orthogonaux de dimensions respectives d1 , . . . dr : E1 ⊕ . . . ⊕ Er . Alors les projections
orthogonales ΠE1 , . . . , ΠEr de X forment des vecteurs gaussiens indépendants et pour tout
1 ≤ j ≤ r, ||ΠEj (X)||2 suit une loi χ2 (dj ).
Le théorème se généralise à des vecteurs gaussiens non centrés. Il est très utilisé dans les
modèles gaussiens car il permet de montrer que dans ce cas, X̄n et Vn2 sont indépendants
comme le dit le théorème suivant.
2.6. STATISTIQUE EXHAUSTIVE 27
Théoreme 2 Soit (Xn )n≥1 une suite de v.a.r. i.i.d. de même loi normale N (µ, σ 2 ) avec
µ ∈ R et σ > 0. Alors, pour tout entier n ≥ 1 :
1. les statistiques X n et Sn2 sont indépendantes,
σ2 (n − 1)Sn2
2. leurs lois sont respectivement : X n ∼ N (µ, ) et ∼ χ2 (n − 1),
n σ2
√ Xn − µ
3. et on a : n ∼ T (n − 1).
Sn
Définition. On dit que Tn est une statistique exhaustive pour θ ∈ Θ si la loi condition-
nelle de (X1 , . . . , Xn ) sachant Tn ne dépend pas de θ i.e. si la loi conditionnelle de l’échantillon
(X1 , . . . , Xn ) sachant Tn = tn est indépendante du paramètre θ.
Le théorème suivant montre que l’on n’a pas besoin de calculer explicitement (ce qui peut
être assez lourd) la loi conditionnelle de (X1 , . . . , Xn ) sachant Tn pour extraire des statistiques
exhaustives.
Remarque. Si Tn est une statistique exhaustive pour θ alors l’EMV de θ peut s’écrire
comme une fonction de Tn .
Proposition. 1) si Tn est une statistique exhaustive fonction d’une autre statistique Tn0
c’est-à-dire de la forme Tn0 = u(Tn ), alors Tn0 est encore une statistique exhaustive.
2) si Tn est exhaustive et si u est une fonction bijective, alors u(Tn ) est encore une statistique
exhaustive.
Remarque. Le 2) de la proposition nous dit qu’une statistique exhaustive n’est pas unique
et sera définie à une bijection près.
Commentaires et compléments.
- Le point 1) de la Proposition montre que la notion d’exhaustivité n’implique pas une réduc-
tion au minimum de l’information utile dans l’échantillon pour estimer θ mais une réduction
suffisante. Ainsi l’échantillon (X1 , . . . , Xn ) est évidemment une statistique exhaustive. Or,
s’il s’agit d’estimer un paramètre θ de dimension p, on peut s’attendre (si la taille n de
l’échantillon est ≥ p) à ce qu’une statistique exhaustive de dimension p procure un résumé
minimum de l’information. On parle alors de statistique exhaustive minimale (par exemple
pour Pθ = N (µ, σ 2 ) avec θ = (µ, σ 2 ) : (X n , Vn2 ) est certainement une statistique exhaustive
minimale).
- Une statistique Tn∗ est dite exhaustive minimale si elle est exhaustive et si pour toute statis-
tique exhaustive Tn , il existe une fonction u telle que Tn∗ = u(Tn ). Nous n’aborderons pas ici
la recherche d’une statistique exhaustive minimale (cf. les Refs pour plus de détails). On ad-
mettra cependant intuitivement que si Θ ⊂ Rp alors une statistique exhaustive à valeurs dans
Rp est en règle générale minimale. Une statistique qui contiendrait soit une partie seulement
de l’information relative à θ, soit une part superflue, ne saurait être considérée comme un
estimateur adéquat de θ. Nous énonçons donc le principe suivant : tout estimateur pertinent
est fonction d’une statistique exhaustive minimale.
Remarque. Certaines des notions et propriétés que nous allons donner admettent une ex-
tension dans le cas multi-dimensionnel où Θ ⊂ Rp avec p ≥ 2 : cf. Section 2.7.4 pour plus de
2.7. CHOIX D’UN ESTIMATEUR 29
compléments.
On est donc amené à faire un certain nombre d’hypothèses de régularité sur f pour
pouvoir établir certaines propriétés. Tout d’abord, on reprend celles assurant l’existence de
l’E.M.V :
(H1) le support des lois Pθ est indépendant de θ et est noté : ∆ = {x ∈ X ; f (x, θ) > 0}
(H2) Θ est un ouvert
(H3) la fonction de vraisemblance est 2-fois dérivable par rapport à θ ce qui équivaut à
∂ ∂2
supposer que : f (x, θ) et f (x, θ) sont définies ∀(x, θ) ∈ X × Θ.
∂θ ∂θ2
Dans ce qui suit, on suppose que (H1), (H2) et (H3) sont vérifiées.
∂
S : X × Θ −→ R ; (x, θ) 7−→ S(x, θ) = (ln f (x; θ)).
∂θ
∂
La v.a. associée S(X, θ) = (ln f (X; θ)) est appelée v.a. score du modèle.
∂θ
- De plus, si S(X; θ) est de carré intégrable alors sa variance existe. L’information de
Fisher du modèle est la fonction I définie par :
Remarque. Le score n’est défini que si (H1), (H2) et (H3) sont vraies.
Notez que l’on a, par définition des scores S et Sn et du lien entre la vraisemblance L et
la densité f , la relation suivante :
n
X
Sn (X1 , . . . , Xn ; θ) = S(Xi ; θ) (2.2)
i=1
qui est une somme de n v.a.r. i.i.d. et de même loi que S(X; θ). Donc on a :
En renforçant l’hypothèse de régularite du modèle, on peut montrer que les scores sont
des v.a. centrées.
(H4) Conditions d’intégration et de dérivation sous le signe intégral (resp.
somme) dans le cas continu (resp. discret) :
∂ ∂2
les fonctions x 7→ f (x, θ) et x 7→ 2 f (x, θ) sont intégrables et sont telles que :
∂θ ∂θ
- dans le cas continu, on peut dériver deux fois f (x; θ) selon θ sous le signe intégral
i.e. :
∂j ∂j
Z Z
f (x; θ) dx = f (x; θ) dx pour j = 1 et 2.
∂θj X X ∂θ
j
Remarque. La condition (H4) peut paraître restrictive mais elle est en fait réalisée dans
la plupart des modèles de lois usuelles.
L’hypothèse (H4) assure que les v.a. scores sont centrées. De plus, sous cette hypothèse
(H4), on peut facilement calculer l’information de Fisher : comme le montre la proposition
suivante.
Remarque : Dans la pratique, on utilise souvent la dernière formule de (2.5) car ces calculs
font souvent suite à l’étude de l’E.M.V qui a en général nécessité le calcul de la dérivée
première et seconde de la log-vraisemblance par rapport à θ.
est somme de n v.a.r de même loi que la v.a. score du modèle S(X; θ) (l’indépendance n’in-
tervient pas ici) donc par linéarité de l’espérance, il faut et il suffit de démontrer que S(X, θ)
est centrée. Par définition, on a :
∂ ∂
ln f (x; θ) = f (x; θ) f (x; θ)
∂θ ∂θ
donc :
∂ ∂
Z Z Z
Eθ [S(X, θ)] = S(x, θ) f (x; θ) dx = f (x; θ) f (x; θ) f (x; θ) dx = f (x; θ) dx.
X X ∂θ X ∂θ
Par (H4), on peut permuter différentielle et intégrale d’où :
∂ ∂
Z
Eθ [S(X, θ)] = f (x; θ) dx = (1) = 0
∂θ X ∂θ
32 CHAPITRE 2. ESTIMATION PARAMÉTRIQUE
et la dernière intégrale est égale à 1 pour tout θ puisque f est une densité de probabilité sur X .
Preuve de b) : Si les scores sont centrées, on relie les informations de Fisher aux espérances
des carrés de ces scores via le fait que pour toute v.a.r. Y fonction de X ou de l’échantillon
(X1 , . . . , Xn ) de carré intégrable et centrée, on a : Vθ (Y ) = Eθ (Y 2 ). Par exemple, on a donc :
I(θ) = Eθ (S(X; θ)2 ).
∂2
Donc il suffit (par la Propriété 1) de montrer que Eθ (S(X; θ)2 ) = −Eθ
2
ln f (X; θ) .
∂θ
- Pour cela, on part de cette espérance. Or on a :
2
∂2 ∂2 ∂
ln f (x; θ) = f (x; θ) f (x; θ) − f (x; θ) f (x; θ)
∂θ2 ∂θ2 ∂θ
∂2 ∂2
Z
f (x; θ) dx − Eθ (S(X; θ)2 ).
Eθ ln f (X; θ) =
∂θ2 X ∂θ2
Il s’agit donc de montrer que l’intégrale par rapport à X ci-dessus est nulle. Par (H4), on
∂2
peut permuter le signe intégrale (resp. somme dans le cas discret) et la dérivée seconde ∂θ 2
donc on a :
∂2 ∂2 ∂2
Z Z
2
f (x; θ) dx = 2
f (x; θ) dx = 2 (1) = 0.
X ∂θ ∂θ X ∂θ
Définition 19 Si les 5 hypothèses (H1) à (H5) sont vérifiées, on dit que le modèle est
régulier.
Même si ces hypothèses paraissent lourdes, beaucoup de modèles de lois usuelles sont réguliers.
Le résultat suivant donne une minoration de la variance pour les estimateurs sans biais
de θ :
1
∀θ ∈ Θ, Vθ (Tn ) = Eθ [(Tn − θ)2 ] ≥ = 1/In (θ). (2.6)
nI(θ)
Remarques. - Un estimateur efficace est donc préférable à tout autre estimateur sans biais.
Toutefois, il peut exister un estimateur biaisé qui lui soit préférable.
La borne FDCR peut ne pas être atteinte (on peut en fait caractériser les modèles et les pa-
ramètres pour lesquels il existe un estimateur qui atteint la borne FDCR : ce sont les modèles
appartenant à ce qu’on appelle la classe exponentielle des lois, ).
- L’efficacité fait le lien entre l’estimation et la théorie de l’information : plus l’information
de Fisher est grande et plus la borne de Cramer Rao est petite i.e. plus on a de chances de
trouver un estimateur de faible variance.
Si l’on s’intéresse à l’estimation d’une fonction g(θ) de θ, le théorème suivant donne des
propriétés analogues à celles du précédent.
Remarques. Les définitions pour (2.7) de borne de Cramer-Rao (ou FDRC), d’efficacité
et d’efficacité asymptotique de l’estimateur Tn pour g(θ) se généralisent sans difficulté.
34 CHAPITRE 2. ESTIMATION PARAMÉTRIQUE
Une fois le critère de risque quadratique choisi, on pourra parler d’estimateur dominant.
Comme pour l’E.M.V (cf. pages 6-7), on suppose que le modèle vérifie (H1),(H2) et (H3’).
- L’information de Fisher du modèle est ici une matrice carrée d’ordre p. C’est la matrice
I(θ) définie par I(θ) = (Ii,j (θ))1≤i,j≤p avec :
" #
∂ ∂
(I(θ))i,j = Eθ ln f (X; θ) ln f (X; θ) . (2.8)
∂θi ∂θj
Eθ (Tn1 ), . . . , Eθ (Tnp ) ∈ Rp .
Remarque : Une matrice réelle carrée d’ordre p est définie positive si son opposé -A est
une matrice définie négative
(f (x; θ) = a(θ)b(x) exp(c1 (θ)d1 (x) + c2 (θ)d2 (x) + . . . + ck (θ)dk (x))1A (x) ∀x ∈ R (2.12)
Remarques :
— Le nombre de ci est égal à la dimension de θ
— Le support de la loi doit être indépendant de θ, car cette forme ne permet pas l’ap-
parition d’une indicatrice dépendant de θ (1{x∈[0,θ]} par exemple). La loi uniforme sur
[0, θ] n’est pas dans la classe exponentielle.
— Montrer que les lois de Bernouilli (θ = p), de Poisson θ = λ, la loi normale (θ = (µ, σ 2 ))
sont des lois de la classe exponentielle
Exemple : Donner une statistique pour les lois de Bernouilli (θ = p), de Poisson (θ = λ),
la loi normale (θ = (µ, σ 2 )) , la loi de Pareto f (x; θ) = θaθ x−(θ+1) , la loi beta f (x; θ) =
Γ(α+β+2) −(α) (1 − x)β 1
Γ(α+1)Γ(β+1) x {x∈]0,1[} . (θ = (α, β))
Proposition 4 Soit X dont la loi discrète appartient à la classe exponentielle avec un pa-
ramètre de dimension 1, (f (x; θ); θ ∈ Θ ⊂ R), alors avec les notations de la définition 21,
la famille de distribution de la statistique exhaustive T (X1 , . . . , Xn ) = ni=1 d1 (Xi ) notée
P
Démonstration :
X
Pθ (T (X) = t) = Pθ (x)
(x)/T (x)=t
X n
Y
= a(θ)n [b(xi ) exp(c1 (θ)d1 (xi ))1A (xi )]
(x)/T (x)=t i=1
X n
Y
= a(θ)n b(xi ) exp(c1 (θ)t)1A∗ (t)
(x)/T (x)=t i=1
(on utilise la notation x = (x1 , . . . , xn ) pour des raisons de place et on note A∗ , l’image de
A × . . . × A par (x1 , . . . , xn ) → ni=1 d1 (xi )).
P
pour θ, alors elle est unique et elle est de variance minimale pour θ.
Corollaire 3 On déduit de la proposition précédente que dans une situation de sondage, une
proportion observée est sans biais de variance minimale pour la proportion correspondante p
de la population.
Définition 22 On dit qu’une suite de v.a.r. (Yn )n∈N définies sur le même espace probabilisé
L
(Ω, F, P) converge en loi vers une v.a.r. Y et on note Yn −→ Y si :
Propriété : si (Yn ) converge en probabilité vers une v.a.r. Y alors (Yn ) converge en loi vers Y .
Rappel 3 : Théorème Central Limite (TCL). Soit (Yn )n∈N une suite de v.a. réelles
indépendantes, de même loi (i.i.d.) et de carré intégrable avec µ = E(Y1 ) et σ 2 = Var(Y1 ).
Alors la moyenne empirique
n
1X √ Yn−µ L
Yn = Yi vérifie n −→ N (0, 1) si n → +∞.
n i=1 σ
Application : dans la pratique, si Y1 est une v.a.r quantitative continue alors, dès que n ≥ 30,
on fera l’approximation de la loi de Y n par la loi normale N (µ, σ 2 /n).
Théoreme 7 : Soit X une v.a. de loi inconnue QX issue d’un modèle paramétrique P =
{Pθ , θ ∈ Θ} avec Θ ⊂ R. On suppose ici que les conditions de régularité (H1) à (H5) sont
vérifiées.
Soit (X1 , . . . , Xn ) un n-échantillon i.i.d. de même loi que X. Alors :
√ MV
L 1 q
L
n θ̂n − θ −→ N (0, ) soit encore : In (θ) θ̂nM V − θ −→ N (0, 1).
I(θ)
(2.15)
38 CHAPITRE 2. ESTIMATION PARAMÉTRIQUE
Nous admettrons ce résultat très important qui explique que l’EMV est très utilisé en
pratique puisqu’il implique les propriétés suivantes :
1. θ̂nM V est un estimateur asymptotiquement sans biais de θ.
2. θ̂nM V est asymptotiquement efficace (i.e. Vθ (θ̂nM V ) se rapproche de la borne de Cramer-
Rao : 1/In (θ)).
3. θ̂nM V converge vers θ en moyenne quadratique.
4. θ̂nM V devient gaussien quand n grandit. Application : pour l’estimation par intervalle
de confiance.
5. Ainsi, par i) et ii) : si on a beaucoup de données, l’E.M.V est en général le meilleur
estimateur possible.
V = X et √n X − λ −→ L
Exemple 14 : Pour le modèle de Poisson Pθ = P(λ), on a λ̂M n n n
N (0, λ). (Ce résultat est en fait une application directe du TCL puisque si X ∼ P(λ) on a :
E(X) = V(X) = λ).
Remarque. Pour le modèle non régulier Pθ = U(0, θ), on a vu que θ̂nM V = X(n) =
max1≤i≤n Xi est un estimateur convergent de θ. Parcontre, la conclusion
du Théorème pré-
cédent n’est pas vérifiée ici : on peut démontrer que n (θ − X(n) ) converge en loi vers la loi
exponentielle E(1/θ).
où Np (0, I −1 (θ)) est la loi d’un vecteur gaussien de Rp qui est centré et de matrice de cova-
riance égale à I −1 (θ) (la matrice inverse de l’information de Fisher).
Application : ce résultat montre ici aussi que l’E.M.V. a de bonnes propriétés. De plus, il est
souvent utilisé pour calculer des régions de confiance du vecteur inconnu θ ∈ Rp (ellipsoïdes
de confiance).
2.9. ESTIMATION PAR INTERVALLE DE CONFIANCE 39
L
an (Un − U ) −→ V
(iii) ` est une fonction différentiable en U , de différentielle notée D`(U ) ∈ Mp,m (R).
Alors, on a la convergence en loi
L
an (`(Un ) − `(U )) −→ D`(U ) × V
Définition 24 Soit α ∈ [0, 1], l’ensemble aléatoire C(Tn ) est une région de confiance au
niveau (1 − α) pour θ si pour tout θ ∈ Θ,
Pθ (g(θ) ∈ C(Tn )) ≥ 1 − α
Définition 25 Soit α ∈ [0, 1], l’ensemble aléatoire C(Tn ) est une région de confiance au
niveau (1 − α) au niveau asymptotique pour g(θ) si pour tout θ ∈ Θ,
Les régions de confiance sont généralement des intervalles mais même dans ce cas, elles ne
sont en général pas unique. C’est pourquoi, en l’absence de contrainte liée à la question,
on donnera un intervalle centré bilatère centré (ie C(Tn ) = [A(Tn ); B(Tn )] avec Pθ (g(θ) ≤
A(Tn )) et Pθ (g(θ) ≥ B(Tn )) ≤ α/2) ou unilatère à droite ou à gauche (ie de la forme
C(Tn ) = [−∞; B(Tn )] ou [A(Tn ); +∞]). Dans tous les cas, on parle d’intervalles de confiance.
Il est à noter que g(θ) n’est pas une variable aléatoire, c’est bien l’intervalle de confiance qui
est aléatoire puisqu’il dépend du vecteur aléatoire échantillon (X1 , . . . Xn ). Il faut donc être
très prudent lorsqu’une fois les valeurs de l’échantillon observée (x1 , . . . xn ), l’intervalle n’est
plus aléatoire [A(tn ); B(tn )] n’est plus aléatoire, on ne peut donc plus parler de probabilité.
Le statisticien quand il propose cet intervalle comme intervalle de confiance pour g(θ) prend
donc un risque de se tromper qui est de α.
La construction des intervalles de confiance comme les tests statistiques que nous verrons
par la suite, utilise la loi ou la loi asymptotique de l’estimateur Tn . Si on connaît cette loi,
on peut prévoir un intervalle de prévision pour Tn avec une probabilité. Pour cela, on définit
les quantiles d’une loi.
Définition 26 Soit α ∈ [0, 1], on appelle quantile d’ordre α de la loi de variable aléatoire X
à support dans le réel qα défini par
Les quantiles sont donnés généralement dans des tables, par des fonctions de Excel (atten-
tion la syntaxe est différente suivant les lois, des vérifications sont nécessaires !) ou par les
calculatrices et les logiciels de statistiques.
Exercice : Montrer que lorsque (X1 , . . . , Xn ) est un échantillon i.i.d. d’un loi N (µ, 1),
alors si zα est le quantile d’ordre α de la loi N (0, 1),
z1−α/2 z1−α/2
[X̄n − √ ; X̄n + √ ]
n n
Exercice : Montrer que lorsque (X1 , . . . , Xn ) est un échantillon i.i.d. d’une Bernouilli de
paramètre p ∈]0, 1[, l’intervalle aléatoire
1 1
[X̄n − √ ; X̄n + √ ]
2 nα 2 nα
est une procédure d’intervalle de confiance bilatéral de niveau (1 − α) pour µ. Que donne
l’intervalle de confiance asymptotique issu du théorème de Moivre-Laplace ?
2.9. ESTIMATION PAR INTERVALLE DE CONFIANCE 41
où tα (k) (resp qα (k)) est le quantile d’ordre α de la loi de Student à k degrés de liberté (resp.
1 Pn 2 2
de la loi du chi-deux) et Ŝn = n−1 i=1 (Xi X̄n ) est l’estimateur sans biais de la variance σ .
42 CHAPITRE 2. ESTIMATION PARAMÉTRIQUE
Chapitre 3
D’un point de vue mathématique, on considère une variable aléatoire X définie sur un
espace probabilisé (Ω, F, P) (en général ici réelle ou à valeurs dans Rd avec d ≥ 2 entier).
La loi de X est une probabilité inconnue notée QX . On suppose que cette loi QX appar-
tient un modèle statistique P = {Pθ , θ ∈ Θ} (non nécessairement paramétrique). On note
(X1 , . . . , Xn ) un n-échantillon associé.
L’objectif général des tests d’hypothèses est de préciser P : ces tests statistiques consistent à
formuler des hypothèses sur P puis à apporter un jugement sur ces hypothèses. Ce jugement
est basé sur les observations (x1 , . . . , xn ) de l’échantillon (X1 , . . . , Xn ) du modèle ainsi que
sur l’acceptation d’un certain risque d’erreur dans la prise de décision.
43
44 CHAPITRE 3. TESTS D’HYPOTHÈSES STATISTIQUES
Remarque. Une hypothèse est une propriété portant sur le paramètre inconnu θ (ou plus
généralement sur une fonction g(θ) de θ). Elle se formule donc sous la forme : “θ appartient
à un certain sous-ensemble Θ0 de Θ”.
Exemple 1 :
1) Si P est la famille des lois continues sur R, on peut faire par exemple l’hypothèse H0 : la
loi considérée QX est une loi normale.
2) Si P est la famille des probabilités sur R admettent une espérance, on peut faire par
exemple l’hypothèse H0 : la moyenne est nulle. Autrement dit, si on note µ l’espérance in-
connue de QX , on veut donc tester : "H0 : µ = 0".
3) Si la variable aléatoire X considérée est un couple de R2 noté (Y, Z), on peut faire par
exemple l’hypothèse H0 : les v.a.r. Y et Z sont indépendantes.
Remarques. Nous verrons plus tard (section 3.1.3) que les hypothèses H0 et H1 ne jouent
pas des rôles symétriques et qu’il faudra les choisir soigneusement.
Définition 30 On appelle test statistique (ou test d’hypothèses), toute fonction aléa-
toire Φ(Tn ) à valeur dans {0, 1}, où Tn est une statistique issue d’un échantillon de va i.i.d.
de loi P et φ est mesurable et peut dépendre de H0 et H1 . Lorsque Φ(Tn ) = 0 on conserve H0
et lorsque Φ(Tn ) = 1, on rejette H0 pour H1 .
Ainsi avec la description de la règle donnée ci-dessous, Φ(Tn ) = 1{Tn ∈W}
ce que l’on note (même si ce n’est pas une probabilité conditionnelle usuelle) :
En fait cette définition n’est pas tout à fait précise car quand H0 ou H1 n’est pas réduit à
un singleton, les risques α et β dépendent de θ. Dans l’utilisation courante des tests, H0 est
très souvent réduite à un singleton aussi α est bien définie et surtout bien compréhensible
mais dans la pratique et l’étude des propriétés mathématiques des tests, on a besoin d’une
définition plus rigoureuse, que nous donnons ici :
Définition 32 Les risques de première espèce et de seconde espèce du test Φ(Tn ) sont définis
respectivement comme les fonctions α sur Θ0 et β sur Θ1 par :
α Θ0 → [0, 1] et β Θ1 → [0, 1]
θ → Pθ (Φ(Tn ) = 1) θ → Pθ (Φ(Tn ) = 0)
On définit la puissance du test comme la fonction 1−β et la taille α∗ du test par maxθ∈T heta0 α(θ).
46 CHAPITRE 3. TESTS D’HYPOTHÈSES STATISTIQUES
α et β en même temps. Malheureusement, ils varient en sens inverse : c’est-à-dire que toute
procédure diminuant α va augmenter β et réciproquement. Dans la pratique, on va donc
considérer que l’une des deux erreurs est plus grave que l’autre, et tâcher d’éviter que cette
erreur se produise. Il est alors possible que l’autre erreur survienne. On va choisir pour H0 ,
l’hypothèse que l’on ne souhaite surtout pas voir rejetée à tort : donc H0 et H1 sont choisies
de sorte que l’erreur que l’on cherche à éviter soit l’erreur de première espèce α.
• Mathématiquement cela revient à se fixer la valeur du seuil du test α petit : les valeurs
usuelles de α sont 10%, 5%, 1%. La région de rejet du test dépend donc de α et sera notée
Wα . Noter qu’on ne contrôle pas l’erreur de 2ème espèce β puisqu’elle est déterminée à partir
de α et de la région de rejet Wα .
• Par conséquent, dans un problème de test, il faut choisir les hypothèses H0 et H1 de façon à
ce que ce qui soit vraiment intéressant, c’est de rejeter H0 . L’hypothèse H0 est choisie comme
suit :
- c’est une hypothèse communément établie (en vigueur jusque-là),
- c’est une hypothèse de prudence (critère de coût, de sécurité, . . . ).
Exemple 3 : Dans un tribunal, un jury doit se prononcer sur la culpabilité d’un accusé.
a) En France, le principe est que tout accusé est présumé innocent.
Enoncer les hypothèses du test puis les risques de 1ère espèce et de 2ème espèce correspon-
dants.
b) Dans une dictature, un tyran décide qu’il ne veut prendre aucun risque et qu’il préfère
garder en prison une personne dès qu’il a le moindre soupçon sur elle. Commenter.
Commentaires sur la conclusion d’un test : puisqu’on contrôle le risque α mais pas le
risque β, le rejet de H0 est une vraie décison tandis que son acceptation est plutôt un défaut
de rejet. Par exemple, si on n’a pas de preuve qu’un accusé est coupable, cela ne veut pas
forcément dire qu’il est innocent (et réciproquement). Ainsi, il vaut mieux dire "ne pas rejeter
H0 " plutôt que "accepter H0 ". En effet, si on rejette H0 : c’est que les observations sont telles
qu’il est très improbable (α petit) que H0 soit vraie. Si on ne rejette pas H0 : c’est qu’on ne
dispose pas de critères suffisants pour pouvoir dire que H0 est fausse, mais cela ne veut pas
dire que H0 est vraie. Donc : un test permet de dire qu’une hypothèse est très probablement
fausse ou seulement peut-être vraie.
Notez que la loi de Tn sous H0 (i.e. lorsque l’hypothèse H0 est vraie) doit être connue
puisque par définition, on a : α = P(Tn ∈ Wα |H0 ).
4) Regarder si les observations se trouvent ou pas dans Wα .
5) Conclure au rejet ou au non-rejet de H0 .
Exemple 2 :
1) Quand les hypothèses sont H0 : la moyenne µ est nulle et H1 : µ est non nulle, on va
faire un test paramétrique.
2) Si les hypothèses sont H0 : la loi considérée est la loi normale et H1 : la loi considérée n’est
pas la loi normale, on va faire un test non paramétrique.
3) Si les hypothèses sont H0 : Y et Z sont indépendantes et H1 : Y et Z ne sont pas indé-
pendantes, on va aussi faire un test non paramétrique.
Dans ce chapitre nous allons nous restreindre aux tests paramétriques. Dans le chapitre
3 suivant, nous étudierons quelques aspects de la statistique non paramétrique et nous pré-
senterons certains tests non paramétriques.
- Hypothèse composite (ou multiple), une hypothèse qui contient plusieurs valeurs de θ
i.e. du type ”θ ∈ A” où A ⊂ Θ est une partie non vide et non réduite à un singleton.
Par exemple : “µ 6= 0” pour H1 dans l’Exemple 1) précédent. Autres exemples : θ 6= θ0 ,
θ > θ0 , θ ∈ [θ1 , θ2 ].
Remarque. Pour avoir une bonne procédure de test, une autre exigence naturelle est la
suivante : il faut que l’on soit pratiquement sûr de détecter une hypothèse nulle qui serait
fausse lorsque l’on observe des échantillons de grande taille. Plus précisément : comme β
dépend de n, la puissance π aussi et est notée πn = π. On dit qu’un test est convergent si la
puissance πn → 1 lorsque la taille n de l’échantillon tend vers +∞. Les tests considérés ici le
seront tous en général.
3.1.6 La p-valeur
La présentation des tests faîte ici est construite à partir du risque α, qui permet, si on connaît
la taille de ou des échantillons en jeux, de proposer un critère de décision sans regarder les données.
Cette façon de présenter les tests est traditionnelle en France. Elle l’est moins dans le monde anglo-
saxons et surtout dans les logiciels où aucune zone d’acceptation ou de rejet n’est donnée. En fonction
des données on peut calculer la p-valeur (ou p-value en anglais ou probabilité critique niveau de
signification observé). Cette notion est définie définie ci-dessous :
Définition 34 La p-valeur (p-value) est la plus petite des valeurs de risque de première espèce pour
lesquelles la décision est de rejeter H0 : c’est la probabilité notée p, que, sous H0 , la statistique de test
prenne une valeur au moins aussi extrême que celle qui a été observée.
La règle de décision est simple, si la p-valeur est inférieure au seuil α fixé, alors, on rejette l’hypothèse
nulle au risque p. Sinon on ne rejette pas l’hypothèse nulle. Lorsque l’on réalise un test avec un logiciel,
celui-ci donne la p-valeur et c’est l’utilisateur qui prend la décision. Dans les articles scientifiques, c’est
la p-valeur qui est donnée. Celle-ci permet vraiment d’affiner le risque en cas de rejet. Lorsque l’on
fait un test avec la méthode de la zone de rejet, si celui-ci conclut au rejet de H0 , on peut calculer la
p-valeur a posteriori pour affiner le risque.
Dans ce cadre les fonctions risques définis à la définition 32 sont d’une grande simplicité puisque
les ensembles Θ0 et Θ1 sont réduits à un point. On obtient donc une seule valeur pour chacun des
risques et on peut les calculer explicitement.
• dans le cas discret, cette égalité peut ne pas être atteinte car Tn est une v.a. discrète. Dans ce cas,
on dit que le test est de niveau α si W est la plus grande région telle que : Pθ0 (Tn ∈ W) < α.
D’un point de vue mathématique, dans la construction d’un test, l’objectif général est de minimiser
le risque α et de maximiser la puissance π. Si l’on a plusieurs tests pour un même niveau α, cette
notion de puissance permet de les comparer :
Remarque : Notez que dans les tests d’hypothèses paramétriques, les statistiques de test seront
souvent construites à partir d’estimateurs naturels (performants) du paramètre inconnu θ. En parti-
culier, on verra que souvent ces statistiques sont liées à l’E.M.V. de θ.
Dans le paragraphe suivant, on donne le résultat important dit Lemme de Neyman-Pearson qui
permet, d’une part de construire des tests d’hypothèses simples de façon systématique et, d’autre part,
de déterminer les meilleurs tests d’hypothèses simples (i.e. les plus puissants).
Définition 35 Soient θ0 et θ1 sont deux valeurs fixées dans Θ. Soit α ∈ ]0, 1[.
On appelle Test du rapport de vraisemblance simple au niveau α de l’hypothèse H0 : θ = θ0
contre H1 : θ = θ1 , le test statistique :
• dont la statistique de test est le rapport des 2 vraisemblances (avec la convention 0/0 = 0) :
Qn
L(θ0 ; X1 , . . . , Xn ) f (Xi , θ0 )
Λn := λ(X1 , . . . , Xn ) := = Qi=1
n
L(θ1 ; X1 , . . . , Xn ) i=1 f (Xi , θ1 )
50 CHAPITRE 3. TESTS D’HYPOTHÈSES STATISTIQUES
Remarque. On a toujours : 0 < kα < 1. En effet, α est toujours pris petit ce qui assure que kα < 1.
Commentaires. Le principe de ce test est de rejeter H0 pour des observations (x1 , . . . , xn ) condui-
sant à des valeurs de L(θ0 ; x1 , . . . , xn ) “petites” et des valeurs de L(θ1 ; x1 , . . . , xn ) “grandes”.
Ceci se traduit clairement dans le cas d’un modèle discret puisque L(θ; x1 , . . . , xn ) représente la pro-
babilité de la réalisation (x1 , . . . , xn ) si le paramètre vaut θ : L(θ; x1 , . . . , xn ) = Pθ [(X1 , . . . , Xn ) =
(x1 , . . . , xn )].
L(θ0 ; x1 , . . . , xn )
Le rejet de H0 s’exprime naturellement en demandant que le rapport des vraisemblances
L(θ1 ; x1 , . . . , xn )
soit “petit” donc ≤ kα (avec acceptation si ≥ kα ).
C’est la détermination de kα qui spécifie ce qu’il faut entendre par “petit”.
Remarque. λ(X1 , . . . , Xn ) est bien une statistique (i.e. indépendante de θ) puisque les valeurs θ0
et θ1 sont données.
Théorème (Lemme de Neyman-Pearson). Pour tout α ∈]0, 1[, le test du rapport de vrai-
semblance simple est le test le plus puissant au niveau α.
Exemple 6 : Vérifier que le test construit dans l’Exemple 4 de la section précédente est le test du
RV simple pour le paramètre θ dans le modèle gaussien Pθ = N (θ, 1) en testant :
Définition 36 On suppose que Θ ⊂ R. On distingue deux types de tests liés à la forme des hypothèses
composites :
• Les tests unilatéraux : les hypothèses sont de la forme suivante :
θ ≤ θ0 θ ≥ θ0
H0 : contre H1 : θ > θ0 ou H0 : contre H1 : θ < θ0 .
θ = θ0 θ = θ0
- On dit unilatéral car H1 est située d’un côté ou de l’autre de H0 , donc on va rejeter à une extrémité.
- Exemple d’application : lorsqu’on cherche à juger si le paramètre θ dépasse un certain seuil (qui est
une norme de qualité, un seuil de pollution, un niveau antérieur, . . .).
• Tests bilatéraux : Seule H1 est composite avec : H0 : θ = θ0 contre H1 : θ 6= θ0 .
3.2. TESTS D’HYPOTHÈSES POUR UN ÉCHANTILLON 51
Le choix du type de test est lié à ce qu’on veut démontrer. Par exemple si on veut démontrer qu’une
substance diminue la fréquence cardiaque moyenne, l’hypothèse nulle sera que la substance ne modifie
pas la moyenne (hypothèse simple µ = 0 si µ est la différence des moyennes de la fréquence car-
diaque avant et après l’administration de la substance). L’hypothèse alternative sera composite mais
unilatérale (H1 : µ > 0).
Remarques : 1) En fait, il existe d’autres types de tests bilatéraux dans le cas où l’on veut tester
si le paramètre θ est situé dans un intervalle de tolérance. Dans ce cas, les 2 hypothèses sont multiples
et de la forme : H0 : θ ∈ [θ1 , θ2 ] contre H1 : θ < θ1 ou θ > θ2 .
On peut montrer (Admis) que les tests unilatéraux que nous allons considérer et où H0 : θ ≤ θ0
ou bien H0 : θ ≥ θ0 et H1 est son complémentaire, sont équivalents à tester resp. H0 : θ = θ0 contre
H1 : θ > θ0 ou bien : H0 : θ = θ0 contre H1 : θ < θ0 . Dans ce cas le calcul du risque α est simple
puisque H0 est simple. En revanche la puissance est bien une fonction de θ avec θ ∈ Θ1 .
Exemple 7 : Une usine dispose de plusieurs machines qui fabriquent le même produit mais de
différentes qualités. On suppose que la qualité d’un produit est mesurée par une variable aléatoire
normale dont la variance vaut 1 : sa moyenne µ = θ est inconnue.
Les critères de qualité du produit dépendent de la valeur de µ : µ < 5 (resp. µ > 5) correspond à
un produit de mauvaise (resp. bonne) qualité. De plus : µ = 5 correspond à un produit de qualité
moyenne. Le prix d’un produit dépend évidemment de sa qualité.
Le fournisseur est honnête. Un client achète les produits par lot de 10 produits de qualités différentes.
Le client veut vérifier si le prix des lots correspondent aux qualités annonçées.
Parmi les lots payés au prix (unitaire) moyen, le client prélève un lot qui donne x10 = 4, 53. Avec un
test de niveau α = 5%, le client peut-il affirmer que :
a) les lots payés au prix (unitaire) moyen ne sont pas de qualité moyenne ?
b) les lots payés au prix (unitaire) moyen sont de mauvaise qualité ?
• Comme pour les tests d’hypothèses simples, on peut définir un critère d’optimalité des tests com-
posites (i.e. "meilleur test pour un même niveau α") naturellement basé sur cette fonction puissance.
Pour les tests simples, on parlait de test le plus puissant (test PP). Ici, on parle de test uniformé-
ment le plus puissant (test UPP).
• En général, il n’existe pas de test UPP. Cependant le résultat de Neyman-Pearson s’étend assez
naturellement à des situations d’hypothèses multiples unilatérales.
52 CHAPITRE 3. TESTS D’HYPOTHÈSES STATISTIQUES
Ce théorème justifie l’utilisation du test du rapport de vraisemblance dans les logiciels. Attention son
application est à vérifier par l’utilisateur car cette loi est une loi asymptotique.
X n − µ0
sous H0 , T = √ suit la loi T (n − 1). (3.2)
Sn / n
2. Cas où Xi est à support continu et admet une espérance µ et une variance σ 2 .
D’après le Théorème Central Limite, et le lemme de Slutsky on a que les résultats (3.1) et
(3.2) sont vrais asymptotiquement (i.e. lorsque la taille n de l’échantillon tend vers +∞) : on
dit que ces tests sont robustes à la non-normalité. En pratique on fera l’approximation
dès que la taille de l’échantillon n ≥ 30.
3.3. TESTS PARAMÉTRIQUES USUELS 53
1
Pn 2
•Remarque : Si la moyenne µ est connue, Pon utilise comme statistique de test : Tn := n i=1 (Xi −µ)
n
qui est l’E.M.V. de σ 2 et le fait que : 2 2 2
i=1 (Xi − µ) /σ ∼ χ (n).
n1 n1
er 1 X 2 1 X 2
j. Par exemple pour le 1 échantillon : X1 = X1,i et S1 = X1,i − X1 .
n1 i=1 n1 − 1 i=1
On dispose d’un test approximatif valable pour toutes v.a. X et Y admettant une variance à
condition que les tailles n1 et n2 des 2 échantillons soient suffisamment grandes :
- Choix de l’hypothèse nulle : H0 : µ1 = µ2
- Conditions de validité du test : n1 ≥ 30, n2 ≥ 30
X1 − X2
- Statistique de test : sous H0 , la v.a. s suit approximativement une loi N (0, 1).
S12 S22
+
n1 n2
Remarques. Dans le cas où X et Y sont des gaussiennes, on dispose de résultats plus précis :
1) d’une part, on dispose d’une procédure de test "exact" (i.e. valable pour toutes les tailles n1 et n2 )
de l’hypothèse H0 : µ1 = µ2 mais à condition que les échantillons aient la même variance inconnue
X1 − X2
σ 2 = σ12 = σ22 . on utilise la statistique de test r qui suit une loi
2 2 1 1
S1 (n1 − 1) + S2 (n2 − 1)( + )
n1 n2
de Student à (n1 + n2 − 2) degrés de liberté
2) Dans la pratique, on applique un test de comparaison des variances - qui s’appliquerait avant celui
des moyennes ! (cf. le Ch.9 du Livre de M. Lejeune pour plus de détails). Dans ce cas, on fait précéder
le test d’un test d’égalité des variances. Puis suivant le résultat :
— Si les variances ne sont pas significativement différentes, on applique le test exact précédent
X1 − X2
— Si les variances sont significativement différentes on utilise la statistique de test s
S12 S2
+ 2
n1 n2
mais le nombre de degrés de liberté est plus difficile à déterminer et le test est approximatif
Ces deux tests implémentés dans les logiciels courants (R et SAS) moresque l’on demande une procé-
dure de comparaison de moyenne de deux échantillons indépendants.
inconnue).
Remarques. 1) Pour appliquer le test de la Section 3.1.1. dans le cas gaussien, la loi des Di doit
être normale (notez cependant que la normalité des X1,i et celle des X2,i ne sont ni nécessaires, ni
suffisantes).
2) Lorsque n ≥ 30 et même si les Di ne sont pas normalement distribuées, on peut utiliser ce test qui
alors approximatif et robuste : cf. la Généralisation donnée en Section 3.3.1. On peut aussi utiliser des
tests non paramétriques.
n1 P̂1 + n2 P̂2
P̂ = .
n1 + n2
Remarque. Noter qu’il existe aussi des tests de comparaison de 2 proportions dans le cas d’échan-
tillons appariés (cf. Ch.9 du Livre de M. Lejeune).
56 CHAPITRE 3. TESTS D’HYPOTHÈSES STATISTIQUES
Chapitre 4
n!
P {N1 = n1 , . . . , NJ = nJ } = pn1 pn2 . . . pnJ J .
n1 ! . . . nJ ! 1 2
On veut tester si l’échantillon est issu de la même loi que X, c’est-à-dire l’hypothèse nulle
H0 (p1 . . . pJ ) = (p01 . . . p0J ). On remarque que sous cette hypothèse H0 , ENj = np0j et que si H0
N
est réalisée, alors les p̂j = nj estimateurs empiriques des proportions pj sont proches des p0j . Dans le
but de tester l’écart à la loi multinômiale citée plus haut pour un vecteur de réalisation, on utilise la
statistique
J
X (Nj − np0j )2
X2 = (4.1)
j=1
np0j
Théoreme 11 Si tous pj > 0 alors, lorsque n → ∞, la loi de la statistique (4.1) tend vers la loi du
chi deux à J − 1 degrés de liberté sous H0 . Sous H1 , elle converge vers l’infini.
La démonstration du Lemme de Pearson (faîte en cours) utilise le théorème de Cochran que nous
rappelons en annexe.
57
58 CHAPITRE 4. TESTS NON PARAMÉTRIQUES
l’infini. Dans la pratique, on utilisera cette approximation lorsque n ≥ 30 et tous les npj ≥ 5 sinon,
on regroupera des modalités.
Le test est particulièrement adapté à une loi à support fini mais pourra être utilisé pour une loi
discrète à support infini après regroupement des modalités ou une loi continue regroupée en classes
même s’il est préférable dans ce dernier cas d’utiliser le test de Kolmogorov qui est plus adapté et qui
ne dépend pas des classes.
On peut alors poser P (Y ∈]xi−1 P, nxi ]) = pi (θ) et pour un échantillon de Y , considérer le vecteur
N = (N1 , . . . , Nk )T avec Ni = i=1 1{Yi ∈]xi−1 ,xi ]} . Celui-ci suit une loi multinômiale associée aux
pi (θ). La statistique
k
X (Ni − np2i (θ))2
X 2 (θ) = (4.2)
i=1
npi (θ)
vérifie toujours les résultats du théorème de Pearson mais on ne peut pas la calculer puisque l’on
ne connaît pas les pi (θ). Il est naturel d’estimer θ mais la loi de la statistique X 2 (θ̂) lorsque θ est
remplacé par un estimateur est alors modifiée.
Considérons les différentes façons d’estimer θ est les statistiques X 2 associées.
1. L’estimateur du maximum de vraisemblance θ̂n pour θ, attention la loi limite de la
statistique modifiée X 2 (θ̂n ) est compliquée.
2. L’estimateur du minimum du chi-deux : c’est l’estimateur θ̃n , qui minimise la statistique
(4.2) par rapport à θ :
X 2 (θ̃) = inf X 2 (θ),
θ∈Θ
En règle générale, pour trouver l’estimateur θ̃n , il faut résoudre des équations compliquées.
3. L’estimateur du minimum du chi deux modifié θ̄n qui minimise en θ la statistique de
Pearson modifiée :
k
2
X (Ni − npi (θ))2
Xm (θ) = .
i=1
Ni
n! N N N
L∗ (θ) = (p1 (θ)) 1 (p2 (θ)) 2 . . . (pk (θ)) k .
N1 !N2 !...Nk !
Sous les conditions exprimées ci-dessous, on obtient une asymptotique pour X 2 de l’équation 4.2 quel
que soit l’estimateur ci-dessous de θ.
Conditions de Cramér :
4.1. LE LEMME DE PEARSON ET LES AUTRES CONVERGENCES VERS LA LOI DU CHI-DEUX59
pi (θ) > c, θ ∈ Θ;
∂ 2 pi (θ)
2) les fonctions ∂θj2
sont continues dans l’ensemble Θ ;
3) le rang de la matrice d’information de Fisher J(θ) = J(θ)kl ,
1 ∂pi (θ)
J(θ)kl = √
pi pi ∂θj
est égale à s où s est la dimension de θ.
Théoreme 12 Si les conditions de Cramer sont vérifiées sous H0 , alors les statistiques X 2 (θ̃n ),
2
Xm (θ̄n ), X 2 (θn∗ ) et Rn (θ̂n∗ ) sont asymptotiquement (n → ∞) equivalentes :
X 2 (θ̃n ) = Xm
2
(θ̄n ) + op (1) = X 2 (θn∗ ) + op (1) = X 2 (Rn (θn∗ )) + op (1).
La loi de chaque statistique tend vers la loi du chi-deux à k − s − 1 degrés de liberté sous H0 et vers
l’infini sous H1 (enfin, il y a qq cas pathologique si θ ∈ H1 ∩ H̄0 ).
B1 ··· Bj ··· Br
A1 N11 ··· N1j ··· N1r N1·
... ··· ··· ··· ··· ··· ···
Ai Ni1 ··· Nij ··· Nir Ni·
... ··· ··· ··· ··· ··· ···
As Ns1 ··· Nsj ··· Nsr Ns·
N·1 ··· N·j ··· N·r n
Pr Ps Ps Pr
Ici Ni· = j=1 Nij , N·j = i=1 Nij , n = i=1 Ni· = j=1 N·j .
Posons
pij = P (Ai ∩ Bj ) (i = 1, . . . , k; j = 1, . . . , r)
On a une table correspondante des probabilités pij :
B1 ··· Bj ··· Bl
A1 p11 ··· p1j ··· p1r p1·
... ··· ··· ··· ··· ··· ···
Ai pi1 ··· pij ··· pir pi·
... ··· ··· ··· ··· ··· ···
Ak ps1 ··· psj ··· psr pk·
p·1 ··· p·j ··· p·l 1
Pr Ps Ps Pr Ps Pr
Ici pi· = j=1 pij = P (Ai ), p·j = i=1 pij = P (Bj ), i=1 pi· = j=1 p·j = i=1 j=1 pij = 1.
60 CHAPITRE 4. TESTS NON PARAMÉTRIQUES
supposons que l’on veuille tester l’hypothèse nunlle suivante " les ensembles des événements {Ai , i =
1, . . . , s} et {Bj , j = 1, . . . , r} sont indépendants" qui correspond à :
H0 : pij = pi· p·j pour tous i,j contre H1 : pij 6= pi· p·j pour au moins un couple (i, j).
N = (N11 , . . . , N1r , . . . , Ns1 , . . . , Nsr ) ∼ M (n, p), p = (p11 , . . . , p1r , . . . , ps1 , . . . , psr ).
s X r
X (Nij − npi· p·j )2
X2 = (4.3)
i=1 j=1
npi· p·j
Ps
Seulement
Pr les pi· et les p·j ne sont pas connus et doivent être estimés. Comme i=1 pi· = 1 et
j=1 p·j = 1, il faut estimer (s + r2) paramètres.
On peut montrer que l’estimateur du maximum de vraisemblance de la loi multinômiale sous H0
dont la fonction est donnée par :
s Y r s Y r s Y r
n! Y N n! Y N
Y N
L(p) = ; pijij = pi· ij p·j ij
N11 ! · · · Nsr ! i=1 j=1 N11 ! · · · Nsr ! i=1 j=1 i=1 j=1
s r
n! Y Y N
= pN i·
p ·j ,
N11 ! · · · Nsr ! i=1 i· j=1 ·j
Ni· N·j
p̂ij = p̂i· · p̂·j = .
n n
D’après le théorème 12, sous l’hypothèse H0 la statistique
s X r
X (Nij − np̂i· p̂·j )2
X2 =
i=1 j=1
np̂i· p̂·j
sr − 1 − (s + r − 2) = (s − 1)(r − 1)
degrés de liberté.
Dans la pratique, on utilisera cette statistique sous la condition où tous les effectifs théoriques
N N
(i.e. les i·n ·j ) sont supérieurs ou égaux à 5. Sinon, on regroupera les modalités.
Remarque Ce test s’exprime de plusieurs manières. En effet, on peut considérer un couple de
variables aléatoires (X, Y ) resp à s et r modalités et tester si la loi du couple est ajustée à l’hypothèse
où les deux variables sont indépendantes. Et on retombe sur le même problème et la même statistique !
4.1. LE LEMME DE PEARSON ET LES AUTRES CONVERGENCES VERS LA LOI DU CHI-DEUX61
Donc on suppose que ni = Ni· sont fixés. Par exemple, on partage n objets en l groupes indépendants
de taille n1 , . . . , nl , et pour le i-ième groupe on observe les nombres Ni1 , . . . , Nik des objets qui
correspondent aux valeurs B1 , . . . , Bk d’une covariable nominale X, respectivement.
Hypothèse nulle :
H0 : p1j = · · · = plj := pj pour tout j
H1 : il existe i, j : pi1 6= pij
On rappelle que p1 + p2 + . . . + pk = 1. Le problème est bien un problème d’homogénéité des l
échantillons mais on peut le reformuler comme un problème d’indépendance entre la variable aléatoire
X et la variable groupe à l modalités. On a donc que
l X k
X (Nij − ni p̂ij )2
X2 =
i=1 j=1
ni p̂ij
H0 : M1 = ... = Mk := M.
Mais dans la pratique, on ne connaît pas M , sous H0 , il faut l’estimer par la médiane empirique de
l’échantillon unifié ordonné :
Xk
X(1) ≤ ... ≤ X(n) , n = nj .
j=1
(X(n/2) + X(n/2+1) )/2, si n est pair
M̂ =
X((n+1)/2) , sinon
On note Xij le i-ème élément de l’échantillon j. La loi des Xij est continue donc P (Xij = M̂ ) = 0. Si
on a des Xij : Xij = M̂ , ils ne rentreront pas dans la définition des statistiques suivantes.
Soient
nj nj
X X
Ñ1j = 1{Xij < M̂ }, Ñ2j = 1{Xij > M̂ } (j = 1, . . . k).
i=1 i=1
Avec N = a + b + c + d.
Sous l’hypothèse d’indépendance des deux variables, le taux de maladie dans chacune des popula-
tions exposées au risque ou non est estimé par le taux de maladie empirique dans toute la population
soit a+c
N . Si on s’intéresse au nombre de malade X dans la population des exposés de taille a + b sous
l’hypothèse H0 , celui-ci suit une loi hypergéométrique de paramètres (N, n = a + b, p = a+c
N ) et on a
a+c b+d
k n−k
P (X = k) = N
a+b
Par exemple la probabilité le table précédente si on connaît ses marges est donnée par
La fonction empirique au point t donne la proportion de Xi qui sont inférieurs ou égaux à t dans
l’échantillon. On en déduit donc que nF̂n (t) suit une loi binomiale de paramètre B(n, F (t)) si F est
la fonction de répartition de la loi commune des Xi . On en déduit la proposition suivante sur la
convergence ponctuelle de nF̂n (t). On se rend compte que cette fonction part de zéro et saute à la
plus petite valeur des Xi puis à la suivante etc.. On définit donc les statistique d’ordre de l’échantillon
(X1 , . . . Xn )
Définition 39 Soit hk la fonction de Rn dans R qui à (x1 , . . . , xn ) fait correspondre la kième valeur
parmi les (x1 , x2 . . . , xn ) rangées dans l’ordre croissant. On note x(k) = hk (x1 , . . . , xn ). On a alors
x(1) ≤ x(2) ≤ . . . ≤ x(n) .
On appelle statistique d’ordre k la variable aléatoire
Pour comparer F̂n et F et en déduire des tests, on ne va plus considérer la convergence ponctuelle
mais travailler sur la norme infinie de la différence afin de comparer les distributions dans leur globalité.
Pour cela nous considérons Dn = supt∈R |F̂n (t) − F (t)|. On peut remarquer que le max est atteint aux
points de discontinuité de F̂n i.e. Dn = max(Dn+ , Dn− ), avec
m
Dn+ = sup (F̂n (X(m) ) − F (X(m) )) = sup ( − F (X(m) ))
1≤m≤n 1≤m≤n n
64 CHAPITRE 4. TESTS NON PARAMÉTRIQUES
− − − m−1
Dn− = sup (F (X(m) ) − F̂n (X(m) )) = sup (F (X(m) )− )
1≤m≤n 1≤m≤n n
On peut remarquer que Dn est bien positif car au moins égal à ( nn − F (X(n) ) qui vaut 0. Les propriétés
de Dn , Dn+ et Dn− , font l’objet de la proposition suivante qui n’est pas démontrée ici. En fait, on a
un résultat plus fort que le point 3. qui est plus connu sous le nom du théorème de Glivenko-Cantelli
qui dit que la convergence p.s. est uniforme pour t ∈ R. On peut trouver la démonstration dans de
nombreux ouvrages dont [8].
Proposition 6 On a les propriétés 1-4. pour F̂n sous l’hypothèse H0 : l’échantillon est issu de la loi
F.
1. Quand n → ∞, Dn = supt∈R |F̂n (t) − F (t)| tend vers 0 p.s.
2. La variable aléatoire
Dn = sup |F̂n (t) − F (t)| (4.6)
t∈R
√
a une loi qui ne dépend pas de la loi mère et nDn converge en loi lorsque n tend vers l’infini :
∞
√ X 2
P ( nDn < t) →n→∞ 1 − 2 (−1)k−1 e−2(kt) (4.7)
k=1
Evidemment, l’hypothèse H0 n’est pas toujours aussi précise et se limite parfois à F dans une
famille de loi dépendant d’un paramètre θ qu’il faut estimer. Il peut alors être tentant d’utiliser le test
de Kolmogorov avec comme statistique de test Dn = supt∈R |F̂n (t) − Fθ̂ (t)|. Mais dans la majorité des
cas, Dn ne suit plus la loi de Kolmogorov d’une part ou même n’est pas libre de θ. On peut montrer
voir [8] et [9] que lorsque la famille de loi est exponentielle ou normale, la loi de Dn est "libre de
θ" pour θ̂n l’estimateur du maximum de vraisemblance et peut donc être tabulée facilement. Nous
ne rentrerons pas dans les détails de la mise en oeuvre du test sinon mais la correction adéquate est
implémentée dans les logiciels.
On peut remarquer que la statistique Dn1 ,n2 peut être calculée de la façon suivante :
où
k
Dn+1 ,n2 = max − F̂n2 (X(k) )
1≤k≤n1 n1
j
Dn−1 ,n2 = max − F̂n1 (Y(j) ) .
1≤j≤n2 n2
Proposition 7 Sous H0 : F1 = F2 , la loi de Dn1 ,n2 ne dépend pas de la loi mère f mais seulement de
(n1 , n2 ) sa loi est appelée loi de Kolmogorov-Smirnov. De plus lorsque les deux tailles d’échantillons
tendent vers +∞, :
r ∞
n1 n2 X 2
P( Dn1 ,n2 ≤ t) → 1 − 2 (−1)k−1 e−2(kt) (4.11)
n1 + n2
k=1
Il est alors facile de construire un test de niveau donné pour l’hypothèse H0 , ce test est appelé
test de Kolmogorov-Smirnov. On peut de plus montrer que ce test est consistant.
En utilisant la loi tablée, lorsque n est grand, on rejette au seuil de 5% si wn > 0, 46.
66 CHAPITRE 4. TESTS NON PARAMÉTRIQUES
de plus P ((X(j) ≤ t) ∩ (X(j+1) > t)) = Cnj (F (t))j (1 − F (t))n−j en utilisant l’indépendance entre les
Xi et parce qu’il y a Cnj façon de choisir les j xi qui sont plus petits que t parmi les n.
Définition 40 Sous l’hypothèse que la loi mère est à densité continue, on définit le vecteur des rangs
(R1 , . . . , Rn ) associé à (X1 , . . . , Xn ) par :
Ri = k ⇔ Xi = X(k) (4.14)
L’hypothèse d’absolue continuité de X implique que presque sûrement, n’y a pas d’exaequo dans
(X1 , . . . , Xn ) et les rangs sont alors bien définis.
Proposition 9 On a les propriétés suivantes pour (R1 , . . . , Rn ) :
1. La loi de (R1 , . . . , Rn ) ne dépend pas de la loi mère f
2. E[Rj ] = n+1
2 ∀1≤j ≤n
3. V ar[Rj ] = (n+1)(n−1)
12 ∀1 ≤ j ≤ n
n+1
4. cov(Ri , Rj ) = − 12 ∀i 6= j
Démonstration : Les permutations de (X1 , . . . , Xn ) ont toutes la même proba. Il en résulte que le vec-
teur des rangs est uniformément distribué dans l’ensemble de toutes les permutations de {1, 2 . . . , n}.
1 n+1
ERj = (1 + ... + n) =
n 2
varRj = E(Rj2 ) − (ERj )2
12 + ... + n2 (n + 1)2 n(n + 1)(2n + 1) (n + 1)2
= − = − =
n 4 6n 4
n + 1 2n + 1 n + 1 (n + 1)(n − 1) n2 − 1
= − = =
2 3 2 12 12
4.3. LES STATISTIQUES D’ORDRE ET DE RANG 67
Le résultat concernant la covariance découle du fait que la somme des Ri est constante, ce qui entraîne :
d’où le résultat. En fait la loi des Ri est un peu différente si on autorise des exaequo (attribution du
rang moyen des exaequo), mais nous ne rentrerons pas dans ce cadre et nous ferons l’approximation
par le cas précédent.
Corollaire 5 Soit deux échantillons de taille n1 et n2 issus de la même loi. La somme des rangs Sn1
correspondant à l’échantillon 1 vérifie les propriétés suivantes :
1. La loi de Sn1 ne dépend pas de la loi mère f et suit la loi appelée loi de Wilcoxon de paramètre
(n1 ; n2 )
n1 (n1 +n2 +1)
2. E[Sn1 ] = 2
n1 n2 (n1 +n2 +1)
3. V ar[Sn1 ] = 12
4. Si n1 et n2 sont plus grands que 10, on fait l’approximation de la loi de Sn1 par la loi normale
correspondante.
Les points (1) à (3) se démontrent aisément par le calcul. Le point (4) n’est pas démontré ici.
Proposition 10 Soit (X1 , . . . , Xn ) un échantillon issu d’une loi centrée en 0. Soit (R1 , . . . , Rn ) le
vecteur aléatoire des rangs de (|X1 |, . . . , |Xn |), soit S + la somme des rangs de la série des termes
positifs :
Xn
+
S = Ri 1{Xi >0}
i=1
Sous l’hypothèse que la loi des Xi est à densité, alors la loi de S + est indépendante de f et
2. Statistique de test La statistique de test S est le score de l’échantillon qui a le plus petit
effectif.
(a) cas où min(n1, n2) ≤ 10 : cette statistique ne suit pas une loi usuelle, mais on trouve
les probabilités correspondantes dans la table de Mann-Whitney/Wilcoxon. Nous donnons
la table pour n1 ≤ 10 et n2 ≤ 13. On peut aussi trouver des tables plus complètes sur
internet.
(b) cas où min(n1, n2) ≥ 10, d’après le corollaire 5, sous H0 , S suit approximativement une
loi normale et si n1 est le plus petit effectif :
n1 (n1 + n2 + 1) n1 n2 (n1 + n2 + 1)
S ' N( ; )
2 12
Sinon, on inverse le rôle des deux effectifs. La statistique de test est alors la variable centrée
réduite correspondante.
3. Région critique
(a) cas où min(n1, n2) ≤ 10 : on lit les valeurs Cl et CU utiles pour la région critique dans la
table de Wilcoxon :
i. cas bilatéral : [0, Cl ] ∩ [Cu ; +[. Ces 2 intervalles étant les plus grands possibles tels que
P (S < Cl ) ≤ 0, 025 et P (S > Cu ) ≥ 0, 025. Comme la table de Wilcoxon donne la
fonction de répartition de S il n’y a pas de problèmes pour trouver Cl . Pour CU , on le
choisira le plus petit possible tel que P (S < CU − 1) > 0, 975.
ii. cas unilatéral à gauche : [0, Cl ] le plus grand possible tel que P (S < Cl ) ≤ 0, 05
iii. cas unilatéral à droite : [Cu ; +∞[ le plus petit possible tel que P (S > Cu ) < 0, 05
c’est-à-dire P (S ≤ CU − 1) ≥ 0, 95.
(b) cas où min(n1 , n2 ) ≥ 10 : on a la région critique habituelle pour une loi normale centrée
réduite.
Il existe des extensions au test de Wilcoxon Mann-Withney pour la comparaison de la distribution
de k échantillons indépendants. Ce test s’appelle le test de Kruskal-Wallis et il est implémenté dans
les logiciels usuels de statistique. Il supplée au test de l’Anova lorsque l’hypothèse d’homocédasticité
n’est pas vérifié.
On prend alors la statistique de test S + qui est la somme des rangs positifs et dès que n ≥ 20, on
utilisera l’approximation
n(n + 1) n(n + 1)(2n + 1)
S+ ' N ( , )
4 24
pour des valeurs de n plus petites, on utilisera la table adéquate.
De même que le test de Kruskal-Wallis généralise celui de Wilcoxon dans le cas indépendant,
il existe un test, appelé test de Friedmann pour la comparaison de k échantillon appariés (mesures
répétées sur les mêmes individus par exemple). Ce test n’est pas abordé ici.
no de patient 1 2 3 4 5 6 7 8 9 10 11
Différence 0 25 0 20 -15 30 20 10 -10 0 -5
no de patient 12 13 14 15 16 17 18 19 20 21 22
Différence 30 25 0 20 20 -5 10 30 25 20 0
Parmi ces 22 paires, on voit que 17 paires sont discordantes et que parmi elles, 4 valeurs de la différence
entre la mesure après placebo et la mesure après traitement sont négatives et 13 valeurs sont positives.
Appliquer successivement le test des signes et celui de Wiilcoxon pour séries appariées.
Chapitre 5
Régression linéaire
H1 : E(ε) = 0 ⇔ E(εi ) = 0 ∀1 ≤ i ≤ n
La perturbation est d’espérance nulle : l’ensemble des déterminants de Y qui n’ont pas été retenus
dans le modèle est d’espérance nulle. C’est-à-dire que E(Y |X = x) = β0 + β1 x.
Si cette hypothèse n’était pas satisfaite, le terme d’erreur aléatoire εi aurait une composante systé-
matique qui aurait dû être incluse dans la partie non aléatoire de l’équation de régression dans la
constante β0 notamment. Le modèle serait alors mal spécifié.
71
72 CHAPITRE 5. RÉGRESSION LINÉAIRE
En pratique, cette condition est difficile à vérifier puisque les εi ne sont pas observés directement. En
revanche ils sont estimés par les résidus du modèle (voir 5.10) et on pourra faire un test de gaussiannité
des résidus. Dans la pratique, dès que l’échantillon est de taille assez importante et avec des conditions
sur la matrice X, les lois limites des estimateurs sont les mêmes que dans le cas gaussien.
Exemple : On souhaite modéliser la Tension Artérielle Systolique (TAS) d’un individu en fonction
de son âge. Il est relativement connu que la TAS augmente avec l’âge. On pose donc le modèle
T ASi = β0 + β1 xi + εi
On pourrait tirer le modèle par les cheveux en disant que β0 s’interprète comme la TAS d’un individu à
la naissance (x=0). Mais souvent le modèle n’est établi que pour une population homogène d’individus
(par exemple les adultes ) donc il est préférable de ne pas interpréter β0 . En revanche on interprète
β1 comme l’augmentation moyenne de la TAS quand l’individu vieillit d’un an.
Définition 41 On appelle estimateur des moindre carrés du paramètre β du modèle (5.1) la valeur
de β qui minimise la somme des carrés des résidus, (ou la norme au carré de ε̂ ) :
n
X n
X
2
β̂ = arg min ||ε̂|| = arg min ε̂2i = arg min (Yi − (β0 + β1 xi ))2 .
β∈Rk β∈Rk i=1 β∈Rk i=1
Sous l’hypothèse H1, l ’estimateur des moindres carrés est donné par :
Pn
xi Yi −nx̄n Ȳn
β̂1 = Pi=1
n
x2 −n(x̄ )2
= cov(x,Y
s2
)
i n xn
i=1
(5.3)
β̂0 = Ȳn − β̂1 x̄n
Pour une valeur donnée xi , Ŷi = β̂0 + β̂1 xi est la valeur estimée de Yi par le modèle.
Le résultat suivant donne les propriétés des estimateurs lorsque l’hypothèse H4 de normalité de
ε est vérifiée. Ces hypothèses permettront de construire des tests sur les coefficients du modèle.
Proposition 13 Sous les hypothèses H1à4, les estimateurs β̂ et σ 2 vérifient :
1. β̂ et n−2 2 2
n σ̂ sont aussi les estimateurs du maximum de vraisemblance de (β, σ ).
2. β̂ et σ̂ 2 sont indépendants et de lois respectives
n−2 2 SCR
β̂ ' N (β, V ar(β̂)) σ̂ = ' χ2 (n − 2)
σ2 σ2
Il est facile de vérifier 1. par le calcul. Pour le point 2, remarquons tout d’abord que d’après (5.3),
β̂ est une transformation linéaire du vecteur gaussien Y et reste donc gaussien (sa moyenne et sa
variance ont déjà été explicitée à la proposition 11). La suite est une conséquence du théorème de
Cochran. Nous la démontrerons dans le cas général de la régression multiple.
74 CHAPITRE 5. RÉGRESSION LINÉAIRE
σ2 β̂1 − β1
β̂1 ' N (β1 , P 2
), soit p ' N (0, 1)
i=1 (xi − x̄n )
P
σ 2 / i=1 (xi − x̄n )2
Mais σ 2 étant inconnu, on va utiliser son estimation et nous aurons besoin du résultat de la propositions
14 pour trouver la loi de
√
β̂1 − β1 (β̂1 − β1 ) n − 2
Tn = q = p P
σˆ2 / i=1 (xi − x̄n )2
P ( SCR)/ i=1 (xi − x̄n )2
SCR
σ2 ' χ2 (n − 2) SCM ⊥ SCR
SCM
F = SCR /(n−2) ' F(1, n − 2)
SCM (1,n−2)
(ii) Sous l’hypothèse nulle H0 , de manière équivalente, on rejette H0 si F = > f1−α
σˆ2
De la même façon, sous les hypothèses H1à4, on peut montrer la normalité de toute combinaison
linéaire des coefficients βˆ0 et βˆ1 , en particulier pour un xi donné, de la valeur estimée Ŷi de Yi par le
modèle. On en déduit un intervalle de confiance pour Ŷi donné par
s Pn
σ̂ 2 (x2 + x 2 /n − 2x x̄ )
i i n
β̂0 + β̂1 xi ± t(n−2)
1−α/2
P j=1 j 2
i=1 (x i − x̄ n )
car cov(β̂0 + β̂1 xi ) est donné par x2i V ar(β̂1 ) + 2xi cov(β̂0 , β̂1 ) + V ar(β̂0 ), et grâce à (5.4).
5.1. LE MODÈLE DE RÉGRESSION SIMPLE 75
Proposition 15
2
cov(x, Y )
R2 = ρ2 = (5.7)
σx σY
2
R
F = (5.8)
(1 − R2 )/n − 2
Cet intervalle est bien évidemment plus large que l’intervalle de confiance de l’espérance de Yi qui est
β0 + β1 xi . Car il tient compte de la variabilité dûe à ε.
1. Le p n’est pas une erreur de typo car ce n’est pas tout à fait l’estimation de Yi par la regression défini
à la section 5.2.1. Ici, l’estimateur de β n’utilise pas le couple (Yn+1 , xn+1 ). C’est bien un p de prévision.
76 CHAPITRE 5. RÉGRESSION LINÉAIRE
où :
- xij , j = 1, · · · , k − 1, représente la valeur prise par la j ème variable sur l’individu i (i représente
parfois notamment en économétrie une donnée temporelle), on ne considère pas les x comme des
variables aléatoires mais comme des conditions fixées (des fois a posteriori !).
- βj , j = 1, · · · , k − 1, est la composante du vecteur des coefficients de régression associée à la j ème
variable explicative,
- β0 représente un terme constant,
- les εi sont les erreurs de spécification (inconnues et aléatoires)
Ecriture matricielle :
Y = Xβ + ε (5.9)
où :
1 x11 x12 ··· x1 k−1
Y1 β0 ε1
1 x21 x22 ··· x2 k−1
Y2 β1 ε2 .. .. .. .. ..
Y =
.. ;
β=
.. ;
ε=
.. ;
et X =
. . . . .
. . . 1
xt1 xt2 ··· xt k−1
Yn βk−1 εn
1 xn1 xn2 ··· xn k−1
Interprétation Le coefficient β0 n’a pas toujours d’interprétation. Si jamais la nullité de toutes les
variables xi à un sens, alors β0 est la valeur moyenne de Y quand toutes les covariables sont nulles.
L’interprétation de βi est la suivante : c’est l’augmentation moyenne de Y lorsque la variable xi
augmente d’une unité et toute choses égale par ailleurs.
Les hypothèses
H1 : E(ε) = 0 ⇔ E(εi ) = 0 ∀1 ≤ i ≤ n
La perturbation est d’espérance nulle : l’ensemble des déterminants de Y qui n’ont pas été retenus
dans le modèle est d’espérance nulle. C’est-à-dire que E(Y |X) = Xβ.
Si cette hypothèse n’était pas satisfaite, le terme d’erreur aléatoire εi aurait une composante systé-
matique qui aurait dû être incluse dans la partie non aléatoire de l’équation de régression dans la
constante β0 notamment. Le modèle serait alors mal spécifié.
des résidus. Dans la pratique, dès que l’échantillon est de taille assez importante et avec des conditions
sur la matrice X, les lois limites des estimateurs sont les mêmes que dans le cas gaussien.
H5 rang(X) = k : pas de relation linéaire exacte entre certaines colonnes de X ; cela implique que
la matrice X 0 X est régulière et donc que la matrice inverse (X 0 X)−1 existe.
Exemple : On peut raisonnablement supposer qu’une loi de demande au temps t comporte comme
variables explicatives non seulement le prix PY du bien demandé, mais aussi le prix PX d’un substitut
(ou d’un concurrent) et le revenu R du consommateur :
Yt = β0 + β1 (PY )t + β2 (PX )t + β3 Rt + εt
Définition 44 On appelle estimateur des moindre carrés du paramètre β du modèle (5.9) la valeur
de β qui minimise la somme des carrés des résidus, (ou la norme au carré de ε̂ :
n
X
β̂ = arg min ||ε̂||2 = arg min ε̂2i = arg min ||Y − Xβ||2 .
β∈Rk β∈Rk i=1 β∈Rk
Sous les hypothèses H1 et H5, l ’estimateur des moindres carrés est donné par :
β̂ = (X 0 X)−1 X 0 Y (5.11)
Remarques On voit que X β̂ est dans l’espace engendré par X d’une part et qu’il minimise la distance
||Y − Xβ||2 d’autre part. On en déduit que X β̂ est la projection sur l’espace engendré par X. C’est un
moyen de prouver (5.11) si l’on sait que la matrice de projection est donnée par ΠImX = X(X 0 X)−1 X 0 .
La proposition suivante donne les propriétés de l’estimateur β̂.
Proposition 17 Sous les hypothèses H1-3, 5 alors si (X 0 X)−1 tend vers 0 avec n, l’estimateur β̂
est consistant.
Les termes de la matrice (X 0 X) ont été calculé en TD, le 1er terme est n et les autres sont des sommes
sur i de termes du type xij , xij xik . Si la matrice n’est pas singulière, on voit que les cas ou (X 0 X)−1
ne tend pas 0 sont pathologiques.
Remarque En fait on peut démontrer aisément que ||Y − Ŷ ||2 = (Y − X β̂)0 (Y − X β̂) = Y 0 Y − β̂ 0 X 0 Y
Le résultat suivant donne les propriétés des estimateurs lorsque l’hypothèse H4 de normalité de ε est
vérifiée. Ces hypothèses permettront de construire des tests sur les coefficients du modèle.
Il est facile de vérifier 1. par le calcul. Pour le point 2, remarquons tout d’abord que d’après
(5.11), β̂ est une transformation linéaire du vecteur gaussien Y et reste donc gaussien (sa moyenne et
sa variance ont déjà été explicitée à la proposition 16). La suite est une nouvelle fois une conséquence
du théorème de Cochran. En effet ΠImX (ε) = X(β̂ − β) et Π(ImX)⊥ (ε) = (Y − Ŷ ) et ce sont les
projections du même vecteur gaussien sur des sous espaces orthogonaux, ils sont donc indépendants,
par transformation déterministe, on obtient l’indépendance des deux estimateurs et le théorème de
Cochran nous donne la loi de σˆ2 une fois remarqué que dimImX ⊥ = n − k.
Il est évident que l’hypothèse H4 de normalité n’est pas simple à vérifier cependant si l’échantillon
est de grande taille et n’est pas pathologique, on va obtenir la normalité asymptotique des estimateurs.
Pour cela définissons ΠX = X(X 0 X)−1 X 0 la matrice de projection sur l’espace engendré par X dans
Rn . Et notons hij son terme (i, j) et ||ΠX || = max1≤i≤n hii .
(β̂j − βj0 )2
F = = t2n−k ' F (1, n − k)
σ̂ 2 [(X 0 X)−1 ]j+1,j+1
et ce test est équivalent à
(β̂j − βj0 )
T = p ' T (n − k)
σ̂ [(X 0 X)−1 ]j+1,j+1
2. Sous H0 : β = 0k ,
β̂ 0 (X 0 X)β̂/k
F = ' F (k, n − k)
σ̂ 2
SCM M CM
Régression k−1 SCM = ||Ŷ − Ȳn ||2 M C0 = k−1 M CR
X
= (Ŷi − Ȳ )2
SCR
Résiduelle n−k SCR = ||Y − Ŷ ||2 M CR = σ̂ 2 = n−k
X
= (Yi − Ŷi )2
X
Totale n−1 SCT = (Yi − ȳ)2
= Y 0 Y − nȳ 2
2. Le p n’est pas une erreur de typo car ce n’est pas tout à fait le résidu de la regression défini à la section
5.2.1. Ici, l’estimateur de β n’utilise pas le couple (Yn+1 , xn+1 ). C’est bien un p de prévision.
82 CHAPITRE 5. RÉGRESSION LINÉAIRE
ε∗i
t∗i = √
σ̂i∗ 1 − hii
Ces résidus ε∗i = Ŷi − Ŷip correspondent en fait aux résidus de la prévision de Yi lorsque β et σ 2 ont
été estimés par les données X privées de l’individu i. Ils sont donc indépendants et suivent une loi de
Student à (n − 1) degrés de libertés. On peut noter aussi que ces résidus sont liés à la prévision de Yi
en fonction de l’observation des n − 1 autres couples de valeurs par :
Ŷi − Ŷip
t∗i = p ' Student(n − k − 1) (5.19)
σ̂i∗ (1 − x0i (X 0 X)−1 xi )
Dans la pratique, on confrontera les résidus studentisés à la loi de Student, ce qui permettra de détecter
des éventuelles violations des hypothèses comme la non indépendance. On pourra aussi détecter des
valeurs aberrantes.
Valeurs aberrantes
Dans la pratique, compte-tenu de (5.19), on confrontera les résidus studentisés à la loi de Student,
ce qui permettra de détecter des éventuelles violations des hypothèses comme la non indépendance.
On pourra aussi détecter des valeurs aberrantes. Ainsi lorsqu’une valeur t∗i est largement supérieure
au quantile d’ordre (1 − α/2) de la loi de Student(n-k-1), on essaiera de comprendre s’il n’y a pas
erreur de saisie, ... Et avant de laisser malgré tout l’individu dans l’échantillon, on vérifiera que ce
n’est pas un couple trop influent sur les paramètres. C’est l’objet de la section suivante.
où Ŷj(−i) = x0j β̂i est l’estimation de Yj dans la régression qui n’a pas utilisé l’individu i. On peut
démontrer que
hii ε̂2i
Ci =
k(1 − hii )2 σˆ2
Une fois cette distance établie, il faut choisir un seuil. Si on se base sur la méthode établissant la
région de confiance (5.14), on est tenté de le comparer au quantile de la loi de Fischer fk,n−k (même
ce n’est pas la loi suivie par la quantité car on n’a pas l’indépendance). Cook (1977) propose le seuil
fk,n−k (0, 5) qui est proche de 1 quand n est grand.
Notons que (xi , Yi ) a une distance de Cook élevée si ε̂2i est élevé (point mal prédit par la régression)
ou si hii élevé. On a vu en à la section 5.3.1 que hii était le terme diagonal de la matrice ΠX de
projection de Y sur l’espace engendré par X. Or Ŷ = X β̂ = ΠX (Y ), ce qui entraîne,
n
X n
X
Ŷi = hij Yj = hii Yi + hij Yj .
j=1 j6=i
hii est donc le poids de l’observation i sur son propre ajustement et mesure donc la sensibilité de
l’estimation de β à l’individu i. De plus les hij étant tous positifs et de somme 1 à i fixé, on peut
envisager les cas extrêmes
1. hii = 1, ŷi est déterminé par yi ,
2. hii = 0, yi n’a pas d’influence sur ŷi .
Pn
De plus tr(ΠX ) = i=1 hii = k On peut aussi utiliser ce critère pour détecter ce qu’on appelle des
"points leviers"
Définition 47 Le point i est un point levier si le ie terme diagonale de la matrice de projection ΠX
hii dépasse les seuils suivants :
1. hii > 2k
n selon Hoaglin et Welsch
2. hii > 3k
n pour k > 6 et n − k > 12 selon Velleman et Welsch
3. hii > 0, 5 selon Huber
Yi = β0 + β1 agei + β2 1SP
i εi
On interprète le coefficient comme la différence moyenne de TAS entre les individus qui un surpoids
et ceux qui n’en n’ont pas.
Si la variable qualitative a I > 2 modalités, alors on choisit une modalité de référence et on crée les
(I −1) indicatrices des modalités restantes. Chacun des coefficients s’interprète comme l’augmentation
moyenne de Y entre la modalité et la modalité de référence.
Bien sûr, on peut imaginer des cas plus compliqués comme le suivant ou la variable qualitative
influence non seulement le terme d’origine mais aussi la pente d’une ou plusieurs variables quantitatives
comme dans l’exemple suivant. On mesure la taille d’un groupe d’enfants de 5 à 10 ans en fonction
de leur âge et leur sexe. On peut émettre l’hypothèse (ou au moins vouloir la tester) que les garçons
grandissent plus vite que les femmes. Nous ne détaillerons pas ce cas nommé "Analyse de covariance" ou
"ANCOVA" dans ce poly. Il peut être traité (après transformation des matrices) comme un problème
de régression multiple. Le lecteur intéressé consultera [2] ou [3].
Chapitre 6
Régression logistique
6.1 Le modèle
6.1.1 Objectifs
Le modèle de régression logistique est un modèle souvent utilisé en biostatistique pour modéliser
la survenue d’un événement (maladie, ...) en fonction de covariables explicatives. Il est notamment
apprécié par les médecins épidémiologistes car les coefficients du modèle s’interprètent comme des
odds ratio qui sont des mesures de risque qui leur sont familières. L’objectif est donc de modéliser le
lien entre une variable binaire Y qui vaut 1 si un événement se réalise et 0 sinon en fonction d’un
vecteur de covariables x = (x1 , . . . , xk ).
exp(β0 + β1 x1 + . . . βk xk )
P(Y = 1|x) = π(x) = (6.1)
1 + exp(β0 + β1 x1 + . . . βk xk )
Nous allons maintenant introduire quelques notions relatives aux variables qualitatives et notamment
au lien entre deux variables qualitatives.
85
86 CHAPITRE 6. RÉGRESSION LOGISTIQUE
P(Z = Aj )
Ωjk =
P(Z = Ak )
Si la variable Z est binaire alors la probabilité de voir l’événement se réaliser est le rapport p/(1 − p)
qui est la côte ou l’odds de l’événement.
Ce rapport ou odds ratio vaut 1 si les deux variables sont indépendantes, est supérieur à 1 si la
réalisation de l’événement 2 est plus fréquente lorsque l’événement 1 est réalisé et inférieur à 1 sinon.
On peut généraliser cet odds ratio à la réalisation de deux modalités de variables qualitatives pas
forcément binaires.
Revenons au modèle logistique et à son interprétation. Supposons qu’il n’y ait qu’une seule variable
explicative x. Regardons l’odds ratio de l’événement Y = 1 quand x = a + 1 par rapport à x = a. En
remarquant grâce à la formule (6.1), que P(Y = 0|x) = 1 − π(x) = 1+exp(β0 +β11 x1 +...βk xk ) , on obtient
Même en prenant la log-vraisemblance qui simplifie l’écriture, le maximum en β de cette expression n’a
pas de forme littérale et il faut estimer un algorithme itératif (comme celui de Newton-Raphson) pour
maximiser la log-vraisemblance et obtenir l’estimateur β̂. Nous savons que l’estimateur du maximum
de vraisemblance a de bonnes propriétés notamment de convergence, de normalité asymptotique et
que la matrice de covariance est bien estimée par l’inverse de la matrice d’information de Fischer
(définie en (2.5)). Ceci permet d’écrire des intervalles de confiance asymptotique pour les paramètres
βj et après transformation pour l’odds ratio correspondant.
6.2. ADÉQUATION DU MODÈLE 87
Il est maintenant intéressant de tester la nullité des coefficients à savoir H0 : βj = 0. Nous nous
exp(β0 +β1 x)
plaçons d’abord dans le cas du modèle à une seule variable. π(x) = 1+exp(β 0 +β1 x)
, on teste donc
H0 : β1 = 0, il y a trois test possibles qui sont asymptotiquement équivalents.
Test de Wald
Sous H0 , la statistique de test de Wald
β̂12
SW =
V ar(βˆ1 )
Test du score
On utilise la fonction score S(β) = Sn (X1 , . . . , Xn ; β) définie à la définition 18. Dans le cas d’une
seule covariable, la statistique de test est :
2
Pn
i=1 x i (Yi − Ȳn )
SS = q Pn
Ȳn (1 − Ȳn ) i=1 (xi − x̄n )2
Ces trois tests se généralisent au test de la nullité des k coefficients dans le cadre du modèle
multiple H0 : β1 = . . . = βk = 0, pour donner :
chacune de ces trois statistiques suit une loi du χ2 à k d.d.l.. On peut aussi généraliser ces tests à la
nullité d’une partie des coefficients seulement (sous-modèle). Nous ne les verrons pas dans le cadre de
ce cours.
J
Pnj !2
X i=1,xi =x̃j Yi − nj π̂(x̃j )
XP = p
j=1
nj π̂(x̃j )(1 − π̂(x̃j ))
J nj Pnj ! nj Pnj !
X X ( i=1,x̃ j
Yi ) X (nj − i=1,xi =x̃j Yi )
XD = 4 ( Yi ) ln ) + (nj − Yi ) ln
j=1
nj π̂(x̃j i=1,x =x̃
nj (1 − π̂(x̃j ))
i=1,xi =(x̃j i j
1 XJ
X (olj − elj )2
WHL =
j=1
elj
l=0
Méthodes bootstrap
7.1 Objectifs
A partir d’un échantillon i.i.d. (X1 , . . . , Xn ) d’une loi donnée par sa fonction de répartition F sur
laquelle on veut faire de l’inférence en estimant un paramètre θ de F par la statistique θ̂(X1 , . . . , Xn ).
Cette statistique θ̂(X1 , . . . , Xn ) est elle-même une variable aléatoire dont la loi dépend de la distribu-
tion F inconnue et dont l’aléa est donné par le tirage de l’échantillon (X1 = x1 , . . . , Xn = xn ). On se
pose la question de la loi de cette variable aléatoire notamment sa moyenne (qui va mesurer le biais
par rapport à θ) et sa variance qui permettra de donner des intervalles de confiance pour θ.
Le problème est qu’en pratique, on n’a qu’un seul tirage de θ̂(X1 , . . . , Xn ). En statistique classique,
on s’en sort généralement en donnant un modèle pour la loi F (loi normale, exponentielle, Weibull,
etc ..) dont il reste à en estimer les paramètres. Cette méthode marche bien si on ne se trompe pas
de modèle mais peut conduire à des erreurs grossières dans le cas contraire. On s’en sort aussi si l’on
estime la moyenne car le T.C.L. donne la loi asymptotique de X̄n . Que dire en revanche de la médiane ?
de la variance de son estimateur par exemple ? Que dire aussi dans le cas de petits échantillons lorsque
l’on veut faire des tests et que l’on ne connait pas la loi ?
7.2 Principe
Le principe du bootstrap repose sur le théorème de Glivenko-Cantelli qui dit que si la taille de
l’échantillon n tend vers l’infini, alors sa fonction de répartition empirique F̂n tend uniformément
vers F (voir Proposition 4.6 du chapitre dédié aux tests de Kolmogorov). La méthode bootstrap est
une méthode non-paramétrique (parfois il peut y en avoir des versions paramétriques) qui n’a besoin
d’aucune hypothèse sur la loi des Xi . Au lieu de générer des échantillons i.i.d. issus de la loi F inconnue
pour étudier la variation de θ̂(X1 , . . . , Xn ), on va générer des échantillons avec la loi F̂n . Ceci se fait
en opérant des tirages avec remise dans l’échantillon (X1 = x1 , . . . , Xn = xn ).
On tire donc B échantillons avec remise à partir de (X1 , . . . , Xn ) : pour 1 ≤ b ≤ B, on a
(X1 , . . . , Xnb ) permettant de calculer b valeurs de la statistique θ̂b∗ = θ̂(X1b , . . . , Xnb ) qui vont don-
b
91
92 CHAPITRE 7. MÉTHODES BOOTSTRAP
et on a l’approximation
2
σθ2 (F̂n ) = EF̂n θ̂(X1 , . . . , Xn ) − EF̂n (θ̂(X1 , . . . , Xn ))
B
1 X ∗
Biasboot = θ̂b − θ̂(x1 , . . . , xn )
B
b=1
On a aussi
∗ ∗
[2θ̂(x1 , . . . , xn ) − θ̂(1−α) , 2θ̂(x1 , . . . , xn ) − θ̂(α) ] (7.2)
On peut montrer que la probabilité que θ appartienne à chacun de ces intervalles est égale à (1 − α) +
O(n−1/2 ). Ces deux intervalles de confiance ne tiennent pas compte du biais.
B
1 X
p := 1(θ̂b∗ ≤ θ̂(x1 , . . . , xn ))
B
b=1
— Si cette p-valeur est inférieure au seuil α/2 où α est le risque de 1ère espèce choisi du test,
rejet de H0
X̄n − Ȳn2
θ̂∗ = p 2 1
σX /n1 + σY2 /n2
Considérons l’échantillon (Z1 , . . . Zn ) des n = n1 + n2 valeurs de Xi et Yj réunies et sa moyenne
empirique Z̄n . Définissons les échantillons de Y et X transformés par :
On obtient ainsi une distribution bootstrap de la stat de test sous H0 et l’on peut calculer la p-valeur
comme dans le test précédent et conclure.
94 CHAPITRE 7. MÉTHODES BOOTSTRAP
X̄n − µ
θ̂∗ = p 2
σX /n
On tire B échantillons bootstrap de l’échantillon des Xi et on calcule à chaque fois la statistique
X̄ ∗b − X̄n
θ̂b∗ = qn
σX2∗b /n
0
On obtient ainsi une distribution bootstrap de la stat de test sous H0 et l’on peut calculer la p-valeur
comme dans le test précédent et conclure.
8.1 Introduction
De nombreuses méthodes statistiques sont disponibles pour analyser l’information contenues dans
un fichier de données statistiques. Pour un statisticien, les données correspondent à des variables (on
suppose par exemple que l’on en a p) dont on connaît la valeur sur n individus. Pour donner un
exemple "jouet" : on a mesuré la tension artérielle diastolique, systolique et le taux de cholestérol de
6 patients. Les résultats sont présentés dans le tableau suivant
On se rend compte que l’information peut être stockée et considérée comme une matrice X à n
lignes (1 ligne par individu) et p colonnes (1 colonne par variable).
x11 x1j x1p
|
|
X= x
i1 − x ij x ip
(8.1)
|
|
xn1 xin xnp
Un vecteur correspondant à une ligne i de la matrice X correspond aux données de l’individu i.
xi1
xi = ... ∈ Rp .
xip
On dira que xi est le vecteur "individu i", c’est un point dans Rp et on considérera le nuage des n
points individus i dans Rp . Un vecteur correspondant à la colonne j de la matrice X correspond aux
95
96 CHAPITRE 8. ANALYSE DE DONNÉES QUANTITATIVES
xnj
On dira que xj est le vecteur variable j, c’est un point de Rn et on considérera le nuage des p points
variables j dans Rn .
— L’étude séparée de chacune des variables est une phase indispensable dans le processus de
dépouillement des données, mais elle est tout à fait insuffisante. En effet, elle ne tient pas
compte des liaisons qui peuvent exister entre les variables, liaisons qui sont souvent l’aspect le
plus important. Il est donc préférable d’analyser les données en tenant compte de leur caractère
multidimensionnel.
— Lorsque l’on considère deux variables simultanément (x1 et x2 par exemple), il est facile de
représenter, sur un graphique plan, l’ensemble des données. Le simple examen visuel de l’allure
du nuage des points {(x1i , x2i ), i = 1, . . . , n} permet d’avoir une idée sur la forme et l’intensité
de la liaison entre ces deux variables, et de repérer les individus ou les groupes d’individus
ayant des caractéristiques voisines.
— Si l’on considère trois variables simultanément (x1 , x2 et x3 par exemple), l’étude visuelle est
encore possible en faisant de la géométrie dans l’espace. Les logiciels de statistique proposent
ce genre de graphiques intéractifs en trois dimensions dans lesquels il est possible de faire
tourner les axes pour observer le nuage des points {(x1i , x2i , x3i ), i = 1, . . . , n} sous toutes ses
formes.
— Lorsque l’on considère un nombre p de variables, avec p ≥ 4, la visualisation directe et totale de
toutes les données devient impossible. On peut étudier graphiquement les variables par groupes
de 2 ou de 3 variables : cependant, s’il y a par exemple p = 11 variables, cela représentera
p(p − 1)/2 = 55 nuages de points croisant 2 variables à regarder !
Il apparaît donc utile et nécessaire de trouver une autre manière de visualiser les données
multidimensionnelles.
L’objectif des méthodes factorielles est de "résumer l’information" contenues dans les données par
une matrice avec moins de variables par exemple (on aura de nouvelles variables dîtes "synthétiques") .
On cherchera pour cela les individus qui se ressemblent ou les variables qui se ressemblent. Pour cela il
faut donner des définitions mathématiques de distance entre variables et de distances entre individus.
La représentation par une matrice nous rapproche de ce que l’on connait au niveau mathématique en
calcul matriciel et algèbre linéaire. La prochaine section contribue à la définition d’opérations sur les
vecteurs variables et les individus. La suivante concerne l’Analyse en composantes principales.
p1 0 ··· 0
.. ..
0 p2 . .
N= ..
.. ..
. . . 0
0 ··· 0 pn
1
Pn
Si les poids sont tous égaux, on retrouve la moyenne des xij : x̄j = n i=1 xij .
En fait cela revient à translater le nuage de points des individus par le vecteur −x̄
Matrice centrée-réduite.
On verra que cette opération de réduction des variables centrées est importante car elle permet
de ne plus tenir compte de l’unité de mesure des variables (une taille en cm non-réduite, pèserait 100
fois plus qu’une taille en m non réduite) La variance empirique Sj2 et l’écart-type Sj de la variable xj
sont donnés par :
Xn q
Sj2 = pi (xij − x̄j )2 Sj = Sj2
i=1
1/S12
0 ··· 0
.. ..
0 1/S22 . .
Z = YM1/2
M= , alors
.. .. ..
. . . 0
0 ··· 0 1/Sn2
98 CHAPITRE 8. ANALYSE DE DONNÉES QUANTITATIVES
Matrice de Variance-covariance
On a déjà défini la variance de chacune des variables xj et celle-ci correspond à une mesure de
0
dispersion de la variable. La covariance empirique entre les variables xj et xj , est définie par :
n
X 0
Sjj 0 = pi (xij − x̄j )(xij 0 − x̄j )
i=1
Remarquons que Sjj = Sj2 . On définit alors la matrice de variance covariance par
Γ = (Sjj 0 )pxp = Yt N Y.
Les variances sont sur la diagonale et les covariance à l’extérieur, à remarquer que la matrice est
symétrique car Sjj 0 = Sj 0 j .
Matrice de corrélation
De la même manière que l’on réduit les variables, on ramène les covariances à la même échelle
pour pouvoir les comparer en divisant par les écart-types des variables concernées.
n 0
! n
xij − x̄j xij 0 − x̄j
Sjj 0 X X
rjj 0 = = pi = pi zij zij 0
Sj Sj 0 i=1
Sj Sj 0 i=1
R = (rjj 0 ) = Zt NZ
Exercice
Pour la matrice des données tension cholestérol donnée à la 1ère page et en prenant un poids 1/n,
calculer les matrices correspondantes centrée, centrée-réduite, la matrice de variance covariance, et de
corrélation.
8.2.4 Métriques
On a parlé en introduction que l’analyse de données consistait à résumer l’information sur les
individus et les variables dans l’espace Rp ou Rn . Il convient donc de se donner un cadre de travail
dans ces espaces.
Du coup, la covariance entre deux variables est égales au produit scalaire induit par la métrique
N entre ces deux vecteurs de variables. La variance est égale à la norme au carré du vecteur variable,
et la corrélation correspond au cosinus de l’angle entre les deux vecteurs.
Projection
On considère le nuage des points individus centrés y1 , . . . , yn ∈ Rp , pondéré par N = diag(pi ) et
muni de la métrique M . On veut projeter chacun de ces points sur une droite de direction donnée par
un vecteur v.
Si on note pv (yi ) la projection du vecteur de l’individu i, alors pv (yi ) = ψi .v avec ψi =< yi , v >M .
Les coordonnées correspondantes ψi de la projection M -orthogonale des n points individus centrés de
Rp sur l’axe ∆ engendré par un vecteur v de Rp , de M norme 1 forme une nouvelle variable ψ de Rn
défini par
ψ1
..
. Xp
fj y j
ψ= ψ
i
= Y. M.v = Y.f =
.
|{z}
j=1
.. =f
ψn
On voit que ψ est une combinaison linéaire des colonnes de Y avec les coefficients de b. ψ est le
résumé des colonnes de Y appelée variable synthétique de direction v.
le maximum d’information sur les variables de départ. Il y a plusieurs ACP, on va réaliser ici la plus
standard en travaillant sur les données centrées réduites Z , avec M = Idp et N = diag(1/n). On dit
que l’on fait l’ACP normée sur les matrices de corrélation. D’autres ACP sont possibles correspondant
à d’autres métriques M pour l’espace des individus et N pour l’espace des variables.
8.3.1 Principe
On veut chercher un sous-espace Fk de Rp de dimension k ≤ r (r = rang(Z)), c’est-à-dire k axes
∆1 , . . . , ∆k M orthogonaux tels que le nuages des points individus projetés sur l’espace Fk "déforme"
le moins possible les distances entre les individus. Avant de définir plus précisément cette notion de
déformation, supposons que l’on ait réussi à identifier les vecteurs directeurs des ∆j M -normés à 1 :
v1 , . . . , vk , alors on peut définir les coordonnées factorielles des individus dans Fk .
En faisant de même avec les k vecteurs vj pour 1 ≤ j ≤ k, on obtient une matrice Ψ de taille n × k
Les colonnes Ψj de cette matrice sont de nouvelles variables synthétiques. Ces formules se généralisent
à une ACP non normée associée à une métrique M il faut alors remplacer Z par Y et < ., . > par des
< ., . >M ou (car faire l’ACP sur Z revient à choisir la métrique M = diag(1/Sj2 ) si on travaille avec
Y)
Exercice Montrer que si M = Id et pi = 1/n, I(X) = S12 + . . . + Sp2 . Montrer d’autre part que si
M = D1/S 2 , I(X) = p.
8.3.3 Maximisation
On prend comme indice la somme pondérée des carrés des distances, soit
n X
X n
pi pi0 d2 (zi , zi0 )
i=1 i0 =1
8.3. ANALYSE EN COMPOSANTES PRINCIPALES (ACP) 101
qui mesure la dispersion du nuage. Or, on a toujours quelle que soit la projection pv la relation
d(pv (zi ), pv (zj )) ≤ d(zi , zj ). Donc on aura que I((Z)) > I(pv ((Z))). En revanche on peut chercher v
tel que la "contraction" pv soit minimale.
On commence par chercher un sous-espace de dimension 1, F1 associé à un vecteur v1 , tel que
la projection de (Z) sur F1 soit d’inertie maximale. Du coup l’inertie à maximiser est I(pv1 ((Z))) =
I(Ψ1 ).
n
X
var(Ψ1 ) = pi (Ψi1 − Ψ̄1 )2 = ||Ψ1 ||2N . (8.7)
i=1
Exercice Montrer l’égalité (8.6) et (5.12).
Maximiser I(Ψ1 ), revient donc à maximiser var(Ψ1 ).
Proposition 22 Le vecteur v1 qui vérifie ce critère est le vecteur propre principal (c’est-à-dire le
vecteur associé à la plus grande valeur propre λ1 ) de la matrice des corrélations R = (Z)t N (Z).
Corollaire 8
I(Ψ1 ) = var(Ψ1 ) = ||Ψ1 ||2N = λ1
Corollaire 9
k
X
I(pFk ((Z)) = λj
j=1
En faisant de même avec les k vecteurs propres vj pour 1 ≤ j ≤ k, et si V est la matrice dont les
colonnes sont les coordonnées des vecteurs propres (normés à 1 et triés par ordre décroissant des
valeurs propres), on obtient une matrice Ψ de taille n × k :
Les colonnes Ψj de cette matrice sont de nouvelles variables synthétiques appelées composantes prin-
cipales de X.
Le principe de l’ACP, on le verra plus bas, peut être de réduire l’information et de ne garder qu’un
certain nombre k d’axes.
Z = |{z}
|{z} U |{z} V0
Λ |{z}
n×p n×r r×r r×p
avec √ √
— Λ = diag( λ1 , . . . , λr ) avec λj valeur propre de R mais aussi de ZZ0 N.
— U est la matrice dont les colonnes sont les vecteurs propres de ZZ0 N, et N -normés et N -
orthogonaux. U0 N U = Ir
— V est la matrice dont les colonnes sont les vecteurs propres de Z0 NZ, et normés et orthogonaux.
V0 V = Ir
— Cette décomposition en valeurs singulières donne directement les décomposition Φ et Ψ des
scores et des loadings
Ψ = ZV Φ = Z0 NU
— On a les formules de passage
1 1
vj = p Z0 Nuj = p φj
λj λj
1 1
uj = p ZNvj = p ψj
λj λj
On obtient que
Ψij =< zi , vj >M Ψj = ZM vj = Zfj
A chaque projection, correspond "trois êtres mathématiques" :
— un axe ∆j de l’espace des individus Rp de vecteur unitaire vj
— un vecteur Ψj de l’espace des variables
— une forme linéaire fj appelée facteur
Lorsque l’ACP est centrée-réduite et M = Id, alors le vecteur vj et la forme linéaire fj sont confondus
mais le mot facteur donne son nom à l’analyse factorielle.
104 CHAPITRE 8. ANALYSE DE DONNÉES QUANTITATIVES
De même nous avons le lien avec la décomposition SV D de la matrice Z avec les métriques
(M, N ) :
Z = |{z}
|{z} U |{z} V0
Λ |{z}
n×p n×r r×r r×p
avec √ √
— Λ = diag( λ1 , . . . , λr ) avec λj valeur propre de R mais aussi de ZMZ0 N.
— U est la matrice dont les colonnes sont les vecteurs propres de ZMZ0 N, et N -normés et
N -orthogonaux. U0 N U = Ir
— V est la matrice dont les colonnes sont les vecteurs propres de Z0 NZM, et M-normés et
M-orthogonaux. V0 MV = Ir
— Cette décomposition en valeurs singulières donne directement les décomposition Φ et Ψ des
scores et des loadings
Ψ = ZMV Φ = Z0 NU
— On a les formules de passage
1 1
vj = p Z0 Nuj = p φj
λj λj
1 1
uj = p ZNvj = p ψj
λj λj
ou encore
Φ = VΛ1/2
Ψ = UΛ1/2
Le principe de l’ACP, est de réduire l’information et de ne garder qu’un certain nombre k d’axes.
Dans ce cas, cela revient à projeter les données Z sur l’espace Fk et on a
k
X p p
pFk (Z) = Ψj (vj )0 = UΛk V0 avec Λk = diag( λ1 , . . . , λk , 0, . . . , 0)
j=1
pFk (Z) est la meilleure représentation approchée de Z de rang k dans le sens où elle vérifie
λk
.
I(Z)
— La part d’inertie (ou de variance) expliquée par les deux premiers axes est mesurée par le
quotient
λ1 + λ2
.
I(Z)
Il mesure l’applatissement du nuage sur le plan principal. Plus cette part d’inertie expliquée
est grande, meilleure est la représentation du nuage sur ce plan.
— La part d’inertie (ou de variance) expliquée par les k premiers axes est alors mesurée par le
quotient
λ1 + · · · + λk
.
I(Z)
Remarque 2. Le nombre de valeurs propres non nulles donne la dimension de l’espace dans lequel
sont réellement les observations (c’est à dire dans lequel appartient effectivement le nuage de points).
Une valeur propre nulle montre qu’il existe une liaison linéaire entre les variables initiales.
Les contributions sur les axes se cumulent ce qui veut dire que la qualité de représentation de l’individu
i dans le plan ∆j , ∆j 0 est donnée par
Ψ2ij + Ψ2ij 0
QLTj,j 0 (i) = cos2 (θij ) + cos2 (θij 0 ) =
||zi ||2
Si les individus sont mal représentés, il ne faut pas confondre proximité sur le plan principal et
proximité dans l’espace des individus, car il manque des composantes orthogonales.
Les sorties de la plupart des logiciels de statistique fournissent la qualité de la représentation de
l’individu i par rapport à chaque axe principal j en donnant la valeur du cosinus carré de l’angle entre
l’axe k et le vecteur xi , soit cos2 (θij ).
(Ψji )2
CT Rj (i) = pi .
λj
Pn Pn
De plus on a vu que V (Ψj ) = λj = i=1 pi Ψ2ij = λj i=1 CT Rj (i). On en déduit que si les pi sont
tous égaux, les individus qui contribuent le plus à l’axe j sont ceux qui ont un Ψij le plus élevé en
valeur absolue.
8.3. ANALYSE EN COMPOSANTES PRINCIPALES (ACP) 107
Normalement et surtout pour les premières composantes principales, il n’est pas souhaitable qu’un
individu ait une contribution excessive (cela serait un facteur d’instabilité) : le fait de retirer cet
individu de l’étude risquerait de modifier profondément les résultats de l’analyse. Il est alors préférable
de le sortir de l’étude et de le faire figurer ensuite en individu supplémentaire, voir la section suivante.
Dans la pratique, lorsque les poids des individus sont tous égaux au départ, on considère qu’un individu
contribue trop à la construction d’un axe si CT Rj (i) > 5/n
— On synthétise les différentes corrélations sur des figures appelée cercle des corrélations.
Pour le couple des deux premières composantes principales Ψ1 et Ψ2 , les coordonnées de
la variable initiale z j dans le premier plan principal sont r(xj , Ψ1 ), r(xj , Ψ2 ) .
Le carré de la “longueur" du vecteur reliant le centre du cercle à la projection de la variable
z j dans le plan est dons un indicateur de la qualité de la représentation de ce vecteur dans le
1er plan principal et vaut
2
l1,2 (xj ) = (r(xj , Ψ1 ))2 + (r(xj , Ψ2 ))2
Evidemment ces définitions pour le plan factoriel (1, 2) sont valables pour les autres plans
factoriels notamment les (1, 3) et les (2, 3) qui contiennent aussi beaucoup d’information.
Pour
un plan (k, l), les coordonnées de la variable z j deviennent r(xj , Ψk ), r(xj , Ψl ) et la longeur
2
associée est lk,l (xj ) = (r(xj , Ψk ))2 + (r(xj , Ψl ))2
— Pour l’interprétation d’un plan principal, on ne considèrera que les variables dont la projection
est proche de la circonférence du cercle, en effet, dans ce cas-là, les variables sont très bien
corrélées avec le plan principal considéré et elles sont donc bien représentées.
— Deux variables qui sont bien projetées dans un plan principal et qui sont très "proches" dans
ce plan, sont très corrélées entre elles.
— On peut définir la contribution de la variable xj à l’axe k par :
Φ2jk
r 2 x j , Ψk r2 xj , Ψk
Pp 2 l k
= =
l=1 r (x , Ψ ) λk λk
Pp
Car l=1 r2 xl , Ψk = λk = V (Ψk ).
— De la même manière que la matrice
Cette valeur est à comparer avec les quantiles de la loi N (0, 1) autrement dit, si |z| > 2 on interprétera
la modalités Ak par rapport à la j e composante principale.
tée, ma métrique du χ2 . Etudier le lien entre deux variables qualitatives revient à mesurer l’écart à
l’hypothèse d’indépendance et on retrouve des notions introduites dans le cadre du test du chi-deux.
B1 ··· Bj ··· Br
A1 N11 ··· N1j ··· N1r N1·
... ··· ··· ··· ··· ··· ···
Ai Ni1 ··· Nij ··· Nir Ni·
... ··· ··· ··· ··· ··· ···
As Ns1 ··· Nsj ··· Nsr Ns·
N·1 ··· N·j ··· N·r n
Pr Ps Ps Pr
Ici Ni· = j=1 Nij , N·j = i=1 Nij , n = i=1 Ni· = j=1 N·j .
On note E la matrice s × r des (Nij ) et les matrices diagonale D1 = diag(Ni. ) et D2 =
diag(N.j ). On s’intéresse en fait aux profils des lignes donnés par les s vecteurs de dimension r :
Nij −1
`i = ( N Nir
Ni. , . . . , Ni. , . . . Ni. ) soit les lignes de la matrice D1
i1
E et aux profils des colonnes donnés par
N N N
cj = ( N1j
.j
. . . Nij
.j
, . . . , Nsj
.j
) soit les colonnes de ED2 −1 .
Les profils lignes forment s points de Rr affectés des poids pi donnés par D1 /n. Le centre de
gravité de ce nuage est donné par
n.1
n p.1
n.2 p.2
−1 0 D1 n
gl = (D1 E) 1= . = .
n .. ..
n.s
n p.s
Le vecteur gl est le vecteur des fréquences empiriques des modalités de la variables X. On a de même
que le centre de gravité des profils colonnes nuage de r points de Rs de poids donnés par D2 /n est
p1.
p2.
gc =
..
.
ps.
On peut remarquer que le nuage des profils lignes est dans le sous-espace de Rr défini par
r
X
W1 = {x ∈ Rr ; xj = 1 xj ≥ 0 ∀1 ≤ j ≤ r}
j=1
dimension au plus égale à r − 1 car la somme des profils lignes est égale au vecteur composé de 1 et
de plus toutes les composantes sont positives ou nulles. Dans le cas de l’indépendance entre les deux
variables X et Y , les effectifs vérifient :
nij n.j nij ni.
= et =
ni. n n.j n
Métrique du χ2
Pour calculer la distance entre deux profils lignes i et i0 on utilise la formule :
r 2
2 0
X n nij n i0 j
dχ2 (i, i ) = − = ||li − li0 ||nD2 −1
n
j=1 .j
ni. n i0 .
On remarque d’abord que si la variable Y est distribuée de la même façon dans la ligne i et la ligne
i0 , alors la distance est nulle quelles que soient les marginales Ni. et Ni0 . . Ensuite si deux profils
colonnes ont le même profil, remplacer ces deux colonnes par une colonne qui est la somme des deux
précédentes, ne doit rien changer dans cette distance entre les deux profils lignes (à vérifier par le
calcul...) ; ce qui n’est pas le cas dans la métrique euclidienne. Enfin, l’inertie totale du nuage est aussi
la quantité mesurant l’écart à l’indépendance
n n 2 s
1 X X nij − i.n .j X ni. 2
I= ni. n.j = d 2 (i, gl )
n i j n i=1
n χ
On peut remarquer que I est égale à la statistique du χ2 du tableau de contingence E divisée par n.
D’autre part, le vecteur Ogl est orthogonal à W1 au sens de la métrique du χ2 soit pour x dans W1 ,
— Données : XC = D2 −1 E0
— Métrique : MC = nD1 −1
— Poids : NC = Dn2
— Les vecteurs propres (appelés facteurs) sont ceux de la matrice ED−1 0 −1
2 E D1 . On note U la
matrice des vecteurs propres
— On peut montrer que les composantes principales qui sont les colonnes de Φ = XC MCU sont
les vecteurs propres de D−1 0 −1 0
2 E D1 E tel que leur norme vérifie Φj D2 Φj /n = λj
On a donc que les valeurs propres des deux décompositions qui sont les mêmes et par décomposition
de la variance des composantes principales :
s r
1X 1X
λk = ni. Ψ2ik = n.j Φ2jk (8.10)
n i=1 n j=1
Le cosinus carré entre le profil li et sa projection sur l’axe k mesure de la qualité de la représentation
de ce profil par cet axe
Ψ2
cos2k (i) = 2 ik
dχ2 (li , gl )
de même par orthogonalité, on peut calculer le cosinus carré de la projection de li sur un sous-espace
en sommant les cos2k (i) correspondants.
On a bien sûr l’équivalent pour les profils colonnes.
Représentation graphique
La correspondance entre les deux ACP permet de représenter les modalités des deux variables
simultanément sur les plans principaux. La modalité Ai de la variables X est représentée dans le
premier plan par les coordonnées (Ψi1 , Ψi2 ) et ainsi de suite dans les autres plans. Celle de la modalité
Bj de la variable Y est donnée par (Φji , Φj2 ). Deux modalités de la même variable qui sont proches
dans le plan factoriel, (à condition d’être bien représentée avec un cos2 relativement proche de 1),
correspondent à un même type d’individus. Il est plus difficile d’interpréter deux modalités Ai et Bj de
deux variables différentes, la distance s’interprète en terme de liaison. Leur représentation (par exemple
avec q = 2) illustre alors la correspondance entre les deux modalités : lorsque deux modalités, éloignées
de l’origine, sont voisines (ou opposées), leur produit scalaire est de valeur absolue importante ; leur
cellule conjointe contribue alors fortement à la dépendance entre les deux variables. Dans le premier
cas ce sont deux modalités qui ont tendance à être prise ensemble (par les mêmes individus) dans le
second elles sont antagonistes, c’est -à-dire que si l’on l’une de ces modalités, alors on a une probabilité
faible d’avoir l’autre.
112 CHAPITRE 8. ANALYSE DE DONNÉES QUANTITATIVES
A l’aide des formules établies pour l’ACP, on peut montrer la formule de reconstitution
s−1
!
ni. nj. X Ψik Φjk
nij = 1+ √
n λk
k=1
Réduction de la dimension
Si le but est de réaliser l’Analyse des correspondances pour réduire la dimension (cela servira
surtout en ACM) alors on peut garder les mêmes règles que pour l’ACP. La règle de Kayser devient
alors "ne garder que les composantes qui ont une valeur propre supérieure à la moyenne soit à I/((s ∧
r) − 1). La règle du coude peut être utilisée aussi.
On peut montrer que l’analyse précédente aurait pu se faire en travaillant sur le tableau disjonctif
complet des deux variables X et Y , c’est à dire la matrice
0
X1 X1 X01 X2
0 D1 E
[X1 |X2 ] [X1 |X2 ] = =
X02 X1 X02 X2 E0 D2
8.5. ANALYSE DES CORRESPONDANCES MULTIPLES 113
Ce tableau s’appelle le tableau de Burt. Il est possible de faire une ACP de ce tableau de Burt et d’en
avoir le lien avec l’AFC classique présentée plus haut mais nous le détaillerons pas ici.
Définition 51 X est le tableau disjonctif complet des variables Pp X1 , . . . , Xp qui ont respectivement
m1 , . . . , mp modalités que l’on suppose indexées par (1, 2, . . . , i=1 mi ) si
X = (hij )1≤i≤n,1≤j≤Pp mi
i=1
On peut remarquer que la somme d’une ligne de la matrice X vaut p et la somme des colonnes est le
vecteur des effectifs marginaux des modalités et le total général vaut np.
Cette façon de voir l’analyse des correspondances permet plusieurs choses : la première est de
remplacer les variables qualitatives par des facteurs quantitatifs (au plus s + r − 2) sur les n individus
(on ne l’a pas fait dans ce chapitre) ce qui permet ensuite de mesurer des proximités entre individus
pour réaliser une classification. Cela permet aussi de généraliser cette analyse à p variables qualitatives.
La matrice B est appelée tableau de Burt est un "super tableau de contingence" de toutes les variables
deux à deux.
On peut calculer la contribution de la modalité Aji de la j e variable à la composante principale k.
Si nji est l’effectif de Aji
nji. j 2
np (aik )
CT Rk (Aji ) =
µk
8.5.1 Inertie
Pp
est de rang i=1 mi −Pp + 1 mais on cherche les valeurs propres non triviales (ni 0
La matrice X P
p p
ni 1) donc si n > i=1 mi son rang est i=1 mi − p valeurs propres. Donc la somme vaut
Pp
i=1 mi
I= −1
p
114 CHAPITRE 8. ANALYSE DE DONNÉES QUANTITATIVES
On somme les projecteurs sur chacun des espaces engendrés les modalités de la ie variable. Comme
d’habitude, on normalise n1 Ψj 0 Ψj = µj
1 1
Ψj = √ Xaj aj = √ D−1 X0 Ψj
µj p µj
qui s’interprète comme une moyenne arithmétique (à un coefficient près) des coordonnées auxquelles
il appartient ...
8.5.4 Interprétation
Nous pouvons donc représenter toutes les modalités des p variables sur les plans factoriels et,
si ces modalités sont bien représentées, on peut interpréter une proximité et une opposition comme
dans l’AFC de deux variables. Attention cependant, les rapports de valeurs propres ne sont pas
interprétables comme indicateurs de qualité globale ; on peut néanmoins regarder la décroissance
des premières valeurs propres pour choisir la dimension. Cette étape est cruciale car la réduction
de dimension est une étape intéressante avant une classification, c’est-à-dire un regroupement des
individus en classe homogènes.
Les coefficients de qualité de chaque modalité ne peuvent pas être interprétés ; seules les contri-
butions des modalités à l’inertie selon les axes sont interprétées, selon le même principe qu’en AFC.
X
l’inertie : I(Ck ) = pi d(xi , gk ) où gk est le centre de gravité de Ck
i∈Ck
X
l’inertie : W (Pk ) = I(Ck ) où gk est le centre de gravité de Ck
1≤k≤K
Or il se trouve que l’inertie totale du nuagePse décompose en une inertie entre les classes et une inertie
à l’intérieur des classes, si l’on note µk = i∈Ck pi le poids de la classe Ck ,
n
X
I(X) = pi d2 (xi , x̄) = B + W où
i=1
K
X
B = µk d2 (gk , x̄) est l’inertie inter-classe
k=1
K
X
W = I(Ck ) est l’inertie intra-classes
k=1
Minimise W revient à maximiser B. Et on peut parler du pourcentage d’inertie expliqué par la partition
(1 − W
T ) × 100.
qu’une classe. A chaque étape on mesure la part de variance totale qui passe de la variance inter-
classe à la variance intra-classe. On peut ainsi dessiner un arbre d’agrégation ou dendogramme avec
comme hauteur de branche proportionnelle à ce delta de variance. La figure 8.1 montre un exemple
de dendogramme. L’inertie intra-classe est donnée en haut à droite pour l’ensemble à 1 puis 2, puis
3 clusters. Cet éboulis invite à faire une classification avec 2, 3 , 6 ou 7 classes. Il est intéressant de
travailler sur les variables centrées-réduites soit Z. On peut aussi, comme évoqué plus haut, faire une
analyse factorielle préalable et ne garder que les premiers axes.
2.0
1.5
Hierarchical Clustering
1.0
0.5
0.0
Click to cut the tree
inertia gain
2.0
1.5
1.0
0.5
0.0
1287
1157
1062
1276
1074
518
1274
453
1248
125
1100
383
1079
1190
115
249
1348
395
1171
703
693
78
1082
717
1091
139
1250
609
1081
423
698
225
565
507
1109
7
1149
131
1311
493
1354
514
1251
513
512
354
1230
33
1187
75
588
583
1075
223
1071
38
764
369
1265
1184
617
760
963
359
601
523
1156
635
1163
1246
961
121
126
84
468
630
585
716
649
31
261
573
506
80
1125
264
1154
105
1188
1150
1232
300
1309
1120
1158
1178
1253
82
301
357
1122
596
1113
1108
713
365
1305
1116
1096
81
130
777
628
128
1148
1179
1088
1102
1174
1072
1114
1111
1117
595
414
356
1067
144
521
263
770
515
1191
361
1247
438
1099
592
570
186
363
718
1110
1101
1089
772
1259
678
1177
869
Annexes
(x − µ)2
1
fX (x) = √ exp − .
σ 2π 2σ 2
Cette loi joue un rôle fondamental en probabilités et en statistique en raison du théorème limite
central.
Loi de Student
Soit X et Y deux variables aléatoires indépendantes telles que X ' N (µ, σ 2 ) et Y ' χ2 (n) la loi
de la variables aléatoire
X
T =p
Y /n
est appelée loi de Student à d degrés de liberté, et de paramètre de décentrage µ, la loi est notée
T (µ, n). Très souvent µ = 0 et la loi est notée simplement T (n)
117
118 CHAPITRE 9. ANNEXES
1 Γ((n + 1)/2) x n
fX (x) = 1R+ (x) exp − x 2 −1 .
nπ Γ(n/2) 2
où, pour tout entier p ≥ 1, on note :
√
K2p = 2p (p − 1)! et K2p+1 = (2p − 1)(2p − 3) . . . 3.1. 2π.
On démontrera (dans l’exercice ??) que c’est la loi d’une v.a de la forme X12 + X22 + . . . Xn2 , où les
Xi sont des variables aléatoires indépendantes de même loi N (0; 1), ce qui explique l’expression « à n
degrés de liberté ». Cette loi joue un grand rôle en statistique.
Loi Gamma
On dit que X suit une loi Gamma de paramètre (α, β) , notée Gamma(α, β), si, pour tout réel x :
1 x
fX (x) = 1R+ (x) exp − xα−1 β α .
Γ(α) 2
Attention suivant les ouvrages on peut paramétrer la loi Gamma par les paramètres (α, θ) en posant
β = 1/θ.
Montrer que si X suit une loi du χ2 (p) alors elle suit une loi Gamma de paramètres à déterminer.
Théorèmes de Cochran
Théoreme 13 Soit un vecteur gaussien X ' N (0, Idk ) et une décomposition de Rk en r sous-espaces
orthogonaux de dimensions respectives d1 , . . . dr : E1 ⊕ . . . ⊕ Er . Alors les projections orthogonales
ΠE1 , . . . , ΠEr forment des vecteurs gaussiens indépendants et pour tout 1 ≤ j ≤ r, ||ΠEj (X)||2 suit
une loi χ2 (dj ).
Références
119
120 CHAPITRE 10. RÉFÉRENCES
Bibliographie
121