Ecole Nationale Supérieure de Statistique et D’Economie Appliquée
INITIATION A L’ECONOMETRIE
Fréjus-Ferry A. HOUNDOGA
Enseignant-Chercheur / ENSEA
[Link]@[Link]
Ingénieur des Travaux Statistiques / 2020-2021
25 janvier 2021
Chapitre 3
Modèle de Régression Linéaire Général
Introduction
Extension du modèle de régression simple abordé au chapitre
précédent.
Lors du chapitre précédent, nous avons considéré qu’une variable
endogène est expliquée à l’aide d’une seule variable exogène.
Cependant, il est extrêmement rare qu’un phénomène économique
ou social puisse être appréhendé par une seule variable.
Le modèle linéaire général est une généralisation du modèle de
régression simple dans lequel figurent plusieurs variables
explicatives.
HOUNDOGA (ENSEA) MR Linéaire Général ? 3 / 32
Introduction
Extension du modèle de régression simple abordé au chapitre
précédent.
Lors du chapitre précédent, nous avons considéré qu’une variable
endogène est expliquée à l’aide d’une seule variable exogène.
Cependant, il est extrêmement rare qu’un phénomène économique
ou social puisse être appréhendé par une seule variable.
Le modèle linéaire général est une généralisation du modèle de
régression simple dans lequel figurent plusieurs variables
explicatives.
HOUNDOGA (ENSEA) MR Linéaire Général ? 3 / 32
Introduction
Extension du modèle de régression simple abordé au chapitre
précédent.
Lors du chapitre précédent, nous avons considéré qu’une variable
endogène est expliquée à l’aide d’une seule variable exogène.
Cependant, il est extrêmement rare qu’un phénomène économique
ou social puisse être appréhendé par une seule variable.
Le modèle linéaire général est une généralisation du modèle de
régression simple dans lequel figurent plusieurs variables
explicatives.
HOUNDOGA (ENSEA) MR Linéaire Général ? 3 / 32
Introduction
Extension du modèle de régression simple abordé au chapitre
précédent.
Lors du chapitre précédent, nous avons considéré qu’une variable
endogène est expliquée à l’aide d’une seule variable exogène.
Cependant, il est extrêmement rare qu’un phénomène économique
ou social puisse être appréhendé par une seule variable.
Le modèle linéaire général est une généralisation du modèle de
régression simple dans lequel figurent plusieurs variables
explicatives.
HOUNDOGA (ENSEA) MR Linéaire Général ? 3 / 32
Plan du Chapitre
1 Présentation du modèle et Hypothèses
2 Tests statistiques
3 Utilisation des variables indicatrices
4 Prévision
Modèle
Plan de Chapitre
1 Présentation du modèle et Hypothèses
Présentation du modèle
Estimation des coefficients de régression
Hypothèses du modèle
Propriétés des estimateurs
Équation d’analyse de la variance et qualité d’un ajustement
2 Tests statistiques
3 Utilisation des variables indicatrices
4 Prévision
HOUNDOGA (ENSEA) MR Linéaire Général ? 5 / 32
Modèle Présentation du modèle
Modèle
Le modèle de régression multiple est donné par :
k
X
yi = α0 + α1 x1i + · · · + αk xki + εi = α0 + αj xji + εi , i = 1, . . . , n. (1)
j=1
où
yi est la ieme observation de la variable dépendante
x1i , . . . , xki sont les ieme observations de chaque variable explicative
αj est la pente associée à Xj : variation de y induite par une variation de
xj , toutes choses égales par ailleurs.
La droite de régression théorique est
k
X
E(yi/x1i = x1 , . . . ; xki = xk ) = α0 + αj xji
j=1
Sous forme vectorielle, (1) devient
Y = Xα + ε (2)
HOUNDOGA (ENSEA) MR Linéaire Général ? 6 / 32
Modèle Estimation des coefficients de régression
Estimation des paramètres
Soit le modèle sous forme matricielle à k variables explicatives et n
observations défini par (2).
Afin d’estimer le vecteur α composé des coefficients α0 , α1 , . . . , αk ,
nous appliquons la méthode des Moindres Carrés Ordinaires
(MCO) qui consiste à minimiser la somme des carrés des erreurs,
soit :
α̂ = argmin||Y − Xα||2
On montre que
α̂ = (X 0 X)−1 X 0 Y (3)
Cette solution est réalisable si la matrice carrée X 0 X de dimension
? ? est inversible.
La matrice X 0 X est la matrice des produits croisés des variables
explicatives ; en cas de colinéarité parfaite entre deux variables
explicatives, la matrice X 0 X est singulière et la méthode des MCO
défaillante.
HOUNDOGA (ENSEA) MR Linéaire Général ? 7 / 32
Modèle Estimation des coefficients de régression
Estimation des paramètres
Soit le modèle sous forme matricielle à k variables explicatives et n
observations défini par (2).
Afin d’estimer le vecteur α composé des coefficients α0 , α1 , . . . , αk ,
nous appliquons la méthode des Moindres Carrés Ordinaires
(MCO) qui consiste à minimiser la somme des carrés des erreurs,
soit :
α̂ = argmin||Y − Xα||2
On montre que
α̂ = (X 0 X)−1 X 0 Y (3)
Cette solution est réalisable si la matrice carrée X 0 X de dimension
? ? est inversible.
La matrice X 0 X est la matrice des produits croisés des variables
explicatives ; en cas de colinéarité parfaite entre deux variables
explicatives, la matrice X 0 X est singulière et la méthode des MCO
défaillante.
HOUNDOGA (ENSEA) MR Linéaire Général ? 7 / 32
Modèle Estimation des coefficients de régression
Estimation des paramètres
Soit le modèle sous forme matricielle à k variables explicatives et n
observations défini par (2).
Afin d’estimer le vecteur α composé des coefficients α0 , α1 , . . . , αk ,
nous appliquons la méthode des Moindres Carrés Ordinaires
(MCO) qui consiste à minimiser la somme des carrés des erreurs,
soit :
α̂ = argmin||Y − Xα||2
On montre que
α̂ = (X 0 X)−1 X 0 Y (3)
Cette solution est réalisable si la matrice carrée X 0 X de dimension
? ? est inversible.
La matrice X 0 X est la matrice des produits croisés des variables
explicatives ; en cas de colinéarité parfaite entre deux variables
explicatives, la matrice X 0 X est singulière et la méthode des MCO
défaillante.
HOUNDOGA (ENSEA) MR Linéaire Général ? 7 / 32
Modèle Estimation des coefficients de régression
Estimation des paramètres
Soit le modèle sous forme matricielle à k variables explicatives et n
observations défini par (2).
Afin d’estimer le vecteur α composé des coefficients α0 , α1 , . . . , αk ,
nous appliquons la méthode des Moindres Carrés Ordinaires
(MCO) qui consiste à minimiser la somme des carrés des erreurs,
soit :
α̂ = argmin||Y − Xα||2
On montre que
α̂ = (X 0 X)−1 X 0 Y (3)
Cette solution est réalisable si la matrice carrée X 0 X de dimension
? ? est inversible.
La matrice X 0 X est la matrice des produits croisés des variables
explicatives ; en cas de colinéarité parfaite entre deux variables
explicatives, la matrice X 0 X est singulière et la méthode des MCO
défaillante.
HOUNDOGA (ENSEA) MR Linéaire Général ? 7 / 32
Modèle Estimation des coefficients de régression
Estimation des paramètres
Soit le modèle sous forme matricielle à k variables explicatives et n
observations défini par (2).
Afin d’estimer le vecteur α composé des coefficients α0 , α1 , . . . , αk ,
nous appliquons la méthode des Moindres Carrés Ordinaires
(MCO) qui consiste à minimiser la somme des carrés des erreurs,
soit :
α̂ = argmin||Y − Xα||2
On montre que
α̂ = (X 0 X)−1 X 0 Y (3)
Cette solution est réalisable si la matrice carrée X 0 X de dimension
? ? est inversible.
La matrice X 0 X est la matrice des produits croisés des variables
explicatives ; en cas de colinéarité parfaite entre deux variables
explicatives, la matrice X 0 X est singulière et la méthode des MCO
défaillante.
HOUNDOGA (ENSEA) MR Linéaire Général ? 7 / 32
Modèle Estimation des coefficients de régression
Estimation des paramètres
La droite de régression empirique (valeurs estimées/prédites)
Ŷ = X α̂
Les résidus (terme d’erreur empirique)
ε̂ = Y − Ŷ
Par définition, le vecteur ε̂ est orthogonal aux explicatives :
X 0 ε̂ = 0
Les MCO sont une projection de Y sur l’espace généré par les
explicatives (Y 0 ε̂0 = 0) (Ŷ = PX Y )
On appelle matrice de projection : PX = X(X 0 X)−1 X 0
HOUNDOGA (ENSEA) MR Linéaire Général ? 8 / 32
Modèle Estimation des coefficients de régression
Effet de la variable d’une seule variable
Soit le modèle estimé : yi = αˆ0 + αˆ1 x1i + · · · + αˆk xki + ei
Si la variable x2 passe de la valeur x2i à (x2i + ∆x2i ) , toutes
choses étant égales par ailleurs (les k-1 autres variables restant
constantes), alors la variable à expliquer varie de ? ?
Les coefficients s’interprètent donc directement en terme de
propension marginale.
HOUNDOGA (ENSEA) MR Linéaire Général ? 9 / 32
Modèle Estimation des coefficients de régression
Effet de la variable d’une seule variable
Soit le modèle estimé : yi = αˆ0 + αˆ1 x1i + · · · + αˆk xki + ei
Si la variable x2 passe de la valeur x2i à (x2i + ∆x2i ) , toutes
choses étant égales par ailleurs (les k-1 autres variables restant
constantes), alors la variable à expliquer varie de ? ?
Les coefficients s’interprètent donc directement en terme de
propension marginale.
HOUNDOGA (ENSEA) MR Linéaire Général ? 9 / 32
Modèle Estimation des coefficients de régression
Effet de la variable d’une seule variable
Soit le modèle estimé : yi = αˆ0 + αˆ1 x1i + · · · + αˆk xki + ei
Si la variable x2 passe de la valeur x2i à (x2i + ∆x2i ) , toutes
choses étant égales par ailleurs (les k-1 autres variables restant
constantes), alors la variable à expliquer varie de ? ?
Les coefficients s’interprètent donc directement en terme de
propension marginale.
HOUNDOGA (ENSEA) MR Linéaire Général ? 9 / 32
Modèle Hypothèses du modèle
Hypothèses
Par construction, le modèle est linéaire en X (ou sur ces coefficients) et
nous distinguons les hypothèses stochastiques (liées à l’erreur ε) des
hypothèses structurelles.
Hypothèses stochastiques
H1 : les valeurs xji sont observées sans erreur
H2 : E(εi ) = 0, l’espérance mathématique de l’erreur est nulle.
H3 : E(ε2i ) = σε2 , la variance de l’erreur est constante (∀i)
(homoscédasticité).
H4 : E(εi , εi0 ) = 0 si i 6= i0 , les erreurs sont non corrélées (ou
encore indépendantes)
H5 : Cov(xji , εi ) = 0, l’erreur est indépendante des variables
explicatives.
H6 : εi N (O, σε2 ), les erreurs sont distribuées selon une loi
normale.
HOUNDOGA (ENSEA) MR Linéaire Général ? 10 / 32
Modèle Hypothèses du modèle
Hypothèses
Hypothèses structurelles
H7 : absence de colinéarité entre les variables explicatives, cela
implique que la matrice (X 0 X) est régulière et que la
matrice inverse (X 0 X)−1 existe.
H8 : (X 0 X)/n, tend vers une matrice finie non singulière.
H9 : n > k + 1, le nombre d’observations est supérieur au
nombre de séries explicatives.
HOUNDOGA (ENSEA) MR Linéaire Général ? 11 / 32
Modèle Propriétés des estimateurs
Propriétés
L’estimateur α̂ est sans biais : (E(α̂) = α) (Preuve ?)
La matrice de variance-covariance des coefficients de régression Σα̂
est donnée par : (Preuve ?)
Σα̂ = σε2 (X 0 X)−1
2 0
Σα̂ = σnε ( XnX )−1 =⇒ limΣα̂ = 0 si n −→ ∞ # l’estimateur est
convergent
HOUNDOGA (ENSEA) MR Linéaire Général ? 12 / 32
Modèle Propriétés des estimateurs
Propriétés
L’estimateur α̂ est sans biais : (E(α̂) = α) (Preuve ?)
La matrice de variance-covariance des coefficients de régression Σα̂
est donnée par : (Preuve ?)
Σα̂ = σε2 (X 0 X)−1
2 0
Σα̂ = σnε ( XnX )−1 =⇒ limΣα̂ = 0 si n −→ ∞ # l’estimateur est
convergent
HOUNDOGA (ENSEA) MR Linéaire Général ? 12 / 32
Modèle Propriétés des estimateurs
Propriétés
L’estimateur α̂ est sans biais : (E(α̂) = α) (Preuve ?)
La matrice de variance-covariance des coefficients de régression Σα̂
est donnée par : (Preuve ?)
Σα̂ = σε2 (X 0 X)−1
2 0
Σα̂ = σnε ( XnX )−1 =⇒ limΣα̂ = 0 si n −→ ∞ # l’estimateur est
convergent
HOUNDOGA (ENSEA) MR Linéaire Général ? 12 / 32
Modèle Propriétés des estimateurs
Propriétés
Théorème de Gauss-Markov
L’estimateur MCO défini par Eq. 3est qualifié de BLUE (Best Linear
Unbiaised Estimator), (au sens qu’il fournit les variances les plus
faibles pour les estimateurs).
Il est à noter que l’estimateur du maximum de vraisemblance des
paramètres fournit des résultats identiques à ceux de l’estimateur
des MCO si l’hypothèse de normalité des erreurs est vérifiée.
Après un calcul matriciel1, il apparaı̂t que nous pouvons estimer
sans biais σε2 par :
ε̂0 ε̂
σ̂ε2 =
n−k−1
En remplaçant la variance de l’erreur par son estimateur, nous
obtenons :
Σ̂α̂ = σ̂ε2 (X 0 X)−1
HOUNDOGA (ENSEA) MR Linéaire Général ? 13 / 32
Modèle Propriétés des estimateurs
Propriétés
Il est à noter que l’estimateur du maximum de vraisemblance des
paramètres fournit des résultats identiques à ceux de l’estimateur
des MCO si l’hypothèse de normalité des erreurs est vérifiée.
Après un calcul matriciel1, il apparaı̂t que nous pouvons estimer
sans biais σε2 par :
ε̂0 ε̂
σ̂ε2 =
n−k−1
En remplaçant la variance de l’erreur par son estimateur, nous
obtenons :
Σ̂α̂ = σ̂ε2 (X 0 X)−1
HOUNDOGA (ENSEA) MR Linéaire Général ? 13 / 32
Modèle Propriétés des estimateurs
Propriétés
Il est à noter que l’estimateur du maximum de vraisemblance des
paramètres fournit des résultats identiques à ceux de l’estimateur
des MCO si l’hypothèse de normalité des erreurs est vérifiée.
Après un calcul matriciel1, il apparaı̂t que nous pouvons estimer
sans biais σε2 par :
ε̂0 ε̂
σ̂ε2 =
n−k−1
En remplaçant la variance de l’erreur par son estimateur, nous
obtenons :
Σ̂α̂ = σ̂ε2 (X 0 X)−1
HOUNDOGA (ENSEA) MR Linéaire Général ? 13 / 32
Modèle Propriétés des estimateurs
Propriétés
Il est à noter que l’estimateur du maximum de vraisemblance des
paramètres fournit des résultats identiques à ceux de l’estimateur
des MCO si l’hypothèse de normalité des erreurs est vérifiée.
Après un calcul matriciel1, il apparaı̂t que nous pouvons estimer
sans biais σε2 par :
ε̂0 ε̂
σ̂ε2 =
n−k−1
En remplaçant la variance de l’erreur par son estimateur, nous
obtenons :
Σ̂α̂ = σ̂ε2 (X 0 X)−1
HOUNDOGA (ENSEA) MR Linéaire Général ? 13 / 32
Modèle Propriétés des estimateurs
Théorème de Frisch, Waugh et Lovell (FWL)
Supposons que les variables explicatives soient séparées en deux
groupes représentés par les matrices X1 et X2 . Le modèle s’écrit :
Y = X1 α1 + X2 α2 + ε.
Le théorème de FWL nous dit que l’estimateur des MCO du
paramètre α2 et des résidus sont les mêmes que ceux du modèle :
M1 Y = M1 X2 α2 + ν avec M1 = I − X1 (X10 X1 )−1 X10
La matrice M1 est symétrique et idempotente (M10 M1 = M1 ), de
plus M1 X1 = 0.
Ce théorème permet de bien comprendre le problème de la
spécification d’un modèle : si une variable Y est effectivement
expliquée par le groupe de variables X1 et X2 , il faut
impérativement faire figurer dans le modèle ces deux groupes de
variables même si seul le groupe de variables X1 nous intéresse.
HOUNDOGA (ENSEA) MR Linéaire Général ? 14 / 32
Modèle Propriétés des estimateurs
Théorème de Frisch, Waugh et Lovell (FWL)
Supposons que les variables explicatives soient séparées en deux
groupes représentés par les matrices X1 et X2 . Le modèle s’écrit :
Y = X1 α1 + X2 α2 + ε.
Le théorème de FWL nous dit que l’estimateur des MCO du
paramètre α2 et des résidus sont les mêmes que ceux du modèle :
M1 Y = M1 X2 α2 + ν avec M1 = I − X1 (X10 X1 )−1 X10
La matrice M1 est symétrique et idempotente (M10 M1 = M1 ), de
plus M1 X1 = 0.
Ce théorème permet de bien comprendre le problème de la
spécification d’un modèle : si une variable Y est effectivement
expliquée par le groupe de variables X1 et X2 , il faut
impérativement faire figurer dans le modèle ces deux groupes de
variables même si seul le groupe de variables X1 nous intéresse.
HOUNDOGA (ENSEA) MR Linéaire Général ? 14 / 32
Modèle Propriétés des estimateurs
Théorème de Frisch, Waugh et Lovell (FWL)
Supposons que les variables explicatives soient séparées en deux
groupes représentés par les matrices X1 et X2 . Le modèle s’écrit :
Y = X1 α1 + X2 α2 + ε.
Le théorème de FWL nous dit que l’estimateur des MCO du
paramètre α2 et des résidus sont les mêmes que ceux du modèle :
M1 Y = M1 X2 α2 + ν avec M1 = I − X1 (X10 X1 )−1 X10
La matrice M1 est symétrique et idempotente (M10 M1 = M1 ), de
plus M1 X1 = 0.
Ce théorème permet de bien comprendre le problème de la
spécification d’un modèle : si une variable Y est effectivement
expliquée par le groupe de variables X1 et X2 , il faut
impérativement faire figurer dans le modèle ces deux groupes de
variables même si seul le groupe de variables X1 nous intéresse.
HOUNDOGA (ENSEA) MR Linéaire Général ? 14 / 32
Modèle ajustement
Équation de l’analyse de la variance
Comme dans le ca de la régression simple, on montre que
l’équation fondamentale d’analyse de la variance est donnée par :
X X ¯ X
(Yi − Ȳ )2 = (Ŷ − Ŷ )2 + ε̂2i (4)
i i i
ce qu’on écrit encore
SCT = SCE + SCR
La variabilité totale (SCT) est égale à la variabilité expliquée
(SCE) + la variabilité des résidus (SCR)
HOUNDOGA (ENSEA) MR Linéaire Général ? 15 / 32
Modèle ajustement
Équation de l’analyse de la variance
L’équation 4 permet de juger de la qualité de l’ajustement d’un
modèle.
En effet, plus la variance expliquée est ”proche” de la variance
totale, meilleur est l’ajustement global du modèle.
C’est pourquoi nous calculons le rapport SCE sur SCT :
¯
(Ŷ − Ŷ )2
P P 2
2 i i ε̂i
R =P 2
=1− P 2
(5)
i (Yi − Ȳ ) i (Yi − Ȳ )
R2 est appelé le coefficient de détermination, et R le coefficient de
corrélation multiple.
R2 mesure la proportion de la variance de Y expliquée par la
régression de Y sur X.
HOUNDOGA (ENSEA) MR Linéaire Général ? 16 / 32
Modèle ajustement
Équation de l’analyse de la variance
Dans le cas de données centrées (moyenne nulle) et seulement dans
ce cas, le coefficient de détermination est égal à :
Ŷ 0 Ŷ ε̂0 ε̂
R2 = = 1 −
Y 0Y Y 0Y
Cette qualité de l’ajustement et l’appréciation que l’on a du R2
doivent être tempérées par le degré de liberté de l’estimation.
En effet, lorsque le degré de liberté est faible, il convient de
corriger le R2 afin de tenir compte du relativement faible nombre
d’observations comparé au nombre de facteurs explicatifs par le
calcul d’un R2 ”corrigé” noté R2 :
n−1
R̄2 = 1 − (1 − R2 )
n−k−1
HOUNDOGA (ENSEA) MR Linéaire Général ? 17 / 32
Tests statistiques
Plan de Chapitre
1 Présentation du modèle et Hypothèses
2 Tests statistiques
3 Utilisation des variables indicatrices
4 Prévision
HOUNDOGA (ENSEA) MR Linéaire Général ? 18 / 32
Tests statistiques
Tests de significativité globale -ANOVA
Le test de significativité globale consiste à vérifier si le modèle,
pris dans sa globalité, est pertinent.
Hypothèse nulle H0 : α1 = α2 = · · · = αk = 0
Hypothèse alternative H1 : ∃j ∈ 1, . . . , k/αj 6= 0
Statistique de test :
SCE/k R2 /k
F = = ∼ F (k, n − k − 1)
SCR/(n − k − 1) (1 − R2 )/(n − k − 1)
A partir du tableau d’analyse de la variance on peut effectuer 4
tests usuels :
• Introduction d’une ou de plusieurs variables explicatives dans le
modèle,
• stabilité des coefficients du modèle dans le temps (test de CHOW),
• test de restrictions et de contraintes sur les coefficients,
• augmentation de la taille de l’échantillon
HOUNDOGA (ENSEA) MR Linéaire Général ? 19 / 32
Tests statistiques
Tests de significativité globale -ANOVA
Remarque
Attention, seuls les coefficients associés aux variables Xj sont
inclus dans le test.
Un autre manière d’exprimer le test consiste à poser la question :
est-ce que le R2 est significativement supérieur à 0 ?
En effet, c’est bien l’influence des exogènes sur l’endogène que l’on
cherche à établir. Si H0 est vrai, on sait que α0 est égal à la
moyenne des Y .
Sauf cas particulier des variables centrées, la moyenne des Y est
non nulle. Inclure α0 dans le test fausserait les résultats.
HOUNDOGA (ENSEA) MR Linéaire Général ? 19 / 32
Tests statistiques
Tests de significativité individuelle (partiel)
Après avoir établi la significativité globale de la régression, nous
devons évaluer la pertinence des variables prises individuellement.
Hypothèses du test : H0 : αj = 0 vs H1 : αj 6= 0
Statistique de test :
αˆj
tαˆj = ∼ T (n − k − 1)
σ̂αˆj
La région critique du test pour un risque α :
RC : |tαˆj | > t1−α/2 (n − k − 1)
HOUNDOGA (ENSEA) MR Linéaire Général ? 20 / 32
Tests statistiques
Test de significativité d’un ensemble de coefficients
Pour évaluer la contribution de q variables prises simultanément,
nous introduisons un nouveau type de test.
L’hypothèse nulle du test s’écrit (sans restreindre la généralité du
propos, nous ne testons pas forcément les q premiers coefficients) :
H0 : α1 = α2 = · · · = αq
Pour résoudre ce problème, nous confrontons deux régressions :
1 celle sous hypothèse nulle, avec (k − q) variables explicatives, nous
obtenons un premier coefficient de détermination R02 ;
2 celle avec les k variables, nous obtenons R12 .
Les deux modèles sont imbriqués et, forcément, R12 ≥ R02 .
HOUNDOGA (ENSEA) MR Linéaire Général ? 21 / 32
Tests statistiques
Test de significativité d’un ensemble de coefficients
Nous posons alors la question suivante : est-ce que l’adjonction des
q exogènes supplémentaires dans la régression induit une
augmentation significative du R2 au risque α ?
Statistique de test :
(R12 − R02 )/q
F =
(1 − R12 )/(n − k − 1)
Sous H0 , elle suit une loi de Fisher à (q, n − k − 1) degrés de liberté
Si SCR0 est la somme des carrés des résidus sous la contrainte H0
et SCR1 celle de la régression incluant toutes les k variables,
forcément (SCR0 ? ? SCR1 ), alors
(SCR0 − SCR1 )/q
F =
SCR1 /(n − k − 1)
HOUNDOGA (ENSEA) MR Linéaire Général ? 22 / 32
Tests statistiques
Test sur les résidus [1]
Valeur anormale, effet de levier et point d’influence
Nous n’abordons pas ici les tests sur les résidus remettant en cause
les hypothèses d’homoscédasticité ou d’indépendance.
Ces tests seront traités plus tard.
Nous abordons, ici, trois notions qui sont proches et néanmoins
différentes dans leur conséquence sur l’estimation des paramètres
du modèle et leurs précisions.
HOUNDOGA (ENSEA) MR Linéaire Général ? 23 / 32
Tests statistiques
Test sur les résidus [1]
Valeur anormale, effet de levier et point d’influence
La matrice HAT
La matrice ”HAT”, notée H, joue un rôle essentiel dans la détection de
l’effet de levier.
H = X(X 0 X)−1 X 0
Les éléments de la première diagonale de H sont appelés les leviers.
Ils déterminent l’influence de l’observation i sur les estimations obtenues
par la régression.
Le levier est situé sur la premièrePdiagonale de cette matrice soit
n
(hi = xi (X 0 X)−1 x0i )/0 ≤ hi ≤ 1, i=1 hi = k + 1.
Le levier d’une observation i est donc anormalement élevé si : hi > 2 k+1
n .
L’observation est alors considérée comme un point de levier (leverage
point) ou point d’influence.
HOUNDOGA (ENSEA) MR Linéaire Général ? 23 / 32
Tests statistiques
Test sur les résidus [1]
Valeur anormale, effet de levier et point d’influence
Point de levier et valeur anormale
Une observation exerce un effet de levier si elle est éloignée des autres en
termes de combinaison des variables explicatives
i.e les valeurs prises par les variables explicatives, pour cette observation
de la variable à expliquer, sont inattendues.
Le point d’influence est une observation qui contribue très fortement au
pouvoir explicatif du modèle (sans cette valeur la régression peut être
non significative !)
L’observation pèse de manière exagérée dans la régression, au point que
les résultats obtenus sont très différents selon que nous l’intégrons ou non
dans la régression.
La valeur prise par la variable explicative est anormale si le résidu de
cette observation est beaucoup plus élevé que les autres résidus.
Pour identifier une valeur anormale nous pouvons calculer le résidu
standardisé utiliser les variables indicatrices.
HOUNDOGA (ENSEA) MR Linéaire Général ? 23 / 32
Tests statistiques
Test sur les résidus [1]
Valeur anormale, effet de levier et point d’influence
Résidu standardisé (ou studentisé)
Les résidus standardisés1 notés eSi permettent de détecter des
valeurs anormales.
Le résidu ε̂i est divisé par son écart type estimé pondéré par le
levier :
ε̂i
eSi = √ ∼ T (n − k − 1)
σ̂ε̂ 1 − hi
Si, par exemple, les résidus standardisés eSi sont compris dans
l’intervalle ±t0,025 (n − k − 1), on ne suspecte pas de valeurs
anormales pour un seuil de confiance 95%.
HOUNDOGA (ENSEA) MR Linéaire Général ? 23 / 32
Variables indicatrices
Plan de Chapitre
1 Présentation du modèle et Hypothèses
2 Tests statistiques
3 Utilisation des variables indicatrices
4 Prévision
HOUNDOGA (ENSEA) MR Linéaire Général ? 24 / 32
Variables indicatrices
Constitution et finalités des variables indicatrices
Une variable indicatrice est une variable explicative particulière
qui n’est composée que de 0 ou de 1.
Cette variable est utilisée lorsque, dans un modèle, nous désirons
intégrer un facteur explicatif binaire ”le phénomène a lieu ou n’a
pas lieu”.
Domaine d’utilisation des variables indicatrices.
• la correction des valeurs anormales
• modification structurelle
• intégration de la saisonnalité
• caractérisation d’un individu
• intégration de facteurs qualitatifs (appartenance d’un pays à la zone
euro, promotion non quantifiable. . . )
• etc.
HOUNDOGA (ENSEA) MR Linéaire Général ? 25 / 32
Variables indicatrices
Exemples d’utilisation
Correction de valeurs anormales
Variable qualitative
Analyse de saisonnalité (cours de séries temporelles)
HOUNDOGA (ENSEA) MR Linéaire Général ? 26 / 32
Prévision
Plan de Chapitre
1 Présentation du modèle et Hypothèses
2 Tests statistiques
3 Utilisation des variables indicatrices
4 Prévision
HOUNDOGA (ENSEA) MR Linéaire Général ? 27 / 32
Prévision
Prévision conditionnelle
Le problème consiste à déterminer quelle valeur doit être attribuée
à la variable endogène lorsque nous connaissons les valeurs des
variables exogènes.
Le modèle général estimé est le suivant :
Yi = αˆ0 + αˆ1 X1i + · · · + αˆk Xki + ε̂i
La prévision pour i + h (ou t + h pour les séries chronologiques)
est la suivante :
Ŷi+h = αˆ0 + αˆ1 X1i+h + · · · + αˆk Xki+h
L’erreur de prévision est donnée par : ε̂i+h = Yi+h − Ŷi+h
Considérant que les hypothèses du modèle linéaire général sont
vérifiées, la prévision Ŷi+h est sans biais.
HOUNDOGA (ENSEA) MR Linéaire Général ? 28 / 32
Exercice 1 ([1])
Estimation d’un modèle et tests de validité à partir de la connaissance de quelques
éléments statistiques
Sur n = 100 observations et pour trois séries (y, x1 , x2 ), nous avons les
résultats numériques suivants :
2
V (y) = 1000, ry/x1
= 0.75; rx21 /x2 = 0.45; ry/x
2
2
= 0.85; ȳ = 12
1 La régression de y sur x1 donne : ŷ = 10x1 − 6. Le coefficient de x1
est-il significativement différent de 0 ?
2 La régression de y sur x2 donne : ŷ = 4x2 + 8. Le coefficient de x2
est-il significativement différent de 0 ?
3 Calculer les coefficients du modèle : y = a0 + a1 x1 + a2 x2 + ε, et le
coefficient de corrélation multiple.
4 Les coefficients a1 et a2 sont-ils significativement différents de 0 ?
La régression est-elle globalement significative ?
Exercice 2 ([8])
On procède à l’estimation d’un modèle linéaire avec une constante. Les
informations disponibles sont :
250 0 0 500
X 0 X = 0 200 100 , X 0 y = 140 , y 0 y = 200
0 100 100 100
1 Calculer :
(a) la
P tailleP de l’échantillon
2
(b) x i1 , P xi1
x2i2
P
(c) P xi2 ,
(d) xi1 xi2
2 Calculez la droite de régression des yi en xi1 et xi2 (avec
constante).
3 Calculez la matrice variance-covariance des variables explicatives.
4 Calculez la matrice des corrélations des variables explicatives.
Références bibliographiques
Bourbonnais (2015), Econométrie, Dunod, 9è Ed.
Greene (2012), Econometric Analysis, International Edition, 7è Ed.
Wooldridge (2012), Introductory Econometrics : A modern
Approach, South-Western, 5è Ed.
Davidson R. et J.G. MacKinnon, Estimation and Inference in
Econometrics, Oxford, New York, 1993
Robin J.M., cours d’Econométrie, Maı̂trise, Paris1 – Panthéon -
Sorbonne
Crépon B, cours d’Econométrie, ENSAE
G.S. Maddala, Econometrics, McGrawHill, 1987
Yves Tillé (2008), Résumé du cours d’économétrie
Ecole Nationale Supérieure de Statistique et D’Economie Appliquée
INITIATION A L’ECONOMETRIE
Fréjus-Ferry A. HOUNDOGA
Enseignant-Chercheur / ENSEA
[Link]@[Link]
Ingénieur des Travaux Statistiques / 2020-2021
25 janvier 2021