Modèle de régression multiple en économétrie
Modèle de régression multiple en économétrie
Économétrie
Liliane Bonnal
Université de Poitiers
15 août 2018
Les chapitres : L3
1 Introduction
2 Rappels Statistiques
Chapitre 3 :
Plan
1. INTRODUCTION
3. INFERENCE
4. ANNEXE : Démonstrations
GPS
1. INTRODUCTION
3. INFERENCE
4. ANNEXE : Démonstrations
Objectif de ce chapitre :
Mesurer l’effet de chaque variable explicative Xj sur la variable à
expliquer Y : analyse "toutes choses étant égales par ailleurs" ou encore
"ceteris paribus".
Exemple du cours
GPS
1. INTRODUCTION
3. INFERENCE
4. ANNEXE : Démonstrations
GPS
Ecriture du modèle
Pour la population :
Y = β0 + β1 X1 + β2 X2 + ⋯ + βk Xk + U
où :
- β0 , β1 , ⋯, βk sont les vraies valeurs inconnues des paramètres
- β0 : paramètre associé à la constante (terme constant).
- β1 , . . . , βk : paramètres associés aux k variables explicatives
X1 , . . . , Xk
- U : terme d’erreur
Y = β1 X1 + β2 X2 + ⋯ + βk Xk + β0 + U
Ecriture du modèle
Pour l’échantillon :
Considérons un échantillon de taille n, i = 1, . . . , n
yi = β0 x0i + β1 x1i + β2 x2i + ⋯ + βk xki + ui
avec x0i = 1, ∀i (terme constant).
On peut encore écrire :
k
yi = ∑ βj xji + ui .
j=0
Les n relations sont de la forme :
y1 = β0 + β1 x11 + β2 x21 + ⋯ + βk xk1 + u1
y2 = β0 + β1 x12 + β2 x22 + ⋯ + βk xk2 + u2
⋮
yi = β0 + β1 x1i + β2 x2i +⋯+ βk xki + ui
⋮
yn = β0 + β1 x1n + β2 x2n + ⋯ + βk xkn + un
© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 12/99
MODELE, HYPOTHESES et PROPRIETES Le modèle
Ecriture matricielle
Forme générale :
y = X β + u
(n, 1) (n, k + 1) (k + 1, 1) (n, 1)
avec :
⎛ 118, 5 ⎞ ⎛ 1 70 5 ⎞ ⎛ u1 ⎞
⎜
⎜ 90, 0 ⎟
⎟
⎜ 1 45 4 ⎟
⎜ ⎟
⎜
⎜ u2 ⎟
⎟
⎜ 110, 0 ⎟ ⎜ 1 64 3 ⎟ ⎜ u3 ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ 45, 0 ⎟ ⎜ 1 25 1 ⎟ ⎜ u4 ⎟
⎜ ⎟ ⎜ ⎟ β
⎛ 0 ⎞ ⎜ ⎟
⎜ 159, 0 ⎟ ⎜ 1 74 3 ⎟ ⎜ u5 ⎟
y=⎜
⎜
⎟ X =⎜
⎟ ⎜ 1 23 1 ⎟
⎟ β = ⎜ β1 ⎟ u = ⎜
⎜
⎟
⎟
⎜ 38, 5 ⎟ ⎜ ⎟ ⎝ β2 ⎠ ⎜ u6 ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜
⎜ 230, 0 ⎟
⎟
⎜ 1 120 6 ⎟
⎜ ⎟
⎜
⎜ u7 ⎟
⎟
⎜
⎜ 185, 0 ⎟
⎟
⎜ 1 105 4 ⎟
⎜ ⎟
⎜
⎜ u8 ⎟
⎟
⎜ 99, 0 ⎟ ⎜ 1 77 4 ⎟ ⎜ u9 ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎝ 56, 0 ⎠ ⎝ 1 27 2 ⎠ ⎝ u10 ⎠
GPS
Hypothèses H1 - H4
V(ui ) = σ 2 ∀i, i = 1 . . . , n;
Cov(ui , ui′ ) = E(ui ui′ ) = 0 ∀i, i′ i =/ i′
V(u) = σ 2 In = E(uu′ ) = Ω
Hypothèses H5 - H7
H5 : Les erreurs sont iid et suivent une loi normale. Par conséquent,
d’après H2 et H4
ui ∼ N(0, σ 2 ) et u ∼ N(0, Ω)
H6 : La matrice X est de rang plein
(n, n)
⎛ σ2 0 0 ⋯ 0 ⎞ ⎛ 1 0 0 ⋯ 0 ⎞
⎜
⎜ 0 σ2 0 ⋯ 0 ⎟
⎟
⎜
⎜ 0 1 0 ⋯ 0 ⎟
⎟
Ω=⎜ 0 0 σ2 ⋯ 0 ⎟ = σ2 ⎜ 0 0 1 ⋯ 0 ⎟ = σ 2 In
⎜ ⎟ ⎜ ⎟
⎜ ⋮ ⋮ ⋮ ⋱ ⋮ ⎟ ⎜ ⋮ ⋮ ⋮ ⋱ ⋮ ⎟
⎜ ⎟ ⎜ ⎟
⎝ 0 0 0 ⋯ σ2 ⎠ ⎝ 0 0 0 ⋯ 1 ⎠
GPS
⎛ u1 ⎞
n
⎜ u2 ⎟
′
Notons que u u = (u1 u2 . . . un ) ⎜ ⎟ = u21 + u22 + ⋯ + u2n = ∑ u2i
⎜ ⋮ ⎟ i=1
⎝ un ⎠
Par conséquent β̂ est la solution du problème suivant : Min u′ u
β
⇔ Min (y − Xβ)′ (y − Xβ)
β
⇔ Min (y ′ y − y ′ Xβ − β ′ X ′ y + β ′ X ′ Xβ)
β
EMCO
CIO :
∂S(β)
= 0 ⇔ −2X ′ y + 2(X ′ X)β = 0
∂β
⇔ (X ′ X)β = X ′ y
⇔ β̂ = (X ′ X)−1 X ′ y
β̂ = (X ′ X)−1 X′ y
(k + 1, 1) (k + 1, k + 1) (k + 1, n) (n, 1)
C2O :
∂ 2 S(β)
= 2(X ′ X) > 0 si (X ′ X) définie positive ⇒ On a bien un minimum
∂β∂β ′
© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 22/99
MODELE, HYPOTHESES et PROPRIETES Estimation par MCO
̂ = β, calculons
On sait qu’un estimateur sans biais est tel que E(β)
̂
E(β)
⎡ n n ⎤
⎢
⎢ n ∑ X1i ... ∑ Xki ⎥
⎥
⎢ i=1 i=1 ⎥
⎢ n n n ⎥
⎢ 2 ⎥
⎢ ∑ X1i ∑ X1i . . . ∑ X1i Xki ⎥
⎢ ⎥
⎢ i=1 i=1 i=1 ⎥
X ′X = ⎢ n n n
⎢ ⎥
⎥
⎢ ∑ X2i ∑ X2i X1i . . . ∑ X2i Xki ⎥
⎢ ⎥
⎢ i=1 i=1 i=1 ⎥
⎢ ⋮ ⋮ ⋱ ⋮ ⎥
⎢ ⎥
⎢ n n n ⎥
⎢ 2 ⎥
⎢ ∑ Xki ∑ Xki X1i ⋯ ∑ Xki ⎥
⎢ ⎥
⎣ i=1 i=1 i=1 ⎦
⎛ 1131 ⎞ ⎛ 10 630 33 ⎞
X ′ y = ⎜ 89321.5 ⎟ X ′ X = ⎜ 630 49734 2494 ⎟
⎝ 4471 ⎠ ⎝ 33 2494 133 ⎠
Exemple :l’EMCO
⎛ 0.555192 ⎞
̂ ′ −1 ′
β = (X X) X y = ⎜ 1.845909 ⎟
⎝ −1.129696 ⎠
GPS
Distribution de β̂
̂ :β
E(β)
̂ : estimée par V(
V(β) ̂ β) σ 2 (X ′ X)−1 avec
̂ =̂
⎛ ̂ β̂0 )
V( ̂ β̂0 , β̂1 )
Cov( ̂ β̂0 , β̂k )
⋯ Cov( ⎞
⎜ ̂ ̂ ̂ ̂ β̂1 ) ̂ β̂1 , β̂k ))
̂ = ⎜ Cov(β1 , β0 ) V( ⋯ Cov( ⎟
̂ β)
V( ⎟
⎜ ⋮ ⋮ ⋱ ⋮ ⎟
⎜ ⎟
̂ β̂k , β̂0 ) Cov(
⎝ Cov( ̂ β̂k , β̂1 ) ⋯ ̂ β̂k )
V( ⎠
(k + 1, k + 1)
̂ β)
V( ̂ est une matrice carré, symétrique de dimension (k + 1), le
nombre de paramètres à estimer.
⇒ β̂ ∼ N (β, V(β))
̂
Distribution de β̂j , j = 1, . . . , k + 1
β̂j − βj (β̂j − βj )2
zj = √ ∼ N (0, 1) ⇔ ∼ χ21
σ 2 ajj σ 2 ajj
β̂j − βj
Mais σ 2 inconnu ⇒ tj = √ ∼ tn−(k+1)
σ 2 ajj
̂
GPS
Analyse de la variance
Dans le modèle à 1 seule variable explicative (cf. chapitre 2) nous avons
montré la relation :
n n n
2 2 2
∑(yi − ȳ) = ∑(ŷi − ȳ) + ∑ ûi (EQ1)
i=1 i=1 i=1
avec ŷ = y.
Etant donnée que E(u) = E(̂
u) = 0 on a ŷ = y, ∀ le nombre de variables
explicatives .
Montrons que la relation (EQ1) est vraie pour k > 1
n
Calculons tout d’abord ∑ yi2 = y ′ y = (̂ ̂)′ (̂
y+u y+u
̂)
i=1
′ ′
y y = (ŷ + û) (ŷ + û)
= ŷ ′ ŷ + ŷ ′ û + û′ ŷ + û′ û
= ŷ ′ ŷ + û′ û + 2û′ ŷ
=0
?
© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 35/99
MODELE, HYPOTHESES et PROPRIETES Mesure de la qualité de l’ajustement
̂′ ŷ = 0
Montrons que u
̂′ ŷ = (y − ŷ)′ ŷ =
u (y − X β) ̂ ′ (X β)̂
′ ̂ ̂′ ′ ̂
= y Xβ − β X Xβ
= y ′ X β̂ − y ′ X(X ′ X)−1 X ′ X β̂
= y ′ X β̂ − y ′ X β̂
= 0
On a donc :
n n n
y ′ y = ŷ ′ ŷ + û′ û ⇔ ∑ yi2 = ∑ ŷi2 + ∑ û2i
i=1 i=1 i=1
2
Si l’on ajoute et retranche ny
n n n
2 2 2 2 2
∑ yi − ny = ∑ ŷi − ny + ∑ ûi
i=1 i=1 i=1
n n n
⇔ ∑(yi − y)2 = ∑(ŷi − y)2 + ∑ û2i
i=1 i=1 i=1
ST C SCE SCR
© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 36/99
MODELE, HYPOTHESES et PROPRIETES Mesure de la qualité de l’ajustement
Le R2
y1 = X1 β1 + u1 et y2 = X2 β2 + u2
(n1 ,1) (n1 ,k1 )(k1 ,1) (n1 ,1) (n2 ,1) (n2 ,k2 )(k2 ,1) (n2 ,1)
GPS
1. INTRODUCTION
3. INFERENCE
4. ANNEXE : Démonstrations
GPS
3. INFERENCE
3.1 Tests d’hypothèses
3.2 Prévisions ou Prédictions
GPS
3. INFERENCE
3.1 Tests d’hypothèses
Test sur un paramètre
Tests sur plusieurs paramètres
3.2 Prévisions ou Prédictions
Test de significativité de βj , j = 0, . . . , k
Objectif de ce test : Mesurer l’impact de la variable xj dans le modèle
1 On pose le test
H0 ∶ βj = 0
H1 ∶ βj =/ 0
2 On calcule la valeur empirique du test
β̂j − 0
temp = √ ∼ tn−(k+1)
σ 2 ajj
̂
3 On compare la valeur théorique du test à la valeur empirique. On
peut aussi comparer la probabilité limite associée à la valeur
empirique au α que l’on s’est fixé.
IC de βj à 100(1 − α)%
√ √
IC ∶ [β̂j − tα/2 ̂σ 2 ajj ; β̂j + tα/2 ̂σ 2 ajj ]
∂E(yi )
βj =
∂xji
Remarques :
Les paramètres estimés dépendent des unités des variables.
∂E(yi ) xj ̂ xj
On peut aussi estimer des élasticités : ξy,xj = × = βj ×
∂xji y y
Toutes choses restant égales par ailleurs, l’élasticité indique de
combien varie en % y quand xj varie de 1 %, elle se calcule à partir
de β̂j .
β̂j mesure directement l’élasticité si la variable à expliquer et la
variable explicative xj sont mesurées en logarithme.
Test bilatéral
1 On pose le test
H0 ∶ βj = βj0
H1 ∶ βj =/ βj0
2 On calcule la valeur empirique du test
β̂j − βj0
temp = √ ∼ tn−(k+1) pour un niveau d’erreur α/2
σ 2 ajj
̂
3 On compare la valeur théorique du test à la valeur absolue du t
empirique. On peut aussi comparer la probabilité limite associée à la
valeur empirique au α que l’on s’est fixé.
Exemple H0 ∶ β1 = 2; H1 ∶ β1 ≠ 2
Test bilatéral
1 valeur empirique de la statistique :
1.84563 − 2
temp = = −0.426 ∼ t7 ddl = 2.3646
0.36236
2 Conclusion du test
- D’après la table ∣temp ∣ < t7 ⇔ 0.426 < 2.3646 ⇒ On ne rejette pas H0
Exemple H0 ∶ β1 = 2; H1 ∶ β1 ≠ 2
Test Unilatéral
1 On pose le test
H0 ∶ βj = βj0
H1 ∶ βj > βj0
2 On calcule la valeur empirique du test
β̂j − βj0
temp = √ ∼ tn−(k+1) pour un niveau d’erreur α
σ 2 ajj
̂
La valeur théorique à considérer est la valeur positive.
3 On compare la valeur théorique du test à la valeur empirique. On
peut aussi comparer la probabilité limite associée à la valeur
empirique au α/2 que l’on s’est fixé.
Exemple H0 ∶ β1 = 2; H1 ∶ β1 > 2
Test Unilatéral
1 valeur empirique de la statistique :
1.84563 − 2
temp = = −0.426 ∼ t7 ddl = 1.8946
0.36236
2 Conclusion du test
- D’après la table temp < t7 ⇔ −0.426 < 1.8946 ⇒ On ne rejette pas H0
- avec SAS :
CODE SAS : Test sur un paramètre
proc reg data=toto.ExempleCoursChap3 ;
model prix = surface nbpieces / i clb ;
test surface = 2 ;
run ;
quit ;
Exemple H0 ∶ β1 = 2; H1 ∶ β1 > 2
On regarde ici la p-value > 0.10 ⇒, On ne rejette pas H0. Il faut comparer
à 0.10 car SAS fait toujours des tests bilatéraux. Rappel : si l’on part
d’une table bilatérale, on doit multiplier par 2 le α et chercher la valeur
théorique associé à 10% si le α est de 5 %.
Test Unilatéral
1 On pose le test
H0 ∶ βj = βj0
H1 ∶ βj < βj0
2 On calcule la valeur empirique du test
β̂j − βj0
temp = √ ∼ tn−(k+1) pour un niveau d’erreur α
σ 2 ajj
̂
La valeur théorique à considérer est la valeur négative.
3 On compare la valeur théorique du test à la valeur empirique. On
peut aussi comparer la probabilité limite associée à la valeur
empirique au α/2 que l’on s’est fixé.
Exemple H0 ∶ β1 = 2; H1 ∶ β1 < 2
Test Unilatéral
1 valeur empirique de la statistique :
1.84563 − 2
temp = = −0.426 ∼ t7 ddl = −1.8946
0.36236
2 Conclusion du test
- D’après la table temp > t7 ⇔ −0.426 > −1.8946 ou encore
∣temp ∣ < ∣t7 ∣ ⇔ 0.426 < 2.3646 ⇒ On ne rejette pas H0
- avec SAS :
CODE SAS : Test sur un paramètre
proc reg data=toto.ExempleCoursChap3 ;
model prix = surface nbpieces / i clb ;
test surface = 2 ;
run ;
quit ;
Exemple H0 ∶ β1 = 2; H1 ∶ β1 < 2
GPS
3. INFERENCE
3.1 Tests d’hypothèses
Test sur un paramètre
Tests sur plusieurs paramètres
3.2 Prévisions ou Prédictions
Distribution de β
On sait que :
β̂ ∼ N (β, σ 2 (X ′ X)−1 )
⇒ (β̂ − β) ∼ N (0, σ 2 (X ′ X)−1 )
On peut en déduire que :
−1 1 ̂
(β̂ − β)′ [σ 2 (X ′ X)−1 ] (β̂ − β) = 2
(β − β)′ (X ′ X)(β̂ − β) = A1 ∼ χ2k+1
σ
ddl : nombre de paramètres à estimer
σ2
̂
σ 2 inconnu et [n − (k + 1)] 2 = A2 ∼ χ2n−(k+1)
σ
On sait que
A1
ddlA1
f= ∼ F (ddlA1 , ddlA2 )
A2
ddlA2
© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 59/99
INFERENCE Tests d’hypothèses
Distribution de β
1 On pose le test
H0 ∶ β = β0
H1 ∶ β ≠ β0
⇒ On réalise k + 1 tests simultanés sur les paramètres
Sous H0, la statistique empirique est égale à :
(β̂ − β0 )′ (X ′ X)(β̂ − β0 )
femp = ∼ F (k + 1, n − (k + 1))
(k + 1)̂ σ2
2 On compare la valeur empirique du test à la valeur théorique du Fisher
- Si femp > Fth pour un α donné, on rejette H0
- Si femp < Fth pour un α donné, on ne rejette pas H0.
C β = c
(r,k+1)(k+1,1) (r,1)
H0 ∶ y = Xβ + u sous contrainte Cβ = c
H1 ∶ y = Xβ + u
© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 62/99
INFERENCE Tests d’hypothèses
Notons
β̂c : l’estimateur de β associé au modèle contraint (sous H0) ;
β̂nc : l’estimateur de β associé au modèle non contraint (sous H1)
Distribution de Cβ
On sait que β̂nc ∼ N (β, σ 2 (X ′ X)−1 )
On peut en déduire que :
β̂c = C β̂nc ∼ N (Cβ, σ 2 C(X ′ X)−1 C ′ = σ 2 Σ)
(r,k+1) (k+1,1)
SCRc − SCRnc
ddlc − ddlnc
(F 2) ∶ f = ∼ F (ddlc − ddlnc ; ddlnc )
SCRnc
ddlnc
© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 64/99
INFERENCE Tests d’hypothèses
Calcul de la statistique f
Conclusion du test
- Si femp > Fth , on rejette H0, le modèle non contraint est préféré au
modèle contraint.
- Si femp < Fth , on ne rejette pas H0, on peut donc conclure que la
perte d’explication engendrée par l’imposition des contraintes est non
significative.
H0 ∶ β1 = β2 = ⋯ = βk = 0
H1 ∶ au moins un des βj , j = 1, ⋯, k + 1est différent de 0
Reprise de l’exemple
H0 ∶ β1 = β2 = 0
H1 ∶ au moins un des βj , (β1 et/ou β2 sont différents de 0)
3 Conclusion
femp = 42.72 > Fth = 4.737 : On rejette H0.
Au moins un des paramètres de la régression est significativement
différent de 0.
On peut aussi regarder la valeur de la probabilité associée à la valeur
empirique du test.
Les probabilités limites sont toutes inférieures à 0.05, on rejette donc
H0.
H0 ∶ β1 = β2
H1 ∶ β1 ≠ β2
CODE SAS :
1. Création de la nouvelle base de données
data toto.ExempleCoursChap3bis ;
set toto.ExempleCoursChap3 ;
surfpieces=surface+nbpieces ;
run ;
2. Régression avec la contrainte (nouvelle variable)
proc reg data=toto.ExempleCoursChap3bis ;
model prix = surfpieces ;
run ;
quit ;
GPS
3. INFERENCE
3.1 Tests d’hypothèses
3.2 Prévisions ou Prédictions
A partir des valeurs estimées des paramètres on peut calculer les valeurs
prédites : ŷi = β̂0 + β̂1 x1i + ⋯ + β̂k xki , ∀i = 1, . . . , n
ou encore ŷ = X β̂
Avec ûi = yi − ŷi ou encore u
̂ = y − ŷ
On peut alors en déduire des prédictions et leur erreur pour un vecteur de
Exemple : Prédictions
Exemple 2 : questions
GPS
1. INTRODUCTION
3. INFERENCE
4. ANNEXE : Démonstrations
′
V (β ∗ ) = σ 2 [B ∗ B ∗ + (X ′ X)−1 ] > σ 2 (X ′ X)−1 = V (β)
̂
′
MX = [In − X(X ′ X)−1 X ′ ] = In − X(X ′ X)−1 X ′ = MX
MX MX = [In − X(X ′ X)−1 X ′ ] [In − X(X ′ X)−1 X ′ ]
= In − X(X ′ X)−1 X ′ − X(X ′ X)−1 X ′ + X(X ′ X)−1 X ′ X(X ′ X)−1 X ′
= In − X(X ′ X)−1 X ′ = MX
Propriétés de la trace d’une matrice A (carré), notée tr(A).
La trace est la somme des éléments de la diagonale.
tr(A) = tr(A′ )
tr(A + B) = tr(A) + tr(B)
tr(λA) = λtr(A)
tr(ABC) = tr(BCA) = tr(CAB)
tr(E(X)) = E(tr(X))
û′ û
σ2 =
̂ est un estimateur sans biais de σ 2
n − (k + 1)
Calculons û′ û. Commençons par û
̂ = y − X(X ′ X)−1 X ′ y = [In − X(X ′ X)−1 X ′ ] y = MX y
û = y − ŷ = y − X β
⇒ û′ û = y ′ MX MX y = y ′ MX y
Sachant que y = Xβ + u, on a :
̂0i
Autre calcul de la Variance de u