0% ont trouvé ce document utile (0 vote)
14 vues99 pages

Modèle de régression multiple en économétrie

Ce document présente un cours d'économétrie axé sur le modèle de régression multiple, abordant les concepts clés tels que les hypothèses, l'inférence et les propriétés du modèle. Il illustre comment intégrer plusieurs variables explicatives pour analyser l'impact sur une variable dépendante, en utilisant des exemples pratiques. Le texte inclut également des démonstrations et des notations mathématiques pour une compréhension approfondie.

Transféré par

Olbichou Klick
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
14 vues99 pages

Modèle de régression multiple en économétrie

Ce document présente un cours d'économétrie axé sur le modèle de régression multiple, abordant les concepts clés tels que les hypothèses, l'inférence et les propriétés du modèle. Il illustre comment intégrer plusieurs variables explicatives pour analyser l'impact sur une variable dépendante, en utilisant des exemples pratiques. Le texte inclut également des démonstrations et des notations mathématiques pour une compréhension approfondie.

Transféré par

Olbichou Klick
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Cours Licence Économie 3 Econométrie

Économétrie
Liliane Bonnal
Université de Poitiers

15 août 2018

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 1/99


Cours Licence Économie 3 Econométrie

Les chapitres : L3

1 Introduction

2 Rappels Statistiques

3 Le modèle de régression simple

4 Le modèle de régression multiple

5 Prolongements du modèle de régression classique

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 2/99


Cours Licence Économie 3 Econométrie

Chapitre 3 :

"le modèle de régression multiple"

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 3/99


Cours Licence Économie 3 Plan

Plan

1. INTRODUCTION

2. MODELE, HYPOTHESES et PROPRIETES

3. INFERENCE

4. ANNEXE : Démonstrations

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 4/99


INTRODUCTION

GPS

1. INTRODUCTION

2. MODELE, HYPOTHESES et PROPRIETES

3. INFERENCE

4. ANNEXE : Démonstrations

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 5/99


INTRODUCTION

Limite du modèle de régression simple

Reprenons les 2 exemples présentés dans le chapitre 2.


Limite de la modélisation retenue : on peut penser que
le prix d’un appartement ne dépend pas que de la surface.
Le niveau de salaire horaire ne dépend pas que du nombre d’années
d’études ou de manière équivalente le salaire hebdomadaire ne dépend
pas que du nombre d’heures travaillées.
Nous allons voir dans ce chapitre comment introduire plusieurs variables
explicatives continues.
Nous allons reprendre l’exemple du prix d’un appartement et nous allons
rajouter une variable supplémentaire continue : le nombre de pièces.

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 6/99


INTRODUCTION

Analyse "toutes choses étant égales par ailleurs"

Objectif de ce chapitre :
Mesurer l’effet de chaque variable explicative Xj sur la variable à
expliquer Y : analyse "toutes choses étant égales par ailleurs" ou encore
"ceteris paribus".

Nous allons supposer que vous avons k variables explicatives :


X1 , X2 , ⋯; Xk , Xj , j = 1, ⋯, k.
Nous allons avoir une écriture matricielle du modèle : généralisation
du modèle présenté dans le chapitre 2.

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 7/99


INTRODUCTION

Exemple du cours

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 8/99


MODELE, HYPOTHESES et PROPRIETES

GPS

1. INTRODUCTION

2. MODELE, HYPOTHESES et PROPRIETES

3. INFERENCE

4. ANNEXE : Démonstrations

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 9/99


MODELE, HYPOTHESES et PROPRIETES Le modèle

GPS

2. MODELE, HYPOTHESES et PROPRIETES


2.1 Le modèle
2.2 Les hypothèses
2.3 Estimation par MCO
2.4 propriétés des EMCO
2.5 Mesure de la qualité de l’ajustement

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 10/99


MODELE, HYPOTHESES et PROPRIETES Le modèle

Ecriture du modèle
Pour la population :

Y = β0 + β1 X1 + β2 X2 + ⋯ + βk Xk + U

où :
- β0 , β1 , ⋯, βk sont les vraies valeurs inconnues des paramètres
- β0 : paramètre associé à la constante (terme constant).
- β1 , . . . , βk : paramètres associés aux k variables explicatives
X1 , . . . , Xk
- U : terme d’erreur

Remarque : Autre écriture possible

Y = β1 X1 + β2 X2 + ⋯ + βk Xk + β0 + U

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 11/99


MODELE, HYPOTHESES et PROPRIETES Le modèle

Ecriture du modèle
Pour l’échantillon :
Considérons un échantillon de taille n, i = 1, . . . , n
yi = β0 x0i + β1 x1i + β2 x2i + ⋯ + βk xki + ui
avec x0i = 1, ∀i (terme constant).
On peut encore écrire :
k
yi = ∑ βj xji + ui .
j=0
Les n relations sont de la forme :
y1 = β0 + β1 x11 + β2 x21 + ⋯ + βk xk1 + u1
y2 = β0 + β1 x12 + β2 x22 + ⋯ + βk xk2 + u2

yi = β0 + β1 x1i + β2 x2i +⋯+ βk xki + ui

yn = β0 + β1 x1n + β2 x2n + ⋯ + βk xkn + un
© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 12/99
MODELE, HYPOTHESES et PROPRIETES Le modèle

Ecriture matricielle

Forme générale :

y = X β + u
(n, 1) (n, k + 1) (k + 1, 1) (n, 1)
avec :

⎛ y1 ⎞ ⎛ 1 x11 x21 . . . xk1 ⎞ ⎛ u1 ⎞


⎛ β0 ⎞
⎜ y2 ⎟ ⎜ 1 x12 x22 . . . xk2 ⎟ ⎜ u2 ⎟









⎜ β1 ⎟





⋮ ⎟ X =⎜ ⋮ ⋮
y=⎜
⎜ ⎟ ⎜ 1 x
⎟ β=⎜ β2 ⎟ u=⎜ ⎟
⎜ yi ⎟ ⎜ 1i x2i . . . xki ⎟






⎜ ui ⎟

⎜ ⎟ ⎜ ⎟ ⎜ ⋮ ⎟ ⎜ ⎟
⎜ ⋮ ⎟ ⎜ ⋮ ⎟ ⎜ ⋮ ⎟
⎝ βk ⎠
⎝ yn ⎠ ⎝ 1 x1n x2n . . . xkn ⎠ ⎝ un ⎠

(n, 1) (n, k + 1) (k+ 1, 1) (n, 1)

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 13/99


MODELE, HYPOTHESES et PROPRIETES Le modèle

Exemple : n = 10 ; Y =prix ; X1 =surface ; X2 =nbpieces

⎛ 118, 5 ⎞ ⎛ 1 70 5 ⎞ ⎛ u1 ⎞

⎜ 90, 0 ⎟

⎜ 1 45 4 ⎟
⎜ ⎟

⎜ u2 ⎟

⎜ 110, 0 ⎟ ⎜ 1 64 3 ⎟ ⎜ u3 ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ 45, 0 ⎟ ⎜ 1 25 1 ⎟ ⎜ u4 ⎟
⎜ ⎟ ⎜ ⎟ β
⎛ 0 ⎞ ⎜ ⎟
⎜ 159, 0 ⎟ ⎜ 1 74 3 ⎟ ⎜ u5 ⎟
y=⎜

⎟ X =⎜
⎟ ⎜ 1 23 1 ⎟
⎟ β = ⎜ β1 ⎟ u = ⎜



⎜ 38, 5 ⎟ ⎜ ⎟ ⎝ β2 ⎠ ⎜ u6 ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟

⎜ 230, 0 ⎟

⎜ 1 120 6 ⎟
⎜ ⎟

⎜ u7 ⎟


⎜ 185, 0 ⎟

⎜ 1 105 4 ⎟
⎜ ⎟

⎜ u8 ⎟

⎜ 99, 0 ⎟ ⎜ 1 77 4 ⎟ ⎜ u9 ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎝ 56, 0 ⎠ ⎝ 1 27 2 ⎠ ⎝ u10 ⎠

(10, 1) (10, 3) (3, 1) (10, 1)

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 14/99


MODELE, HYPOTHESES et PROPRIETES Les hypothèses

GPS

2. MODELE, HYPOTHESES et PROPRIETES


2.1 Le modèle
2.2 Les hypothèses
2.3 Estimation par MCO
2.4 propriétés des EMCO
2.5 Mesure de la qualité de l’ajustement

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 15/99


MODELE, HYPOTHESES et PROPRIETES Les hypothèses

Hypothèses H1 - H4

H1 : La relation entre y et X est linéaire


H2 : Hypothèses sur les variables explicatives X1 , . . . , Xk
Comme dans le modèle simple, soit on travaille conditionnellement
aux X, soit les variables sont exogènes ⇒
Cov(ui , xji ) = 0, ∀i = 1, . . . , n et ∀j = 1, . . . , k
E(u∣X) = E(u) = 0
H3 : E(y∣X) = Xβ (d’après H2)
H4 : Les erreurs sont indépendantes et homoscédastiques :

V(ui ) = σ 2 ∀i, i = 1 . . . , n;
Cov(ui , ui′ ) = E(ui ui′ ) = 0 ∀i, i′ i =/ i′
V(u) = σ 2 In = E(uu′ ) = Ω

où In est la matrice identité d’ordre n


© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 16/99
MODELE, HYPOTHESES et PROPRIETES Les hypothèses

Hypothèses H5 - H7

H5 : Les erreurs sont iid et suivent une loi normale. Par conséquent,
d’après H2 et H4
ui ∼ N(0, σ 2 ) et u ∼ N(0, Ω)
H6 : La matrice X est de rang plein

Rang (X) = k+1


(n, k + 1)
⇒ Pas de colinéarité parfaite entre les variables explicatives
Mathématiquement cela signifie que l’on n’a pas de combinaisons
linéaires entre les colonnes de la matrice X.
⇒ X ′ X est non singulière ⇒ (X ′ X)−1 ∃
H7 : Le nombre d’observations doit être supérieur au nombre de
paramètres à estimer : n ≥ k + 1

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 17/99


MODELE, HYPOTHESES et PROPRIETES Les hypothèses

matrice des variances-covariances, Ω

⎛ V(u1 ) Cov(u1 , u2 ) ⋯ Cov(u1 , un ) ⎞


⎜ Cov(u2 , u1 ) V(u2 ) ⋯ Cov(u2 , un ) ⎟
V (u) = Ω = ⎜ ⎟
⎜ ⋮ ⋮ ⋱ ⋮ ⎟
⎝ Cov(un , u1 ) Cov(un , u2 ) ⋯ V(un ) ⎠

(n, n)

⎛ σ2 0 0 ⋯ 0 ⎞ ⎛ 1 0 0 ⋯ 0 ⎞

⎜ 0 σ2 0 ⋯ 0 ⎟


⎜ 0 1 0 ⋯ 0 ⎟

Ω=⎜ 0 0 σ2 ⋯ 0 ⎟ = σ2 ⎜ 0 0 1 ⋯ 0 ⎟ = σ 2 In
⎜ ⎟ ⎜ ⎟
⎜ ⋮ ⋮ ⋮ ⋱ ⋮ ⎟ ⎜ ⋮ ⋮ ⋮ ⋱ ⋮ ⎟
⎜ ⎟ ⎜ ⎟
⎝ 0 0 0 ⋯ σ2 ⎠ ⎝ 0 0 0 ⋯ 1 ⎠

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 18/99


MODELE, HYPOTHESES et PROPRIETES Estimation par MCO

GPS

2. MODELE, HYPOTHESES et PROPRIETES


2.1 Le modèle
2.2 Les hypothèses
2.3 Estimation par MCO
2.4 propriétés des EMCO
2.5 Mesure de la qualité de l’ajustement

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 19/99


MODELE, HYPOTHESES et PROPRIETES Estimation par MCO

Notons Mi le point ayant pour coordonnées le vecteur de k + 1 élément


(yi , x1i , x2i , ⋯, xki ).
Objectif de ce chapitre :
Estimer le vecteur de paramètres β tel que l’hyperplan d’équation
passe le plus près possible de tous les points Mi .

ŷi = β̂0 + β̂1 x1i + β̂2 x2i + ⋯ + β̂k xki

Minimiser la somme des carrés des erreurs ⇐⇒ Déterminer le vecteur


de paramètres β̂ qui minimisent cette somme.
n
⇔ β̂ = Min ∑ u2i .
β i=1

β̂ est la solution d’un système à k + 1 paramètres inconnus (équations


normales)

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 20/99


MODELE, HYPOTHESES et PROPRIETES Estimation par MCO

⎛ u1 ⎞
n
⎜ u2 ⎟

Notons que u u = (u1 u2 . . . un ) ⎜ ⎟ = u21 + u22 + ⋯ + u2n = ∑ u2i
⎜ ⋮ ⎟ i=1
⎝ un ⎠
Par conséquent β̂ est la solution du problème suivant : Min u′ u
β
⇔ Min (y − Xβ)′ (y − Xβ)
β
⇔ Min (y ′ y − y ′ Xβ − β ′ X ′ y + β ′ X ′ Xβ)
β

Remarque : faire toujours attention aux dimensions des matrices


⇔ Min (y ′ y − 2β ′ X ′ y + β ′ X ′ Xβ).
β
⇔ Min S(β)
β

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 21/99


MODELE, HYPOTHESES et PROPRIETES Estimation par MCO

EMCO
CIO :
∂S(β)
= 0 ⇔ −2X ′ y + 2(X ′ X)β = 0
∂β

⇔ (X ′ X)β = X ′ y

⇔ β̂ = (X ′ X)−1 X ′ y

⇒ Si H6 est vérifiée (X ′ X)−1 ∃ ⇒ β̂ ∃

β̂ = (X ′ X)−1 X′ y
(k + 1, 1) (k + 1, k + 1) (k + 1, n) (n, 1)
C2O :
∂ 2 S(β)
= 2(X ′ X) > 0 si (X ′ X) définie positive ⇒ On a bien un minimum
∂β∂β ′
© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 22/99
MODELE, HYPOTHESES et PROPRIETES Estimation par MCO

Propriétés des EMCO

Les EMCO sont sans biais


Réécrivons β̂

=β̂ (X ′ X)−1 X ′ y = (X ′ X)−1 X ′ (Xβ + u)


= (X ′ X)−1 (X ′ X)β + (X ′ X)−1 X ′ u.
= β + (X ′ X)−1 X ′ u
̂
β−β = (X ′ X)−1 X ′ u.

̂ = β, calculons
On sait qu’un estimateur sans biais est tel que E(β)
̂
E(β)

̂ = E(β + (X ′ X)−1 X ′ u) = E(β) + E ((X ′ X)−1 X ′ u)


E(β)
= β + (X ′ X)−1 X ′ E(u)
= β.

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 23/99


MODELE, HYPOTHESES et PROPRIETES Estimation par MCO

Propriétés des EMCO


Les EMCO sont efficaces : leur variance est minimale (cf.
̂ On peut
démonstration). Nous devons calculer la variance de β.
calculer de deux façons cette variance :
Méthode 1 :
̂ = V ((X ′ X)−1 X ′ y)
V (β)
= (X ′ X)−1 X ′ V (Y ) X(X ′ X)−1
= σ 2 (X ′ X)−1 X ′ In X (X ′ X)−1
= σ 2 (X ′ X)−1 (X ′ X) (X ′ X)−1
̂ = σ 2 (X ′ X)−1
V (β)
Méthode 2 :
̂ =
V (β) E [(β̂ − β)(β̂ − β)′ ]
= E [(X ′ X)−1 X ′ u u′ X(X ′ X)−1 ]
= (X ′ X)−1 X ′ E(uu′ ) X(X ′ X)−1
= σ 2 (X ′ X)−1 X ′ X (X ′ X)−1
= σ 2 (X ′ X)−1
© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 24/99
MODELE, HYPOTHESES et PROPRIETES Estimation par MCO

Propriétés de la matrice des variances-covariances

X ′ X : matrice est symétrique et d’ordre (k + 1, k + 1)

⎡ n n ⎤

⎢ n ∑ X1i ... ∑ Xki ⎥

⎢ i=1 i=1 ⎥
⎢ n n n ⎥
⎢ 2 ⎥
⎢ ∑ X1i ∑ X1i . . . ∑ X1i Xki ⎥
⎢ ⎥
⎢ i=1 i=1 i=1 ⎥
X ′X = ⎢ n n n
⎢ ⎥

⎢ ∑ X2i ∑ X2i X1i . . . ∑ X2i Xki ⎥
⎢ ⎥
⎢ i=1 i=1 i=1 ⎥
⎢ ⋮ ⋮ ⋱ ⋮ ⎥
⎢ ⎥
⎢ n n n ⎥
⎢ 2 ⎥
⎢ ∑ Xki ∑ Xki X1i ⋯ ∑ Xki ⎥
⎢ ⎥
⎣ i=1 i=1 i=1 ⎦

(X ′ X)−1 : matrice symétrique et d’ordre (k + 1, k + 1)

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 25/99


MODELE, HYPOTHESES et PROPRIETES Estimation par MCO

Estimation de la variance des erreurs

σ 2 est inconnu ⇒ V(β)


̂ est inconnue
Estimation de σ 2 (généralisation de la formule du chapitre 2)
On peut montrer (voir démonstration) que l’estimateur de σ 2 est
égale à :
û′ û SCR
σ̂ 2 = =
n − (k + 1) Nb d’obs − Nb de paramètres à estimer

(k + 1) est le nombre de paramètres à estimer.


Cet estimateur est sans biais.

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 26/99


MODELE, HYPOTHESES et PROPRIETES Estimation par MCO

Exemple : Statistiques descriptives

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 27/99


MODELE, HYPOTHESES et PROPRIETES Estimation par MCO

Exemple : Les matrices X ′ X, X ′ y et (X ′ X)−1


A partir des statistiques descriptives on peut recalculer les matrices
suivantes.
~
Les variances calculées par SAS sont des variances empiriques
(variances de l’échantillon)
Tous les chiffres après la virgule de (X ′ X)−1 n’ont pas été reportés.

⎛ 1131 ⎞ ⎛ 10 630 33 ⎞
X ′ y = ⎜ 89321.5 ⎟ X ′ X = ⎜ 630 49734 2494 ⎟
⎝ 4471 ⎠ ⎝ 33 2494 133 ⎠

⎛ 0.56502290 −0.00213072 −0.10023856 ⎞


(X ′ X)−1 = ⎜ −0.00213072 0.00034510 −0.00594254 ⎟
⎝ −0.10023856 −0.00594254 0.14382391 ⎠

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 28/99


MODELE, HYPOTHESES et PROPRIETES Estimation par MCO

Exemple :l’EMCO

⎛ 0.555192 ⎞
̂ ′ −1 ′
β = (X X) X y = ⎜ 1.845909 ⎟
⎝ −1.129696 ⎠

CODE SAS : Estimation avec 2 variables explicatives


proc reg data=toto.ExempleCoursChap3 ;
model prix = surface nbpieces / i clb ;
run ;
quit ;

Option : i permet de faire afficher la matrice (X ′ X)−1

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 29/99


MODELE, HYPOTHESES et PROPRIETES Estimation par MCO

Exemple : Résultats de l’estimation

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 30/99


MODELE, HYPOTHESES et PROPRIETES propriétés des EMCO

GPS

2. MODELE, HYPOTHESES et PROPRIETES


2.1 Le modèle
2.2 Les hypothèses
2.3 Estimation par MCO
2.4 propriétés des EMCO
2.5 Mesure de la qualité de l’ajustement

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 31/99


MODELE, HYPOTHESES et PROPRIETES propriétés des EMCO

Distribution de β̂
̂ :β
E(β)
̂ : estimée par V(
V(β) ̂ β) σ 2 (X ′ X)−1 avec
̂ =̂

⎛ ̂ β̂0 )
V( ̂ β̂0 , β̂1 )
Cov( ̂ β̂0 , β̂k )
⋯ Cov( ⎞
⎜ ̂ ̂ ̂ ̂ β̂1 ) ̂ β̂1 , β̂k ))
̂ = ⎜ Cov(β1 , β0 ) V( ⋯ Cov( ⎟
̂ β)
V( ⎟
⎜ ⋮ ⋮ ⋱ ⋮ ⎟
⎜ ⎟
̂ β̂k , β̂0 ) Cov(
⎝ Cov( ̂ β̂k , β̂1 ) ⋯ ̂ β̂k )
V( ⎠

(k + 1, k + 1)
̂ β)
V( ̂ est une matrice carré, symétrique de dimension (k + 1), le
nombre de paramètres à estimer.

⇒ β̂ ∼ N (β, V(β))
̂

Sous les H1-H6, l’EMCO, β̂ est BLUE.


© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 32/99
MODELE, HYPOTHESES et PROPRIETES propriétés des EMCO

Distribution de β̂j , j = 1, . . . , k + 1

Chaque β̂j ∼ N (βj , V(β̂j ) = σ 2 ajj ) , j = 1, . . . , k + 1


où ajj est le (j + 1)ième élément de la diagonale de la matrice
(X ′ X)−1 = A.

β̂j − βj (β̂j − βj )2
zj = √ ∼ N (0, 1) ⇔ ∼ χ21
σ 2 ajj σ 2 ajj

β̂j − βj
Mais σ 2 inconnu ⇒ tj = √ ∼ tn−(k+1)
σ 2 ajj
̂

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 33/99


MODELE, HYPOTHESES et PROPRIETES Mesure de la qualité de l’ajustement

GPS

2. MODELE, HYPOTHESES et PROPRIETES


2.1 Le modèle
2.2 Les hypothèses
2.3 Estimation par MCO
2.4 propriétés des EMCO
2.5 Mesure de la qualité de l’ajustement

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 34/99


MODELE, HYPOTHESES et PROPRIETES Mesure de la qualité de l’ajustement

Analyse de la variance
Dans le modèle à 1 seule variable explicative (cf. chapitre 2) nous avons
montré la relation :
n n n
2 2 2
∑(yi − ȳ) = ∑(ŷi − ȳ) + ∑ ûi (EQ1)
i=1 i=1 i=1
avec ŷ = y.
Etant donnée que E(u) = E(̂
u) = 0 on a ŷ = y, ∀ le nombre de variables
explicatives .
Montrons que la relation (EQ1) est vraie pour k > 1
n
Calculons tout d’abord ∑ yi2 = y ′ y = (̂ ̂)′ (̂
y+u y+u
̂)
i=1
′ ′
y y = (ŷ + û) (ŷ + û)
= ŷ ′ ŷ + ŷ ′ û + û′ ŷ + û′ û
= ŷ ′ ŷ + û′ û + 2û′ ŷ
=0
?
© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 35/99
MODELE, HYPOTHESES et PROPRIETES Mesure de la qualité de l’ajustement

̂′ ŷ = 0
Montrons que u

̂′ ŷ = (y − ŷ)′ ŷ =
u (y − X β) ̂ ′ (X β)̂
′ ̂ ̂′ ′ ̂
= y Xβ − β X Xβ
= y ′ X β̂ − y ′ X(X ′ X)−1 X ′ X β̂
= y ′ X β̂ − y ′ X β̂
= 0
On a donc :
n n n
y ′ y = ŷ ′ ŷ + û′ û ⇔ ∑ yi2 = ∑ ŷi2 + ∑ û2i
i=1 i=1 i=1
2
Si l’on ajoute et retranche ny
n n n
2 2 2 2 2
∑ yi − ny = ∑ ŷi − ny + ∑ ûi
i=1 i=1 i=1
n n n
⇔ ∑(yi − y)2 = ∑(ŷi − y)2 + ∑ û2i
i=1 i=1 i=1
ST C SCE SCR
© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 36/99
MODELE, HYPOTHESES et PROPRIETES Mesure de la qualité de l’ajustement

Tableau d’analyse de la variance

Source Somme ddl


de variation des Carrés
Régression SCE nb de paramètres - 1
= (k + 1) − 1 = k
Résidus SCR nb d’observations - nb de paramètres
= n − (k + 1)
Total STC nb d’observations - 1
= n−1

Pourquoi calculer ces différentes sommes ?


Pour mesurer la qualité de l’ajustement.

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 37/99


MODELE, HYPOTHESES et PROPRIETES Mesure de la qualité de l’ajustement

Le R2

On vient de montrer que ∀ le modèle considéré (simple ou multiple),


on a une relation entre les moments empiriques centrés.
On peut généraliser la formule du R2
n
2
∑(yˆi − y)
SCE i=1
R2 = = n
ST C 2
∑(yi − y)
i=1
n
2
∑ ûi
SCR i=1
= 1− = 1− n
ST C 2
∑(yi − y)
i=1

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 38/99


MODELE, HYPOTHESES et PROPRIETES Mesure de la qualité de l’ajustement

Remarques concernant le R2 : (Diapo : 1)

1 Si le modèle estimé n’a pas de terme constant le R2 peut être négatif.


le R2 ne s’interprète pas si l’on n’a pas de terme constant dans la
régression.
2 Le R2 est "manipulable". On peut l’améliorer ou le détériorer en
modifiant la forme du modèle (non linéaire par exemple).
3 On pourrait utiliser de la même façon les moments non centrés pour
calculer le R2 mais on ne peut plus alors expliquer le modèle en
termes de variance.

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 39/99


MODELE, HYPOTHESES et PROPRIETES Mesure de la qualité de l’ajustement

Remarques concernant le R2 : (Diapo : 2)


4 Plus le nombre de variables explicatives est grand, plus le R2 sera
grand.
Par conséquent, le R2 ne mesure pas correctement la qualité de
2
l’ajustement ⇒ il est préférable de calculer le R2 ajusté noté R .
2
Le R tient compte du nombre de variables explicatives introduites
dans le modèle.
n
2
∑ û
i=1
2 n − (k + 1)
R =1− n
2
∑(yi − ȳ)
i=1
n−1
On divise chaque somme par son ddl.
2
⇒ Quand k ↑, le R ne se modifie pas forcément.
© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 40/99
MODELE, HYPOTHESES et PROPRIETES Mesure de la qualité de l’ajustement

Remarques concernant le R2 : (Diapo : 3)

5 Considérons les deux modèles :

y1 = X1 β1 + u1 et y2 = X2 β2 + u2
(n1 ,1) (n1 ,k1 )(k1 ,1) (n1 ,1) (n2 ,1) (n2 ,k2 )(k2 ,1) (n2 ,1)

Les R2 de ces deux modèles sont comparables pour mesurer la qualité


de l’ajustement à condition que :
n1 = n2 et y1 = y2
k1 = k2 .

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 41/99


INFERENCE

GPS

1. INTRODUCTION

2. MODELE, HYPOTHESES et PROPRIETES

3. INFERENCE

4. ANNEXE : Démonstrations

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 42/99


INFERENCE Tests d’hypothèses

GPS

3. INFERENCE
3.1 Tests d’hypothèses
3.2 Prévisions ou Prédictions

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 43/99


INFERENCE Tests d’hypothèses

GPS

3. INFERENCE
3.1 Tests d’hypothèses
Test sur un paramètre
Tests sur plusieurs paramètres
3.2 Prévisions ou Prédictions

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 44/99


INFERENCE Tests d’hypothèses

Test de significativité de βj , j = 0, . . . , k
Objectif de ce test : Mesurer l’impact de la variable xj dans le modèle
1 On pose le test

H0 ∶ βj = 0
H1 ∶ βj =/ 0
2 On calcule la valeur empirique du test
β̂j − 0
temp = √ ∼ tn−(k+1)
σ 2 ajj
̂
3 On compare la valeur théorique du test à la valeur empirique. On
peut aussi comparer la probabilité limite associée à la valeur
empirique au α que l’on s’est fixé.

IC de βj à 100(1 − α)%
√ √
IC ∶ [β̂j − tα/2 ̂σ 2 ajj ; β̂j + tα/2 ̂σ 2 ajj ]

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 45/99


INFERENCE Tests d’hypothèses

Commentaires des résultats


Si un paramètre βj , j = 0, ⋯, k est significativement différent de 0 on
peut commenter ce paramètre.
Etant donné que l’on a plusieurs variables explicatives, on doit raisonner
toutes choses restant égales par ailleurs.

∂E(yi )
βj =
∂xji

- Le paramètre s’interprête, toutes choses égales par ailleurs, comme la


∆y dûe à une ∆xj d’une unité.
- Si le paramètre est positif, Xj et y varient dans le même sens ⇒ une
↗ (↘) de Xj d’une unité va, toutes choses restant égales par ailleurs,
↗ (↘) en moyenne y de β̂j
- Si le paramètre est négatif, Xj et y varient dans le sens inverse ⇒
une ↘ (↗) de Xj d’une unité va, toutes choses restant égales par
ailleurs, ↘ (↗) en moyenne y de β̂j
© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 46/99
INFERENCE Tests d’hypothèses

Remarques :
Les paramètres estimés dépendent des unités des variables.
∂E(yi ) xj ̂ xj
On peut aussi estimer des élasticités : ξy,xj = × = βj ×
∂xji y y
Toutes choses restant égales par ailleurs, l’élasticité indique de
combien varie en % y quand xj varie de 1 %, elle se calcule à partir
de β̂j .
β̂j mesure directement l’élasticité si la variable à expliquer et la
variable explicative xj sont mesurées en logarithme.

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 47/99


INFERENCE Tests d’hypothèses

Exemple : Commentaires des résultats des estimations

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 48/99


INFERENCE Tests d’hypothèses

Tests de restrictions sur un paramètre, βj , j = 0, . . . , k

Test bilatéral
1 On pose le test
H0 ∶ βj = βj0
H1 ∶ βj =/ βj0
2 On calcule la valeur empirique du test
β̂j − βj0
temp = √ ∼ tn−(k+1) pour un niveau d’erreur α/2
σ 2 ajj
̂
3 On compare la valeur théorique du test à la valeur absolue du t
empirique. On peut aussi comparer la probabilité limite associée à la
valeur empirique au α que l’on s’est fixé.

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 49/99


INFERENCE Tests d’hypothèses

Exemple H0 ∶ β1 = 2; H1 ∶ β1 ≠ 2
Test bilatéral
1 valeur empirique de la statistique :
1.84563 − 2
temp = = −0.426 ∼ t7 ddl = 2.3646
0.36236
2 Conclusion du test
- D’après la table ∣temp ∣ < t7 ⇔ 0.426 < 2.3646 ⇒ On ne rejette pas H0

- D’après l’intervalle de confiance (calculer juste avant) :


ICβ1 = [0.988878; 2.70249] ⇒ 2 ∈ ICβ1 , On ne rejette pas H0
- avec SAS :
CODE SAS : Test sur un paramètre
proc reg data=toto.ExempleCoursChap3 ;
model prix = surface nbpieces / i clb ;
test surface = 2 ;
run ;
quit ;
© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 50/99
INFERENCE Tests d’hypothèses

Exemple H0 ∶ β1 = 2; H1 ∶ β1 ≠ 2

On regarde ici la p-value, p-value > 0.05 ⇒, On ne rejette pas H0 (test de


Fisher, voir plus loin)

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 51/99


INFERENCE Tests d’hypothèses

Tests de restrictions sur un paramètre, βj , j = 0, . . . , k

Test Unilatéral
1 On pose le test
H0 ∶ βj = βj0
H1 ∶ βj > βj0
2 On calcule la valeur empirique du test
β̂j − βj0
temp = √ ∼ tn−(k+1) pour un niveau d’erreur α
σ 2 ajj
̂
La valeur théorique à considérer est la valeur positive.
3 On compare la valeur théorique du test à la valeur empirique. On
peut aussi comparer la probabilité limite associée à la valeur
empirique au α/2 que l’on s’est fixé.

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 52/99


INFERENCE Tests d’hypothèses

Exemple H0 ∶ β1 = 2; H1 ∶ β1 > 2

Test Unilatéral
1 valeur empirique de la statistique :
1.84563 − 2
temp = = −0.426 ∼ t7 ddl = 1.8946
0.36236
2 Conclusion du test
- D’après la table temp < t7 ⇔ −0.426 < 1.8946 ⇒ On ne rejette pas H0

- avec SAS :
CODE SAS : Test sur un paramètre
proc reg data=toto.ExempleCoursChap3 ;
model prix = surface nbpieces / i clb ;
test surface = 2 ;
run ;
quit ;

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 53/99


INFERENCE Tests d’hypothèses

Exemple H0 ∶ β1 = 2; H1 ∶ β1 > 2

On regarde ici la p-value > 0.10 ⇒, On ne rejette pas H0. Il faut comparer
à 0.10 car SAS fait toujours des tests bilatéraux. Rappel : si l’on part
d’une table bilatérale, on doit multiplier par 2 le α et chercher la valeur
théorique associé à 10% si le α est de 5 %.

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 54/99


INFERENCE Tests d’hypothèses

Tests de restrictions sur un paramètre, βj , j = 0, . . . , k

Test Unilatéral
1 On pose le test
H0 ∶ βj = βj0
H1 ∶ βj < βj0
2 On calcule la valeur empirique du test
β̂j − βj0
temp = √ ∼ tn−(k+1) pour un niveau d’erreur α
σ 2 ajj
̂
La valeur théorique à considérer est la valeur négative.
3 On compare la valeur théorique du test à la valeur empirique. On
peut aussi comparer la probabilité limite associée à la valeur
empirique au α/2 que l’on s’est fixé.

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 55/99


INFERENCE Tests d’hypothèses

Exemple H0 ∶ β1 = 2; H1 ∶ β1 < 2

Test Unilatéral
1 valeur empirique de la statistique :
1.84563 − 2
temp = = −0.426 ∼ t7 ddl = −1.8946
0.36236
2 Conclusion du test
- D’après la table temp > t7 ⇔ −0.426 > −1.8946 ou encore
∣temp ∣ < ∣t7 ∣ ⇔ 0.426 < 2.3646 ⇒ On ne rejette pas H0

- avec SAS :
CODE SAS : Test sur un paramètre
proc reg data=toto.ExempleCoursChap3 ;
model prix = surface nbpieces / i clb ;
test surface = 2 ;
run ;
quit ;

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 56/99


INFERENCE Tests d’hypothèses

Exemple H0 ∶ β1 = 2; H1 ∶ β1 < 2

On regarde ici la p-value, p-value > 0.10 ⇒, On ne rejette pas H0.


Il faut comparer à 0.10 car SAS fait toujours des tests bilatéraux.
Il n’est pas toujours possible de conclure à un test unilatéral avec SAS.

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 57/99


INFERENCE Tests d’hypothèses

GPS

3. INFERENCE
3.1 Tests d’hypothèses
Test sur un paramètre
Tests sur plusieurs paramètres
3.2 Prévisions ou Prédictions

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 58/99


INFERENCE Tests d’hypothèses

Distribution de β
On sait que :
β̂ ∼ N (β, σ 2 (X ′ X)−1 )
⇒ (β̂ − β) ∼ N (0, σ 2 (X ′ X)−1 )
On peut en déduire que :
−1 1 ̂
(β̂ − β)′ [σ 2 (X ′ X)−1 ] (β̂ − β) = 2
(β − β)′ (X ′ X)(β̂ − β) = A1 ∼ χ2k+1
σ
ddl : nombre de paramètres à estimer
σ2
̂
σ 2 inconnu et [n − (k + 1)] 2 = A2 ∼ χ2n−(k+1)
σ
On sait que
A1
ddlA1
f= ∼ F (ddlA1 , ddlA2 )
A2
ddlA2
© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 59/99
INFERENCE Tests d’hypothèses

Distribution de β

(β̂ − β)′ (X ′ X)(β̂ − β)


σ2
f = k+1 ∼ F (k + 1, n − (k + 1))
σ2
̂
[n − (k + 1)] 2
σ
n − (k + 1)

(β̂ − β)′ (X ′ X)(β̂ − β)


f = ∼ F (k + 1, n − (k + 1))
(k + 1)̂ σ2

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 60/99


INFERENCE Tests d’hypothèses

Tests d’égalité sur l’ensemble des paramètres

1 On pose le test
H0 ∶ β = β0
H1 ∶ β ≠ β0
⇒ On réalise k + 1 tests simultanés sur les paramètres
Sous H0, la statistique empirique est égale à :

(β̂ − β0 )′ (X ′ X)(β̂ − β0 )
femp = ∼ F (k + 1, n − (k + 1))
(k + 1)̂ σ2
2 On compare la valeur empirique du test à la valeur théorique du Fisher
- Si femp > Fth pour un α donné, on rejette H0
- Si femp < Fth pour un α donné, on ne rejette pas H0.

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 61/99


INFERENCE Tests d’hypothèses

Ecriture générale de contraintes linéaires sur les β :


Objectif :
Tester l’existence de r contraintes linéaires indépendantes sur les k + 1
paramètres βj , j = 0, . . . , k + 1.
Ecrire les contraintes sous la forme :

C β = c
(r,k+1)(k+1,1) (r,1)

Avec Rang (C) = r , r < k + 1 ; C est une matrice certaine et c est


une vecteur de valeur connue. C et c sont écrits à partir des
contraintes fixées sur les paramètres.
Cela revient à tester deux modèles : un modèle contraint (sous H0) et
un modèle non contraint

H0 ∶ y = Xβ + u sous contrainte Cβ = c
H1 ∶ y = Xβ + u
© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 62/99
INFERENCE Tests d’hypothèses

Notons
β̂c : l’estimateur de β associé au modèle contraint (sous H0) ;
β̂nc : l’estimateur de β associé au modèle non contraint (sous H1)
Distribution de Cβ
On sait que β̂nc ∼ N (β, σ 2 (X ′ X)−1 )
On peut en déduire que :
β̂c = C β̂nc ∼ N (Cβ, σ 2 C(X ′ X)−1 C ′ = σ 2 Σ)
(r,k+1) (k+1,1)

On a donc : (C β̂nc − Cβ) ∼ N (0, σ 2 Σ)


Sous H0 (Cβ = c) on peut écrire :
1 ′
(C β̂nc − c) ∼ N (0, σ 2 Σ) ⇒ 2 (C β̂nc − c) Σ−1 (C β̂nc − c) ∼ χ2r
σ
2
σ inconnu on a donc :
1 ′
[ 2 (C β̂nc − c) Σ−1 (C β̂nc − c)] /r
(F 1) ∶ f = σ ∼ F (r, n − (k + 1))
σ2
̂
((n − (k + 1)) 2 ) / (n − (k + 1))
σ
© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 63/99
INFERENCE Tests d’hypothèses

On peut montrer que



(C β̂nc − c) Σ−1 (C β̂nc − c) = SCRc − SCRnc
avec
SCRc : Somme des carrés des résidus du modèle contraint (sous H0)
SCRnc : Somme des carrés des résidus du modèle non contraint (sous H1).
La statistique f peut alors s’écrire :
SCRc − SCRnc 1
f= × × (n − (k + 1)) ∼ F (r, n(k + 1))
SCRnc r

Notons que : r = [n − ((k + 1) − r)] − [n − (k + 1)] = ddlc − ddlnc


On peut alors écrire :

SCRc − SCRnc
ddlc − ddlnc
(F 2) ∶ f = ∼ F (ddlc − ddlnc ; ddlnc )
SCRnc
ddlnc
© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 64/99
INFERENCE Tests d’hypothèses

Autre écriture de la statistique f


On sait que
SCRc SCRnc
Rc2 = 1 − n
2
et Rnc =1− n
2 2
∑(yi − y) ∑(yi − y)
i=1 i=1
On peut donc écrire
n n
SCRc = ∑(yi − y)2 (1 − Rc2 ) et SCRnc = ∑(yi − y)2 (1 − Rnc
2
)
i=1 i=1
Si l’on remplace SCRc et SCRnc dans f
n n
2 2 2 2
∑(yi − y) (1 − Rc ) − ∑(yi − y) (1 − Rnc )
i=1 i=1 n − (k + 1)
(F 3) ∶ f = n ×
2 2 r
∑(yi − y) (1 − Rnc )
i=1
2
(Rnc − Rc2 ) (n − (k + 1))
= 2
× ∼ F (r, n − (k + 1))
1 − Rnc r
© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 65/99
INFERENCE Tests d’hypothèses

Calcul de la statistique f

Rc2 < Rnc


2 2
, Rnc − Rc2 : mesure de la perte d’explication engendrée par
l’imposition des contraintes.
On a vient de définir 3 façons possibles de calculer f
- Soit à partir de la matrice C (formule F1)
- Soit en estimant les modèles contraint et non contraint et en
considérant :
Les SCR des deux modèles (formule F2)
Les R2 des deux modèles (formule F3)

Conclusion du test
- Si femp > Fth , on rejette H0, le modèle non contraint est préféré au
modèle contraint.
- Si femp < Fth , on ne rejette pas H0, on peut donc conclure que la
perte d’explication engendrée par l’imposition des contraintes est non
significative.

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 66/99


INFERENCE Tests d’hypothèses

Cas particulier : "le Test de Fisher" ou "Test du R2 "

Hypothèse du test : Tous les paramètres sont égaux à 0 sauf β0 .

H0 ∶ β1 = β2 = ⋯ = βk = 0
H1 ∶ au moins un des βj , j = 1, ⋯, k + 1est différent de 0

On a un test à r = k contraintes de la forme Cβ = c.


C et c s’écrivent :
⎡ 0 ⎤

⎢ 0 1 0 ... 0 ⎤

⎢ ⎥
⎢ ⋮ ⎥
⎢ 0 0 1 ... 0 ⎥ ⎢ ⎥
⎢ ⎥ ⎢ ⎥
C= ⎢ ⎥ c= ⎢ ⋮ ⎥

⎢ ⋮ ⋮ 0 ⋱ 0 ⎥

⎢ ⎥
⎢ ⋮ ⎥
⎢ 0 0 0 ⋯ 1 ⎥ ⎢ ⎥
⎣ ⎦ ⎢ 0 ⎥
⎣ ⎦
(k, k + 1) (k, 1)

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 67/99


INFERENCE Tests d’hypothèses

Le modèle contraint est alors tel que : yi = β0 + ui .


On a alors β̂0 = y = ŷi
n n
SCE
SCE =∑(̂ yi − y)2 = ∑(β̂0 − β̂0 )2 = 0 ⇒ Rc2 = =0
i=1 i=1 SCT
Sous H0, la statistique empirique de Fisher est égale à
2
Rnc − Rc2 n − (k + 1) 2
Rnc n − (k + 1)
femp = ( 2
) × ( ) = 2
×
1 − Rnc k 1 − Rnc k
2
R n − (k + 1)
= × ∼ F (k, n − (k + 1))
1 − R2 k
On compare ensuite la statistique empirique femp à la valeur
théorique du test et on conclut :
- Si femp > Fth on rejette H0, au moins un des paramètres associés aux
variables explicatives est différent de 0
- Si femp < Fth on ne rejette pas H0, aucune variable explicative n’est
significative

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 68/99


INFERENCE Tests d’hypothèses

Reprise de l’exemple

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 69/99


INFERENCE Tests d’hypothèses

Exemple, tests H0 ∶ β1 = 0, β2 = 0 (Diapo : 1)


On veut tester l’égalité à 0 des paramètres associés aux deux variables
explicatives surface et nombre de pièces.
1 Poser le test d’hypothèse

H0 ∶ β1 = β2 = 0
H1 ∶ au moins un des βj , (β1 et/ou β2 sont différents de 0)

2 Calculer la statistique empirique


∃ plusieurs façon de la calculer.
1e Ce test est équivalent au test du "Fisher" ou du R2 . Cette statistique
empirique est toujours donnée dans les listings de SAS
valeur du F : 42.72
R2 n − (k + 1) 0.92432 7
femp = ( 2
)× =( ) × = 42.72
1−R k 1 − 0.92432 2
Fth = F(k,n−(k+1)) = F(2,7) = 4.737
© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 70/99
INFERENCE Tests d’hypothèses

Exemple, tests H0 ∶ β1 = 0, β2 = 0 (Diapo : 2)


2e A partir du calcul (formule F1). la relation Cβ = c est telle que :
⎡ β ⎤
0 1 0 ⎢⎢ 0 ⎥⎥ 0
[ ]⎢ β ⎥ = [ ]
0 0 1 ⎢⎢ 1 ⎥⎥ 0
⎣ β2 ⎦
β0 × 0 + β1 × 1 + β2 × 0 = 0 ⇔ β1 = 0
β0 × 0 + β1 × 0 + β2 × 1 = 0 ⇔ β2 = 0
Calcul de la statistique empirique F 1
0.000345 −0.005942 10044 415
Σ = C ′ (X ′ X)−1 C = [ ] ; Σ−1 = [ ]
−0.005942 0.143823 415 24.1
1.84563 0 1.84563
(C β̂ − c) = ( )−( )=( )
−1.13015 0 −1.13015

num = (C β̂ − c) Σ−1 (C β̂ − c) = 32512.932
Sachant que ̂ σ = 19.50629 (cf. sortie SAS), la statistique empirique
femp est égale à
num 32512.932
femp = 2 = = 42.72448 (même chose que cas 1e).
σ × 2 19.506292 × 2
̂
© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 71/99
INFERENCE Tests d’hypothèses

Exemple, tests H0 ∶ β1 = 0, β2 = 0 (Diapo : 3)

3e A partir du test posé sous SAS


CODE SAS : estimation avec test sur 2 paramètres
proc reg data=toto.ExempleCoursChap3 ;
model prix = surface nbpieces ;
test surface = 0, nbprices=0 ;
run ;
quit ;

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 72/99


INFERENCE Tests d’hypothèses

Exemple, tests H0 ∶ β1 = 0, β2 = 0 (Diapo : 4)

4e A partir des estimations des modèles contraint et non contraint.


2 façons d’estimer le modèle contraint
CODE SAS : estimation avec contrainte sur les paramètres
proc reg data=toto.ExempleCoursChap3 ;
model prix = surface nbpieces ;
restrict surface = 0, nbpieces=0 ;
run ;
quit ;

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 73/99


INFERENCE Tests d’hypothèses

Exemple, tests H0 ∶ β1 = 0, β2 = 0 (Diapo : 5)

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 74/99


INFERENCE Tests d’hypothèses

Exemple, tests H0 ∶ β1 = 0, β2 = 0 (Diapo : 6)

CODE SAS : estimation sans variables explicatives


proc reg data=toto.ExempleCoursChap3 ;
model prix = ;
run ;
quit ;

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 75/99


INFERENCE Tests d’hypothèses

Exemple, tests H0 ∶ β1 = 0, β2 = 0 (Diapo : 7)

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 76/99


INFERENCE Tests d’hypothèses

Exemple, tests H0 ∶ β1 = 0, β2 = 0 (Diapo : 8)

3 Conclusion
femp = 42.72 > Fth = 4.737 : On rejette H0.
Au moins un des paramètres de la régression est significativement
différent de 0.
On peut aussi regarder la valeur de la probabilité associée à la valeur
empirique du test.
Les probabilités limites sont toutes inférieures à 0.05, on rejette donc
H0.

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 77/99


INFERENCE Tests d’hypothèses

Autre test H0 ∶ β1 = β2 (Diapo : 1)

On veut tester l’égalité des paramètres associés aux deux variables


explicatives surface et nombre de pièces.
1 Poser le test d’hypothèse

H0 ∶ β1 = β2
H1 ∶ β1 ≠ β2

2 Calculer la statistique empirique


1e A partir du calcul (formule F1). la relation Cβ = c est telle que :
⎡ β ⎤
⎢ 0 ⎥
⎢ ⎥
[ 0 1 −1 ] ⎢ β1 ⎥ = [ 0 ]
⎢ ⎥
⎢ β2 ⎥
⎣ ⎦
β 0 × 0 + β1 × 1 − β2 × 1 = 0 ⇔ β1 = β2

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 78/99


INFERENCE Tests d’hypothèses

Autre test H0 ∶ β1 = β2 (Diapo : 2)

Calcul de la statistique empirique F 1


Σ = C ′ (X ′ X)−1 C = 0.15605; Σ−1 = 6.40803
(C β̂ − c) = (1.84563 + 1.13015) − 0 = 2.97578

num = (C β̂ − c) Σ−1 (C β̂ − c) = 2.97578 × 6.40803 × 2.97578 = 56.745
Sachant que ̂ σ = 19.50629 (cf. sortie SAS), la statistique empirique
femp est égale à
56.745
femp = = 0.14913 ∼ F (r, n − (k + 1)) = F (1, 7) = 5.591
(19.50629)2
2e A partir du test posé sous SAS
CODE SAS : estimation avec test d’égalité des 2 paramètres
proc reg data=toto.ExempleCoursChap3 ;
model prix = surface nbpieces ;
test surface = nbprices ;
run ;
quit ;

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 79/99


INFERENCE Tests d’hypothèses

Autre test H0 ∶ β1 = β2 (Diapo : 3)

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 80/99


INFERENCE Tests d’hypothèses

Autre test H0 ∶ β1 = β2 (Diapo : 4)


3e A partir des estimations des modèles contraint et non contraint.
Méthode 1 : Estimation avec contrainte
CODE SAS : estimation avec contrainte sur les paramètres
proc reg data=toto.ExempleCoursChap3 ;
model prix = surface nbpieces ;
restrict surface = nbpieces ;
run ;
quit ;
Méthode 2 : On impose la contrainte dans la modélisation
Sous H0 le modèle s’écrit : yi = β0 + β1 (X1i + X2i ) + ui
Pour estimer ce modèle il faut d’abord créer une nouvelle variable
explicative X12 = X1 + X2 et ensuite estimer le modèle avec cette
nouvelle variable explicative.

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 81/99


INFERENCE Tests d’hypothèses

Autre test H0 ∶ β1 = β2 (Diapo : 5)

CODE SAS :
1. Création de la nouvelle base de données
data toto.ExempleCoursChap3bis ;
set toto.ExempleCoursChap3 ;
surfpieces=surface+nbpieces ;
run ;
2. Régression avec la contrainte (nouvelle variable)
proc reg data=toto.ExempleCoursChap3bis ;
model prix = surfpieces ;
run ;
quit ;

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 82/99


INFERENCE Tests d’hypothèses

Autre test H0 ∶ β1 = β2 (Diapo : 6)

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 83/99


INFERENCE Tests d’hypothèses

Autre test H0 ∶ β1 = β2 (Diapo : 7)

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 84/99


INFERENCE Tests d’hypothèses

Autre test H0 ∶ β1 = β2 (Diapo : 8)


- Calcul de la statistique empirique à partir des R2
2
(Rnc − Rc2 ) (n − (k + 1)) (0.9243 − 0.9227) 7
femp = 2
× = × = 0.14795
1 − Rnc r (1 − 0.9243) 1
- Calcul de la statistique empirique à partir des SCR
SCRc − SCRnc 1 2720.213 − 2663.468 1
femp = × × (n − (k + 1)) = × ×7=
SCRnc r 2663.468 1
0.149
3 Conclusion
femp = 42.72 > Fth = 4.737 : On rejette H0.
Au moins un des paramètres de la régression est significativement
différent de 0.
On peut aussi regarder la valeur de la probabilité associée à la valeur
empirique du test.
Les probabilités limites sont toutes inférieures à 0.05, on rejette donc
H0.
© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 85/99
INFERENCE Prévisions ou Prédictions

GPS

3. INFERENCE
3.1 Tests d’hypothèses
3.2 Prévisions ou Prédictions

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 86/99


INFERENCE Prévisions ou Prédictions

Valeur estimée de la variable à expliquer

A partir des valeurs estimées des paramètres on peut calculer les valeurs
prédites : ŷi = β̂0 + β̂1 x1i + ⋯ + β̂k xki , ∀i = 1, . . . , n
ou encore ŷ = X β̂
Avec ûi = yi − ŷi ou encore u
̂ = y − ŷ
On peut alors en déduire des prédictions et leur erreur pour un vecteur de

valeurs variables explicatives fixées x0i = [1 x01i x02i . . . x0ki ]


(1, k + 1)
̂0 = y 0 − ŷ0 = x0 β + u0 − x0 β̂ = x0 (β − β)
L’erreur de prédiction est : u i i i i i
̂ + u0
i i i
Espérance :
u0i ) = E(x0i (β − β)
E(̂ ̂ + u0 ) = x0 E(β − β)
i i
̂ + E(u0 ) = 0
i

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 87/99


INFERENCE Prévisions ou Prédictions

Prédiction (ou prévision) pour des valeurs de x données


Variance :
V(̂u0i ) = V(x0i (β − β) ̂ + u0 ) = x0 E(β − β)
i i
̂ + E(u0 ) = 0
i
0 ̂ + V (ui0 ) − 2 Cov (x0 (β − β)̂ , ui0 )
= V (xi (β − β)) i
0 ̂ 0′ 2
= xi V (β − β) xi + σ

= σ 2 x0i (X ′ X)−1 x0i + σ 2

= σ 2 [1 + x0i (X ′ X) x0i ]
−1

Voir une autre méthode de calcul en annexe.


La distribution de la prévision (prédiction)
E(ŷi0 ) = yi0

V (ŷi0 ) = V (ûi0 ) = σ 2 [1 + x0i (X ′ X)−1 x0i ]

ŷi0 ∼ N (yi0 , σ 2 [1 + x0i (X ′ X)−1 x0i ])
IC à 100 (1 − α)% ∶
√ √
[ŷi0 − tα/2 ̂
σ 1 + x0i (X ′ X)−1 x0i ; ŷi0 + tα/2 ̂
σ 1 + x0i (X ′ X)−1 x0i ]
′ ′

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 88/99


INFERENCE Prévisions ou Prédictions

Prédiction (ou prévision) au vecteur moyen x0i = x0i

La distribution de la prévision (prédiction)


E(ŷi0 ) = yi0

V (ŷi0 ) = V (ûi0 ) = σ 2 [x0i (X ′ X)−1 x0i ]

ŷi0 ∼ N (yi0 , σ 2 [x0i (X ′ X)−1 x0i ])
IC à 100 (1 − α)% ∶
√ √
[ŷi0 − tα/2 ̂
σ x0i (X ′ X)−1 x0i ; ŷi0 + tα/2 ̂
σ x0i (X ′ X)−1 x0i ]
′ ′

SAS calcule les IC des prédictions à partir de cette formule.


CODE SAS : Régression avec prédictions
proc reg data=toto.ExempleCoursChap3 ;
model prix = surface nbpieces / clm cli ;
run ;
quit ;

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 89/99


INFERENCE Prévisions ou Prédictions

Exemple : Prédictions

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 90/99


INFERENCE Prévisions ou Prédictions

Exemple 2 : Equation de salaire

Considérons l’équation de salaire suivante :


sali = β0 + β1 agei + β2 enfi + β3 anci + ui , i = 1, ⋯, 130
ou enfi =nombre d’enfants de l’individu i et anci = ancienneté dans
l’emploi de l’individu i.
Les matrices y et X s’écrivent :
⎡ 1 age1 enf1 anc1 ⎤⎥
⎛ sal1 ⎞ ⎢
⎢ ⎥
y= ⎜ ⋮ ⎟ ×=⎢ ⋮ ⋮ ⋮ ⋮ ⎥
⎝ saln ⎠ ⎢ ⎥
⎢ 1
⎣ agen enfn ancn ⎥⎦
(n, 1) (n, k + 1)
(130, 1) (130, 4)
y = Xβ + u

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 91/99


INFERENCE Prévisions ou Prédictions

Exemple 2 : Résultats des estimations

Les résultats des estimations sont donnés dans le tableau suivant :

variable coefficient Ecart-type t p-value


constante - 854,119 688,164 -0,24 0,217

âge 49,786 23,148 2,15 0,033

enfant -32,960 112,005 -0,29 0,769

ancienneté 6,796 1,575 4,31 0,000

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 92/99


INFERENCE Prévisions ou Prédictions

Exemple 2 : questions

1 Commenter les résultats obtenus.


2 Calculer le salaire moyen estimé d’un individu :
- sans expérience, sans enfant, âgé de 20 ans
- avec 10 années d’expérience, 2 enfants et 40 ans
- peut-on calculer les IC de ces prédictions ?
3 Peut-on considérer que cette équation de salaire est satisfaisante ?
4 si la réponse à la question précédente est non, comment pourrait-on
l’améliorer ?

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 93/99


i
F
© L. Bonnal (Univ de Poitiers)
in
Chapitre 3 :
n Le modèle de régression multiple 15-08-2018 94/99
ANNEXE : Démonstrations

GPS

1. INTRODUCTION

2. MODELE, HYPOTHESES et PROPRIETES

3. INFERENCE

4. ANNEXE : Démonstrations

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 95/99


ANNEXE : Démonstrations

β̂ est un EMCO efficace (la plus petite variance)

Considérons un autre estimateur linéaire sans biais de β.


Soit β ∗ = By = (B ∗ + (X ′ X)−1 X ′ )y = B ∗ y + (X ′ X)−1 X ′ y
E(β ∗ ) = B ∗ E(y) + (X ′ X)−1 X ′ E(y) = B ∗ Xβ + (X ′ X)−1 X ′ Xβ = B ∗ Xβ + β (∗)
L’estimateur linéaire β ∗ est sans biais si : E(β ∗ ) = β ⇔ E(β ∗ ) − β = 0
D’après la relation (*) on a : B ∗ Xβ = 0 ⇔ B ∗ X = 0 (∗∗) ∀β ≠ 0.
Cet estimateur B ∗ est sans biais.
Calculons la variance de β ∗

V (β ∗ ) = V [(B ∗ + (X ′ X)−1 X ′ )y]



= [B ∗ + (X ′ X)−1 X ′ ] V (y) [X(X ′ X)−1 + B ∗ ]

= σ 2 [B ∗ + (X ′ X)−1 X ′ ] [X(X ′ X)−1 + B ∗ ]
′ ′
= σ 2 [B ∗ B ∗ + B ∗ X(X ′ X)−1 + (X ′ X)−1 X ′ B ∗ + (X ′ X)−1 X ′ X(X ′ X)−1 ]

D’après (**) B ∗ X = 0. On a donc :


V (β ∗ ) = σ 2 [B ∗ B ∗ + (X ′ X)−1 ] > σ 2 (X ′ X)−1 = V (β)
̂

̂ est l’estimateur linéaire de β qui a la plus petite variance ⇒ BLUE (Gauss-markov).


⇒β

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 96/99


ANNEXE : Démonstrations

Rappels mathématiques sur les matrices et la trace


Notons PX = X(X ′ X)−1 X ′ et MX = In − PX
On dit qu’une matrice Z est
- symétrique si Z ′ = Z
- idempotente si Z ′ Z = ZZ = Z
PX et MX vérifient ces deux propriétés.
PX′ = (X(X ′ X)−1 X ′ )′ = X(X ′ X)−1 X ′ = PX .
PX PX = X(X ′ X)−1 X ′ X(X ′ X)−1 X ′ = X(X ′ X)−1 X ′ = PX


MX = [In − X(X ′ X)−1 X ′ ] = In − X(X ′ X)−1 X ′ = MX
MX MX = [In − X(X ′ X)−1 X ′ ] [In − X(X ′ X)−1 X ′ ]
= In − X(X ′ X)−1 X ′ − X(X ′ X)−1 X ′ + X(X ′ X)−1 X ′ X(X ′ X)−1 X ′
= In − X(X ′ X)−1 X ′ = MX
Propriétés de la trace d’une matrice A (carré), notée tr(A).
La trace est la somme des éléments de la diagonale.
tr(A) = tr(A′ )
tr(A + B) = tr(A) + tr(B)
tr(λA) = λtr(A)
tr(ABC) = tr(BCA) = tr(CAB)
tr(E(X)) = E(tr(X))

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 97/99


ANNEXE : Démonstrations

û′ û
σ2 =
̂ est un estimateur sans biais de σ 2
n − (k + 1)
Calculons û′ û. Commençons par û
̂ = y − X(X ′ X)−1 X ′ y = [In − X(X ′ X)−1 X ′ ] y = MX y
û = y − ŷ = y − X β
⇒ û′ û = y ′ MX MX y = y ′ MX y
Sachant que y = Xβ + u, on a :

û′ û = (Xβ + u)′ MX (Xβ + u) = (β ′ X ′ MX + u′ MX )(Xβ + u)


= β ′ X ′ MX Xβ + β ′ X ′ MX u + u′ MX Xβ + u′ MX u

Calculons MX X. MX X = [In − X(X ′ X)−1 X ′ ] X = X − X(X ′ X)−1 X ′ X = X − X = 0


On a donc : û′ û = u′ MX u = y ′ MX y
Calculons E(û′ û) en utilisant les propriétés de l’espérance et de la trace car û′ û est un élément
de dimension (1,1).
E(û′ û) = E(u′ MX u) = E(tr(u′ MX u)) = E(tr(MX uu′ )) = tr(E(MX uu′ )) = tr(MX E(uu′ )
= tr(MX (σ 2 In )) = σ 2 tr(MX ) = σ 2 tr(In − X(X ′ X)−1 X ′ )
= σ 2 [tr(In ) − tr(X(X ′ X)−1 X ′ )] = σ 2 (tr(In ) − tr((X ′ X)−1 X ′ X))
= σ 2 (tr(In ) − tr(Ik+1 )) = σ 2 (n − (k + 1))
û′ û
L’estimateur de σ 2 donné par : σ̂ 2 = est tel que E(σ̂ 2 ) = σ 2
n − (k + 1)
⇒ σ̂ 2 est un estimateur sans biais de σ 2 .
© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 98/99
ANNEXE : Démonstrations

̂0i
Autre calcul de la Variance de u

V (ûi0 ) = E [ûi0 − E (ûi0 )]2 = E (û2i0 )


̂ + ui0 ]2
= E [x0i (β − β)
= E [(x0i (β − β)̂ + ui0 ) (x0 (β − β)̂ + ui0 )′ ]
i
= x0i E [(β − β)̂ (β − β)̂ ′ ] x0′ + E (ui0 u′ ) + 2 E (x0 (β − β))
̂ ui0
i i0 i

= σ 2 x0i (X ′ X) x0i + σ 2
−1

= σ 2 [1 + x0i (X ′ X) x0i ]
−1

© L. Bonnal (Univ de Poitiers) Chapitre 3 : Le modèle de régression multiple 15-08-2018 99/99

Vous aimerez peut-être aussi