ANAD
Régression Linéaire
Simple et multiple
Mme HAMDAD Leila
ESI, LCSI.
Introduction
• La régression linéaire est une méthode statistique appartenant à la
famille des méthodes prédictives du data mining.
Objectif: Etudier et modéliser la relation entre une ou plusieurs
variables quantitatives.
• Elle trouve son utilité dans plusieurs domaines tels que:
Econométrie : effet des institutions sur le développement d'un pays,
l'effet des années d'expériences sur le salaire,...
Géographie: pluviométrie en fonction de l'altitude dans une région
données
Psychologie, en sport, ect.
Régression linéaire simple
• Le but de ce cours est d'étudier la relation entre deux variables
quantitatives l'une dépendante Y et l'autre explicative X.
• Ces deux variables sont observées sur une population de taille n.
• On suppose que les variables Y et X sont reliées par une relation linéaire, et
le modèle est donné par:
Yi ax i b e i, i 1,...,n
• Tel que 𝑒𝑖 représente l'erreur d'observation ou résidu, elle vérifie les
propriétés suivantes:
Ee i 0.
Cove i , e j 0, i j.
Vare i 2 , i 1, . . . , n.
• a,b et σ² sont des paramètres inconnus à estimer.
• L'équation des moindres carrées qui ajuste au mieux le nuage de
points X , Y , i 1, . . . , n est obtenue en déterminant les estimateurs des
i i
moindres carrés de a et b, 𝑎 et 𝑏 respectivement qui minimisent.
e 2i Yi ax i b2 .
i i
• 𝑎 et 𝑏 sont solutions du système
e 2i
i
da
a, b 0,
e 2i
i
a, b 0
• La solution est données par:
db
covX, Y
a
VarX
b Y aX
Propriétés des estimateurs
• Parmi les estimateurs sans biais, ces estimateurs sont les meilleurs
estimateurs car ils sont de variances minimales ( Thèorème de Gauss
Markov), ils sont dit BLUE (Best Linear Unbiased Estimator).
• 𝑅𝑎𝑝𝑝𝑒𝑙: 𝑈𝑛 𝑒𝑠𝑡𝑖𝑚𝑎𝑡𝑒𝑢𝑟 𝑒𝑠𝑡 𝑑𝑖𝑡 𝑠𝑎𝑛𝑠 𝑏𝑖𝑎𝑖𝑠 𝑠𝑖
𝐸 𝑎 = 𝑎 et E 𝑏 = 𝑏
Estimateurs des variances Vara 2 1 2
x ix
i
xi 2
Var b 2 i
n x i x 2
i
• Ces deux variances sont inconnus car σ² qui est la variance de l'erreur est
aussi inconnue. Celle ci est estimée par
ei 2
s2 i
n2
.
• En remplaçant σ² par s² dans les deux variances précédentes, nous
obtenons les variances estimées des estimateurs qu'on note 𝑆𝑎2 et 𝑆𝑏2 , resp.
• Coéfficient de corrélation linéaire rX, Y CovX,Y
VarX VarY
• Si r(X,Y)≃1, alors Y est linéairement liée à X. Sinon, la relation n'est pas
linéaire.
Exemple
Un père qui a deux garçons s'inquiète de la croissance de son cadet qu'il trouve petit, décide de
faire un modèle familial à partir des mesures de taille en fonction de l'âge de l'aîné. Une régression
simple a été effectuée pour avoir un modèle de croissance:
Age c 4 5 6 7 8 9 10 11 12
Taille 96 104.8 110.3 115.3 121.9 127.4 130.8 136 139.7 144.5
Données: x=age, y=Taille, ∑y=1226.7, ∑x=75, ∑y²=152750.6, ∑x²=645, ∑xy= 9630.9.
Moy(x)=7.5, moy(y)=122.67, cov(x,y)=47.85, 𝜎𝑥 = 3.02765, 𝜎𝑦 =15.88599
𝑐𝑜𝑣 𝑥, 𝑦 47.85
𝑟= = 0.99, 𝑎 = = 5.22, 𝑏=122.67−5.22∗7.5=83.52
𝜎𝑥 𝜎𝑦 9.166
Le modèle linéaire simple est:
𝑦 = 5.22x + 83.52
2
𝑒𝑖 23.288
2
, 𝑆𝑏 = 1.638396𝑒𝑖 = 𝑦𝑖 − 𝑦𝑖 , 2
𝑆 = = = 2.3283, 𝑆𝑎2 = 0.02540148
𝑛−2 8
Régression linéaire multiple
• Etudier la relation entre une variable dépendante et quantitative Y et p
variables explicatives indépendantes 𝑋1 ,...,𝑋 𝑝 .
• Ces variables sont observées sur une population de taille n.
• Le modèle linéaire multiple est donné par:
p
Y i a 0 a 1 X 1i . . . a p X i e i , i 1, . . . , n.
• Tel que 𝑒𝑖 vérifie
Ee i 0.
Cove i , e j 0, i j.
Vare i 2 , i 1, . . . , n.
• a₀,a₁,...,𝑎𝑝 sont des paramètres inconnus du modèle. Le paramètre σ² et
inconnu.
Ecriture matricielle du modèle
Y X e
Tels que
p
Y1 1 X 11 X1 a0 e1
Y2 a1 e2
Y ,X , ,e
1 X 1n1
p
Yn 1 X 1n Xn ap en
Le vecteur des paramètres β étant inconnu,2 il est estimée par la méthode des
moindres carrés 𝛽. 𝛽 minimise i
e 2i e . Ainsi, 𝛽 est solution de
de 2
0,
Après résolution, on obtient: d
X t X 1 X t Y
• Parmi les estimateurs sans biais 𝛽 est un estimateur de β de variance
minimale (Théorème de Gauss Markov).
• Variance de 𝛽:
Var 2 X t X 1 .
• σ² étant inconnue, elle est estimée par
e i
2
i
S2 np1
• Calcul de S²en fonction des estimateurs des paramètres
1
S
2
Y Y Y X
t t
n p 1
p
n varY a j covX j , Y .
n p 1 j1
• 𝑦 est la projection orthogonale de y sur la droite qui ajuste au mieux
le nuage de points:
y i y2 y i y i y i y2 y i y i2 y i y2 2 y i y iy i y e i 2 y i y2
i i i i i i i
• Coefficient de Détermination: Il mesure la dispersion du nuage de
points théorique à la dispersion observée. Il est compris entre 0 et 1.
y i y 2
var y i
R 2
Vary
y y i
2
i
Intervalle de confiance des paramètres
• Soit 𝑡α/2 , un scalaire tel que
Pt /2 a s a t /2 1
a
𝑎−𝑎
• 𝑇= suit une loi de Student à n-(p+1) degré de liberté (ddl),
𝑠𝑎
• 𝑡α/2 est la valeur tabulée de la loi de Student au seuil α=1% ou 5%.
• L'intervalle de confiance à 95 ou 99% de a est donné par:
a t /2 s a , a t /2 sa
Test de l'effet d'une variable X explicatives sur Y
• Tester si la variable explicative X a un effet linéaire sur la variable
dépendante Y au seuil α=5%(1%).
• On pose l'hypothèse nulle H₀:"a=o" contre l'alternative H₁: "a≠0 «
𝑎
• Sous H0, 𝑇 = suit une loi de Student à n-(p+1) degré de liberté (ddl).
𝑆𝑎
▲ Si: |T|> 𝑡α/2 , cet évènement a 5% de chance de se réaliser sous H₀, ainsi,
cette dernière est rejetée et donc H1 est accepté et l'effet de X sur Y est
linéaire.
▲ Si |T|< 𝑡α/2 , H0 est acceptée car cet évènement a 95% de chance de se
réaliser, et on ne peut rien dire quant au type d'effet de X sur Y (il n'est pas
linéaire).
Exemple: Tester l’effet de l'âge sur la taille au seuil α=5% :
• On pose l’hypothèse nulle H₀: a=o contre l'alternative H₁: a≠0.
𝑎
• Sous H0, on calcule, 𝑇 =
𝑆𝑎
5.22
𝑇 = = 32.75224
0.02540148
Et 𝑡α/2 est la valeur tabulée de Student pour α=5% et ddl=10-2=8
• 𝑡α/2 = 2.306
• Ainsi,
𝑇 > 2.306,
On décide de rejeter H0 et on accepte H1 et l'âge a un effet linéaire sur la taille.
Test de l'effet d'un groupe de variables explicatives sur Y
• Tester l'effet linéaire de k variables X₁,...,Xk parmi p(p≥k) sur Y à un seuil α.
• On pose l'hypothèse H₀:a₁=a₂=...=ak=0 contre l'alternative H₁: ∃j=1,...,k / aj≠0.
Sous H0 R2 R2 1 R2
Fk k
k n p 1
suit une loi de Fisher à (k,n-p-1) degré de liberté.
Pour le test, F est comparé à 𝑓𝑘,𝑛−𝑝−1 qui est la valeur tabulée de Fisher au seuil α
et à un ddl (k,n-p-1).tels que k représente le ddl du numérateur et n-p-1, celui du
dénominateur de F.
𝑅𝑘2 est le coefficient de détermination du modèle obtenu sous H₀.
▲ Si 𝐹𝑘 > 𝑓𝑘,𝑛−𝑝−1 ,alors on rejette H₀, et donc il existe au moins un effet linéaire
parmi les k variables explicatives.
▲ sinon H₀, est acceptée, et sur les k variables il n y a aucun effet linéaire.
Test de la régression globale
• Dans ce cas on teste l'effet de toutes les variables explicatives sur Y au
seuil α. Pour cela on pose l'hypothèse H₀:a₁=a₂=...=ap=0 contre l'alternative
H₁: ∃j=1,...,p / 𝑎𝑗 ≠0. Sous H₀ y y p 2
i
R2 /p
F i
ei 2 /np1 1R2 /np1
i
suit une loi de Fisher à (p,n-p-1) degré de liberté. Pour le test, celle ci est
comparé à 𝑓𝑝,𝑛−𝑝−1 qui est la valeur tabulée de Fisher au seuil α et à un ddl
(p,n-p-1).
▲ Si 𝐹 > 𝑓𝑘,𝑛−𝑝−1 , alors on rejette H0 et donc il existe au moins un effet
linéaire parmi les p variables explicatives.
▲ Sinon H₀ est accepté, et sur les p variables il n y a aucun effet linéaire et le
modèle est donc rejeté.
Problème de prévision linéaire
1 𝑝
• Soit𝑋0 ,...,𝑋0 ,une observation supplémentaire des variables
𝑝
explicatives X¹,..., 𝑋 , la prédiction Y₀ est donnée par:
1 p
Y 0 a 0 a 1 X 0 . . . a p X 0 .
• La valeur à prédire Y₀ appartient à 95%(99%) de chance à l'intervalle:
Y 0 S 0 t /2 , Y 0 S 0 t /2
• tel que S₀² est l'estimateur de la variance de l'erreur de prévision
donné par: S 2 S 2 1 x t X t X 1 x
0 0 0
𝑝
• tel que x₀=(1, 𝑋01 ,...,
𝑋0 ) représente l'observation supplémentaire des
p variables explicatives.
• Dans le cas du modèle linéaire simple, celle ci se simplifie et se calcule comme suit:
x 0 x 2
S2 S 2
1 1
x i x 2
0 n
Exemple (suite): Quel sera sa taille à 𝑋0 =19 ans
Y0=5.22*19+83.52=182.7
L’erreur de prévision: 𝑆02 = 2.3283[1+1/10+ 132.25/ 91.66667]= 5.920232
𝑡α/2 = 2.306
D’où
• L’intervalle de confiance à 95% est donné par:
182.7 − 1.81 ∗ 2.433153,182.7 + 1.81 ∗ 2.433153 = 177.0891 , 188.3109