0% ont trouvé ce document utile (0 vote)
16 vues21 pages

Régression Linéaire en Psychologie

La régression linéaire est une méthode statistique utilisée pour modéliser la relation entre des variables quantitatives, avec des applications dans divers domaines comme l'économétrie et la psychologie. Le document traite de la régression linéaire simple et multiple, en expliquant les concepts de base, les propriétés des estimateurs, ainsi que les tests d'hypothèses pour évaluer l'effet des variables explicatives. Des exemples illustrent l'application de ces concepts, notamment à travers des calculs de coefficients et de tests statistiques.

Transféré par

lcflak630
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
16 vues21 pages

Régression Linéaire en Psychologie

La régression linéaire est une méthode statistique utilisée pour modéliser la relation entre des variables quantitatives, avec des applications dans divers domaines comme l'économétrie et la psychologie. Le document traite de la régression linéaire simple et multiple, en expliquant les concepts de base, les propriétés des estimateurs, ainsi que les tests d'hypothèses pour évaluer l'effet des variables explicatives. Des exemples illustrent l'application de ces concepts, notamment à travers des calculs de coefficients et de tests statistiques.

Transféré par

lcflak630
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

ANAD

Régression Linéaire
Simple et multiple
Mme HAMDAD Leila
ESI, LCSI.
Introduction
• La régression linéaire est une méthode statistique appartenant à la
famille des méthodes prédictives du data mining.
Objectif: Etudier et modéliser la relation entre une ou plusieurs
variables quantitatives.
• Elle trouve son utilité dans plusieurs domaines tels que:
Econométrie : effet des institutions sur le développement d'un pays,
l'effet des années d'expériences sur le salaire,...
Géographie: pluviométrie en fonction de l'altitude dans une région
données
Psychologie, en sport, ect.
Régression linéaire simple
• Le but de ce cours est d'étudier la relation entre deux variables
quantitatives l'une dépendante Y et l'autre explicative X.
• Ces deux variables sont observées sur une population de taille n.
• On suppose que les variables Y et X sont reliées par une relation linéaire, et
le modèle est donné par:
Yi  ax i  b  e i, i  1,...,n
• Tel que 𝑒𝑖 représente l'erreur d'observation ou résidu, elle vérifie les
propriétés suivantes:
 Ee i   0.
 Cove i , e j   0, i  j.
 Vare i    2 , i  1, . . . , n.
• a,b et σ² sont des paramètres inconnus à estimer.
• L'équation des moindres carrées qui ajuste au mieux le nuage de
points X , Y , i  1, . . . , n est obtenue en déterminant les estimateurs des
i i

moindres carrés de a et b, 𝑎 et 𝑏 respectivement qui minimisent.


 e 2i  Yi  ax i  b2 .
i i
• 𝑎 et 𝑏 sont solutions du système
 e 2i
 
i
da
 a, b  0,
 e 2i
 
i
 a, b  0
• La solution est données par:
db

 covX, Y
a 
VarX
 
b  Y  aX
Propriétés des estimateurs
• Parmi les estimateurs sans biais, ces estimateurs sont les meilleurs
estimateurs car ils sont de variances minimales ( Thèorème de Gauss
Markov), ils sont dit BLUE (Best Linear Unbiased Estimator).
• 𝑅𝑎𝑝𝑝𝑒𝑙: 𝑈𝑛 𝑒𝑠𝑡𝑖𝑚𝑎𝑡𝑒𝑢𝑟 𝑒𝑠𝑡 𝑑𝑖𝑡 𝑠𝑎𝑛𝑠 𝑏𝑖𝑎𝑖𝑠 𝑠𝑖
𝐸 𝑎 = 𝑎 et E 𝑏 = 𝑏
Estimateurs des variances Vara   2 1 2
x ix 
i

 xi 2

Var b   2 i
n x i  x 2
i
• Ces deux variances sont inconnus car σ² qui est la variance de l'erreur est
aussi inconnue. Celle ci est estimée par
 ei 2
s2  i
n2
.
• En remplaçant σ² par s² dans les deux variances précédentes, nous
obtenons les variances estimées des estimateurs qu'on note 𝑆𝑎2 et 𝑆𝑏2 , resp.
• Coéfficient de corrélation linéaire rX, Y  CovX,Y
VarX VarY

• Si r(X,Y)≃1, alors Y est linéairement liée à X. Sinon, la relation n'est pas


linéaire.
Exemple
Un père qui a deux garçons s'inquiète de la croissance de son cadet qu'il trouve petit, décide de
faire un modèle familial à partir des mesures de taille en fonction de l'âge de l'aîné. Une régression
simple a été effectuée pour avoir un modèle de croissance:

Age c 4 5 6 7 8 9 10 11 12

Taille 96 104.8 110.3 115.3 121.9 127.4 130.8 136 139.7 144.5

Données: x=age, y=Taille, ∑y=1226.7, ∑x=75, ∑y²=152750.6, ∑x²=645, ∑xy= 9630.9.


Moy(x)=7.5, moy(y)=122.67, cov(x,y)=47.85, 𝜎𝑥 = 3.02765, 𝜎𝑦 =15.88599
𝑐𝑜𝑣 𝑥, 𝑦 47.85
𝑟= = 0.99, 𝑎 = = 5.22, 𝑏=122.67−5.22∗7.5=83.52
𝜎𝑥 𝜎𝑦 9.166
Le modèle linéaire simple est:
𝑦 = 5.22x + 83.52
2
𝑒𝑖 23.288
2
, 𝑆𝑏 = 1.638396𝑒𝑖 = 𝑦𝑖 − 𝑦𝑖 , 2
𝑆 = = = 2.3283, 𝑆𝑎2 = 0.02540148
𝑛−2 8
Régression linéaire multiple
• Etudier la relation entre une variable dépendante et quantitative Y et p
variables explicatives indépendantes 𝑋1 ,...,𝑋 𝑝 .
• Ces variables sont observées sur une population de taille n.
• Le modèle linéaire multiple est donné par:
p
Y i  a 0  a 1 X 1i . . . a p X i  e i , i  1, . . . , n.
• Tel que 𝑒𝑖 vérifie
 Ee i   0.
 Cove i , e j   0, i  j.
 Vare i    2 , i  1, . . . , n.
• a₀,a₁,...,𝑎𝑝 sont des paramètres inconnus du modèle. Le paramètre σ² et
inconnu.
Ecriture matricielle du modèle
Y  X  e
Tels que
p
Y1 1 X 11  X1 a0 e1
Y2     a1 e2
Y ,X  ,  ,e 
 1 X 1n1   
p
Yn 1 X 1n  Xn ap en

Le vecteur des paramètres β étant inconnu,2 il est estimée par la méthode des
moindres carrés 𝛽. 𝛽 minimise  i
e 2i  e . Ainsi, 𝛽 est solution de

de 2 
  0,
Après résolution, on obtient: d


  X t X 1 X t Y
• Parmi les estimateurs sans biais 𝛽 est un estimateur de β de variance
minimale (Théorème de Gauss Markov).
• Variance de 𝛽: 
Var  2 X t X 1 .
• σ² étant inconnue, elle est estimée par
e i
2

i
S2  np1

• Calcul de S²en fonction des estimateurs des paramètres


1 
S 
2
Y Y  Y X
t t
n  p  1
p

 n varY   a j covX j , Y .
n  p  1 j1
• 𝑦 est la projection orthogonale de y sur la droite qui ajuste au mieux
le nuage de points:
y i  y2  y i  y i  y i  y2  y i  y i2  y i  y2  2 y i  y iy i  y   e i 2  y i  y2
i i i i i i i

• Coefficient de Détermination: Il mesure la dispersion du nuage de


points théorique à la dispersion observée. Il est compris entre 0 et 1.


 
 y i y 2
var y i
R 2
 
Vary
y y i
2

i
Intervalle de confiance des paramètres
• Soit 𝑡α/2 , un scalaire tel que

Pt /2  a s a  t /2   1  
a
𝑎−𝑎
• 𝑇= suit une loi de Student à n-(p+1) degré de liberté (ddl),
𝑠𝑎
• 𝑡α/2 est la valeur tabulée de la loi de Student au seuil α=1% ou 5%.
• L'intervalle de confiance à 95 ou 99% de a est donné par:
 
a  t /2 s a , a  t /2 sa 

Test de l'effet d'une variable X explicatives sur Y
• Tester si la variable explicative X a un effet linéaire sur la variable
dépendante Y au seuil α=5%(1%).
• On pose l'hypothèse nulle H₀:"a=o" contre l'alternative H₁: "a≠0 «
𝑎
• Sous H0, 𝑇 = suit une loi de Student à n-(p+1) degré de liberté (ddl).
𝑆𝑎
▲ Si: |T|> 𝑡α/2 , cet évènement a 5% de chance de se réaliser sous H₀, ainsi,
cette dernière est rejetée et donc H1 est accepté et l'effet de X sur Y est
linéaire.
▲ Si |T|< 𝑡α/2 , H0 est acceptée car cet évènement a 95% de chance de se
réaliser, et on ne peut rien dire quant au type d'effet de X sur Y (il n'est pas
linéaire).
Exemple: Tester l’effet de l'âge sur la taille au seuil α=5% :
• On pose l’hypothèse nulle H₀: a=o contre l'alternative H₁: a≠0.
𝑎
• Sous H0, on calcule, 𝑇 =
𝑆𝑎
5.22
𝑇 = = 32.75224
0.02540148
Et 𝑡α/2 est la valeur tabulée de Student pour α=5% et ddl=10-2=8
• 𝑡α/2 = 2.306
• Ainsi,
𝑇 > 2.306,
On décide de rejeter H0 et on accepte H1 et l'âge a un effet linéaire sur la taille.
Test de l'effet d'un groupe de variables explicatives sur Y
• Tester l'effet linéaire de k variables X₁,...,Xk parmi p(p≥k) sur Y à un seuil α.
• On pose l'hypothèse H₀:a₁=a₂=...=ak=0 contre l'alternative H₁: ∃j=1,...,k / aj≠0.
Sous H0 R2  R2 1  R2
Fk  k
k n  p  1

suit une loi de Fisher à (k,n-p-1) degré de liberté.


Pour le test, F est comparé à 𝑓𝑘,𝑛−𝑝−1 qui est la valeur tabulée de Fisher au seuil α
et à un ddl (k,n-p-1).tels que k représente le ddl du numérateur et n-p-1, celui du
dénominateur de F.
𝑅𝑘2 est le coefficient de détermination du modèle obtenu sous H₀.
▲ Si 𝐹𝑘 > 𝑓𝑘,𝑛−𝑝−1 ,alors on rejette H₀, et donc il existe au moins un effet linéaire
parmi les k variables explicatives.
▲ sinon H₀, est acceptée, et sur les k variables il n y a aucun effet linéaire.
Test de la régression globale
• Dans ce cas on teste l'effet de toutes les variables explicatives sur Y au
seuil α. Pour cela on pose l'hypothèse H₀:a₁=a₂=...=ap=0 contre l'alternative
H₁: ∃j=1,...,p / 𝑎𝑗 ≠0. Sous H₀ y y p 2
i
R2 /p
F  i

 ei 2 /np1 1R2 /np1
i
suit une loi de Fisher à (p,n-p-1) degré de liberté. Pour le test, celle ci est
comparé à 𝑓𝑝,𝑛−𝑝−1 qui est la valeur tabulée de Fisher au seuil α et à un ddl
(p,n-p-1).
▲ Si 𝐹 > 𝑓𝑘,𝑛−𝑝−1 , alors on rejette H0 et donc il existe au moins un effet
linéaire parmi les p variables explicatives.
▲ Sinon H₀ est accepté, et sur les p variables il n y a aucun effet linéaire et le
modèle est donc rejeté.
Problème de prévision linéaire
1 𝑝
• Soit𝑋0 ,...,𝑋0 ,une observation supplémentaire des variables
𝑝
explicatives X¹,..., 𝑋 , la prédiction Y₀ est donnée par:
   1  p
Y 0  a 0  a 1 X 0 . . . a p X 0 .
• La valeur à prédire Y₀ appartient à 95%(99%) de chance à l'intervalle:
 
Y 0  S 0 t /2 , Y 0  S 0 t /2
• tel que S₀² est l'estimateur de la variance de l'erreur de prévision
donné par: S 2  S 2 1  x t X t X 1 x 
0 0 0
𝑝
• tel que x₀=(1, 𝑋01 ,...,
𝑋0 ) représente l'observation supplémentaire des
p variables explicatives.
• Dans le cas du modèle linéaire simple, celle ci se simplifie et se calcule comme suit:
x 0 x  2
S2  S 2
1 1

x i x 2
0 n

Exemple (suite): Quel sera sa taille à 𝑋0 =19 ans


Y0=5.22*19+83.52=182.7
L’erreur de prévision: 𝑆02 = 2.3283[1+1/10+ 132.25/ 91.66667]= 5.920232
𝑡α/2 = 2.306
D’où
• L’intervalle de confiance à 95% est donné par:
182.7 − 1.81 ∗ 2.433153,182.7 + 1.81 ∗ 2.433153 = 177.0891 , 188.3109

Vous aimerez peut-être aussi