Module Analyse de Données, Master SIC Telecom, Avril 2014
Chapitre V
La régression Linéaire
I> Introduction :
La régression linéaire est utilisée pour étudier la liaison entre une variable
quantitative et une ou plusieurs variables quantitatives sous la forme d’un
modèle.
Lorsqu’il s’git de deux variables uniquement, on parle de régression
simple !
Lorsqu’il s’agit de plusieurs variables, on parle de régression multiple !
N.B. : La mise en œuvre d’une régression simple implique l’existence d’une
relation de cause à effet entre les variables prises en compte dans le modèle !
Exemple
On se propose d’introduire la notion de régression linéaire simple par
l’intermédiaire de l’exemple qui suit. La Tour de Pise ne cessait de s’incliner avant
d’être stabilisée... Mais existait-il une relation linéaire entre l’inclinaison de la
Tour et l’année avant les travaux de stabilisation ? L’inclinaison de la Tour a été
relevée de 1975 à 1987.
Inclinaison de la Tour de Pise entre 1975 et 1987
Module Analyse de Données, Master SIC Telecom, Avril 2014
La première valeur pour la variable inclinaison est 642. Elle correspond à 2.9642
m et il s’agit en fait de la distance entre un point de référence si la Tour de Pise
était droite et le point correspondant de la Tour à l’année considérée.
Les données peuvent être représentée par un nuage de points.
année inclinaison
1 1975 642
2 1976 644
3 1977 656
4 1978 667
5 1979 673
6 1980 688
7 1981 696
8 1982 698
9 1983 713
10 1984 717
11 1985 725
12 1986 742
13 1987 757
Nuage de points Inclinaison-année
760
740
720
inclinaison
700
680
660
640
1974 1976 1978 1980 1982 1984 1986 1988
année
Module Analyse de Données, Master SIC Telecom, Avril 2014
Remarque : On peut remarquer que le nuage de points est « linéaire » : ceci
justifierait à priori l’utilisation d’une régression linéaire simple !!!
II> Mise en place de la méthode :
La méthode est mise en œuvre sur des données quantitatives observées sur n
individus et présentés sous la forme :
Une variable quantitative y prenant la valeur yi pour l’individu i {i=1,… ,n
} et appelée variable à expliquer ou variable réponse.
p variables quantitatives x1, x2,….xP prenant les valeurs xi1, xi2,….xip pour
l’individu i et appelées variables explicatives ou prédictives. Si p=1, la
régression est dite simple.
Le phénomène aléatoire représenté par X peut donc servir à prédire celui
représenté par Y et la relation qui lie les deux s »écrit : y=f (x) ; On dit que l’on
fait une régression de y sur x.
Dans le cas de la régression multiple, nous avons: y= f (x1, x2,…..xp) ;
Si f appartient à l’ensemble des fonctions affines :
o f (x)= ax+b
o f (x1,x2,….xp) = a0 + a1x1+ a2x2 +….
Et la régression est dite linéaire.
III> Le modèle de régression linéaire simple :
Soit un échantillon de n individus ; Pour un individu i {i=1,… ,n }, on a observé :
yi valeur quantitative de y.
xi valeur quantitative de x
On veut alors étudier « l’effet » de x sur y !
On représente le nuage de n points de coordonnées (xi, yi), si ce nuage est
linéaire alors il serait alors judicieux d’ajuster ce nuage de points à une droite.
La relation entre yi et xi s’écrit sous la forme d’un modèle de régression linéaire
simple :
𝑦𝑖 =𝑎0 + 𝑎1 𝑥𝑖 + 𝑒𝑖 ∀𝑖 ∈ 1, … , 𝑛 (1)
Module Analyse de Données, Master SIC Telecom, Avril 2014
Avec ei réalisation de Ei ~N(0, σ2) et les n v.a. ei sont indépendantes.
IV> Le modèle de régression linéaire multiple :
On dispose d’un échantillon de n individus desquels on a observé :
yi les valeurs de la variable réponse quantitative y.
xi1, xi2,…., xip les valeurs des p autres variables x1,x2,…xp.
Le modèle de régression linéaire multiple s’écrit alors :
𝑦𝑖 = 𝑎0 + 𝑎1 𝑥𝑖1 + 𝑎2 𝑥𝑖2 + ⋯ . 𝑎𝑝 𝑥𝑖𝑝 +ei (2)
Avec ei réalisation de Ei ~ N(0, σ2) et les n v.a. ei sont indépendantes.
Module Analyse de Données, Master SIC Telecom, Avril 2014
V> Estimation des modèles :
V.1- Les paramètres du modèle :
Les paramètres du modèle de régression sont estimés grâce à la relation :
−1
𝐴 = 𝑋′𝑋 . 𝑋′. 𝑦 (3)
Dans le cas de la régression linéaire simple, il y a uniquement deux paramètres à
estimer , et la relation précédente se réduit à :
𝑐𝑜𝑣 (𝑥,𝑦)
𝑎0 = 𝑦 − 𝑎1 𝑥 et 𝑎1 = (4)
𝑣𝑎𝑟 (𝑥)
Nous pouvons démontrer que :
(valeur ajusté, prédite ou estimée de y)
𝑝 𝑗
𝑦𝑖 = 𝑎0 + 𝑗 =1 𝑎𝑗 𝑥𝑖
𝑒𝑖 = 𝑦𝑖 − 𝑦𝑖 (résidu calculé)
V.3- Quelques propriétés :
1- 𝑒 = 0
2- 𝑦 = 𝑦
3- La droite de régression passe par le point de coordonnées (𝑥 , 𝑦 )
4- cov (x, 𝑒) = 0
5- cov (𝑦, 𝑒) = 0
6- var(y) = var(𝑦,)+var(𝑒)
7- r2(x,y) =
𝑣𝑎𝑟 (𝑦 ) 𝑣𝑎𝑟 (𝑒)
𝑣𝑎𝑟 (𝑦 )
=1 − 𝑣𝑎𝑟 (𝑦 )
Module Analyse de Données, Master SIC Telecom, Avril 2014
V.4- Qualité de la régression ou de l’ajustement :
La qualité de l’ajustement est quantifié par un coefficient d’ajustement noté R2
et défini par la relation suivante :
avec 0 ≤ 𝑅2≤1 (5)
𝑣𝑎𝑟 (𝑦 )
𝑅 2 = 𝑟 2 𝑥, 𝑦 = 𝑣𝑎𝑟 (𝑦 )
Plus R2 est plus proche de 1, meilleure est la qualité de l’ajustement. R2
représente également la proportion de variance expliquée par la régression.
Dans les logiciels spécialisés d’Analyse de données ou de statistiques (SPSS,
SAS, XLSTAT), on retrouve souvent les grandeurs SST, SSKL et SSR définies
comme suit :
𝑺𝑺𝑻 = 𝑛
𝑖=1(𝑦𝑖 − 𝑦 )2 qui représente la somme totale des carrés corrigés de y.
𝑺𝑺𝑳 = 𝑛
𝑖=1( 𝑦𝑖 − 𝑦 )2 qui représente la somme des carrés expliqués par le modèle.
𝑺𝑺𝑹 = 𝑛
𝑖=1( 𝑒𝑖 )
2
qui représente la somme des carrés des résidus.
On peut alors démontrer que :
nR2= SST=SSL+SSR (6)