0% ont trouvé ce document utile (0 vote)
15 vues6 pages

Anad5 2014

La régression linéaire est un modèle statistique utilisé pour analyser la relation entre une variable quantitative et une ou plusieurs autres variables. Elle se divise en régression simple, avec une seule variable explicative, et régression multiple, avec plusieurs variables explicatives. Le document présente également les méthodes d'estimation des paramètres du modèle et la qualité de l'ajustement mesurée par le coefficient R2.

Transféré par

raouf hamrit
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
15 vues6 pages

Anad5 2014

La régression linéaire est un modèle statistique utilisé pour analyser la relation entre une variable quantitative et une ou plusieurs autres variables. Elle se divise en régression simple, avec une seule variable explicative, et régression multiple, avec plusieurs variables explicatives. Le document présente également les méthodes d'estimation des paramètres du modèle et la qualité de l'ajustement mesurée par le coefficient R2.

Transféré par

raouf hamrit
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Module Analyse de Données, Master SIC Telecom, Avril 2014

Chapitre V

La régression Linéaire

I> Introduction :
La régression linéaire est utilisée pour étudier la liaison entre une variable
quantitative et une ou plusieurs variables quantitatives sous la forme d’un
modèle.

 Lorsqu’il s’git de deux variables uniquement, on parle de régression


simple !
 Lorsqu’il s’agit de plusieurs variables, on parle de régression multiple !

N.B. : La mise en œuvre d’une régression simple implique l’existence d’une


relation de cause à effet entre les variables prises en compte dans le modèle !

Exemple

On se propose d’introduire la notion de régression linéaire simple par


l’intermédiaire de l’exemple qui suit. La Tour de Pise ne cessait de s’incliner avant
d’être stabilisée... Mais existait-il une relation linéaire entre l’inclinaison de la
Tour et l’année avant les travaux de stabilisation ? L’inclinaison de la Tour a été
relevée de 1975 à 1987.

Inclinaison de la Tour de Pise entre 1975 et 1987


Module Analyse de Données, Master SIC Telecom, Avril 2014

La première valeur pour la variable inclinaison est 642. Elle correspond à 2.9642
m et il s’agit en fait de la distance entre un point de référence si la Tour de Pise
était droite et le point correspondant de la Tour à l’année considérée.
Les données peuvent être représentée par un nuage de points.

année inclinaison
1 1975 642
2 1976 644
3 1977 656
4 1978 667
5 1979 673
6 1980 688
7 1981 696
8 1982 698
9 1983 713
10 1984 717
11 1985 725
12 1986 742
13 1987 757
Nuage de points Inclinaison-année
760

740

720
inclinaison

700

680

660

640
1974 1976 1978 1980 1982 1984 1986 1988
année
Module Analyse de Données, Master SIC Telecom, Avril 2014

Remarque : On peut remarquer que le nuage de points est « linéaire » : ceci


justifierait à priori l’utilisation d’une régression linéaire simple !!!

II> Mise en place de la méthode :


La méthode est mise en œuvre sur des données quantitatives observées sur n
individus et présentés sous la forme :

 Une variable quantitative y prenant la valeur yi pour l’individu i {i=1,… ,n


} et appelée variable à expliquer ou variable réponse.
 p variables quantitatives x1, x2,….xP prenant les valeurs xi1, xi2,….xip pour
l’individu i et appelées variables explicatives ou prédictives. Si p=1, la
régression est dite simple.

Le phénomène aléatoire représenté par X peut donc servir à prédire celui


représenté par Y et la relation qui lie les deux s »écrit : y=f (x) ; On dit que l’on
fait une régression de y sur x.

 Dans le cas de la régression multiple, nous avons: y= f (x1, x2,…..xp) ;


 Si f appartient à l’ensemble des fonctions affines :
o f (x)= ax+b
o f (x1,x2,….xp) = a0 + a1x1+ a2x2 +….

Et la régression est dite linéaire.

III> Le modèle de régression linéaire simple :


Soit un échantillon de n individus ; Pour un individu i {i=1,… ,n }, on a observé :

 yi valeur quantitative de y.
 xi valeur quantitative de x

On veut alors étudier « l’effet » de x sur y !

On représente le nuage de n points de coordonnées (xi, yi), si ce nuage est


linéaire alors il serait alors judicieux d’ajuster ce nuage de points à une droite.
La relation entre yi et xi s’écrit sous la forme d’un modèle de régression linéaire
simple :

𝑦𝑖 =𝑎0 + 𝑎1 𝑥𝑖 + 𝑒𝑖 ∀𝑖 ∈ 1, … , 𝑛 (1)
Module Analyse de Données, Master SIC Telecom, Avril 2014

Avec ei réalisation de Ei ~N(0, σ2) et les n v.a. ei sont indépendantes.

IV> Le modèle de régression linéaire multiple :


On dispose d’un échantillon de n individus desquels on a observé :

 yi les valeurs de la variable réponse quantitative y.


 xi1, xi2,…., xip les valeurs des p autres variables x1,x2,…xp.

Le modèle de régression linéaire multiple s’écrit alors :

𝑦𝑖 = 𝑎0 + 𝑎1 𝑥𝑖1 + 𝑎2 𝑥𝑖2 + ⋯ . 𝑎𝑝 𝑥𝑖𝑝 +ei (2)

Avec ei réalisation de Ei ~ N(0, σ2) et les n v.a. ei sont indépendantes.


Module Analyse de Données, Master SIC Telecom, Avril 2014

V> Estimation des modèles :

V.1- Les paramètres du modèle :


Les paramètres du modèle de régression sont estimés grâce à la relation :

−1
𝐴 = 𝑋′𝑋 . 𝑋′. 𝑦 (3)

Dans le cas de la régression linéaire simple, il y a uniquement deux paramètres à


estimer , et la relation précédente se réduit à :

𝑐𝑜𝑣 (𝑥,𝑦)
𝑎0 = 𝑦 − 𝑎1 𝑥 et 𝑎1 = (4)
𝑣𝑎𝑟 (𝑥)

Nous pouvons démontrer que :

(valeur ajusté, prédite ou estimée de y)


𝑝 𝑗
 𝑦𝑖 = 𝑎0 + 𝑗 =1 𝑎𝑗 𝑥𝑖

 𝑒𝑖 = 𝑦𝑖 − 𝑦𝑖 (résidu calculé)

V.3- Quelques propriétés :

1- 𝑒 = 0

2- 𝑦 = 𝑦

3- La droite de régression passe par le point de coordonnées (𝑥 , 𝑦 )

4- cov (x, 𝑒) = 0

5- cov (𝑦, 𝑒) = 0

6- var(y) = var(𝑦,)+var(𝑒)

7- r2(x,y) =
𝑣𝑎𝑟 (𝑦 ) 𝑣𝑎𝑟 (𝑒)
𝑣𝑎𝑟 (𝑦 )
=1 − 𝑣𝑎𝑟 (𝑦 )
Module Analyse de Données, Master SIC Telecom, Avril 2014

V.4- Qualité de la régression ou de l’ajustement :

La qualité de l’ajustement est quantifié par un coefficient d’ajustement noté R2


et défini par la relation suivante :

avec 0 ≤ 𝑅2≤1 (5)


𝑣𝑎𝑟 (𝑦 )
𝑅 2 = 𝑟 2 𝑥, 𝑦 = 𝑣𝑎𝑟 (𝑦 )

Plus R2 est plus proche de 1, meilleure est la qualité de l’ajustement. R2


représente également la proportion de variance expliquée par la régression.

Dans les logiciels spécialisés d’Analyse de données ou de statistiques (SPSS,


SAS, XLSTAT), on retrouve souvent les grandeurs SST, SSKL et SSR définies
comme suit :

𝑺𝑺𝑻 = 𝑛
𝑖=1(𝑦𝑖 − 𝑦 )2 qui représente la somme totale des carrés corrigés de y.

𝑺𝑺𝑳 = 𝑛
𝑖=1( 𝑦𝑖 − 𝑦 )2 qui représente la somme des carrés expliqués par le modèle.

𝑺𝑺𝑹 = 𝑛
𝑖=1( 𝑒𝑖 )
2
qui représente la somme des carrés des résidus.

On peut alors démontrer que :

nR2= SST=SSL+SSR (6)

Vous aimerez peut-être aussi