0% ont trouvé ce document utile (0 vote)
7 vues36 pages

Analyse de la régression linéaire

Le document traite de la régression linéaire et de l'analyse de la relation entre deux variables, X et Y, en utilisant des méthodes statistiques. Il décrit les étapes nécessaires pour établir une corrélation, tester sa significativité, et quantifier l'intensité de la liaison, ainsi que la méthode des moindres carrés pour estimer les paramètres du modèle. Enfin, il aborde le coefficient de détermination R² et son importance dans l'évaluation de la qualité de l'ajustement du modèle aux données.

Transféré par

estheraya75
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
7 vues36 pages

Analyse de la régression linéaire

Le document traite de la régression linéaire et de l'analyse de la relation entre deux variables, X et Y, en utilisant des méthodes statistiques. Il décrit les étapes nécessaires pour établir une corrélation, tester sa significativité, et quantifier l'intensité de la liaison, ainsi que la méthode des moindres carrés pour estimer les paramètres du modèle. Enfin, il aborde le coefficient de détermination R² et son importance dans l'évaluation de la qualité de l'ajustement du modèle aux données.

Transféré par

estheraya75
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Régression linéaire

Exemple introductif

Sur un échantillon de 10 sujets d’âges différents, on a recueilli


le taux de cholestérol de chacun des sujets. Les données sont
consignées dans le tableau suivant :
âge en année
la concentration sanguine du cholestérol (en g/L).

Age (X) 30 60 40 20 50 30 40 20 70 60
gl(Y) 1.6 2.5 2.2 1.4 2.7 1.8 2.1 1.5 2.8 2.6
Le taux de cholestérol est-il lié à l’âge ? Si oui quelle forme de
relation existe-t-il entre ces deux grandeurs ?

ATD 2 / 35
Objectif

On souhaite analyser la liaison entre deux grandeurs X et Y


observées (mesurées) sur un individu. Il faut pour cela :
Déterminer s’il existe une relation entre X et Y ,
Caractériser la forme de la liaison
Tester si la liaison est significative (statistiquement)
Quantifier l’intensité de la liaison
Valider la liaison identifiée : est ce qu’elle n’est pas le
fruit d’une artefact ou le produit d’autres informations
sous-jacentes dans les données.

ATD 3 / 35
Etude exploratoire

En statistique, le préalabre à toute analyse (avancée) d’un


ensemble est l’étude descriptive à l’aide d’outil de statistique
descriptive.
L’objectif de cette étude préalabre
pour une variable : est de décrire et de synthétiser la
répartition des observations.
pour plusieurs variables observées simultanément :
visualiser et mesurer les indices des éventuelles relations
entre ces variables.
pour les données échantillonnées : les graphiques et les
indices statistiques calculés apportent une information
partielle sur les variables dans la population

ATD 4 / 35
Présentation des observations

L’étude de la relation entre deux variables nécessite des


mesures (observations) sur un échantillon de taille donnée. Ici
on prendra n. Cette taille désigne le nombre d’individus tirés
au sort dans la population mère. On a :

Individu i Variable X Variable Y


1 x1 y1
2 x2 y2
... ... ...
n xn yn

xi et yi sont les valeurs de X et Y sur le ième individu tiré au


sort.
Les méthodes utilisées pour étudier la relation dépendent du
type de variables.

ATD 5 / 35
Notion de corrélation

Deux variables quantitatives sont corrélées si elles ont


tendance à varier l’une en fonction de l’autre. On parle de
corrélation positive lorsqu’elles tendent à varier dans le même
sens et de corrélation négative si elles tendent à varier dans le
sens contraire.
L’étude simultanée de deux variables X et Y définies sur une
population permet de mettre en évidence une éventuelle
liaison entre les variables.

ATD 6 / 35
Notion de dépendance et d’indépendance

On dit que deux variables quantitatives sont liées lorsque les


variations de l’une dépendent des variations de l’autre. Par
opposition, on dit que deux variables sont indépendantes si
les deux variables varient indépendamment l’une de l’autre.
Dans ce cas, la connaissance de la valeur prise par l’une des
deux variables n’apporte aucune information sur la valeur
prise par l’autre variable sur cet individu.
Dans certains cas, une variable peut expliquer une autre,
dans d’autres cas jouer des rôles symétriques. Dans le cas des
variables qualitatives, on parle d’association et pour les
variables quantitatives, on parle de corrélation.

ATD 7 / 35
Exemple
On souhaite étudier la relation entre le poids d’un père et
celui de son fils. ( TD)

Coefficient de corrélation
Cov(X, Y ) = n1 ni=1 (xi − x̄)(yi − ȳ)
P

V ar(X) = n1 ni=1 x2i − x̄2


P

r(x, y) = √ Cov(X,Y )
V ar(X)V ar(Y )

Si r(x, y) > 0, relation positive entre les variables X et Y .


Si r(x, y) = 0, Il n’y a pas de relation linéaire entre les
variables X et Y .
Si r(x, y) < 0, relation négative entre les variables X et Y .

ATD 8 / 35
Régression linéaire

Si |r(x, y)| ≃ 1, on peut supposer que la variable X est la cause


de Y . Il est naturel de chercher, dans un ensemble donné de
fonctions, la fonction de X approchant Y le mieux possible au
sens d’un certains critères. Si l’ensemble des fonctions affines
(aX + b) est choisi, on parle de régression linéaire. C’est le
choix que l’on fait fréquemment dans la pratique, le critère le
plus usuelle étant celui des moindres carrés.

ATD 9 / 35
Critère des moindres carrées

Le critère des moindres carrées consiste à résoudre le


problème d’optimisation suivant :
n
X  2
min : S(a, b) = Yi − (aXi + b) .
a,b
i=1

Solution
La solution au problème de minimisation de S en a et b
fournit la solution suivante :
Cov(X, Y )
a
b= 2 , b=Y −a
b bX
σX

ATD 10 / 35
La droite d’équation y = a b est appelée droite de
bx + b
régression de Y sur X. Elle passe par le point (X, y1).

ATD 11 / 35
Exercice
Considérons un échantillon de 10 fonctionnaires (ayant entre
40 et 50 ans) d’un ministère. Soit X le nombre d’années de
service et Y le nombre de jours d’absence pour raison de
maladie (au cours de l’année précédente) déterminé pour
chaque personne appartenant à cet échantillon.

xi 2 14 16 8 13 20 24 7 5 11
yi 3 13 17 12 10 8 20 7 2 8

1 Représenter le nuage de points.


2 Calculer le coefficient de corrélation entre X et Y .
3 Déterminer l’équation de la droite de régression de Y en
fonction de X.
4 Déterminer la qualité de cet ajustement.
5 Établir, sur base de ce modèle, le nombre de jours
d’absence pour un fonctionnaire ayant 22 ans de service.
ATD 12 / 35
Le modèle peut avoir q, (q ≥ 2) variables explicatives. Dans ce
le modèle se présente sous la forme suivante :

Y = β1 X1 + β2 X2 + . . . βp Xq + ε. (1)

Lorsque, l’on dispose de n individus statistiques, le modèle se


présente sous la forme matricielle comme suit
     
Y1 X1,1 X1,2 . . . X1,q   ε1
Y  X β1
 2   2,1 X2,2 . . . X2,q  ε 
  .   2
 . = . .. ..  .  +  .  (2)
 .   .  .   . 
 .   . . . .
βq

Yn Xn,1 Xn,2 . . . Xn,q εn

ATD 13 / 35
     
Y1 X1,1 X1,2 . . . X1,p   ε1
Y  X β1
 2   2,1 X2,2 . . . X2,p 
  .   ε2 
 
 . = . .. ..  . + .  (3)
 .   .  .   . 
 .   . . . .
β

Yn Xn,1 Xn,2 . . . Xn,p | {zp } εn
| {z } | {z } β | {z }
Y X ε

ATD 14 / 35
Définition
Une variable Y constituée de n observations Yi suit un modèle
linéaire statistique si on peut écrire que :

Y = X.β + ε


X est une matrice de nombres réels connus à n lignes p
colonnes telles que p < n. S’il existe un terme constant
dans le modèle, alors la première colonne de la matrice X
est le vecteur 1 de Rn tel que les coefficients sont tous
égaux à 1.
Dans ce modèle de régression linéaire, chaque colonne de
la matrice représente une variable explicative, sauf pour
le cas très fréquent où l’une des colonnes est constituée
uniquement de 1. Cette colonne correspondra à la
constante (l’ordonnée à l’origine ou intercept) du modèle
linéaire. On parle également de régresseur constant.
ATD 15 / 35
Estimateur des moindres carrés

Dans cette étude, nous souhaitons estimer les composantes du


vecteur β. Nous utilisons la méthode des moindres carrés. On
appelle estimateur des moindres carrés βb de β la valeur
suivante

argmin SCR(β) = ∥Y − Xβ∥2 = (Y − Xβ)′ (Y − Xβ) .


β

De ce problème d’optimisation découle les formules


suivantes(elles ne seront pas démontrées dans ce cours).

ATD 16 / 35
Expression de l’estimateur des MC
Si la matrice X est de rang p, l’estimateur des MC βb de β est :

βb = (X ′ X)−1 X ′ Y

Cette formule fournit l’expression des estimateurs βb de β par


la méthodes des moindres carrées.

ATD 17 / 35
Expression de l’estimateur des MC
Si la matrice X est de rang p, l’estimateur des MC βb de β est :

βb = (X ′ X)−1 X ′ Y

Cette formule fournit l’expression des estimateurs βb de β par


la méthodes des moindres carrées.

Propriété

E(β)
b =β

Cette formule traduit le fait que l’estimateur est sans biais.

ATD 17 / 35
Propriété
b = σ 2 (X ′ .X)−1
V (β)

Ainsi,
Yb = X βb

ATD 18 / 35
Méthode des moindres carrés

Dans cette étude, nous supposerons que cette matrice est


régulière c’est-à-dire qu’elle est de rang p.
β est un vecteur inconnu constitué de p réels qui sont des
paramètres du modèle ;
le vecteur ε est appelé erreur du modèle est tel que
ε = (εi )1≤i≤n vérifie les 3 postulats suivants :

ATD 19 / 35
Formule
b ′ (Y − X β)
b = (Y − X β)
SCR(β) b 2 = ∥Y − Yb ∥2
b = ∥Y − X β∥

Il s’agit d’une variable aléatoire indépendante de βb et elle suit


la loi de χ2 (n − p). Cela permet d’estimer σ 2 par le biais du
carré moyen résiduel.

c2 = CM R = SCR(β)
b ∥Y − Yb ∥2
σ =
n−p n−p
Ce dernier est un estimateur sans biais de la variance.

ATD 20 / 35
Le coefficient de détermination

En effet la variance totale du modèle (avec la condition que la


constante fait partir du modèle), est égale à la somme de la
variance expliquée par le modèle et la variance résiduelle. On
a donc

SCT = SCE + SCR


ou

∥Y − y1∥2 = ∥Yb − y11∥2 + ∥Y − Yb ∥2

ATD 21 / 35
Le coefficient de détermination R2 est définie par
SCR
R2 = 1 −
SCT
ou
∥Y − Yb ∥2
R2 = 1 −
∥Y − y1∥2

ATD 22 / 35
Cas des erreurs gaussiennes

Lorsque le modèle est gaussien, les estimateurs obtenus par la


méthode des moindres carrés sont les mêmes que ceux du
maximum de vraisemblance.

ATD 23 / 35
Le coefficient de détermination R2 donne la proportion de
variablilité de Y expliquée par le modèle. Plus R2 est prochde
1, meilleure est l’adéquation des données du modèle aux
données. Dans les sorties de logiciel R, R2 est appelé
Multiple-R-squared. Dans la théorie, on reproche à cette
grandeur de ne pas tenir compte de la dimension de l’espace
de projection d’où la définition du coefficient de
détermination ajustée. Dans le logiciel R, il est appelé
Adjusted R-squared.

ATD 24 / 35
Inférences dans le modèle gaussien

Sous les hypothèses suivantes,


H1 ; rg(X) = p
H2 E(εb) = 0 et Σ = σ 2 In
et dans la suite nous supposons que H3 : ε ∼ N (0, σ 2 In ) .

ATD 25 / 35
Intervalles

σ connu
On construit l’intervalle de confiance de βj par
 q 
βbj ± µ1−α/2 σ (X ′ X)−1
j,j ,

où µ1−α/2 est le quantile d’ordre 1 − α/2 de N (0, 1).

ATD 26 / 35
Intervalles
Dans le cas du modèle gaussien, il est possible de construire
les intervalles des paramètres du modèle linéaire.
σ inconnu
On construit l’intervalle de confiance de βj par
 q 
βbj ± tn−p,1−α/2 σ
b (X ′ X)−1
j,j ,

où tn−p,1−α/2 est le quantile d’ordre 1 − α/2 de T (n − p).


Un intervalle de confiance bilatéral de niveau 1 − α, pour
σ 2 est donné par
" #
(n − p)σ 2 (n − p)σ 2
,
c2 c1
 
où P c1 ≤ χ2n−p ≤ c2 = 1 − α.
ATD 27 / 35
Effet de la variable explicative : ajustement au modèle

On pose la question suivante :


Pour j ∈ {1, . . . , q}, la variable Xj est-elle utile ?
Est-ce que cette variable agit linéairement sur la prévision
de Y ?
Quelle transformation de f (Xj ) si besoin ?

ATD 28 / 35
Si l’on se pose la question de l’utilité de la variables Xj on
peut tester

H0 : βj = 0 vs H1 : βj ̸= 0

ATD 29 / 35
Test de signification d’un coefficient βj

On souhaite tester H0 : βj = 0 contre H1 : βj ̸= 0. Il s’agit d’un


test bilatéral de signification de βj
Sous H0, la statistique de test :

βbj
T =
bβ2
σ j
q
avec σ b (X ′ X)−1
b βj = σ j,j suit la loi de Student à (n − p) degrés de
liberté. Notons t la valeur de cette statistique.

ATD 30 / 35
Règle de décision
On rejette H0, si
βbj
t= > tn−p,1− α2
c2
σ βj

C’est sous cette forme que le test de significativité d’un


coefficient apparaît dans tous les logiciels de statistique. Il est
donc complètement équivalent au test global de Fisher,
lorsqu’on spécialise celui-ci à la nullité d’un seul coefficient.

ATD 31 / 35
Le test ci-dessus est l’équivalent du test de fisher qui se
présente comme suit
2
Ŷ − Ŷ0
F =
σ̂ 2
Nous rejetons H0 si l’observation de la statistique de test,
notée F (w), est telle que :

1
F (w) > fn−p (1 − α)
1 (1 − α) est le quantile d’ordre (1 − α) d’une loi de Fisher
où fn−p
à 1 et (n − p) degrés de liberté.

ATD 32 / 35
Test global de Fisher

Si des connaissances a priori du phénomène assurent


l’existence d’un terme constant dans la régression, alors pour
tester l’influence des autres régresseurs (non constants) sur la
réponse Y , on regarde si E[Y ] = β1 . En d’autres termes, on
teste si tous les coefficients sont nuls, excepté la constante.

ATD 33 / 35
Test global de Fisher

Ce test est appelé test de Fisher global. Dans ce cas Ŷ0 = ȳ1
et nous avons la statistique de test suivante :

∥Ŷ − ȳ1∥2 /(p − 1) p−1


F = ∼ Fn−p
2
∥Y − Ŷ ∥ /(n − p)
On peut aussi l’exprimer à partir du coefficient de
détermination R2

n−p R2
F = ×
p − 1 1 − R2
Ce test est appelé le test du R2 par certains logiciels
statistiques.

ATD 34 / 35
Validation du modèle

Voir le TP.

ATD 35 / 35

Vous aimerez peut-être aussi