Régression linéaire
Exemple introductif
Sur un échantillon de 10 sujets d’âges différents, on a recueilli
le taux de cholestérol de chacun des sujets. Les données sont
consignées dans le tableau suivant :
âge en année
la concentration sanguine du cholestérol (en g/L).
Age (X) 30 60 40 20 50 30 40 20 70 60
gl(Y) 1.6 2.5 2.2 1.4 2.7 1.8 2.1 1.5 2.8 2.6
Le taux de cholestérol est-il lié à l’âge ? Si oui quelle forme de
relation existe-t-il entre ces deux grandeurs ?
ATD 2 / 35
Objectif
On souhaite analyser la liaison entre deux grandeurs X et Y
observées (mesurées) sur un individu. Il faut pour cela :
Déterminer s’il existe une relation entre X et Y ,
Caractériser la forme de la liaison
Tester si la liaison est significative (statistiquement)
Quantifier l’intensité de la liaison
Valider la liaison identifiée : est ce qu’elle n’est pas le
fruit d’une artefact ou le produit d’autres informations
sous-jacentes dans les données.
ATD 3 / 35
Etude exploratoire
En statistique, le préalabre à toute analyse (avancée) d’un
ensemble est l’étude descriptive à l’aide d’outil de statistique
descriptive.
L’objectif de cette étude préalabre
pour une variable : est de décrire et de synthétiser la
répartition des observations.
pour plusieurs variables observées simultanément :
visualiser et mesurer les indices des éventuelles relations
entre ces variables.
pour les données échantillonnées : les graphiques et les
indices statistiques calculés apportent une information
partielle sur les variables dans la population
ATD 4 / 35
Présentation des observations
L’étude de la relation entre deux variables nécessite des
mesures (observations) sur un échantillon de taille donnée. Ici
on prendra n. Cette taille désigne le nombre d’individus tirés
au sort dans la population mère. On a :
Individu i Variable X Variable Y
1 x1 y1
2 x2 y2
... ... ...
n xn yn
xi et yi sont les valeurs de X et Y sur le ième individu tiré au
sort.
Les méthodes utilisées pour étudier la relation dépendent du
type de variables.
ATD 5 / 35
Notion de corrélation
Deux variables quantitatives sont corrélées si elles ont
tendance à varier l’une en fonction de l’autre. On parle de
corrélation positive lorsqu’elles tendent à varier dans le même
sens et de corrélation négative si elles tendent à varier dans le
sens contraire.
L’étude simultanée de deux variables X et Y définies sur une
population permet de mettre en évidence une éventuelle
liaison entre les variables.
ATD 6 / 35
Notion de dépendance et d’indépendance
On dit que deux variables quantitatives sont liées lorsque les
variations de l’une dépendent des variations de l’autre. Par
opposition, on dit que deux variables sont indépendantes si
les deux variables varient indépendamment l’une de l’autre.
Dans ce cas, la connaissance de la valeur prise par l’une des
deux variables n’apporte aucune information sur la valeur
prise par l’autre variable sur cet individu.
Dans certains cas, une variable peut expliquer une autre,
dans d’autres cas jouer des rôles symétriques. Dans le cas des
variables qualitatives, on parle d’association et pour les
variables quantitatives, on parle de corrélation.
ATD 7 / 35
Exemple
On souhaite étudier la relation entre le poids d’un père et
celui de son fils. ( TD)
Coefficient de corrélation
Cov(X, Y ) = n1 ni=1 (xi − x̄)(yi − ȳ)
P
V ar(X) = n1 ni=1 x2i − x̄2
P
r(x, y) = √ Cov(X,Y )
V ar(X)V ar(Y )
Si r(x, y) > 0, relation positive entre les variables X et Y .
Si r(x, y) = 0, Il n’y a pas de relation linéaire entre les
variables X et Y .
Si r(x, y) < 0, relation négative entre les variables X et Y .
ATD 8 / 35
Régression linéaire
Si |r(x, y)| ≃ 1, on peut supposer que la variable X est la cause
de Y . Il est naturel de chercher, dans un ensemble donné de
fonctions, la fonction de X approchant Y le mieux possible au
sens d’un certains critères. Si l’ensemble des fonctions affines
(aX + b) est choisi, on parle de régression linéaire. C’est le
choix que l’on fait fréquemment dans la pratique, le critère le
plus usuelle étant celui des moindres carrés.
ATD 9 / 35
Critère des moindres carrées
Le critère des moindres carrées consiste à résoudre le
problème d’optimisation suivant :
n
X 2
min : S(a, b) = Yi − (aXi + b) .
a,b
i=1
Solution
La solution au problème de minimisation de S en a et b
fournit la solution suivante :
Cov(X, Y )
a
b= 2 , b=Y −a
b bX
σX
ATD 10 / 35
La droite d’équation y = a b est appelée droite de
bx + b
régression de Y sur X. Elle passe par le point (X, y1).
ATD 11 / 35
Exercice
Considérons un échantillon de 10 fonctionnaires (ayant entre
40 et 50 ans) d’un ministère. Soit X le nombre d’années de
service et Y le nombre de jours d’absence pour raison de
maladie (au cours de l’année précédente) déterminé pour
chaque personne appartenant à cet échantillon.
xi 2 14 16 8 13 20 24 7 5 11
yi 3 13 17 12 10 8 20 7 2 8
1 Représenter le nuage de points.
2 Calculer le coefficient de corrélation entre X et Y .
3 Déterminer l’équation de la droite de régression de Y en
fonction de X.
4 Déterminer la qualité de cet ajustement.
5 Établir, sur base de ce modèle, le nombre de jours
d’absence pour un fonctionnaire ayant 22 ans de service.
ATD 12 / 35
Le modèle peut avoir q, (q ≥ 2) variables explicatives. Dans ce
le modèle se présente sous la forme suivante :
Y = β1 X1 + β2 X2 + . . . βp Xq + ε. (1)
Lorsque, l’on dispose de n individus statistiques, le modèle se
présente sous la forme matricielle comme suit
Y1 X1,1 X1,2 . . . X1,q ε1
Y X β1
2 2,1 X2,2 . . . X2,q ε
. 2
. = . .. .. . + . (2)
. . . .
. . . . .
βq
Yn Xn,1 Xn,2 . . . Xn,q εn
ATD 13 / 35
Y1 X1,1 X1,2 . . . X1,p ε1
Y X β1
2 2,1 X2,2 . . . X2,p
. ε2
. = . .. .. . + . (3)
. . . .
. . . . .
β
Yn Xn,1 Xn,2 . . . Xn,p | {zp } εn
| {z } | {z } β | {z }
Y X ε
ATD 14 / 35
Définition
Une variable Y constituée de n observations Yi suit un modèle
linéaire statistique si on peut écrire que :
Y = X.β + ε
où
X est une matrice de nombres réels connus à n lignes p
colonnes telles que p < n. S’il existe un terme constant
dans le modèle, alors la première colonne de la matrice X
est le vecteur 1 de Rn tel que les coefficients sont tous
égaux à 1.
Dans ce modèle de régression linéaire, chaque colonne de
la matrice représente une variable explicative, sauf pour
le cas très fréquent où l’une des colonnes est constituée
uniquement de 1. Cette colonne correspondra à la
constante (l’ordonnée à l’origine ou intercept) du modèle
linéaire. On parle également de régresseur constant.
ATD 15 / 35
Estimateur des moindres carrés
Dans cette étude, nous souhaitons estimer les composantes du
vecteur β. Nous utilisons la méthode des moindres carrés. On
appelle estimateur des moindres carrés βb de β la valeur
suivante
argmin SCR(β) = ∥Y − Xβ∥2 = (Y − Xβ)′ (Y − Xβ) .
β
De ce problème d’optimisation découle les formules
suivantes(elles ne seront pas démontrées dans ce cours).
ATD 16 / 35
Expression de l’estimateur des MC
Si la matrice X est de rang p, l’estimateur des MC βb de β est :
βb = (X ′ X)−1 X ′ Y
Cette formule fournit l’expression des estimateurs βb de β par
la méthodes des moindres carrées.
ATD 17 / 35
Expression de l’estimateur des MC
Si la matrice X est de rang p, l’estimateur des MC βb de β est :
βb = (X ′ X)−1 X ′ Y
Cette formule fournit l’expression des estimateurs βb de β par
la méthodes des moindres carrées.
Propriété
E(β)
b =β
Cette formule traduit le fait que l’estimateur est sans biais.
ATD 17 / 35
Propriété
b = σ 2 (X ′ .X)−1
V (β)
Ainsi,
Yb = X βb
ATD 18 / 35
Méthode des moindres carrés
Dans cette étude, nous supposerons que cette matrice est
régulière c’est-à-dire qu’elle est de rang p.
β est un vecteur inconnu constitué de p réels qui sont des
paramètres du modèle ;
le vecteur ε est appelé erreur du modèle est tel que
ε = (εi )1≤i≤n vérifie les 3 postulats suivants :
ATD 19 / 35
Formule
b ′ (Y − X β)
b = (Y − X β)
SCR(β) b 2 = ∥Y − Yb ∥2
b = ∥Y − X β∥
Il s’agit d’une variable aléatoire indépendante de βb et elle suit
la loi de χ2 (n − p). Cela permet d’estimer σ 2 par le biais du
carré moyen résiduel.
c2 = CM R = SCR(β)
b ∥Y − Yb ∥2
σ =
n−p n−p
Ce dernier est un estimateur sans biais de la variance.
ATD 20 / 35
Le coefficient de détermination
En effet la variance totale du modèle (avec la condition que la
constante fait partir du modèle), est égale à la somme de la
variance expliquée par le modèle et la variance résiduelle. On
a donc
SCT = SCE + SCR
ou
∥Y − y1∥2 = ∥Yb − y11∥2 + ∥Y − Yb ∥2
ATD 21 / 35
Le coefficient de détermination R2 est définie par
SCR
R2 = 1 −
SCT
ou
∥Y − Yb ∥2
R2 = 1 −
∥Y − y1∥2
ATD 22 / 35
Cas des erreurs gaussiennes
Lorsque le modèle est gaussien, les estimateurs obtenus par la
méthode des moindres carrés sont les mêmes que ceux du
maximum de vraisemblance.
ATD 23 / 35
Le coefficient de détermination R2 donne la proportion de
variablilité de Y expliquée par le modèle. Plus R2 est prochde
1, meilleure est l’adéquation des données du modèle aux
données. Dans les sorties de logiciel R, R2 est appelé
Multiple-R-squared. Dans la théorie, on reproche à cette
grandeur de ne pas tenir compte de la dimension de l’espace
de projection d’où la définition du coefficient de
détermination ajustée. Dans le logiciel R, il est appelé
Adjusted R-squared.
ATD 24 / 35
Inférences dans le modèle gaussien
Sous les hypothèses suivantes,
H1 ; rg(X) = p
H2 E(εb) = 0 et Σ = σ 2 In
et dans la suite nous supposons que H3 : ε ∼ N (0, σ 2 In ) .
ATD 25 / 35
Intervalles
σ connu
On construit l’intervalle de confiance de βj par
q
βbj ± µ1−α/2 σ (X ′ X)−1
j,j ,
où µ1−α/2 est le quantile d’ordre 1 − α/2 de N (0, 1).
ATD 26 / 35
Intervalles
Dans le cas du modèle gaussien, il est possible de construire
les intervalles des paramètres du modèle linéaire.
σ inconnu
On construit l’intervalle de confiance de βj par
q
βbj ± tn−p,1−α/2 σ
b (X ′ X)−1
j,j ,
où tn−p,1−α/2 est le quantile d’ordre 1 − α/2 de T (n − p).
Un intervalle de confiance bilatéral de niveau 1 − α, pour
σ 2 est donné par
" #
(n − p)σ 2 (n − p)σ 2
,
c2 c1
où P c1 ≤ χ2n−p ≤ c2 = 1 − α.
ATD 27 / 35
Effet de la variable explicative : ajustement au modèle
On pose la question suivante :
Pour j ∈ {1, . . . , q}, la variable Xj est-elle utile ?
Est-ce que cette variable agit linéairement sur la prévision
de Y ?
Quelle transformation de f (Xj ) si besoin ?
ATD 28 / 35
Si l’on se pose la question de l’utilité de la variables Xj on
peut tester
H0 : βj = 0 vs H1 : βj ̸= 0
ATD 29 / 35
Test de signification d’un coefficient βj
On souhaite tester H0 : βj = 0 contre H1 : βj ̸= 0. Il s’agit d’un
test bilatéral de signification de βj
Sous H0, la statistique de test :
βbj
T =
bβ2
σ j
q
avec σ b (X ′ X)−1
b βj = σ j,j suit la loi de Student à (n − p) degrés de
liberté. Notons t la valeur de cette statistique.
ATD 30 / 35
Règle de décision
On rejette H0, si
βbj
t= > tn−p,1− α2
c2
σ βj
C’est sous cette forme que le test de significativité d’un
coefficient apparaît dans tous les logiciels de statistique. Il est
donc complètement équivalent au test global de Fisher,
lorsqu’on spécialise celui-ci à la nullité d’un seul coefficient.
ATD 31 / 35
Le test ci-dessus est l’équivalent du test de fisher qui se
présente comme suit
2
Ŷ − Ŷ0
F =
σ̂ 2
Nous rejetons H0 si l’observation de la statistique de test,
notée F (w), est telle que :
1
F (w) > fn−p (1 − α)
1 (1 − α) est le quantile d’ordre (1 − α) d’une loi de Fisher
où fn−p
à 1 et (n − p) degrés de liberté.
ATD 32 / 35
Test global de Fisher
Si des connaissances a priori du phénomène assurent
l’existence d’un terme constant dans la régression, alors pour
tester l’influence des autres régresseurs (non constants) sur la
réponse Y , on regarde si E[Y ] = β1 . En d’autres termes, on
teste si tous les coefficients sont nuls, excepté la constante.
ATD 33 / 35
Test global de Fisher
Ce test est appelé test de Fisher global. Dans ce cas Ŷ0 = ȳ1
et nous avons la statistique de test suivante :
∥Ŷ − ȳ1∥2 /(p − 1) p−1
F = ∼ Fn−p
2
∥Y − Ŷ ∥ /(n − p)
On peut aussi l’exprimer à partir du coefficient de
détermination R2
n−p R2
F = ×
p − 1 1 − R2
Ce test est appelé le test du R2 par certains logiciels
statistiques.
ATD 34 / 35
Validation du modèle
Voir le TP.
ATD 35 / 35