La régression
La régression ou ajustement analytique est l’estimation d’un caractère en fonction d’un ou de
plusieurs caractères. On parle de régression simple lorsqu’il s’agit de l’estimation d’un
caractère en fonction d’un autre. La variable (ou le caractère) que l’on cherche à estimer est
appelée variable dépendante tandis que la variable qui permet d’estimer celle-ci est appelée
variable indépendante.
Dans le cadre de ce chapitre, il sera question de la régression linéaire simple et d’autres
régressions pouvant se ramener à cette dernière (régression exponentielle et régression
logarithmique).
1. Régression linéaire simple
On parle de régression linéaire simple lorsque l’équation de la régression est de la forme
y ax b ou a et b sont des constantes à déterminer ; Y est la variable dépendante
et X la variable explicative.
a est appelé pente de la droite de régression ou coefficient de régression ou coefficient
angulaire. Le signe de a indique le sens de la relation entre les deux variables. La valeur de
a nous dit de combien augmente Y lorsque X augmente d’une unité.
Pour déterminer le type d’ajustement, il faudra d’abord représenter les nuages de points
donnés par (xi, yj). Dans le cadre d’un ajustement linéaire, ce nuage de point est linéaire.
1.1 Diagramme de dispersion ou nuage de points
1
2
Donne une idée de la direction et de l’intensité
1.2 Conditions d’application ou postulats
- Variables indépendantes et variable dépendante sont liées de façon linéaire
- Effets des variables indépendantes sur la variable dépendante sont additifs
- Variables indépendantes ne sont pas corrélées entre elles
- Échantillon tiré aléatoirement
- Distribution normale de la variable dépendante à l’intérieur de chaque catégorie de la
variable indépendante
- Égalité des variances de la variable dépendante à l’intérieur de chaque catégorie de la
variable indépendante (homoscédasticité)
3
1.3 Détermination des coefficients a et b par la méthode des moindres carrés
L’application de la méthode des moindres carrés fournit les coefficients à et b comme suit :
cov( X , Y )
a
V (X )
et b Y aX
Cov( X , Y ) f ij ( xi X )( y j Y ) fij xi y j X Y XY X Y
i j i j
1.4 Détermination de la qualité de la régression
Pour savoir si la régression linéaire est le modèle adéquat à l’estimation de la variable
dépendante, on recourt au calcul d’un indicateur R2 qui fournit le pourcentage ou la
proportion de la variation expliquée par le modèle. Cette statistique est donnée par :
( y j Y )2
R2 j
ou (y Y ) 2 est la variation expliquée par le modèle et
(yj Y ) 2 j
j
j
(y
j
j Y ) 2 la variation totale.
Si R 2 = 0 alors le modèle n’est pas adéquat car la variation expliquée est nulle ;
Si R 2 = 1 alors le modèle est adéquat car la variation expliquée est égale à la variation totale.
Mais dans la pratique, il est difficile d’avoir un modèle de ce type. On peut admettre que
lorsque R 2 atteint 0,5 ou plus que le modèle est adéquat.
2. Régression logarithmique
Cette forme de régression s’écrit z *ua ou u est la variable explicative et z la variable
dépendante ; a et sont des constantes à déterminer. En posant y = log z ; x = log u et b =
log , l’équation devient y ax b . On détermine alors les coefficients par la méthode
des moindres carrés que l’on remplace dans l’équation initiale z *ua avec
a
cov( X , Y )
et eb
V (X )
3. Régression exponentielle
L’écriture de la régression exponentielle est z * x
Remarquez dans ce cas que la variable indépendante est en puissance, les coefficients β et
α sont à déterminer. En procédant au changement de variable comme suit,
4
y log z b log a log , l’équation devient y ax b et l’on
procède comme précédemment fait.