Introduction à la régression logistique
Introduction à la régression logistique
K Djaballah
Master BIG DATA ANALYTICS
Faculté d’informatique. USTHB
1 Introduction
1
cette technique est utilisée lors du traitement de données binaires. La régres-
sion logistique utilise la fonction sigmoïde pour associer les valeurs prédites aux
probabilités. Cette fonction associe toute valeur réelle à une autre valeur com-
prise entre zéro et un. Cette fonction a une dérivée non négative à chaque point
et exactement un point d’in‡exion.
2
2 Modèles
2.1 Les modèles adaptés
Dans le modèle de la régression logistique binaire, la variable expliquée ne prend
que deux modalités. On considère un échantillon de n individus indicés par
i = 1; :::; n et on pose, 8i 2 f1; :::; ng:
On a
yi = xi + "i (1)
t
où désigne un vecteur de K paramètres inconnus, = 1 K 2
RK .
3
2. Sachant que dans la cas d’une variable dépendante yi dichotomique, celle-
ci ne peut prendre que les valeurs 0 ou 1, l’équation (1) implique que la
perturbation "i ne peut prendre, elle aussi, que 2 valeurs, conditionnelle-
ment au vecteur xi :
Ainsi, la perturbation "i du modèle (1) admet nécessairement une loi dis-
crète, ce qui exclut l’hypothèse de normalité des résidus que l’on suppose
dans un modèle de regression classique.
3. Lorsque l’on suppose que les résidus "i sont de moyenne nulle, la probabil-
ité pi associée à l’événement yi = 1 est alors determinée de façon unique.
En e¤et, écrivons l’espérance des résidus :
E("i ) = pi xi
Or rien n’assure que la condition (2) soit satisfaite par l’estimateur des
moindres carrés utilisé dans le modèle linéaire (1). Si ces contraintes ne
sont pas véri…ées, le modèle avec E("i ) = 0; 8i = 1; :::; n; n’a pas de sens.
4. La matrice de variance covariance des résidus varie entre les individus
en fonction de leur caractéristiques associées aux variables xi puisque :
V ar("i ) = (1 xi )xi (problème d’hétéroscédascticité)
V ar("i ) = xi (1 xi ) 8i = 1; :::; n
Il y a deux types de modèles fréquemment utilisés: le modèle logit et le
modèle probit. L’objectif de la régression logistique binaire est de former un
classi…cateur capable de prendre une décision binaire sur la classe d’une nou-
velle observation. Le classi…cateur sigmoïde aide à prendre cette décision. La
régression logistique résout cette tâche en apprenant, à partir d’un ensemble
d’entraînement, un vecteur de poids et un terme de biais. Chaque poids wi est
un nombre réel et est associé à l’une des caractéristiques d’entrée xi . Le poids
wi représente l’importance de cette caractéristique d’entrée pour la décision de
classi…cation et peut être positif (fournissant la preuve que l’instance classée
appartient à la classe positive) ou négatif (fournissant la preuve que l’instance
classée appartient à la classe négative). Ainsi, nous pourrions nous attendre à
ce que dans une tâche de sentiment, le mot génial ait un poids positif élevé et
le terme de biais abyssal un poids très négatif. Le terme de biais, également
appelé intercept, est intercept un autre nombre réel qui est ajouté aux entrées
pondérées
4
2.2 Modèles Logit et Probit
Dans le cas d’une variable binaire, la moyenne correspond à la proportion
d’individus possédant la caractéristique étudiée ou répondant positivement à
l’événement, d’où l’idée de modéliser la probabilité de succès, comprise entre
0 et 1, en fonction d’un certain nombre de prédicteurs. On considère donc le
modèle suivant:
pi = P (yi = 1jxi ) = F (xi ) (3)
où la fonction F (:) désigne une fonction de répartition. Le choix de la
fonction de répartition F (:) n’est pas contraint. On utilise généralement deux
types de fonction: la fonction de répartition de la loi logistique et la fonction de
répartition de la loi normale centrée réduite. Dans le cas du modèle Logit, la
fonction de répartition F (:) correspond à la fonction logistique 8z 2:
ez 1
F (z) = z
= z
= (z):
1+e 1+e
5
L’index xi peut également inclure des variables explicatives binaires.
exp(b + wx)
y= :
1 + exp(b + wx)
6
3 Estimation des paramètres
Apprentissage dans la régression logistique
Comment les paramètres du modèle, les poids w et le biais b, sont-ils trouvés
?
La régression logistique est une instance de classi…cation supervisée dans
laquelle nous connaissons la vraie valeur de y (soit 0 ou 1) pour chaque obser-
vation x. Ce que le système produit via l’équation
1
P (y = 1) =
1 + exp(( wx + b))
est yb, l’estimation du vrai y par le système. Nous voulons trouver les paramètres
(c’est-à-dire w et b) qui rendent yb pour chaque observation d’entraînement aussi
proche que possible du vrai y. Le premier est une mesure de la proximité de yb
avec la vraie valeur de y .
3.1 Estimation
La méthode du maximum de vraisemblance est utilisé pour l’estimation
des paramètres dans le modèle de régression logistique. Pour appliquer la méth-
ode du maximum de vraisemblance, nous devons d’abord construire la fonction
de vraisemblance. L’estimation du maximum de vraisemblance est la valeur
du paramètre qui maximise cette fonction. De plus, on sait que la valeur du
paramètre qui maximise la fonction de vraisemblance maximise le log de cette
fonction. Dans le cas du modèle dichotomique on a:
n
X
log(L(y; )) = (yi log(F (xi )) + (1 yi ) log(1 F (xi ))) (4)
i=1
7
L’estimateur du maximum de vraisemblance des paramètres est obtenu
en maximisant la fonction de log-vraisemblance (4). Dans le cas d’un modèle
dichotomique, l’estimateur b du maximum de vraisemblance est dé…ni par :
b = arg max 1
log L(y; )
n
En dérivant la log-vraisemblance par rapport au vecteur , de dimension
(K; 1), on obtient le gradient, noté G( ). Dans le cas du modèle Logit
n
X
G( ) = (yi (xi ))xti
i=1
8
Modèle réduit: P (yi = 1) = F ( 0)
L(y; b )
R2 = 1
L(y; b ; 0)
0
Si R2 est proche de zéro, cela veut dire que l’apport des variables explicatives
est presque nul et donc que le modèle est mauvais, par contre si R2 est proche
de 1 alors le modèle ajuste bien les données.
@pi @F (xi )
= = f (xi ) j: (5)
@xji @xji
Autrement dit, lorsque le coe¢ cient associé à une variable explicative est
positive, on dira que l’accroissement de cette variable favorise la probabilité
de survenue de l’évènement yi = 1. Par contre, lorsque le coe¢ cient de la
variable est négatif, cela signi…e que l’accroissement défavorise la survenue de
l’évènement.
9
Conclusion: l’ampleur de l’in‡uence qu’exerce xji sur la probabilité P (yi =
1) peut être mesuré en utilisant les e¤ets marginaux. Le signe des coe¢ cients
et le calcul des e¤ets marginaux restent les deux seules informations directement
exploitables en ce qui concerne les variables explicatives.
@pi
En…n, plutôt que d’exprimer l’e¤et marginal sous la forme de la dérivée @x j,
i
on préfère généralement calculer une élasticité, cette dernière ayant l’avantage
d’être indépendante des unités de mesure. Ainsi, on dé…nit l’élasticité "pi ;xj
i
comme la variation en pourcentage de la probabilité de survenue pi de l’événement
codé yi = 1, suite à une variation de 1% de la j ieme variable explicative xji
4.2.1 Le logit
On a
exp(xi )
pi = P (yi = 1) = (xi ) =
1 + exp(xi )
)
pi
exp(xi ) = (7)
1 pi
D’où en appliquant le log aux 2 membres de (7), on obtient :
pi
log = xi (8)
1 pi
10
qui est une fonction linéaire, et est appelé le logit de pi , notée logit(pi ). On
peut dé…nir le modèle de régression logistique, en supposant que le logit de la
probabilité pi , suit un modèle linéaire.
La fonction logit(p(x)) est appelée une link function ou fonction de lien dans
la théorie des modèles linéaires généralisés. On observe qu’elle peut varier entre
1 et +1. Dans l’expression (8), les coe¢ cients de régression peuvent être
interprétés comme dans les modèles linéaires. Ainsi, j représente la variation
dans le logit de la probabilité associée à un changement d’unité dans le j ieme
variable xj tenant tous les autres variables constantes.
4.2.2 La côte
La quantité 1 pipi représente le rapport de la probabilité associée à l’événement
yi = 1 à la probabilité de non survenue de cet événement: il s’agit de la côte
(odd).
Dans un modèle Logit, la côte correspond à la quantité exi d’après (8):
pi
ci := = exi : (9)
1 pi
Si ce rapport est égal à ci pour l’individu i, cela signi…e qu’il y a ci fois
plus de chance que l’événement associé à l’événement yi = 1 se réalise, qu’il
ne se réalise pas. La côte est dé…nie comme le ratio des cas favorables aux cas
défavorables. Les chances sont non négatives, avec ci > 1 quand un succès est
plus probable qu’un échec.
Exemple.
11
relatif de maladie dans le groupe traité versus le groupe placebo est de 0.4/0.8
= 0.5. Le risque de maladie est ainsi réduit par 2 sous traitement actif.
L’interprétation du rapport de côtes varie selon que le prédicteur est caté-
gorique ou continu. Les rapports de côtes supérieurs à 1 indiquent que l’événement
est plus susceptible de se produire à mesure que le prédicteur augmente . Les
rapports de côtes inférieurs à 1 indiquent que l’événement est moins susceptible
de se produire à mesure que le prédicteur augmente.
Example 3 Odds ratio (ou « rapport des côtes » ). C’est le rapport des côtes
des probabilités d’avoir la maladie pour ceux qui ont un symptôme (un signe
qui représente une manifestation d’une maladie) X d’une part et de ceux qui ne
l’ont pas d’autre part.
Odd = 1, la maladie est indépendante du symptôme
Odd > 1, la maladie est plus fréquente pour les individus qui ont le symp-
tôme.
Odd < 1, la maladie est plus fréquente pour les individus qui n’ont pas le
symptôme.
5 Tests
5.1 Contribution individuelle d’une variable
5.1.1 Test de Wald.
e test reposent sur la distribution asymptotique des estimateurs du maximum
de vraisemblance. Le test de Wald est obtenu en comparant l’estimation du
maximum de vraisemblance du paramètre j , à une estimation de son erreur-
type. On considère le test suivant:
H0 : j = 0 contre H1 : j 6= 0
b2
j
W =
vbjj
12
b désigne l’estimateur du maximum de vraisemblance de et vbjj l’estimateur
j j
de sa variance. Sous l’hypothèse H0 , W suit la loi du 21 . On rejette l’hypothèse
H0 avec un risque de première espèce …xé, lorsque la valeur de la statistique
de test est supérieure au quantile d’ordre de la loi du 21 .
N.B.: La variance estimée du coe¢ cient ^ j est lue dans l’inverse de la matrice
hessienne.
De grandes p-value correspondent aux coe¢ cients que l’on peut considérer
comme nuls et susceptibles d’être exclus du modèle …nal. L’usage de ce test
est donc de sélectionner les variables susceptibles d’être exclues du modèle …nal,
correspondant à des p-values élevées, c’est à dire les variables avec une statistique
de Wald faible (et donc une erreur de mesure importante).
Le logiciel R, lui, propose la statistique Z à la place de W , avec
b p
= signe( b j )
j
Z=p W N (0; 1)
vbjj
Z peut prendre des valeurs négatives. Le test étant bilatéral, nous retrouvons
exactement les mêmes probabilités critiques (p-value) qu’avec la statistique de
Wald (W ).
H0 : j = 0 contre H1 : j 6= 0
0
En désignant par b j l’estimateur du maximum de vraisemblance et par b j
l’estimateur du maximum de vraisemblance sous H0 , on dé…nit la statistique du
test par: 0 1
0
b
L(y; j )
LRV = 2 log @ A
L(y; b j )
L’utilisation de moins deux fois le log est nécessaire pour obtenir une quantité
dont la distribution est connue et peut donc être utilisée pour le test. On sait
que sous l’hypothèse nulle, la statistique du test du rapport de vraisemblance
suit une loi du 21 . On rejette, le test au niveau lorsque la statistique de test
calculée à partir de l’échantillon est supérieure au quantile d’ordre de la loi
du 2 à 1 degré de liberté.
13
H0 : 1 = 2 = = K =0
14
2. il s’agit d’un test ayant une faible puissance pour détecter des types spé-
ci…ques,
3. il dépend fortement de la façon dont les observations sont groupées,
4. si trop peu de groupes sont utilisés pour calculer la statistique (par exem-
ple, cinq groupes ou moins), cela indiquera presque toujours que le modèle
correspond aux données et
5. lorsque la statistique de Hosmer-Lemeshow indique un mauvais ajuste-
ment, il peut être di¢ cile d’identi…er quels types de sujets ne sont pas
bien modélisés.
6 Tableau de contingence
(yi = 1) (yi = 0) Total
Prédit (b
yi = 1) a c a+c
Prédit (b
yi = 0) b d b+d
Total a+b c+d n
Example 5 suite.
Sensibilité: Se: 93/143 = 65%
Spéci…cité : Sp: 257/288 = 89,2%
Courbe ROC
La courbe ROC correspond à la représentation graphique du couple (1 –
spéci…cité ; sensibilité) pour les di¤érentes valeurs seuil.
La fonction d’e¢ cacité du récepteur, plus fréquemment désignée sous le
terme « courbe ROC1 » (de l’anglais receiver operating characteristic, pour
15
« caractéristique de fonctionnement du récepteur » ) dite aussi caractéristique
de performance (d’un test) ou courbe sensibilité/spéci…cité, est une mesure de
la performance d’un classi…cateur binaire, c’est-à-dire d’un système qui a pour
objectif de catégoriser des éléments en deux groupes distincts sur la base d’une
ou plusieurs des caractéristiques de chacun de ces éléments.
Graphiquement, on représente souvent la mesure ROC sous la forme d’une
courbe qui donne le taux de vrais positifs (fraction des positifs qui sont e¤ec-
tivement détectés) en fonction du taux de faux positifs (fraction des positifs qui
sont incorrectement détectés).
Se en fonction de 1 Sp
7 Cas d’étude
PREMATURE.
Etude sur les facteurs prénataux liés à un accouchement prématuré.
On dispose de 390 observations et 13 variables. La variable à prédire est la
variable PREMATURE : accouchement prématuré "présence" ou "absence".
Les variables qualitatives ou quantitatives explicatives sont dé…nies comme
suit : GEST : l’âge gestationnel correspond au nombre de semaines écoulées
depuis que la femme n’a plus ses règles. DILATE : la dilatation du col est
l’aboutissement de la grossesse et son aspect le plus visible a lieu pendant le tra-
vail de l’accouchement. EFFACE : l’e¤acement du col, lorsque le col est e¤ace
les deux ori…ces ne font plus qu’un l’e¤acement peut se faire rapidement notam-
ment chez les femmes primipares, comme il peut prendre plusieurs jours avant
16
la naissance de l’enfant. CONSIS : la consistance du col (1=mou, 2=moyen,
3=ferme). CONTR : la présence de contraction (1=oui, 2=non). MEMBRAN
: les membranes rupturées =1 ou non=2 ou incertain=3. AGE : l’âge de la
patiente. STRAT : la période de grossesse. PARIT : la parité (nombre de
grossesses à terme antérieures). DIAB : la présence (=1) ou non (=2) d’un
problème diabète, ou valeurs manquantes (=9). TRANSF : le transfert (=1)
ou (=2) vers un autre hôpital en soins spécialisés. GEMEL: grossesse simple
(=1) ou multiple (=2). Ce …chier est celui d’une étude portant sur les facteurs
prénataux (médicaux et de personne) liés à un accouchement prématuré chez
les femmes déjà en travail prématuré.
Parameter Estimate Standard-Error Wald Chi-Square Pr
Intercept 2.7353 4.1927 0.4256 0.5141
GEST 0.0402 0.1262 0.1015 0.7500
DILATE 0.4689 0.1603 8.5581 8.5581
EFFACE 0.0166 0.00498 11.1319 0.0008
CONSIS 0.0665 0.2021 0.1082 0.7422
CONTR -0.3549 0.4871 0.5310 0.4662
MEMBRAN 1.4247 0.4029 12.5033 0.0004
MEMBRAN -1.0895 0.3145 12.0000 0.0005
AGE -0.0237 0.0268 0.7830 0.3762
STRAT 0.8627 0.9397 0.8429 0.3586
STRAT 0.2794 0.4281 0.4257 0.5141
STRAT -0.2400 0.3815 0.3959 0.5292
GRAVID 0.2508 0.1463 2.9412 0.0863
PARIT -0.6882 0.2059 11.1677 0.0008
DIAB -1.3988 0.9362 2.2326 0.1351
TRANSF -0.5266 0.2905 3.2863 0.0699
GEMEL 1.1830 0.6201 3.6402 0.0564
et
Criterion Intercept Only Intercept and Covariates
-2 log (L) 483.922 350.270
Hosmer and Lemeshow Goodness-of-Fit Test
Chi-Square DF Pr
9.3867 8 0.3107
Pour le premier individu, les caractéristiques sont :
17
2) Discuter la signi…cativité de chacune des variables explicatives au seuil de
5%.
3) Calculer la probabilté pour que l’invidu 1 ait un enfant prématuré. Ainsi
que la côte et interpréter.
4) Tester la signi…cativité du modèle en utilisant le test du rapport de
vraisemblance au seuil de 5%.
5) Calculer le R2 de Mac Fadden.
6) Calculer et interpréter les e¤ets marginaux des variables explicatives "DI-
LATE" et "EFFACE" pour l’individu 1.
7) Interpréter le test de Homesher and Lemeshow.
Corrigé
PREMATURE.
Le …chier est celui d’une étude portant sur les facteurs prénataux (médicaux
et de personne) liés à un accouchement prématuré chez les femmes déjà en travail
prématuré. Au total, 13 variables ont été retenues pour 390 femmes enrôlées
dans l’étude.
Variables prédictives
1. GEST: l’âge gestationnel en semaines à l’entrée dans l’étude
2. DILATE: la dilatation du col en cmEFFACE: l’e¤acement du col (en %)
3. CONSIS:la consistance du col (1= mou, 2=ferme)
4. CONTR: la présence (=1) ou non (=2) de contraction
5. MEMBRAN: les membranes rupturées (=1) ou non (=2) ou incertain (=3)
6. AGE: l’âge de la patiente
7. STRAT: période de la grossesse avec 4 modalités
8. GRAVID: la gestité (nombre de grossesses antérieures y compris celle en
cours)
9. PARIT: la parité (nombre de grossesses à terme antérieures)
10. DIAB: la présence (=1) ou non (=2) d’un problème de diabète
11. TRANSF: le transfert (1) ou non (2) vers un hôpital en soins spécialisés
12. GEMEL: grossesse simple (=1) ou multiple (=2)
Dans l’ensemble des variables indépendantes, on constate qu’il y a 5 variables
quantitatives et 7 variables qualitatives.
Variable à prédire
PREMATURE: accouchement prématuré (positif ou négatif)
18
Tableau 1: Estimation des coe¢ cients.
Parameter Estimate Standard-Error Wald Chi-Square Pr >ChiSq
Intercept 2.7353 4.1927 0.4256 0.5141
GEST 0.0402 0.1262 0.1015 0.7500
DILATE 0.4689 0.1603 8.5581 0.0034
EFFACE 0.0166 0.00498 11.1319 0.0008
CONSIS 0.0665 0.2021 0.1082 0.7422
CONTR -0.3549 0.4871 0.5310 0.4662
MEMBRAN 1.4247 0.4029 12.5033 0.0004
MEMBRAN -1.0895 0.3145 12.0000 0.0005
AGE -0.0237 0.0268 0.7830 0.3762
STRAT 0.8627 0.9397 0.8429 0.3586
STRAT 0.2794 0.4281 0.4257 0.5141
STRAT -0.2400 0.3815 0.3959 0.5292
GRAVID 0.2508 0.1463 2.9412 0.0863
PARIT -0.6882 0.2059 11.1677 0.0008
DIAB -1.3988 0.9362 2.2326 0.1351
TRANSF -0.5266 0.2905 3.2863 0.0699
GEMEL 1.1830 0.6201 3.6402 0.0564
On dé…nit la variable dépendante de la manière suivante:
19
Cela donne
xi b = 2:7353 + 0:0402 31 + 0:4689 3 + 0:0166 100 + 0:0665 0
0:3549 1 + 1:4247 1 1:0895 0 0:0237 26
+0:8627 0 + 0:2794 1 0:2400 0 + 0:2508 1
0:6882 0 1:3988 0 0:5266 0 + 1:1830 1
= 9: 215
)
1
pbi = = 0:999 9
1 + exp( 9: 215)
La probabilité est proche de 1, ceci con…rme la valeur observée prise par la
variable dépendante PREMATURE=positif.
5) le R2 de Mac Fadden
350:270
R2 = 1 = 0:276 19
483:922
6) E¤ets marginaux des variables DILATE et EFFACE pour l’individu 1.
L’e¤et marginal est dé…ni par
@P (yi = 1)
= (xi )
@x
a) b DILAT E = 0:4689 et
exp(xi b )
(xi b ) = 2
1 + exp(xi b )
exp(9: 215) 5
= 2 = 9: 951 5 10
(1 + exp(9: 215))
d’où
@P (yi = 1) b
= DILAT E (xi b )
@xDILAT E
5 5
= 0:4689 9: 951 5 10 = 4: 666 3 10
20
b) De même
@P (yi = 1)
= b EF F ACE (xi b )
@xEF F ACE
b = 0:0166 et (xi b ) = 9: 951 5 10 5
, d’où
EF F ACE
@P (yi = 1) 5
= 0:0166 9: 951 5 10
@xEF F ACE
6
= 1: 651 9 10
21