0% ont trouvé ce document utile (0 vote)
46 vues21 pages

Introduction à la régression logistique

Transféré par

Meliani Aya chaimaa
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
46 vues21 pages

Introduction à la régression logistique

Transféré par

Meliani Aya chaimaa
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

La Régression Logistique

K Djaballah
Master BIG DATA ANALYTICS
Faculté d’informatique. USTHB

1 Introduction

La régression linéaire est une méthode statistique qui consiste à mettre en


relation une variable à expliquer Y avec une ou plusieurs variables explica-
tives, appelées variables explicatives. Dans la régression linéaire, on suppose
que E(Y jX) peut être exprimée comme une fonction linéaire en X.

Ce qui distingue un modèle de régression de variables catégorielles du mod-


èle de régression linéaire, est que la variable dépendante dans la régression de
variables catégorielles est qualitative. La régression logique analyse la relation
entre une ou plusieurs variables indépendantes et classe les données en classes
discrètes. Elle est largement utilisée dans la modélisation prédictive, où le mod-
èle estime la probabilité mathématique qu’une instance appartienne ou non à
une catégorie spéci…que.
La variable dépendante (ou réponse) est binaire ou dichotomique. La pre-
mière hypothèse de la régression logistique est que les variables de réponse ne
peuvent prendre que deux résultats possibles.

La régression logistique est une technique de classi…cation empruntée par


l’apprentissage automatique au domaine des statistiques. La régression logis-
tique est une méthode statistique permettant d’analyser un ensemble de données
dans lequel il existe une ou plusieurs variables indépendantes qui déterminent
un résultat. L’objectif de la régression logistique est de trouver le modèle le
mieux adapté pour décrire la relation entre la variable dépendante et la variable
indépendante. Lorsqu’elles sont catégorielles, il est nécessaire de procéder à un
recodage.

Le plus simple est le codage binaire.

La régression logistique est une technique de classi. . . cation utilisée dans


l’apprentissage automatique. Elle utilise une fonction logistique pour modéliser
la variable dépendante. La variable dépendante est de nature dichotomique,
c’est-à-dire qu’il ne peut y avoir que deux classes possibles. Par conséquent,

1
cette technique est utilisée lors du traitement de données binaires. La régres-
sion logistique utilise la fonction sigmoïde pour associer les valeurs prédites aux
probabilités. Cette fonction associe toute valeur réelle à une autre valeur com-
prise entre zéro et un. Cette fonction a une dérivée non négative à chaque point
et exactement un point d’in‡exion.

En plus du fait que le modèle de régression logistique permet d’identi…er


les caractéristiques distinguant les individus des deux groupes, il mesure aussi
l’in‡uence de chacune d’entre elles dans cette distinction. Tout le problème de
classi…cation par régression logistique apparait alors comme un simple problème
d’optimisation où, à partir de données, nous essayons d’obtenir les meilleurs
paramètres.
La variable dépendante étant qualitative peut prendre m modalités dis-
jointes. Si m = 2, on dit que la variable est dite dichotomique ou binaire. Les
données de la variable dépendante employées sont donc des données binaires,
distribuées selon une loi binomiale. Le premier chapitre considère les modèles
de régression logistique pour une variable dépendante discrète, prenant deux
valeurs possibles, appelés modèles binaires ou dichotomiques.

Example 1 La régression logistique est un outil puissant et largement utilisé


en agriculture pour comprendre et prédire des phénomènes binaires. Elle peut
être appliquée dans divers domaines, de la gestion des cultures à l’analyse des
comportements des consommateurs, en passant par l’adoption des technologies
agricoles. La régression logistique appliquée à l’agriculture est un outil statistique
couramment utilisé pour analyser des données agricoles et prédire la probabilité
d’un événement ou d’un résultat binaire (par exemple, la probabilité de succès ou
d’échec d’une culture, ou l’adoption d’une technologie agricole par les agricul-
teurs). La régression logistique peut aussi être utilisée pour modéliser le risque
de propagation de maladies ou de ravageurs dans les cultures. Les variables
indépendantes peuvent inclure :
- Humidité et température
- Pratiques de gestion de la ferme (rotation des cultures, application de pes-
ticides)
- Types de cultures adjacentes
- Historique des infections
Le modèle permettrait de prédire la probabilité qu’une infestation se produise
sous certaines conditions. Avantages de la régression logistique en agriculture :
- Simplicité et interprétabilité : Les résultats sont facilement interprétables,
surtout avec des coe¢ cients qui indiquent l’e¤ et des variables sur la probabilité
de l’événement cible.
- Gestion des variables qualitatives : La régression logistique peut gérer aussi
bien les variables continues que les variables catégorielles (par exemple, type de
culture, type de sol).
- Prévision probabiliste : Contrairement à la régression linéaire, qui prédit
des valeurs continues, la régression logistique prédit des probabilités, ce qui est
adapté aux situations où la variable dépendante est binaire.

2
2 Modèles
2.1 Les modèles adaptés
Dans le modèle de la régression logistique binaire, la variable expliquée ne prend
que deux modalités. On considère un échantillon de n individus indicés par
i = 1; :::; n et on pose, 8i 2 f1; :::; ng:

yi = 1 si l’événement s’est réalisé pour l’individu i


= 0 si l’événement ne s’est pas réalisé pour l’individu i

On a

E(yi jxi ) = P (yi = 1jxi ) 1 + P (yi = 0jxi ) 0 = P (yi = 1jxi )


= pi

C’est un modèle d’analyse multivariée qui permet d’analyser les relations


entre la survenue d’un événement et chacun de ses facteurs associés. Dans
ce modèle, ce n’est pas la réponse binaire qui est directement modélisée, mais
la probabilité de réalisation d’une des deux modalités.

Supposons que l’on dispose de n observations yi , i = 1; :::; n d’une variable


dépendante dichotomique codée yi = 1 ou yi = 0, lorsque les observations de K
variables indépendantes sont
(1) (K)
xi xi , 8i = 1; :::; n.

Pour modéliser une variable binaire en fonction de variables explicatives, on


pourrait penser à utiliser un modèle linéaire classique :

yi = xi + "i (1)
t
où désigne un vecteur de K paramètres inconnus, = 1 K 2
RK .

Les perturbations "i sont supposées indépendantes et identiquementt dis-


tribuées. Le modèle (1) exprimerait que plus x est élevé plus il in‡uence le
caractère 1 de y et plus x est faible plus il in‡uence le caractère 0 de y. La
variable y ne prenant que deux valeurs, sa loi est entièrement spéci…ée par
p = P (y = 1).

On peut mettre en évidence plusieurs problèmes:

1. Les termes de gauche et de droite de l’équation (1) sont de nature dif-


férente. La variable yi est de type qualitative tandis que la somme xi +"i
est une variable quantitative.

3
2. Sachant que dans la cas d’une variable dépendante yi dichotomique, celle-
ci ne peut prendre que les valeurs 0 ou 1, l’équation (1) implique que la
perturbation "i ne peut prendre, elle aussi, que 2 valeurs, conditionnelle-
ment au vecteur xi :

"i = 1 xi avec une probabilité de pi = P (yi = 1)


"i = xi avec une probabilité de 1 pi

Ainsi, la perturbation "i du modèle (1) admet nécessairement une loi dis-
crète, ce qui exclut l’hypothèse de normalité des résidus que l’on suppose
dans un modèle de regression classique.
3. Lorsque l’on suppose que les résidus "i sont de moyenne nulle, la probabil-
ité pi associée à l’événement yi = 1 est alors determinée de façon unique.
En e¤et, écrivons l’espérance des résidus :
E("i ) = pi xi

On déduit que : pi = xi = P (yi = 1). Ainsi la quantité xi correspond


à une probabilité et doit par conséquent satisfaire un certain nombre de
propriétés et en particulier appartenir à l’intervalle fermé [0; 1].
0 xi 1 (2)

Or rien n’assure que la condition (2) soit satisfaite par l’estimateur des
moindres carrés utilisé dans le modèle linéaire (1). Si ces contraintes ne
sont pas véri…ées, le modèle avec E("i ) = 0; 8i = 1; :::; n; n’a pas de sens.
4. La matrice de variance covariance des résidus varie entre les individus
en fonction de leur caractéristiques associées aux variables xi puisque :
V ar("i ) = (1 xi )xi (problème d’hétéroscédascticité)
V ar("i ) = xi (1 xi ) 8i = 1; :::; n
Il y a deux types de modèles fréquemment utilisés: le modèle logit et le
modèle probit. L’objectif de la régression logistique binaire est de former un
classi…cateur capable de prendre une décision binaire sur la classe d’une nou-
velle observation. Le classi…cateur sigmoïde aide à prendre cette décision. La
régression logistique résout cette tâche en apprenant, à partir d’un ensemble
d’entraînement, un vecteur de poids et un terme de biais. Chaque poids wi est
un nombre réel et est associé à l’une des caractéristiques d’entrée xi . Le poids
wi représente l’importance de cette caractéristique d’entrée pour la décision de
classi…cation et peut être positif (fournissant la preuve que l’instance classée
appartient à la classe positive) ou négatif (fournissant la preuve que l’instance
classée appartient à la classe négative). Ainsi, nous pourrions nous attendre à
ce que dans une tâche de sentiment, le mot génial ait un poids positif élevé et
le terme de biais abyssal un poids très négatif. Le terme de biais, également
appelé intercept, est intercept un autre nombre réel qui est ajouté aux entrées
pondérées

4
2.2 Modèles Logit et Probit
Dans le cas d’une variable binaire, la moyenne correspond à la proportion
d’individus possédant la caractéristique étudiée ou répondant positivement à
l’événement, d’où l’idée de modéliser la probabilité de succès, comprise entre
0 et 1, en fonction d’un certain nombre de prédicteurs. On considère donc le
modèle suivant:
pi = P (yi = 1jxi ) = F (xi ) (3)
où la fonction F (:) désigne une fonction de répartition. Le choix de la
fonction de répartition F (:) n’est pas contraint. On utilise généralement deux
types de fonction: la fonction de répartition de la loi logistique et la fonction de
répartition de la loi normale centrée réduite. Dans le cas du modèle Logit, la
fonction de répartition F (:) correspond à la fonction logistique 8z 2:

ez 1
F (z) = z
= z
= (z):
1+e 1+e

Graphiquement, cette fonction correspond à une courbe en forme de S qui a


pour limites 0 et 1 lorsque z tend respectivement vers 1 et +1 passant par
2
F (z) = 0:5 en z = 0. La loi logistique a pour moyenne 0 et pour variance 3 . Le
changement de E(yjz) par changement d’unité dans z devient progressivement
plus petit lorsque la moyenne conditionnelle se rapproche de zéro ou de 1.
Pour cette raison, on dit que la courbe est en S. D’un point de vue mathéma-
tique, c’est une fonction facile à utiliser, et deuxièmement, elle se prête à une
interprétation signi…cative.

Dans le cas du modèle Probit, la fonction de répartition F (:) correspond à


la fonction de répartition de la loi normale centrée réduite 8z 2:
Z z
1 t2
F (z) = p e 2 dz = (z):
1 2

Les modèles dichotomiques admettent pour variable expliquée, la probabil-


ité d’apparition d’un événement, conditionnellement aux variables indépen-
dantes. Les modèles Logit ont été introduits comme des approximations de
modèles Probit permettant des calculs plus simples. Il n’existe que peu de dif-
férences entre ces deux modèles dichotomiques. Ceci s’explique par la proximité
des familles de lois logistiques et normales.

Dans ce modèle, la probabilité conditionnelle P (yi = 1jxi ) dépend de xi


uniquement au travers de l’index xi , la fonction F (:) étant la fonction
de lien entre cet index et la probabilité P (yi = 1jxi ).
La fonction de lien F (:) assure que la probabilité P (yi = 1jxi ) est toujours
comprise entre 0 et 1.

5
L’index xi peut également inclure des variables explicatives binaires.

Dans le cas du modèle Logit et du modèle Probit, la fonction de lien F (z)


correspond à une fonction de répartition d’une variable aléatoire dont la
fonction de densité est symétrique par rapport à zéro.

Généralement, la régression logistique utilise la fonction logistique appelée


fonction sigmoïde pour cartographier les prédictions et leurs probabilités. La
fonction sigmoïde fait référence à une courbe en forme de S qui convertit toute
valeur réelle en une plage comprise entre 0 et 1. De plus, si la sortie de la
fonction sigmoïde (probabilité estimée) est supérieure à un seuil prédé…ni sur le
graphique, le modèle prédit que l’instance appartient à cette classe. Si la prob-
abilité estimée est inférieure au seuil prédé…ni, le modèle prédit que l’instance
n’appartient pas à la classe.
La fonction sigmoïde est appelée fonction d’activation pour la régression
logistique et est dé…nie comme :
1
f (x) =
1 + exp( x)

L’équation suivante représente la régression logistique :

exp(b + wx)
y= :
1 + exp(b + wx)

Contrairement à la régression linéaire, la valeur de sortie modélisée ici est une


valeur binaire (0 ou 1) plutôt qu’une valeur numérique.
Les propriétés typiques de l’équation de régression logistique sont les suiv-
antes :

La variable dépendante de la régression logistique obéit à la « distribution


de Bernoulli »
L’estimation/prédiction est basée sur la « vraisemblance maximale » .
La régression logistique n’évalue pas le coe¢ cient de détermination (ou
R au carré) comme observé dans la régression linéaire. Au lieu de cela,
l’adéquation du modèle est évaluée par le biais d’une [Link] ré-
gression logistique utilise une fonction logistique appelée fonction sigmoïde
pour cartographier les prédictions et leurs probabilités. La fonction sig-
moïde fait référence à une courbe en forme de S qui convertit toute valeur
réelle en une plage comprise entre 0 et 1.

De plus, si la sortie de la fonction sigmoïde (probabilité estimée) est supérieure


à un seuil prédé…ni sur le graphique, le modèle prédit que l’instance appartient à
cette classe. Si la probabilité estimée est inférieure au seuil prédé…ni, le modèle
prédit que l’individu n’appartient pas à la classe.

6
3 Estimation des paramètres
Apprentissage dans la régression logistique
Comment les paramètres du modèle, les poids w et le biais b, sont-ils trouvés
?
La régression logistique est une instance de classi…cation supervisée dans
laquelle nous connaissons la vraie valeur de y (soit 0 ou 1) pour chaque obser-
vation x. Ce que le système produit via l’équation
1
P (y = 1) =
1 + exp(( wx + b))

est yb, l’estimation du vrai y par le système. Nous voulons trouver les paramètres
(c’est-à-dire w et b) qui rendent yb pour chaque observation d’entraînement aussi
proche que possible du vrai y. Le premier est une mesure de la proximité de yb
avec la vraie valeur de y .

Remark 1 Pas de multicolinéarité entre les variables explicatives Cette hy-


pothèse implique que les variables prédictives (ou les variables indépendantes)
doivent être indépendantes les unes des autres. La multicolinéarité concerne
deux ou plusieurs variables indépendantes fortement corrélées. De telles vari-
ables n’apportent pas d’informations uniques dans le modèle de régression et
conduisent à des interprétations erronées. L’hypothèse peut être véri…ée par la
détermination de la matrice de corrélation entre les variables indépendantes.

3.1 Estimation
La méthode du maximum de vraisemblance est utilisé pour l’estimation
des paramètres dans le modèle de régression logistique. Pour appliquer la méth-
ode du maximum de vraisemblance, nous devons d’abord construire la fonction
de vraisemblance. L’estimation du maximum de vraisemblance est la valeur
du paramètre qui maximise cette fonction. De plus, on sait que la valeur du
paramètre qui maximise la fonction de vraisemblance maximise le log de cette
fonction. Dans le cas du modèle dichotomique on a:

yi = 1 est associé à la probabilité pi = F (xi )


yi = 0 correspond à la probabilité 1 pi = 1 F (xi ):

On cherche à estimer les composantes du vecteur . On remarque que les


valeurs observées yi sont les réalisations d’un processus binomial avec une prob-
abilité F (xi ). On déduit la log-vraisemblance:

n
X
log(L(y; )) = (yi log(F (xi )) + (1 yi ) log(1 F (xi ))) (4)
i=1

7
L’estimateur du maximum de vraisemblance des paramètres est obtenu
en maximisant la fonction de log-vraisemblance (4). Dans le cas d’un modèle
dichotomique, l’estimateur b du maximum de vraisemblance est dé…ni par :

b = arg max 1
log L(y; )
n
En dérivant la log-vraisemblance par rapport au vecteur , de dimension
(K; 1), on obtient le gradient, noté G( ). Dans le cas du modèle Logit
n
X
G( ) = (yi (xi ))xti
i=1

Système non linéaire, pas de solution analytique. On utilise l’algorithe de


Newton-Raphson pour avoir une approximation de b .

3.2 La méthode de Newton-Raphson.


Dans la pratique, les logiciels utilisent une proced́ure approchée pour obtenir une
solution satisfaisante de la maximisation ci-dessus. Les résultats dépendent de
l’algorithme utilisé et de la précision adoptée. Les itérations sont interrompues
lorsque la di¤eŕence entre deux vecteurs de solutions successifs est négligeable.
Une approche pour estimer les paramètres dans les modèles à réponse binaire
est souvent l’algorithme de Newton-Raphson.
La méthode de Newton-Raphson.

La méthode de Newton-Raphson est une méthode itérative pour résoudre


des équations non linéaires, telles que les équations dont la solution détermine
le point auquel une fonction prend son maximum.

1. Cela commence par une valeur (estimation) initiale de la solution.


2. On obtient une seconde estimation en approximant la fonction à maximiser
dans un voisinage de la valeur initiale par un polynôme du second degré
et en trouvant ensuite la valeur maximale de ce polynôme.
3. On approximera alors la fonction dans un voisinage de la deuxième esti-
mation par un autre polynôme du second degré, et en trouvant ensuite la
valeur maximale de ce polynôme.

De cette manière, la méthode génère une séquence d’estimations. Celles-


ci convergent vers la valeur du maximum lorsque l’estimation initiale est bien
choisie.
Evaluation des modèles dichotomiques
Le R2 de McFadden.
C’est une mesure de qualité comparant 2 modèles:

Modèle complet: P (yi = 1jxi ) = F ( xi )

8
Modèle réduit: P (yi = 1) = F ( 0)

Le R2 basé sur les fonctions de log-vraisemblance est dé…ni par:

L(y; b )
R2 = 1
L(y; b ; 0)
0

Si R2 est proche de zéro, cela veut dire que l’apport des variables explicatives
est presque nul et donc que le modèle est mauvais, par contre si R2 est proche
de 1 alors le modèle ajuste bien les données.

4 E¤et marginal, Transformation Logit et Côte


4.1 L’e¤et marginal

Les e¤ets marginaux montrent le changement de probabilité lorsque le prédicteur


ou la variable indépendante augmente d’une unité .
On considérera ici uniquement le cas de variables explicatives continues.
L’un des avantages majeurs du modèle de régression linéaire est qu’une variation
marginale d’un régresseur a un e¤et constant dans la population. Cette propriété
simple et attractive n’existe plus dans le cas des modèles Probit ou Logit. On
peut néanmoins, préciser l’e¤et d’une variable sur la probabilité conditionnelle
d’observer l’événèment modélisé.
Si l’on note f (:) la dérivée de la fonction F (:) du modèle dichotomique, l’e¤et
marginal associé à la j ieme variable explicative xji est dé…ni par :

@pi @F (xi )
= = f (xi ) j: (5)
@xji @xji

Cette expression dépend non seulement de j , mais aussi de la valeur de x j


et de toutes les autres variables explicatives.
Puisque par dé…nition f (:) > 0, le signe de cette dérivée est donc identique
à celui de j .

D’où l’augmentation d’une variable associée à un coe¢ cient positif induit


une hausse de la probabilité de réalisation de l’évènement yi = 1.
Inversement, la hausse d’une variable associé à un coe¢ cient négatif in-
duit une baisse de la probabilité de réalisation de l’événement yi = 1.

Autrement dit, lorsque le coe¢ cient associé à une variable explicative est
positive, on dira que l’accroissement de cette variable favorise la probabilité
de survenue de l’évènement yi = 1. Par contre, lorsque le coe¢ cient de la
variable est négatif, cela signi…e que l’accroissement défavorise la survenue de
l’évènement.

9
Conclusion: l’ampleur de l’in‡uence qu’exerce xji sur la probabilité P (yi =
1) peut être mesuré en utilisant les e¤ets marginaux. Le signe des coe¢ cients
et le calcul des e¤ets marginaux restent les deux seules informations directement
exploitables en ce qui concerne les variables explicatives.
@pi
En…n, plutôt que d’exprimer l’e¤et marginal sous la forme de la dérivée @x j,
i
on préfère généralement calculer une élasticité, cette dernière ayant l’avantage
d’être indépendante des unités de mesure. Ainsi, on dé…nit l’élasticité "pi ;xj
i
comme la variation en pourcentage de la probabilité de survenue pi de l’événement
codé yi = 1, suite à une variation de 1% de la j ieme variable explicative xji

@pi xji f (xi ) j xji


"pi ;xj = = (6)
i
@xji pi F (xi )

La di¤érence entre les e¤ets marginaux et les rapports de côtes, la réponse


est qu’il s’agit simplement de deux manières di¤érentes de comprendre les esti-
mations de paramètres. Lorsque les variables explicatives sont continues, l’e¤et
marginal est égal à la dérivée de la probabilité estimée par rapport aux com-
posantes de xi .

4.2 Transformation Logit et Côte

Dans le modèle à variable dépendante dichotomique, les coe¢ cients estimés ne


représentent pas, comme dans le modèle linéaire, l’e¤et partiel des variables
explicatives sur la variable explicative. Les coe¢ cients ne peuvent donc pas
s’interpréter directement, seuls les signes des coe¢ cients sont interprétables.
En e¤et, lorsque le coe¢ cient associé à une variable explicative xji est positive,
on dira que l’accroissement de cette variable favorise la probabilité de surv-
enue de l’évènement yi = 1. En revanche, lorsque le coe¢ cient de la variable
xji est négatif, cela signi…e que l’accroissement de xji défavorise la survenue de
l’évènement. Toutefois l’ampleur de cette in‡uence qu’exerce xji sur la proba-
bilité P (yi = 1) ne peut pas être mesurée par le coe¢ cient j comme dans le
modèle linéaire. Celui-ci doit être mesuré en utilisant les e¤ets marginaux.

4.2.1 Le logit
On a
exp(xi )
pi = P (yi = 1) = (xi ) =
1 + exp(xi )
)
pi
exp(xi ) = (7)
1 pi
D’où en appliquant le log aux 2 membres de (7), on obtient :

pi
log = xi (8)
1 pi

10
qui est une fonction linéaire, et est appelé le logit de pi , notée logit(pi ). On
peut dé…nir le modèle de régression logistique, en supposant que le logit de la
probabilité pi , suit un modèle linéaire.
La fonction logit(p(x)) est appelée une link function ou fonction de lien dans
la théorie des modèles linéaires généralisés. On observe qu’elle peut varier entre
1 et +1. Dans l’expression (8), les coe¢ cients de régression peuvent être
interprétés comme dans les modèles linéaires. Ainsi, j représente la variation
dans le logit de la probabilité associée à un changement d’unité dans le j ieme
variable xj tenant tous les autres variables constantes.

4.2.2 La côte
La quantité 1 pipi représente le rapport de la probabilité associée à l’événement
yi = 1 à la probabilité de non survenue de cet événement: il s’agit de la côte
(odd).
Dans un modèle Logit, la côte correspond à la quantité exi d’après (8):
pi
ci := = exi : (9)
1 pi
Si ce rapport est égal à ci pour l’individu i, cela signi…e qu’il y a ci fois
plus de chance que l’événement associé à l’événement yi = 1 se réalise, qu’il
ne se réalise pas. La côte est dé…nie comme le ratio des cas favorables aux cas
défavorables. Les chances sont non négatives, avec ci > 1 quand un succès est
plus probable qu’un échec.
Exemple.

Quand pi = 0:75, par exemple, alors ci = 0:75=0:25 = 3; un succès est


trois fois plus probable qu’un échec, et nous prévoyons environ trois succès
pour chaque échec.
Quand ci = 1=3, un échec est trois fois plus probable qu’un succès. Quand
ci = 1=3, alors pi = 0:25.

4.3 Odd ratio


Les logarithmes des odds ratios constituent le fondement d’une deuxième mo-
tivation importante du modèle logistique. Il se dé…nit comme le rapport de la
côte d’un événement arrivant à un groupe A d’individus, avec celle du même
événement arrivant à un groupe B d’individus. Si la probabilité qu’un événe-
ment arrive dans le groupe A est p et q dans le groupe B, le rapport des côtes
est :
p=(1 p) p(1 q)
=
q=(1 q) q(1 p)
L’odds ratio est toujours supérieur ou égal à zéro. Prenons l’exemple de
la survenue d’une maladie chez des patients. Si dans le groupe recevant un
traitement, le risque est de 40% alors qu’il est de 80% sous placebo, le risque

11
relatif de maladie dans le groupe traité versus le groupe placebo est de 0.4/0.8
= 0.5. Le risque de maladie est ainsi réduit par 2 sous traitement actif.
L’interprétation du rapport de côtes varie selon que le prédicteur est caté-
gorique ou continu. Les rapports de côtes supérieurs à 1 indiquent que l’événement
est plus susceptible de se produire à mesure que le prédicteur augmente . Les
rapports de côtes inférieurs à 1 indiquent que l’événement est moins susceptible
de se produire à mesure que le prédicteur augmente.

Example 2 Cas d’une seule variable exogène binaire. Si un étudiant a 3 chances


sur 4 d’être reçu, contre 1 chance sur 4 d’être collé, sa côte est de « 3 contre 1
» , soit :
3=4
Odd = =3
1=4
Un odds ratio de 1 correspond à l’absence d’e¤et. En cas d’e¤et béné…que,
l’odds ratio est inférieur à 1 et il est supérieur à 1 en cas d’e¤et délétère
(néfaste). Plus l’odds ratio est éloigné de 1, plus l’e¤et est important.

Example 3 Odds ratio (ou « rapport des côtes » ). C’est le rapport des côtes
des probabilités d’avoir la maladie pour ceux qui ont un symptôme (un signe
qui représente une manifestation d’une maladie) X d’une part et de ceux qui ne
l’ont pas d’autre part.
Odd = 1, la maladie est indépendante du symptôme
Odd > 1, la maladie est plus fréquente pour les individus qui ont le symp-
tôme.
Odd < 1, la maladie est plus fréquente pour les individus qui n’ont pas le
symptôme.

5 Tests
5.1 Contribution individuelle d’une variable
5.1.1 Test de Wald.
e test reposent sur la distribution asymptotique des estimateurs du maximum
de vraisemblance. Le test de Wald est obtenu en comparant l’estimation du
maximum de vraisemblance du paramètre j , à une estimation de son erreur-
type. On considère le test suivant:

H0 : j = 0 contre H1 : j 6= 0

où j désigne la j ieme composante du vecteur de paramètres 2K . L’idée


du test de Wald est d’accepter l’hypothèse nulle si l’estimateur b j de j est
proche de 0. La statistique de test est dé…nie par

b2
j
W =
vbjj

12
b désigne l’estimateur du maximum de vraisemblance de et vbjj l’estimateur
j j
de sa variance. Sous l’hypothèse H0 , W suit la loi du 21 . On rejette l’hypothèse
H0 avec un risque de première espèce …xé, lorsque la valeur de la statistique
de test est supérieure au quantile d’ordre de la loi du 21 .

N.B.: La variance estimée du coe¢ cient ^ j est lue dans l’inverse de la matrice
hessienne.
De grandes p-value correspondent aux coe¢ cients que l’on peut considérer
comme nuls et susceptibles d’être exclus du modèle …nal. L’usage de ce test
est donc de sélectionner les variables susceptibles d’être exclues du modèle …nal,
correspondant à des p-values élevées, c’est à dire les variables avec une statistique
de Wald faible (et donc une erreur de mesure importante).
Le logiciel R, lui, propose la statistique Z à la place de W , avec
b p
= signe( b j )
j
Z=p W N (0; 1)
vbjj

Z peut prendre des valeurs négatives. Le test étant bilatéral, nous retrouvons
exactement les mêmes probabilités critiques (p-value) qu’avec la statistique de
Wald (W ).

5.1.2 Test de l’apport d’une variable en utilisant le test du rapport


de vraisemblance.
On teste l’hypothèse:

H0 : j = 0 contre H1 : j 6= 0
0
En désignant par b j l’estimateur du maximum de vraisemblance et par b j
l’estimateur du maximum de vraisemblance sous H0 , on dé…nit la statistique du
test par: 0 1
0
b
L(y; j )
LRV = 2 log @ A
L(y; b j )

L’utilisation de moins deux fois le log est nécessaire pour obtenir une quantité
dont la distribution est connue et peut donc être utilisée pour le test. On sait
que sous l’hypothèse nulle, la statistique du test du rapport de vraisemblance
suit une loi du 21 . On rejette, le test au niveau lorsque la statistique de test
calculée à partir de l’échantillon est supérieure au quantile d’ordre de la loi
du 2 à 1 degré de liberté.

5.2 Test du rapport de vraisemblance de l’apport de l’ensemble


des variables explicatives.
Dans le cas du modèle dichotomique, souvent on souhaite tester l’hypothèse
suivante:

13
H0 : 1 = 2 = = K =0

Il s’agit d’une évaluation globale. On teste la nullité de tous les paramètres


(à l’exception de la constante) ceci est équivalent au test de Fisher en régression
linéaire. On dé…nit la statistique du test :
!
L(y; b 0 ; 0)
LRV = 2 log (10)
L(y; b )

où L(y; b 0 ; 0) est la vraisemblance sous H0 . On sait que sous l’hypothèse


nulle, la statistique du test du rapport de vraisemblance suit une loi du 2K 1 .
Par conséquent, on rejette le test, au niveau lorsque la statistique de test est
supérieure au quantile d’ordre de la loi du 2 à K 1 degrés de liberté. Si
la probabilité critique (la p-value) est inférieure au niveau de signi…cation que
l’on s’est …xé, on peut considérer que le modèle est globalement signi…catif.
D’autres procédures d’évaluation sont couramment citées s’agissant de la ré-
gression logistique. Nous noterons entre autres le test de Hosmer-Lemeshow qui
s’appuie sur le « score» (la probabilité d’a¤ectation à un groupe) pour ordon-
ner les observations. En cela, elle se rapproche d’autres procédés d’èvaluation
de l’apprentissage telles que les courbes ROC qui sont nettement plus riches
d’informations.

5.3 Test de Hosmer-Lemeshow


Le test de Hosmer-Lemeshow consiste à évaluer la concordance entre les valeurs
prédites et observées des observations. Ce test dépend du nombre de groupes
…xés a priori, et il est peu puissant en cas de mauvaise spéci…cation. C’est un test
statistique de l’adéquation des modèles de régression logistique. Le test évalue
si les taux d’événements observés correspondent ou non aux taux d’événements
attendus dans les sous-groupes de la population modèle.
Les modèles de régression logistique fournissent une estimation de la proba-
bilité d’un résultat, habituellement désigné comme un « succès» . Il est souhaitable
que la probabilité de succès estimée soit proche de la probabilité réelle. La sta-
tistique de test est donnée par:
P (O1g E1g )2
ZHL = Ng g (1 g)

où O1g , E1g , Ng et g désignent respectivement les événements Y = 1 ob-


servés, les événements Y = 1 attendus, les observations totales, le risque prédit
pour le groupe de risque décile , et G est le nombre de groupes. La statistique
de test suit asymptotiquement une distribution 2 avec G 2 degrés de liberté.
Le test d’adéquation de l’ajustement de Hosmer-Lemeshow compare les e¤ectifs
attendus des événements et non événements aux e¤ectifs observés a…n d’évaluer
l’ajustement du modèle aux données.
Cependant, il présente les dé…ciences suivantes

1. sa distribution limite n’a pas été rigoureusement dérivée,

14
2. il s’agit d’un test ayant une faible puissance pour détecter des types spé-
ci…ques,
3. il dépend fortement de la façon dont les observations sont groupées,
4. si trop peu de groupes sont utilisés pour calculer la statistique (par exem-
ple, cinq groupes ou moins), cela indiquera presque toujours que le modèle
correspond aux données et
5. lorsque la statistique de Hosmer-Lemeshow indique un mauvais ajuste-
ment, il peut être di¢ cile d’identi…er quels types de sujets ne sont pas
bien modélisés.

6 Tableau de contingence
(yi = 1) (yi = 0) Total
Prédit (b
yi = 1) a c a+c
Prédit (b
yi = 0) b d b+d
Total a+b c+d n

Ce tableau permet de connaitre le nombre de bonnes et de mauvaises pré-


dictions par rapport à un seuil « s » (…xé généralement à 50%)
a+d
le nombre de bonnes prédictions : n
c+b
le nombre de mauvaises prédictions: n

Example 4 Tableau de contingence


Malade (yi =1) Non Malade (yi =0) Total
Prédit malade (b
yi = 1) 93 31 124
Prédit non malade (b
yi = 0) 59 257 307
Total 143 288 431
a+d
le nombre de bonnes prédictions : n = 81:2%
le nombre de mauvaises prédictions: c+b
n = 18:8%

La sensibilité est estimée par la proportion de vrais positifs et la spéci…cité


est estimée par la proportion de vrais négatifs :

Example 5 suite.
Sensibilité: Se: 93/143 = 65%
Spéci…cité : Sp: 257/288 = 89,2%

Courbe ROC
La courbe ROC correspond à la représentation graphique du couple (1 –
spéci…cité ; sensibilité) pour les di¤érentes valeurs seuil.
La fonction d’e¢ cacité du récepteur, plus fréquemment désignée sous le
terme « courbe ROC1 » (de l’anglais receiver operating characteristic, pour

15
« caractéristique de fonctionnement du récepteur » ) dite aussi caractéristique
de performance (d’un test) ou courbe sensibilité/spéci…cité, est une mesure de
la performance d’un classi…cateur binaire, c’est-à-dire d’un système qui a pour
objectif de catégoriser des éléments en deux groupes distincts sur la base d’une
ou plusieurs des caractéristiques de chacun de ces éléments.
Graphiquement, on représente souvent la mesure ROC sous la forme d’une
courbe qui donne le taux de vrais positifs (fraction des positifs qui sont e¤ec-
tivement détectés) en fonction du taux de faux positifs (fraction des positifs qui
sont incorrectement détectés).

Se en fonction de 1 Sp

L’aire sous la courbe:

1. = 0:5 Aucune discrimination


2. ]0:5; 0:7[ Discrimination faible
3. [0:7; 0:8[ Discrimination acceptable
4. [0:8; 0:9[ Discrimination excellente
5. [0:9; 1] Discrimination parfaite

7 Cas d’étude
PREMATURE.
Etude sur les facteurs prénataux liés à un accouchement prématuré.
On dispose de 390 observations et 13 variables. La variable à prédire est la
variable PREMATURE : accouchement prématuré "présence" ou "absence".
Les variables qualitatives ou quantitatives explicatives sont dé…nies comme
suit : GEST : l’âge gestationnel correspond au nombre de semaines écoulées
depuis que la femme n’a plus ses règles. DILATE : la dilatation du col est
l’aboutissement de la grossesse et son aspect le plus visible a lieu pendant le tra-
vail de l’accouchement. EFFACE : l’e¤acement du col, lorsque le col est e¤ace
les deux ori…ces ne font plus qu’un l’e¤acement peut se faire rapidement notam-
ment chez les femmes primipares, comme il peut prendre plusieurs jours avant

16
la naissance de l’enfant. CONSIS : la consistance du col (1=mou, 2=moyen,
3=ferme). CONTR : la présence de contraction (1=oui, 2=non). MEMBRAN
: les membranes rupturées =1 ou non=2 ou incertain=3. AGE : l’âge de la
patiente. STRAT : la période de grossesse. PARIT : la parité (nombre de
grossesses à terme antérieures). DIAB : la présence (=1) ou non (=2) d’un
problème diabète, ou valeurs manquantes (=9). TRANSF : le transfert (=1)
ou (=2) vers un autre hôpital en soins spécialisés. GEMEL: grossesse simple
(=1) ou multiple (=2). Ce …chier est celui d’une étude portant sur les facteurs
prénataux (médicaux et de personne) liés à un accouchement prématuré chez
les femmes déjà en travail prématuré.
Parameter Estimate Standard-Error Wald Chi-Square Pr
Intercept 2.7353 4.1927 0.4256 0.5141
GEST 0.0402 0.1262 0.1015 0.7500
DILATE 0.4689 0.1603 8.5581 8.5581
EFFACE 0.0166 0.00498 11.1319 0.0008
CONSIS 0.0665 0.2021 0.1082 0.7422
CONTR -0.3549 0.4871 0.5310 0.4662
MEMBRAN 1.4247 0.4029 12.5033 0.0004
MEMBRAN -1.0895 0.3145 12.0000 0.0005
AGE -0.0237 0.0268 0.7830 0.3762
STRAT 0.8627 0.9397 0.8429 0.3586
STRAT 0.2794 0.4281 0.4257 0.5141
STRAT -0.2400 0.3815 0.3959 0.5292
GRAVID 0.2508 0.1463 2.9412 0.0863
PARIT -0.6882 0.2059 11.1677 0.0008
DIAB -1.3988 0.9362 2.2326 0.1351
TRANSF -0.5266 0.2905 3.2863 0.0699
GEMEL 1.1830 0.6201 3.6402 0.0564
et
Criterion Intercept Only Intercept and Covariates
-2 log (L) 483.922 350.270
Hosmer and Lemeshow Goodness-of-Fit Test
Chi-Square DF Pr
9.3867 8 0.3107
Pour le premier individu, les caractéristiques sont :

GEST=31 DILATE=3 EFFACE=100 CONSIS= 3 CONTR=1


MEMBRAN= 2 AGE=26 STRAT=3 GRAVID=1 PARIT=0
DIAB=2 TRANSF=2 GEMEL=1 PREMATURE = positif

1) Ecrire la probabilité permettant de prévoir l’occurrence d’un enfant pré-


maturé.

17
2) Discuter la signi…cativité de chacune des variables explicatives au seuil de
5%.
3) Calculer la probabilté pour que l’invidu 1 ait un enfant prématuré. Ainsi
que la côte et interpréter.
4) Tester la signi…cativité du modèle en utilisant le test du rapport de
vraisemblance au seuil de 5%.
5) Calculer le R2 de Mac Fadden.
6) Calculer et interpréter les e¤ets marginaux des variables explicatives "DI-
LATE" et "EFFACE" pour l’individu 1.
7) Interpréter le test de Homesher and Lemeshow.

Corrigé
PREMATURE.
Le …chier est celui d’une étude portant sur les facteurs prénataux (médicaux
et de personne) liés à un accouchement prématuré chez les femmes déjà en travail
prématuré. Au total, 13 variables ont été retenues pour 390 femmes enrôlées
dans l’étude.
Variables prédictives
1. GEST: l’âge gestationnel en semaines à l’entrée dans l’étude
2. DILATE: la dilatation du col en cmEFFACE: l’e¤acement du col (en %)
3. CONSIS:la consistance du col (1= mou, 2=ferme)
4. CONTR: la présence (=1) ou non (=2) de contraction
5. MEMBRAN: les membranes rupturées (=1) ou non (=2) ou incertain (=3)
6. AGE: l’âge de la patiente
7. STRAT: période de la grossesse avec 4 modalités
8. GRAVID: la gestité (nombre de grossesses antérieures y compris celle en
cours)
9. PARIT: la parité (nombre de grossesses à terme antérieures)
10. DIAB: la présence (=1) ou non (=2) d’un problème de diabète
11. TRANSF: le transfert (1) ou non (2) vers un hôpital en soins spécialisés
12. GEMEL: grossesse simple (=1) ou multiple (=2)
Dans l’ensemble des variables indépendantes, on constate qu’il y a 5 variables
quantitatives et 7 variables qualitatives.
Variable à prédire
PREMATURE: accouchement prématuré (positif ou négatif)

Nous avons obtenu les résultats suivants (modèle logit):

18
Tableau 1: Estimation des coe¢ cients.
Parameter Estimate Standard-Error Wald Chi-Square Pr >ChiSq
Intercept 2.7353 4.1927 0.4256 0.5141
GEST 0.0402 0.1262 0.1015 0.7500
DILATE 0.4689 0.1603 8.5581 0.0034
EFFACE 0.0166 0.00498 11.1319 0.0008
CONSIS 0.0665 0.2021 0.1082 0.7422
CONTR -0.3549 0.4871 0.5310 0.4662
MEMBRAN 1.4247 0.4029 12.5033 0.0004
MEMBRAN -1.0895 0.3145 12.0000 0.0005
AGE -0.0237 0.0268 0.7830 0.3762
STRAT 0.8627 0.9397 0.8429 0.3586
STRAT 0.2794 0.4281 0.4257 0.5141
STRAT -0.2400 0.3815 0.3959 0.5292
GRAVID 0.2508 0.1463 2.9412 0.0863
PARIT -0.6882 0.2059 11.1677 0.0008
DIAB -1.3988 0.9362 2.2326 0.1351
TRANSF -0.5266 0.2905 3.2863 0.0699
GEMEL 1.1830 0.6201 3.6402 0.0564
On dé…nit la variable dépendante de la manière suivante:

yi = 1 si le bébé est prématuré


= 0 sinon

La probabilté d’avoir un prématuré est donnée par:


P (yi = 1) = (xi )
où est la fonction de répartition de la loi logistique et avec

xi = 0 + 1 GEST + 2 DILAT E + 3 EF F ACE + 4 CON SIST


+ 5 CON T R + 6 M EM BRAN + 7 M EM BRAN + 8 AGE
+ 9 ST RAT + 10 ST RAT + 11 ST RAT + 12 GRAV ID
+ 13 P ARIT + 14 DIAB + 15 T RAN SF + 16 GEM EL

2) D’après la dernière colonne du tableau, on déduit que les variables: DI-


LATE, EFFACE, PARIT, MEMBRAN sont signi…catives au seuil de 5%.

3) Individu 1 avec les cararctéristiques suivantes:


GEST=31 DILATE=3 EFFACE=100 CONSIS= 2 CONTR=1 MEMBRAN=
2
AGE=26 STRAT=3 GRAVID=1 PARIT=0 DIAB=2 TRANSF=2 GEMEL=1

19
Cela donne
xi b = 2:7353 + 0:0402 31 + 0:4689 3 + 0:0166 100 + 0:0665 0
0:3549 1 + 1:4247 1 1:0895 0 0:0237 26
+0:8627 0 + 0:2794 1 0:2400 0 + 0:2508 1
0:6882 0 1:3988 0 0:5266 0 + 1:1830 1
= 9: 215
)
1
pbi = = 0:999 9
1 + exp( 9: 215)
La probabilité est proche de 1, ceci con…rme la valeur observée prise par la
variable dépendante PREMATURE=positif.

4) Test du rapport de vraisemblance.


On teste l’hypothèse H0 : modèle reduit (avec constante seule) H1 : modèle
complet. La statistique de test est :
2
LRV = 2(L0 L1 ) (16)
Et la statistique de test calculée est
LRV = 483:922 350:270 = 133: 65
2
LRV > 16 = 26:30, le modèle est signi…catif au seuil de 5%.

5) le R2 de Mac Fadden
350:270
R2 = 1 = 0:276 19
483:922
6) E¤ets marginaux des variables DILATE et EFFACE pour l’individu 1.
L’e¤et marginal est dé…ni par
@P (yi = 1)
= (xi )
@x
a) b DILAT E = 0:4689 et

exp(xi b )
(xi b ) = 2
1 + exp(xi b )
exp(9: 215) 5
= 2 = 9: 951 5 10
(1 + exp(9: 215))
d’où
@P (yi = 1) b
= DILAT E (xi b )
@xDILAT E
5 5
= 0:4689 9: 951 5 10 = 4: 666 3 10

20
b) De même
@P (yi = 1)
= b EF F ACE (xi b )
@xEF F ACE
b = 0:0166 et (xi b ) = 9: 951 5 10 5
, d’où
EF F ACE

@P (yi = 1) 5
= 0:0166 9: 951 5 10
@xEF F ACE
6
= 1: 651 9 10

7) Test de Hosmer et Lemeshow


Lorsque le modèle est correct, la statistique de test suit approximativement
une loi du khi-deux à (G - 2) degrés de liberté. Lorsque la probabilité critique du
test (p-value) est plus grande que le risque choisi, le modèle issu de la régression
logistique est accepté.
Chi-Square DF Pr > ChiSq
9.3867 8 0.3107
Le degré de liberté étant égal à G - 2 = 10 - 2 = 8, nous obtenons une p-value
de 0.3107 avec la loi du khi-deux. La p-value est supérieure au risque usuel de
5%. Le modèle est validé, il est compatible avec les données.

21

Vous aimerez peut-être aussi