Fondements de l’IA
Régression logistique
Mme Sofia Ben Jebara, Mme Amel Benazza
1 1
Contexte
Variable de sortie (à expliquer) : Y variable aléatoire définie dans {0,1}
Variable d’entrée (explicatives) : X1, …, XL variables indépendantes
Notation : X=(X1, …, XL) vecteur aléatoire des L variables d’entrée
Echantillon taille N : {(Y(i), X1(i), …, XL(i))} pour i=0, …, N-1
Notation : X=(X1, …, XL) vecteur aléatoire des L variables d’entrée
2 2
Objectif de la régression logistique
• Classer X dans l’une des 2 classes
• Mais, alors pourquoi parler de régression et pas de classification ?
• Parce qu’on va estimer une valeur continue qui est la probabilité
d’appartenance de Y à une des 2 classes conditionnellement à
l’observation X
X) = P(Y=1 X)
X) = P(Y=0 X)
2 approches (équivalentes)
Critère du maximum a posteriori (MAP) Modèle logit
3 3
Critère du maximum a posteriori (1)
Critère MAP : Si P(Y=1/X) > P(Y=0/X) alors classe assignée =1
Décision MAP : calculer rapport des chances (ou des cotes) ou odd ratio
P(Y=1/X) X)
Si = > 1 alors =1
P(Y=0/X) X)
P(X/Y)P(Y)
Loi de Bayes : P(Y/X)=
P(X)
X) P(Y=1)P(X/Y=1)
=
X) P(Y=0)P(X/Y=0)
• Rapport facile à estimer • Rapport des 2 vraisemblances
• De l’échantillon, on compte le (likelihood ratio)
nombre d’individus i tels que y(i)=1 • Comment le calculer ??
• On le divise par N => estime P(Y=1)
4 4
Critère du maximum a posteriori (2)
P(X/Y=1) modélisé comme une combinaison linéaire des L
L
P(X/Y=0) variables d’entrée X1, …, XL
P(X/Y=1)
Log likelihood ratio L 0+ 1X1+ …+ 𝐿XL
P(X/Y=0)
• Hypothèse valable pour un bon nombre de lois (normale,
exponentielle beta, Poisson …)
• Régression logistique qualifiée de méthode semi-paramétrique : on
modélise le rapport des distributions et pas les distributions => moins
restrictif => champ d’application plus élargi
5 5
Critère du maximum a posteriori (3)
Règle de classification
P(Y=1) P(X/Y=1) P(Y=1)
L +L L 0+ 1X1+ …+ 𝐿X L > 0 alors =1
P(Y=0) P(X/Y=0) P(Y=0)
Combinaison linéaire des observations
Relation entrée-sortie (X1, … XL ) et non linéaire
Mais classification linéaire (frontière linéaire = hyperplan)
Cas L=2 X2
=0 0= 0+ 1 X1 + 2 X2
P(Y=1)
0 0+ L P(Y=0)
X1 6 6
Modèle logit (1)
P(Y=1 X) X)
Logit d’un individu = L L
P(Y=0 X) X)
Modélisation du logit modélisé comme une combinaison linéaire des L
variables d’entrée X1, …, XL
X)
L 0+ 1X1+ …+ 𝐿XL
X)
Si les paramètres 0 𝐿 estimés, on peut déduire X)
Fonction logistique (fonction réciproque)
( + X1+ …+ XL)
X)
( + X1+ …+ XL) ( + X1+ …+ XL)
7 7
Modèle logit (2)
1
Fonction sigmoïde g(z) =
1+ e-z
ì 0 £ g(z) £ 1
Propriétés : ï
í g(z) ³ 0.5 si z³ 0
ï g(z) < 0.5 si z< 0
î
Fonction sigmoïde permet d’obtenir la probabilité conditionnelle
X) 0 + 1 X1 + …+ 𝐿XL)
+ X1+ …+ XL)
8 8
Modèle logit (3)
Etapes de l’algorithme
1. Estimer les paramètres
2. Calculer la combinaison linéaires
3. En déduire X)
4. Règle de décision basée sur X)
X)
• Si >1, assigner classe1
X)
ou
• Si X) > 0.5, assigner classe 1
ou 0+ 1X1+ …+ 𝐿XL
• 0+ 1X1+ …+ 𝐿XL > 0, assigner classe 1
9 9
Equivalence des 2 approches
P(X/Y=1)P(Y=1)
X) = P(Y=1 X)=
P(X)
X) P(Y=1) P(X/Y=1)
L =L +L
X) P(Y=0) P(X/Y=0)
Modèle logit Constante Modèle log likelihood ratio
0 + 1 X1 + …+ 𝐿XL 0+ 1X1+ …+ 𝐿XL
0 Constante 0
1 1
…
𝐿 𝐿 10 10
Estimation des paramètres (1)
• Pour appliquer la règle de décision linéaire, il faut d’abord estimer
les paramètres (poids de la combinaison linéaire du modèle)
• Quelle règle d’estimation ?
Critère du maximum de vraisemblance
• Raisons attractives de ce critère : asympotiquement sans biais,
asymptotiquement gaussien…
• Prérequis : connaître la vraisemblance de l’échantillon de taille N
11 11
Estimation des paramètres (2)
• Pour un individu i de l’échantillon, Y=1/ X(i) est une vade Bernoulli de
paramètre X(i)) :
P(Y=1 X(i))= X(i)) X(i))
• Les individus sont i.i.d, la vraisemblance de l’échantillon est :
() ()
P(Y(i)=1 X(i))= X(i)) X(i))
Y(i) X(i)) Y(i) X(i))
-Log[ + X1(i)+ …+ XL(i))
Trouver 0, 1, …, 𝐿) qui maximise la log-vraisemblance
12 12
Estimation des paramètres (3)
Comment trouver le vecteur qui
maximise la log-vraisemblance ?
• Pas de méthode de calcul direct
• Passer par des méthodes numériques : la méthode Newton-
Raphson est la plus utilisée
13 13