100% ont trouvé ce document utile (1 vote)
155 vues13 pages

Exercices Corrigés de Régression Logistique

La régression logistique est une méthode de classification binaire qui modélise la probabilité conditionnelle d'appartenance à une classe à l'aide d'une fonction logistique. Les paramètres du modèle sont estimés par la méthode du maximum de vraisemblance.

Transféré par

test test
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
100% ont trouvé ce document utile (1 vote)
155 vues13 pages

Exercices Corrigés de Régression Logistique

La régression logistique est une méthode de classification binaire qui modélise la probabilité conditionnelle d'appartenance à une classe à l'aide d'une fonction logistique. Les paramètres du modèle sont estimés par la méthode du maximum de vraisemblance.

Transféré par

test test
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Fondements de l’IA

Régression logistique
Mme Sofia Ben Jebara, Mme Amel Benazza

1 1
Contexte

Variable de sortie (à expliquer) : Y variable aléatoire définie dans {0,1}

Variable d’entrée (explicatives) : X1, …, XL variables indépendantes

Notation : X=(X1, …, XL) vecteur aléatoire des L variables d’entrée

Echantillon taille N : {(Y(i), X1(i), …, XL(i))} pour i=0, …, N-1

Notation : X=(X1, …, XL) vecteur aléatoire des L variables d’entrée

2 2
Objectif de la régression logistique

• Classer X dans l’une des 2 classes


• Mais, alors pourquoi parler de régression et pas de classification ?
• Parce qu’on va estimer une valeur continue qui est la probabilité
d’appartenance de Y à une des 2 classes conditionnellement à
l’observation X
X) = P(Y=1 X)
X) = P(Y=0 X)
2 approches (équivalentes)

Critère du maximum a posteriori (MAP) Modèle logit

3 3
Critère du maximum a posteriori (1)

Critère MAP : Si P(Y=1/X) > P(Y=0/X) alors classe assignée =1

Décision MAP : calculer rapport des chances (ou des cotes) ou odd ratio

P(Y=1/X) X)
Si = > 1 alors =1
P(Y=0/X) X)
P(X/Y)P(Y)
Loi de Bayes : P(Y/X)=
P(X)

X) P(Y=1)P(X/Y=1)
=
X) P(Y=0)P(X/Y=0)
• Rapport facile à estimer • Rapport des 2 vraisemblances
• De l’échantillon, on compte le (likelihood ratio)
nombre d’individus i tels que y(i)=1 • Comment le calculer ??
• On le divise par N => estime P(Y=1)
4 4
Critère du maximum a posteriori (2)

P(X/Y=1) modélisé comme une combinaison linéaire des L


L
P(X/Y=0) variables d’entrée X1, …, XL

P(X/Y=1)
Log likelihood ratio L 0+ 1X1+ …+ 𝐿XL
P(X/Y=0)

• Hypothèse valable pour un bon nombre de lois (normale,


exponentielle beta, Poisson …)

• Régression logistique qualifiée de méthode semi-paramétrique : on


modélise le rapport des distributions et pas les distributions => moins
restrictif => champ d’application plus élargi

5 5
Critère du maximum a posteriori (3)

Règle de classification
P(Y=1) P(X/Y=1) P(Y=1)
L +L L 0+ 1X1+ …+ 𝐿X L > 0 alors =1
P(Y=0) P(X/Y=0) P(Y=0)

Combinaison linéaire des observations

Relation entrée-sortie (X1, … XL ) et non linéaire

Mais classification linéaire (frontière linéaire = hyperplan)

Cas L=2 X2
=0 0= 0+ 1 X1 + 2 X2

P(Y=1)
0 0+ L P(Y=0)
X1 6 6
Modèle logit (1)

P(Y=1 X) X)
Logit d’un individu = L L
P(Y=0 X) X)

Modélisation du logit modélisé comme une combinaison linéaire des L


variables d’entrée X1, …, XL
X)
L 0+ 1X1+ …+ 𝐿XL
X)
Si les paramètres 0 𝐿 estimés, on peut déduire X)
Fonction logistique (fonction réciproque)
( + X1+ …+ XL)
X)
( + X1+ …+ XL) ( + X1+ …+ XL)

7 7
Modèle logit (2)

1
Fonction sigmoïde g(z) =
1+ e-z
ì 0 £ g(z) £ 1
Propriétés : ï
í g(z) ³ 0.5 si z³ 0
ï g(z) < 0.5 si z< 0
î

Fonction sigmoïde permet d’obtenir la probabilité conditionnelle

X) 0 + 1 X1 + …+ 𝐿XL)
+ X1+ …+ XL)

8 8
Modèle logit (3)

Etapes de l’algorithme
1. Estimer les paramètres
2. Calculer la combinaison linéaires
3. En déduire X)
4. Règle de décision basée sur X)
X)
• Si >1, assigner classe1
X)
ou
• Si X) > 0.5, assigner classe 1
ou 0+ 1X1+ …+ 𝐿XL
• 0+ 1X1+ …+ 𝐿XL > 0, assigner classe 1

9 9
Equivalence des 2 approches

P(X/Y=1)P(Y=1)
X) = P(Y=1 X)=
P(X)

X) P(Y=1) P(X/Y=1)
L =L +L
X) P(Y=0) P(X/Y=0)

Modèle logit Constante Modèle log likelihood ratio

0 + 1 X1 + …+ 𝐿XL 0+ 1X1+ …+ 𝐿XL

0 Constante 0
1 1

𝐿 𝐿 10 10
Estimation des paramètres (1)

• Pour appliquer la règle de décision linéaire, il faut d’abord estimer


les paramètres (poids de la combinaison linéaire du modèle)

• Quelle règle d’estimation ?


Critère du maximum de vraisemblance

• Raisons attractives de ce critère : asympotiquement sans biais,


asymptotiquement gaussien…

• Prérequis : connaître la vraisemblance de l’échantillon de taille N

11 11
Estimation des paramètres (2)

• Pour un individu i de l’échantillon, Y=1/ X(i) est une vade Bernoulli de


paramètre X(i)) :
P(Y=1 X(i))= X(i)) X(i))

• Les individus sont i.i.d, la vraisemblance de l’échantillon est :

() ()
P(Y(i)=1 X(i))= X(i)) X(i))

Y(i) X(i)) Y(i) X(i))

-Log[ + X1(i)+ …+ XL(i))

Trouver 0, 1, …, 𝐿) qui maximise la log-vraisemblance


12 12
Estimation des paramètres (3)

Comment trouver le vecteur qui


maximise la log-vraisemblance ?

• Pas de méthode de calcul direct


• Passer par des méthodes numériques : la méthode Newton-
Raphson est la plus utilisée

13 13

Vous aimerez peut-être aussi