Machine Learning
Pr. Safae Berrichi
[Link]@[Link]
Faculté des Sciences Juridiques, Économiques et Sociales, 2024/2025
Apprentissage Supervisé :
Naïve Bayes
04
Apprentissage
supervisé
‘ Apprentissage Supervisé
Classification : Construction du modèle
’
Méthode
(Naive Bayse)
Pr. Safae Berrichi 3
Apprentissage
supervisé
Rappels sur les probabilités
Définitions :
‘ Naive Bayse
’
• l’ensemble fondamental E d’une expérience aléatoire est l’ensemble de toutes les réalisations possibles
de l’expérience.
• Les éléments de P(E) sont appelés événements.
• (E,P(E)) est appelé espace probabilisable
• Une probabilité sur un espace probabilisable (E,P(E)) est une application telle que :
o Pour tout A dans P(E) : 0 ≤ Pr(A) ≤ 1
o Pr(E) = 1
o Pour tous A, B dans P(E) on a :
Pr(AUB) = Pr(A) + Pr(B) – Pr(A∩B)
o Si A∩B = Ø alors Pr(AUB) = Pr(A) + Pr(B)
Pr. Safae Berrichi 4
Apprentissage
supervisé
Rappels sur les probabilités ‘ Naive Bayse
’
• Si l’ensemble fondamental E est fini, et tous les événements élémentaires sont équiprobables
(c.à.d. ont la même probabilité), alors on parle de probabilité uniforme et nous avons dans ce
cas :
card(A) nombre de cas favorables
Pr A = =
card(E) nombre de cas possibles
Pr. Safae Berrichi 5
Apprentissage
supervisé
Rappels sur les probabilités
Exemple : Jet d’un dés
‘ Naive Bayse
’
▪ E = {1 ; 2 ; 3 ; 4 ; 5 ; 6}
▪ A = "résultat du jet est impaire" = {1 ; 3 ; 5}
▪ B = "résultat du jet est un multiple de 3" = {3;6} alors :
3 2
𝑃𝑟 𝐴 = 𝑒𝑡 𝑃𝑟 𝐵 =
6 6
Pr. Safae Berrichi 6
Apprentissage
supervisé
Rappels sur les probabilités
•
‘ Naive Bayse
Définition : deux événements A et B sont indépendants si : ’
Pr(A∩B)= Pr(A)×Pr(B)
• A et B sont indépendants si la réalisation de A ne donne aucune information sur la probabilité
de B.
Pr. Safae Berrichi 7
Apprentissage
supervisé
Rappels sur les probabilités
Exemple : Jet d’un dés
‘ Naive Bayse
’
▪ E = {1 ; 2 ; 3 ; 4 ; 5 ; 6}
▪ A = "résultat du jet est impaire" = {1 ; 3 ; 5}
▪ B = "résultat du jet est un multiple de 3" = {3;6} alors :
o l’événement "A et B" = A∩B = {3}
o De même, l’événement "A ou B" = AUB = {1;3;5;6}
▪ Pr(A) = 3/6, Pr(B) = 2/6 et Pr(A∩B) = 1/6
▪ Comme Pr(A∩B) = Pr(A)×Pr(B) alors les événements A et B sont indépendants.
Pr. Safae Berrichi 8
Apprentissage
supervisé
Rappels sur les probabilités
Définitions :
‘ Naive Bayse
’
• une probabilité conditionnelle est la probabilité d'un événement sachant qu'un autre événement
a eu lieu.
• La probabilité conditionnelle d'un événement A, sachant qu'un autre événement B de probabili
té non nulle s'est réalisé (on dit simplement probabilité de A sachant B) est le nombre noté Pr(
A/B) défini par :
Pr(A ∩ B)
Pr(A/B)=
Pr(B)
• Si les événements A et B sont indépendants alors
Pr(A/B)=Pr(A)
Pr. Safae Berrichi 9
Apprentissage
supervisé
Rappels sur les probabilités
Formule de Bayes
‘ Naive Bayse
’
• Soient A et B sont deux événements, alors
Pr(B/A) × Pr(A)
Pr(A/B)=
Pr(B)
Pr. Safae Berrichi 10
Apprentissage
supervisé
Rappels sur les probabilités ‘ Naive Bayse
’
• Si les événements A et B sont indépendants alors
Pr(A ∩ 𝐵)=Pr(A) × Pr(B)
• Deux événements A et B sont conditionnellement indépendants à un évènement C de probabi
lité non nulle si :
Pr(A ∩ 𝐵/C)=Pr(A/C) × Pr(𝐵/C)
Pr. Safae Berrichi 11
Apprentissage
supervisé
‘
Construction d’un classifieur bayésien
Naive Bayse
’
• La classification bayésienne est une classification probabiliste basée sur le théorème de Bayes.
• Elle permet de classer dans des classes les échantillons qui ont des propriétés similaires,
mesurées sur des observations.
• Pour réaliser cette tâche, nous aurons besoin d’un ensemble d’apprentissage constitué
d’observations dont les classes sont connues.
• L’hypothèse de Bayes naïve (HBN) consiste à dire que x est une conjonction de valeurs
d’attributs et que ces attributs sont des variables aléatoires indépendantes
Pr. Safae Berrichi 12
Apprentissage
supervisé
N° 𝑉1 = Taille
‘ Naive Bayse
Construction d’un classifieur bayésien
𝑉2 =Poids ’
𝑉3 =Age 𝐶𝒍𝒂𝒔𝒔𝒆=Genre
1 182 81,6 35 masculin
2 152 45,4 25 féminin
3 170 77,1 52 masculin
4 168 67 28 féminin
5 175 68 31 féminin
6 180 86 27 masculin
7 167 72 47 masculin
Notre objectif est de prévoir le genre pour une instance X dont la taille, le poids et l’âge sont
connus. Nous avons donc deux classes, la classe 𝑪𝟏 = "masculin" et la classe 𝑪𝟐 = "féminin".
Pr. Safae Berrichi 13
Apprentissage
supervisé
Instance
Variables
‘ 𝑉1
Naive Bayse
⋯⋯ 𝑉𝑗
’
⋯⋯ 𝑉𝑚 Classe
1 𝑥11 ⋯⋯ 𝑥1𝑗 ⋯⋯ 𝑥1𝑚 𝑐1Ƹ
⋮ ⋮ ⋮ ⋮
i 𝑥𝑖1 ⋯⋯ 𝑥𝑖𝑗 ⋯⋯ 𝑥𝑖𝑚 𝑐𝑖Ƹ
⋮ ⋮ ⋮ ⋮
n 𝑥𝑛1 ⋯⋯ 𝑥𝑛𝑗 ⋯⋯ 𝑥𝑛𝑚 𝑐𝑛Ƹ
• Les 𝐶𝑙 1≤𝑙≤𝑘 représentent les classes ;
• 𝑥𝑖𝑗 est l’observation sur la ième instance (individu) relative à l’attribut 𝑉𝑗 ;
• Pour tout 1 ≤ 𝑖 ≤ 𝑛, 𝑋𝑖 = 𝑥𝑖𝑗 est le vecteur d’observations sur la ième instance;
1≤𝑗≤𝑚
• 𝑐𝑖Ƹ est la classe de la ième instance 𝑐𝑖Ƹ ∈ 𝐶𝑙 ; 1 ≤ 𝑙 ≤ 𝑘 . Pr. Safae Berrichi 14
Apprentissage
supervisé
‘
Construction d’un classifieur bayésien
• D’après la formule de Bayes on a :
Naive Bayse
’
Pr(𝑋/𝐶𝑙 ) × Pr(𝐶𝑙 )
𝑃𝑟 𝐶𝑙 Τ𝑋 =
Pr(𝑋)
• Et par suite
Pr(𝑋/𝐶𝑙 ) × Pr(𝐶𝑙 )
𝑃𝑟 𝐶 Τ𝑋 = 𝑚𝑎𝑥 𝑃𝑟 𝐶𝑙 Τ𝑋 = 𝑚𝑎𝑥
1≤𝑙≤𝑘 1≤𝑙≤𝑘 Pr(𝑋)
1
= 𝑚𝑎𝑥 Pr(𝑋/𝐶𝑙 ) × Pr(𝐶𝑙 )
Pr(𝑋) 1≤𝑙≤𝑘
• Donc 𝐶 est la solution de l’équation suivante :
𝐶 = 𝑎𝑟𝑔𝑚𝑎𝑥 Pr(𝑋/𝐶𝑙 ) × Pr(𝐶𝑙 )
1≤𝑙≤𝑘
• Pour trouver la classe 𝐶 il faut donc calculer Pr(𝑋/𝐶𝑙 ) et Pr(𝐶𝑙 ) pour tout 1 ≤ 𝑙 ≤ 𝑘.
• Nous allons expliquer comment estimer ces probabilités à partir du corpus d’apprentissage. Pr. Safae Berrichi
15
Apprentissage
supervisé
‘
Construction d’un classifieur bayésien
• Estimation de Pr(𝐶𝑙 ) :
Naive Bayse
’
𝑛𝑙
Pr(𝐶𝑙 ) =
𝑛
avec
o 𝑛𝑙 = nombre d’instances de l’ensemble d’apprentissage appartenant à la classe 𝐶𝑙 .
o 𝑛 = taille de l’ensemble d’apprentissage (le nombre de toutes les instances).
Pr. Safae Berrichi 16
Apprentissage
supervisé
‘
Construction d’un classifieur bayésien
Naive Bayse
’
• Estimation de Pr(𝑋/𝐶𝑙 ) :
Pr(𝑋/𝐶𝑙 )=Pr(𝑉1 = 𝑥1 ,𝑉2 = 𝑥2 , ⋯ , 𝑉𝑚 = 𝑥𝑚 /𝐶𝑙 )
• L’estimation de cette probabilité n’est pas chose facile. Pour simplifier le problème, nous
faisons l’hypothèse d’indépendance suivante :
(H1) Les attributs 𝑉𝑗 sont indépendants deux à deux conditionnellement à chacune des
1≤𝑗≤𝑚
classes 𝐶𝑙 .
• Le classifieur obtenu avec cette hypothèse est appelé classifieur bayésien naïf.
Pr. Safae Berrichi 17
Apprentissage
supervisé
‘
Construction d’un classifieur bayésien
Naive Bayse
’
• Sous l’hypothèse (H1), nous vérifions que :
Pr(𝑋/𝐶𝑙 ) = Pr(𝑉1 = 𝑥1 /𝐶𝑙 ) × ⋯ × Pr(𝑉𝑚 = 𝑥𝑚 /𝐶𝑙 )
• Estimation de Pr(𝑉𝑗 = 𝑥𝑗 /𝐶𝑙 ) :
𝑛𝑗𝑙
Pr(𝑉𝑗 = 𝑥𝑗 /𝐶𝑙 ) =
𝑛𝑙
avec
o 𝑛𝑗𝑙 =nombre d’instances de l’ensemble d’apprentissage appartenant à la classe 𝐶𝑙 et dont
l’attribut 𝑉𝑗 est égal à 𝑥𝑗 .
o 𝑛𝑙 =nombre d’instances de l’ensemble d’apprentissage appartenant à la classe 𝐶𝑙 . Pr. Safae Berrichi 18
Apprentissage
supervisé
‘
Construction d’un classifieur bayésien
Naive Bayse
N° Ensoleillement ’
Exemple : Nous considérons un exemple présenté dans l’ouvrage de Quinlan (1993)
Température Humidité Vent Jouer
o n=14 = taille de l’ensemble 1 soleil chaud haute non non
2 soleil chaud haute oui non
d’apprentissage
3 couvert chaud haute non oui
o m=4 = nombre d’attributs 4 pluie bon haute non oui
5 pluie frais normale non oui
• 𝑉1 =‘’Ensoleillement’’, 6 pluie frais normale oui non
• 𝑉2 =‘’Température’’, 7 couvert frais normale oui oui
8 soleil bon haute non non
• 𝑉3 =‘’Humidité’’, 9 soleil frais normale non oui
10 pluie bon normale non oui
• 𝑉4 =‘’Vent’’.
11 soleil bon normale oui oui
o k=2 = nombre de classes (C1=‘’oui’’ et 12 couvert bon haute oui oui
13 couvert chaud normale non oui
C2=‘’non’’) 14 pluie bon haute oui Pr. Safaenon
Berrichi 19
Apprentissage
supervisé
‘
Construction d’un classifieur bayésien
Exemple :
Naive Bayse
’
Pour notre exemple jouer au tennis?
• x = (Ciel, Température, Humidité, Vent), y Є {oui, non} . On voudrait prédire la classe de la
donnée x = (Ciel = ensoleillé, Température = fraiche, Humidité = élevée, Vent = fort).
• Si on utilise la règle de Bayes, on aura:
Pr. Safae Berrichi 20
Apprentissage
supervisé
‘ Naive Bayse
Construction d’un classifieur bayésien
Exemple :
’ 2 3
Pr. Safae Berrichi 21
Apprentissage
supervisé
‘ Naive Bayse
Construction d’un classifieur bayésien
Exemple :
’
Pr. Safae Berrichi 22
Apprentissage
supervisé
‘ Naive Bayse
Construction d’un classifieur bayésien
Exemple :
’
Pr. Safae Berrichi 23
Apprentissage
supervisé
‘
Construction d’un classifieur bayésien
Naive Bayse
’
Exemple : Soit X=(ensoleillé, fraiche, élevé, fort) alors d’après le tableau on a :
9 5
o Pr(C1="oui") = Pr(C2="non") =
14 14
o Pr(𝑋/𝐶1 = "𝑜𝑢𝑖")=Pr(𝑒𝑛𝑠𝑜𝑙𝑒𝑖𝑙𝑙é/𝐶1) × Pr(𝑓𝑟𝑎𝑖che/𝐶1) × Pr(élévé/𝐶1) × Pr(fort/𝐶1)
2 3 3 3 2
= × × × =
9 9 9 9 243
9 2 1
et par suite Pr(𝐶1) × Pr(𝑋/𝐶1) × = = = 0,0053
24314 189
o Pr(𝑋/𝐶2 = non)=Pr(𝑒𝑛𝑠𝑜𝑙𝑒𝑖𝑙𝑙é/𝐶2) × Pr(𝑓𝑟𝑎𝑖che/𝐶2) × Pr(élévé/𝐶2) × Pr(fort/𝐶2)
3 1 4 3 36
= × × × =
5 5 5 5
625
5 36 18
et par suite Pr(𝐶2) × Pr(𝑋/𝐶2) = × = = 0,0206.
14 625 875
Conclusion : Comme Pr(𝐶1) × Pr(𝑋/𝐶1) < Pr(𝐶2) × Pr(𝑋/𝐶2), alors X sera classé dans C2,
c.à.d. on ne jouera pas ce jour là.
Pr. Safae Berrichi 24
Apprentissage
supervisé
‘ Naive Bayse
Construction d’un classifieur bayésien
Remarque :
’
Si l’attribut est numérique, la détermination de la probabilité d'observation d'une valeur particulière
ne peut pas se faire comme on vient de le présenter
→Lorsque les valeurs des caractéristiques sont continues, on utilise la loi normale (loi gaussienne).
Par exemple, le poids, le prix, etc. En se basant sur les données avec N échantillons, on calcule
l'espérance μ et la variance σ² de chaque attribut et chaque classe.
• Pour chaque attribut 𝑥𝑖 , et pour chaque classe y, on estime :
• La moyenne 𝜇𝑖,𝑦
• L’écart-type σ𝑖,𝑦
• Puis on utilise la densité de la loi normale :
Pr. Safae Berrichi 25
Apprentissage
supervisé
‘
Construction d’un classifieur bayésien
Naive Bayse
’
Valeurs d’attributs manquantes
• La méthode de Bayes n'est pas applicable telle quelle si une certaine valeur d'attribut n'apparaît pas
dans l’ensemble d'entraînement D.
• En effet, dans ce cas, on voit apparaitre des probabilités estimées à 0. Comme les probabilités sont
multipliées les unes par les autres, on obtient 0 à la fin du compte.
Exemple: Il n’y a pas d’exemples négatifs pour la valeur de Ciel =Couvert. L’estimation est 𝑝 Ciel =
Couvert jouer=non, D = 0. D'un point de vue conceptuel, cela n'a pas de sens. D'un point de vue pratique,
le 0 pose problème.
Pr. Safae Berrichi 26
Apprentissage
supervisé
‘
Construction d’un classifieur bayésien
Naive Bayse
’
Valeurs d’attributs manquantes
• Il est du au manque d'exemples correspondants. Il est naturel de se dire que 0 cache en réalité une
valeur très petite.
• On peut remplacer ce 0 par une petite valeur; tout en gardant les règles sur les probabilités vérifiées.
• La solution consiste à s'arranger pour que cette estimation ne soit pas nulle. Pour cela, on utilise la
technique dite de l'estimateur de Laplace .
Pr. Safae Berrichi 27
Apprentissage
supervisé
‘
Construction d’un classifieur bayésien
Naive Bayse
’
Valeurs d’attributs manquantes
• En utilisant le lissage de Laplace, nous avons :
Avec :
alpha représente le paramètre de lissage. Typiquement, α = 1.
K représente le nombre de caractéristiques dans les données,
N représente le nombre d’occurrence
Pr. Safae Berrichi 28
Apprentissage
supervisé
Exercice
•
‘ Naive Bayse
’
Soient les informations des symptômes et du diagnostic des patients suivants :
Question : En utilisant la classification de Bayes naïve, prédire l’état d’un patient ayant les symptômes
suivants :
Pr. Safae Berrichi 29
Apprentissage
supervisé
‘
Avantages et Inconvénients
Naive Bayse
’
Avantages
• Simplicité : Facile à comprendre et à mettre en œuvre. Le classificateur Naive Bayes est
simple à coder et ne nécessite pas beaucoup de paramètres de réglage.
• Rapidité : Efficace en termes de calcul, même avec des jeux de données volumineux. En
raison de sa simplicité, le classificateur Naive Bayes est extrêmement rapide à former et à
prédire.
• Performance : Peut être très performant, surtout avec des données textuelles. Malgré ses
hypothèses simplistes, il donne souvent des résultats compétitifs par rapport à des
modèles plus complexes, en particulier dans les tâches de classification de texte.
Pr. Safae Berrichi 30
Apprentissage
supervisé
Avantages et Inconvénients
‘ Naive Bayse
’
Inconvénients
• Hypothèse d’indépendance : L’hypothèse d’indépendance entre les prédicteurs est
souvent irréaliste. Dans de nombreux cas pratiques, les caractéristiques ne sont pas
réellement indépendantes, ce qui peut entraîner des prédictions sous-optimales.
• Performances Variables : Peut être surpassé par d’autres méthodes de classification
plus sophistiquées lorsque les données ne respectent pas les hypothèses de base. Dans
des contextes où les relations entre les caractéristiques sont complexes, des modèles
plus avancés comme les machines à vecteurs de support ou les réseaux neuronaux
peuvent offrir de meilleures performances.
Pr. Safae Berrichi 31