0% ont trouvé ce document utile (0 vote)
34 vues52 pages

Classification Et Évaluation

Le document traite de la classification et de l'évaluation dans le cadre de l'apprentissage automatique, en détaillant les types d'apprentissage, notamment supervisé, non supervisé, semi-supervisé et par renforcement. Il aborde également les méthodes de classification, les ensembles d'apprentissage et de test, ainsi que les techniques d'évaluation telles que le pourcentage de classification correcte, la matrice de confusion et la validation croisée. Enfin, il présente des applications pratiques dans divers domaines comme la banque, la médecine et le marketing.

Transféré par

Nizar Ferchichi
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
34 vues52 pages

Classification Et Évaluation

Le document traite de la classification et de l'évaluation dans le cadre de l'apprentissage automatique, en détaillant les types d'apprentissage, notamment supervisé, non supervisé, semi-supervisé et par renforcement. Il aborde également les méthodes de classification, les ensembles d'apprentissage et de test, ainsi que les techniques d'évaluation telles que le pourcentage de classification correcte, la matrice de confusion et la validation croisée. Enfin, il présente des applications pratiques dans divers domaines comme la banque, la médecine et le marketing.

Transféré par

Nizar Ferchichi
Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre

Classification et évaluation

1
Plan
 Introduction
 Apprentissage
 Apprentissage automatique
 Types d’apprentissage automatique
 Apprentissage en ligne
 Classification
 Définition
 Ensemble d’apprentissage / Ensemble test
 Approche paramétrique / Approche non paramétrique
 Classification supervisée / Classification non supervisée
 Réduction de multi-classes à deux classes
 Evaluation
 Pourcentage de classification correcte
 Matrice de confusion
 Validation Croisée / Leave one out / Le bootstrap
 Rappel / Précision
 F-mesure
 Sensibilité / Spécificité
 Courbe ROC
 Intelligibilité 2
Introduction

3
Apprentissage

4
Apprentissage
• Acquérir de nouvelles connaissances.

• Contracter de nouvelles habitudes.

• Avoir une connaissance extraite à partir d’un ensemble d’exemples.

C’est la capacité d’améliorer


l’accomplissement d’une tâche en
interagissant avec un environnement.

5
Apprentissage
automatique

6
Apprentissage automatique
= Machine learning
• Simuler la cognition humaine.
• Doter la machine d’un mécanisme d’apprentissage.

• Machine learning = Intersection de l’informatique, statistiques et


domaines particuliers

Statistiques Informatique

Domaine
d’application

7
Domaines d’Application

Datamining
Exploiter les données historiques pour
améliorer les décisions (Médecine,
Banque,…)

Applications non classiques


(Reconnaissance de la parole, Conduite
automatique,…)

Programmes auto-adaptatifs
(Lecture des journaux selon le thème,…)

8
Apprentissage supervisé (1)
 On dispose d’un ensemble de paires d'entrée(s)/sortie(s) de la forme
(xi, yi),
 xi : entrée(s) possible(s) Descriptions ou situations

 yi : sortie(s) associée(s) à xi Actions ou prédictions


 Les paires d'entrée(s)/sortie(s) sont appelées les exemples qui
proviennent d'une fonction inconnue.

 Il s’agit de trouver une bonne approximation d’une fonction f dont on


connaît le résultat que pour un certain nombre d’exemples.

On demande au système de généraliser


9
Exemples
 Une fonction h aussi proche que possible de f où f(xi) = yi
0 0
1 1
h(x) = x3
4 64
5 125
 Une distribution de probabilité P(xi, yi)
Quelle est la probabilité qu’un client avec tel profil achète tel produit ?
 Dans un jeu de cartes:
 les cartes gagnantes sont: 9♥, Roi ♥ et 7.
 les cartes perdantes sont: 3♠, 4♣ et 6♣.

Les cartes rouges sont gagnantes et les cartes numériques noires sont
perdantes
10
Apprentissage supervisé (2)

● Apprentissage supervisé avec variable réponse continue.


Régression, Estimation de densité

Prédire une variable Y Exemple de régression :


par les variables Prédire la valeur de la bourse demain,
explicatives X1, étant données les valeurs des jours et mois passés
X2,…Xn

● Apprentissage supervisé avec variable réponse discrète.


Classification ou Analyse discriminante

● Apprentissage supervisé avec variable réponse booléenne.


Apprentissage de concept
Apprentissage non supervisé
 On ne dispose pas d’un ensemble de paires d'entrée(s)/sortie(s).

On dispose uniquement d’un ensemble d’entrées.

 Regrouper les entrées en un nombre fixe de groupes (clusters):


 Les entrées de chaque groupe sont proches les uns des autres.
 On utilise une certaine métrique dans l’espace des entrées.
 Découvrir de nouvelles relations dans les données (ex: Réseaux
Bayésiens).

12
Exemples
• Segmentation du marché
• Quelles sont les catégories principales des clients typiques dans
le domaine vestimentaire?
 Enfants, jeunes, adultes, etc.
 Classique, habillé, sport, etc.
• Domaine médical: Découverte de nouveaux liens
• Il y a un lien entre visiter l’Asie et attraper la tuberculose.

13
Apprentissage semi-supervisé

 L’apprentissage semi-supervisé utilise un ensemble de données


étiquetées et non-étiquetés.

Apprentissage semi-supervisé peut améliorer


les performances en combinant les données
avec labels et sans labels.

Ne pas en laisser de côté des objets et utiliser


toute l’information

14
Apprentissage par renforcement (1)

 L’algorithme d’apprentissage doit trouver une stratégie d’actions pour


obtenir éventuellement une récompense (ou pénalité).

La récompense ou la pénalité arrive (généralement) suite à un


ensemble d’actions.

Maximiser le gain (ou inversement) à long terme


(apprentissage de réflexes, apprentissage de planification,…)

15
Exemples

 Jeu d’échecs
 On joue contre un adversaire.
 il y a une stratégie d’actions.
 C’est en fin de partie, qu’on va avoir le résultat de nos actions:
 Victoire
 Nul
 Défaite
Contrôle de robots (Aibo Taibo)
 Aibo réagit à son environnement, il
peut s’adapter en vue d’obtenir plus
de renforcements positifs.
Robot chien-jouet japonais 16
Apprentissage par renforcement (2)

 L’apprentissage par renforcement se distingue des autres approches


d’apprentissage par plusieurs aspects :

 L’apprentissage se fait sans supervision.

 Il repose sur le principe d’essai/erreur.

17
Apprentissage en ligne

 L’apprentissage en ligne (on-line learning) dans lequel les


données arrivent en séquences et où l'apprenant doit délibérer
et fournir une réponse après chaque entrée ou groupe
d'entrées.

 L’apprentissage en ligne (aussi incrémental ou séquentiel), est


le processus par lequel une entité accroît ses connaissances
au cours du temps, en même temps qu’elle les utilise.

 Par opposition, il y a l’apprentissage hors ligne (batch


learning) dans lequel toutes les données d'apprentissage sont
fournies d'un seul coup à l'apprenant.

18
N’oubliez pas

Parmi les tâches de l’apprentissage:


La classification

19
Classification

20
Classifcation

O
Objet

Attributs A1 A2 ……………... Ak
(Variables)
Classifieur

Classes C1, C2, …………………Cn

21
Question ?
Comment savoir si je dois
attribuer un crédit
bancaire à un client ?

22
Réponse
Mais bien sûr : apprendre
à partir d’exemples que la
banque connaît déjà !

23
Apprentissage par exemples

 On dispose d’un grand ensemble d’exemples (objets).

 On cherche à trouver une structure relative à ces exemples pour


obtenir un modèle.
 Ce modèle permet de:
 Extraire une procédure de classification à partir d’exemples.

 Classer un nouvel exemple.


.
.
 Prévoir une valeur numérique.
 Comprendre la structure des exemples.
24
Ensemble d’apprentissage
Attributs
Revenu Propriété Crédit non Classes
remboursé
Elevé Supérieur Non C1
Valeurs des attributs

Elevé Supérieur Oui C2


Elevé Supérieur Non C1
Elevé Inférieur Oui C2
Moyen Supérieur Non C1
Moyen Supérieur Oui C2
Moyen Inférieur Non C2
Moyen Inférieur Oui C2
Faible Inférieur Non C3
Faible Inférieur Oui C3
C1: Attribuer tout le crédit.
C2: Attribuer une partie crédit.
C3: Ne pas attribuer le crédit.
25
Ensemble test

Revenu Propriété Crédit non payé Classes


Elevé Supérieur Oui ?
Moyen Inférieur Non ?
Elevé Supérieur Oui ?
Moyen Supérieur Oui ?
Faible Inférieur Oui ?
Nul Inférieur Oui ?
Elevé Supérieur Non ?
Moyen Inférieur Oui ?

On cache les
vraies classes
Domaines d’application (1)

 Banque: attribution de crédits


 Utiliser un historique de crédits accordés et non accordés avec la
situation personnelle du client.

 Médecine: aide au diagnostic


 Caractériser les symptômes des anciens patients et de leurs
maladies.

 Marketing: établir un profil client


 Faire une segmentation automatique des clients pour le
marketing direct.

27
Domaines d’application (2)

 Analyse financière: prévision d’évolution des marchés

 Assurance: analyse de risques

 Télécoms: détection de fraudes

 Sécurité: détection d’intrusions


.
.
.
28
Approche paramétrique
 Proposition d’un modèle dont on estime ses paramètres à partir
des exemples (phase d’apprentissage).

 Les hypothéses que l’on fait sur les lois de probabilité font partie
d’une famille de distributions.

 Si on sait que P est une distribution normale, il suffit d’estimer


ses deux paramètres:
 Sa moyenne
 Son écart type
Avoir une bonne approximation de la distribution P.

Déterminer une procédure de classification.


29
Approche non paramétrique

 Pas d’hypothèses sur le modèle que suivent les données.

 Les problèmes à résoudre sont plus complexes que ceux


traités par les méthodes paramétriques.

 Méthodes statistiques.

 Méthodes issues de l’intelligence artificielle.

30
Classification supervisée

 Les classes sont définies a priori.

 Découverte de règles ou formules pour ranger les données


dans des classes prédéfinies.

 Construction d'un modèle sur les données dont la classe est


connue (Ensemble d’apprentissage).

 Utilisation pour classification des nouveaux objets.

31
Exemples

 Arbres de décision

 Méthodes K plus proches voisins

 Réseaux de neurones

 Machines à vecteurs supports (SVM)

.
.
.
Classification non supervisée

 Les instances d’apprentissage ne sont pas fournies avec des classes.

L’ensemble d’apprentissage n’est pas étiqueté (on ne connaît


pas les classes a priori).

 Intuitevement les objets de même classe sont “proches” les uns des
autres.
Mesure de similarité ou de distance

Regrouper les exemples similaires:


Segmentation et clustering
Exemples

 Clustering par partitionnement

 Clustering hiérarchique

.
.
.
Réduction de multi-classes à deux
classes

 Problème de classification à plusieurs classes.

Plusieurs problèmes de classification binaire.


 OvA (One vs. All) : C’est la méthode un contre tous mais qui n’est
pas forcement la meilleure (classes souvent très déséquilibrées).

 AvA (All vs. All) : Pour chaque paire de classes (C1;C2),


construire un classieur pour discriminer entre C1 et C2 (Classes
équilibrées mais on a  n2/2 classifeurs).

35
Evaluation

36
Données d’apprentissage

 Ensemble d’apprentissage : ensemble des objets (exemples)


utilisés pour générer le modèle d’apprentissage.

 Ensemble test : ensemble des objets (exemples) sur lequel sera


appliqué le modèle d’apprentissage (pour tester et corriger
l’algorithme).

 Ensemble de validation : peut être utilisé lors de l’apprentissage


(comme sous population de l’ensemble d’apprentissage) afin de
valider (intégrer) le modèle et d’éviter le sur-apprentissage.

36
Evaluation

 Utilisation d’un ensemble test.

 Pourcentage de classification correcte (PCC).

 Taux d’erreur de classification.

 Utilisation de la validation croisée, leave one out, etc.

38
Pourcentage de Classifcation
Correcte (PCC) (1)
Nombre d’objets correctement classés
PCC =
Nombre total des objets tests
Ensemble test

Revenu Propriété Crédit Classes Vraies


non payé prédites classes
Elevé Supérieur Oui C1 C1
Moyen Inférieur Non C2 C2
Elevé Supérieur Oui C1 C1
Moyen Supérieur Oui C3 C2
Faible Inférieur Oui C1 C3
Nul Inférieur Oui C2 C3
Elevé Supérieur Non C1 C1
Moyen Inférieur Oui C3 C2
39
Pourcentage de Classifcation
Correcte (PCC) (2)
Revenu Propriété Crédit Classes Vraies
non payé prédites classes
Elevé Supérieur Oui C1 C1
Moyen Inférieur Non C2 C2
Elevé Supérieur Oui C1 C1
Moyen Supérieur Oui C3 C2
Faible Inférieur Oui C1 C3
Nul Inférieur Oui C3 C3
Elevé Supérieur Non C1 C1
Moyen Inférieur Oui C2 C2

PCC = 6 = 75%
8
Taux d’erreur = 25%

40
Matrice de confusion

Classifieur
Prédites C1 (4) C2 (2) C3 (2)
Vraies
C1(3) 3 0 0
C2 (3) 0 2 1
C3 (2) 1 0 1
 Bon classifieur: sur les diagonales.

 Identifier les classes mal comprises (apprises).


 Comparer les classifieurs selon la classe.
 Fixer des pénalités.
41
Validation croisée

 Partition de l’ensemble d’apprentissage T en k ensembles


disjoints (T1, T2,…, Tk) de même taille |Ti|.

 Pour chaque i = 1, 2, …, k
1- On fait l’apprentissage sur T – {Ti}

2- On teste sur Ti

3- On calcule le PCC sur Ti

● On fait la moyenne des PCC.


42
Leave one out

 Cette méthode est dérivée de la méthode de validation croisée, en


prenant 𝒌=𝒏, 𝒏 étant le nombre d'exemples.

 A chaque itération, on va donc faire l'apprentissage sur tous les


exemples moins un, et tester sur un seul exemple, afin de vérifier s'il
est prédit correctement.

43
Le bootstrap

 Le bootstrap diffère des techniques précédentes qu’il utilise des


tirages avec remise pour l’ensemble des exemples: on tire
aléatoirement un exemple, pour le placer dans un ensemble appelé
boostrap, le procédé est répété n fois.

 Le bootstrap est très souvent utilisé dans le cadre de jeux de


données contenant peu d'exemples.

44
Matrice de confusion
Classifieur
Prédites Oui Non
Vraies
Oui VP FN
Non FP VN
VP (Vrai Positif) = Nombre d’individus prédits positifs par le test et qui le sont effectivement.

FP (Faux Positif) = Nombre d’individus prédits positifs par le test mais qui sont en réalité négatifs.

VN (Vrai Négatif) = Nombre d’individus prédits négatifs par le test et qui le sont effectivement.

FN (Faux Négatif) = nombre d’individus prédits négatifs par le test mais qui sont en réalité positifs.

TP = VP, TN = VN
45
Rappel / Précision
Classifieur
Prédites Oui Non
Vraies PCC (Accuracy) =
VP + VN
Oui VP FN VP + FN + FN + VN

Non FP VN
 Parmi toutes les étiquettes positives possibles, combien d'entre elles
le modèle a-t-il correctement identifiées.
VP
Rappel (Recall) =
VP + FN
 Quelle est la fréquence à laquelle le modèle prédit correctement la
classe positive.
VP
Précision (Precision) =
VP + FP 46
F-mesure (F-measure)

 Moyenne harmonique entre la précision et le rappel

2*Précision *Rappel 2VP


F-measure = =
Précision + Rappel 2VP + FP + FN

 Si Précission = Rappel alors F-mesure = Précision = Rappel

47
Sensibilité / spécificité

 Taux de vrais positifs : proportion d'individus positifs effectivement


bien détectés par le test.
VP
Sensibilité (Sensibility) =
VP + FN

 Taux de vrais négatifs : proportion d'individus négatifs effectivement


bien détectés par le test.

VN
Spécificité (Specificity) =
VN + FP

48
Courbe ROC (1)
- Receiver Operating Charateristic -
 Courbe ROC est une représentation graphique de la relation
existante entre la sensibilité et la spécificité d’un test pour chaque
valeur seuil considérée.

 L’ordonnée représente la sensibilité et l’abscisse correspond à la


quantité (1 - spécificité). Cette représentation fait varier le seuil de la
probabilité qu’un exemple soit dans la classe positive.

49
Courbe ROC (2)
- Receiver Operating Charateristic -
 Principe de la courbe ROC :
Soit xi positif, si p(y = 1|xi) > seuil , sinon il est négatif (y = 0).

=1 p(y = 1|xi) > seuil


 Si on prend seuil = 0,5, alors on aura une matrice de confusion, et
donc on peut calculer la sensibilité et (1 – spécificité).

 Si on choisit un autre seuil (par exemple 0,6), on aura une autre


matrice de confusion, et par conséquent de nouvelles valeurs de
sensibilité et de (1 – spécificité).

L’idée de la courbe ROC est de faire varier les seuils pour obtenir
à chaque seuil, la sensibilité et (1 – spécificité).

50
Autre critère : Intelligibilité

 Améliorer la compréhension des résultats d’apprentissage.

Permettre au modèle de fournir une connaissance claire et


compréhensible, au sens interprétable.

51
A suivre…

 Une technique de classification en apprentissage supervisé.

Arbres de décision

52

Vous aimerez peut-être aussi