Introduction et généralités sur le
DATAMINING
Par N. TSOPZE
• Constat :
• De plus en plus de données
• L’accroissement des expertises et de la technicité :
• … font perdre l’approche globale
• … obligent à stocker de plus en plus de données pour les besoins
opérationnels de la gestion quotidienne
• Mais : « trop de données tue la donnée »
• De moins en moins de connaissance de nos clients
• Explosion du nombre de rapports et tableaux de bord
• Mais : perte du contact avec le client
• Il faut réussir à tirer partie de cette complexité
Question??
«La nécessité est la mère de l’invention» Platon.
Analyser le passé pour prédire l’avenir
Demain commence aujourd’hui!!
• « riche en données et pauvre en connaissances »
Motivations pour entreprises
Exemples d'applications concernées
Bancaire : suivi des clients, gestion de portefeuilles
mailing ciblés pour le marketing
Grande distribution : marketing, maintenance, ...
produits à succès, modes, habitudes d’achat
préférences par secteurs géographiques
Télécommunications : pannes, fraudes, mobiles, ...
classification des clients, détection fraudes, fuites de clients, etc.
Médecine, Pharmacie, Bourse, Production, …
Programme
1. Généralités sur le DM
2. Règles d'associations
3. Classification supervisée
4. Classification non supervisée
5. Méthodes de Régression
6. Cas pratique:
1. Problème du churn
2. Problème de recommandation
Outils pour TP
1. logiciel R, gratuit et téléchargeable sur Internet
[Link]
2. Logiciel weka, gratuit et téléchargeable sur
Internet
3. SGBD MySQL, gratuit et téléchargeable sur Internet
4. Logiciel Tanagra, gratuit et téléchargeable sur
Internet
5. Données
Bibliographie
1. Data Mining: Concepts and Techniques, Han, J. & Kamber , Morgan
Kaufmann, 2001.
2. Apprentissage Artificiel, concepts et algorithmes, Antoine Cornuéjols et
Laurent Miclet, Ed. Eyrolles, 2003.
3. Principles of Datamining
Sites web:
1. [Link]
2. [Link]
Cours à regarder:
1. Cours de Stéphane Tuffery
2. Cours de Besse
3. Cours de Rakotomania
Sorte de données
• Bases de données relationnelles : collection de tables basées
sur le modèle EA
• Data warehouse : données unifiées
• Bases de données transactionnelles: collection de
transactions
• Données structurées : spatiales, graphes, textes, web,…
• Bases de données objet-relationnelles: propriétés, méthodes
• Bases de données temporelles, séquences,...
• multimédia
fouille de données – résultats
attendus
• Fouille descriptive:
Résumé des données, cas extrême, Évolution des
données
Motifs fréquents, associations et corrélations
Partition des données
• Fouille prédictive
Classification : caractérisation ou discrimination
Régression : valeur prédite continue
Généralités
• Stockage des données dans différentes BD et
autres supports
• Intégration des données provenant des
diverses sources en Dataware house.
• Observation du dataware house suivant
différents points (« angles ») pour la prise de
décision.
• Exemples: web, application bancaire,
supermarché, restaurant,…
Généralités
Besoins décisionnels
contrôle d’info. analyse ad-hoc, info. découverte de
détaillées et récentes, globalisées, prise de connaissance
rapports standardisés décisions « Data Mining »
« interrogation et « OLAP - EIS»
rapports »
données Data Warehouse fichiers du
opérationnelles logiciel DM
Datawarehouse
Ensemble de données historisées variant dans le
temps, organisé par sujets, consolidé dans une
base de données unique, géré dans un
environnement de stockage particulier, aidant
à la prise de décision dans l’entreprise.
Trois fonctions essentielles :
• collecte de données de bases existantes et
chargement
• gestion des données dans l’entrepôt
• analyse de données pour la prise de décision
Datawarehouse
BD opérationnelle
EIS
BD opérationnelle
fichiers opérationnels DATA WAREHOUSE
outil de
document interne data mining
FICHIERS DU LOGICIEL
DE DATA MINING
document externe
Datawarehouse
Interrogation OLAP
et rapports (EIS) Data Mining
Requête sur des Analyse, détection
données de détail de problèmes et
et peu consolidées opportunités
“Visualisation” “Analyse” “Connaissance et
prévision”
Combien de Quelle est l’évolution Quels clients
mouvements sur 5 ans du nombre clôtureront leur
chaque client a-t-il mensuel de mouve- compte au cours
effectué au cours ments pour chaque des 6 prochains
du dernier mois ? catégorie de clients ? mois ?
Datamining
• Data mining ≠ Statistiques descriptives
• Profils clientèle = profils complexes
• Pas seulement oppositions « jeunes/séniors », «
citadins/ruraux », … (tâtonner sur stats)
• Mais des combinaisons plus complexes (difficiles à
découvrir par hazard)
• Le DM fait passer :
• d’analyses confirmatoires
• …. à des analyses exploratoires
Datamining
• Data mining == Fédération
• Data mining ≠ Statistiques descriptives
• Techniques de DM sont plus complexes que de simples
statistiques descriptives
• outils d’intelligence artificielle (réseaux de neurones, arbres de
décision, …)
• algorithmes sophistiqués (algorithmes génétiques, …)
• théorie de l’information (gain d’information, …)
• beaucoup d’analyse de données « traditionnelle »
• Analyse factorielle
• Classification
• Analyse discriminante
• …
Granularité
Exprimer le degré de finesse de l’analyse
Age
profession
Revenu
adresse
Prise en compte
• Un ensemble de données pertinentes : totalité
des données ou sélection d’une partie
• Le type de connaissance à extraire :
discrimination, caractérisation, association,…
• Les connaissances du domaine : guide la
recherche
• Les mesures d’intérêts et les seuils de ces
mesures
• La représentation des connaissances extraites
Eléments de statistiques
Eléments de statistique
Mesure de description des données
Mesure de la tendance centrale
1. La moyenne : centre de la distribution
2. La médiane
3. Le mode
Mesure de dispersion
1. Le rang
2. Le kième pourcent d’un ensemble de données
3. La variance et l’écart-type
Mesures statistiques
• Tendance centrale
• Moyenne: utilisée pour rechercher le centre
de la distribution, sensible aux cas extrêmes
• Médiane: pratiques pour les données
asymétriques
• Mode:valeur la plus fréquente de la
distribution
Mesures statistiques
• Mesures de dispersion
• Rang : écart entre la valeur max et la valeur
min == rang = max (xi) – min(xi)
• Kieme pourcent: xi tel que k% des données
soient inférieures à xi
• Interquartile: écart entre kieme pourcent et
lieme pourcent
• Variance et écart-type: dispersion par
rapport à la moyenne
Corrélation
Degré de similitude en grandeur et en sens des
variations entre valeurs correspondantes de deux
caractères
•Covariance N
1
Cov( X , Y )
N
(X
i 1
i X )(Yi Y )
•Coefficient de corrélation
Cov( X , Y )
r( X ,Y )
XY
Fonctionnalités du DM
•Concept – discrimination
Concept: description d’une classe de manière
résumée, concise et en termes précis
•Caractérisation des données de la classe
•Discrimination en comparant les
caractéristiques de la classe à celles des autres
Fonctionnalités du DM
•Motifs fréquents – association - corrélation
Motif fréquent: description fréquemment
rencontrée
Association XY, a == a% de transactions qui
vérifient X, vérifient aussi Y
•Deux variables sont fortement corrélées si, on
peut estimer l’une à partir de l’autre
Fonctionnalités du DM
•Classification supervisée – Prédiction
• Recherche d’un modèle qui distingue ou
décrive les classes ou concepts de données
• Capacité à prédire la classe inconnue d’une
donnée
•Classification non supervisée – partitions
• Maximisation de la similarité intraclasse et
minimisation de la similarité interclasse
Fonctionnalités du DM
• Cas extrêmes - outliers
• Comportement éloigné du modèle
•Analyse de l’évolution
• Régularité et tendances des objets qui
changent avec le temps
Etapes de la fouille (CRISP-DM)
Cross-industry standard process for data mining
Etapes de la fouille
• Nettoyage de données (suppression de bruits
et des données inconsistantes)
• Intégration des données (combinaison de
plusieurs sources)
• Sélection des données (pertinentes)
• Transformation des données
Prétraitement
Etapes de la fouille
- Fouille proprement dite (application des
algorithmes de fouille)
- Evaluation (mesurer l’intérêt des
connaissances extraites)
- Représentation des connaissances
(visualisation et représentation)
Etapes du datamining (Han et Kamber,2002)
Prétraitement
• Les données réelles tendent à être
incomplètes, bruitées ou inconsistantes. Le
prétraitement propose des méthodes pour
corriger ces erreurs.
• Opérations:
Nettoyage de données
Intégration des données
Sélection des données
Transformation des données
Nettoyage des données
• But: traiter les données manquantes et
supprimer les bruits.
• Données manquantes: absence de valeur
(donnée) pour un attribut décrivant un objet.
• Bruit: erreur aléatoire introduite dans la
mesure d’une donnée.
Traitement des données
manquantes
• Ignorer l’enregistrement : utilisé quand la
classe de l’enregistrement n’est pas connue et
le pourcentage des données manquantes est
négligeable.
• Ignorer les attributs présentant des valeurs
manquantes
Traitement des données
manquantes
• Manuellement
• Utiliser une constante globale pour remplacer (null
dans SQL)
• Utiliser la moyenne générale
• Utiliser la moyenne de l’attribut en ne considérant
rien que les enregistrements de sa classe.
• Utiliser la valeur la plus fréquente.
• Utiliser un modèle de régression pour estimer la
valeur.
Traitement des données bruitées
• Le voisinage (Binning) : attribuer la valeur
correcte la plus proche. Par exemple
rapprocher à la moyenne, à un centile, à la
médiane, à la borne,…
• La régression : les valeurs suivent une certaine
fonction. Par exemple en régression linéaire,
on projette sur la droite de régression.
• Partitionnement : les valeurs sont dans un
espace, puis on affecte la donnée bruitée à
l’espace la plus proche.
Intégration des données
Intégration : combiner des données de sources
multiples en un ensemble cohérent de données.
Sources : Bases de Données, les fichiers.
Problème : identification de l’entité.
1. comment savoir que deux attributs sont
équivalents?
2. comment savoir que deux valeurs sont
équivalentes?
Solution: utiliser une ontologie, ou faire appel à
l’expert.
Transformation des données
mettre les données dans une forme appropriée
pour la fouille.
• Suppression de bruit
• Agrégation / généralisation : mettre les
données à une granularité supérieure;
remplacer les concepts de bas niveau par les
concepts de niveau supérieur.
Transformation des données
Normalisation : ranger les données dans
l’intervalle -1 à 1 ou 0 à 1. Les techniques
sont :
normalisation min-max(v)=(v-min) / (max-min).
normalisation z-score(v)=(v-moyenne(xi))/écart-
type(xi).
La discrétisation : elle consiste à transformer les
données continues en données discrètes.
Binarisation : passer aux binaires
Réduction du nombre de variables
• Présence de variables superflues
• Coût algorithmique de traitement
Sélection des variables (ou réduction de dimension)
pertinentes.
• Attributs fortement corrélés
• Attributs non pertinents
La réduction des données
• Avoir une représentation des données dans un
espace de dimension réduite sans perte
l’intégrité des données, la taille de données
réduites doit être plus faible que la taille des
données originale
• Permet de visualiser facilement les données.
Types de données
• Nominal ou symbolique ou catégorique
Binaire
Énuméré (nombre ou chaîne de caractères) ou
ordonné
• Continue
Entier
Réel
Chaînes de caractères (nombre de valeurs infini)
Détection des Outliers
•Outliers sont les cas ayant des valeurs très
différentes de la majorité des valeurs de la
distribution;
•Outliers sont importants pcq ils peuvent
changer le résultat de l’analyse;
•Incluire ou excluire les outliers d’une analyse
dépend du but de l’analyse et de la cause de
leurs présences.
Détection des Outliers
1. Outliers univariables sont des cas où la
valeur inhabituelle concerne une simple
variable. variable dépendante dans le
regression simple
2. Outliers Multivariables sont des cas où les
valeurs inhabituelles concernent une
combinaison de variables. La valeur des
variables prises individuellement ne sont pas
des outliers.
Détection des Outliers
•Convertir tous les scores de la
variable à un standard et fixer un seuil
•Applicables aux données numériques
ou ordinales
que faire des valeurs nominales?
Détection des Outliers
•Distance de Mahalanobis D2 = version
multidimensionale du z-score.
• mesure la distance à partir du centroide
(moyenne multidimension), étant donnée la
covariance (Co) de la distribution.
•D2 peut suivre une loi de Khi-2 à n degrés de
liberté;
•Pas applicable aux données nominales.
D 2 ( x) ( x x)T Co 1 ( x x)
Sélection des variables et
extraction des caractéristiques
« the simplest is best » O. Razor
Problèmes
1. Expliquer les données de manière la plus
simple – suppression des redondances .
2. Augmentation des bruits par les variables
incertaines
3. Collinearité causée par plusieurs variables
dans la même tache.
4. Coût du modèle.
Problèmes
Priorité dans la sélection des variables :
1. Identifier les outliers et les points
inconsistants – voir les excluire
temporairement.
2. Transformer par une méthode appropriée les
données.
Problèmes
• Chercher les variables les plus pertinentes
pour expliquer et prédire les valeurs prises par
la variable à prédire.
• réduire le nombre de variables à recueillir
pour le déploiement du système ;
• Améliorer la connaissance du phénomène de
causalité entre les descripteurs et la variable à
prédire
• améliorer la qualité de la prédiction,
Approches
1. Approches hiérarchiques: Utiliser dans le cas
où les attributs peuvent être rangés
hiérarchiquement.
1. Utiliser x2 à la place de x (polynomiale) ou supprimer
les termes x1x2 dans le modèle (avec interaction)
2. Approches par étapes
1. Backward Elimination
2. Forward Selection
3. Mélange des deux (Backward + Forward)
Approches par étapes
Backward Elimination
1. Commencer avec tous les attributs dans le
modèle
2. Supprimer tous les attributs ayant une p-
value supérieure à α
3. Réadapter le modèle et aller à l’étape 2
4. Arrêter si tous les p-values sont inférieures à α
α ≤ 5% (généralement).
Approches par étapes
Forward Elimination
1. Commencer sans aucune variable dans le
modèle.
2. Pour tous les attributs non encore dans le
modèle, sélectionner ceux avec une p-value
faible et les incluire dans le modèle (≤ α) .
3. Répéter l’étape 2 jusqu’à ce qu’il n’y ait plus
ajout d’attributs dans le modèle
α ≤ 5% (généralement).
Bon courage