0% ont trouvé ce document utile (0 vote)
27 vues55 pages

Introduction au Data Mining et Outils

Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
27 vues55 pages

Introduction au Data Mining et Outils

Copyright
© All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction et généralités sur le

DATAMINING

Par N. TSOPZE
• Constat :
• De plus en plus de données
• L’accroissement des expertises et de la technicité :
• … font perdre l’approche globale
• … obligent à stocker de plus en plus de données pour les besoins
opérationnels de la gestion quotidienne
• Mais : « trop de données tue la donnée »
• De moins en moins de connaissance de nos clients
• Explosion du nombre de rapports et tableaux de bord
• Mais : perte du contact avec le client
• Il faut réussir à tirer partie de cette complexité
Question??

«La nécessité est la mère de l’invention» Platon.

Analyser le passé pour prédire l’avenir


Demain commence aujourd’hui!!
• « riche en données et pauvre en connaissances »
Motivations pour entreprises

Exemples d'applications concernées


Bancaire : suivi des clients, gestion de portefeuilles
mailing ciblés pour le marketing
Grande distribution : marketing, maintenance, ...
produits à succès, modes, habitudes d’achat
préférences par secteurs géographiques
Télécommunications : pannes, fraudes, mobiles, ...
classification des clients, détection fraudes, fuites de clients, etc.
Médecine, Pharmacie, Bourse, Production, …
Programme
1. Généralités sur le DM
2. Règles d'associations
3. Classification supervisée
4. Classification non supervisée
5. Méthodes de Régression
6. Cas pratique:
1. Problème du churn
2. Problème de recommandation
Outils pour TP

1. logiciel R, gratuit et téléchargeable sur Internet 


[Link]
2. Logiciel weka, gratuit et téléchargeable sur
Internet
3. SGBD MySQL, gratuit et téléchargeable sur Internet
4. Logiciel Tanagra, gratuit et téléchargeable sur
Internet
5. Données
Bibliographie
1. Data Mining: Concepts and Techniques, Han, J. & Kamber , Morgan
Kaufmann, 2001.
2. Apprentissage Artificiel, concepts et algorithmes, Antoine Cornuéjols et
Laurent Miclet, Ed. Eyrolles, 2003.
3. Principles of Datamining
Sites web:
1. [Link]
2. [Link]
Cours à regarder:
1. Cours de Stéphane Tuffery
2. Cours de Besse
3. Cours de Rakotomania
Sorte de données
• Bases de données relationnelles : collection de tables basées
sur le modèle EA
• Data warehouse : données unifiées
• Bases de données transactionnelles: collection de
transactions
• Données structurées : spatiales, graphes, textes, web,…
• Bases de données objet-relationnelles: propriétés, méthodes
• Bases de données temporelles, séquences,...
• multimédia
fouille de données – résultats
attendus
• Fouille descriptive:
 Résumé des données, cas extrême, Évolution des
données
 Motifs fréquents, associations et corrélations
 Partition des données

• Fouille prédictive
 Classification : caractérisation ou discrimination
 Régression : valeur prédite continue
Généralités

• Stockage des données dans différentes BD et


autres supports
• Intégration des données provenant des
diverses sources en Dataware house.
• Observation du dataware house suivant
différents points (« angles ») pour la prise de
décision.
• Exemples: web, application bancaire,
supermarché, restaurant,…
Généralités

Besoins décisionnels

contrôle d’info. analyse ad-hoc, info. découverte de


détaillées et récentes, globalisées, prise de connaissance
rapports standardisés décisions « Data Mining »
« interrogation et « OLAP - EIS»
rapports »

données Data Warehouse fichiers du


opérationnelles logiciel DM
Datawarehouse
Ensemble de données historisées variant dans le
temps, organisé par sujets, consolidé dans une
base de données unique, géré dans un
environnement de stockage particulier, aidant
à la prise de décision dans l’entreprise.
Trois fonctions essentielles :
• collecte de données de bases existantes et
chargement
• gestion des données dans l’entrepôt
• analyse de données pour la prise de décision
Datawarehouse

BD opérationnelle

EIS
BD opérationnelle

fichiers opérationnels DATA WAREHOUSE

outil de
document interne data mining

FICHIERS DU LOGICIEL
DE DATA MINING
document externe
Datawarehouse
Interrogation OLAP
et rapports (EIS) Data Mining
Requête sur des Analyse, détection
données de détail de problèmes et
et peu consolidées opportunités

“Visualisation” “Analyse” “Connaissance et


prévision”

Combien de Quelle est l’évolution Quels clients


mouvements sur 5 ans du nombre clôtureront leur
chaque client a-t-il mensuel de mouve- compte au cours
effectué au cours ments pour chaque des 6 prochains
du dernier mois ? catégorie de clients ? mois ?
Datamining

• Data mining ≠ Statistiques descriptives


• Profils clientèle = profils complexes
• Pas seulement oppositions « jeunes/séniors », «
citadins/ruraux », … (tâtonner sur stats)
• Mais des combinaisons plus complexes (difficiles à
découvrir par hazard)

• Le DM fait passer :
• d’analyses confirmatoires
• …. à des analyses exploratoires
Datamining

• Data mining == Fédération


• Data mining ≠ Statistiques descriptives
• Techniques de DM sont plus complexes que de simples
statistiques descriptives

• outils d’intelligence artificielle (réseaux de neurones, arbres de


décision, …)

• algorithmes sophistiqués (algorithmes génétiques, …)

• théorie de l’information (gain d’information, …)

• beaucoup d’analyse de données « traditionnelle »


• Analyse factorielle

• Classification

• Analyse discriminante

• …
Granularité

Exprimer le degré de finesse de l’analyse


Age

profession

Revenu

adresse
Prise en compte

• Un ensemble de données pertinentes : totalité


des données ou sélection d’une partie
• Le type de connaissance à extraire :
discrimination, caractérisation, association,…
• Les connaissances du domaine : guide la
recherche
• Les mesures d’intérêts et les seuils de ces
mesures
• La représentation des connaissances extraites
Eléments de statistiques
Eléments de statistique
Mesure de description des données
 Mesure de la tendance centrale
1. La moyenne : centre de la distribution
2. La médiane
3. Le mode
 Mesure de dispersion
1. Le rang
2. Le kième pourcent d’un ensemble de données
3. La variance et l’écart-type
Mesures statistiques

• Tendance centrale
• Moyenne: utilisée pour rechercher le centre
de la distribution, sensible aux cas extrêmes
• Médiane: pratiques pour les données
asymétriques
• Mode:valeur la plus fréquente de la
distribution
Mesures statistiques

• Mesures de dispersion
• Rang : écart entre la valeur max et la valeur
min == rang = max (xi) – min(xi)
• Kieme pourcent: xi tel que k% des données
soient inférieures à xi
• Interquartile: écart entre kieme pourcent et
lieme pourcent
• Variance et écart-type: dispersion par
rapport à la moyenne
Corrélation
Degré de similitude en grandeur et en sens des
variations entre valeurs correspondantes de deux
caractères
•Covariance N
1
Cov( X , Y ) 
N
(X
i 1
i  X )(Yi  Y )

•Coefficient de corrélation

Cov( X , Y )
r( X ,Y ) 
 XY
Fonctionnalités du DM
•Concept – discrimination
Concept: description d’une classe de manière
résumée, concise et en termes précis
•Caractérisation des données de la classe
•Discrimination en comparant les
caractéristiques de la classe à celles des autres
Fonctionnalités du DM
•Motifs fréquents – association - corrélation
Motif fréquent: description fréquemment
rencontrée
Association XY, a == a% de transactions qui
vérifient X, vérifient aussi Y
•Deux variables sont fortement corrélées si, on
peut estimer l’une à partir de l’autre
Fonctionnalités du DM
•Classification supervisée – Prédiction
• Recherche d’un modèle qui distingue ou
décrive les classes ou concepts de données
• Capacité à prédire la classe inconnue d’une
donnée
•Classification non supervisée – partitions
• Maximisation de la similarité intraclasse et
minimisation de la similarité interclasse
Fonctionnalités du DM
• Cas extrêmes - outliers
• Comportement éloigné du modèle
•Analyse de l’évolution
• Régularité et tendances des objets qui
changent avec le temps
Etapes de la fouille (CRISP-DM)
Cross-industry standard process for data mining
Etapes de la fouille

• Nettoyage de données (suppression de bruits


et des données inconsistantes)
• Intégration des données (combinaison de
plusieurs sources)
• Sélection des données (pertinentes)
• Transformation des données
 Prétraitement
Etapes de la fouille

- Fouille proprement dite (application des


algorithmes de fouille)
- Evaluation (mesurer l’intérêt des
connaissances extraites)
- Représentation des connaissances
(visualisation et représentation)
Etapes du datamining (Han et Kamber,2002)
Prétraitement

• Les données réelles tendent à être


incomplètes, bruitées ou inconsistantes. Le
prétraitement propose des méthodes pour
corriger ces erreurs.
• Opérations:
 Nettoyage de données
 Intégration des données
 Sélection des données
 Transformation des données
Nettoyage des données

• But: traiter les données manquantes et


supprimer les bruits.
• Données manquantes: absence de valeur
(donnée) pour un attribut décrivant un objet.
• Bruit: erreur aléatoire introduite dans la
mesure d’une donnée.
Traitement des données
manquantes
• Ignorer l’enregistrement : utilisé quand la
classe de l’enregistrement n’est pas connue et
le pourcentage des données manquantes est
négligeable.
• Ignorer les attributs présentant des valeurs
manquantes
Traitement des données
manquantes
• Manuellement
• Utiliser une constante globale pour remplacer (null
dans SQL)
• Utiliser la moyenne générale
• Utiliser la moyenne de l’attribut en ne considérant
rien que les enregistrements de sa classe.
• Utiliser la valeur la plus fréquente.
• Utiliser un modèle de régression pour estimer la
valeur.
Traitement des données bruitées
• Le voisinage (Binning) : attribuer la valeur
correcte la plus proche. Par exemple
rapprocher à la moyenne, à un centile, à la
médiane, à la borne,…
• La régression : les valeurs suivent une certaine
fonction. Par exemple en régression linéaire,
on projette sur la droite de régression.
• Partitionnement : les valeurs sont dans un
espace, puis on affecte la donnée bruitée à
l’espace la plus proche.
Intégration des données
Intégration : combiner des données de sources
multiples en un ensemble cohérent de données.
Sources : Bases de Données, les fichiers.
Problème : identification de l’entité.
1. comment savoir que deux attributs sont
équivalents?
2. comment savoir que deux valeurs sont
équivalentes?
Solution: utiliser une ontologie, ou faire appel à
l’expert.
Transformation des données

mettre les données dans une forme appropriée


pour la fouille.
• Suppression de bruit
• Agrégation / généralisation : mettre les
données à une granularité supérieure;
remplacer les concepts de bas niveau par les
concepts de niveau supérieur.
Transformation des données

Normalisation : ranger les données dans


l’intervalle -1 à 1 ou 0 à 1. Les techniques
sont :
 normalisation min-max(v)=(v-min) / (max-min).
 normalisation z-score(v)=(v-moyenne(xi))/écart-
type(xi).

La discrétisation : elle consiste à transformer les


données continues en données discrètes.
Binarisation : passer aux binaires
Réduction du nombre de variables

• Présence de variables superflues


• Coût algorithmique de traitement
Sélection des variables (ou réduction de dimension)
pertinentes.
• Attributs fortement corrélés
• Attributs non pertinents
La réduction des données

• Avoir une représentation des données dans un


espace de dimension réduite sans perte
l’intégrité des données, la taille de données
réduites doit être plus faible que la taille des
données originale
• Permet de visualiser facilement les données.
Types de données

• Nominal ou symbolique ou catégorique


 Binaire
 Énuméré (nombre ou chaîne de caractères) ou
ordonné

• Continue
 Entier
 Réel
 Chaînes de caractères (nombre de valeurs infini)
Détection des Outliers

•Outliers sont les cas ayant des valeurs très


différentes de la majorité des valeurs de la
distribution;
•Outliers sont importants pcq ils peuvent
changer le résultat de l’analyse;
•Incluire ou excluire les outliers d’une analyse
dépend du but de l’analyse et de la cause de
leurs présences.
Détection des Outliers

1. Outliers univariables sont des cas où la


valeur inhabituelle concerne une simple
variable. variable dépendante dans le
regression simple

2. Outliers Multivariables sont des cas où les


valeurs inhabituelles concernent une
combinaison de variables. La valeur des
variables prises individuellement ne sont pas
des outliers.
Détection des Outliers

•Convertir tous les scores de la


variable à un standard et fixer un seuil
•Applicables aux données numériques
ou ordinales
que faire des valeurs nominales?
Détection des Outliers

•Distance de Mahalanobis D2 = version


multidimensionale du z-score.
• mesure la distance à partir du centroide
(moyenne multidimension), étant donnée la
covariance (Co) de la distribution.
•D2 peut suivre une loi de Khi-2 à n degrés de
liberté;
•Pas applicable aux données nominales.

D 2 ( x)  ( x  x)T Co 1 ( x  x)
Sélection des variables et
extraction des caractéristiques
« the simplest is best » O. Razor
Problèmes
1. Expliquer les données de manière la plus
simple – suppression des redondances .
2. Augmentation des bruits par les variables
incertaines
3. Collinearité causée par plusieurs variables
dans la même tache.
4. Coût du modèle.
Problèmes
Priorité dans la sélection des variables :
1. Identifier les outliers et les points
inconsistants – voir les excluire
temporairement.
2. Transformer par une méthode appropriée les
données.
Problèmes
• Chercher les variables les plus pertinentes
pour expliquer et prédire les valeurs prises par
la variable à prédire.
• réduire le nombre de variables à recueillir
pour le déploiement du système ;
• Améliorer la connaissance du phénomène de
causalité entre les descripteurs et la variable à
prédire
• améliorer la qualité de la prédiction,
Approches
1. Approches hiérarchiques: Utiliser dans le cas
où les attributs peuvent être rangés
hiérarchiquement.
1. Utiliser x2 à la place de x (polynomiale) ou supprimer
les termes x1x2 dans le modèle (avec interaction)
2. Approches par étapes
1. Backward Elimination
2. Forward Selection
3. Mélange des deux (Backward + Forward)
Approches par étapes
Backward Elimination
1. Commencer avec tous les attributs dans le
modèle
2. Supprimer tous les attributs ayant une p-
value supérieure à α
3. Réadapter le modèle et aller à l’étape 2
4. Arrêter si tous les p-values sont inférieures à α
α ≤ 5% (généralement).
Approches par étapes
Forward Elimination
1. Commencer sans aucune variable dans le
modèle.
2. Pour tous les attributs non encore dans le
modèle, sélectionner ceux avec une p-value
faible et les incluire dans le modèle (≤ α) .
3. Répéter l’étape 2 jusqu’à ce qu’il n’y ait plus
ajout d’attributs dans le modèle
α ≤ 5% (généralement).
Bon courage

Vous aimerez peut-être aussi