0% ont trouvé ce document utile (0 vote)

46 vues115 pages

Cours de Data Mining 2024-2025

Le cours de data mining vise à enseigner les concepts clés et les techniques de machine learning pour extraire des informations exploitables à partir de grandes quantités de données. Il couvre les étapes d'un projet de data mining, les différences entre Business Intelligence et KDD, ainsi que l'utilisation des langages de programmation Python et R. Les étudiants apprendront à appliquer des algorithmes, interpréter les résultats et optimiser les modèles pour la prise de décision dans divers domaines professionnels.

Transféré par

omayma

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

46 vues115 pages

Cours de Data Mining 2024-2025

Transféré par

omayma

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Le data mining

Patie1

Pr Aicha MAJDA
MIAGE
2024-2025
Pré-requis
 Statistiques de base
 Programmation (Python/R)
 Introduction aux bases de données
Objectifs du cours
 Comprendre les concepts clés du data mining et les relier aux
techniques de machine learning.
 Appliquer des algorithmes de machine learning pour extraire des
patterns cachés dans les données.
 Maîtriser les outils et bibliothèques populaires pour implémenter des
modèles de data mining.
 Interpréter les résultats des modèles pour la prise de décision dans des
contextes professionnels (finance, marketing, etc.).
 Utiliser des techniques de validation croisée et d'évaluation pour
optimiser les modèles prédictifs.
13/11/2024
Contenu du cours
Partie 1
1. Différences et similitudes entre Data Mining, BI et KDD
2. Définition
3. Etapes d’un projet Data Mining
4. Le langage de Programmation ( Python vs R)

Biblio
1. Livre : "Data Mining: Concepts and Techniques" par Jiawei Han,
Micheline Kamber, et Jian Pei.
2. Tutoriels en ligne sur Python et Scikit-learn (par exemple, sur Kaggle ou
Coursera).
13/11/2024
C’est quoi le Data Mining?

 Le Data Mining désigne le processus d’analyse exploratoire des données

massives et du Big Data, afin d’identifier des relations entre les data et de les
transformer en informations exploitables.
 Ce dispositif peut rentrer dans le cadre de la Business Intelligence et a pour
but d’aider les entreprises à résoudre des problèmes, à atténuer des risques et
à identifier et saisir de nouvelles opportunités business.
 En français, ce processus porte différents noms :
• Exploration de données
• Fouille de données
• Forage de données
• Ou encore extraction de connaissances à partir de données
 Le data mining est un processus indissociable de l’analyse Big Data et de
l’intelligence prédictive. 13/11/2024
C’est quoi le Data Mining?

13/11/2024
C’est quoi le Data Mining DM?

13/11/2024
DM dans le processus de découverte des
connaissances

Data mining est le cœur de la KDD (Knowledge Data Discovery)

13/11/2024
DM dans le processus de la business
intelligence
3. BI vs KDD
3. BI vs KDD

Aspect Business Intelligence (BI) Knowledge Discovery in Databases (KDD)

Ensemble de technologies et d'outils Processus complet d'extraction de

pour la collecte et la visualisation de connaissances cachées dans de grands
Définition
données afin d'aider à la prise de ensembles de données à l'aide de
décision. techniques de data mining.
Objectif principal Fournir une vue d'ensemble des Découvrir des patterns, des modèles
performances actuelles et passées pour cachés et des relations non évidentes dans
des décisions basées sur des faits. de grandes quantités de données.

Approche Descriptive et diagnostique, Exploratoire et prédictive, avec des étapes

principalement rétrospective. Axée sur de data mining pour identifier de nouveaux
l'analyse des données historiques et patterns dans les données. Axée sur la
actuelles. découverte de nouvelles connaissances.
3. BI vs KDD
Aspect Business Intelligence (BI) Knowledge Discovery in Databases (KDD)

Tableaux de bord, indicateurs de Data mining, classification, clustering,

Techniques utilisées performance (KPI), requêtes SQL, outils régression, association, nettoyage et
de visualisation (Power BI, Talend). transformation des données.
Collecte de données, transformation, Processus en plusieurs étapes incluant la
visualisation et génération de rapports sélection, le nettoyage, la transformation,
Méthodologie pour surveiller et évaluer les l'exploration (data mining), et l'interprétation
performances de l'entreprise. des résultats pour découvrir des
connaissances.
Données principalement structurées, Données structurées, semi-structurées et
Type de données provenant de bases de données non structurées ; souvent de grands
relationnelles et de systèmes ERP. ensembles de données (big data).
Rapports, tableaux de bord, métriques Modèles, patterns, et insights cachés qui
Résultat attendu descriptives pour surveiller et fournissent des connaissances nouvelles à
comprendre la performance de partir des données.
l'entreprise.
Pourquoi le datamining en BI
 Le data mining est souvent une composante ou une technique utilisée dans
la Business Intelligence lorsque les entreprises veulent aller au-delà des
analyses descriptives classiques.
 La BI fournit un cadre d’infrastructure où les données sont centralisées,
nettoyées et accessibles à partir de multiples sources (bases de
données, ERP, CRM). Le data mining est l’une des techniques qui peut
être appliquée sur ces données pour découvrir des modèles.
 La BI se concentre généralement sur la visualisation des tendances et
des performances passées
 Le data mining permet d'explorer ces données plus en profondeur pour
découvrir des insights cachés ou des modèles non visibles dans les
simples rapports descriptifs.
 Il permet de répondre à des questions plus complexes comme "Pourquoi
cela s’est-il produit ?" ou "Que pourrait-il se passer à l’avenir ?". 13/11/2024
Pourquoi le datamining en BI
Exemple1 :

Une entreprise de vente au détail utilise des outils BI pour surveiller les
ventes quotidiennes via des tableaux de bord et des rapports. Cela
fournit une vision claire des tendances passées.

Data Mining intégré dans BI : La même entreprise peut utiliser le data

mining pour analyser en profondeur les comportements d'achat des
clients, et identifier des clients susceptibles de faire des achats à l'avenir
ou de quitter l'entreprise (churn analysis).

13/11/2024
Pourquoi le datamining en BI
Exemple2 :
 Une grande banque utilise des outils de Business Intelligence (BI) pour suivre les
transactions quotidiennes de ses clients.
 Les rapports descriptifs fournis par la BI montrent :
 les volumes de transactions
 les soldes des comptes
 les tendances d'utilisation des cartes bancaires.
Avantage : permet à la banque de surveiller les opérations et de comprendre les
habitudes des clients.
Inconvénient : ne suffit pas pour identifier des activités frauduleuses ou détecter des
comportements anormaux, car la BI se limite à des analyses descriptives basées sur les
tendances historiques.
13/11/2024
Pourquoi le datamining en BI
Exemple2 :

En intégrant le data mining, la banque ne se limite plus à décrire les transactions

frauduleuses déjà détectées par l’équipe de sécurité, mais peut anticiper et prévenir
les fraudes avant qu'elles ne surviennent.

La banque peut ainsi :

 Réduire les pertes financières liées aux fraudes.

 Optimiser l'efficacité des équipes de sécurité en leur fournissant des outils
automatisés pour surveiller les transactions en temps réel.
 Améliorer l'expérience client en garantissant la sécurité des transactions sans
retarder les processus de paiement légitimes.

13/11/2024
Pourquoi le datamining en BI

Résumé
L'analyse descriptive via la BI n'est pas suffisante
 elle ne peut qu'observer les faits passés.

Le data mining est essentiel pour identifier des patterns cachées et complexes, prévoir
des insights, et agir en temps réel.
 Cela permet à l'entreprise de prendre des décisions proactives basées sur des
modèles prédictifs et de réagir rapidement aux menaces émergentes.

13/11/2024
Etapes d’un projet data Mining

13/11/2024
Collection (Collection)

 Consiste à rassembler les données nécessaires pour le projet.

 Il peut inclure des données provenant de différentes sources telles que des bases de données,
des fichiers CSV, des API, des capteurs, etc.
 Il est essentiel de s'assurer que les données collectées sont pertinentes pour le problème à
résoudre.

13/11/2024
Exemple de Data
Généralement les données à analyser sont importé d’un data
warehouse sous forme de fichiers plats : csv, xml,…

L’objectif de Data Mining est de créer un processus

automatique qui a comme point de départ les données et 13/11/2024

comme finalité l’aide à la prise de décision.

Compréhension (Understanding)

 Dans cette phase, les données collectées sont explorées et analysées pour en
comprendre la structure, les caractéristiques et la qualité.
 Elle peut impliquer des analyses statistiques descriptives, des visualisations de données, et
une évaluation des données manquantes ou des valeurs aberrantes.
 L'objectif est de bien comprendre le contexte des données et les informations qu'elles
contiennent.

13/11/2024
Préparation (Preparation)

 Cette étape implique le nettoyage et la transformation des données en vue de leur

utilisation dans le modèle.
 Elle peut inclure la normalisation, l'imputation des valeurs manquantes, la conversion des
types de données, l'échantillonnage, et la création de nouvelles variables. L’objectif est
de préparer un ensemble de données propre et structuré pour l’analyse.

13/11/2024
Modélisation (Modelling)

 Dans cette phase, différents algorithmes de Machine Learning ou de statistiques sont

appliqués aux données préparées.
 Le choix de l'algorithme dépend du type de problème à résoudre (classification,
régression, clustering, etc.).
 Les modèles sont ensuite entraînés sur les données d'entraînement, et des techniques de
validation peuvent être utilisées pour évaluer leur performance.

13/11/2024
Évaluation (Evaluation)

 Après la modélisation, il est important d'évaluer la performance du modèle.

 Cela peut inclure des mesures telles que la précision, le rappel, la F-mesure, ou d'autres
métriques pertinentes selon le problème.
 L’évaluation permet de déterminer si le modèle est suffisamment performant pour être
déployé ou s'il nécessite des ajustements.
 Si les résultats ne sont pas satisfaisants, il peut être nécessaire de revenir à des étapes
précédentes pour affiner les données ou le modèle.

13/11/2024
Le langage de Programmation pour le
datamining
 Python et R sont deux des langages de programmation les plus
utilisés pour le data mining et l'analyse de données.
 Chacun a ses propres avantages et inconvénients, et le choix
entre les deux dépend souvent des besoins spécifiques du
projet et des préférences personnelles.

13/11/2024
Python
Avantages
1. Polyvalence :
Python est un langage généraliste, ce qui signifie qu'il peut être utilisé pour une variété d'applications, allant du
développement web à l'analyse de données et à l'apprentissage automatique.
2. Facilité d'apprentissage :
La syntaxe de Python est claire et lisible, ce qui en fait un bon choix pour les débutants.
3. Bibliothèques et outils :
Python dispose d'une vaste collection de bibliothèques pour le data mining, telles que Pandas (pour la
manipulation de données), NumPy (pour les calculs numériques), Matplotlib et Seaborn (pour la visualisation de
données), et Scikit-learn (pour le machine learning).
4. Communauté active :
Python a une communauté très active, avec de nombreux tutoriels, forums, et ressources disponibles pour les
utilisateurs.
5. Intégration :
Il s'intègre facilement avec d'autres langages et technologies, ce qui est utile dans des environnements13/11/2024
de
production.
Python
Inconvenients

1. Statistiques avancées

Python offre des bibliothèques pour l'analyse statistique, mais certaines fonctionnalités
avancées présentes dans R peuvent être plus limitées ou moins accessibles ( Forcast
package en R pour l'analyse et la prévision de séries temporelles)

1. Performance

Python peut être moins performant pour certaines tâches statistiques par rapport à R, bien
que cela soit souvent compensé par la facilité d'intégration avec d'autres outils.

13/11/2024
R
Avantages
1. Statistiques et analyses avancées :
R a été conçu spécifiquement pour l'analyse de données et la statistique, offrant une riche collection
de fonctions pour des analyses complexes.
2. Visualisation :
R est réputé pour ses capacités de visualisation de données, avec des packages comme ggplot2 qui
permettent de créer des graphiques complexes et esthétiques facilement.
3. Packages spécialisés :
R dispose d'une vaste bibliothèque de packages spécialisés pour le data mining, comme caret (pour
le machine learning), dplyr (pour la manipulation de données), et tidyr (pour le nettoyage de
données).
4. Statistiques descriptives :
R est particulièrement performant pour les statistiques descriptives et inférentielles, 13/11/2024
ce qui le
rend idéal pour les analyses exploratoires.
R
Inconvenients

Complexité :
La syntaxe de R peut être moins intuitive pour les débutants, surtout pour ceux qui
n'ont pas de formation en statistiques.

Moins polyvalent :
R est principalement utilisé pour l'analyse de données, et son utilisation en dehors de
ce domaine est moins courante que celle de Python.

Intégration limitée :
R peut être moins intégré dans des environnements de production que Python, ce
qui peut compliquer le déploiement des modèles.
13/11/2024
Installation de Python

 Installer python depuis : [Link]

Installation de Python
• Cocher l’ajout du chemin de python à la variable d’environnement
• Le langage est ainsi installé dans :
C:\Users\ ***\AppData\Local\Programs\Python
Installation de jupyter
 Installer jupyter

1. Dans l’explorateur, ouvrir le dossier des scripts de python suivant :

C:\Users\***\AppData\Local\Programs\Python\Python312\Scripts
2. Taper CMD sur ce chemin pour l’ouvrir dans l’invite de commandes (CMD)
Installer Jupyter avec la commande pip install jupyter
3. Mettre à jour la pip si c’est demandé
4. Créer un dossier pour écrire vos programmes
5. Taper CMD sur le chemin de ce dossier pour l’ouvrir dans l’invite de commandes (CMD)
6. Lancer jupyter notebook

Installation des bibliothèques dans jupyter :

 !pip install pandas
 !pip install matplotlib
Travail à faire
 Aller sur le site de kaggle : [Link]
churn-prediction-learning-ml-models/input
 Télécharger le dataset
 Lire le dataset sur R Studio
 Définir le code qui permet de donner les informations suivantes :
1. Combien de caractéristiques(Attributs)?
2. Combien d’exemples (instances)?
3. Afficher les 5 premières exemples
 Ce dataset est t il étiqueté?
 Faire le même travail avec Python (Optionnel).

13/11/2024
La collecte des données
 La collecte de données est le processus de collecte et de mesure d'informations sur
des variables d'intérêt, qui permet de :
 répondre à des questions de recherche énoncées
 tester des hypothèses
 évaluer les résultats.

13/11/2024
La collecte des données
 La collecte de données est commune à tous les domaines d'études
 les sciences physiques et sociales, les sciences humaines, les affaires, etc.
 Bien que les méthodes varient selon la discipline, l'accent mis sur la garantie d'une
collecte précise et fiable reste le même.

L'objectif de toute collecte de données est de recueillir des preuves

de qualité qui se traduisent ensuite par une analyse de données
riche et permettent de construire une réponse convaincante et
crédible aux questions qui ont été posées.

13/11/2024
Les catégories de données
 Les données sont organisées en deux grandes catégories : qualitatives et quantitatives.

13/11/2024
Les données qualitatives

 Souvent non numériques et généralement de nature descriptive ou

nominale.
 ces données capturent généralement, des sentiments, des émotions
ou des perceptions subjectives de quelque chose.

13/11/2024
Les données qualitatives

 Les données qualitatives descriptives sont des informations non

chiffrées qui permettent de décrire des caractéristiques ou des
observations en profondeur.
 Exemple : Dans une étude sur les préférences des clients pour un
café, les chercheurs recueillent des impressions et des sentiments des
clients.
"Le café est chaleureux et accueillant, avec une décoration
moderne et des sièges confortables. L'ambiance est calme et
propice à la lecture ou au travail "

Ce type de données offre une description qualitative des aspects

perçus de l'environnement du café sans utiliser de chiffres. 13/11/2024
Les données qualitatives

 Les données qualitatives nominales sont des données catégorielles

qui permettent de classer des éléments sans qu'il y ait d'ordre ou
de hiérarchie entre les catégories
 Exemple : Dans une enquête sur les boissons préférées des clients
d'un café, les réponses recueillies sont des catégories sans ordre
particulier.

"Thé, Café, Chocolat chaud, Jus de fruits, Smoothie"

 Chaque boisson représente une catégorie distincte et il n'y a pas de

classement entre elles.
 Ce sont simplement des étiquettes pour indiquer les préférences des clients
13/11/2024
Les données quantitatives

 Sont de nature numérique et peuvent être calculées

mathématiquement.
 La mesure des données quantitatives utilise différentes échelles :
nominale, ordinale, intervalle et rapport
 Ces données incluent souvent des mesures de quelque chose.

13/11/2024
Les données quantitatives

 Les données quantitatives sur une échelle nominale sont

généralement des nombres comme étiquettes pour identifier des
catégories, sans que cela implique un ordre ou un classement.
 Exemple : Dans une enquête sur les sports préférés des étudiants,
chaque sport est associé à un numéro uniquement pour la
catégorisation

1 = Football, 2 = Basketball, 3 = Tennis, 4 = Natation, 5 = Baseball

 les chiffres (1, 2, 3, etc.) servent uniquement d'étiquettes pour

catégoriser les différents sports, mais ils ne signifient pas qu'un sport est
meilleur ou plus élevé en rang qu'un autre. Il s'agit de données
quantitatives nominales, où les nombres servent d'identifiants sans
signification numérique ou ordinale. 13/11/2024
Les données quantitatives

 Les données quantitatives sur une échelle ordinale impliquent un

classement ou un ordre entre les catégories, mais la différence entre les
niveaux n'est pas nécessairement égale ou mesurable.
 Exemple : Dans une enquête de satisfaction des clients pour un
restaurant, les clients notent leur expérience sur une échelle de 1 à 5 :

1 = Très insatisfait, 2 = Insatisfait, 3 = Neutre, 4 = Satisfait, 5 = Très satisfait

 les nombres représentent un ordre (de 1 à 5), indiquant un niveau croissant de

satisfaction. Cependant, la différence entre "Très insatisfait" et "Insatisfait" n'est pas
nécessairement équivalente à celle entre "Satisfait" et "Très satisfait".

13/11/2024
Les données quantitatives

 Les données quantitatives sur une échelle d’intervalles possèdent un

ordre, et la différence entre les valeurs est significative et constante.
Cependant, cette échelle n’a pas de point zéro absolu, donc on ne
peut pas faire de rapport (par exemple, dire qu’une valeur est "deux fois
plus grande" qu’une autre).
 Exemple : La température en degrés Celsius.

15°C, 20°C, 25°C, 30°C

 l'écart entre chaque valeur (5 degrés) est constant et significatif. Cependant,
l’échelle Celsius n'a pas de point zéro absolu (0°C ne signifie pas "absence de
température"), donc il ne serait pas correct de dire que 30°C est "deux fois plus
chaud" que 15°C. 13/11/2024
Les données quantitatives

 Les données quantitatives sur une échelle de rapports possèdent un

ordre, des intervalles constants entre les valeurs et un point zéro absolu,
ce qui permet de faire des comparaisons de proportion (par exemple,
dire qu’une valeur est "deux fois plus grande" qu’une autre).
 Exemple : Le poids des personnes en kilogrammes.

50 kg, 75 kg, 100 kg

 Ici, non seulement l'écart entre les valeurs est constant, mais il existe aussi un point
zéro absolu (0 kg représente l'absence de poids). Cela permet de dire que
quelqu'un pesant 100 kg est deux fois plus lourd qu'une personne pesant 50 kg.

13/11/2024
Types de fichiers de données

Niveau de Modèle de Exemples Facilité de

structuration données traitement
Structuré Système de Base de Facile (indexé)
données données
relationnel d'entreprise
objet/colonne
Semi-structuré XML, JSON, CSV, Web, API Facile (non
… Google, API indexé)
Twitter, ...
Non structuré Texte, image, Web, e-mails, Complexe
vidéo documents,
Images, vidéo..

13/11/2024
Data Understanding
Compréhension des données par l’exemple

13/11/2024
Exemple de fichier de données (csv)
Revenvons au fichier csv sur le site de kaggle :
[Link]
models/input

13/11/2024
Exemple de fichier de données (csv)
Revenons au fichier csv sur le site de kaggle :
[Link]
models/input

13/11/2024
Chargement et lecture des données sur R
 S’assurer du format du fichier (.csv)
 Ouvrir un nouveau fichier .R pour enregistrer le script (ou historique)
 S’assurer que le fichier CSV est dans votre répertoire de travail. On peut
vérifier ou définir le répertoire de travail avec getwd() ou setwd() ou

13/11/2024
Chargement et lecture des données sur R
 Pour lire le fichier, utiliser la fonction
df<-[Link]("nom_du_fichier.csv", header = TRUE, sep = ",")
ou bien :

Le résultat de cette fonction est un dataframe (df)

 Pour afficher l’entête du dataframe utiliser la fonction head(df)
 Afficher le dataframe sous forme d’un tableau avec la fonction View(df)
13/11/2024
Exemple de fichier de données (csv)

13/11/2024
Les métadonnées d’un dataframe

 un DataFrame est une structure de données tabulaire, et les métadonnées correspondent

aux informations qui décrivent ce DataFrame.
 Principales métadonnées d'un DataFrame :
1. Noms des colonnes : Les étiquettes pour chaque variable du DataFrame.
2. Types de données de chaque colonne : Type des données dans chaque colonne (numérique,
caractère, facteur, logique, etc.).
3. Dimensions : Le nombre de lignes et de colonnes du DataFrame.
4. Aperçu des valeurs manquantes : Nombre ou proportion de valeurs manquantes dans chaque
colonne.
5. Résumé statistique : Statistiques descriptives pour chaque colonne numérique (moyenne, écart-
type, minimum, maximum, etc.).
6. Mémoire utilisée : Estimation de la mémoire utilisée pour stocker le DataFrame.

13/11/2024
Les métadonnées d’un dataframe
Fonctions pour accéder aux métadonnées avec R

1. Noms des colonnes :

colnames(df) # Affiche les noms des colonnes
2. Types de données de chaque colonne :
str(df) # Affiche la structure du DataFrame, y compris les types de
données sapply(df, class) # Renvoie un vecteur avec le type de chaque
colonne
3. Dimensions :
dim(df) # Renvoie le nombre de lignes et de colonnes
nrow(df) # Renvoie le nombre de lignes
ncol(df) # Renvoie le nombre de colonnes
13/11/2024
Les métadonnées d’un dataframe

Fonctions pour accéder aux métadonnées avec R

4. Valeurs manquantes :
colSums([Link](df)) # Renvoie le nombre de valeurs manquantes
pour chaque colonne
5. Résumé statistique :
summary(df) # Renvoie un résumé statistique de chaque colonne
6. Mémoire utilisée :
[Link](df) # Calcule la mémoire utilisée par le DataFrame

13/11/2024
Les métadonnées d’un dataframe

Le Résumé statistique : C’est est une étape essentielle dans l'exploration

de données.
Il donne un aperçu rapide des caractéristiques principales de chaque
colonne et permet d'identifier des des anomalies ou des besoins en
nettoyage avant de poursuivre l'analyse :
 Comprendre la distribution des données

13/11/2024
Les métadonnées d’un dataframe

Le Résumé statistique : C’est est une étape essentielle dans l'exploration

de données.
 Détecter les valeurs aberrantes (outliers) (tenure_max=100000)
 Identifier les valeurs manquantes

13/11/2024
Les métadonnées d’un dataframe

Le Résumé statistique : C’est est une étape essentielle dans l'exploration

de données.
Obtenir des insights rapides

 Les valeurs de la colonne « SeniorCitizen » sont des binaires 0 et 1, alors qu'il s'agit en fait
par nature d’une caractéristique nominale. Ainsi, afin de ne pas la considérer
numérique, ces valeurs doivent être remplacées par « No » et « Yes ».
df$SeniorCitizen <- ifelse(df$SeniorCitizen == 0, "No",
ifelse(df$SeniorCitizen == 1, "Yes", df$SeniorCitizen))
df$SeniorCitizen <- [Link](df$SeniorCitizen) 13/11/2024
Les métadonnées d’un dataframe
Après …