Prétraitement pour Naïve Bayes Spam

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

67 vues3 pages

Prétraitement pour Naïve Bayes Spam

Transféré par

youedtv

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

TP2 : Naïve Bayes Classifier

Objectifs :

• Comprendre l'application pratique du Naïve Bayes.

• Implémenter un classificateur pour différencier les e-mails normaux des spams.

Prérequis :

• google colab
• Pandas ,Dataframe, Matplotlib, Seaborn, Sickit-learn

Données :

• Nous allons utiliser le dataset "SMS Spam Collection Dataset"

• Chaque message est étiqueté comme "ham" (non-spam) ou "spam".

Étapes du TP :

Étape 1 : Charger le dataset

- Importer les packages nécessaires :

import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from [Link] import accuracy_score, classification_report, confusion_matrix
import seaborn as sns
import [Link] as plt

- Le dataset doit être un fichier CSV avec deux colonnes : "label" (ham/spam) et "message"
(contenu de l'e-mail ou du SMS) :

df = pd.read_csv('/content/[Link]', encoding='ISO-8859-1', usecols=[0, 1], names=['label', 'message'],

header=0)
[Link]()

Étape 2 : Prétraitement des données

-vérifier si il ya des valeur manquantes :

print([Link]().sum())
- Convertir les labels "ham" et "spam" en valeurs numériques :

df['label'] = df['label'].map({'ham': 0, 'spam': 1})

- Afficher la répartition des classes :

print("\nRépartition des classes :")

print(df['label'].value_counts())
[Link](data=df, x='label', palette='viridis')
[Link]("Distribution des classes (ham vs spam)")
[Link]()

Étape 3 : Séparer les données en ensembles d'entraînement et de test

X = df['message']
y = df['label']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
random_state=42)

Étape 4 : Vectorisation des messages

# On utilise Bag of Words (CountVectorizer) ou TF-IDF

vectorizer = CountVectorizer(stop_words='english')
# Pour utiliser TF-IDF, remplacez CountVectorizer par TfidfVectorizer :
# vectorizer = TfidfVectorizer(stop_words='english')
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = [Link](X_test)

Étape 5 : Entraîner le modèle Naïve Bayes

model = MultinomialNB()
[Link](X_train_vec, y_train)

Étape 6 : Prédictions

y_pred = [Link](X_test_vec)

Étape 7 : Évaluation du modèle

-accuracy et classification_report :

print("\nÉvaluation du modèle :")

print(f"Accuracy : {accuracy_score(y_test, y_pred):.2f}")
print("\nClassification Report :")
print(classification_report(y_test, y_pred))
-Matrice de confusion

conf_matrix = confusion_matrix(y_test, y_pred)

conf_matrix_percentage = conf_matrix / conf_matrix.sum(axis=1)[:,
[Link]] * 100
[Link](conf_matrix_percentage, annot=True, fmt=".2f", cmap="Blues",
xticklabels=['Ham', 'Spam'], yticklabels=['Ham', 'Spam'])
[Link]("Matrice de confusion en pourcentage")
[Link]("Prédictions")
[Link]("Vérités")
[Link]()

Vous aimerez peut-être aussi

TP Machine Learning : KNN et Naïve Bayes
Pas encore d'évaluation
TP Machine Learning : KNN et Naïve Bayes
12 pages
SVM pour la classification d'Iris
Pas encore d'évaluation
SVM pour la classification d'Iris
4 pages
Introduction aux SVM et validation croisée
Pas encore d'évaluation
Introduction aux SVM et validation croisée
7 pages
Classification du cancer du sein par SVM
Pas encore d'évaluation
Classification du cancer du sein par SVM
6 pages
Prétraitement des données en Datamining
Pas encore d'évaluation
Prétraitement des données en Datamining
2 pages
Prédiction de Survie Titanic avec ML
Pas encore d'évaluation
Prédiction de Survie Titanic avec ML
3 pages
Visualisation des données en AED
Pas encore d'évaluation
Visualisation des données en AED
53 pages
Prétraitement des Données en ML
Pas encore d'évaluation
Prétraitement des Données en ML
19 pages
TP SVM : Classification et Noyaux
Pas encore d'évaluation
TP SVM : Classification et Noyaux
7 pages
Analyse Prédictive et Fouille de Données
Pas encore d'évaluation
Analyse Prédictive et Fouille de Données
46 pages
Préparation des données en statistiques
100% (1)
Préparation des données en statistiques
2 pages
Optimisation de la Régression Linéaire avec Python
Pas encore d'évaluation
Optimisation de la Régression Linéaire avec Python
36 pages
Préparation des données en Machine Learning
Pas encore d'évaluation
Préparation des données en Machine Learning
5 pages
Techniques de Data Mining et CAH
Pas encore d'évaluation
Techniques de Data Mining et CAH
18 pages
Clustering K-Means avec Python et Iris
Pas encore d'évaluation
Clustering K-Means avec Python et Iris
4 pages
Support de TP 1 V1
Pas encore d'évaluation
Support de TP 1 V1
6 pages
Métriques de Régression en Data Science
Pas encore d'évaluation
Métriques de Régression en Data Science
27 pages
Classification CAH des régions suspectes
Pas encore d'évaluation
Classification CAH des régions suspectes
4 pages
Cours d'Intelligence Artificielle 2025
Pas encore d'évaluation
Cours d'Intelligence Artificielle 2025
56 pages
Évaluation et optimisation des modèles ML
Pas encore d'évaluation
Évaluation et optimisation des modèles ML
39 pages
Devoir 4 : Réseaux de neurones et SVM
Pas encore d'évaluation
Devoir 4 : Réseaux de neurones et SVM
3 pages
Régression Logistique : Prédiction de Réussite Étudiante
Pas encore d'évaluation
Régression Logistique : Prédiction de Réussite Étudiante
5 pages
TP2 Prétraitement Des Données Ipynb - Colab
Pas encore d'évaluation
TP2 Prétraitement Des Données Ipynb - Colab
10 pages
K-Moyennes et Méthode du Coude
Pas encore d'évaluation
K-Moyennes et Méthode du Coude
13 pages
TP sur les Machines à Vecteurs de Support
Pas encore d'évaluation
TP sur les Machines à Vecteurs de Support
8 pages
Prétraitement des données pour ML
Pas encore d'évaluation
Prétraitement des données pour ML
4 pages
Introduction au Data Mining et Techniques
Pas encore d'évaluation
Introduction au Data Mining et Techniques
4 pages
CNN avec TensorFlow sur CIFAR10
Pas encore d'évaluation
CNN avec TensorFlow sur CIFAR10
11 pages
Introduction à Weka et prétraitement
Pas encore d'évaluation
Introduction à Weka et prétraitement
8 pages
Apprentissage par Ensemble en ML
Pas encore d'évaluation
Apprentissage par Ensemble en ML
26 pages
Introduction à SVM en Python
Pas encore d'évaluation
Introduction à SVM en Python
3 pages
Introduction à l'IA : Concepts et Outils
Pas encore d'évaluation
Introduction à l'IA : Concepts et Outils
17 pages
TP Régression Linéaire avec Python 2024
Pas encore d'évaluation
TP Régression Linéaire avec Python 2024
8 pages
Exercices Corrigés de Régression Logistique
Pas encore d'évaluation
Exercices Corrigés de Régression Logistique
38 pages
EDA et Prétraitement des Données
Pas encore d'évaluation
EDA et Prétraitement des Données
4 pages
Régression Logistique : Classification Binaire
Pas encore d'évaluation
Régression Logistique : Classification Binaire
4 pages
Comprendre les réseaux neuronaux
Pas encore d'évaluation
Comprendre les réseaux neuronaux
57 pages
Régression Linéaire avec Scikit-learn
Pas encore d'évaluation
Régression Linéaire avec Scikit-learn
2 pages
EDA et Prétraitement des Données
Pas encore d'évaluation
EDA et Prétraitement des Données
3 pages
Clustering Hiérarchique et Dendrogrammes
Pas encore d'évaluation
Clustering Hiérarchique et Dendrogrammes
62 pages
KNN : Classification et Régression IA
Pas encore d'évaluation
KNN : Classification et Régression IA
7 pages
Introduction au Machine Learning : Classificateurs Linéaires
Pas encore d'évaluation
Introduction au Machine Learning : Classificateurs Linéaires
9 pages
Partitionnement en Machine Learning
Pas encore d'évaluation
Partitionnement en Machine Learning
43 pages
TP-K-Means Clustering: Exemple de Resultat Trouve Pour K 2
Pas encore d'évaluation
TP-K-Means Clustering: Exemple de Resultat Trouve Pour K 2
1 page
Qualité des données en ingénierie des données
Pas encore d'évaluation
Qualité des données en ingénierie des données
22 pages
Prétraitement des données en Python
Pas encore d'évaluation
Prétraitement des données en Python
10 pages
Algorithmes d'Apprentissage : KNN, Naive Bayes, ID3
Pas encore d'évaluation
Algorithmes d'Apprentissage : KNN, Naive Bayes, ID3
4 pages
K-means : Apprentissage non supervisé
Pas encore d'évaluation
K-means : Apprentissage non supervisé
7 pages
Classification d'images avec CNN en Python
Pas encore d'évaluation
Classification d'images avec CNN en Python
7 pages
Projets d'IA par Hiba Chougrad
Pas encore d'évaluation
Projets d'IA par Hiba Chougrad
2 pages
Introduction à la Fouille de Données
Pas encore d'évaluation
Introduction à la Fouille de Données
16 pages
Encodage des variables catégorielles
Pas encore d'évaluation
Encodage des variables catégorielles
22 pages
Introduction à Scikit-learn pour ML
Pas encore d'évaluation
Introduction à Scikit-learn pour ML
2 pages
Cours avancé en fouille de données
Pas encore d'évaluation
Cours avancé en fouille de données
96 pages
Algorithmes de Régression en Machine Learning
Pas encore d'évaluation
Algorithmes de Régression en Machine Learning
5 pages
TP Power BI : Visualisation de données
Pas encore d'évaluation
TP Power BI : Visualisation de données
4 pages
Détection D'e-Mails de Phishing: Projet de Classification Supervisée TF-IDF + Naïve Bayes, Régression Logistique, SVM
Pas encore d'évaluation
Détection D'e-Mails de Phishing: Projet de Classification Supervisée TF-IDF + Naïve Bayes, Régression Logistique, SVM
17 pages
Détection de SMS : Spam vs Ham
Pas encore d'évaluation
Détection de SMS : Spam vs Ham
17 pages
Filtrage du Spam par Apprentissage Automatique
Pas encore d'évaluation
Filtrage du Spam par Apprentissage Automatique
16 pages
Présentation ML
Pas encore d'évaluation
Présentation ML
18 pages
Comprendre l'algorithme TikTok
100% (1)
Comprendre l'algorithme TikTok
16 pages
QCM Divers Thématiques TMI
Pas encore d'évaluation
QCM Divers Thématiques TMI
16 pages
Amélioration de la performance qualité
Pas encore d'évaluation
Amélioration de la performance qualité
2 pages
Commande Sort en Linux : Guide Complet
100% (2)
Commande Sort en Linux : Guide Complet
2 pages
Performances de l'ADSL et alternatives
Pas encore d'évaluation
Performances de l'ADSL et alternatives
2 pages
Configuration d'un bac à sable informatique
Pas encore d'évaluation
Configuration d'un bac à sable informatique
1 page
Meilleur addon Douglas DC3 pour FSX
Pas encore d'évaluation
Meilleur addon Douglas DC3 pour FSX
3 pages
Modélisation d'un Data Warehouse pour Fantastic
Pas encore d'évaluation
Modélisation d'un Data Warehouse pour Fantastic
7 pages
Usages des réseaux sociaux à Dakar
Pas encore d'évaluation
Usages des réseaux sociaux à Dakar
169 pages
Système Indim@j : Gestion des Dépenses
100% (1)
Système Indim@j : Gestion des Dépenses
21 pages
Épreuve de Mathématiques Générales
Pas encore d'évaluation
Épreuve de Mathématiques Générales
2 pages
Master MPIAG 2023-2024 : Cours et Professeurs
Pas encore d'évaluation
Master MPIAG 2023-2024 : Cours et Professeurs
1 page
Révision Excel et Word pour TP4
100% (1)
Révision Excel et Word pour TP4
19 pages
CP-Event Pharma VF
Pas encore d'évaluation
CP-Event Pharma VF
3 pages
Installation de l'interface EXT3 FERMATOR
Pas encore d'évaluation
Installation de l'interface EXT3 FERMATOR
7 pages
KPG-129D: Installation Manual Guide D'Installation Manual de Instalación
Pas encore d'évaluation
KPG-129D: Installation Manual Guide D'Installation Manual de Instalación
1 page
Identification Fiscale de Jésus Émanuel Garcia
Pas encore d'évaluation
Identification Fiscale de Jésus Émanuel Garcia
2 pages
Requêtes SQL pour données inférieures à 10
Pas encore d'évaluation
Requêtes SQL pour données inférieures à 10
13 pages
Voici Un Modèle de Devis Détaillé Pour L
Pas encore d'évaluation
Voici Un Modèle de Devis Détaillé Pour L
2 pages
Introduction à l'algorithmique Python
Pas encore d'évaluation
Introduction à l'algorithmique Python
187 pages
Mise à jour de la clé TMK GAB
Pas encore d'évaluation
Mise à jour de la clé TMK GAB
8 pages
TP sur Échantillonnage et FFT
Pas encore d'évaluation
TP sur Échantillonnage et FFT
7 pages
Équipement optimal pour BAC PRO Travaux publics
Pas encore d'évaluation
Équipement optimal pour BAC PRO Travaux publics
1 page
Exercice corrigé sur TCP/IP
Pas encore d'évaluation
Exercice corrigé sur TCP/IP
7 pages
Fonctionnement de l'imprimante jet d'encre
Pas encore d'évaluation
Fonctionnement de l'imprimante jet d'encre
3 pages
Cahier d'exercices Défi 2 corrigés
0% (1)
Cahier d'exercices Défi 2 corrigés
2 pages
Modélisation scientifique assistée par ordinateur
Pas encore d'évaluation
Modélisation scientifique assistée par ordinateur
23 pages
Apprendre le Français : Cours Élémentaire
Pas encore d'évaluation
Apprendre le Français : Cours Élémentaire
14 pages
Cahier des charges en robotique 3ème
Pas encore d'évaluation
Cahier des charges en robotique 3ème
2 pages
Gestion des utilisateurs et fichiers Linux
Pas encore d'évaluation
Gestion des utilisateurs et fichiers Linux
7 pages