0% ont trouvé ce document utile (0 vote)

47 vues26 pages

Règles d'Association en Data Mining

Les règles d'association sont une technique de Data Mining utilisée pour identifier des relations entre des attributs dans des bases de données, appliquées dans divers domaines tels que le marketing et le diagnostic médical. L'algorithme Apriori, introduit par Agrawal en 1993, extrait des itemsets fréquents et génère des règles basées sur des seuils de support et de confiance. Une alternative plus efficace, FPgrowth, utilise une structure de données compacte pour éviter le coût de génération de candidats, facilitant ainsi l'extraction des associations fréquentes.

Transféré par

lcflak630

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

47 vues26 pages

Règles d'Association en Data Mining

Transféré par

lcflak630

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

REGLE d’ASSOCIATION

Mme Leila HAMDAD

ESI
• Les règles d’association est une tâche descriptive
du Data Mining.
• Trouver des associations entre attributs
(features) ou items d’objets dans la base de
données.
• S’applique à des données en forme d’une table
individus-variables:
 Les variables continues sont discrétisées .
 les variables catégorielles sont mises sous. forme
disjonctive complète
Domaines d’applications:
- Marketing,
- Diagnostic médical,
- Bioinformatique,……………
En plus détaillé:
 Les Réseaux de télécommunication: filtrage des alarmes
non informatives et l’identification des causes d’anomalies
[Pasquier, 2000a].
 Le Multi-média et internet:
 facilitent l’aide à la navigation dans les systèmes de
gestion d’information,
 la recherche et la sélection des sites intéressants,
 l’aide à l’organisation des sites et ressources par
l’historique des accès des usagers *Pasquier, 2000a+.
• Les règles d’Association ont été introduite par
Agrawal et al en 1993.
• Problème classifié NP-difficile[Jourdan, 2003].
• Plusieurs méthodes abordent dans la
littérature l’extraction des RA en un temps
minimal.
Mesures de qualité des règles
• Le support: indique l’importance statistique
des règles d’ association dans l’ensemble de
données.
• La confiance: indique les règles crédible.

• Les bonnes règles sont celles avec un grand

support et une grande confiance.
Exemple
• Soient les données de toutes les transactions
d’achats d’un magasin sur une période donnée et
I = {i1, i2, …, iN} l’ensemble de tous les articles
vendu dans ce magasin. Pour faire de meilleurs
profits, il serait important de connaitre les
articles qui s’achètent ensembles (qui s’associe),
par exemple : souvent les clients qui achètent
une télévision achètent aussi un magnétoscope.
Une telle information peut être utilisée pour faire
des promotions ou pour localiser ces articles de
manière plus efficace. Elles sont appelées :
« règles d’association ».
• Soient I = {i1, i2, …, iN} un ensemble d’items. Et X
et Y deux sous-ensembles de I.
• Une règle d’association est de la forme :
« X => Y »,avec X∩Y = ᴓ .

• On dit que la règle d’association « X => Y »

possède une confiance c , si c% de toute les
transactions d’achat qui contiennent X
contiennent aussi Y :
On dit que la règle d’association « X => Y » possède
un support s, si s% de toute les transactions d’achat
contiennent à la fois X et Y :
• Lift: mesure l'amélioration apportée par la règle
d'association par rapport à un jeu de transactions
aléatoire (où X et Y seraient indépendants). Il est
défini par:

• Un « lift » supérieur à 1 traduit une corrélation

positive de X et Y → Caractère significatif de
l'association.
Treillis des itemsets
Algorithmes classiques
• Ces algorithmes donnent toutes les règles
dont le support et la confiance sont supérieurs
à des seuils minsup et minconf
respectivement choisis par l’utilisateur.
• Obtenir les K- item frequents à partir des (K-
1)- item frequents.
• Calculer le support de l’ensemble candidat
dans la base de données scannée.
Phase1: Extraction des itemsets
fréquents
• Donner tout les itemsets (ensemble d’items)
ayant un support supérieur ou égal à minsup
après la génération de tout les itemsets
candidats.
• Ils sont appelés itemsets fréquents
• Cette phase est très couteuse en temps
d’exécutions [Agrawal et al.1994].
Phase2: Génération des RA
La génération de Règle d’Association valide à partir
d’itemsets fréquents:
- Les règles sont de la forme:
• «Si prémisse (X) alors conclusion(Y)».
Tel que X∩Y=ᴓ.
X est aussi appelé antécédent de la règle et Y la
conséquences. Se sont deux itemsets fréquents
disjoints.
• Retenir celles dont la confiance est supérieure ou
égale à minconf .
Le premier algorithme appelé Apriori a été introduit
par Agrawal et al en 1993.

Avantages:
-Simple et donne des résultats claire et aucune
hypothèse n’est supposée à priori.

-Inconvénients
-Couteux en Temps d’exécution (Jourdan2003).
- Produit beaucoup de règles redondantes et pas
nécessaires [Blanchard, 2005] [Pasquier, 2000a].
Plus formellement, l’algorithme a priori se déroule
comme suit:

- L’ensemble des 1-itemsets candidats est construit à

partir de tout les items. Cet ensemble est évalué
pour former l’ensemble des 1-itemsets fréquents
(support > minsup).
- A chaque itération k (k démarre à 2), un scanne est
effectué pour construire l’ensemble des k-itemsets
candidats en regroupant deux ensembles de k-1-
itemsets fréquents, et le support est calculé.
- Apriori supprime tous k-itemset non fréquents et
ses sur-ensembles (lorsqu’un itemset vérifie une
condition prédéfinie alors tous ses sous-ensembles
la vérifient aussi) afin d’aboutir à un ensemble
de k-itemsets fréquents.
- La deuxième phase consiste à générer des règles à
partir des itemsets fréquents de la première phase.
Exemple d’exécution de l’algorithme
APRIORI: MINSUP = 3/6 et MINCONF= 0,8.
TID ITEMS

01 A C D

02 B C E

03 A B C E

04 B E

05 A B C E

06 B C E
Itemsets fréquent Règle Confiance Règle prise

{A C} AC 3/3 Oui

CA 3/5 Non

{B C} BC 4/5 Oui

CB 4/5 Oui

{B E} BE 5/5 Oui

EB 5/5 Oui

{C E} CE 4/5 Oui

EC 4/5 Oui

BCE 4/4 Oui

{B C E}
BEC 4/5 Oui

ECB 4/4 Oui

La méthode FPgrowth
- FPgrowth a été proposé en 2000 par Han et al.
- Permet d’éviter le processus coûteux de génération
et de test des candidats, utilisé par Apriori.
- Pour conserver les itemsets fréquents dans la base
de transactions cet algorithme utilise une structure de
données compacte appelé Frequent-Pattern tree.
Avantages:
o Les éléments sont triés: accélère la recherche des
règles d’association.
o Il suffit de suivre les liens inter-noeuds pour
connaître toutes les associations fréquentes.
Principe
1. Construction de la structure FP-tree
 Balayer la base des transactions pour créer la liste
des items fréquents avec leur support
 Trier cette liste en ordre décroissant de support

2. Exploitation récursive du FP-tree

Pour chaque item fréquent :
 Construire les chemins préfixes dans le FP-tree
Fusionner les préfixes identiques et conserver les
sous-chemins de support >= seuil
Générer les ensembles fréquents par combinaison
des nœuds des chemins fréquents
TID Items Items fréquents ordonnés

01 A C D C A

02 B C E B C E

03 A B C E B C E A

04 B E B E

05 A B C E B C E A

06 B C E B C E
Item Somme Compteur Support

B 5 5/6

C 5 5/6

E 5 5/6

A 3 3/6

Vous aimerez peut-être aussi

Le Web Sémantique : Avantages et Inconvénients
Pas encore d'évaluation
Le Web Sémantique : Avantages et Inconvénients
30 pages
Modélisation OLAP et Entrepôts de Données
Pas encore d'évaluation
Modélisation OLAP et Entrepôts de Données
5 pages
Examen sur le Data Mining
Pas encore d'évaluation
Examen sur le Data Mining
3 pages
Systèmes à base de connaissances
Pas encore d'évaluation
Systèmes à base de connaissances
45 pages
Agents Intelligents et Représentation des Connaissances
Pas encore d'évaluation
Agents Intelligents et Représentation des Connaissances
4 pages
Introduction aux Réseaux de Petri
0% (1)
Introduction aux Réseaux de Petri
65 pages
Introduction à RDF et RDFS
100% (1)
Introduction à RDF et RDFS
56 pages
Examen RICM 4 - 13 avril 2016
Pas encore d'évaluation
Examen RICM 4 - 13 avril 2016
4 pages
Algorithmes et Complexité en TD 4
Pas encore d'évaluation
Algorithmes et Complexité en TD 4
12 pages
Introduction au Data Mining et Analyse
Pas encore d'évaluation
Introduction au Data Mining et Analyse
1 page
Modèles ML et Déploiement Pratique
Pas encore d'évaluation
Modèles ML et Déploiement Pratique
90 pages
Les stages : un investissement bénéfique
Pas encore d'évaluation
Les stages : un investissement bénéfique
2 pages
Indexation et recherche d'images
Pas encore d'évaluation
Indexation et recherche d'images
6 pages
Modèles de Recherche d'Information
Pas encore d'évaluation
Modèles de Recherche d'Information
31 pages
Analyse des exigences systèmes de gestion
Pas encore d'évaluation
Analyse des exigences systèmes de gestion
1 page
Modèles de recherche d'information
Pas encore d'évaluation
Modèles de recherche d'information
32 pages
Rôles des agents en e-learning
Pas encore d'évaluation
Rôles des agents en e-learning
11 pages
Processus en Science des Données
Pas encore d'évaluation
Processus en Science des Données
16 pages
TBox et ABox en logique descriptive
Pas encore d'évaluation
TBox et ABox en logique descriptive
59 pages
Projets de TP en Algorithmes et Java
0% (1)
Projets de TP en Algorithmes et Java
15 pages
Création et gestion de meubles en BDA
Pas encore d'évaluation
Création et gestion de meubles en BDA
9 pages
Examen TALN ESI 2022 : Contrôle Final
Pas encore d'évaluation
Examen TALN ESI 2022 : Contrôle Final
5 pages
Contrôle POO : Concepts et Exercices
100% (1)
Contrôle POO : Concepts et Exercices
5 pages
Introduction au RDF-Schema
Pas encore d'évaluation
Introduction au RDF-Schema
31 pages
Examen sur les bases de données objets
Pas encore d'évaluation
Examen sur les bases de données objets
3 pages
Web Semantique - Cours-2
Pas encore d'évaluation
Web Semantique - Cours-2
168 pages
Analyse des Réseaux Sociaux 2021/2022
Pas encore d'évaluation
Analyse des Réseaux Sociaux 2021/2022
2 pages
Exercice K-means en fouille de données
Pas encore d'évaluation
Exercice K-means en fouille de données
2 pages
Réseaux de Capteurs Sans Fil: Guide Technique
Pas encore d'évaluation
Réseaux de Capteurs Sans Fil: Guide Technique
88 pages
Optimisation des Requêtes Distribuées
Pas encore d'évaluation
Optimisation des Requêtes Distribuées
9 pages
Gestion des employés en CORBA
Pas encore d'évaluation
Gestion des employés en CORBA
3 pages
Introduction au Graph Mining
Pas encore d'évaluation
Introduction au Graph Mining
272 pages
Réseaux sémantiques en IA
Pas encore d'évaluation
Réseaux sémantiques en IA
21 pages
Modèles de Programmation Big Data avec Hadoop
Pas encore d'évaluation
Modèles de Programmation Big Data avec Hadoop
1 page
Probabilité de survie des souris
0% (1)
Probabilité de survie des souris
2 pages
Comprendre les Forêts Aléatoires
Pas encore d'évaluation
Comprendre les Forêts Aléatoires
32 pages
Règles d'Association et Itemsets Fréquents
Pas encore d'évaluation
Règles d'Association et Itemsets Fréquents
6 pages
Introduction au parallélisme informatique
Pas encore d'évaluation
Introduction au parallélisme informatique
48 pages
Systèmes de recommandation et diagrammes UML
Pas encore d'évaluation
Systèmes de recommandation et diagrammes UML
23 pages
Diagrammes de séquence pour réservations et inscriptions
Pas encore d'évaluation
Diagrammes de séquence pour réservations et inscriptions
1 page
Définition et fonctionnement des systèmes experts
Pas encore d'évaluation
Définition et fonctionnement des systèmes experts
13 pages
Algorithmes de recherche en IA : TD 3
Pas encore d'évaluation
Algorithmes de recherche en IA : TD 3
2 pages
Règles d'Association en Data Mining
Pas encore d'évaluation
Règles d'Association en Data Mining
76 pages
Rapport sur l'Ontologie Web Sémantique
Pas encore d'évaluation
Rapport sur l'Ontologie Web Sémantique
9 pages
Architectures d'applications réparties et Sockets
Pas encore d'évaluation
Architectures d'applications réparties et Sockets
12 pages
Systèmes Distribués et Middleware
Pas encore d'évaluation
Systèmes Distribués et Middleware
45 pages
Introduction aux B-arbres et exercices
Pas encore d'évaluation
Introduction aux B-arbres et exercices
3 pages
Résolution de problèmes par recherche
Pas encore d'évaluation
Résolution de problèmes par recherche
55 pages
Tri par Tas et Algorithmes Associés
100% (1)
Tri par Tas et Algorithmes Associés
5 pages
Cours d'Apprentissage Automatique PDF
Pas encore d'évaluation
Cours d'Apprentissage Automatique PDF
22 pages
Introduction à la méta-modélisation
Pas encore d'évaluation
Introduction à la méta-modélisation
39 pages
Entraînement des Réseaux Neuronaux
Pas encore d'évaluation
Entraînement des Réseaux Neuronaux
57 pages
Plateforme AMINE et Théorie des GC
100% (2)
Plateforme AMINE et Théorie des GC
134 pages
Correction Devoir SMI4: Algorithmes et Tas
Pas encore d'évaluation
Correction Devoir SMI4: Algorithmes et Tas
17 pages
Extraction de motifs fréquents en datamining
Pas encore d'évaluation
Extraction de motifs fréquents en datamining
43 pages
Règles d'Association et Algorithme Apriori
100% (1)
Règles d'Association et Algorithme Apriori
21 pages
Chapitre 4 AR
Pas encore d'évaluation
Chapitre 4 AR
41 pages
Règles d'association en Data Mining
Pas encore d'évaluation
Règles d'association en Data Mining
42 pages
Définition des règles d'association
Pas encore d'évaluation
Définition des règles d'association
35 pages
Règles d'Association en Data Mining
Pas encore d'évaluation
Règles d'Association en Data Mining
31 pages
Introduction à la Transformée de Laplace
Pas encore d'évaluation
Introduction à la Transformée de Laplace
9 pages
Introduction au Magnétisme et Électromagnétisme
Pas encore d'évaluation
Introduction au Magnétisme et Électromagnétisme
16 pages
Conception de systèmes embarqués : codesign
Pas encore d'évaluation
Conception de systèmes embarqués : codesign
20 pages
Modèles de codesign en informatique
Pas encore d'évaluation
Modèles de codesign en informatique
32 pages
Cosynthèse d'interfaces en informatique
Pas encore d'évaluation
Cosynthèse d'interfaces en informatique
27 pages
Conception et Évolution des Circuits Intégrés
Pas encore d'évaluation
Conception et Évolution des Circuits Intégrés
59 pages
Régression Linéaire en Psychologie
Pas encore d'évaluation
Régression Linéaire en Psychologie
21 pages
Examen Bureautique et Web 2017
Pas encore d'évaluation
Examen Bureautique et Web 2017
2 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
28 pages
Examen Bureautique et Web 2019
Pas encore d'évaluation
Examen Bureautique et Web 2019
2 pages
Introduction aux forêts aléatoires
Pas encore d'évaluation
Introduction aux forêts aléatoires
6 pages
Introduction aux Réseaux de Neurones
Pas encore d'évaluation
Introduction aux Réseaux de Neurones
9 pages
Introduction aux SVM en Machine Learning
Pas encore d'évaluation
Introduction aux SVM en Machine Learning
15 pages
Examen Bureautique et Web 2023
Pas encore d'évaluation
Examen Bureautique et Web 2023
5 pages
Automatisation des Emails et Publipostage
Pas encore d'évaluation
Automatisation des Emails et Publipostage
2 pages
Analyse Discriminante en Machine Learning
Pas encore d'évaluation
Analyse Discriminante en Machine Learning
10 pages
Cours d'Analyse de Données par Hamdad
Pas encore d'évaluation
Cours d'Analyse de Données par Hamdad
15 pages
TVA sur immobilisations et calculs
Pas encore d'évaluation
TVA sur immobilisations et calculs
5 pages
Réductions commerciales et comptabilité
Pas encore d'évaluation
Réductions commerciales et comptabilité
3 pages
Publipostage avec Word et Excel
Pas encore d'évaluation
Publipostage avec Word et Excel
5 pages
Matrices Définies et Semi-Définies
Pas encore d'évaluation
Matrices Définies et Semi-Définies
8 pages
Applications de Business Intelligence en BI
Pas encore d'évaluation
Applications de Business Intelligence en BI
34 pages
Comptabilité des ventes et achats
Pas encore d'évaluation
Comptabilité des ventes et achats
10 pages
Notions avancées en langage MDX
Pas encore d'évaluation
Notions avancées en langage MDX
35 pages
Modélisation Dimensionnelle en BI
Pas encore d'évaluation
Modélisation Dimensionnelle en BI
38 pages
Introduction à la Business Intelligence
Pas encore d'évaluation
Introduction à la Business Intelligence
43 pages
Gestion Des Déchets Biomédicaux Actualisées
Pas encore d'évaluation
Gestion Des Déchets Biomédicaux Actualisées
42 pages
Méthodes de Prospection Géochimique
100% (5)
Méthodes de Prospection Géochimique
47 pages
Inventaire 2013 de la société ANAS
Pas encore d'évaluation
Inventaire 2013 de la société ANAS
1 page
Gestion des charges du personnel en comptabilité
Pas encore d'évaluation
Gestion des charges du personnel en comptabilité
4 pages
Principes de Réfrigération et Climatisation
100% (1)
Principes de Réfrigération et Climatisation
19 pages
Cadre mathématique en mécanique quantique
Pas encore d'évaluation
Cadre mathématique en mécanique quantique
17 pages
Marketing industriel : Stratégies B to B
Pas encore d'évaluation
Marketing industriel : Stratégies B to B
34 pages
Méthodes d'écriture des demi-équations
Pas encore d'évaluation
Méthodes d'écriture des demi-équations
4 pages
Guide Pratique de la Numérologie
100% (3)
Guide Pratique de la Numérologie
195 pages
Sports: Règles et Histoire des Disciplines
Pas encore d'évaluation
Sports: Règles et Histoire des Disciplines
5 pages
Approche Processus en Formation Qualité
Pas encore d'évaluation
Approche Processus en Formation Qualité
8 pages
Transition énergétique : enjeux et solutions
Pas encore d'évaluation
Transition énergétique : enjeux et solutions
3 pages
Diagnostic du syndrome mononucléosique
Pas encore d'évaluation
Diagnostic du syndrome mononucléosique
1 page
Lingettes pour Sèche-Linge : Guide d'Achat
Pas encore d'évaluation
Lingettes pour Sèche-Linge : Guide d'Achat
1 page
Projet Pédagogique Individualisé 2024-2025
Pas encore d'évaluation
Projet Pédagogique Individualisé 2024-2025
4 pages
Technicien de Maintenance en Énergie
Pas encore d'évaluation
Technicien de Maintenance en Énergie
2 pages
Devis et Garantie Boulanger
100% (1)
Devis et Garantie Boulanger
2 pages
Manuels de cours IUA 2020-2021
Pas encore d'évaluation
Manuels de cours IUA 2020-2021
379 pages
Diagnostic défauts Peugeot 308 T9
Pas encore d'évaluation
Diagnostic défauts Peugeot 308 T9
4 pages
Examen Hématologie TMS-AM 1
100% (1)
Examen Hématologie TMS-AM 1
5 pages
Stratégie Efficace pour Facebook Ads
Pas encore d'évaluation
Stratégie Efficace pour Facebook Ads
8 pages
Ffta Enseigner Le Tir A L Arc N 6
Pas encore d'évaluation
Ffta Enseigner Le Tir A L Arc N 6
6 pages
Évaluation psychologique de Davi, 8 ans
Pas encore d'évaluation
Évaluation psychologique de Davi, 8 ans
4 pages
Résultats d'hémogramme et bilans sanguins
Pas encore d'évaluation
Résultats d'hémogramme et bilans sanguins
2 pages
Amplificateur JFET canal P différentiel
Pas encore d'évaluation
Amplificateur JFET canal P différentiel
4 pages
Comprendre la méningite cérébro-spinale
Pas encore d'évaluation
Comprendre la méningite cérébro-spinale
9 pages
Analyse des Journaux Français en FLE
Pas encore d'évaluation
Analyse des Journaux Français en FLE
6 pages
Problèmes de transport à Oran
Pas encore d'évaluation
Problèmes de transport à Oran
15 pages
Exercices d'Analyse Numérique ENPEI
Pas encore d'évaluation
Exercices d'Analyse Numérique ENPEI
47 pages
Examen Systèmes d'exploitation TD
Pas encore d'évaluation
Examen Systèmes d'exploitation TD
2 pages