0% found this document useful (0 votes)

8 views49 pages

Data Mining: Concepts and Techniques

The document provides an overview of data mining, detailing its definition, processes, techniques, and applications. It covers the data mining process, including data cleaning, integration, transformation, and various mining techniques such as classification and clustering. Additionally, it discusses the importance of data preprocessing, evaluation metrics for regression models, and the UCI Machine Learning Repository as a resource for datasets.

Uploaded by

arulmozhivarman153

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

8 views49 pages

Data Mining: Concepts and Techniques

Uploaded by

arulmozhivarman153

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

Data Mining –

Concepts,
Techniques &
Applications
UNIT 1
Introduction to Data
Mining
• Definition: Process of discovering patterns,
correlations, and knowledge from large datasets.
• Core step of Knowledge Discovery in Databases
(KDD).
• Integrates statistics, machine learning, and
database systems.
Roots of Data Mining
• Statistics – data analysis, hypothesis testing.
• Machine Learning & AI – pattern recognition,
classification.
• Database Systems – efficient storage & retrieval.
• Information Retrieval – searching & indexing.
The Data Mining
Process
Steps in Knowledge Discovery in Databases (KDD):
1. Data Cleaning
2. Data Integration
3. Data Selection
4. Data Transformation
5. Data Mining
6. Pattern Evaluation
7. Knowledge Presentation
Large Datasets & Data
Warehousing
• Large Datasets: High volume, variety, velocity
(Big Data).
• Require scalable storage & parallel processing.
• Data Warehouse (DW): Central repository of
integrated data.
• Supports OLAP (Online Analytical Processing).
Stages of Data Mining
Process
• Problem Definition – set business/scientific goals.
• Data Preparation – preprocessing, integration.
• Model Building – choose algorithms &
techniques.
• Evaluation – accuracy, interpretability.
• Deployment – integrate into decision making.
Task Primitives in Data
Mining
• Task-relevant Data (attributes, tuples).
• Knowledge to be mined (association, classification).
• Background knowledge (hierarchies).
• Interestingness measures (support, confidence).
• Visualization (graphs, reports).
Data Mining Techniques
• Classification – predict labels (Decision Trees, SVM).
• Clustering – group similar data (K-means, DBSCAN).
• Association Rule Mining – discover correlations (Apriori,
FP-Growth).
• Regression – predict continuous values.
• Anomaly Detection – rare event/outlier detection.
• Sequential Pattern Mining – discover sequence/time
trends.
Knowledge
Representation
• Rules (if-then statements).
• Decision Trees.
• Graphs & Networks.
• Visualization – charts, dashboards.
Data Mining Query
Languages
• SQL-like extensions for mining.
• Define task-relevant data & patterns to mine.
• Apply constraints & interestingness measures.
• Example: DMQL (Data Mining Query Language).
Business Aspects of
Data Mining
Applications: Market Basket Analysis, Customer
Segmentation, Fraud Detection, Risk Management.
Challenges: Privacy, scalability, interpretability.
Impact: Enables data-driven decision making.
Data
Preprocessing
in Data Mining
CLEANING • INTEGRATION •
TRANSFORMATION • REDUCTION
Introduction
• Data preprocessing transforms raw data
into usable form.
• Real-world data is often incomplete, noisy,
and inconsistent.
• High-quality data improves mining
accuracy and efficiency.
Sources of Poor Data
Quality
• Missing values (e.g., NaN, blanks).
• Noisy data (measurement errors, outliers).
• Inconsistent data (date formats, typos).
• Redundant data (duplicates).
• Irrelevant attributes.
Steps in Data
Preprocessing
1. Data Cleaning – fix errors, missing values.
2. Data Integration – unify multiple sources.
3. Data Transformation – normalize,
aggregate.
4. Data Reduction – reduce dimensionality.
Data Cleaning
• Handle missing values – mean/median,
predictive models.
• Handle noise – binning, regression smoothing,
outlier removal.
• Handle inconsistencies – format unification,
correcting typos.
Data Transformation
Normalization – Min-Max scaling, Z-score.

Example: [50, 80, 100] → [0, 0.6, 1]

Aggregation – e.g., monthly → yearly sales.

Discretization – continuous → categorical (e.g., Age
groups).
Data Reduction
Feature Selection (Attribute Selection):

Remove irrelevant/redundant attributes.

Example: ID numbers don’t help prediction.

Dimensionality Reduction:

Principal Component Analysis (PCA).

Singular Value Decomposition (SVD).

Numerosity Reduction:

Replace detailed data with models (histograms, clustering).

Reduce size while preserving integrity.

Data Cleaning vs Data
Transformation vs Data
Reduction
Workflow Example

Steps:
1. Fill missing Age with mean.
2. Replace '?' in Income with median.
3. Normalize Income to [0,1].
4. Drop irrelevant columns.
Regression &
Model
Building
EVALUATION WITH RMSE AND R²
Introduction to
Regression
• Regression predicts continuous outcomes.
• Examples: House prices, sales revenue,
student scores
Types of Regression
• Simple Linear Regression – one predictor.
• Multiple Linear Regression – multiple predictors.
• Polynomial Regression – non-linear
relationships.
• Other variants: Ridge, Lasso, Logistic
(classification).
Model Building Process
• Define problem – target variable (Y).
• Collect and preprocess data.
• Split into training & test sets.
• Fit model using training data.
• Evaluate using test data & metrics.
Evaluation Metrics
• RMSE – Root Mean Squared Error.
• R² – Coefficient of Determination.
• Both give complementary insights.
Root Mean Squared
Error (RMSE)

Formula:

Measures average magnitude of errors.

Lower RMSE = better model.
Sensitive to large errors (squares them).
RMSE Example
Actual: [5, 7, 9], Predicted: [4.8, 7.5, 8.7]
Errors squared: [0.04, 0.25, 0.09]
RMSE = sqrt(0.126) ≈ 0.355

Interpretation: Predictions off by ~0.36 units.

Coefficient of
Determination (R²)
Formula:

Measures how well the model explains variance in

the data.
Range: 1 = perfect,
0 = no improvement,
<0 = worse than mean.
What is Variance?
Variance measures how spread out data is from the
mean.
• High variance → Data is widely spread (e.g.,
house prices).
• Low variance → Data is clustered near the mean
(e.g., human heights).
Regression and Variance
Regression explains how much of the variation in the target
(Y) is captured by predictors (X).

• Total Variance (SStot): Overall spread of Y.

• Residual Variance (SSres): Spread unexplained by the

model.

• Explained Variance: Portion captured by the model.

R² Example

The model explains 95.25% of the variance in the data.

Explained vs
Unexplained Variance
Explained Variance Unexplained Variance
(95.25%) (4.75%)
RMSE vs R²
• RMSE: measures error magnitude.
• R²: measures variance explained.
• Good model: Low RMSE & High R².
• Always evaluate on test data.
Discretization
& Concept
Hierarchies
DATA PREPROCESSING IN DATA MINING
Introduction
• Discretization: Converts continuous data
into categorical values.
• Concept Hierarchies: Organize attributes
into multiple levels of abstraction.
• Improves interpretability and supports
OLAP operations.
Why Discretization?
• Data mining algorithms (esp. decision trees,
association rules) often work better with
categorical/abstracted data.
• Makes patterns more interpretable for humans.
• Process of converting continuous attributes into
discrete/categorical attributes.
◦ Example:
◦ Age (continuous): 1, 7, 13, 25, 40, 70 →
◦ Age (discrete): {Child, Teen, Adult, Senior}.
Discretization Methods
Unsupervised: Equal-width, Equal-frequency binning.
◦ [1–25] [26–50] [51–75] [76–100]
Supervised: Class label-based, Decision tree splits.
◦ Equal-frequency: Bin1, Bin2, Bin3
Top-down splitting vs Bottom-up merging approaches.
• Top-down splitting (recursive partitioning): Start with one
interval → split recursively.
• Bottom-up merging: Start with many small intervals → merge
based on similarity/statistics
Example of
Discretization
Age values: [5, 7, 13, 25, 40, 45, 70]
Equal-width (4 bins):
{1–25, 26–50, 51–75, 76–100}
Equal-frequency (3 bins):
Bin1={5,7}, Bin2={13,25,40}, Bin3={45,70}
Concept Hierarchies
Organizing attribute values into levels of granularity.
Forms of Concept Hierarchies
Schema hierarchy:
◦ Defined by database schema.
◦ Example: Location: Street → City → State → Country.

Set grouping hierarchy:

◦ User or domain expert defines groups.
◦ Example: Age groups:
◦ Young = {0–20},
◦ Middle-aged = {21–50},
◦ Senior = {51+}.

Automatic hierarchy generation:

◦ System detects hierarchies by clustering or data distribution.
Examples of Hierarchies
Location: Street → City → State → Country.
Time: Second → Minute → Hour → Day →
Month → Year.
Product: Item → Category → Department.
Applications
• Discretization improves accuracy in classification
and association rule mining.
• Concept hierarchies allow mining at multiple
levels of abstraction.
• Useful in Business Intelligence, OLAP, and
Knowledge Discovery.
UCI
Repository of
Datasets
Introduction
• UCI Machine Learning Repository maintained by
University of California, Irvine.
• Started in 1987, widely used for Machine
Learning & Data Mining research.
• Provides benchmark datasets for classification,
regression, clustering, etc.
Characteristics
• Wide variety of tasks: Classification, Regression,
Clustering, Time-series.
• Dataset sizes: small (hundreds) to large (millions).
• Well-documented with metadata and attribute
details.
Categories of Datasets
• Classification: Iris, Breast Cancer, Car Evaluation.
• Regression: Housing, Air Quality.
• Clustering: Wine dataset.
• Association: Retail datasets.
• Time-Series: EEG, stock market datasets.
Popular Datasets
• Iris: 150 samples, 4 attributes, 3 flower
species.
• Adult Census Income: Predict income >50k
based on census data.
• Wine: Chemical analysis of wines from
Italy.
• Car Evaluation: Predict car acceptability.
Applications
• Algorithm Testing and Benchmarking.
• Educational use in ML and Data Mining courses.
• Industry testing before applying to private data.
• Fair comparison of research results.
Using UCI Datasets
1. Select dataset relevant to problem.
2. Preprocess: cleaning, transformation,
normalization.
3. Apply mining techniques: classification,
regression, clustering.
4. Evaluate performance: Accuracy, RMSE, R², etc.
5. Compare with benchmark results.
Limitations
• Many datasets are small compared to modern
Big Data.
• Datasets are mostly clean; real-world data is
noisier.
• Still very useful for benchmarking and teaching.

Noisy Data Management in Data Mining
No ratings yet
Noisy Data Management in Data Mining
55 pages
Data Mining Techniques and Applications
No ratings yet
Data Mining Techniques and Applications
7 pages
Essential Data Mining Concepts Explained
No ratings yet
Essential Data Mining Concepts Explained
3 pages
Data Mining Techniques and Applications
No ratings yet
Data Mining Techniques and Applications
74 pages
Data Mining - Unit 1
No ratings yet
Data Mining - Unit 1
54 pages
Data Mining Full Notes by Gemin
No ratings yet
Data Mining Full Notes by Gemin
25 pages
Understanding Data Mining Concepts
No ratings yet
Understanding Data Mining Concepts
35 pages
Data Mining Methods Overview
No ratings yet
Data Mining Methods Overview
38 pages
Comprehensive Guide to Data Mining
No ratings yet
Comprehensive Guide to Data Mining
52 pages
Types and Applications of Data Mining
No ratings yet
Types and Applications of Data Mining
35 pages
Data Mining Techniques and Applications
100% (1)
Data Mining Techniques and Applications
28 pages
Data Mining Course Overview
No ratings yet
Data Mining Course Overview
28 pages
Introduction to Data Mining Concepts
No ratings yet
Introduction to Data Mining Concepts
19 pages
Data Mining for Business Intelligence
No ratings yet
Data Mining for Business Intelligence
68 pages
Data Mining: Concepts and Techniques
No ratings yet
Data Mining: Concepts and Techniques
62 pages
Data Mining Process Overview
No ratings yet
Data Mining Process Overview
43 pages
Business Data Warehousing and Data Mining (UNIT-3)
No ratings yet
Business Data Warehousing and Data Mining (UNIT-3)
10 pages
Data Mining Techniques and Applications
No ratings yet
Data Mining Techniques and Applications
36 pages
Data Preparation and Analysis Techniques
No ratings yet
Data Preparation and Analysis Techniques
14 pages
Data Mining and Association Techniques
No ratings yet
Data Mining and Association Techniques
61 pages
Data Science
No ratings yet
Data Science
43 pages
Data Mining Process and Techniques Guide
No ratings yet
Data Mining Process and Techniques Guide
4 pages
Data Mining Michael Hahsler Chap1
No ratings yet
Data Mining Michael Hahsler Chap1
68 pages
2 - Data Mining
No ratings yet
2 - Data Mining
54 pages
Data Mining: Techniques and Processes
No ratings yet
Data Mining: Techniques and Processes
25 pages
Data Mining and Warehousing Overview
No ratings yet
Data Mining and Warehousing Overview
62 pages
Comprehensive Data Mining Study Guide
No ratings yet
Comprehensive Data Mining Study Guide
22 pages
Data Mining for Business Insights
No ratings yet
Data Mining for Business Insights
20 pages
Introduction to Data Mining Concepts
No ratings yet
Introduction to Data Mining Concepts
30 pages
Data Mining Techniques and Processes
No ratings yet
Data Mining Techniques and Processes
21 pages
Understanding Data Mining Techniques
No ratings yet
Understanding Data Mining Techniques
70 pages
Data Mining Course Overview
No ratings yet
Data Mining Course Overview
36 pages
Data Mining Overview and Techniques
No ratings yet
Data Mining Overview and Techniques
25 pages
Data Mining Techniques and Algorithms
No ratings yet
Data Mining Techniques and Algorithms
45 pages
DAI-101 Notes 101
No ratings yet
DAI-101 Notes 101
6 pages
Overview of Data Mining Techniques
No ratings yet
Overview of Data Mining Techniques
33 pages
Datamining and Predictive ANalytics
No ratings yet
Datamining and Predictive ANalytics
49 pages
Data Mining: Basics, Techniques & Applications
No ratings yet
Data Mining: Basics, Techniques & Applications
23 pages
Data Mining Course Overview
No ratings yet
Data Mining Course Overview
38 pages
Data Mining Techniques and Applications
No ratings yet
Data Mining Techniques and Applications
90 pages
Data Mining Techniques and Algorithms
No ratings yet
Data Mining Techniques and Algorithms
47 pages
Data Preprocessing Techniques Overview
No ratings yet
Data Preprocessing Techniques Overview
23 pages
Data Warehouse
No ratings yet
Data Warehouse
3 pages
Business Analytics and Data Mining Guide
No ratings yet
Business Analytics and Data Mining Guide
35 pages
Data Mining Techniques for Business Insights
No ratings yet
Data Mining Techniques for Business Insights
20 pages
Understanding Data Mining Basics
No ratings yet
Understanding Data Mining Basics
17 pages
Data Reduction Techniques in Data Mining
No ratings yet
Data Reduction Techniques in Data Mining
21 pages
UTS SQL Server Data Analytics Course
No ratings yet
UTS SQL Server Data Analytics Course
43 pages
Introduction to Data Mining Concepts
No ratings yet
Introduction to Data Mining Concepts
33 pages
Google Miniscape Data Mining Insights
No ratings yet
Google Miniscape Data Mining Insights
91 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
52 pages
Data Preprocessing Techniques Overview
No ratings yet
Data Preprocessing Techniques Overview
27 pages
Data Mining
No ratings yet
Data Mining
20 pages
Introduction to Data Mining Concepts
No ratings yet
Introduction to Data Mining Concepts
43 pages
Data Mining: Techniques and Applications
No ratings yet
Data Mining: Techniques and Applications
25 pages
Understanding Data Mining Techniques
No ratings yet
Understanding Data Mining Techniques
73 pages
Data Mining Process Overview
No ratings yet
Data Mining Process Overview
43 pages
Mining Techniques
No ratings yet
Mining Techniques
7 pages
Understanding Data Mining Techniques
No ratings yet
Understanding Data Mining Techniques
47 pages
Highly Multiplexed Spatial Profiling With CODEX: Bioinformatic Analysis and Application in Human Disease
No ratings yet
Highly Multiplexed Spatial Profiling With CODEX: Bioinformatic Analysis and Application in Human Disease
13 pages
The Moral Machine Experiment
No ratings yet
The Moral Machine Experiment
20 pages
Evaluating Unsupervised Learning Models
100% (1)
Evaluating Unsupervised Learning Models
31 pages
Business Intelligence Carlo Vercellis
No ratings yet
Business Intelligence Carlo Vercellis
5 pages
Mumbai University IRS Question Analysis
No ratings yet
Mumbai University IRS Question Analysis
7 pages
Effective Bike Recycling Strategies
No ratings yet
Effective Bike Recycling Strategies
62 pages
Energy Consumption Patterns in Smart Grids
No ratings yet
Energy Consumption Patterns in Smart Grids
18 pages
AI in Financial Management Decisions
No ratings yet
AI in Financial Management Decisions
21 pages
Topic Modeling for Literature Screening
No ratings yet
Topic Modeling for Literature Screening
24 pages
BB Particle Swarm for Image Clustering
No ratings yet
BB Particle Swarm for Image Clustering
6 pages
Adjusted Rand Index Overview
No ratings yet
Adjusted Rand Index Overview
26 pages
Overview of Classification and Forecast Models
No ratings yet
Overview of Classification and Forecast Models
7 pages
Slack Redistribution in Register Clustering
No ratings yet
Slack Redistribution in Register Clustering
9 pages
Confusion Matrix Analysis for Model Selection
No ratings yet
Confusion Matrix Analysis for Model Selection
56 pages
Clustering for Wireless Sensor Networks
No ratings yet
Clustering for Wireless Sensor Networks
26 pages
Data Mining Using Learning Techniques For Fraud Detection
No ratings yet
Data Mining Using Learning Techniques For Fraud Detection
3 pages
Azure ML Studio Key Concepts and Practices
80% (5)
Azure ML Studio Key Concepts and Practices
4 pages
Deep Learning for Rock Discontinuity Analysis
No ratings yet
Deep Learning for Rock Discontinuity Analysis
13 pages
AI-Powered Vehicle Access Management
No ratings yet
AI-Powered Vehicle Access Management
53 pages
Big Data Challenges in Aerospace Sector
No ratings yet
Big Data Challenges in Aerospace Sector
41 pages
Spotify Artist Collaboration Network Analysis
No ratings yet
Spotify Artist Collaboration Network Analysis
27 pages
Data Mining Course Handout - BITS Pilani
No ratings yet
Data Mining Course Handout - BITS Pilani
3 pages
Unsupervised Learning: Cluster Analysis
No ratings yet
Unsupervised Learning: Cluster Analysis
48 pages
Overview of Bayesian Machine Learning
No ratings yet
Overview of Bayesian Machine Learning
6 pages
FX Market Making: Inventory & Risk Management
No ratings yet
FX Market Making: Inventory & Risk Management
12 pages
Rockfall Probability Prediction Using KNN
No ratings yet
Rockfall Probability Prediction Using KNN
13 pages
Machine Learning for Road Accident Prediction
No ratings yet
Machine Learning for Road Accident Prediction
8 pages
Genetic Algorithms and Data Mining Concepts
No ratings yet
Genetic Algorithms and Data Mining Concepts
11 pages
Machine Learning Techniques Course Overview
No ratings yet
Machine Learning Techniques Course Overview
24 pages
Machine Learning Course Overview
No ratings yet
Machine Learning Course Overview
33 pages

Data Mining: Concepts and Techniques

Uploaded by

Data Mining: Concepts and Techniques

Uploaded by

Data Mining –

Example: [50, 80, 100] → [0, 0.6, 1]

Aggregation – e.g., monthly → yearly sales.

Remove irrelevant/redundant attributes.

Example: ID numbers don’t help prediction.

Principal Component Analysis (PCA).

Singular Value Decomposition (SVD).

Replace detailed data with models (histograms, clustering).

Reduce size while preserving integrity.

Measures average magnitude of errors.

Interpretation: Predictions off by ~0.36 units.

Measures how well the model explains variance in

• Total Variance (SStot): Overall spread of Y.

• Residual Variance (SSres): Spread unexplained by the

• Explained Variance: Portion captured by the model.

The model explains 95.25% of the variance in the data.

Set grouping hierarchy:

Automatic hierarchy generation:

You might also like