Data Cleaning Techniques in Data Mining

The document discusses data preprocessing in data mining, emphasizing the importance of data cleaning, integration, reduction, transformation, and discretization to ensure high-quality data for effective mining results. It highlights common issues such as missing, noisy, and inconsistent data, and outlines methods for addressing these problems, including imputation techniques and data smoothing. The document also covers the significance of maintaining data quality to enhance the accuracy and efficiency of data mining algorithms.

Uploaded by

gihel53025

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

24 views21 pages

Data Cleaning Techniques in Data Mining

Uploaded by

gihel53025

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

CS06504

Data Mining
Lecture # 7
Data Preprocessing
(Ch # 3)
Data Preprocessing
 Why preprocess the data?
 Data cleaning
 Data integration
 Data reduction
 Data Transformation and
Discretization
 Summary
Why Data

Preprocessing?
Data in the real world is dirty
 incomplete: lacking attribute values, lacking certain
attributes of interest, or containing only aggregate data
 noisy: containing errors or outliers
 inconsistent: containing discrepancies in codes or names
 Data quality is a major concern in Data Mining and
Knowledge Discovery tasks.
 Why: At most all Data Mining algorithms induce
knowledge strictly from data.
 No quality data, no quality mining results!
 Quality decisions must be based on quality data
 No quality data, inefficient mining process!
 Complete, noise-free, and consistent data means faster
algorithms
 The quality of knowledge extracted highly depends on
the quality of data
Effect of Noisy Data on Results Accuracy

age income student buys_computer Discover only

<=30 high yes yes those rules
<=30 high no yes which contain
>40 medium yes no support
Data Mining
>40 medium no no (frequency)
>40 low yes yes greater >= 2
31…40 no yes
31…40 medium yes yes

• If ‘age <= 30’ and income = ‘high’

Training then buys_computer = ‘yes’
data • If ‘age > 40’ and income =
‘medium’ then buys_computer =
‘no’
Due to the missing value in age income student buys_computer
training dataset, the accuracy <=30 high no ?
of prediction decreases and >40 medium yes ?
becomes “66.7%” 31…40 medium yes ?
Testing data or actual
data
Major Tasks in Data
Preprocessing
 Data cleaning
 Fill in missing values, smooth noisy data,
identify or remove outliers, and resolve
inconsistencies
 Data integration
 Integration of multiple databases, data cubes,
or files
 Data reduction
 Obtains reduced representation in volume but
produces the same or similar analytical results
 Data transformation
 Normalization and aggregation
 Data discretization
 Part of data reduction but with particular
Forms of data
preprocessing
Data Preprocessing
 Why preprocess the data?
 Data cleaning
 Data integration
 Data reduction
 Data Transformation and
Discretization
 Summary
Data Cleaning

 Data cleaning tasks

Fill in missing values
Noisy data
Correct inconsistent data
Missing Data
 Data is not always available
 E.g., many tuples have no recorded value for
several attributes, such as customer income in
sales data
 Missing data may be due to
 equipment malfunction
 inconsistent with other recorded data and thus
deleted
 data not entered due to misunderstanding
 certain data may not be considered important at
the time of entry
 no register history or changes of the data
 Missing data may need to be inferred.
Methods of Treating Missing Data
 Ignoring and discarding data:- There are two main ways to
discard data with missing values.
 Discard all those records which have missing data also called
as discard case analysis. Usually done when class label is
missing
 Discarding only those attributes which have high level of
missing data.
 Fill in the missing value manually: tedious + infeasible?
 Use a global constant to fill in the missing value: e.g.,
“unknown”, a new class.
 Imputation using Mean, median or Mode:- One of the
most frequently used method (Statistical technique).
 Use the attribute mean to fill in the missing value
 Use the attribute mean for all samples belonging to the same
class to fill in the missing value: smarter
 Replace (numeric continuous) type “attribute missing
values” using mean/median. (Median robust against noise).
Methods of Treating Missing Data
 Replace missing values using prediction/
classification model:-
 Use the most probable value to fill in the missing
value: inference-based such as Bayesian formula or
decision tree
 Advantage:- it considers relationship among the known
attribute values and the missing values, so the
imputation accuracy is very high.
 Disadvantage:- If there is no correlation exist for some
missing attribute values and known attribute values.
The imputation can’t be performed.
 (Alternative approach):- Use hybrid combination of
Prediction/Classification model and Mean/MODE.
• First try to impute missing value using
prediction/classification model, and then Median/MODE.
 We will study more about this topic in Association
Methods of Treating Missing Data
 K-Nearest Neighbor (k-NN) approach (Best
approach):-
 k-NN imputes the missing attribute values on the
basis of nearest K neighbor. Neighbors are
determined on the basis of distance measure.
 Once K neighbors are determined, missing value
are imputed by taking mean/median or MODE of
known attribute values of missing attribute.

Missing value record

Other dataset records

Imputation of Missing Data
(Basic)
 Imputation is a term that denotes a procedure that
replaces the missing values in a dataset by some
plausible values
i.e. by considering relationship among
correlated values among the attributes of
the dataset.
Attribute 1 Attribute 2 Attribute 3 Attribute 4 If we consider only
20 cool high false {attribute#2}, then
cool high true value “cool” appears
20 cool high true in 3 records.
20 mild low false
30 cool normal false Probability of Imputing
10 mild high true value (20) = 66.7%
Probability of Imputing
value (30) = 33.3%
Imputation of Missing Data
(Basic) For {attribute#4}
Attribute 1 Attribute 2 Attribute 3 Attribute 4
20 cool high false the value “true”
cool high true appears in 2 records
20 cool high true
Probability of Imputing
20 mild low false value (20) = 50%
30 cool normal false
10 mild high true Probability of Imputing
value (10) = 50%

Attribute 1 Attribute 2 Attribute 3 Attribute 4 For {attribute#2,

20 cool high false attribute#3} the
cool high true value {“cool”,
20 cool high true “high”} appears in
20 mild low false only 2 records
30 cool normal false
Probability of Imputing
10 mild high true
value (20) = 100%
Noisy Data
 Noise: random error or variance in a
measured variable
 Incorrect attribute values may be due
to
 faulty data collection instruments
 data entry problems
 data transmission problems
 technology limitation
 inconsistency in naming convention
 Other data problems which requires
data cleaning
 duplicate records
 incomplete data
Removing Noise
 Data Smoothing (rounding, averaging
within a window).
Data smoothing by Binning method:
• first sort data and partition into (equi-depth) bins
• then one can smooth by bin means, smooth by bin
median, smooth by bin boundaries, etc.
Smoothing by Regression
• smooth by fitting the data into regression functions

 Clustering/merging and Detecting

outliers.
 detect and remove outliers
Smoothing by Binning Method
 Equal-width (distance) partitioning:
 It divides the range into N intervals of equal size:
uniform grid
 if A and B are the lowest and highest values of the
attribute, the width of intervals will be: W = (B-A)/k,
where k is the number of bins.
 The most straightforward
 But outliers may dominate presentation
 Skewed data is not handled well.
 Equal-depth (frequency) partitioning:
 It divides the range into M intervals, each containing
approximately same number of samples
 Good data scaling
 Managing categorical attributes can be tricky.
Binning Methods for Data
Smoothing
* Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26,
28, 29, 34
* Partition into (equi-width) bins: A+w, A+2w,…
- Bin 1: 4, 8, 9
- Bin 2: 15, 21, 21, 24
- Bin 3: 25, 26, 28, 29, 34
* Smoothing by bin means:
- Bin 1: 7, 7, 7
- Bin 2: 20, 20, 20, 20
- Bin 3: 28, 28, 28, 28, 28
* Smoothing by bin boundaries:
- Bin 1: 4, 4, 14
- Bin 2: 15, 24, 24, 24
- Bin 3: 25, 25, 25, 25, 34
Binning Methods for Data
Smoothing
* Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26,
28, 29, 34
* Partition into (equi-depth) bins:
- Bin 1: 4, 8, 9, 15
- Bin 2: 21, 21, 24, 25
- Bin 3: 26, 28, 29, 34
* Smoothing by bin means:
- Bin 1: 9, 9, 9, 9
- Bin 2: 23, 23, 23, 23
- Bin 3: 29, 29, 29, 29
* Smoothing by bin boundaries:
- Bin 1: 4, 4, 4, 15
- Bin 2: 21, 21, 25, 25
- Bin 3: 26, 26, 26, 34
Regression Method for smoothing the
data
 Regression is a
technique that conforms y
data values to a
function. Linear
regression involves Y1
finding the “best” line to
fit two attributes (or
variables) so that one Y1’ y=x+1
attribute can be used to
predict the other.

X1 x
Detecting Outliers (Clustering)
 Outliers may be detected by clustering, where
similar values are organized into groups or
“clusters”.

 Values which falls outside of the set of clusters

may be considered outliers.

Data Preprocessing in Data Science
No ratings yet
Data Preprocessing in Data Science
42 pages
Data Preprocessing Techniques in Mining
No ratings yet
Data Preprocessing Techniques in Mining
76 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
8 pages
Data Preprocessing Techniques Overview
No ratings yet
Data Preprocessing Techniques Overview
57 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
77 pages
Data Preprocessing Notes in PDF
No ratings yet
Data Preprocessing Notes in PDF
50 pages
Essential Data Preprocessing Techniques
No ratings yet
Essential Data Preprocessing Techniques
30 pages
Essential Data Preprocessing Techniques
No ratings yet
Essential Data Preprocessing Techniques
52 pages
Data Pre-Processing in Data Mining
No ratings yet
Data Pre-Processing in Data Mining
37 pages
Data Preprocessing Techniques in Mining
No ratings yet
Data Preprocessing Techniques in Mining
33 pages
Data Pre-Processing Techniques Explained
No ratings yet
Data Pre-Processing Techniques Explained
37 pages
Essential Data Preprocessing Techniques
No ratings yet
Essential Data Preprocessing Techniques
40 pages
Data Pre-processing Techniques
No ratings yet
Data Pre-processing Techniques
18 pages
Data Preprocessing in Machine Learning
No ratings yet
Data Preprocessing in Machine Learning
40 pages
Data Pre-Processing in Data Mining
No ratings yet
Data Pre-Processing in Data Mining
88 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
43 pages
Discretization and Concept Hierarchies
No ratings yet
Discretization and Concept Hierarchies
48 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
66 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
18 pages
Essential Data Preprocessing Techniques
No ratings yet
Essential Data Preprocessing Techniques
82 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
29 pages
Essential Data Pre-processing Techniques
No ratings yet
Essential Data Pre-processing Techniques
25 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
52 pages
Dami Lecture2
No ratings yet
Dami Lecture2
36 pages
Data Normalization Techniques Explained
No ratings yet
Data Normalization Techniques Explained
77 pages
Data Pre-Processing Techniques Explained
No ratings yet
Data Pre-Processing Techniques Explained
8 pages
Data Preprocessing Techniques Overview
No ratings yet
Data Preprocessing Techniques Overview
17 pages
Data Cleaning Techniques in Data Mining
No ratings yet
Data Cleaning Techniques in Data Mining
6 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
50 pages
Essential Data Preprocessing Techniques
No ratings yet
Essential Data Preprocessing Techniques
41 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
114 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
56 pages
Data Preprocessing Techniques Overview
No ratings yet
Data Preprocessing Techniques Overview
66 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
35 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
55 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
12 pages
Data Preprocessing Techniques in Data Mining
No ratings yet
Data Preprocessing Techniques in Data Mining
53 pages
Data Preprocessing Techniques in Mining
No ratings yet
Data Preprocessing Techniques in Mining
52 pages
Effective Data Cleaning Techniques
No ratings yet
Effective Data Cleaning Techniques
26 pages
Data Preprocessing Techniques in Python
No ratings yet
Data Preprocessing Techniques in Python
14 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
17 pages
Data Analysis Planning in Research
No ratings yet
Data Analysis Planning in Research
85 pages
Data Transformation Techniques Explained
No ratings yet
Data Transformation Techniques Explained
33 pages
Essential Data Preprocessing Techniques
No ratings yet
Essential Data Preprocessing Techniques
52 pages
Essential Data Preprocessing Techniques
No ratings yet
Essential Data Preprocessing Techniques
55 pages
Essential Data Preprocessing Techniques
No ratings yet
Essential Data Preprocessing Techniques
15 pages
Data Preparation for Effective Mining
No ratings yet
Data Preparation for Effective Mining
37 pages
DMDW Notes
No ratings yet
DMDW Notes
61 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
62 pages
Data Preprocessing Techniques in Mining
No ratings yet
Data Preprocessing Techniques in Mining
23 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
43 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
49 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
23 pages
Data Preprocessing Overview
No ratings yet
Data Preprocessing Overview
42 pages
Data Preprocessing Techniques Explained
100% (1)
Data Preprocessing Techniques Explained
39 pages
Data Reduction in Preprocessing Steps
No ratings yet
Data Reduction in Preprocessing Steps
25 pages
Data Preprocessing in Fog Analytics
No ratings yet
Data Preprocessing in Fog Analytics
61 pages
PCA in Data Preprocessing Tutorial
No ratings yet
PCA in Data Preprocessing Tutorial
44 pages
10Pearls Custom Software Solutions
No ratings yet
10Pearls Custom Software Solutions
5 pages
Dijkstra's Algorithm and Routing Costs
No ratings yet
Dijkstra's Algorithm and Routing Costs
21 pages
Supervised Learning with Decision Trees
No ratings yet
Supervised Learning with Decision Trees
47 pages
Mining Frequent Patterns in Data
No ratings yet
Mining Frequent Patterns in Data
30 pages
Weka Tool Overview and Features
No ratings yet
Weka Tool Overview and Features
84 pages
Global Tourism Trends by Country and Type
No ratings yet
Global Tourism Trends by Country and Type
112 pages
Global Tourism Trends by Country and Type
No ratings yet
Global Tourism Trends by Country and Type
112 pages
Diabetes Prediction with ML Techniques
No ratings yet
Diabetes Prediction with ML Techniques
73 pages
Real-Time Biometric Access Control System
No ratings yet
Real-Time Biometric Access Control System
3 pages
Vehicle Number Detection Techniques
No ratings yet
Vehicle Number Detection Techniques
7 pages
ANPR with EasyOCR and Optical Character Recognition
No ratings yet
ANPR with EasyOCR and Optical Character Recognition
19 pages
Data Mining Concepts and Applications
No ratings yet
Data Mining Concepts and Applications
95 pages
Python Stock Price Prediction Guide
No ratings yet
Python Stock Price Prediction Guide
13 pages
AI-Driven Optimization in Knitted Fabrics
No ratings yet
AI-Driven Optimization in Knitted Fabrics
32 pages
EDA on Student Performance Data
No ratings yet
EDA on Student Performance Data
34 pages
Machine Learning for Lithium Battery Anomalies
No ratings yet
Machine Learning for Lithium Battery Anomalies
8 pages
Machine Learning Internship Report
No ratings yet
Machine Learning Internship Report
54 pages
Understanding Data Preprocessing
No ratings yet
Understanding Data Preprocessing
91 pages
Introduction to Data Mining Techniques
No ratings yet
Introduction to Data Mining Techniques
50 pages
Phishing Detection Using NLP & DL Models
No ratings yet
Phishing Detection Using NLP & DL Models
20 pages
Machine Learning for AML in Banking Systems
No ratings yet
Machine Learning for AML in Banking Systems
12 pages
FINAL
No ratings yet
FINAL
53 pages
Fingerprint-Based Blood Group Detection
No ratings yet
Fingerprint-Based Blood Group Detection
3 pages
Transformer Based Contextual Model For Sentiment
No ratings yet
Transformer Based Contextual Model For Sentiment
7 pages
Outlier Treatment with Winsorizer
No ratings yet
Outlier Treatment with Winsorizer
5 pages
Machine Learning for Weather Forecasting
No ratings yet
Machine Learning for Weather Forecasting
6 pages
Animal Motion Tracking Using YOLO v4
No ratings yet
Animal Motion Tracking Using YOLO v4
8 pages
Email Spam Classifier Project Report
No ratings yet
Email Spam Classifier Project Report
19 pages
Shreyas Diwanji: Computer Science Intern Resume
No ratings yet
Shreyas Diwanji: Computer Science Intern Resume
2 pages
Data Mining Course Overview and Assignments
No ratings yet
Data Mining Course Overview and Assignments
4 pages
Data Science Internship Report 2025
No ratings yet
Data Science Internship Report 2025
62 pages
Ecommerce Sales Data Analysis Report
No ratings yet
Ecommerce Sales Data Analysis Report
37 pages
AI-Driven Fair Resume Screening
No ratings yet
AI-Driven Fair Resume Screening
8 pages
Healthcare Data Analytics Course Overview
No ratings yet
Healthcare Data Analytics Course Overview
3 pages
SVM-Based Depression Detection System
No ratings yet
SVM-Based Depression Detection System
5 pages
NLP in Cybersecurity Incident Analysis
No ratings yet
NLP in Cybersecurity Incident Analysis
18 pages
AI Chatbot with Transformer Models
No ratings yet
AI Chatbot with Transformer Models
6 pages

Data Cleaning Techniques in Data Mining

Uploaded by

Data Cleaning Techniques in Data Mining

Uploaded by

CS06504

age income student buys_computer Discover only

• If ‘age <= 30’ and income = ‘high’

 Data cleaning tasks

Missing value record

Other dataset records

Attribute 1 Attribute 2 Attribute 3 Attribute 4 For {attribute#2,

 Clustering/merging and Detecting

 Values which falls outside of the set of clusters

You might also like