0% found this document useful (0 votes)

15 views56 pages

Data Warehousing and Mining Overview

This document provides an overview of data warehousing and mining. It discusses what a data warehouse is, why organizations implement warehouses, and common warehouse architectures. It also describes the advantages of query-driven warehouses and contrasts online transaction processing with online analytical processing. Additionally, the document outlines the data mining process, common data mining tasks and methods, and highlights the importance of data preprocessing, including cleaning, integration, transformation, and reduction techniques.

Uploaded by

lucky28august

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

15 views56 pages

Data Warehousing and Mining Overview

Uploaded by

lucky28august

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

Data Warehousing and Mining

Roadmap

What is a Warehouse?

Warehouse Architecture
Client Query & Analysis Client

Metadata

Warehouse

Integration

Source

Why a Warehouse?

?
Source Source

Query-Driven Approach

Client Mediator Wrapper Wrapper

Client

Wrapper

Source

Advantages of Warehousing

Advantages of Query-Driven

OLTP vs. OLAP

OLTP: On Line Transaction Processing Describes processing at operational sites
OLAP: On Line Analytical Processing Describes processing at warehouse

OLTP vs. OLAP

OLTP

OLAP

Data Marts

ROLAP vs. MOLAP

ROLAP: Relational On-Line Analytical Processing MOLAP: Multi-Dimensional On-Line Analytical Processing

ROLAP

MOLAP

Implementing a Warehouse

Monitoring

Integrating

Processing

Managing

Design Issues

Tools required for:

design & edit: schemas, views, scripts, rules, queries, reports what-if scenarios (schema changes, refresh rates), capacity planning
Planning & Analysis

performance monitoring, usage patterns, exception reporting

Warehouse Management

Development

measure traffic (sources, warehouse, clients)

System & Network Management

reliable scripts for cleaning & analyzing data

Workflow Management

Data Mining

The efficient discovery of previously unknown, valid, potentially useful, understandable patterns in large datasets

Data Mining is:

The analysis of (often large) observational data sets to find unsuspected relationships and to summarize the data in novel ways that are both understandable and useful to the data owner

Examples of Large Datasets

WALMART: 20M transactions per day

MOBIL: 100 TB geological databases

AT&T 300 M calls per day

NASA, EOS project: 50 GB per hour

Examples of Data mining Applications

Fraud detection: credit cards, phone cards

Marketing: customer targeting

Data Warehousing: Walmart

Astronomy

Molecular biology

How Data Mining is used

Identify the problem Use data mining techniques to transform the data into information Act on the information Measure the results

The Data Mining Process

2. Create a dataset: 1. Understand the domain
Select the interesting attributes Data cleaning and preprocessing

4. Interpret the results, and possibly return to 2

3. Choose the data mining task and the specific algorithm

Data Mining Tasks

Classification

Regression

Clustering:

Dependencies and associations Summarization

Data Mining Methods

1. Decision Tree Classifiers:
2. Association Rules:

Used for modeling, classification Used to find associations between sets of attributes Used to find temporal associations in time series used to group customers, web users, etc

3. Sequential patterns:
4. Hierarchical clustering:

Are All the Discovered Patterns Interesting?

Objective:

based on statistics and structures of patterns, e.g., support, confidence, etc.

Subjective: based on users belief in the data, e.g., unexpectedness, novelty, actionability, etc.

Why Data Preprocessing?

Why can Data be Incomplete?

Why can Data be Noisy/Inconsistent?

Data Cleaning

Major Tasks in Data Preprocessing

Data cleaning
Data integration
Fill in missing values, smooth noisy data, identify or remove outliers, and resolve inconsistencies

Integration of multiple databases or files

Data transformation
Data reduction Data discretization

Normalization and aggregation

Obtains reduced representation in volume but produces the same or similar analytical results Part of data reduction but with particular importance, especially for numerical data

How to Handle Missing Data?

How to Handle Noisy Data? Smoothing techniques

Simple Discretization Methods: Binning

number of values

Example: customer ages

Equi-width binning:

0-10 10-20 20-30 30-40 40-50 50-60 60-70 70-80

Equi-width binning:

0-22

22-31 62-80 38-44 48-55 32-38 44-48 55-62

Cluster Analysis
salary

cluster

outlier

age

Regression
y (salary) Example of linear regression y=x+1

x (age)

Data Integration

Data Transformation

Normalization: Why normalization?

Data Reduction Strategies

Data Compression

Original Data
lossless

Compressed Data

Original Data Approximated

Histograms

40 35

30 25

20 15 10

5 0
10000 30000 50000 70000 90000

Clustering

Sampling

Sampling
Raw Data Cluster/Stratified Sample

The number of samples drawn from each cluster/stratum is analogous to its size Thus, the samples represent better the data and outliers are avoided

Sampling

Raw Data

Example: Benefits for Healthcare Industry

Evidencebased medicine Policymaking in public health More value for money and cost saving Early detection and/or prevention of disease

Prevention of hospital errors

Management of pandemic diseases

Non-invasive diagnosis and decision support

Adverse drug event

Example: Usage in Digital Media Industry

Ad Targeting Yield Optimization Ad Sales Analysis Bid Price Optimization

Website Optimization

Attribution Analysis

Click Fraud Analysis

Network Usage Analysis

Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
16 pages
Data Preprocessing in Data Warehousing
100% (1)
Data Preprocessing in Data Warehousing
9 pages
DSDA All
No ratings yet
DSDA All
20 pages
Data Preprocessing Techniques Overview
No ratings yet
Data Preprocessing Techniques Overview
39 pages
2 - Data Mining
No ratings yet
2 - Data Mining
54 pages
Introduction to Data Mining Concepts
No ratings yet
Introduction to Data Mining Concepts
144 pages
Data Preparation for Mining Techniques
No ratings yet
Data Preparation for Mining Techniques
21 pages
Data Integration in Preprocessing
No ratings yet
Data Integration in Preprocessing
29 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
86 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
77 pages
Data Preprocessing Techniques Overview
No ratings yet
Data Preprocessing Techniques Overview
27 pages
Business Intelligence Overview and Importance
No ratings yet
Business Intelligence Overview and Importance
25 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
50 pages
Data Warehousing and OLAP Overview
No ratings yet
Data Warehousing and OLAP Overview
11 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
70 pages
Machine Learning
No ratings yet
Machine Learning
49 pages
Data Preprocessing for Quality Mining
No ratings yet
Data Preprocessing for Quality Mining
37 pages
Business Analytics and Intelligence Week 3 and 4
No ratings yet
Business Analytics and Intelligence Week 3 and 4
114 pages
Comprehensive Guide to Data Mining
No ratings yet
Comprehensive Guide to Data Mining
52 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
50 pages
Data Pre-Processing in Data Mining
No ratings yet
Data Pre-Processing in Data Mining
37 pages
Data Warehousing & Mining Overview
No ratings yet
Data Warehousing & Mining Overview
162 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
49 pages
Data Warehouse Architecture and Preprocessing
No ratings yet
Data Warehouse Architecture and Preprocessing
8 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
35 pages
Introduction to Machine Learning Concepts
No ratings yet
Introduction to Machine Learning Concepts
56 pages
Data Preprocessing Techniques Overview
No ratings yet
Data Preprocessing Techniques Overview
22 pages
Data Preprocessing Techniques Overview
No ratings yet
Data Preprocessing Techniques Overview
15 pages
Data Preprocessing for Machine Learning
No ratings yet
Data Preprocessing for Machine Learning
65 pages
Data Mining Techniques for Business Insights
No ratings yet
Data Mining Techniques for Business Insights
140 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
55 pages
Data Mining: Uncovering Knowledge from Data
No ratings yet
Data Mining: Uncovering Knowledge from Data
40 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
23 pages
Data Preparation and Preprocessing Guide
No ratings yet
Data Preparation and Preprocessing Guide
52 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
52 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
36 pages
Concept Hierarchy in Data Mining
No ratings yet
Concept Hierarchy in Data Mining
21 pages
Data Preparation and Analysis Techniques
No ratings yet
Data Preparation and Analysis Techniques
145 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
41 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
54 pages
Essential Data Preprocessing Techniques
No ratings yet
Essential Data Preprocessing Techniques
52 pages
Data Mining and Knowledge Discovery Overview
No ratings yet
Data Mining and Knowledge Discovery Overview
57 pages
Essential Data Preprocessing Techniques
No ratings yet
Essential Data Preprocessing Techniques
69 pages
Data Preprocessing Techniques in Mining
No ratings yet
Data Preprocessing Techniques in Mining
52 pages
Data Preprocessing Techniques in Mining
No ratings yet
Data Preprocessing Techniques in Mining
56 pages
Data Preprocessing and Cleaning Techniques
No ratings yet
Data Preprocessing and Cleaning Techniques
35 pages
Discretization and Concept Hierarchies
No ratings yet
Discretization and Concept Hierarchies
48 pages
dmfds1 GPT Notes
No ratings yet
dmfds1 GPT Notes
28 pages
Data Mining and Warehousing - 1
No ratings yet
Data Mining and Warehousing - 1
23 pages
Data Pre Processing
No ratings yet
Data Pre Processing
91 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
21 pages
Data Preprocessing Techniques Overview
No ratings yet
Data Preprocessing Techniques Overview
60 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
27 pages
Essential Steps in Data Preprocessing
No ratings yet
Essential Steps in Data Preprocessing
34 pages
Essential Data Preprocessing Techniques
No ratings yet
Essential Data Preprocessing Techniques
55 pages
Data Warehouse Implementation Guide
No ratings yet
Data Warehouse Implementation Guide
1 page
Data Mining in Business Overview
No ratings yet
Data Mining in Business Overview
6 pages
NBFC & Bank
No ratings yet
NBFC & Bank
11 pages
Indian Hotel Industry Financial Analysis
No ratings yet
Indian Hotel Industry Financial Analysis
33 pages
Ranvir Nayar India Hotel IndustryPresentationEICC2006
No ratings yet
Ranvir Nayar India Hotel IndustryPresentationEICC2006
10 pages
Max Bupa Health Insurance Overview
No ratings yet
Max Bupa Health Insurance Overview
25 pages
Understanding Data Warehouse Concepts
No ratings yet
Understanding Data Warehouse Concepts
46 pages
Syllabus 8 Sem
No ratings yet
Syllabus 8 Sem
9 pages
Data Mining and Warehousing Overview
No ratings yet
Data Mining and Warehousing Overview
43 pages
Data Warehousing Quick Guide
No ratings yet
Data Warehousing Quick Guide
66 pages
AI Applications in Biology and Healthcare
No ratings yet
AI Applications in Biology and Healthcare
39 pages
Data Warehousing & Mining Syllabus 2025
No ratings yet
Data Warehousing & Mining Syllabus 2025
5 pages
Compounding in Info Object and Analyzing The Info Object in A Query
No ratings yet
Compounding in Info Object and Analyzing The Info Object in A Query
11 pages
SAP BI/BW Setup Steps Guide
No ratings yet
SAP BI/BW Setup Steps Guide
3 pages
Data Analyst Profile: Power BI Expertise
No ratings yet
Data Analyst Profile: Power BI Expertise
3 pages
Overview of ADBMS and Architectures
No ratings yet
Overview of ADBMS and Architectures
31 pages
Data Analytics in Database Systems
No ratings yet
Data Analytics in Database Systems
53 pages
Intelligent Cash Forecasting Plugin
No ratings yet
Intelligent Cash Forecasting Plugin
17 pages
Business Intelligence: Big Data Impact
No ratings yet
Business Intelligence: Big Data Impact
26 pages
BCA302
No ratings yet
BCA302
2 pages
Data Warehouse and Mining Techniques
No ratings yet
Data Warehouse and Mining Techniques
60 pages
V Semester Syllabus for Computer Science
No ratings yet
V Semester Syllabus for Computer Science
17 pages
MSC Computer Science
No ratings yet
MSC Computer Science
27 pages
Rbi Cims
No ratings yet
Rbi Cims
32 pages
Database Management Essentials Quiz
No ratings yet
Database Management Essentials Quiz
24 pages
REA Approach to Accounting Systems
No ratings yet
REA Approach to Accounting Systems
38 pages
PHP and Cybersecurity Exam Questions
No ratings yet
PHP and Cybersecurity Exam Questions
21 pages
Big Data: Warehousing and Mining Insights
No ratings yet
Big Data: Warehousing and Mining Insights
180 pages
Varsha Malik's Professional CV
No ratings yet
Varsha Malik's Professional CV
5 pages
Computer Application for Printing Services
No ratings yet
Computer Application for Printing Services
65 pages
Introduction to IoT Course Overview
No ratings yet
Introduction to IoT Course Overview
12 pages
What Is BI?: "Fundamentals of Business Analytics" RN Prasad and Seema Acharya
60% (5)
What Is BI?: "Fundamentals of Business Analytics" RN Prasad and Seema Acharya
20 pages
Unit 3 OLAP and OLTP
No ratings yet
Unit 3 OLAP and OLTP
64 pages
Understanding OLAP Types and Operations
No ratings yet
Understanding OLAP Types and Operations
8 pages
Microsoft BI Enhances Lloyds Data Access
No ratings yet
Microsoft BI Enhances Lloyds Data Access
1 page
Parallel Mining of Fuzzy Association Rules
No ratings yet
Parallel Mining of Fuzzy Association Rules
16 pages

Data Warehousing and Mining Overview

Uploaded by

Data Warehousing and Mining Overview

Uploaded by

Data Warehousing and Mining

Client Mediator Wrapper Wrapper

OLTP vs. OLAP

OLTP vs. OLAP

ROLAP vs. MOLAP

Tools required for:

performance monitoring, usage patterns, exception reporting

measure traffic (sources, warehouse, clients)

reliable scripts for cleaning & analyzing data

Data Mining is:

Examples of Large Datasets

WALMART: 20M transactions per day

MOBIL: 100 TB geological databases

AT&T 300 M calls per day

NASA, EOS project: 50 GB per hour

Examples of Data mining Applications

Marketing: customer targeting

Data Warehousing: Walmart

How Data Mining is used

The Data Mining Process

4. Interpret the results, and possibly return to 2

3. Choose the data mining task and the specific algorithm

Data Mining Tasks

Dependencies and associations Summarization

Data Mining Methods

Are All the Discovered Patterns Interesting?

based on statistics and structures of patterns, e.g., support, confidence, etc.

Why Data Preprocessing?

Why can Data be Incomplete?

Why can Data be Noisy/Inconsistent?

Major Tasks in Data Preprocessing

Integration of multiple databases or files

Normalization and aggregation

How to Handle Missing Data?

How to Handle Noisy Data? Smoothing techniques

Simple Discretization Methods: Binning

Example: customer ages

0-10 10-20 20-30 30-40 40-50 50-60 60-70 70-80

22-31 62-80 38-44 48-55 32-38 44-48 55-62

Normalization: Why normalization?

Data Reduction Strategies

Original Data Approximated

Example: Benefits for Healthcare Industry

Prevention of hospital errors

Management of pandemic diseases

Non-invasive diagnosis and decision support

Adverse drug event

Example: Usage in Digital Media Industry

Click Fraud Analysis

Network Usage Analysis

You might also like