0% found this document useful (0 votes)

159 views15 pages

Data Preprocessing Techniques Overview

This chapter discusses data preprocessing techniques. It covers data cleaning, integration, reduction, and transformation. Data transformation techniques include normalization, discretization, and concept hierarchy generation. Discretization methods include binning, clustering, and decision tree analysis. The goal of data preprocessing is to prepare raw data for further analysis by handling data quality issues and reducing data volume while preserving the original information content.

Uploaded by

Asma Batool Naqvi

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

159 views15 pages

Data Preprocessing Techniques Overview

Uploaded by

Asma Batool Naqvi

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

Chapter 3: Data Preprocessing

 Data Preprocessing: An Overview

 Data Quality
 Major Tasks in Data Preprocessing
 Data Cleaning
 Data Integration
 Data Reduction
 Data Transformation and Data Discretization
 Summary
1
Data Transformation
 A function that maps the entire set of values of a given attribute to a
new set of replacement values s.t. each old value can be identified with
one of the new values
 Methods
 Smoothing: Remove noise from data
 Attribute/feature construction
 New attributes constructed from the given ones
 Aggregation: Summarization, data cube construction
 Normalization: Scaled to fall within a smaller, specified range
 min-max normalization
 z-score normalization
 normalization by decimal scaling
 Discretization: Concept hierarchy climbing
2
Normalization
 Min-max normalization: to [new_minA, new_maxA]
v  minA
v'  (new _ maxA  new _ minA)  new _ minA
maxA  minA
 Ex. Let income range $12,000 to $98,000
73,600  12normalized
,000 to [0.0,
(1.0  0)  0  0.716
1.0]. Then $73,600 is mapped to 98, 000  12, 000

 Z-score normalization (μ: mean, σ: standard deviation):

v  A
v' 
 A

73,600  54,000
 1.225
 Ex. Let μ = 54,000, σ = 16,000. Then 16,000
 Normalization by decimal scaling
v
v'  j Where j is the smallest integer such that Max(|ν’|) < 1
10
3
Discretization
 Three types of attributes
 Nominal—values from an unordered set, e.g., color, profession
 Ordinal—values from an ordered set, e.g., military or academic
rank
 Numeric—real numbers, e.g., integer or real numbers
 Discretization: Divide the range of a continuous attribute into intervals
 Interval labels can then be used to replace actual data values
 Reduce data size by discretization
 Supervised vs. unsupervised
 Split (top-down) vs. merge (bottom-up)
 Discretization can be performed recursively on an attribute
 Prepare for further analysis, e.g., classification

4
Data Discretization Methods
 Typical methods: All the methods can be applied recursively
 Binning
 Top-down split, unsupervised
 Histogram analysis
 Top-down split, unsupervised
 Clustering analysis (unsupervised, top-down split or
bottom-up merge)
 Decision-tree analysis (supervised, top-down split)
 Correlation (e.g., 2) analysis (unsupervised, bottom-up
merge)

5
Simple Discretization: Binning

 Equal-width (distance) partitioning

 Divides the range into N intervals of equal size: uniform grid
 if A and B are the lowest and highest values of the attribute, the
width of intervals will be: W = (B –A)/N.
 The most straightforward, but outliers may dominate presentation
 Skewed data is not handled well
 Equal-depth (frequency) partitioning
 Divides the range into N intervals, each containing approximately
same number of samples
 Good data scaling
 Managing categorical attributes can be tricky
6
Binning Methods for Data Smoothing
 Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28,
29, 34
* Partition into equal-frequency (equi-depth) bins:
- Bin 1: 4, 8, 9, 15
- Bin 2: 21, 21, 24, 25
- Bin 3: 26, 28, 29, 34
* Smoothing by bin means:
- Bin 1: 9, 9, 9, 9
- Bin 2: 23, 23, 23, 23
- Bin 3: 29, 29, 29, 29
* Smoothing by bin boundaries:
- Bin 1: 4, 4, 4, 15
- Bin 2: 21, 21, 25, 25
- Bin 3: 26, 26, 26, 34
7
Discretization Without Using Class Labels
(Binning vs. Clustering)

Data Equal interval width

(binning)

Equal frequency (binning) K-means clustering leads to better

results
8
Discretization by Classification &
Correlation Analysis
 Classification (e.g., decision tree analysis)
 Supervised: Given class labels, e.g., cancerous vs. benign
 Using entropy to determine split point (discretization point)
 Top-down, recursive split
 Details to be covered in Chapter 7
 Correlation analysis (e.g., Chi-merge: χ2-based discretization)
 Supervised: use class information
 Bottom-up merge: find the best neighboring intervals (those having
similar distributions of classes, i.e., low χ2 values) to merge
 Merge performed recursively, until a predefined stopping condition

9
Concept Hierarchy Generation
 Concept hierarchy organizes concepts (i.e., attribute values)
hierarchically and is usually associated with each dimension in a data
warehouse
 Concept hierarchies facilitate drilling and rolling in data warehouses to
view data in multiple granularity
 Concept hierarchy formation: Recursively reduce the data by collecting
and replacing low level concepts (such as numeric values for age) by
higher level concepts (such as youth, adult, or senior)
 Concept hierarchies can be explicitly specified by domain experts
and/or data warehouse designers
 Concept hierarchy can be automatically formed for both numeric and
nominal data. For numeric data, use discretization methods shown.

10
Concept Hierarchy Generation
for Nominal Data
 Specification of a partial/total ordering of attributes
explicitly at the schema level by users or experts
 street < city < state < country
 Specification of a hierarchy for a set of values by explicit
data grouping
 {Urbana, Champaign, Chicago} < Illinois
 Specification of only a partial set of attributes
 E.g., only street < city, not others
 Automatic generation of hierarchies (or attribute levels) by
the analysis of the number of distinct values
 E.g., for a set of attributes: {street, city, state, country}
11
Automatic Concept Hierarchy Generation
 Some hierarchies can be automatically generated based on
the analysis of the number of distinct values per attribute in
the data set
 The attribute with the most distinct values is placed at

the lowest level of the hierarchy

 Exceptions, e.g., weekday, month, quarter, year

country 15 distinct values

province_or_ state 365 distinct values

city 3567 distinct values

street 674,339 distinct values

12
Chapter 3: Data Preprocessing

 Data Preprocessing: An Overview

 Data Quality
 Major Tasks in Data Preprocessing
 Data Cleaning
 Data Integration
 Data Reduction
 Data Transformation and Data Discretization
 Summary
13
Summary
 Data quality: accuracy, completeness, consistency, timeliness,
believability, interpretability
 Data cleaning: e.g. missing/noisy values, outliers
 Data integration from multiple sources:
 Entity identification problem

 Remove redundancies

 Detect inconsistencies

 Data reduction
 Dimensionality reduction

 Numerosity reduction

 Data compression

 Data transformation and data discretization

 Normalization

 Concept hierarchy generation

14
References
 D. P. Ballou and G. K. Tayi. Enhancing data quality in data warehouse environments. Comm. of
ACM, 42:73-78, 1999
 A. Bruce, D. Donoho, and H.-Y. Gao. Wavelet analysis. IEEE Spectrum, Oct 1996
 T. Dasu and T. Johnson. Exploratory Data Mining and Data Cleaning. John Wiley, 2003
 J. Devore and R. Peck. Statistics: The Exploration and Analysis of Data. Duxbury Press, 1997.
 H. Galhardas, D. Florescu, D. Shasha, E. Simon, and C.-A. Saita. Declarative data cleaning:
Language, model, and algorithms. VLDB'01
 M. Hua and J. Pei. Cleaning disguised missing data: A heuristic approach. KDD'07
 H. V. Jagadish, et al., Special Issue on Data Reduction Techniques. Bulletin of the Technical
Committee on Data Engineering, 20(4), Dec. 1997
 H. Liu and H. Motoda (eds.). Feature Extraction, Construction, and Selection: A Data Mining
Perspective. Kluwer Academic, 1998
 J. E. Olson. Data Quality: The Accuracy Dimension. Morgan Kaufmann, 2003
 D. Pyle. Data Preparation for Data Mining. Morgan Kaufmann, 1999
 V. Raman and J. Hellerstein. Potters Wheel: An Interactive Framework for Data Cleaning and
Transformation, VLDB’2001
 T. Redman. Data Quality: The Field Guide. Digital Press (Elsevier), 2001
 R. Wang, V. Storey, and C. Firth. A framework for analysis of data quality research. IEEE Trans.
Knowledge and Data Engineering, 7:623-640, 1995
15

L6 Data Preprocessing
No ratings yet
L6 Data Preprocessing
9 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
52 pages
DM Data Transformation Techniques
No ratings yet
DM Data Transformation Techniques
25 pages
CH 3
No ratings yet
CH 3
68 pages
Data Mining CSE-443: Ayesha Aziz Prova Lecturer, Dept. of CSE CWU
No ratings yet
Data Mining CSE-443: Ayesha Aziz Prova Lecturer, Dept. of CSE CWU
21 pages
AI351 Lecture 1
No ratings yet
AI351 Lecture 1
32 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
50 pages
Data Preprocessing Techniques Guide
No ratings yet
Data Preprocessing Techniques Guide
35 pages
Data Pre-Processing: Data Preprocessing Describes Any Type of Processing Performed On Raw Data To Prepare It For
No ratings yet
Data Pre-Processing: Data Preprocessing Describes Any Type of Processing Performed On Raw Data To Prepare It For
57 pages
Data Preprocessing Techniques
No ratings yet
Data Preprocessing Techniques
68 pages
Data Discretization and Hierarchy Generation
No ratings yet
Data Discretization and Hierarchy Generation
48 pages
Chapter 3
No ratings yet
Chapter 3
43 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
41 pages
Chapter 3
No ratings yet
Chapter 3
50 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
77 pages
Module 2 (C) - Data Preprocessing
No ratings yet
Module 2 (C) - Data Preprocessing
50 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
86 pages
ICS 2408 - Lecture 2 - Data Preprocessing
No ratings yet
ICS 2408 - Lecture 2 - Data Preprocessing
29 pages
Data Preprocessing Techniques in Data Mining
0% (1)
Data Preprocessing Techniques in Data Mining
46 pages
Module1.5 Preprocessing
No ratings yet
Module1.5 Preprocessing
40 pages
Data Preprocessing and Discretization Techniques
No ratings yet
Data Preprocessing and Discretization Techniques
12 pages
Data Preprocessing Techniques in Mining
No ratings yet
Data Preprocessing Techniques in Mining
52 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
52 pages
Data Mining and Data Warehousing CSPC-308
No ratings yet
Data Mining and Data Warehousing CSPC-308
51 pages
Data Preprocessing
No ratings yet
Data Preprocessing
77 pages
Week 2 - Data Quality
No ratings yet
Week 2 - Data Quality
43 pages
Knowledge Discovery and Data Mining
No ratings yet
Knowledge Discovery and Data Mining
55 pages
Data Preprocessing Techniques Explained
100% (1)
Data Preprocessing Techniques Explained
109 pages
Data Preprocessing in Data Warehousing
No ratings yet
Data Preprocessing in Data Warehousing
67 pages
Data Preprocessing Techniques Overview
No ratings yet
Data Preprocessing Techniques Overview
66 pages
Pre Processing
No ratings yet
Pre Processing
68 pages
Essential Data Preprocessing Techniques
No ratings yet
Essential Data Preprocessing Techniques
52 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
48 pages
04 DM BI Data Preprocessing
No ratings yet
04 DM BI Data Preprocessing
93 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
43 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
52 pages
3 Preprocessing
No ratings yet
3 Preprocessing
27 pages
Data Preprocessing Techniques in Mining
No ratings yet
Data Preprocessing Techniques in Mining
25 pages
Lecture 123
No ratings yet
Lecture 123
20 pages
Data Preprocessing Techniques in Mining
No ratings yet
Data Preprocessing Techniques in Mining
18 pages
Week 2
No ratings yet
Week 2
96 pages
Session-2-CO3-Introduction To Data Preprocessing
No ratings yet
Session-2-CO3-Introduction To Data Preprocessing
39 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
67 pages
UNIT 3 Data Preprocessing
No ratings yet
UNIT 3 Data Preprocessing
22 pages
Data Preprocessing Techniques in Data Mining
No ratings yet
Data Preprocessing Techniques in Data Mining
49 pages
Big Data Lecture # 04
No ratings yet
Big Data Lecture # 04
22 pages
Preprocessing Techniques
No ratings yet
Preprocessing Techniques
63 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
62 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
61 pages
Data Preprocessing
No ratings yet
Data Preprocessing
15 pages
Importance of Data Preprocessing in Mining
No ratings yet
Importance of Data Preprocessing in Mining
77 pages
Lecture Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
No ratings yet
Lecture Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
40 pages
Data Preprocessing Guide
No ratings yet
Data Preprocessing Guide
19 pages
Coordination and Response.
No ratings yet
Coordination and Response.
71 pages
Ramadan Calendar For Children
No ratings yet
Ramadan Calendar For Children
11 pages
Ramadan Planner.
No ratings yet
Ramadan Planner.
43 pages
Chemistry Exam Answer Key and Marks
No ratings yet
Chemistry Exam Answer Key and Marks
10 pages
Understanding Data Objects and Attributes
No ratings yet
Understanding Data Objects and Attributes
17 pages
Data Mining: Representation & Tasks
No ratings yet
Data Mining: Representation & Tasks
30 pages
Data Mining: Understanding Data Basics
No ratings yet
Data Mining: Understanding Data Basics
44 pages
Physics Speed-Time Graph Exercises
No ratings yet
Physics Speed-Time Graph Exercises
12 pages
7+ 8+ So'zlar Ro'yxati
No ratings yet
7+ 8+ So'zlar Ro'yxati
11 pages
An Effective Fabric Cut Plan Can Be Made by Following These Tested Techniques
No ratings yet
An Effective Fabric Cut Plan Can Be Made by Following These Tested Techniques
4 pages
ISO Process
100% (2)
ISO Process
1 page
Twe 24 - 28 - 40 Eng Eu
No ratings yet
Twe 24 - 28 - 40 Eng Eu
2 pages
PowerCube 1000 V300R008C00 Installation Guide (RuralStar Pro Solar Power Supply Solution) PDF
No ratings yet
PowerCube 1000 V300R008C00 Installation Guide (RuralStar Pro Solar Power Supply Solution) PDF
140 pages
Eddy-Current Testing - Wikipedia PDF
No ratings yet
Eddy-Current Testing - Wikipedia PDF
5 pages
Ratio&Proportion WS 1
No ratings yet
Ratio&Proportion WS 1
3 pages
Understanding Addictive Food Science
No ratings yet
Understanding Addictive Food Science
4 pages
Mukesh Sahani Account Statement 2025
No ratings yet
Mukesh Sahani Account Statement 2025
6 pages
SR5 TOOL Free Action&Interrupt Sheet
No ratings yet
SR5 TOOL Free Action&Interrupt Sheet
1 page
Ind-Swift Ltd. Pharma Prospects Analysis
No ratings yet
Ind-Swift Ltd. Pharma Prospects Analysis
80 pages
Overview BW Retail Master Data
100% (1)
Overview BW Retail Master Data
51 pages
WSP Global Structure Brochures - FINAL Low Res
No ratings yet
WSP Global Structure Brochures - FINAL Low Res
96 pages
Understanding Feelings with Adjectives
No ratings yet
Understanding Feelings with Adjectives
9 pages
Goldman Sachs - Operation - Summer Analyst
No ratings yet
Goldman Sachs - Operation - Summer Analyst
1 page
DATA ELMOT AND ELECTRICAL EQUIPMENT
No ratings yet
DATA ELMOT AND ELECTRICAL EQUIPMENT
11 pages
Listening and Grammar Practice Test 8
No ratings yet
Listening and Grammar Practice Test 8
6 pages
JDS Labs Atom Amp Setup Guide
No ratings yet
JDS Labs Atom Amp Setup Guide
7 pages
The Socio-Economic Effects of Farmers-Herders Clash On Crop Farmers in Nasarawa State
No ratings yet
The Socio-Economic Effects of Farmers-Herders Clash On Crop Farmers in Nasarawa State
21 pages
Quantum Gravity For Dummies
No ratings yet
Quantum Gravity For Dummies
7 pages
Miles Membership Order Estimate Details
100% (1)
Miles Membership Order Estimate Details
5 pages
Motion and Speed Calculations in Physics
No ratings yet
Motion and Speed Calculations in Physics
6 pages
Lateral Torsional Buckling Analysis
No ratings yet
Lateral Torsional Buckling Analysis
7 pages
Foresee: Automotive eMMC Datasheet
No ratings yet
Foresee: Automotive eMMC Datasheet
33 pages
Case Study - Rob Parson at Morgan Stanley
100% (17)
Case Study - Rob Parson at Morgan Stanley
9 pages
Legal Rights in Lawmaking Process
No ratings yet
Legal Rights in Lawmaking Process
13 pages
Structural Analysis Course Overview
No ratings yet
Structural Analysis Course Overview
8 pages
BRITA On Tap User Instructions
No ratings yet
BRITA On Tap User Instructions
48 pages
Instrument Transformers. Outdoor.: Medium Voltage
No ratings yet
Instrument Transformers. Outdoor.: Medium Voltage
28 pages

Data Preprocessing Techniques Overview

Uploaded by

Data Preprocessing Techniques Overview

Uploaded by

Chapter 3: Data Preprocessing

 Data Preprocessing: An Overview

 Z-score normalization (μ: mean, σ: standard deviation):

 Equal-width (distance) partitioning

Data Equal interval width

Equal frequency (binning) K-means clustering leads to better

the lowest level of the hierarchy

country 15 distinct values

province_or_ state 365 distinct values

city 3567 distinct values

street 674,339 distinct values

 Data Preprocessing: An Overview

 Data transformation and data discretization

 Concept hierarchy generation

You might also like