0% found this document useful (0 votes)

177 views37 pages

Data Preprocessing Techniques Guide

The document provides an overview of data preprocessing techniques used in data mining. It discusses why preprocessing is important due to issues with real-world data being incomplete, noisy, and inconsistent. The key techniques covered are data cleaning, which involves filling in missing values, smoothing noise, and resolving inconsistencies; data integration, which combines data from multiple sources; data transformation such as normalization and attribute construction; and data reduction methods like aggregation and dimension reduction to reduce the overall data volume.

Uploaded by

maulidanqa123

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

177 views37 pages

Data Preprocessing Techniques Guide

Uploaded by

maulidanqa123

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 37

3.

Data Preprocessing

Prodi Informatika 2021

Anna Baita, M. Kom.

Fakultas Ilmu Komputer

Outline

SCPMK 1683903: Mahasiswa dapat menerapkan teknik pre-processing [CPMK39]

The students can apply pre-processing techniques.

• Outline:
• What & Why preprocess the data?
• Data Cleaning
• Data Integration
• Data Transformation
• Data reduction

2
Data Preprocessing

It is a data mining technique that involves transforming

raw data into an understable format
Why PreProcess The data??
Why Preprocess the data?

Data in the real world is:

✓incomplete: lacking value, certain attributes of interest
✓noisy: containing error or outlier
✓inconsistent: lack of compatibility or similarity between two
or more fact

No quality data, No quality Mining result

✓Quality decisions must be based on quality data
✓Data warehouse needs consistent integration of quality data
Measure Of Data Quality

❑ Accuracy
❑ Completeness
❑ Consistency
❑ Timeliness
❑ Believability
❑ Value Added
❑ Interpretability
❑ Accessibility
Data Preprocessing Technique

1. Data Cleaning
2. Data Integration
3. Data Transformation
4. Data Reduction
Data Cleaning

Data Cleaning attempt to fill in

missing values, smooth out noise
while indentifying outliers and
correct inconsistensies in the
realworld data
Fill The Missing Value
Data Cleaning- Missing Value

1. Ignore The Tuple

• Ignore The Tuple

Data Cleaning- Missing Value

2. Fill the Missing Value Manually (Feasible)

3. Use a Global Constant
ex: “-”,
“unknown”
Data Cleaning- Missing Value

4. Use the Attribute Mean, or median Mean X2=66.1

Mean X4=0.22
Mean Y=69.44

66.1

69.44

66.1 0.22
Data Cleaning- Missing Value

3. Use The Most Probable Value

Predict using KNN, Regression,
Decission Tree, etc
14
smooth out noise
Data Cleaning- Noisy

Data Derau (Noise) : Adanya kesalahan kecil yang

random

Penyebab:
1. Kesalahan Instrumen
Pengumpul data
2. Masalah data Entri
3. Masalah transmisi data
4. Keterbatasan Teknologi
5. Tidak Konsisten dalam
penamaan.
Untuk mengatasinya harus
ex: “yogya” vs “jogja”
dilakukan smoothing
(dengan memperhatikan
nilai-nilai tetangga)
Data Cleaning- Noisy Data

✓ Binning
✓Clustering
✓Combined Computer and Human Inspection
Deteksi data yang mencurigakan tangani manusia
✓Regression
Data Cleaning- Noisy Data

Binning
Binning adalah sebuah proses untuk
mengelompokkan data ke dalam bagian-bagian
yang lebih kecil yang disebut bin berdasarkan
kriteria tertentu.

Langkah
1. Urutkan data
2. Partisi data tersebut ke dalam bin
3. Tentukan teknik Smoothing :
- by mean
- by boundaries
Data Cleaning- Noisy Data

1. Urutkan data
70,100,150,200,250,270,300,380,400

2. Misalnya jumlah bin 3

Bin 1 : 70,100,150
Bin 2 : 200,250,270
Bin 3 : 300,380,400
Data Cleaning- Noisy Data
Teknik Smoothing by Mean By mean :
Bin 1 : 70,100,150 Bin 1 : 107,107,107
Bin 2 : 200,250,270 Bin 2 : 240,240,240
Bin 3 : 300,380,400 Bin 3 : 360,360,360

In smoothing by bin means, each value

in a bin is replaced by the mean value
of the bin.
Data Cleaning- Noisy Data
Teknik Smoothing by Boundaries By boundaries :
Bin 1 : 70,100,150 Bin 1 : 70,70,150
Bin 2 : 200,250,270 Bin 2 : 200,270,270
Bin 3 : 300,380,400 Bin 3 : 300,400,400

In smoothing by bin boundaries, the

minimum and maximum values in a
given bin are identified as the bin
boundaries. Each bin value is then
replaced by the closest boundary
value.
Data Cleaning- Noisy Data

Clustering
Data pencilan : data yang menyimpang dari data
yang lainnya

Data pencilan dalam statistik disebut data

“outlier”

data pencilan boleh dibuang/diabaikan,

jumlah data pencilan umumnya tidak
banyak, hanya sekitar 2% dari jumlah data
Data Cleaning- Noisy Data

Regresi
correct inconsistensies
Data Cleaning- Inconsistent Data

• Manually, Using External References

• Knowledge Engineering tools
Data Integration

Data Integration implies combining of data

from multiple source into a coherent data
store (data warehouse)
Data Integration - Issue

• Entity Indentification problem

• Redudancy
• Tuple Duplication
• Detecting data value conflicts
Handling Redudant Data in Data Integration

• Redudant data occur often when integration of multiple databases

-the same attribute may have different names in different databases
-one attribute may be a "derived" attribute in another table.

• Redundant data may be able to be detected by correlation analysis

• Careful integration of multiple sources may help reduce/avoid redudancies
and inconsistencies and improve mining speed and quality
Data Integration

Data Source 1
Data Source 2

What Deferences??

Can the data be combined into one database?

Data Integration
Data Transformation

Transforming or consolidating data into mining suitable form is

known as data transformation
Smoothing

Agregation

Generalization

Normalization

Attribute Construction
Data Transformation

Smoothing: remove noise from data

Aggregation: Summarization, data cube construction
Generalization: Concept hierarchy climbing
Data Reduction

Data Reduction techniques are aplied to obtain a

reduce representation of the dataset that is much
smaller in volume, yet closely maintains the integrity
of base data
Data Reduction- Strategies

• Data cube aggregation

• Dimension Reduction
• Data Compression
• Numerosity Reduction
• Discretization and concept hierarchy generation
Text Pre processing???

35
Image Pre Processing??

36
Any Question

Big Data Analytics Overview and Notes
No ratings yet
Big Data Analytics Overview and Notes
9 pages
Data Mining: Classification & Prediction
No ratings yet
Data Mining: Classification & Prediction
16 pages
Hadoop Lab Manual
No ratings yet
Hadoop Lab Manual
92 pages
Feature Engg Pre Processing Python
No ratings yet
Feature Engg Pre Processing Python
68 pages
Lab 1: Preprocessing Using Python
No ratings yet
Lab 1: Preprocessing Using Python
5 pages
DWDM Unit 6 Cluster Analysis
No ratings yet
DWDM Unit 6 Cluster Analysis
183 pages
4-Data Cleaning, Data Integration, Data Transformation, Data Reduction-03-02-2024
No ratings yet
4-Data Cleaning, Data Integration, Data Transformation, Data Reduction-03-02-2024
22 pages
Unit-5 DWDM Material
No ratings yet
Unit-5 DWDM Material
19 pages
Ocs353 DSF Unit III Notes
No ratings yet
Ocs353 DSF Unit III Notes
11 pages
Introduction To Data Science and Machine Learning
No ratings yet
Introduction To Data Science and Machine Learning
23 pages
Viralheat Inc. Tech Stack Overview
No ratings yet
Viralheat Inc. Tech Stack Overview
68 pages
UNIT-III Data Warehouse and Minig Notes MDU
No ratings yet
UNIT-III Data Warehouse and Minig Notes MDU
42 pages
JSP Program
No ratings yet
JSP Program
10 pages
Chapter2 UML
No ratings yet
Chapter2 UML
38 pages
Unit 3 Classification
No ratings yet
Unit 3 Classification
71 pages
OMT
No ratings yet
OMT
19 pages
Big Data Unit 1
No ratings yet
Big Data Unit 1
21 pages
Data Preprocessing
No ratings yet
Data Preprocessing
22 pages
Dimensionality Reduction Techniques Explained
No ratings yet
Dimensionality Reduction Techniques Explained
35 pages
Design and Analysis Algorithms Lecture Notes
100% (1)
Design and Analysis Algorithms Lecture Notes
116 pages
Data Mining: Association Rules Basics
No ratings yet
Data Mining: Association Rules Basics
31 pages
FSD Unit III
No ratings yet
FSD Unit III
22 pages
Introduction to Database Management
100% (1)
Introduction to Database Management
22 pages
Data Preprocessing
No ratings yet
Data Preprocessing
77 pages
Final UNIT II-DESCRIPTIVE ANALYTICS
100% (1)
Final UNIT II-DESCRIPTIVE ANALYTICS
128 pages
Comprehensive Data Mining Guide
No ratings yet
Comprehensive Data Mining Guide
52 pages
Data Science Techniques Overview
No ratings yet
Data Science Techniques Overview
5 pages
Gaussian Mixture Models Unit-III
No ratings yet
Gaussian Mixture Models Unit-III
13 pages
Design Patterns in Smalltalk MVC
100% (1)
Design Patterns in Smalltalk MVC
23 pages
Decision Tree Induction
No ratings yet
Decision Tree Induction
23 pages
Data Discretization Techniques
No ratings yet
Data Discretization Techniques
21 pages
Single-Layer Perceptron Guide
No ratings yet
Single-Layer Perceptron Guide
39 pages
Unit II - Data Science
No ratings yet
Unit II - Data Science
113 pages
Exploratory Data Analysis Overview
No ratings yet
Exploratory Data Analysis Overview
34 pages
UNIT - 2 .DataScience 04.09.18
No ratings yet
UNIT - 2 .DataScience 04.09.18
53 pages
ML Unit 2
No ratings yet
ML Unit 2
25 pages
Unit 2 - Data Preprocessing
No ratings yet
Unit 2 - Data Preprocessing
23 pages
MLT Unit 3
100% (1)
MLT Unit 3
38 pages
Web Mining and Text Mining
No ratings yet
Web Mining and Text Mining
65 pages
Unit 5
No ratings yet
Unit 5
20 pages
CCS354 Network Security
No ratings yet
CCS354 Network Security
87 pages
Concepts and Techniques: Data Mining
100% (1)
Concepts and Techniques: Data Mining
81 pages
Benefits of Early Test Design
No ratings yet
Benefits of Early Test Design
8 pages
Data Mining Course Handout BITS Goa
No ratings yet
Data Mining Course Handout BITS Goa
4 pages
Rajesh (DL Unit1) 04dec2024
No ratings yet
Rajesh (DL Unit1) 04dec2024
125 pages
Data Analytics Unit III
No ratings yet
Data Analytics Unit III
15 pages
Data Warehousing and Mining
No ratings yet
Data Warehousing and Mining
2 pages
Fdsa Unit 3
No ratings yet
Fdsa Unit 3
42 pages
Btech Cse & Aids DWDM Material - 2025
100% (1)
Btech Cse & Aids DWDM Material - 2025
45 pages
6 1 Mining Complex Data
No ratings yet
6 1 Mining Complex Data
69 pages
Currency Recognition Ppt3-2
No ratings yet
Currency Recognition Ppt3-2
18 pages
Aiml Unit 4
No ratings yet
Aiml Unit 4
26 pages
Evaluation Hypothesis New
No ratings yet
Evaluation Hypothesis New
55 pages
CS-DM Module-2
No ratings yet
CS-DM Module-2
30 pages
CS-DM Module-2
No ratings yet
CS-DM Module-2
29 pages
Unit 1datapre Processing Datacleaningtransformationreductionintegration 240509092339 7095c9af
No ratings yet
Unit 1datapre Processing Datacleaningtransformationreductionintegration 240509092339 7095c9af
88 pages
Unit-2 Preprocessing
No ratings yet
Unit-2 Preprocessing
18 pages
DWDM Unit 2
No ratings yet
DWDM Unit 2
20 pages
DWM
No ratings yet
DWM
14 pages
UNIT 3 Data Preprocessing
No ratings yet
UNIT 3 Data Preprocessing
22 pages
NCPCC 120,000 MTPA N-Butanol Plant Design
100% (1)
NCPCC 120,000 MTPA N-Butanol Plant Design
5 pages
Parts Inventory List
No ratings yet
Parts Inventory List
4 pages
Nadca Alucast India: EC-506 Engineering Die Casting Dies
100% (1)
Nadca Alucast India: EC-506 Engineering Die Casting Dies
161 pages
Understanding Christian Virtues
100% (1)
Understanding Christian Virtues
8 pages
Campus Revitalization Master Plan
No ratings yet
Campus Revitalization Master Plan
94 pages
MATHS LIT P2 MEMO GR11 NOVEMBER 2023 - English - Hlayiso - Com
100% (1)
MATHS LIT P2 MEMO GR11 NOVEMBER 2023 - English - Hlayiso - Com
9 pages
Cme392 - Power Generation Equipment Design Set1
No ratings yet
Cme392 - Power Generation Equipment Design Set1
3 pages
Ujian Bahasa Inggris SMA Negeri 3 Bantul
No ratings yet
Ujian Bahasa Inggris SMA Negeri 3 Bantul
8 pages
Engbert, 2008
No ratings yet
Engbert, 2008
12 pages
Fyjc Commerce Subject - Economics I Semester Examination (Question Bank)
No ratings yet
Fyjc Commerce Subject - Economics I Semester Examination (Question Bank)
7 pages
Altruistic Behavior in Rhesus Monkeys
No ratings yet
Altruistic Behavior in Rhesus Monkeys
2 pages
Quidway NetEngine 20 20E Series Router Order Information
No ratings yet
Quidway NetEngine 20 20E Series Router Order Information
6 pages
DR 400 - SB 17 - DX-D 40 Detectors With Random Dark Artifacts
No ratings yet
DR 400 - SB 17 - DX-D 40 Detectors With Random Dark Artifacts
6 pages
Integral City 37 Reframing Complex Challenges For Gaias Human Hives Marilyn Hamilton Complete Edition
No ratings yet
Integral City 37 Reframing Complex Challenges For Gaias Human Hives Marilyn Hamilton Complete Edition
34 pages
ColliersQuarterly Jakarta Hotel Q3 2025
No ratings yet
ColliersQuarterly Jakarta Hotel Q3 2025
7 pages
Bluetooth: Communication and Connection
No ratings yet
Bluetooth: Communication and Connection
5 pages
Emis Userguide
No ratings yet
Emis Userguide
54 pages
Supplement (GB)
No ratings yet
Supplement (GB)
62 pages
For Loop and While Loop Q
No ratings yet
For Loop and While Loop Q
4 pages
A Smart Building Automation System: International Journal of Smart Home September 2016
No ratings yet
A Smart Building Automation System: International Journal of Smart Home September 2016
9 pages
First Periodical Test - 1 Semester Physical Education and Health 3 Shs-Grade 12
50% (2)
First Periodical Test - 1 Semester Physical Education and Health 3 Shs-Grade 12
4 pages
Assigment 3: Unique No:795129
No ratings yet
Assigment 3: Unique No:795129
4 pages
Fever in Adults
No ratings yet
Fever in Adults
7 pages
Betting Against Beta - Frazzini and Pedersen
No ratings yet
Betting Against Beta - Frazzini and Pedersen
25 pages
Bring Me Back: By: J. Palaad
No ratings yet
Bring Me Back: By: J. Palaad
62 pages
FM CID 021 Technical Assistance Plan
No ratings yet
FM CID 021 Technical Assistance Plan
4 pages
Expectations and God's Promises
0% (1)
Expectations and God's Promises
4 pages
XII W.S. PPT of JOB APPLICATION
No ratings yet
XII W.S. PPT of JOB APPLICATION
19 pages
Master of Business Administration: Employee Welfare
No ratings yet
Master of Business Administration: Employee Welfare
4 pages
Boot Problems
No ratings yet
Boot Problems
3 pages

Data Preprocessing Techniques Guide

Uploaded by

Data Preprocessing Techniques Guide

Uploaded by

3.

Prodi Informatika 2021

Anna Baita, M. Kom.

Fakultas Ilmu Komputer

SCPMK 1683903: Mahasiswa dapat menerapkan teknik pre-processing [CPMK39]

It is a data mining technique that involves transforming

Data in the real world is:

No quality data, No quality Mining result

Data Cleaning attempt to fill in

1. Ignore The Tuple

• Ignore The Tuple

2. Fill the Missing Value Manually (Feasible)

4. Use the Attribute Mean, or median Mean X2=66.1

3. Use The Most Probable Value

Data Derau (Noise) : Adanya kesalahan kecil yang

2. Misalnya jumlah bin 3

In smoothing by bin means, each value

In smoothing by bin boundaries, the

Data pencilan dalam statistik disebut data

data pencilan boleh dibuang/diabaikan,

• Manually, Using External References

Data Integration implies combining of data

• Entity Indentification problem

• Redudant data occur often when integration of multiple databases

• Redundant data may be able to be detected by correlation analysis

Can the data be combined into one database?

Transforming or consolidating data into mining suitable form is

Smoothing: remove noise from data

Data Reduction techniques are aplied to obtain a

• Data cube aggregation

You might also like