Data Preprocessing Before Classification: Presented by

Data preprocessing involves collecting data, preparing the data which includes handling missing data, categorical data, inconsistent data and outliers. The goals of preprocessing are to reduce noise, enhance the signal, reduce the input space through techniques like principal component analysis and eliminating correlated variables, perform feature extraction, and normalize the data. Common normalization techniques include min-max normalization and z-score normalization.

Uploaded by

A.J Khan

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

28 views

Data Preprocessing Before Classification: Presented by

Uploaded by

A.J Khan

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

You are on page 1/ 23

Data preprocessing before

classification
Presented By:
Outline
• Collecting data
• Preparing data
• Data preprocessing
Collecting data
Collecting data
• Collecting “example
patterns”
– Inputs (vectors of
independent variables)
– Outputs (vectors
dependent variables)
• More data is better
• Begin with an
elementary set of
data
Collecting data
• Choose an appropriate sampling rate for
time-series data.
• Make sure the data measurements units
are consistent.
• Keep non-essential variables not in the
input vector
• Make sure no major structural (systemic)
changes have occurred during collection.
Collecting data
• How much data is enough?
– Training and testing using a subset of data
– If the performance does not increase when full
data is used, data is enough
– There are statistical validating methods (Ch.11)
• Using simulated data
– When it is difficult to collect (sufficient) data
• Realistic
• Representative
Preparing data
Preparing data
• Handling
– Missing data
– Categorical data
– Inconsistent data and outliers
Missing data
• Discard incomplete example patterns
• Manually enter a reasonable, probable, or
expected values
• Use an statistic generated from the example
patterns with that value
– Mean, mode
• Encode missing values explicitly by creating new
indicator variables
• Generate a predictive model to predict each of
the missing data value
Categorical data
• Ordinal:
– Convert to a numerical representation in a
straightforward manner
– “Low”, “medium”, “high” => 0, 1, 2
• Nominal:
– “One of n” representation
– Encode the input variables as n different
binary inputs, when there are n distinct
categories.
Further process of “one of n”
• When n is too large, reduce the number of
inputs in the new encoding.
– Manually
– PCA-based reduction
• Reduce the one-of-n representation to a one-of-m
representation where m is less than n.
– Eigenvalue-based reduction
– Output variable-based reduction
Inconsistent data and outliers
• Removing erroneous data
• Identifying inconsistent data
– Thresholding, filtering
• Outliers
– Data points that lie outside of the normal
region of interest in the input space, which
may be
• Unusual situations that are “correct”
• Misleading or incorrect measurements
Outliers
• Ways to spot outliers
– Plot: box plot, histogram…
– Number of S.D. from the mean
• Handling outliers
– Remove them
• Assumption: the input space where the outliers reside are not
concerned
– “Winzorize” them
• Convert the values of outliers into the values of upper or
lower thresholds.
• Outliers can always be reintroduced into the
satisfying model to study the changes in the
performance of the model.
Ben Shabad
Data preprocessing
Reasons to preprocess data
• Reducing noise
• Enhancing the signal
• Reducing input space
• Feature extraction
• Normalizing data
• Modifying prior probabilities (specific for
classification)
Reducing noise
• Averaging data values
• Thresholding data
– Convert numeric format data into categorical
– E.g. grey-scale => monotone image
Reducing input space
• Principle component analysis (PCA)
– Identify m-dimensional subspace of the n-dimensional
input space
– original n variables are reduced to m variables that are
mutually orthogonal (independent)
• Eliminating correlated input variables
– Identify highly correlated input variables by
• Statistical correlation tests
• Visual inspection of graphed data variables
• Seeing if a data variable can be modeled using one or more
others.
Reducing input space
• Combining non-correlated input variables
• Sensitivity analysis
– If variations of a particular input variable
cause large changes in the estimation model
output, the variable is very significant.
– Sensitivity analysis prunes input variables
based on information provided by both input
and output data.
Normalizing data
• Not “transform to normal distribution”
• For models that perform better
– Non-parametric algorithms implicitly assume
distances in different directions carry the
same weight (e.g. K-nearest neighbor, ”KNN”)
– Backpropagation (BP) and multi-layered
perception (MLP) models often perform better
if all inputs and outputs are normalized
• Avoiding numerical problems
Types of normalization
• Min-max normalization
– It preserves all relationships of the data
values exactly
– It would compress the normal range if
extreme values or outliers exist
• Z-score normalization
• Sigmoidal normalization
Other considerations
• According to the characteristics of the
specific classifiers being used for modeling
– E.g. CHAID uses categorical data directly
• Input variables produce the best modeling
accuracy when exhibiting a uniform or
Gaussian distribution
• Add expert knowledge when preprocessing
data
Get prepared and then go!

Shell-180 Days of Reading For Grade4
100% (13)
Shell-180 Days of Reading For Grade4
242 pages
Volume 1 - History and Fundamentals
93% (15)
Volume 1 - History and Fundamentals
355 pages
Data Mining and Business Intelligence
No ratings yet
Data Mining and Business Intelligence
52 pages
Data Pre-Processing: - Data Cleaning - Data Integration - Data Transformation - Data Reduction - Data Discretization
No ratings yet
Data Pre-Processing: - Data Cleaning - Data Integration - Data Transformation - Data Reduction - Data Discretization
55 pages
Lect 2
No ratings yet
Lect 2
54 pages
3-Data Preprocessing
No ratings yet
3-Data Preprocessing
32 pages
Preprocessing
No ratings yet
Preprocessing
62 pages
Preprocessing
No ratings yet
Preprocessing
52 pages
Data Wrangling
No ratings yet
Data Wrangling
30 pages
Spatial and Temporal Data Mining
No ratings yet
Spatial and Temporal Data Mining
52 pages
CIS664-Knowledge Discovery and Data Mining
No ratings yet
CIS664-Knowledge Discovery and Data Mining
52 pages
Knowledge Discovery and Data Mining
No ratings yet
Knowledge Discovery and Data Mining
55 pages
CH1-data Preprocessing
No ratings yet
CH1-data Preprocessing
49 pages
Data Pre-Processing: Submitted By, R.Archana, 10ucs05 D.Gayathri, 10ucs11
No ratings yet
Data Pre-Processing: Submitted By, R.Archana, 10ucs05 D.Gayathri, 10ucs11
18 pages
Supervised Learning 1 PDF
100% (1)
Supervised Learning 1 PDF
162 pages
4 - Finding and Fixing Data Quality Issues
No ratings yet
4 - Finding and Fixing Data Quality Issues
48 pages
02.data Preprocessing PDF
100% (1)
02.data Preprocessing PDF
31 pages
Week 2 - Data Quality
No ratings yet
Week 2 - Data Quality
43 pages
Cap6 - Data Reduction
No ratings yet
Cap6 - Data Reduction
27 pages
JAVA Advanced 3
No ratings yet
JAVA Advanced 3
19 pages
Unit-2Exploratory-Analysis
No ratings yet
Unit-2Exploratory-Analysis
37 pages
UNIT02
No ratings yet
UNIT02
41 pages
Data Reduction
No ratings yet
Data Reduction
28 pages
13. DM 02 04 Data Transformation (1)
No ratings yet
13. DM 02 04 Data Transformation (1)
49 pages
1737527078055
No ratings yet
1737527078055
111 pages
U3 Prob & Stat & Hypo
No ratings yet
U3 Prob & Stat & Hypo
80 pages
Slide 2 - Data Preprocessing
100% (1)
Slide 2 - Data Preprocessing
39 pages
Chapter 3 - Data Pre-Processing Notes
No ratings yet
Chapter 3 - Data Pre-Processing Notes
8 pages
Dimensionality Reduction
No ratings yet
Dimensionality Reduction
19 pages
DM Lect3
No ratings yet
DM Lect3
41 pages
UpdatedUnit 1 Data Preprocessing
No ratings yet
UpdatedUnit 1 Data Preprocessing
38 pages
Chapter 2 Data Preprocessing
No ratings yet
Chapter 2 Data Preprocessing
23 pages
Insy662 - f23 - Week 1
No ratings yet
Insy662 - f23 - Week 1
21 pages
Data Preprocessing
100% (1)
Data Preprocessing
33 pages
Lecture-11 - Feature Scaling
No ratings yet
Lecture-11 - Feature Scaling
26 pages
253777
No ratings yet
253777
66 pages
3 Ravi
No ratings yet
3 Ravi
82 pages
2_DataPreProcessing_code
No ratings yet
2_DataPreProcessing_code
46 pages
A Short Course in Multivariate Statistical Methods With R
No ratings yet
A Short Course in Multivariate Statistical Methods With R
11 pages
Eda
No ratings yet
Eda
48 pages
Spss
No ratings yet
Spss
42 pages
Week2-2
No ratings yet
Week2-2
25 pages
Preprocessing
No ratings yet
Preprocessing
50 pages
Unit - 3: Big Data Analytics
No ratings yet
Unit - 3: Big Data Analytics
23 pages
Module 8
No ratings yet
Module 8
13 pages
Machine Learning (1) : Inteligência Artificial E Cibersegurança (Inacs)
No ratings yet
Machine Learning (1) : Inteligência Artificial E Cibersegurança (Inacs)
33 pages
Data Mining and Data Warehousing - Data Preprocessing - L03
No ratings yet
Data Mining and Data Warehousing - Data Preprocessing - L03
10 pages
Data Preprocessing
No ratings yet
Data Preprocessing
77 pages
Quantitative Research Methods - Data Processing and Analysis
No ratings yet
Quantitative Research Methods - Data Processing and Analysis
25 pages
Lecture # 13 Data_Transformation_Techniques
No ratings yet
Lecture # 13 Data_Transformation_Techniques
36 pages
3_AML _Lecture 3_Feature Engg
No ratings yet
3_AML _Lecture 3_Feature Engg
39 pages
BUSINESS ANALYTICS
No ratings yet
BUSINESS ANALYTICS
14 pages
Estimating Missing Values of Heterogeneous Datasets by Clustering
No ratings yet
Estimating Missing Values of Heterogeneous Datasets by Clustering
24 pages
Lecture6a DataPreprocessing
No ratings yet
Lecture6a DataPreprocessing
52 pages
Unit 3
No ratings yet
Unit 3
55 pages
Lecture 05: Feature Engineering: Ms. Mehroz Sadiq
No ratings yet
Lecture 05: Feature Engineering: Ms. Mehroz Sadiq
69 pages
WINSEM2023-24 - BECE352E - ETH - VL2023240504409 - 2024-02-03 - Reference-Material-I 2
No ratings yet
WINSEM2023-24 - BECE352E - ETH - VL2023240504409 - 2024-02-03 - Reference-Material-I 2
16 pages
CH - 4
No ratings yet
CH - 4
71 pages
Unit 1
No ratings yet
Unit 1
38 pages
Illuminating Data: A hands on guide to data visualization in R
From Everand
Illuminating Data: A hands on guide to data visualization in R
Eman Ahmad
No ratings yet
Técnicas Estadísticas para la Ciencia de Datos a través de R. Aprendizaje Supervisado: Análisis Discriminante, Árboles de Decisión, Redes Neuronales y Modelos Lineales Generalizados
From Everand
Técnicas Estadísticas para la Ciencia de Datos a través de R. Aprendizaje Supervisado: Análisis Discriminante, Árboles de Decisión, Redes Neuronales y Modelos Lineales Generalizados
César Pérez López
No ratings yet
Random Sample Consensus: Robust Estimation in Computer Vision
From Everand
Random Sample Consensus: Robust Estimation in Computer Vision
Fouad Sabry
No ratings yet
Gripping Force Analysis of Jamia Hand
No ratings yet
Gripping Force Analysis of Jamia Hand
6 pages
All Research Logs
No ratings yet
All Research Logs
14 pages
NISSAN Pathfinder R51 EM (ENGINE MECHANICAL)
No ratings yet
NISSAN Pathfinder R51 EM (ENGINE MECHANICAL)
304 pages
Samsung E10T User Manual
No ratings yet
Samsung E10T User Manual
49 pages
Radioimmunoassay (Ria) : Dr. Reshma Raghu Department of Biochemistry, SJMCH
No ratings yet
Radioimmunoassay (Ria) : Dr. Reshma Raghu Department of Biochemistry, SJMCH
34 pages
Thesis On Irish Immigration
100% (3)
Thesis On Irish Immigration
6 pages
3rd Assessment Test
100% (1)
3rd Assessment Test
2 pages
Unit 15 Balneotherapy: 1. Warm-Up
No ratings yet
Unit 15 Balneotherapy: 1. Warm-Up
8 pages
TCP e UDP
No ratings yet
TCP e UDP
105 pages
Book - Discussion Questions
100% (1)
Book - Discussion Questions
88 pages
Chapter 3 Practice Questions
No ratings yet
Chapter 3 Practice Questions
10 pages
FAO Fisheries & Aquaculture - Cultured Aquatic Species Information Programme - Eucheuma SPP
No ratings yet
FAO Fisheries & Aquaculture - Cultured Aquatic Species Information Programme - Eucheuma SPP
10 pages
Harmonic Filter Analysis and Redesign For A Modern Steel Facility With Two Melt Furnaces Using Dedicated Capacitor Banks
No ratings yet
Harmonic Filter Analysis and Redesign For A Modern Steel Facility With Two Melt Furnaces Using Dedicated Capacitor Banks
7 pages
16.24-TMSS-01 (REV.01) - Metallic Cable Tray Systems
No ratings yet
16.24-TMSS-01 (REV.01) - Metallic Cable Tray Systems
3 pages
What Is The Secondary School Curriculum
100% (1)
What Is The Secondary School Curriculum
4 pages
Mock Unit04 Oligopoly
0% (1)
Mock Unit04 Oligopoly
3 pages
Mca 401
No ratings yet
Mca 401
10 pages
Parametric Design For Nepal
No ratings yet
Parametric Design For Nepal
19 pages
3 Steps To Managing Separation Anxiety
No ratings yet
3 Steps To Managing Separation Anxiety
29 pages
Instructions / Checklist For Filling KYC Form: Version 1.1 (July 2022)
No ratings yet
Instructions / Checklist For Filling KYC Form: Version 1.1 (July 2022)
24 pages
Questões - WG Exam
No ratings yet
Questões - WG Exam
17 pages
WBP SI Mains Question Paper 2022
No ratings yet
WBP SI Mains Question Paper 2022
10 pages
DANISH INSTITUTE OF NURSING & ALLIED HEALTH SCIENCES PPT
No ratings yet
DANISH INSTITUTE OF NURSING & ALLIED HEALTH SCIENCES PPT
35 pages
Pills and ESG - Subramanian
No ratings yet
Pills and ESG - Subramanian
23 pages
Manual Crystallizer - Ingles
No ratings yet
Manual Crystallizer - Ingles
24 pages
Framingham M.Ed Portfolio / Course Reflections
No ratings yet
Framingham M.Ed Portfolio / Course Reflections
23 pages
Azure - Intro To Azure Security (2017)
No ratings yet
Azure - Intro To Azure Security (2017)
19 pages
Get Veterinary Immunology Principles and Practice Second Edition Michael J. Day Free All Chapters
No ratings yet
Get Veterinary Immunology Principles and Practice Second Edition Michael J. Day Free All Chapters
60 pages