0% found this document useful (0 votes)

196 views15 pages

Data Mining: Model Overfitting Introduction To Data Mining, 2 Edition by Tan, Steinbach, Karpatne, Kumar

The document discusses model overfitting in machine learning. It provides examples of decision trees with increasing complexity trained on sample data, showing that complexity that fits the training data well can lead to poorer performance on test data. It describes reasons for overfitting like limited training data size and high model complexity. Methods to avoid overfitting discussed include using a validation set for model selection and incorporating model complexity as a factor.

Uploaded by

Yosua Siregar

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

196 views15 pages

Data Mining: Model Overfitting Introduction To Data Mining, 2 Edition by Tan, Steinbach, Karpatne, Kumar

Uploaded by

Yosua Siregar

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 15

Data Mining

Model Overfitting

Introduction to Data Mining, 2nd Edition

by
Tan, Steinbach, Karpatne, Kumar

03/26/2018 Introduction to Data Mining, 2nd Edition 1

Classification Errors

 Training errors (apparent errors)

– Errors committed on the training set

 Test errors
– Errors committed on the test set

 Generalization errors
– Expected error of a model over random
selection of records from same distribution

03/26/2018 Introduction to Data Mining, 2nd Edition 2

Example Data Set

Two class problem:

+ : 5200 instances
• 5000 instances generated
from a Gaussian centered at
(10,10)

• 200 noisy instances added

o : 5200 instances
• Generated from a uniform
distribution

10 % of the data used for

training and 90% of the
data used for testing

03/26/2018 Introduction to Data Mining, 2nd Edition 3

Increasing number of nodes in Decision Trees

03/26/2018 Introduction to Data Mining, 2nd Edition 4

Decision Tree with 4 nodes

Decision Tree

Decision boundaries on Training data

03/26/2018 Introduction to Data Mining, 2nd Edition 5

Decision Tree with 50 nodes

Decision Tree

Decision boundaries on Training data

03/26/2018 Introduction to Data Mining, 2nd Edition 6

Which tree is better?

Decision Tree with 4 nodes

Which tree is better ?

Decision Tree with 50 nodes

03/26/2018 Introduction to Data Mining, 2nd Edition 7

Model Overfitting

Underfitting: when model is too simple, both training and test errors are large
Overfitting: when model is too complex, training error is small but test error is large

03/26/2018 Introduction to Data Mining, 2nd Edition 8

Model Overfitting

Using twice the number of data instances

• If training data is under-representative, testing errors increase and training errors

decrease on increasing number of nodes
• Increasing the size of training data reduces the difference between training and
testing errors at a given number of nodes
03/26/2018 Introduction to Data Mining, 2nd Edition 9

Model Overfitting

Decision Tree with 50 nodes Decision Tree with 50 nodes

Using twice the number of data instances

• If training data is under-representative, testing errors increase and training errors

 Limited Training Size

 High Model Complexity

– Multiple Comparison Procedure

03/26/2018 Introduction to Data Mining, 2nd Edition 11

Effect of Multiple Comparison Procedure

 Consider the task of predicting whether Day 1 Up

stock market will rise/fall in the next 10 Day 2 Down
trading days
Day 3 Down
Day 4 Up
 Random guessing:
Day 5 Down
P(correct) = 0.5 Day 6 Down
Day 7 Up
 Make 10 random guesses in a row: Day 8 Up
Day 9 Up
10  10  10  Day 10 Down
       
8 9 10
P (# correct  8)     10     0.0547
2

03/26/2018 Introduction to Data Mining, 2nd Edition 12

Effect of Multiple Comparison Procedure

 Approach:
– Get 50 analysts
– Each analyst makes 10 random guesses
– Choose the analyst that makes the most
number of correct predictions

 Probability that at least one analyst makes at

least 8 correct predictions
P(# correct  8)  1  (1  0.0547)50  0.9399

03/26/2018 Introduction to Data Mining, 2nd Edition 13

Effect of Multiple Comparison Procedure

 Many algorithms employ the following greedy strategy:

– Initial model: M
– Alternative model: M’ = M  ,
where  is a component to be added to the model
(e.g., a test condition of a decision tree)
– Keep M’ if improvement, (M,M’) > 

 Often times,  is chosen from a set of alternative

components,  = {1, 2, …, k}

 If many alternatives are available, one may inadvertently

add irrelevant components to the model, resulting in
model overfitting

03/26/2018 Introduction to Data Mining, 2nd Edition 14

Effect of Multiple Comparison - Example

Use additional 100 noisy variables

generated from a uniform distribution
along with X and Y as attributes.

Use 30% of the data for training and

70% of the data for testing
Using only X and Y as attributes
03/26/2018 Introduction to Data Mining, 2nd Edition 15

Notes on Overfitting

 Overfitting results in decision trees that are more

complex than necessary

 Training error does not provide a good estimate

of how well the tree will perform on previously
unseen records

 Need ways for estimating generalization errors

03/26/2018 Introduction to Data Mining, 2nd Edition 16

Model Selection

 Performed during model building

 Purpose is to ensure that model is not overly
complex (to avoid overfitting)
 Need to estimate generalization error
– Using Validation Set
– Incorporating Model Complexity
– Estimating Statistical Bounds

03/26/2018 Introduction to Data Mining, 2nd Edition 17

Model Selection:
Using Validation Set
 Divide training data into two parts:
– Training set:
 use for model building
– Validation set:
 use for estimating generalization error
 Note: validation set is not the same as test set

 Drawback:
– Less data available for training

03/26/2018 Introduction to Data Mining, 2nd Edition 18

Model Selection:
Incorporating Model Complexity
 Rationale: Occam’s Razor
– Given two models of similar generalization errors,
one should prefer the simpler model over the more
complex model

– A complex model has a greater chance of being fitted

accidentally by errors in data

– Therefore, one should include model complexity when

evaluating a model

Gen. Error(Model) = Train. Error(Model, Train. Data) +

x Complexity(Model)
03/26/2018 Introduction to Data Mining, 2nd Edition 19

Estimating the Complexity of Decision Trees

 Pessimistic Error Estimate of decision tree T

with k leaf nodes:

– err(T): error rate on all training records

– : trade-off hyper-parameter (similar to )
Relative cost of adding a leaf node
– k: number of leaf nodes
– Ntrain: total number of training records

03/26/2018 Introduction to Data Mining, 2nd Edition 20

Estimating the Complexity of Decision Trees: Example

e(TL) = 4/24

e(TR) = 6/24

=1

egen(TL) = 4/24 + 1*7/24 = 11/24 = 0.458

egen(TR) = 6/24 + 1*4/24 = 10/24 = 0.417

03/26/2018 Introduction to Data Mining, 2nd Edition 21

Estimating the Complexity of Decision Trees

 Resubstitution Estimate:
– Using training error as an optimistic estimate of
generalization error
– Referred to as optimistic error estimate

e(TL) = 4/24

e(TR) = 6/24

03/26/2018 Introduction to Data Mining, 2nd Edition 22

Minimum Description Length (MDL)
A?
X y Yes No
X y
X1 1 0 B? X1 ?
X2 0 B1 B2
X2 ?
X3 0 C? 1
A C1 C2 B X3 ?
X4 1
0 1 X4 ?
… …
Xn
… …
1
Xn ?

 Cost(Model,Data) = Cost(Data|Model) + x Cost(Model)

– Cost is the number of bits needed for encoding.
– Search for the least costly model.
 Cost(Data|Model) encodes the misclassification errors.
 Cost(Model) uses node encoding (number of children)
plus splitting condition encoding.
03/26/2018 Introduction to Data Mining, 2nd Edition 23

Estimating Statistical Bounds

z2 / 2 e(1  e) z2 / 2
e  z / 2 
e' ( N , e,  )  2N N 4N 2
2
z / 2
1
N

Before splitting: e = 2/7, e’(7, 2/7, 0.25) = 0.503

e’(T) = 7  0.503 = 3.521

After splitting:

e(TL) = 1/4, e’(4, 1/4, 0.25) = 0.537

e(TR) = 1/3, e’(3, 1/3, 0.25) = 0.650

e’(T) = 4  0.537 + 3  0.650 = 4.098

Therefore, do not split

03/26/2018 Introduction to Data Mining, 2nd Edition 24
Model Selection for Decision Trees

 Pre-Pruning (Early Stopping Rule)

– Stop the algorithm before it becomes a fully-grown tree
– Typical stopping conditions for a node:
 Stop if all instances belong to the same class
 Stop if all the attribute values are the same
– More restrictive conditions:
 Stop if number of instances is less than some user-specified
threshold
 Stop if class distribution of instances are independent of the
available features (e.g., using  2 test)
 Stop if expanding the current node does not improve impurity
measures (e.g., Gini or information gain).
 Stop if estimated generalization error falls below certain threshold

03/26/2018 Introduction to Data Mining, 2nd Edition 25

Model Selection for Decision Trees

 Post-pruning
– Grow decision tree to its entirety
– Subtree replacement
 Trim the nodes of the decision tree in a bottom-up
fashion
 If generalization error improves after trimming,
replace sub-tree by a leaf node
 Class label of leaf node is determined from
majority class of instances in the sub-tree
– Subtree raising
 Replace subtree with most frequently used branch
03/26/2018 Introduction to Data Mining, 2nd Edition 26
Example of Post-Pruning
Training Error (Before splitting) = 10/30

Class = Yes 20 Pessimistic error = (10 + 0.5)/30 = 10.5/30

Class = No 10 Training Error (After splitting) = 9/30

Error = 10/30 Pessimistic error (After splitting)

= (9 + 4  0.5)/30 = 11/30
PRUNE!
A?

A1 A4
A2 A3

Class = Yes 8 Class = Yes 3 Class = Yes 4 Class = Yes 5

Class = No 4 Class = No 4 Class = No 1 Class = No 1

03/26/2018 Introduction to Data Mining, 2nd Edition 27

Examples of Post-pruning

03/26/2018 Introduction to Data Mining, 2nd Edition 28

Model Evaluation

 Purpose:
– To estimate performance of classifier on previously
unseen data (test set)

 Holdout
– Reserve k% for training and (100-k)% for testing
– Random subsampling: repeated holdout
 Cross validation
– Partition data into k disjoint subsets
– k-fold: train on k-1 partitions, test on the remaining one
– Leave-one-out: k=n

03/26/2018 Introduction to Data Mining, 2nd Edition 29

Cross-validation Example

 3-fold cross-validation

03/26/2018 Introduction to Data Mining, 2nd Edition 30

Chap5 02 Overfitting
No ratings yet
Chap5 02 Overfitting
17 pages
Data Mining for Analysts
No ratings yet
Data Mining for Analysts
30 pages
3 1 Overfitting
No ratings yet
3 1 Overfitting
25 pages
Chap3 Sec2 Overfitting
No ratings yet
Chap3 Sec2 Overfitting
22 pages
Classification: Basic Concepts, Decision Trees, and Model Evaluation
No ratings yet
Classification: Basic Concepts, Decision Trees, and Model Evaluation
25 pages
By Eesha Tur Razia Babar: 2/1/2021 Introduction To Data Mining, 2 Edition 1
No ratings yet
By Eesha Tur Razia Babar: 2/1/2021 Introduction To Data Mining, 2 Edition 1
63 pages
Data Mining: Ensemble Techniques Introduction To Data Mining, 2 Edition by Tan, Steinbach, Karpatne, Kumar
No ratings yet
Data Mining: Ensemble Techniques Introduction To Data Mining, 2 Edition by Tan, Steinbach, Karpatne, Kumar
11 pages
Data Mining Ensemble Techniques
No ratings yet
Data Mining Ensemble Techniques
21 pages
Data Mining Classification: Alternative Techniques
No ratings yet
Data Mining Classification: Alternative Techniques
14 pages
M6 - Model Overfitting
No ratings yet
M6 - Model Overfitting
30 pages
Unit 4 Data Mining Algorithms: Dr. Anjan Krishnamurthy Associate Professor Bmsit&M
No ratings yet
Unit 4 Data Mining Algorithms: Dr. Anjan Krishnamurthy Associate Professor Bmsit&M
95 pages
05 Chap3 - Basic - Classification Edited On Oct 10, 2023
No ratings yet
05 Chap3 - Basic - Classification Edited On Oct 10, 2023
78 pages
Rule Based Classifier
No ratings yet
Rule Based Classifier
14 pages
Pid Fuzzy Logic
No ratings yet
Pid Fuzzy Logic
15 pages
Chap4 - Basic - Classification - Class Teaching
No ratings yet
Chap4 - Basic - Classification - Class Teaching
168 pages
M01 Tree-Based Methods
No ratings yet
M01 Tree-Based Methods
38 pages
Chap4 Imbalanced Classes
No ratings yet
Chap4 Imbalanced Classes
28 pages
Decissin Tree & Over Fitting
No ratings yet
Decissin Tree & Over Fitting
22 pages
Chap3 Basic Classification
No ratings yet
Chap3 Basic Classification
63 pages
Data Mining Classification Basics
No ratings yet
Data Mining Classification Basics
50 pages
CH4 - Imbalanced Classes
No ratings yet
CH4 - Imbalanced Classes
18 pages
Lecture Notes For Chapter 3 Introduction To Data Mining, 2 Edition
No ratings yet
Lecture Notes For Chapter 3 Introduction To Data Mining, 2 Edition
76 pages
DM Chapter 4
No ratings yet
DM Chapter 4
47 pages
Classification & Prediction
No ratings yet
Classification & Prediction
78 pages
Classification Error: Training Errors Generalization Errors
No ratings yet
Classification Error: Training Errors Generalization Errors
39 pages
ML Imp Que
No ratings yet
ML Imp Que
57 pages
Chap4 Rule Based
No ratings yet
Chap4 Rule Based
27 pages
Chap2 Overview
No ratings yet
Chap2 Overview
17 pages
peterl/teaching/DM: E C I I
No ratings yet
peterl/teaching/DM: E C I I
8 pages
peterl/teaching/DM: E C I I
No ratings yet
peterl/teaching/DM: E C I I
8 pages
CH 4 - Classification Rule - Based Global Edition Edited Oct 17, 2024
No ratings yet
CH 4 - Classification Rule - Based Global Edition Edited Oct 17, 2024
28 pages
Artificial Neural Networks: Slides Are By: Tan, Steinbach, Karpatne, Kumar
No ratings yet
Artificial Neural Networks: Slides Are By: Tan, Steinbach, Karpatne, Kumar
26 pages
Lecture Notes For Chapter 4 Rule-Based Introduction To Data Mining, 2 Edition
No ratings yet
Lecture Notes For Chapter 4 Rule-Based Introduction To Data Mining, 2 Edition
28 pages
Decision Trees for Data Mining Students
No ratings yet
Decision Trees for Data Mining Students
30 pages
Aiml Unit-4
No ratings yet
Aiml Unit-4
82 pages
Data Mining Introduction Guide
No ratings yet
Data Mining Introduction Guide
95 pages
Updated DM Unit 3
No ratings yet
Updated DM Unit 3
28 pages
AIML - UNIT-4 Modified
No ratings yet
AIML - UNIT-4 Modified
119 pages
Classification
No ratings yet
Classification
52 pages
DM Unit-3
No ratings yet
DM Unit-3
46 pages
Data Mining Course: Classification & Decision Trees
No ratings yet
Data Mining Course: Classification & Decision Trees
77 pages
Lecture Notes For Chapter 1: by Tan, Steinbach, Karpatne, Kumar
No ratings yet
Lecture Notes For Chapter 1: by Tan, Steinbach, Karpatne, Kumar
28 pages
ESSAY
No ratings yet
ESSAY
9 pages
Data Mining Classification Basics
No ratings yet
Data Mining Classification Basics
21 pages
DWM - Module 3
No ratings yet
DWM - Module 3
22 pages
Data Minning Unit 2-1
No ratings yet
Data Minning Unit 2-1
10 pages
Chapter 6. Decision Tree Classification
No ratings yet
Chapter 6. Decision Tree Classification
19 pages
Draft Xai
No ratings yet
Draft Xai
16 pages
08 Class Basic
No ratings yet
08 Class Basic
103 pages
RB's ML2 Notes
No ratings yet
RB's ML2 Notes
5 pages
Chap3 Basic Classification
No ratings yet
Chap3 Basic Classification
29 pages
CH 8 Data Mining
No ratings yet
CH 8 Data Mining
30 pages
Tutorial 1
No ratings yet
Tutorial 1
4 pages
Chapter 1
No ratings yet
Chapter 1
313 pages
Data Mining Classification Basics
No ratings yet
Data Mining Classification Basics
58 pages
Data Mining Classification: Alternative Techniques
No ratings yet
Data Mining Classification: Alternative Techniques
14 pages
Chap4 Naive Bayes
No ratings yet
Chap4 Naive Bayes
14 pages
M6 Classification Alternative
No ratings yet
M6 Classification Alternative
145 pages
RADIOSONDE
No ratings yet
RADIOSONDE
15 pages
Ortho Blailes 2000.compressed
No ratings yet
Ortho Blailes 2000.compressed
16 pages
Global Positioning System: Name: Taufiqurrahman Class: Instrumentasi 3B NPT: 41.16.0059
No ratings yet
Global Positioning System: Name: Taufiqurrahman Class: Instrumentasi 3B NPT: 41.16.0059
18 pages
Water Purification Tech Advances
No ratings yet
Water Purification Tech Advances
10 pages
Ztable 2
No ratings yet
Ztable 2
4 pages
English Speech
No ratings yet
English Speech
2 pages
A Hierarchical Fused Fuzzy Deep Neural Network For Data Classification
No ratings yet
A Hierarchical Fused Fuzzy Deep Neural Network For Data Classification
8 pages
Technical Presentation - Altimeters
100% (1)
Technical Presentation - Altimeters
13 pages
Wave Groups & Dispersion Analysis
No ratings yet
Wave Groups & Dispersion Analysis
16 pages
Data Mining Classification: Alternative Techniques
No ratings yet
Data Mining Classification: Alternative Techniques
15 pages
Bai 2017
No ratings yet
Bai 2017
14 pages
Data Mining: Support Vector Machines Introduction To Data Mining, 2 Edition by Tan, Steinbach, Karpatne, Kumar
No ratings yet
Data Mining: Support Vector Machines Introduction To Data Mining, 2 Edition by Tan, Steinbach, Karpatne, Kumar
12 pages
LSE IDEAS New Geopolitics of Southeast Asia
100% (3)
LSE IDEAS New Geopolitics of Southeast Asia
92 pages
Winsc: - Winsc Will Wake Up The Workhorse, and Allow You To Do The Following
No ratings yet
Winsc: - Winsc Will Wake Up The Workhorse, and Allow You To Do The Following
42 pages
Assessing Wildfire Vulnerability of Vegetated Serpentine Soils in The Balkan Peninsula
No ratings yet
Assessing Wildfire Vulnerability of Vegetated Serpentine Soils in The Balkan Peninsula
13 pages
CEL 2106 - Material 3
No ratings yet
CEL 2106 - Material 3
12 pages
Data Types, Variables, and Constants
No ratings yet
Data Types, Variables, and Constants
20 pages
Prototype Approach To Semantic Structure
No ratings yet
Prototype Approach To Semantic Structure
34 pages
PROFIBUS DP AC 800M 6.0 Installation
No ratings yet
PROFIBUS DP AC 800M 6.0 Installation
114 pages
Curriculum Vitae Of: MD. Shafiqul Islam
No ratings yet
Curriculum Vitae Of: MD. Shafiqul Islam
5 pages
15.IO Streams Introduction
No ratings yet
15.IO Streams Introduction
27 pages
Mock Job Interview Sample Questions Score Sheet
No ratings yet
Mock Job Interview Sample Questions Score Sheet
2 pages
Rem Koolhaas
100% (1)
Rem Koolhaas
7 pages
RX200A-3-25-1D-MRZ 200mm Pedestrian + Acoustic Device
No ratings yet
RX200A-3-25-1D-MRZ 200mm Pedestrian + Acoustic Device
4 pages
Rexa Iom X3
No ratings yet
Rexa Iom X3
157 pages
Starfinder Alien Archive 4 Pawn Collection 3 4
No ratings yet
Starfinder Alien Archive 4 Pawn Collection 3 4
2 pages
Automotive Service Management: Principles Into Practice
33% (3)
Automotive Service Management: Principles Into Practice
14 pages
Diagramas GDZ-50E
No ratings yet
Diagramas GDZ-50E
4 pages
Shock Absorber Design & Analysis
No ratings yet
Shock Absorber Design & Analysis
16 pages
BA Assignment Front Page
No ratings yet
BA Assignment Front Page
6 pages
Set Lesson 3
No ratings yet
Set Lesson 3
14 pages
Overview of Timeline Panel
No ratings yet
Overview of Timeline Panel
15 pages
SManual CL001943 CLP675
No ratings yet
SManual CL001943 CLP675
173 pages
Ntic
100% (2)
Ntic
510 pages
Examen Final - Semana 8 - Esp - Segundo Bloque - Virtual-Ingles General 7 - (Grupo b01)
No ratings yet
Examen Final - Semana 8 - Esp - Segundo Bloque - Virtual-Ingles General 7 - (Grupo b01)
16 pages
TRS501 Vocabulary List
No ratings yet
TRS501 Vocabulary List
9 pages
Blockchain Tech Seminar Report
No ratings yet
Blockchain Tech Seminar Report
27 pages
Science Lesson Plan 5
No ratings yet
Science Lesson Plan 5
2 pages
Mahesh CV
No ratings yet
Mahesh CV
6 pages
Compal Electronics Engineering Document
75% (4)
Compal Electronics Engineering Document
1 page
다음 글의 내용과 일치하지 않는 것은? (수능특강 Light 1강 4번) 다음 글의 내용과 일치하는 것은? (수특 라이트 1 강 gateway)
No ratings yet
다음 글의 내용과 일치하지 않는 것은? (수능특강 Light 1강 4번) 다음 글의 내용과 일치하는 것은? (수특 라이트 1 강 gateway)
36 pages
Unit 2 Lesson 1: Opening The Lesson 5 MN
No ratings yet
Unit 2 Lesson 1: Opening The Lesson 5 MN
8 pages
DS1720 01
No ratings yet
DS1720 01
19 pages
FSK Filters
No ratings yet
FSK Filters
4 pages