0% found this document useful (0 votes)

32 views

Data Mining Process

The CRISP DM process is an iterative data science process consisting of six steps: business understanding, data understanding, data preparation, modeling, evaluation, and deployment. It involves gaining an understanding of the problem domain and objectives, preparing data through activities like data cleaning and feature selection, developing a model using algorithms on training data, evaluating the model on test data, and deploying the final model for use.

Uploaded by

sanee.yadav

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

32 views

Data Mining Process

Uploaded by

sanee.yadav

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 12

Data Science ProcessProcess

CRISP DM process
 The methodical discovery of useful relationships and patterns in data is enabled by
a set of iterative activities collectively known as data science process

 Understanding the process

Business Data
 Preparing the data samples Understanding Understanding

 Developing the model

Data Preparation

 Applying the model on dataset Deployment

Data

Modeling
 Deploying and maintaining the
model
Evaluation
Process
Business Data
Understanding Understanding 1. Prior Knowledge

Prepare Data

2. Preparation
Building Model using
Training Data
Algorithms

3. Modeling
Test Data Applying Model and
performance evaluation

4. Application
Deployment

Knowledge and Actions 5. Knowledge

1. Prior Knowledge
 Prior knowledge refers to information that is already known about a subject
 Gaining information on:
 Objective of the problem
 Subject area of the problem
 Data

Example: for the lending example, a simple data set of ten points
 Terminologies used
 A Dataset

 A datapoint

 An Attribute

 A label

 Identifiers
2. Data Preparation

Data Exploration
Data quality
Handling missing values
Data type conversion
Transformation
Outliers
Feature selection
Sampling
3. Modeling
Training Data Build model

Test Data Evaluation

Final Model
3.Spliting
Modeling
training and test data sets
3.Spliting
Modeling
training and test data sets

Training Data
Test Data
3. Modeling
3. Modeling

Evaluation of test dataset

3. Application

Product readiness
Technical integration
Model response time
Remodeling
Assimilation
5. Knowledge

Posterior knowledge

Kotu, V., & Deshpande, B. (2014). Predictive analytics and data mining: concepts and practice with rapidminer. Morgan Kaufmann.

After Extensive Research and Development Good Week Tires Inc Has Recently
No ratings yet
After Extensive Research and Development Good Week Tires Inc Has Recently
2 pages
Data Fabric As Modern Data Architecture
No ratings yet
Data Fabric As Modern Data Architecture
38 pages
Cleaning and Vacuum Test of Refrigerant Pipes
No ratings yet
Cleaning and Vacuum Test of Refrigerant Pipes
8 pages
SSC CGL
No ratings yet
SSC CGL
12 pages
02. Data Mining Process
No ratings yet
02. Data Mining Process
12 pages
Data Mining Process
No ratings yet
Data Mining Process
12 pages
Data Mining Process
No ratings yet
Data Mining Process
12 pages
Data Mining Process
No ratings yet
Data Mining Process
12 pages
Data Mining Process
No ratings yet
Data Mining Process
12 pages
Data Mining Process
No ratings yet
Data Mining Process
12 pages
Data Mining Framework
No ratings yet
Data Mining Framework
18 pages
A Functional Approach To Basics of Data Science With Excel-Book - Chapter 1 and 2 - 1st Print
No ratings yet
A Functional Approach To Basics of Data Science With Excel-Book - Chapter 1 and 2 - 1st Print
13 pages
Data-Science-Life-Cycle
No ratings yet
Data-Science-Life-Cycle
10 pages
Data Science Introduction
No ratings yet
Data Science Introduction
35 pages
Introduction to the AI Project Cycle
No ratings yet
Introduction to the AI Project Cycle
10 pages
Week001-Module (1) Merged
No ratings yet
Week001-Module (1) Merged
122 pages
Leveraging Data Science To Drive Business Innovation
No ratings yet
Leveraging Data Science To Drive Business Innovation
8 pages
2 - BBDS - Decisions Management & Problem Framing
No ratings yet
2 - BBDS - Decisions Management & Problem Framing
78 pages
SE Presentation
No ratings yet
SE Presentation
10 pages
Introduction To Data Mining: A.J.M.M. (Ton) Weijters
No ratings yet
Introduction To Data Mining: A.J.M.M. (Ton) Weijters
24 pages
Data2 Science Process Am
No ratings yet
Data2 Science Process Am
33 pages
Project Proposal Machine Learning
No ratings yet
Project Proposal Machine Learning
6 pages
Crisp ML (Q)
No ratings yet
Crisp ML (Q)
10 pages
Organising ML Projects
No ratings yet
Organising ML Projects
52 pages
2023 VL4 Data Preparation
No ratings yet
2023 VL4 Data Preparation
52 pages
02 Crispdm
No ratings yet
02 Crispdm
25 pages
Data Science With R
No ratings yet
Data Science With R
26 pages
Copy of Copy of CRISP_ML (1)
No ratings yet
Copy of Copy of CRISP_ML (1)
8 pages
Data Science Process Alliance CRISP DM For Data Science
No ratings yet
Data Science Process Alliance CRISP DM For Data Science
7 pages
4-1 - Machine Learning - Intro-Classification
100% (1)
4-1 - Machine Learning - Intro-Classification
63 pages
DS3 Data Science Introduction
No ratings yet
DS3 Data Science Introduction
18 pages
Business Analytics
No ratings yet
Business Analytics
56 pages
IBM Q1 Technical Marketing ASSET2 - Data Science Methodology-Best Practices For Successful Implementations Ov37176 PDF
No ratings yet
IBM Q1 Technical Marketing ASSET2 - Data Science Methodology-Best Practices For Successful Implementations Ov37176 PDF
6 pages
UNIT 2 ML
No ratings yet
UNIT 2 ML
14 pages
CRISP Data Mining SIBM Pune
No ratings yet
CRISP Data Mining SIBM Pune
24 pages
Architecting To Support Machine Learning
No ratings yet
Architecting To Support Machine Learning
47 pages
Module 4
No ratings yet
Module 4
60 pages
CRISP-DM-for-Data-Science-2025
No ratings yet
CRISP-DM-for-Data-Science-2025
6 pages
crisp (1)
No ratings yet
crisp (1)
31 pages
Machine-Learning-A-Deep-Dive
No ratings yet
Machine-Learning-A-Deep-Dive
9 pages
Introduction To Data Science and Python For Data
No ratings yet
Introduction To Data Science and Python For Data
12 pages
Predictive Modelling-Week-1
No ratings yet
Predictive Modelling-Week-1
39 pages
Lecture No 2 Data Preparation
No ratings yet
Lecture No 2 Data Preparation
23 pages
Ds Intro KK
No ratings yet
Ds Intro KK
11 pages
Introduction To Data Science
No ratings yet
Introduction To Data Science
8 pages
1 s2.0 S2666285X22000565 Main
No ratings yet
1 s2.0 S2666285X22000565 Main
9 pages
UNIT 1
No ratings yet
UNIT 1
38 pages
NeurIPS 2023 Dataperf Benchmarks for Data Centric Ai Development Paper Datasets and Benchmarks
No ratings yet
NeurIPS 2023 Dataperf Benchmarks for Data Centric Ai Development Paper Datasets and Benchmarks
28 pages
Crisp
No ratings yet
Crisp
28 pages
2_Unit 1 - Lecture 3
No ratings yet
2_Unit 1 - Lecture 3
16 pages
Introduction To Data Science: What Is Data Science? What Is A Data Science Pipeline?
No ratings yet
Introduction To Data Science: What Is Data Science? What Is A Data Science Pipeline?
3 pages
ML Lecture 4
No ratings yet
ML Lecture 4
16 pages
BIS 541 Ch01 20-21 S
No ratings yet
BIS 541 Ch01 20-21 S
129 pages
Data Preparation PDF
No ratings yet
Data Preparation PDF
71 pages
Data-Science-Unlocking-Insights-from-Information
No ratings yet
Data-Science-Unlocking-Insights-from-Information
8 pages
FOOD CLASSIFICATION USING KERAS Final
No ratings yet
FOOD CLASSIFICATION USING KERAS Final
21 pages
Proposed System and Methodology Part 2
No ratings yet
Proposed System and Methodology Part 2
42 pages
Lecture 7 & 8 Data Mining
No ratings yet
Lecture 7 & 8 Data Mining
21 pages
Introduction To Data Science
No ratings yet
Introduction To Data Science
11 pages
naresh pbl
No ratings yet
naresh pbl
18 pages
FYP Proposal (284925)
No ratings yet
FYP Proposal (284925)
15 pages
DATA MINING AND MACHINE LEARNING. PREDICTIVE TECHNIQUES: REGRESSION, GENERALIZED LINEAR MODELS, SUPPORT VECTOR MACHINE AND NEURAL NETWORKS
From Everand
DATA MINING AND MACHINE LEARNING. PREDICTIVE TECHNIQUES: REGRESSION, GENERALIZED LINEAR MODELS, SUPPORT VECTOR MACHINE AND NEURAL NETWORKS
César Pérez López
No ratings yet
DATA MINING and MACHINE LEARNING. PREDICTIVE TECHNIQUES: ENSEMBLE METHODS, BOOSTING, BAGGING, RANDOM FOREST, DECISION TREES and REGRESSION TREES.: Examples with MATLAB
From Everand
DATA MINING and MACHINE LEARNING. PREDICTIVE TECHNIQUES: ENSEMBLE METHODS, BOOSTING, BAGGING, RANDOM FOREST, DECISION TREES and REGRESSION TREES.: Examples with MATLAB
César Pérez López
No ratings yet
Managerial Economics
100% (1)
Managerial Economics
80 pages
Renovation Project Report
100% (1)
Renovation Project Report
17 pages
100 QUESTIONS Accounts
100% (3)
100 QUESTIONS Accounts
84 pages
Trading Rules To Successful Profits
100% (1)
Trading Rules To Successful Profits
89 pages
Edwards Electrical Services Limited Company Profile 2019
No ratings yet
Edwards Electrical Services Limited Company Profile 2019
23 pages
GST Practical Q & A Dec - 24
No ratings yet
GST Practical Q & A Dec - 24
64 pages
Financial Risk Management
No ratings yet
Financial Risk Management
11 pages
Lesson 1.2. Research Themes in Tourism and Hospitality Industry
No ratings yet
Lesson 1.2. Research Themes in Tourism and Hospitality Industry
25 pages
Day 2 Internal Auditor Training
No ratings yet
Day 2 Internal Auditor Training
8 pages
Satisfaction and Switching Intention in Mobile Services
No ratings yet
Satisfaction and Switching Intention in Mobile Services
13 pages
COCOFED vs. PCGG, 178 SCRA 236 (1989)
100% (1)
COCOFED vs. PCGG, 178 SCRA 236 (1989)
11 pages
Sub: Bank Account Details.: Date: 17-08-2019
No ratings yet
Sub: Bank Account Details.: Date: 17-08-2019
1 page
Legal Notice Against Flipkart
No ratings yet
Legal Notice Against Flipkart
3 pages
Sps. VELARDE v. CA, Et. Al. - Case Digest
100% (1)
Sps. VELARDE v. CA, Et. Al. - Case Digest
2 pages
23091200053372HDFC ChallanReceipt
No ratings yet
23091200053372HDFC ChallanReceipt
2 pages
Fluid Testing Worth Trusting: Choose Perkins Fluid Sampling
No ratings yet
Fluid Testing Worth Trusting: Choose Perkins Fluid Sampling
2 pages
Darden Restaurant
No ratings yet
Darden Restaurant
2 pages
FC 402 D 5540951 Bae 0 D 7 A 7 D 89 D 481 Ac
No ratings yet
FC 402 D 5540951 Bae 0 D 7 A 7 D 89 D 481 Ac
2 pages
CV Kevin Peter Schmider 2104
No ratings yet
CV Kevin Peter Schmider 2104
6 pages
NCOC Public LTPO Q4 2023 - Eng
No ratings yet
NCOC Public LTPO Q4 2023 - Eng
4 pages
Vip Service Contract
No ratings yet
Vip Service Contract
2 pages
REPORT WRITING ON INDUSTRIAL VISIT ON 5TH MARCH, 2025
No ratings yet
REPORT WRITING ON INDUSTRIAL VISIT ON 5TH MARCH, 2025
15 pages
Chaudhary Charan Singh University, Meerut
No ratings yet
Chaudhary Charan Singh University, Meerut
4 pages
Walmart Case Study
No ratings yet
Walmart Case Study
6 pages
Master Data Base
100% (1)
Master Data Base
72 pages
Session 4 Financial Statement Analysis 2024-04-27 04 - 33 - 28
No ratings yet
Session 4 Financial Statement Analysis 2024-04-27 04 - 33 - 28
5 pages
List of Group Companies of AMC and SPONSOR 31-12-2023
No ratings yet
List of Group Companies of AMC and SPONSOR 31-12-2023
7 pages

Data Mining Process

Uploaded by

Data Mining Process

Uploaded by

Data Science ProcessProcess

 Understanding the process

 Developing the model

 Applying the model on dataset Deployment

Knowledge and Actions 5. Knowledge

Test Data Evaluation

Evaluation of test dataset

You might also like