0% found this document useful (0 votes)

6 views9 pages

REVIEWER

The document provides a comprehensive overview of predictive analytics and data preprocessing, detailing their importance, techniques, algorithms, and tools. It covers various types of analytics, including descriptive, predictive, and prescriptive, and discusses data preprocessing tasks such as integration, transformation, cleaning, and reduction. Additionally, it includes practical coding examples and a glossary of key terms related to data analysis.

Uploaded by

EXO -l

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

6 views9 pages

REVIEWER

Uploaded by

EXO -l

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 9

MODULE 01: Predictive Analytics

1. Introduction to Predictive Analytics

 Predictive Analytics involves extracting previously unknown, useful information from data using
data analysis.

 Draws from machine learning, AI, statistics, and database systems.

 Traditional techniques may be unsuitable due to large data volumes, high dimensionality, and
heterogeneous data sources.

2. Business Analytics Overview

 Types of Business Analytics:

o Descriptive Analytics: Explains past and current events.

o Predictive Analytics: Forecasts future outcomes.

o Prescriptive Analytics: Recommends best solutions.

 Business Analytics Framework:

o Data collection from OLTP databases, ERP systems, external data sources.

o Data integration using ETL systems.

o Data warehousing and analysis through exploratory analysis, simulation, optimization.

3. Types of Predictive Analytics Algorithms

 Supervised Learning:

o Classification: Predicts categorical outcomes.

o Regression: Predicts numerical values.

 Unsupervised Learning:

o Clustering: Groups data points with similar characteristics.

o Association Analysis: Identifies relationships between variables.

o Sequential Pattern Analysis: Discovers dependencies in event sequences.

o Text Mining & Sentiment Analysis: Extracts insights from unstructured text.

4. Predictive Analytics Techniques

 Classification: Used in tasks like fraud detection and customer segmentation.

 Regression: Applied to forecasting and trend analysis.

 Clustering: Used in market segmentation and customer profiling.

 Association Rule Analysis: Commonly applied in market basket analysis.

 Sequential Pattern Analysis: Helps predict customer behavior patterns.

 Text Mining & Sentiment Analysis: Analyzes social media, reviews, and feedback.

5. Tools for Predictive Analytics

 Top tools include R, Python, RapidMiner, SAS, SPSS, and Weka.

 Selection of tools depends on data type, complexity, and use case.

6. Predictive Analytics Framework

 Problem Definition: Establish business goals and define predictive analytics objectives.

 Data Preparation: Extract, clean, and preprocess data.

 Data Exploration: Use visualization and statistical techniques to understand data.

 Modeling: Build predictive models using suitable algorithms.

 Model Evaluation: Assess model performance using metrics like accuracy and precision.

 Deployment: Implement models for real-world applications and monitor results.

7. Example Applications

 Churn Analysis in Telcos: Predict customer churn using subscriber data.

 Manpower Headcount in FMCG: Forecast staffing needs using regression models.

 Market Segmentation: Identify customer clusters for targeted marketing.

 Supermarket Basket Analysis: Optimize product placement using association rules.

 Hotline Call Reduction: Reduce call center congestion by predicting call patterns.

8. Model Deployment and Continuous Improvement

 Successful models require continuous monitoring and refinement.

 Implementation strategies range from generating reports to integrating into automated

systems.

 Regular evaluation ensures alignment with business objectives and adapts to changing trends.
MODULE 02: DATA PREPROCESSING

1. Introduction to Data Preprocessing

 Data preprocessing is essential for ensuring quality data for analysis.

 Raw data is often incomplete, noisy, or inconsistent, requiring cleaning and transformation.

2. Why Data Preprocessing is Important

 Poor-quality data leads to inaccurate insights and misleading statistics.

 Data extraction, cleaning, and transformation form the bulk of data warehousing efforts.

3. Major Tasks in Data Preprocessing

 Data Integration: Combines multiple data sources into a unified dataset.

 Data Transformation: Converts data into a format suitable for analysis.

 Data Cleaning: Handles missing values, outliers, and inconsistencies.

 Data Reduction: Reduces data volume while maintaining integrity.

4. Data Integration

 Combines multiple datasets while addressing schema integration, entity identification, and
redundancy resolution.

 Joins (inner, outer, left, right) are used for data merging.

5. Data Transformation

 Normalization: Rescales data into a standard range (e.g., min-max, z-score normalization).

 Encoding & Binning:

o Encoding converts categorical data to numerical values (binary or class-based encoding).

o Binning groups numeric values into discrete intervals (equal-width or equal-depth

binning).

 Aggregation & Smoothing: Summarizes data and reduces noise.

6. Data Cleaning

 Handles missing data through deletion, imputation, or placeholder values.

 Removes noise using binning, regression, or clustering.

 Identifies and resolves duplicate or inconsistent data.

7. Handling Missing Data

 Methods include:
o Ignoring rows with missing values (not ideal for large datasets).

o Filling missing values with mean, median, mode, or inference from other attributes.

8. Handling Noisy Data

 Binning: Smooths data by averaging values within bins.

 Regression: Fits data to a regression function to remove noise.

 Clustering: Groups data and removes outliers.

9. Outlier Detection

 Boxplots and statistical methods (IQR, standard deviation) help detect anomalies.

10. Data Reduction

 Sampling: Uses subsets of data to improve efficiency.

o Types: Random, Stratified, Upsampling, Downsampling.

 Feature Selection: Identifies relevant features using techniques like filter, wrapper, and
embedded methods.

 Dimensionality Reduction: Removes redundant attributes using techniques like PCA.

11. Feature Engineering

 Creates new features that improve model performance.

 Techniques include:

o Feature Extraction: Converts raw data into useful features.

o Feature Construction: Combines multiple attributes to create new ones.

12. Case Study: Data Preprocessing with R

 Practical applications of preprocessing techniques in R include handling missing data,

normalization, encoding, binning, and feature selection.

These structured notes summarize the core concepts of data preprocessing, making it easier to apply
these techniques in real-world data analysis.
CODES:

 MIN-MAX NORMALIZATION

# SOLANO, SAYANA MAE

# Format Values

options(digits = 2)

# Loading a CSV File

CLASS = read.csv ("simple.csv")

# Load First/Left Table

left_table = read.csv ("simple.csv")

# Develop the Second/Right Table

trial <- c("A","C","D")

cost <- c(11.4,3.3,1.1)

right_table <- data.frame(trial,cost)

# MERGE

# Inner Join

INNER = merge(x = left_table, y = right_table, by =c("trial"))

# Outer Join

OUTER = merge(x = left_table, y = right_table, by =c("trial"), all = TRUE)

# Left Join

LEFT = merge(x = left_table, y = right_table, by =c("trial"), all.x = TRUE)

# Right Join
RIGHT = merge(x = left_table, y = right_table, by =c("trial"), all.y = TRUE)

# v - min()/max()-min()*(-)+

# Min-Max Normalization

left_table$mass = (left_table$mass - min(left_table$mass))/(max(left_table$mass)-

min(left_table$mass))*(3-1)+1

# Add a Column for the Normalized Velocity

left_table$new_velocity = (left_table$velocity - min(left_table$velocity))/(max(left_table$velocity)-

min(left_table$velocity))*(3+1)+1

 Z-SCORE STANDARDIZATION

# FAMILYNAME, GIVEN NAME

# Z-score standardization

# Format Values

options(digits = 2)

# Loading the CSV file

CLASS = read.csv(file = "simple.csv")

# (v - mean())/sd()

# New column for Mass

CLASS$NEW_MASS = (CLASS$mass - mean(CLASS$mass))/sd(CLASS$mass)

# Update the velocity

CLASS$velocity = (CLASS$velocity - mean(CLASS$velocity))/

sd(CLASS$velocity)
 BINNING

# Format values to be 1 decimal place

options(digits = 1)

#Prepare a data set of related information by developing 6 vectors of 10 entries: 1 primary key, 1
categorical, 4 numeric

# Primary Key

ID = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)

# Categorical Data

Nickname = c("Juan", "Thoo", "Dee", "Far", "Phi", "Sec", "Sev", "Ey", "Nine", "Ten")

# Numeric Data

Grades_Math = c(65, 99, 90, 87, 76, 66, 98, 88, 77, 82)

Grades_English = c(65, 65, 65, 99, 99, 99, 89, 80, 78, 88)

Grades_Science = c(90, 80, 70, 65, 68, 69, 70, 81, 84, 86)

Grades_Reading = c(71, 83, 95, 99, 87, 75, 88, 68, 90, 82)

# Integrate the vectors into a data frame

GRADES = data.frame(ID, Nickname, Grades_Math, Grades_English, Grades_Science, Grades_Reading)

# Do min-max normalization on the first numeric data, scale within 1-3, adding a new column

GRADES$transformed_math = (GRADES$Grades_Math -
min(GRADES$Grades_Math))/(max(GRADES$Grades_Math) - min(GRADES$Grades_Math))*(3-1)+1

#2nd numeric data: Scale another column using zscore, update the column

GRADES$transformed_english = (GRADES$Grades_English -
mean(GRADES$Grades_English))/sd(GRADES$Grades_English)
#3rd numeric data: Transform another column using equal width binning, 2 bins, enter the bins in the
syntax

intervals = quantile(GRADES$Grades_Science, (0:2)/2)

GRADES$transformed_science = cut(GRADES$Grades_Science, intervals, 2, include.lowest = TRUE, labels

= c("Low Grade", "High Grade"))

#Transform the last numeric data using equal depth binning, update column, 3 bins, declare a variable
for the bin

bin.three = 3

GRADES$Grades_Reading = cut(GRADES$Grades_Reading, bin.three, include.lowest = TRUE, labels =

c("Failing", "Average", "Passing"))

Glossary of Coding Terms

 Syntax: The set of rules that define how code should be written in a programming language.

 Normalization: Process of scaling numerical values to a common range.

 Z-Score Standardization: Method of rescaling data to have a mean of 0 and a standard deviation
of 1.

 Binning: Grouping continuous numerical data into discrete categories.

 Encoding: Converting categorical data into numerical format.

 Feature Selection: Identifying the most important attributes in a dataset.

 Feature Extraction: Creating new features based on existing ones.

 Upsampling: Increasing the frequency of underrepresented data points.

 Downsampling: Reducing the frequency of overrepresented data points.

 Regression: A statistical technique for modeling relationships between variables.

 Outlier: A data point significantly different from others in the dataset.

 Clustering: Grouping data points with similar characteristics together.

 Data Imputation: Filling in missing values using statistical or algorithmic methods.

 Primary Key: A unique identifier for each record in a dataset.

 Vector: A one-dimensional array that stores elements of the same type.

 Data Frame: A table-like structure in R that stores different data types in columns.
 Quantile: Values that divide a dataset into equal-sized intervals.

 Cut Function: Used in R to divide continuous data into discrete bins.

 Categorical Data: Data that represents categories rather than numerical values.

 Numeric Data: Data represented as numbers that can be used for mathematical operations.

The Spymaster's Guide To OSINT
100% (1)
The Spymaster's Guide To OSINT
109 pages
Consume Azure Machine Learning Models in Power BI - Tutorial
No ratings yet
Consume Azure Machine Learning Models in Power BI - Tutorial
860 pages
SpSlabPlusBeam Manual v3.00
No ratings yet
SpSlabPlusBeam Manual v3.00
406 pages
Data Mining and Business Intelligence
No ratings yet
Data Mining and Business Intelligence
52 pages
برمجة ويب
No ratings yet
برمجة ويب
58 pages
AML MIDSEM
No ratings yet
AML MIDSEM
59 pages
Session-2-CO3-Introduction to Data Preprocessing (1)
No ratings yet
Session-2-CO3-Introduction to Data Preprocessing (1)
39 pages
Data Pre-Processing: Data Preprocessing Describes Any Type of Processing Performed On Raw Data To Prepare It For
No ratings yet
Data Pre-Processing: Data Preprocessing Describes Any Type of Processing Performed On Raw Data To Prepare It For
57 pages
6-Significance of Exploratory Data Analysis, Making Sense of Data-06!02!2024
No ratings yet
6-Significance of Exploratory Data Analysis, Making Sense of Data-06!02!2024
85 pages
Control Your Telescope Using Stellarium Arduino PDF
No ratings yet
Control Your Telescope Using Stellarium Arduino PDF
28 pages
Colombia Dt Phu Guide
No ratings yet
Colombia Dt Phu Guide
29 pages
Introduction Data Science Edited
No ratings yet
Introduction Data Science Edited
33 pages
50 Interview Questions & Answers!
No ratings yet
50 Interview Questions & Answers!
52 pages
Data Mining Basics
No ratings yet
Data Mining Basics
52 pages
MS-Excel Workbook Material
100% (1)
MS-Excel Workbook Material
60 pages
Data Preprocessing
No ratings yet
Data Preprocessing
77 pages
Isms
100% (1)
Isms
97 pages
Data Mining Basics
No ratings yet
Data Mining Basics
38 pages
Introduction to Data Science Methodology
No ratings yet
Introduction to Data Science Methodology
45 pages
Module1.5 Preprocessing
No ratings yet
Module1.5 Preprocessing
40 pages
22UCS303 DS-Unit II-N
No ratings yet
22UCS303 DS-Unit II-N
71 pages
Pre Processing
No ratings yet
Pre Processing
68 pages
MulticloudUG9 Intersight Demo
No ratings yet
MulticloudUG9 Intersight Demo
71 pages
Preprocessing 935
No ratings yet
Preprocessing 935
68 pages
UNIT-I DA
No ratings yet
UNIT-I DA
42 pages
Stack
No ratings yet
Stack
20 pages
Data Mining and Knowledge Discovery
No ratings yet
Data Mining and Knowledge Discovery
65 pages
IMps QTN
No ratings yet
IMps QTN
51 pages
Basics of User Interface Design
No ratings yet
Basics of User Interface Design
40 pages
How should data preparation be done for an analytics project_
No ratings yet
How should data preparation be done for an analytics project_
30 pages
Unit3
No ratings yet
Unit3
41 pages
Chapter3
No ratings yet
Chapter3
50 pages
Unit - II
No ratings yet
Unit - II
56 pages
Top 50 Data Analyst Interview Questions
No ratings yet
Top 50 Data Analyst Interview Questions
51 pages
Computer-Fundamentals-A-Practical-Guide
No ratings yet
Computer-Fundamentals-A-Practical-Guide
10 pages
Data Preprocessing
No ratings yet
Data Preprocessing
48 pages
Data Analyst Interview Question and Answer
No ratings yet
Data Analyst Interview Question and Answer
51 pages
Cognizant Data Analyst Interview Questions 1745235888
No ratings yet
Cognizant Data Analyst Interview Questions 1745235888
18 pages
3-Preprocessing
No ratings yet
3-Preprocessing
27 pages
Data Warehouse and Data Mining- Definition and Concepts
No ratings yet
Data Warehouse and Data Mining- Definition and Concepts
20 pages
Chapter 3: Data Preprocessing
No ratings yet
Chapter 3: Data Preprocessing
30 pages
3-Data Preprocessing
No ratings yet
3-Data Preprocessing
32 pages
Data Mining: Concepts and Techniques
No ratings yet
Data Mining: Concepts and Techniques
50 pages
Screenshot 2025-04-09 at 10.35.12 AM
No ratings yet
Screenshot 2025-04-09 at 10.35.12 AM
31 pages
MSDSModule 2
No ratings yet
MSDSModule 2
35 pages
Da Qa
No ratings yet
Da Qa
51 pages
Module 2_data preprocessing
No ratings yet
Module 2_data preprocessing
16 pages
Data Mining
No ratings yet
Data Mining
22 pages
Lecture Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
No ratings yet
Lecture Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
40 pages
Big Data Day II
No ratings yet
Big Data Day II
38 pages
3. Key Ingredients of PM
No ratings yet
3. Key Ingredients of PM
16 pages
DWDM unit 3
No ratings yet
DWDM unit 3
16 pages
Sepam Protokol IEC 60870-5-103 Seped305002en PDF
No ratings yet
Sepam Protokol IEC 60870-5-103 Seped305002en PDF
44 pages
FDS-Unit II-ECE
No ratings yet
FDS-Unit II-ECE
22 pages
BI Unit 4
No ratings yet
BI Unit 4
21 pages
WINSEM2023-24 - BECE352E - ETH - VL2023240504409 - 2024-02-03 - Reference-Material-I 2
No ratings yet
WINSEM2023-24 - BECE352E - ETH - VL2023240504409 - 2024-02-03 - Reference-Material-I 2
16 pages
1.0 Intro To Info Systems (I)
No ratings yet
1.0 Intro To Info Systems (I)
31 pages
Week 3
No ratings yet
Week 3
23 pages
Jalali@mshdiua - Ac.ir Jalali - Mshdiau.ac - Ir: Machine Learning
No ratings yet
Jalali@mshdiua - Ac.ir Jalali - Mshdiau.ac - Ir: Machine Learning
35 pages
Module 3 Notes
No ratings yet
Module 3 Notes
5 pages
dm unit 3
No ratings yet
dm unit 3
15 pages
Data Warehousing and Mining
No ratings yet
Data Warehousing and Mining
56 pages
BUSINESS ANALYTICS
No ratings yet
BUSINESS ANALYTICS
14 pages
LS6 - Digicit - SG05 (V1.1)
100% (1)
LS6 - Digicit - SG05 (V1.1)
18 pages
Internet of Things Is A Revolutionary Approach For Future Technology Enhancement: A Review
No ratings yet
Internet of Things Is A Revolutionary Approach For Future Technology Enhancement: A Review
21 pages
Unit 2 Data Gathering
No ratings yet
Unit 2 Data Gathering
14 pages
B9 - Paper Folding Machine
No ratings yet
B9 - Paper Folding Machine
19 pages
Data Preprocessing, Data Warehousing
No ratings yet
Data Preprocessing, Data Warehousing
9 pages
Data Handling and Visualization 3rd Unit
No ratings yet
Data Handling and Visualization 3rd Unit
4 pages
12th CS Worksheet-1 12 Nov
No ratings yet
12th CS Worksheet-1 12 Nov
11 pages
Organizational Modularity
No ratings yet
Organizational Modularity
25 pages
Data Preprocessing Techniques Cleaning Transformation and Integration
No ratings yet
Data Preprocessing Techniques Cleaning Transformation and Integration
6 pages
Bana Reviewer
No ratings yet
Bana Reviewer
4 pages
ChatGPT SQL
No ratings yet
ChatGPT SQL
7 pages
CV - Linda Esthefany Sanchez
No ratings yet
CV - Linda Esthefany Sanchez
9 pages
EStore Documentation
No ratings yet
EStore Documentation
23 pages
Python Run Time Environment
No ratings yet
Python Run Time Environment
3 pages
Chap.3 Data Preprocessing
No ratings yet
Chap.3 Data Preprocessing
6 pages
DSUR_EA2352001010391_W7
No ratings yet
DSUR_EA2352001010391_W7
3 pages
Tech Note 962 - Automating Object Configuration Tasks in The GRAcess Toolkit Configuring UDA Array
No ratings yet
Tech Note 962 - Automating Object Configuration Tasks in The GRAcess Toolkit Configuring UDA Array
6 pages
Kubernetes Cluster Creation Using Kubeadm
No ratings yet
Kubernetes Cluster Creation Using Kubeadm
6 pages
633777800398832500ata Minig Presentation
No ratings yet
633777800398832500ata Minig Presentation
20 pages
Week 2
No ratings yet
Week 2
3 pages
Example of Chapter 2 in Thesis Writing
100% (4)
Example of Chapter 2 in Thesis Writing
6 pages
BSC30922 - CyberSecurity Defence and Operations - CA2
No ratings yet
BSC30922 - CyberSecurity Defence and Operations - CA2
3 pages
Quiz 001 - Attempt Review PDF
No ratings yet
Quiz 001 - Attempt Review PDF
3 pages
RPS Consulting Private Limited: Srinivasa R
No ratings yet
RPS Consulting Private Limited: Srinivasa R
2 pages
Data Analytics with Generative AI
From Everand
Data Analytics with Generative AI
Younish P
No ratings yet
DATA MINING and MACHINE LEARNING. PREDICTIVE TECHNIQUES: ENSEMBLE METHODS, BOOSTING, BAGGING, RANDOM FOREST, DECISION TREES and REGRESSION TREES.: Examples with MATLAB
From Everand
DATA MINING and MACHINE LEARNING. PREDICTIVE TECHNIQUES: ENSEMBLE METHODS, BOOSTING, BAGGING, RANDOM FOREST, DECISION TREES and REGRESSION TREES.: Examples with MATLAB
César Pérez López
No ratings yet
DATA ANALYSIS AND DATA SCIENCE: Unlock Insights and Drive Innovation with Advanced Analytical Techniques (2024 Guide)
From Everand
DATA ANALYSIS AND DATA SCIENCE: Unlock Insights and Drive Innovation with Advanced Analytical Techniques (2024 Guide)
WINTON CLEM
No ratings yet