0% found this document useful (0 votes)

161 views

Advanced R Data Analysis Training PDF

This document provides an agenda for an Advanced R Data Analysis training course. The training will cover obtaining data from various sources, exploring and cleaning data, preprocessing such as selecting, filtering and arranging data, data reshaping, and advanced visualization techniques using R packages like ggplot2. The training is led by Dr. Ghazaleh Babanejad who has a PhD in data science and experience working on machine learning and data science projects.

Uploaded by

Anonymous NoermyAEpd

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

161 views

Advanced R Data Analysis Training PDF

Uploaded by

Anonymous NoermyAEpd

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 72

Advanced R Data Analysis

Training

Trainer: Dr. Ghazaleh Babanejad

Website:www.tertiarycourses.com.my
Email: [email protected]
About the Trainer
Dr Ghazaleh Babanejad has received Phd from
University Putra Malaysia in Faculty of
Computer Science and Information Technology..She is
working on recommender systems in the field of
skyline queries over Dynamic and Incomplete
databases for her PhD thesis. She is also working on
Data Science field as a trainer and Data Scientist. She
worked on Machine Learning and Process Mining
projects. She also has several international
certificates in Practical Machine Learning
(John Hopkins University) Mining Massive Datasets
(Stanford University), Process Mining
(Eindhoven University), Hadoop (University of San
Diego), MongoDB for DBAs (MongoDB Inc) and some
other certificates. She has more than 5 year
i l t dd t b d i i t t
Agenda
Module 1: R Data Analysis Packages
- Data Analysis Components
- Data Analysis Steps
- R Data Analysis Packages

Module 2: Obtaining Data

- Reading Data from CSV file
- Reading Data from JSON file
- Reading Data from XML file
- Reading Data from Web
- Reading Data from APIs
Agenda
Module 3: Data Exploration and Cleaning
- Exploring data
- Imputing missing data
- Dealing with Outliers

Module 4: Data Preprocessing

- Selecting columns and rows
- Calculated columns
- Arranging data
- Chain operations
- Joins
- Summarize and group by
Agenda
Module 5: Data Reshaping
- Splitting and merging columns
- Rearranging and reorienting columns

Module 6: Data Visualization

- ggplot2 syntax and analysis

Module 7: Advanced Analysis (optional)

- Map function
- User defined functions & logical testing
- pmap function
Prerequisite
Basic knowledge of R is assumed
Exercise Files
Download the exercise file from

https://github.com/rkrtiwari/rAdvanc
ed
Module 1
Getting Started
Data Analysis Steps
• Data Collection
• Data Processing
• Data Cleaning
• Data Visualization
• Data Product
R Data Analysis Packages
Data Manipulation
dplyr: Data manipulation
tasks
tidyr: Reshape data
mice: Missing data
Imputation

Data Analysis
Data Explorer: Visualize variables
R Data Analysis Packages
Data Visualization
ggplot2: Powerful visualization
shiny: Interactive data
visualization
VIM: Missing data
visualization
Install Packages
install.packages(“tidyverse”)
install.packages(“DataExplorer”)
install.packages(“data.table”)
install.packages("mice")
install.packages("ggplot2")
Module 2
Obtaining Data
Read Data from CSV File
data1 <- read.csv("data.csv", header =
TRUE)
Read Data from json
data <- fromJSON(“data.json”)
Read Data from Web
url<-
"http://archive.ics.uci.edu/ml/machi
ne-learning-
databases/wine/wine.data"
read.csv(url, nrows=5, header =
FALSE)
Read Data from XML
library(XML)
data <- xmlTreeParse(data.xml)
Challenge
Read the housing data from the
following webpage
“https://archive.ics.uci.edu/ml/machi
ne-learning-
databases/housing/housing.data”
and store it in a dataframe named
house

Time: 5 min
Module 3
Data Exploration
and Cleaning
Exploring our data
# load our library
library(DataExplorer)
library(data.table)

## explore our dataset

names(heart)
head(heart)
str(heart)
summary(heart)

## changing our data type

heartDT=data.table(heart)
Exploring our data
# grouping and frequency analysis

group_category(heartDT, "chest_pain", 0,
"chol")

# view frequency based on another

measure
group_category(heartDT, "chest_pain", 0,
"age")
Plotting

#discrete features (categorical data)

plot_bar(heartDT)

# continous features (numeric data)

plot_boxplot(heartDT, by="disease")
# disease is the categorical var

# correlation plot
plot_correlation(heartDT)
Plotting

# density plot
plot_density(heartDT)
# only for numerical columns

# histogram
plot_histogram(heartDT)
# only for numeric columns

# scatterplot
plot_scatterplot(heartDT,"age")
# using age as y axis
Splitting data

# will generate 2 data tables for

continuous and discrete data

output=split_columns(heartDT)

output$discrete

output$continous
Imputing data

library(mice)
library(VIM)

# Visualization of the missing pattern

aggr(miss_mtcars, numbers=TRUE

# Mean Substitution
mean_sub <- miss_mtcars
mean_sub$qsec[is.na(mean_sub$qsec)] <-
mean(mean_sub$qsec, na.rm = TRUE)
Dealing with Outliers
# ESD method

t=2
m=mean(x)
s=sd(x)

b1=m - s*t
b2=m + s*t

y=ifelse(x >=b1 & x <=b2, 0, 1)

table(y)
Dealing with Outliers
# boxplot method

boxplot(x)
boxplot.stats(x)

# outliers package
library(outliers)

dixon.test(x)
Challenge (10 mins)
Using the airquality dataset in R

1)explore the dataset

2)do frequency analysis
3) plot features and correlation plot
4)view the missing values
5) substitute the missing values with
mean
6)remove any outliers
Module 4
Data
Preprocessing
Data structure

glimpse(x)
lst(x)
tbl_sum(x)
Selecting columns

x2=select(x,col1,col2,col3,col4)
# selecting only 4 columns

x2=select(x, -col1, -col2)

# dropping columns 1 and 2

x2= rename(x, “col99”=col2)

# renaming column2 to column 99
Filtering rows
x2=filter(x, disease==“negative”)
# filter only negative disease rows

x2=filter(x, disease==“negative” &

thalach>160)
# double condition filtering

x2=filter(x, chest_pain != “asympt”)

# filter off “asympt”

x2=filter(x, chest_pain %in%

c(“asympt”,”angina”))
# only retain “asympt” and “angina”
Creating calculated columns

x2= mutate(x, old = age>50)

# this will give a new column with TRUE or
FALSE

x2= mutate(x, chol_class=chol/20)

x2= mutate(heart, chol_class=chol/20,

trestbps_class=trestbps/5)
# this will give two new columns
Creating calculated columns

# using if_else function in mutate

x2=mutate(x, cholLevel=
if_else(chol>250,"highrisk","normal"),
chol_class=chol/20)
Counting and arranging
count(x, chest_pain, sort = TRUE)

count(x, disease, sort=TRUE)

count(x, chest_pain, disease)

distinct(x, exang) # gives only 2 levels

distinct(x, exang, disease)

# look at 2 variables at same time
Counting and arranging
x2=arrange(x, age)
# arrange all the rows by the age var
number

x2=arrange(x, age, thalach)

# arrange by age first then thalach

x2=arrange(x, desc(age))
# descending order

x2=top_n(x,20)
#top 20 rows
Chaining
# the “%>%” is used in chain operations
# link one process to another

heart %>% select(1:5) %>%

mutate(chol_class=chol/20,
trestbps_class=trestbps/5)

heart %>% select(thalach) %>%

mutate(thalach_class=thalach/15)
Joins
left_join(A,B, by="col1")
#join matching rows from B to A

right_join(A,B, by="col1")
# join matching rows from B to A

inner_join(A,B, by="col1")
# join data, retain only rows in both sets)

full_join(A,B, by="col1")
# join data, retain all values, all rows)
Group by
groupDisease=group_by(x, disease)
# disease is the variable which we want to
create groups ["positive", "negative"]

groupDisease2=group_by(x, disease, fbs)

# more groups
Summarize
# you can choose your own summary
statistics

summarize(heart,
count=n(),
avgAge=mean(
age, na.rm=TRUE),
sdAge=sd(age, na.rm=TRUE),
medAge=median(age,
na.rm=TRUE),
Q3rdAge=quantile(age, .75)
)
Challenge (10 mins)
Use the mtcars dataset

1) Select first 9 columns and 20 rows

2) Create calculated column for average of
3) Mpg and Disp
4) Arrange by qsec descending
5) Group by cyl and vs
6) Do summary stats like (count, mean, max)
Module 5
Data Reshaping
Separate
# if your data contains 2 sets of
information in 1 column you can split them
up

Arguments
#first: dataset name,
#second: column Name,
#third: new col names to split column into
(names)
#fourth: the seperator (what split the
columns by)
Unite
#opposite of separate, combining columns

Arguments
#first: dataset name,
#second: column Name to unite columns
into,
#third: column names to combine
#fourth: the seperator in the new columns

unite(team, "Full Name", c(First_Name,

Last_Name), sep=" ")
Gather
# rearranging and re-orienting the
columns by stacking them into 1 single
year column

#first: dataset name,

#second: new column name (for columns
we are stacking into),
# third: new column names (for values of
the stacked columns)
#fourth: columns that we are stacking

homeruns2=gather(homeruns, year,
home_runs, YR2015:YR2013)
Spread
#opposite of gather, spreading out the
columns

# first: dataset name,

# second: column to spread across
multiple column,
# third: values multiple columns will take

spread(homeruns2, year, home_runs)

Module 6
Data Visualization
Scatter Plot
gplot(mtcars) + aes(x=wt, y=mpg) +
geom_point(size=3, color = “blue”)
Scatter Plot (grouped data)
ggplot(mtcars) + aes(x=wt, y=mpg,
color = factor(cyl) ) +
geom_point(size=3)
Scatter Plot (adding a trendline)
ggplot(mtcars) + aes(x=wt, y=mpg) +
geom_point() + stat_smooth(method =
"lm")
Scatter Plot (faceting: I)
ggplot(mtcars) + aes(x=wt, y=mpg) +
geom_point() + facet_grid( am ~ .)
Scatter Plot (faceting: II)
ggplot(mtcars) + aes(x=wt, y=mpg) +
geom_point() + facet_grid( am ~ cyl)
Scatter Plot (facetting: III)
ggplot(mm) + aes(x=value, y = mpg) +
geom_point() + facet_wrap( ~variable,
scales = "free", ncol = 2)
Bar Plot
ggplot(mtcars, aes(x = factor( cyl))) +
geom_bar()
Multiple Bar Plot
ggplot(mm) + aes(x=factor(month), y=
value) + geom_bar() + facet_grid( . ~
variable)
Histogram
ggplot(mtcars, aes(x = mpg)) +
geom_histogram(binwidth = 3)
Boxplot
ggplot( mtcars, aes(x = factor( cyl), y =
mpg)) + geom_boxplot()
Challenge
Use ggplot to plot the Median value
of owner-occupied homes vs. per
capita crime rate
Module 7
Advanced Analysis
(optional)
Map functions
library(purr)

# map() returns a list or dataframe

# map_lgl() returns a logical vector
# map_int() returns a integer value
# map_dbl() returns a double vector
# map_chr() returns a character
vector
Map functions
map(x, summary) # find a summary
of each column

map_lgl(x, is.numeric) # find columns

that are numeric (return logical)

map_chr(x, typeof) # find the type of

each column (return character)
Apply functions
map_dbl(x, mean) # find column
means

map_dbl(x, sd) # find column std dev

map_dbl(x, quantile, probs=c(0.05)) #

find 5th percentile
Apply user-defined functions
# group the heart chest_pain types
# nest function to convert to tibble

n_heart <- heart %>%

group_by(chest_pain) %>%
nest()
Apply user-defined functions
# create a model for each chestpain

mod_fun=function(x) lm(chol~ age +

trestbps + thalach, data=x)

# apply the model

model_heart=n_heart %>%
mutate(model=map(data, mod_fun))
# use "data" to symbolize the data
Logical testing
pluck(heart,"age") # get values in
"age"

old=function(x){x>50}

keep(heart$age, old) # keep

elements that pass a logical test

discard(heart$age, old) # remove

elements that pass a logical test
Summarize data
every(heart$age, old)
# do all elements pass a test

some(heart$age, old)
# do some elements pass a test

detect(heart$age, old)
# find first element that pass a test

detect_index(heart$age, old)
pmap
# pmap takes a list of arguments as
input

# using multiple arguments with map

n=list(5,10,20)
mu=list(1,5,10)
sd=list(0.1,1,0.1)

pmap(list(n, mu, sd), rnorm)

Challenge (10 mins)
Use the mtcars dataset

1) Map summary of each column

2) Find column means
3) Group by cyl and am (nest)
4) Apply a model for each group
Summary
Parting
Message
Q&A
Feedback
https://goo.gl/EDezXH
Thank You!
Ghazaleh Babanejad
[email protected]
01123005257

Analysis of Survival Data - LN - D Zhang - 05
100% (1)
Analysis of Survival Data - LN - D Zhang - 05
264 pages
BS For Chemicals To Water Treatment
0% (1)
BS For Chemicals To Water Treatment
18 pages
Ingres Database Administrator Guide PDF
100% (1)
Ingres Database Administrator Guide PDF
574 pages
Python For DS Cheat Sheet
100% (2)
Python For DS Cheat Sheet
6 pages
Statistics For Data Sciences
No ratings yet
Statistics For Data Sciences
10 pages
R Short Tutorial
No ratings yet
R Short Tutorial
5 pages
Introduction To R: Arin Basu MD MPH Dataanalytics
No ratings yet
Introduction To R: Arin Basu MD MPH Dataanalytics
33 pages
Report Writing For Data Science in R - Roger D. Peng
No ratings yet
Report Writing For Data Science in R - Roger D. Peng
120 pages
R Handout Statistics and Data Analysis Using R
No ratings yet
R Handout Statistics and Data Analysis Using R
91 pages
Ggplot 2
No ratings yet
Ggplot 2
48 pages
Survival Plots SURVMINER Package Tutorial
No ratings yet
Survival Plots SURVMINER Package Tutorial
5 pages
Extending Power BI With Python and R: Perform Advanced Analysis Using The Power of Analytical Languages, (2nd Edition) Luca Zavarella
100% (9)
Extending Power BI With Python and R: Perform Advanced Analysis Using The Power of Analytical Languages, (2nd Edition) Luca Zavarella
52 pages
Probability Distributions in Data Science - Towards Data Science
No ratings yet
Probability Distributions in Data Science - Towards Data Science
15 pages
Sampling: Gaurav Kumar Prajapat Sr. Audit Officer O/O Ag (Audit-Ii), Rajasthan Jaipur
No ratings yet
Sampling: Gaurav Kumar Prajapat Sr. Audit Officer O/O Ag (Audit-Ii), Rajasthan Jaipur
61 pages
Cluster Analysis in R
No ratings yet
Cluster Analysis in R
8 pages
Exploratory Data Analysis With R PDF
No ratings yet
Exploratory Data Analysis With R PDF
125 pages
Creating A Live World Weather Map Using Shiny - by M. Makkawi - The Startup - Medium
No ratings yet
Creating A Live World Weather Map Using Shiny - by M. Makkawi - The Startup - Medium
40 pages
Statistics With R Fall 20180912 PDF
No ratings yet
Statistics With R Fall 20180912 PDF
101 pages
Clustering in R Tutorial
No ratings yet
Clustering in R Tutorial
13 pages
Generalized Additive Model
No ratings yet
Generalized Additive Model
10 pages
RYAN, THOMAS P. - [Wiley Series in Probability and Statistics] Modern Regression Methods __ (2
No ratings yet
RYAN, THOMAS P. - [Wiley Series in Probability and Statistics] Modern Regression Methods __ (2
658 pages
[Ebooks PDF] download Applied Statistics: From Bivariate Through Multivariate Techniques Second Edition – Ebook PDF Version full chapters
100% (3)
[Ebooks PDF] download Applied Statistics: From Bivariate Through Multivariate Techniques Second Edition – Ebook PDF Version full chapters
51 pages
Statistical Computing by Using R
100% (1)
Statistical Computing by Using R
11 pages
Lesson 5 Data Wrangling in Data Science.
100% (1)
Lesson 5 Data Wrangling in Data Science.
11 pages
Detecting Data Outliers
No ratings yet
Detecting Data Outliers
7 pages
Polynomial Regression and Step Function
100% (1)
Polynomial Regression and Step Function
6 pages
Class 7
No ratings yet
Class 7
42 pages
Dplyr Tutorial
100% (1)
Dplyr Tutorial
22 pages
Stata
No ratings yet
Stata
26 pages
Predictive Modeling Project Report
100% (2)
Predictive Modeling Project Report
31 pages
Data Manipulation
No ratings yet
Data Manipulation
24 pages
1 - Introduction To R Programming
No ratings yet
1 - Introduction To R Programming
19 pages
Advanced Data Analysis
No ratings yet
Advanced Data Analysis
30 pages
R Markdown: The Definitive Guide: Yihui Xie, J. J. Allaire, Garrett Grolemund
No ratings yet
R Markdown: The Definitive Guide: Yihui Xie, J. J. Allaire, Garrett Grolemund
123 pages
R Studio How To
No ratings yet
R Studio How To
12 pages
Support Vector Machine
No ratings yet
Support Vector Machine
12 pages
On The Theory of Scales of Measurement - S. S. Stevens
100% (3)
On The Theory of Scales of Measurement - S. S. Stevens
5 pages
STATS LAB Basics of R PDF
No ratings yet
STATS LAB Basics of R PDF
77 pages
Data Science With R
No ratings yet
Data Science With R
21 pages
Full Download Multivariate Statistical Methods A Primer Third Edition Manly PDF DOCX
100% (8)
Full Download Multivariate Statistical Methods A Primer Third Edition Manly PDF DOCX
65 pages
Survival Analysis in R
No ratings yet
Survival Analysis in R
16 pages
Statistics With R
No ratings yet
Statistics With R
41 pages
Ggplot
No ratings yet
Ggplot
67 pages
Big Data, Machine Learning, and Econometrics
No ratings yet
Big Data, Machine Learning, and Econometrics
48 pages
Logistic Regression
100% (1)
Logistic Regression
21 pages
Computational Statistics With R
100% (1)
Computational Statistics With R
125 pages
Powerbi Intro
No ratings yet
Powerbi Intro
46 pages
Data Cleaning and Datamining
No ratings yet
Data Cleaning and Datamining
54 pages
Introduction To IBM SPSS Statistics
No ratings yet
Introduction To IBM SPSS Statistics
85 pages
Hierarchical Cluster Analysis - R Tutorial
No ratings yet
Hierarchical Cluster Analysis - R Tutorial
3 pages
Statistics 4
No ratings yet
Statistics 4
112 pages
Probability and Stats For Data Science PDF
No ratings yet
Probability and Stats For Data Science PDF
237 pages
Categorical Data Analysis With Graphics
No ratings yet
Categorical Data Analysis With Graphics
104 pages
Introduction To Bio Statistics by Pranab Kumar Banerjee B00quzmf84 PDF
No ratings yet
Introduction To Bio Statistics by Pranab Kumar Banerjee B00quzmf84 PDF
5 pages
Descriptive Analysis in R Programming - GeeksforGeeks-1-12
No ratings yet
Descriptive Analysis in R Programming - GeeksforGeeks-1-12
12 pages
100 plus Statistics Interview Questions
0% (1)
100 plus Statistics Interview Questions
44 pages
Advanced Strategies For Metabolomic Data Analysis
100% (1)
Advanced Strategies For Metabolomic Data Analysis
31 pages
SMOTE: Synthetic Minority Over-Sampling Technique: Nitesh V. Chawla
No ratings yet
SMOTE: Synthetic Minority Over-Sampling Technique: Nitesh V. Chawla
37 pages
_OceanofPDF.com_Data_Visualization_in_R_and_Python_-_Marco_Cremonini
No ratings yet
_OceanofPDF.com_Data_Visualization_in_R_and_Python_-_Marco_Cremonini
977 pages
Data Visualization With Ggplot2 PDF
No ratings yet
Data Visualization With Ggplot2 PDF
13 pages
MACHINE LEARNING LAB WORD 12-1-2025. DOCUMENT
No ratings yet
MACHINE LEARNING LAB WORD 12-1-2025. DOCUMENT
68 pages
Exercise and Experiment 3
No ratings yet
Exercise and Experiment 3
14 pages
Set Batter Board
100% (1)
Set Batter Board
24 pages
Engineering Group: Kuwait Oil Company (K.S.C.)
No ratings yet
Engineering Group: Kuwait Oil Company (K.S.C.)
14 pages
Experiencias en Plataformas de Medición Inteligente - SIEMENS
No ratings yet
Experiencias en Plataformas de Medición Inteligente - SIEMENS
20 pages
6M70T Engine
100% (2)
6M70T Engine
12 pages
Ethics in IT
0% (1)
Ethics in IT
22 pages
CYCLOPS X - Purge Controller Brochure XP
No ratings yet
CYCLOPS X - Purge Controller Brochure XP
4 pages
Nota Praktis NPK6-1 PDF
No ratings yet
Nota Praktis NPK6-1 PDF
10 pages
Brandbook - Buffalo Wild Wings
No ratings yet
Brandbook - Buffalo Wild Wings
27 pages
Data Transmission Cables
No ratings yet
Data Transmission Cables
11 pages
7300CV Modbus Protocol
No ratings yet
7300CV Modbus Protocol
34 pages
Topcon User Manual 230
100% (1)
Topcon User Manual 230
167 pages
Internal Arc Testing of MV Switchgear IEC 62271-200 Part Two
No ratings yet
Internal Arc Testing of MV Switchgear IEC 62271-200 Part Two
4 pages
LA-MC2N-G0101: Miniature Full Gigabit 10/100/1000Base-TX To 100/1000Base-FX Media Converter
No ratings yet
LA-MC2N-G0101: Miniature Full Gigabit 10/100/1000Base-TX To 100/1000Base-FX Media Converter
4 pages
Dell Networking mx8116n Spec Sheet
No ratings yet
Dell Networking mx8116n Spec Sheet
3 pages
SSP 252 1.4 Lupo FSi Engine
No ratings yet
SSP 252 1.4 Lupo FSi Engine
56 pages
Bio - Informatics Unit - 1 Introduction To Bio-Informatics
No ratings yet
Bio - Informatics Unit - 1 Introduction To Bio-Informatics
28 pages
Eecs 484
No ratings yet
Eecs 484
38 pages
Ieee Sa
No ratings yet
Ieee Sa
13 pages
Elektro Otporno Zavarivanje PDF
No ratings yet
Elektro Otporno Zavarivanje PDF
30 pages
Regulations Examination
No ratings yet
Regulations Examination
37 pages
DataSheet - Rele Mini 5V
No ratings yet
DataSheet - Rele Mini 5V
3 pages
210 2009 Reff2020
No ratings yet
210 2009 Reff2020
13 pages
Adams Rite 2014 Price List
No ratings yet
Adams Rite 2014 Price List
21 pages
Summary Statement Final
75% (4)
Summary Statement Final
9 pages
Henry
No ratings yet
Henry
86 pages
Couplings PPT Class
No ratings yet
Couplings PPT Class
12 pages
2749 - Carrier 30 GH 095
100% (3)
2749 - Carrier 30 GH 095
16 pages
IBPS - Clerk - VI - Recruitment of Clerk PDF
No ratings yet
IBPS - Clerk - VI - Recruitment of Clerk PDF
2 pages