0% found this document useful (0 votes)

6 views

Assignment

Uploaded by

shafaq tanveer

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

6 views

Assignment

Uploaded by

shafaq tanveer

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 2

Titanic Data Preprocessing

EMAN

r Sys.Date()

{r setup, include=FALSE} knitr::opts_chunk$set(echo = TRUE)

R Markdown
This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and
MS Word documents. For more details on using R Markdown see http://rmarkdown.rstudio.com.
When you click the Knit button a document will be generated that includes both content as well as the
output of any embedded R code chunks within the document. You can embed an R code chunk like this:
{r cars} summary(cars)

Including Plots
You can also embed plots, for example:
{r pressure, echo=FALSE} plot(pressure)
Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that
generated the plot.
library(dplyr) library(tidyr) library(caret) library(knitr) library(rmarkdown)

Load the dataset

titanic_data <- read.csv(“titanic.csv”)

Inspect the first few rows and structure

head(titanic_data) str(titanic_data) View(titanic.csv)

Handling missing values

missing_values <- sapply(titanic_data, function(x) sum(is.na(x))) missing_values

Imputing Missing Values(median)

titanic_dataAge[is.na(titanicd ataAge)] <- median(titanic_data$Age, na.rm = TRUE)

1
Imputing frequent value (mode)
most_frequent_embarked <- as.character(names(sort(table(titanic_dataEmbarked), decreasing =
T RU E)[1]))titanicd ataEmbarked[is.na(titanic_data$Embarked)] <- most_frequent_embarked
titanic_data <- titanic_data %>% select(-Cabin)

Encode categorical variables

titanic_dataSex < −as.f actor(titanicd ataSex) titanic_dataEmbarked < −as.f actor(titanicd ataEmbarked)
titanic_data <- titanic_data %>% mutate(Sex = as.numeric(Sex == “female”), Embarked_S =
as.numeric(Embarked == “S”), Embarked_C = as.numeric(Embarked == “C”), Embarked_Q =
as.numeric(Embarked == “Q”)) %>% select(-Embarked)

Feature engineering
titanic_dataF amilySize < −titanicd ataSibSp + titanic_data$Parch + 1

Create ‘IsAlone’ feature

titanic_dataIsAlone < −if else(titanicd ataFamilySize == 1, 1, 0)

Drop unnecessary columns

titanic_data <- titanic_data %>% select(-PassengerId, -Name, -Ticket)

Splitting the dataset

set.seed(123) # For reproducibility train_index <- createDataPartition(titanic_data$Survived, p = 0.8, list
= FALSE) train_data <- titanic_data[train_index, ] test_data <- titanic_data[-train_index, ]

Output the dimensions of the training and testing sets

table(trainSurvived)table(testSurvived)

Individual Asignment Ucs551
70% (10)
Individual Asignment Ucs551
15 pages
Lisp Interpreter in Rust
From Everand
Lisp Interpreter in Rust
Vishal Patil
1/5 (1)
Learn R Programming in 24 Hours
From Everand
Learn R Programming in 24 Hours
Alex Nordeen
No ratings yet
R Markdown: Eman 2024-06-16
No ratings yet
R Markdown: Eman 2024-06-16
1 page
File Show
No ratings yet
File Show
2 pages
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Data Wrangling (Data Preprocessing) : Practical Assessment 1
No ratings yet
Data Wrangling (Data Preprocessing) : Practical Assessment 1
5 pages
08 Titanic
No ratings yet
08 Titanic
19 pages
Titanic ML Kaggle
No ratings yet
Titanic ML Kaggle
3 pages
Imputacion
No ratings yet
Imputacion
15 pages
Introduction to Algorithms
From Everand
Introduction to Algorithms
S VASIST
No ratings yet
Data Visualization With Ggplot2: Install Packages
No ratings yet
Data Visualization With Ggplot2: Install Packages
19 pages
Assignment1
No ratings yet
Assignment1
2 pages
Titanic Prediction
No ratings yet
Titanic Prediction
53 pages
Ex2
No ratings yet
Ex2
5 pages
Computer Engineering Laboratory Solution Primer
From Everand
Computer Engineering Laboratory Solution Primer
Karan Bhandari
No ratings yet
Titanic MD File
No ratings yet
Titanic MD File
8 pages
ML_Visualization_Exam_Notes
No ratings yet
ML_Visualization_Exam_Notes
2 pages
Ahamed 123
100% (1)
Ahamed 123
7 pages
Exercise 7 - Integrated Analysis with R
No ratings yet
Exercise 7 - Integrated Analysis with R
27 pages
jQuery 1.4 Reference Guide
From Everand
jQuery 1.4 Reference Guide
Jonathan Chaffer
3.5/5 (2)
Coding Titanicmain
No ratings yet
Coding Titanicmain
58 pages
Exploring The Titanic Dataset With Python
No ratings yet
Exploring The Titanic Dataset With Python
6 pages
Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
3/5 (1)
Data Science Assignment Submission
No ratings yet
Data Science Assignment Submission
12 pages
Titanic
No ratings yet
Titanic
22 pages
Missing data-Titanic dataset
No ratings yet
Missing data-Titanic dataset
4 pages
Lisp Programming Language
From Everand
Lisp Programming Language
Faiz ul haque Zeya
No ratings yet
Titanic (5)
No ratings yet
Titanic (5)
3 pages
Titanic (4)
No ratings yet
Titanic (4)
3 pages
Learn C++
From Everand
Learn C++
Durgesh
4.5/5 (9)
Titanic Survival Prediction
No ratings yet
Titanic Survival Prediction
14 pages
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
Titanic Data Analysis-Report
No ratings yet
Titanic Data Analysis-Report
4 pages
Introduction to PHP, Part 2, Second Edition
From Everand
Introduction to PHP, Part 2, Second Edition
Adam Majczak
No ratings yet
CEP Final
No ratings yet
CEP Final
11 pages
Report TSP
No ratings yet
Report TSP
13 pages
Pandas Day 4
No ratings yet
Pandas Day 4
7 pages
PredictingTitanicSurvivorsusing by Applying Exploratory Data Anyltics and ML
No ratings yet
PredictingTitanicSurvivorsusing by Applying Exploratory Data Anyltics and ML
7 pages
1
No ratings yet
1
9 pages
INFO-523 Homework 1
No ratings yet
INFO-523 Homework 1
2 pages
Import As: Pandas PD Titanic - Data PD - Read - CSV Titanic - Data - Head
No ratings yet
Import As: Pandas PD Titanic - Data PD - Read - CSV Titanic - Data - Head
12 pages
Lab6 Results 8974917
No ratings yet
Lab6 Results 8974917
4 pages
Aim: Predicting The Survival of Titanic Passengers
No ratings yet
Aim: Predicting The Survival of Titanic Passengers
20 pages
Titanic Survival Prediction
No ratings yet
Titanic Survival Prediction
14 pages
Mastering Data Structures and Algorithms in C and C++
From Everand
Mastering Data Structures and Algorithms in C and C++
Sachin Naha
No ratings yet
The Titanic dataset
No ratings yet
The Titanic dataset
6 pages
C Language Programming Codes
From Everand
C Language Programming Codes
Durgesh
No ratings yet
Titanic
No ratings yet
Titanic
12 pages
TITANIC SURVIVAL PREDICTION USING ML MINIPROJECT
No ratings yet
TITANIC SURVIVAL PREDICTION USING ML MINIPROJECT
21 pages
Profound Linux For Developers
From Everand
Profound Linux For Developers
Onder Teker
No ratings yet
Ipl Matches Documentation
No ratings yet
Ipl Matches Documentation
28 pages
Terminal Assessment 2 DAP
No ratings yet
Terminal Assessment 2 DAP
25 pages
9
No ratings yet
9
4 pages
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
From Everand
Oracle Certified Professional Java Programmer OCPJP 1Z0 809
Manish Soni
No ratings yet
DAL Assignment 2 Endsem
No ratings yet
DAL Assignment 2 Endsem
8 pages
Coursera Notes
No ratings yet
Coursera Notes
4 pages
Mode Los
No ratings yet
Mode Los
1 page
Ditk PP
No ratings yet
Ditk PP
24 pages
Titanic Eda
No ratings yet
Titanic Eda
14 pages
Staley DVD Evidence
100% (1)
Staley DVD Evidence
4 pages
Case Study
No ratings yet
Case Study
21 pages
Vlsi Project Abstract
No ratings yet
Vlsi Project Abstract
5 pages
Survey Questionnaire Dear Respondents, Greetings!
No ratings yet
Survey Questionnaire Dear Respondents, Greetings!
3 pages
Hardware Release and End of Service Life Notifications
100% (1)
Hardware Release and End of Service Life Notifications
22 pages
RegEx Methods
No ratings yet
RegEx Methods
5 pages
Cloud Computing and Security
100% (1)
Cloud Computing and Security
4 pages
Set de Instrucciones DLX
No ratings yet
Set de Instrucciones DLX
2 pages
Smart Kart Project
No ratings yet
Smart Kart Project
16 pages
Clip 12
No ratings yet
Clip 12
2 pages
emi online bits mid 2
No ratings yet
emi online bits mid 2
18 pages
TP Debug Info
No ratings yet
TP Debug Info
6 pages
Midterms Tos CP2
No ratings yet
Midterms Tos CP2
2 pages
CBSE BOARD PRACTICAL PROGRAMS SETWISE New Patternpage Setting
No ratings yet
CBSE BOARD PRACTICAL PROGRAMS SETWISE New Patternpage Setting
3 pages
(Ebook) Web Scraping with Python by Ryan Mitchell ISBN 9781491910276, 1491910275 - The full ebook version is just one click away
100% (3)
(Ebook) Web Scraping with Python by Ryan Mitchell ISBN 9781491910276, 1491910275 - The full ebook version is just one click away
68 pages
TP5.-CentOS OpenLDAP
No ratings yet
TP5.-CentOS OpenLDAP
7 pages
EFS J BitLocker J Advanced Audit-Report
No ratings yet
EFS J BitLocker J Advanced Audit-Report
22 pages
SE Ch2
No ratings yet
SE Ch2
4 pages
C_S4CPR_2108 - SAP S4HANA Cloud Procurement Implementation
No ratings yet
C_S4CPR_2108 - SAP S4HANA Cloud Procurement Implementation
63 pages
LVShim Localizer
No ratings yet
LVShim Localizer
4 pages
Wix Guide
No ratings yet
Wix Guide
64 pages
Advanced Geospatial Technology Course 2025
No ratings yet
Advanced Geospatial Technology Course 2025
2 pages
Notes Computer Science According To Syllabus of FBISE: Class: 9 Long Questions
No ratings yet
Notes Computer Science According To Syllabus of FBISE: Class: 9 Long Questions
5 pages
Xdata User Guide
No ratings yet
Xdata User Guide
198 pages
Luke Richardson Resume
No ratings yet
Luke Richardson Resume
2 pages
Info Sheet: Security Guidance V.4
No ratings yet
Info Sheet: Security Guidance V.4
2 pages
Word Processing For Beginners, Part I: Techcenter - The Public Library of Cincinnati & Hamilton County
No ratings yet
Word Processing For Beginners, Part I: Techcenter - The Public Library of Cincinnati & Hamilton County
9 pages
1 Appdynamics Internship Interview Experience 2
No ratings yet
1 Appdynamics Internship Interview Experience 2
5 pages
Incase Mwala JVSPCT
No ratings yet
Incase Mwala JVSPCT
5 pages
Sysmocom - S.F.M.C. GMBH: Sysmousim / Sysmoisim User Manual
No ratings yet
Sysmocom - S.F.M.C. GMBH: Sysmousim / Sysmoisim User Manual
51 pages

Assignment

Uploaded by

Assignment

Uploaded by

Titanic Data Preprocessing

{r setup, include=FALSE} knitr::opts_chunk$set(echo = TRUE)

Load the dataset

Inspect the first few rows and structure

Handling missing values

Imputing Missing Values(median)

Encode categorical variables

Create ‘IsAlone’ feature

Drop unnecessary columns

Splitting the dataset

Output the dimensions of the training and testing sets

You might also like