0% found this document useful (0 votes)

654 views7 pages

Text File Exploratory Analysis

This document provides an exploratory data analysis of text files as part of a data science capstone project. It summarizes the size of three text files (blogs, news, twitter), creates a corpus from a sample of the data, cleans the text, analyzes n-grams (most common 2-word and 4-word sequences), and identifies the top 50 most commonly used words. Visualizations are created to show the top 10 bigrams and quadgrams. The goal is to gain insights from the text data through exploratory analysis techniques.

Uploaded by

Habib Mrad

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

654 views7 pages

Text File Exploratory Analysis

Uploaded by

Habib Mrad

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 7

1/18/2018 Data Science Capstone - Week 2 Milestone - Exploratory Data Analysis on Text Files

Data Science Capstone - Week 2

Milestone - Exploratory Data Analysis on
Text Files
Leandro Freitas
10/26/2017

1. Executive Summary
The goal of this project is to do an exploratory data analysis on text files as part of Week 2 activities from Data
Science Specialization SwiftKey Capstone. Data for the analysis can be downloaded from the link below:

https://d396qusza40orc.cloudfront.net/dsscapstone/dataset/Coursera-SwiftKey.zip
(https://d396qusza40orc.cloudfront.net/dsscapstone/dataset/Coursera-SwiftKey.zip)

2. Preparing Environment
2.1. Loading Libraries
Loading required packages:

set.seed(500)
library(ggplot2)
library(knitr)
library(RWeka)
library(SnowballC)
library(tm)
library(wordcloud)

Complementary information:

sessionInfo()

https://rstudio-pubs-static.s3.amazonaws.com/323145_6c395a8d69e6441d90c3abd94f67a5ce.html 1/7
1/18/2018 Data Science Capstone - Week 2 Milestone - Exploratory Data Analysis on Text Files

## R version 3.4.1 (2017-06-30)

## Platform: x86_64-w64-mingw32/x64 (64-bit)
## Running under: Windows 10 x64 (build 15063)
##
## Matrix products: default
##
## locale:
## [1] LC_COLLATE=Portuguese_Brazil.1252 LC_CTYPE=Portuguese_Brazil.1252
## [3] LC_MONETARY=Portuguese_Brazil.1252 LC_NUMERIC=C
## [5] LC_TIME=Portuguese_Brazil.1252
##
## attached base packages:
## [1] stats graphics grDevices utils datasets methods base
##
## other attached packages:
## [1] wordcloud_2.5 RColorBrewer_1.1-2 tm_0.7-1
## [4] NLP_0.1-11 SnowballC_0.5.1 RWeka_0.4-34
## [7] knitr_1.17 ggplot2_2.2.1 RevoUtilsMath_10.0.0
##
## loaded via a namespace (and not attached):
## [1] Rcpp_0.12.12 magrittr_1.5 RWekajars_3.9.1-3
## [4] munsell_0.4.3 colorspace_1.3-2 rlang_0.1.2
## [7] stringr_1.2.0 plyr_1.8.4 tools_3.4.1
## [10] parallel_3.4.1 grid_3.4.1 gtable_0.2.0
## [13] htmltools_0.3.6 yaml_2.1.14 lazyeval_0.2.0
## [16] rprojroot_1.2 digest_0.6.12 tibble_1.3.4
## [19] rJava_0.9-8 slam_0.1-40 evaluate_0.10.1
## [22] rmarkdown_1.6 stringi_1.1.5 compiler_3.4.1
## [25] RevoUtils_10.0.5 scales_0.5.0 backports_1.1.0

2.2. Loading Datasets

# Read text files
Blogs <- readLines("./source/en_US.blogs.txt")
News <- readLines("./source/en_US.news.txt")
Twitter <- readLines("./source/en_US.twitter.txt")

2.2.1. Basic summaries of the three files

https://rstudio-pubs-static.s3.amazonaws.com/323145_6c395a8d69e6441d90c3abd94f67a5ce.html 2/7
1/18/2018 Data Science Capstone - Week 2 Milestone - Exploratory Data Analysis on Text Files

Blogs_Summary <- c(sum(nchar(Blogs)),

length(unlist(strsplit(Blogs, " "))),
format(object.size(Blogs), units = "Mb"))

News_Summary <- c(sum(nchar(News)),

length(unlist(strsplit(News, " "))),
format(object.size(News), units = "Mb"))

Twitter_Summary <- c(sum(nchar(Twitter)),

length(unlist(strsplit(Twitter, " "))),
format(object.size(Twitter), units = "Mb"))

var_names <- c("Characters", "Words", "Size")

summary_files <- data.frame(Blogs_Summary, News_Summary, Twitter_Summary, row.names = var_names)
names(summary_files) <- c("en_US.blogs.txt", "en_US.news.txt", "en_US.twitter.txt")
kable(summary_files, align = "c")

en_US.blogs.txt en_US.news.txt en_US.twitter.txt

Characters 208361438 15683765 162384825

Words 37334131 2643969 30373543

Size 248.5 Mb 19.2 Mb 301.4 Mb

2.3. Preparing Data

2.3.1. Sampling and Corpus
Since the source files are large, a sample will be taken from each one to do the analysis:

Sample_Text <- rbind( sample(Blogs,10000),

sample(News, 10000),
sample(Twitter, 10000))

# Delete no longer needed large data

rm(Blogs, News, Twitter)

Now create a corpus (collection of text documents) from the sample texts:

Corpus_ST <- Corpus(VectorSource(Sample_Text))

2.3.2. Clean and prep data for analysis

Corpus_ST <- tm_map(Corpus_ST, removeWords, stopwords("english"))
Corpus_ST <- tm_map(Corpus_ST, removePunctuation)
Corpus_ST <- tm_map(Corpus_ST, removeNumbers)
Corpus_ST <- tm_map(Corpus_ST, stripWhitespace)
Corpus_ST <- tm_map(Corpus_ST, tolower)
Corpus_ST <- tm_map(Corpus_ST, stemDocument)

https://rstudio-pubs-static.s3.amazonaws.com/323145_6c395a8d69e6441d90c3abd94f67a5ce.html 3/7
1/18/2018 Data Science Capstone - Week 2 Milestone - Exploratory Data Analysis on Text Files

3. Exploratory Data Analysis

3.1. Finding n-grams
# Function for tokenizing the Corpus
f_tokenizer <- function (corpus, i) {
temp <- c()
ngram <-c()
temp <- NGramTokenizer(corpus, Weka_control(min=i,max=i))
ngram <- data.frame(table(temp))
return(ngram)
}

# Find n-grams
ngram_US_2 <- f_tokenizer(Corpus_ST, 2)
ngram_US_4 <- f_tokenizer(Corpus_ST, 4)

3.1.1. Most used sequences of 2 and 4 words

ngram_US_2 <- ngram_US_2[order(ngram_US_2$Freq, decreasing = TRUE),]
ngram_US_4 <- ngram_US_4[order(ngram_US_4$Freq, decreasing = TRUE),]

head(ngram_US_2, 10)

## temp Freq
## 168895 i think 543
## 168103 i know 394
## 168164 i love 326
## 169016 i want 314
## 167449 i can 308
## 169058 i will 273
## 168083 i just 236
## 194669 last year 231
## 402541 year ago 186
## 168141 i like 175

head(ngram_US_4, 10)

https://rstudio-pubs-static.s3.amazonaws.com/323145_6c395a8d69e6441d90c3abd94f67a5ce.html 4/7
1/18/2018 Data Science Capstone - Week 2 Milestone - Exploratory Data Analysis on Text Files

## temp Freq
## 283048 me me me me 36
## 207375 i feel like i 16
## 479751 ugli ugli ugli ugli 14
## 207482 i felt like i 7
## 209752 i know i know 7
## 214658 i think i can 7
## 451947 the new york time 7
## 206733 i donâ<U+0080><U+0099>t know i 5
## 214729 i think im go 5
## 208866 i hope i can 4

3.1.2. Plot most used sequences of 2 words

Bigrams <- ngram_US_2[order(ngram_US_2$Freq,decreasing = TRUE),]
colnames(Bigrams)<-c("Bigram","Frequency" )
Bigrams<- Bigrams[1:10,]

barplot(Bigrams$Frequency, las = 2,
names.arg = Bigrams$Bigram,
col ="lightgreen", main ="Top 10 Bigrams",
ylab = "Frequency")

3.2.3. Plot most used sequences of 4 words

https://rstudio-pubs-static.s3.amazonaws.com/323145_6c395a8d69e6441d90c3abd94f67a5ce.html 5/7
1/18/2018 Data Science Capstone - Week 2 Milestone - Exploratory Data Analysis on Text Files

Quadgrams <- ngram_US_4[order(ngram_US_4$Freq,decreasing = TRUE),]

colnames(Quadgrams)<-c("Quadgram","Frequency" )
Quadgrams<- Quadgrams[1:10,]

barplot(Quadgrams$Frequency, las = 2,
names.arg = Quadgrams[1:10,]$Quadgram,
col ="lightblue", main ="Top 10 Quadgrams",
ylab = "Frequency")

3.2. Most Common Words

3.2.1. Top 50 words used in the texts
Matrix_US <- DocumentTermMatrix(Corpus_ST)
Matrix_US <- removeSparseTerms(Matrix_US, 0.99)
frequency <- colSums(as.matrix(Matrix_US))
order_freq <- order(frequency, decreasing=TRUE)
frequency[head(order_freq,50)]

https://rstudio-pubs-static.s3.amazonaws.com/323145_6c395a8d69e6441d90c3abd94f67a5ce.html 6/7
1/18/2018 Data Science Capstone - Week 2 Milestone - Exploratory Data Analysis on Text Files

## the one will said get like just time can year
## 4988 2854 2848 2838 2282 2245 2225 2182 2093 2037
## make day new work know now good love say peopl
## 1775 1641 1547 1528 1418 1359 1352 1337 1311 1302
## want think also use but look first see thing back
## 1297 1277 1267 1244 1199 1190 1186 1186 1156 1150
## two and need come last take even way much this
## 1147 1142 1127 1126 1124 1086 1072 1057 957 956
## week state start realli well right still great play game
## 924 919 918 910 904 872 864 823 818 816

3.2.2. Word Cloud

colors = c("blue", "red", "orange", "green")
wordcloud(names(frequency), frequency, max.words=50, min.freq=2, colors=colors)

4. Future Actions
My goal for the eventual app and algorithm is to create a “Shiny version” of a word prediction/completios apps
available for cell phones.

https://rstudio-pubs-static.s3.amazonaws.com/323145_6c395a8d69e6441d90c3abd94f67a5ce.html 7/7

Free Download Data Science Curriculum - Innomatics Research Labs Hyderabad, India
No ratings yet
Free Download Data Science Curriculum - Innomatics Research Labs Hyderabad, India
14 pages
FINAL AnswerBank Data Science Sem VI PDF
No ratings yet
FINAL AnswerBank Data Science Sem VI PDF
90 pages
IRJCS:: Information Security in Big Data Using Encryption and Decryption
No ratings yet
IRJCS:: Information Security in Big Data Using Encryption and Decryption
6 pages
Registers and Collaboration: Making Lists We Can Trust
No ratings yet
Registers and Collaboration: Making Lists We Can Trust
29 pages
SPARK Science Learning System
No ratings yet
SPARK Science Learning System
90 pages
Data Science Tools Study Guides For MIT's 15.003
No ratings yet
Data Science Tools Study Guides For MIT's 15.003
23 pages
Data Science Comprehensive Overview
No ratings yet
Data Science Comprehensive Overview
42 pages
CU Data Science With SQL and Tableau
No ratings yet
CU Data Science With SQL and Tableau
4 pages
Stat 1261/2260: Principles of Data Science (Fall 2021) Assignment 1: R and Rstudio
No ratings yet
Stat 1261/2260: Principles of Data Science (Fall 2021) Assignment 1: R and Rstudio
10 pages
Intro To Data Science With DB
No ratings yet
Intro To Data Science With DB
33 pages
4 Data Science-Big Data
No ratings yet
4 Data Science-Big Data
22 pages
Data Science With R
No ratings yet
Data Science With R
26 pages
Final UTS Report For Data Science Institute 2017-1-3
100% (3)
Final UTS Report For Data Science Institute 2017-1-3
39 pages
Using The NHS Change Model To Support The 6 C's of Nursing
No ratings yet
Using The NHS Change Model To Support The 6 C's of Nursing
9 pages
Aging in Rural America: Preserving Seniors' Access To Healthcare
No ratings yet
Aging in Rural America: Preserving Seniors' Access To Healthcare
106 pages
Philosophy of Nursing Paper
No ratings yet
Philosophy of Nursing Paper
9 pages
Application Contract Data Science
No ratings yet
Application Contract Data Science
6 pages
Specility Department
No ratings yet
Specility Department
140 pages
Death and The: Nursing Home
No ratings yet
Death and The: Nursing Home
8 pages
Data Science Regular Handout
No ratings yet
Data Science Regular Handout
25 pages
Emc Data Science Study WP PDF
No ratings yet
Emc Data Science Study WP PDF
6 pages
Capstone Clinical Nursing Judgement
No ratings yet
Capstone Clinical Nursing Judgement
7 pages
Program Overview: #Datascience - Data Science in Iot
100% (1)
Program Overview: #Datascience - Data Science in Iot
9 pages
Defining Big Data: Insights from Experts
No ratings yet
Defining Big Data: Insights from Experts
10 pages
Visvesvaraya Technological University Belagavi
No ratings yet
Visvesvaraya Technological University Belagavi
74 pages
2017/18 Diploma Holders' Degree List
No ratings yet
2017/18 Diploma Holders' Degree List
121 pages
Pip 2011-12 Ap NRHM
No ratings yet
Pip 2011-12 Ap NRHM
276 pages
Data Science and Its Relationship To Big Data and Data-Driven Decision Making
No ratings yet
Data Science and Its Relationship To Big Data and Data-Driven Decision Making
22 pages
Kaggle's State of Machine Learning and Data Science 2021
No ratings yet
Kaggle's State of Machine Learning and Data Science 2021
45 pages
Ucf Nursing Dec04 Final-Edited 000
No ratings yet
Ucf Nursing Dec04 Final-Edited 000
24 pages
Optimization in Data Science
No ratings yet
Optimization in Data Science
18 pages
Nursing History and Development of Nursing
No ratings yet
Nursing History and Development of Nursing
11 pages
Introduction To Tree Methods
No ratings yet
Introduction To Tree Methods
15 pages
PSD02 - Data Science Overview
No ratings yet
PSD02 - Data Science Overview
64 pages
The Nursing Process
No ratings yet
The Nursing Process
6 pages
Prospectus 11
No ratings yet
Prospectus 11
130 pages
Advanced Certification in Data Science and Artificial Intelligence
No ratings yet
Advanced Certification in Data Science and Artificial Intelligence
18 pages
Data Science Generating Value From Data Course Slides Red
No ratings yet
Data Science Generating Value From Data Course Slides Red
54 pages
Hands-On Data Science With R Text Mining
No ratings yet
Hands-On Data Science With R Text Mining
41 pages
Evaluation of BIRCH Clustering Algorithm For Big Data
No ratings yet
Evaluation of BIRCH Clustering Algorithm For Big Data
5 pages
Week 02 PDF
No ratings yet
Week 02 PDF
39 pages
1b Paediatric Nursing
No ratings yet
1b Paediatric Nursing
19 pages
Lollipop UCLA NursingStudy
No ratings yet
Lollipop UCLA NursingStudy
5 pages
Spatial Data Mining Techniques
No ratings yet
Spatial Data Mining Techniques
8 pages
Data Science
100% (2)
Data Science
52 pages
Interventions in Nursing Homes
No ratings yet
Interventions in Nursing Homes
18 pages
Data Science With R - Course Materials
No ratings yet
Data Science With R - Course Materials
25 pages
DataScience With R (Assignment 5-Report)
No ratings yet
DataScience With R (Assignment 5-Report)
9 pages
COVID-19 Data Analysis - Predicting Patient Recovery
No ratings yet
COVID-19 Data Analysis - Predicting Patient Recovery
7 pages
Documents: Search Books, Presentations, Business, Academics..
No ratings yet
Documents: Search Books, Presentations, Business, Academics..
38 pages
R For Everyone - For Data Science
No ratings yet
R For Everyone - For Data Science
10 pages
Python Data Science Cookbook - (Preface) PDF
No ratings yet
Python Data Science Cookbook - (Preface) PDF
8 pages
Exploratory Data Analysis of Migraine Data
No ratings yet
Exploratory Data Analysis of Migraine Data
6 pages
5 Powerful Scikit-Learn Examples - Towards Data Science
No ratings yet
5 Powerful Scikit-Learn Examples - Towards Data Science
10 pages
Bullying in Nursing Education
No ratings yet
Bullying in Nursing Education
9 pages
Data Science Intro
No ratings yet
Data Science Intro
52 pages
Defining Data Science - The What, Where and How of Data Science - 365 Data Science PDF
No ratings yet
Defining Data Science - The What, Where and How of Data Science - 365 Data Science PDF
24 pages
Order Tasks and Milestones Assignment
No ratings yet
Order Tasks and Milestones Assignment
6 pages
SMTA - Lab Record - Aim, Procedures and Results
No ratings yet
SMTA - Lab Record - Aim, Procedures and Results
31 pages
R语言基础入门指令 (tips)
No ratings yet
R语言基础入门指令 (tips)
14 pages
Writing - Task 1 - GT
No ratings yet
Writing - Task 1 - GT
8 pages
Schedule 50 - 2024
No ratings yet
Schedule 50 - 2024
1 page
ChatGPT For Data Analytics Full Course
No ratings yet
ChatGPT For Data Analytics Full Course
3 pages
Additional Instructions For Express Entry Canada
No ratings yet
Additional Instructions For Express Entry Canada
6 pages
Alarm Data
No ratings yet
Alarm Data
3 pages
(2303.18223) A Survey of Large Language Models
No ratings yet
(2303.18223) A Survey of Large Language Models
115 pages
Building An AI Startup-2024. in 2024, Building An AI Startup - by Bijit Ghosh - Feb, 2024 - Medium
No ratings yet
Building An AI Startup-2024. in 2024, Building An AI Startup - by Bijit Ghosh - Feb, 2024 - Medium
25 pages
Express Entry Application Steps
No ratings yet
Express Entry Application Steps
2 pages
Understanding Large Language Models
No ratings yet
Understanding Large Language Models
39 pages
ChatGPT Mastery - Zaka
No ratings yet
ChatGPT Mastery - Zaka
10 pages
Introduction To NLP
No ratings yet
Introduction To NLP
50 pages
Learning Guide: Cardiovascular Diseases: Be Able To Discuss Each of The Following
No ratings yet
Learning Guide: Cardiovascular Diseases: Be Able To Discuss Each of The Following
2 pages
3.0 - Matrix Properties
No ratings yet
3.0 - Matrix Properties
2 pages
Matrix Inverse Calculation Guide
No ratings yet
Matrix Inverse Calculation Guide
2 pages
P-Value Hypothesis Testing Guide
No ratings yet
P-Value Hypothesis Testing Guide
3 pages
Next Gen Cardiology Innovators List
100% (1)
Next Gen Cardiology Innovators List
1 page
Matrix Inverse Calculation Guide
No ratings yet
Matrix Inverse Calculation Guide
2 pages
5.4 - Eigendecomposition
No ratings yet
5.4 - Eigendecomposition
2 pages
Regbook Inside
100% (1)
Regbook Inside
21 pages
Generalization Bounds and Stability: 9.520 Class 14, 03 April 2006 Sasha Rakhlin
No ratings yet
Generalization Bounds and Stability: 9.520 Class 14, 03 April 2006 Sasha Rakhlin
25 pages
Meta-Analysis of Imaging Performance
No ratings yet
Meta-Analysis of Imaging Performance
35 pages
Ranking Problems: 9.520 Class 09, 08 March 2006 Giorgos Zacharia
No ratings yet
Ranking Problems: 9.520 Class 09, 08 March 2006 Giorgos Zacharia
27 pages
Class Notes
No ratings yet
Class Notes
147 pages
Class 03
No ratings yet
Class 03
40 pages
Online Learning: 9.520 Class 12, 20 March 2006 Andrea Caponnetto, Sanmay Das
No ratings yet
Online Learning: 9.520 Class 12, 20 March 2006 Andrea Caponnetto, Sanmay Das
33 pages
Class 01
No ratings yet
Class 01
75 pages
Class 02
No ratings yet
Class 02
42 pages
Internet Protocol: IP Datagram, Fragmentation and Reassembly
No ratings yet
Internet Protocol: IP Datagram, Fragmentation and Reassembly
22 pages
The Intel 80x86: Thorne: Section 1.4-1.6, 2.2.4, Section 3.4 (Irvine, Edition IV: Section 2.2)
No ratings yet
The Intel 80x86: Thorne: Section 1.4-1.6, 2.2.4, Section 3.4 (Irvine, Edition IV: Section 2.2)
25 pages
Network Inter-Working Strategy With GL900M 20160311 (Final Strategy)
50% (2)
Network Inter-Working Strategy With GL900M 20160311 (Final Strategy)
12 pages
MX8733
No ratings yet
MX8733
7 pages
SCCM 1511 CAS Server Installation Step by Step PDF
No ratings yet
SCCM 1511 CAS Server Installation Step by Step PDF
29 pages
10-Universal Switch Config 2017 v0.6
No ratings yet
10-Universal Switch Config 2017 v0.6
23 pages
Internship in Robotics and Embedded Systems (Course and Fee)
No ratings yet
Internship in Robotics and Embedded Systems (Course and Fee)
8 pages
Data Engineering Cookbook
100% (2)
Data Engineering Cookbook
127 pages
Chipless Printing Guide for Epson
No ratings yet
Chipless Printing Guide for Epson
5 pages
Lab 11 Report
No ratings yet
Lab 11 Report
22 pages
How To Download Files Safely From The Internet
No ratings yet
How To Download Files Safely From The Internet
10 pages
Basic Digital Logic Design Notes PDF
100% (1)
Basic Digital Logic Design Notes PDF
138 pages
8051 Microcontrollers
No ratings yet
8051 Microcontrollers
17 pages
Sample Test MTCNA 100%
63% (8)
Sample Test MTCNA 100%
3 pages
The New Digital Media Ecosystem: White Paper
No ratings yet
The New Digital Media Ecosystem: White Paper
6 pages
The JK Flip
No ratings yet
The JK Flip
4 pages
Allen-Bradley SLC500 Ethernet Manual
No ratings yet
Allen-Bradley SLC500 Ethernet Manual
25 pages
Bluetooth: A Guide for Tech Enthusiasts
No ratings yet
Bluetooth: A Guide for Tech Enthusiasts
40 pages
Secondary Storage
No ratings yet
Secondary Storage
7 pages
Share A Text With Facebook Messenger - Stack Overflow PDF
No ratings yet
Share A Text With Facebook Messenger - Stack Overflow PDF
4 pages
TEMPLATE Project Implementation Plan
No ratings yet
TEMPLATE Project Implementation Plan
15 pages
System Administrator With DevOps Skills Questions - Set1
No ratings yet
System Administrator With DevOps Skills Questions - Set1
2 pages
Contactless Mobile Payment Architecture Overview 2010062808363068
No ratings yet
Contactless Mobile Payment Architecture Overview 2010062808363068
28 pages
E-SSO 803 ConsoleAdminGuide
No ratings yet
E-SSO 803 ConsoleAdminGuide
269 pages
Ds-7200Hqhi-K1 Series Turbo HD DVR: Features and Functions
No ratings yet
Ds-7200Hqhi-K1 Series Turbo HD DVR: Features and Functions
3 pages
Unix Viva Questions
No ratings yet
Unix Viva Questions
20 pages
ONTAP 90 HighAvailability Configuration Guide
No ratings yet
ONTAP 90 HighAvailability Configuration Guide
64 pages
IoT Developer Program Overview
No ratings yet
IoT Developer Program Overview
36 pages
Dex Quick Start Guide
No ratings yet
Dex Quick Start Guide
12 pages
Prometheus. Atlas Musculos
No ratings yet
Prometheus. Atlas Musculos
70 pages

Text File Exploratory Analysis

Uploaded by

Text File Exploratory Analysis

Uploaded by

1/18/2018 Data Science Capstone - Week 2 Milestone - Exploratory Data Analysis on Text Files

Data Science Capstone - Week 2

## R version 3.4.1 (2017-06-30)

2.2. Loading Datasets

2.2.1. Basic summaries of the three files

Blogs_Summary <- c(sum(nchar(Blogs)),

News_Summary <- c(sum(nchar(News)),

Twitter_Summary <- c(sum(nchar(Twitter)),

var_names <- c("Characters", "Words", "Size")

en_US.blogs.txt en_US.news.txt en_US.twitter.txt

Characters 208361438 15683765 162384825

Words 37334131 2643969 30373543

Size 248.5 Mb 19.2 Mb 301.4 Mb

2.3. Preparing Data

Sample_Text <- rbind( sample(Blogs,10000),

# Delete no longer needed large data

Corpus_ST <- Corpus(VectorSource(Sample_Text))

2.3.2. Clean and prep data for analysis

3. Exploratory Data Analysis

3.1.1. Most used sequences of 2 and 4 words

3.1.2. Plot most used sequences of 2 words

3.2.3. Plot most used sequences of 4 words

Quadgrams <- ngram_US_4[order(ngram_US_4$Freq,decreasing = TRUE),]

3.2. Most Common Words

3.2.2. Word Cloud

You might also like