0% found this document useful (0 votes)

56 views13 pages

Data Manipulation R

The document discusses various data manipulation techniques in R including subsetting, arranging, grouping and summarizing a dataset. It also covers merging datasets, handling missing values, date manipulation and string operations.

Uploaded by

uma

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

56 views13 pages

Data Manipulation R

Uploaded by

uma

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 13

setwd("F:\\Work\\Jigsaw Academy\\Corporate Trainings\\Dat Manipulation")

oj <- read.csv("oj.csv")
oj
View(oj)

str(oj)

#dataframe[rows,columns]
oj[3,3]

oj[c(1,2,8,456),c(1,3,6)]

oj[c(1:5),"brand"]

#Logical Subseting

#Selecting only those rows where brand bought is tropicana

dat<-oj[oj$brand=='tropicana',]

#Using Or condition, brand bought is tropicana or dominicks

dat1<-oj[oj$brand=='tropicana'|oj$brand=='dominicks',]
head(dat1)

#Using And condition, brand bought is tropicana and no feature advertisement

is run
dat2<-oj[oj$brand=='tropicana' & oj$feat==0,]
head(dat2,10)

© Jigsaw Academy Pvt Ltd

#Subsetting using which() operator
ind<-which(oj$brand=="dominicks")
ind
class(ind)
head(ind)
dat3<-oj[ind,]

#Selecting Columns
dat4<-oj[,c("week","brand")]
head(dat4)

#Selecting+Subsetting
dat5<-oj[oj$brand=='tropicana' & oj$feat==0,
c("week","store")]
head(dat5)

#Adding new columns

oj$logInc<-log(oj$INCOME)

dim(oj)
View(oj)

© Jigsaw Academy Pvt Ltd

oj1 <- oj[,-18]
View(oj1)

#Revenue Column
head(oj$logmove)
head(exp(oj$logmove))
oj$revenue<-exp(oj$logmove)*oj$price

oj$revenue
View(oj)

#Sorting data
numbers<-c(10,100,5,8)
order(numbers)
order(-numbers)

dat6<-oj[order(oj$week),]
head(dat6)
min(oj$week)

dat7<-oj[order(-oj$week),]
head(dat7)
max(oj$week)

© Jigsaw Academy Pvt Ltd

##Group by summaries

class(oj$brand)
unique(oj$brand)

#Summarize-Price
#Summarize by-Brand (factor)
#Summarize how-Mean

#Syntax aggregate(variable to be summarized,

by=list(variable by which grouping is to be done),function)

aggregate(oj$price,by=list(oj$brand),mean)
aggregate(oj$price,by=list(oj$brand,oj$feat),mean)

tapply(oj$price,oj$brand,sd)
class(tapply(oj$price,oj$brand,mean))

#Mean income of people by brand

#Summarize-Income
#Summarize by-Brand
#Summarize how-Mean
aggregate(oj$INCOME,by=list(oj$brand),mean)
class(aggregate(oj$INCOME,by=list(oj$brand),mean))
tapply(oj$INCOME[oj$INCOME<=10.5&oj$brand!='dominicks']
,oj$brand[oj$INCOME<=10.5&oj$brand!='dominicks'],mean)

© Jigsaw Academy Pvt Ltd

class(tapply(oj$INCOME,oj$brand,mean))

#dplyr
install.packages("dplyr")

library(dplyr)
dat8<-filter(oj,brand=="tropicana")
dim(filter(oj,brand=="tropicana"))

dat9<-filter(oj,brand=="tropicana"|brand=="dominicks")
dim(filter(oj,brand=="tropicana"|brand=="dominicks"))

#Selecting Columns
dat10<-select(oj,brand,INCOME,feat)
dat10

dat11<-select(oj,-brand,-INCOME,-feat)

#Creating a new column

dat12<-mutate(oj,logIncome=log(INCOME),sqrtInc=sqrt(INCOME))
View(dat12)

© Jigsaw Academy Pvt Ltd

#Arranging data
dat13<-arrange(oj,INCOME)
dat13

View(dat13)

dat14<-arrange(oj,desc(INCOME),)
View(dat14)

dat14<-arrange(oj,-INCOME)

#Group Wise summaries

gr_brand<-group_by(oj,brand)

summarize(gr_brand,mean(INCOME),sd(INCOME))

class(gr_brand)
group<-as.data.frame(gr_brand)
class(group)
print(group)

#Pipelines
#Base R code
mean(oj[oj$INCOME>=10.5,"price"])

© Jigsaw Academy Pvt Ltd

#dplyr code
summarize(filter(oj,INCOME>=10.5),mean(price))

oj%>%filter(price>=2.5)%>%mutate(logIncome=log(INCOME))
%>%summarize(mean(logIncome),
median(logIncome),sd(logIncome))

##Date
fd<-read.csv("Fd.csv")
str(fd)
dim(fd)
class(fd)

library(lubridate)
fd$FlightDate<-dmy(fd$FlightDate)

head(months(fd$FlightDate))
unique(months(fd$FlightDate))
head(weekdays(fd$FlightDate))
unique(weekdays(fd$FlightDate))

#Finding time interval

fd$FlightDate[60]-fd$FlightDate[900]
difftime(fd$FlightDate[3000],fd$FlightDate[90],units = "weeks")
difftime(fd$FlightDate[3000],fd$FlightDate[90],units = "days")
difftime(fd$FlightDate[3000],fd$FlightDate[90],units = "hours")
#Subsetting data based on time information
library(dplyr)
#Subset the data for day=Sunday
dim(fd)
fd_s<-fd%>%filter(weekdays(FlightDate)=="Sunday")

© Jigsaw Academy Pvt Ltd

dim(fd_s)
#Find the number of flights on Sundays for destination Atlanta
fd%>%filter(weekdays(FlightDate)=="Sunday",
DestCityName=="Atlanta, GA")%>%nrow()
#Find the number of flights on Sundays by cities
fd%>%filter(weekdays(FlightDate)=="Sunday")%>%group_by(DestCityName)%>
%summarize(n())
#Merging data
##Joins using Merge
df1 = data.frame(CustomerId=c(1:6),Product=c(rep("Toaster",3),
rep("Radio",3)))
df1
df2 = data.frame(CustomerId=c(2,4,6),
State=c(rep("Alabama",2),rep("Ohio",1)))
df2

merge(x = df1, y = df2, by = "CustomerId", all = TRUE)#Outer join:

merge(x = df1, y = df2, by = "CustomerId", all.x=TRUE)#Left join

merge(x = df1, y = df2, by = "CustomerId", all.y=TRUE)#Right join

merge(x=df1,y=df2,by="CustomerId")#Inner Join/Intersection of both tables

#Missing values
a<-c(1,2,3,4,5,6,NA,NA,NA,7,8,9)
is.na(a)
sum(is.na(a))
mean(a, na.rm=TRUE)

air<-airquality
head(air)

sum(is.na(air$Ozone))

© Jigsaw Academy Pvt Ltd

sum(is.na(air$Solar.R))

summary(air)

#Imputing Missing values

air$Ozone[is.na(air$Ozone)]<-45

air$Solar.R[is.na(air$Solar.R)]<-mean(air$Solar.R,na.rm=TRUE)

summary(air)

#Keep in mind the compatibility of the classes returned and accepted by various
functions

#String manipulation

a<-"Batman"

substr(a,start=2,stop=6)

nchar(a)

tolower(a)

toupper(a)

b<-"Bat-Man"

strsplit(b,split="-")

c<-"Bat/Man"

strsplit(c,split="/")

paste(b,split=c)

grep("-",b)

grepl("/",c)

sub("-","/",b)

d<-"Bat-Ma-n"

sub("-","/",d)

gsub("-","/",d)

dat5<-read.csv("F:\\Work\\Jigsaw Academy\\Corporate Trainings\\Dat

Manipulation\\Strings.csv")
str(dat5)
head(dat5)#is there something wrong?
mean(dat5$Income_M)#Why will this happen

#Need to clean the data

dat5$Income_M<-gsub("Rs","",dat5$Income_M)
head(dat5)

dat5$Income_M<-gsub("/-","",dat5$Income_M)
head(dat5)
mean(dat5$Income_M)#Now why an error?

str(dat5)

dat5$Income_M<-as.numeric(dat5$Income_M)
mean(dat5$Income_M)

#Sometimes you might need to use Regexes to work with character data you can
refer to this link http://www.zytrax.com/tech/web/regex.htm

x<-paste("$",seq(1,100,10))
x
#How to remove $?
x<-gsub("$","",x)
x
#Why?? Need to use regex
x<-gsub("[$]","",x)
x

#sqldf, This is optional

install.packages("sqldf")
library(sqldf)
#Using SELECT statement
oj_s<-sqldf("select brand, income, feat from oj ")
#Subseting using where statement
oj_s<-sqldf("select brand, income, feat from oj where price<3.8 and
income<10")
#Order by statement

oj_s<-sqldf("select store,brand,week,logmove,feat,price, income from oj order
by income asc")
#distinct
sqldf("select distinct brand from oj")
#Demo sql functions
sqldf("select avg(income) from oj")
sqldf("select min(price) from oj")

##dplyr corner cases

#Selecting odd column names

library(arules)
data("AdultUCI")

names(AdultUCI)

AdultUCI%>%select(capital-gain)%>%dim()#Why this error?

AdultUCI%>%select(`capital-gain`)%>%dim()#Notice the column name

specification

##Window functions in dplyr()

#group_by and summarise would usually produce a single aggregation per
group, group mean, sum, count etc

#Window family: ranking functions, finding top 10, top 5% in

each group

#Top two income numbers per group of gender
dat1<-read.csv("F:\\Work\\Jigsaw Academy\\Corporate Trainings\\Dat
Manipulation\\audit.csv")
dat1%>%select(Age,Gender,Income)%>%group_by(Gender)
%>%filter(min_rank(desc(Income))<=3)
%>%arrange(desc(Income))#notice how arrange() works here

#Top 1% by income in each group

dat1%>%select(Gender,Income)%>%group_by(Gender)
%>%filter(cume_dist(desc(Income))<=0.01)%>%arrange(desc(Income))

#Dividing Income into 10 equal parts

dat1%>%mutate(Group=ntile(Income,10))->dat2
head(dat2)

dat2%>%group_by(Group)%>%summarise(Maximum=max(Income),Minimum=
min(Income))

#If we have to create groups in descending order??

dat1%>%mutate(Group=ntile(desc(Income),10))%>%group_by(Group)%>%sum
marise(Maximum=max(Income),Minimum=min(Income),Count=n())

MIT 302 - Statistical Computing II - Tutorial 02
No ratings yet
MIT 302 - Statistical Computing II - Tutorial 02
5 pages
R Data Manipulation Guide
No ratings yet
R Data Manipulation Guide
46 pages
Summary R - Coding
No ratings yet
Summary R - Coding
2 pages
SAS R::: Cheat Sheet
No ratings yet
SAS R::: Cheat Sheet
2 pages
Manipulating Data in R
No ratings yet
Manipulating Data in R
32 pages
Fonction Dplyr
No ratings yet
Fonction Dplyr
5 pages
SAS to R: A User's Cheat Sheet
No ratings yet
SAS to R: A User's Cheat Sheet
2 pages
Presentation 1
No ratings yet
Presentation 1
34 pages
cs448 - Tool Manipulating Data
No ratings yet
cs448 - Tool Manipulating Data
4 pages
Tutorial-Introduction To Dplyr
No ratings yet
Tutorial-Introduction To Dplyr
54 pages
Data Wrangling
No ratings yet
Data Wrangling
12 pages
R Studio Notes
No ratings yet
R Studio Notes
10 pages
All Codes
No ratings yet
All Codes
10 pages
Matrix, Dataframes, List
No ratings yet
Matrix, Dataframes, List
8 pages
Data Transformation
No ratings yet
Data Transformation
1 page
Data Manipulation in R
No ratings yet
Data Manipulation in R
5 pages
Introduction To Dplyr
No ratings yet
Introduction To Dplyr
9 pages
Data Table
No ratings yet
Data Table
2 pages
Tidyr & Dplyr Functions Guide
No ratings yet
Tidyr & Dplyr Functions Guide
3 pages
Data Transformation With Dplyr Cheat Sheet
No ratings yet
Data Transformation With Dplyr Cheat Sheet
2 pages
R Guru Cheat Sheet
No ratings yet
R Guru Cheat Sheet
2 pages
Data Handling and Manipulation
No ratings yet
Data Handling and Manipulation
18 pages
R Course Own English HS
No ratings yet
R Course Own English HS
70 pages
Data Management II
No ratings yet
Data Management II
15 pages
R Programming
No ratings yet
R Programming
9 pages
WWWWWW WWWWWW WWWWWW WWWWWW WWWW WWWW WWWWWW: Data Transformation With Dplyr
No ratings yet
WWWWWW WWWWWW WWWWWW WWWWWW WWWW WWWW WWWWWW: Data Transformation With Dplyr
2 pages
R Data Wrangling Cheat Sheet
No ratings yet
R Data Wrangling Cheat Sheet
2 pages
Code Basics & Data Manipulation With R: Literature: Wickham & Grolemund R For Data Science Ch. 3, 16
No ratings yet
Code Basics & Data Manipulation With R: Literature: Wickham & Grolemund R For Data Science Ch. 3, 16
31 pages
05 Dplyr
No ratings yet
05 Dplyr
37 pages
DSCI 100 Cheat Sheet
No ratings yet
DSCI 100 Cheat Sheet
3 pages
Data Transformation With Data - Table: Cheat Sheet
No ratings yet
Data Transformation With Data - Table: Cheat Sheet
2 pages
Data Transformation With Data - Table: Cheat Sheet
No ratings yet
Data Transformation With Data - Table: Cheat Sheet
2 pages
Data Transformation With Data - Table: Cheat Sheet
No ratings yet
Data Transformation With Data - Table: Cheat Sheet
2 pages
RSTUDIO
No ratings yet
RSTUDIO
44 pages
DataFramesCheatSheet v1.x Rev1
No ratings yet
DataFramesCheatSheet v1.x Rev1
2 pages
MTH 4407 - Group 2 (Dr. Farid Zamani) - Lecture 6
No ratings yet
MTH 4407 - Group 2 (Dr. Farid Zamani) - Lecture 6
22 pages
MBA Sem 1 Unit 3 Fundamentals of R
No ratings yet
MBA Sem 1 Unit 3 Fundamentals of R
41 pages
R Basic and Advanced
No ratings yet
R Basic and Advanced
9 pages
Mydata - Read - CSV ("Nameofthedatafile - CSV") : Sorting A Data Frame
No ratings yet
Mydata - Read - CSV ("Nameofthedatafile - CSV") : Sorting A Data Frame
2 pages
Unit 2
No ratings yet
Unit 2
76 pages
R Programming Code
No ratings yet
R Programming Code
7 pages
Finalproj Aml
No ratings yet
Finalproj Aml
69 pages
Basic R Programming
No ratings yet
Basic R Programming
37 pages
R Sharing
No ratings yet
R Sharing
16 pages
Datatable
No ratings yet
Datatable
2 pages
Pandas Cheat Sheet for Data Manipulation
No ratings yet
Pandas Cheat Sheet for Data Manipulation
1 page
Statistic and R Programming Lab Exercise
No ratings yet
Statistic and R Programming Lab Exercise
8 pages
ProgrammingForDS16 Rdatamanipulation
No ratings yet
ProgrammingForDS16 Rdatamanipulation
20 pages
R data.table Guide: 50 Examples
No ratings yet
R data.table Guide: 50 Examples
13 pages
Intro To Data Science Lecture 4
No ratings yet
Intro To Data Science Lecture 4
13 pages
DS-R Block 3-1 All
No ratings yet
DS-R Block 3-1 All
43 pages
Econometrics Guide Using R
No ratings yet
Econometrics Guide Using R
70 pages
R Basics for Beginners
No ratings yet
R Basics for Beginners
24 pages
Ecotrix Codes p2
No ratings yet
Ecotrix Codes p2
9 pages
Practical Preprocessing and Data Cleaning
No ratings yet
Practical Preprocessing and Data Cleaning
51 pages
Open Sci. 4, 170957 2017: M. E. Saunders Et Al. R. Soc
No ratings yet
Open Sci. 4, 170957 2017: M. E. Saunders Et Al. R. Soc
1 page
Reinforcement Learning Train Itself: Computers Work Behind The Scenes
No ratings yet
Reinforcement Learning Train Itself: Computers Work Behind The Scenes
1 page
Science 2
No ratings yet
Science 2
1 page
Infrastructure USA
No ratings yet
Infrastructure USA
1 page
Texas 2
No ratings yet
Texas 2
1 page
Set A Record Temperature
No ratings yet
Set A Record Temperature
1 page
A Weirdly Warped Planet
No ratings yet
A Weirdly Warped Planet
2 pages
Gothra Namalu Pravara Namalu - Koundinya List in Telugu
No ratings yet
Gothra Namalu Pravara Namalu - Koundinya List in Telugu
1 page
National Oceanic and Atmospheric Administration
No ratings yet
National Oceanic and Atmospheric Administration
1 page
Unfortunately For Texas
No ratings yet
Unfortunately For Texas
1 page
38 Health Benefits of Yoga
100% (1)
38 Health Benefits of Yoga
19 pages
Drop Shipping: Supply Chain Method
No ratings yet
Drop Shipping: Supply Chain Method
3 pages
SSAS Tips for Beginners
No ratings yet
SSAS Tips for Beginners
13 pages
The Buying and Selling of Goods or Services Using The Internet, and The Transfer of Money and Data To Execute These Transactions
No ratings yet
The Buying and Selling of Goods or Services Using The Internet, and The Transfer of Money and Data To Execute These Transactions
1 page
Doctor Job Application Letter Sample
No ratings yet
Doctor Job Application Letter Sample
20 pages
Latestlog Old
No ratings yet
Latestlog Old
73 pages
Risk and Uncertainty
No ratings yet
Risk and Uncertainty
4 pages
Filipino Independence Proclamation
No ratings yet
Filipino Independence Proclamation
4 pages
What Is Konjac / Glucomannan? Can He Help Lose Weight? View
No ratings yet
What Is Konjac / Glucomannan? Can He Help Lose Weight? View
12 pages
The Great Gatsby: Jazz Age Critique
No ratings yet
The Great Gatsby: Jazz Age Critique
13 pages
Rick 2004 Omscna
No ratings yet
Rick 2004 Omscna
22 pages
Step Ahead Connect 4 PLUS - October Revision
No ratings yet
Step Ahead Connect 4 PLUS - October Revision
20 pages
Conference Paper
No ratings yet
Conference Paper
4 pages
Test Bank For Dental Materials Clinical Applications For Dental Assistants and Dental Hygienists 4th Edition
No ratings yet
Test Bank For Dental Materials Clinical Applications For Dental Assistants and Dental Hygienists 4th Edition
8 pages
Animal 2
No ratings yet
Animal 2
33 pages
Propellers 12th Chapter
100% (1)
Propellers 12th Chapter
72 pages
Vintage Lens Guillotine Shutter Guide
No ratings yet
Vintage Lens Guillotine Shutter Guide
10 pages
Samsung Jet Bot User Manual
No ratings yet
Samsung Jet Bot User Manual
240 pages
A Pinch of Snuff - Anecdotes of Snuff
No ratings yet
A Pinch of Snuff - Anecdotes of Snuff
185 pages
Saffron Tissue Culture Manual - Final - Complete
No ratings yet
Saffron Tissue Culture Manual - Final - Complete
45 pages
Batik Printing
No ratings yet
Batik Printing
5 pages
Thoracolumbar Fracture Guide
100% (1)
Thoracolumbar Fracture Guide
29 pages
The Energy Number e Book v2021
100% (3)
The Energy Number e Book v2021
230 pages
Acti9 A9A iSD+OF Contact Specs
No ratings yet
Acti9 A9A iSD+OF Contact Specs
3 pages
Design and Implementation of An Electricity On-Line Billing Payment System
No ratings yet
Design and Implementation of An Electricity On-Line Billing Payment System
7 pages
227 Bodyweight Exercises
No ratings yet
227 Bodyweight Exercises
84 pages
Water Test Report 1-2-3-4-5-6-7
100% (1)
Water Test Report 1-2-3-4-5-6-7
2 pages
ĐÊ HSG ANH 7 SỐ 13
No ratings yet
ĐÊ HSG ANH 7 SỐ 13
5 pages
He Took My Adult Toy - "I'll Teach You How To Use It": Volume 6
No ratings yet
He Took My Adult Toy - "I'll Teach You How To Use It": Volume 6
24 pages
Innovation in Public Transport Finance - Property Value - Shishir Mathur - Transport and Mobility, New Edition, 2014 - Ashgate Pub Co - 9781138250130 - Anna's
No ratings yet
Innovation in Public Transport Finance - Property Value - Shishir Mathur - Transport and Mobility, New Edition, 2014 - Ashgate Pub Co - 9781138250130 - Anna's
229 pages
HRM 416 Assignment
No ratings yet
HRM 416 Assignment
4 pages
Art Safety
No ratings yet
Art Safety
10 pages
Review Notes in Forest Management
No ratings yet
Review Notes in Forest Management
80 pages
Distal Tubule Balance and Tubuloglomerular Feedback-Group 2
No ratings yet
Distal Tubule Balance and Tubuloglomerular Feedback-Group 2
42 pages