0% found this document useful (0 votes)

19 views5 pages

Data Cleaning Using R

Uploaded by

Tina Parker

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

19 views5 pages

Data Cleaning Using R

Uploaded by

Tina Parker

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 5

Data cleaning is an essential step in the data analysis process to ensure that the dataset is accurate,

consistent, and ready for analysis. In R, there are several techniques and functions to clean the data.
Below are some commonly used data cleaning techniques in R:

1. Handling Missing Data

 Identifying Missing Data: You can use is.na() to detect missing values.

 is.na(data)

 Removing Missing Data: Use na.omit() or complete.cases() to remove rows with missing values.

 cleaned_data <- na.omit(data)

Or:

cleaned_data <- data[complete.cases(data), ]

 Imputing Missing Data: Replace missing values with the mean, median, or other statistical
imputation methods.

 data$column[is.na(data$column)] <- mean(data$column, na.rm = TRUE)

2. Handling Duplicates

 Identifying Duplicates: Use the duplicated() function to find duplicate rows.

 duplicated_rows <- duplicated(data)

 Removing Duplicates: To remove duplicate rows, use unique() or distinct() from the dplyr
package.

 data_unique <- unique(data)

Or using dplyr:

library(dplyr)

data_unique <- distinct(data)

3. Outlier Detection and Removal

 Visualizing Outliers: You can visualize the distribution using boxplots to detect outliers.

 boxplot(data$column)

 Removing Outliers: A common approach is to remove values outside of 1.5 times the
interquartile range (IQR).

 Q1 <- quantile(data$column, 0.25)

 Q3 <- quantile(data$column, 0.75)

 IQR <- Q3 - Q1
 data_clean <- data[data$column > (Q1 - 1.5 * IQR) & data$column < (Q3 + 1.5 * IQR), ]

4. Data Type Conversion

 Converting Data Types: You may need to convert columns to appropriate data types such as
factors, integers, or dates.

 data$column <- as.numeric(data$column)

 data$column <- as.factor(data$column)

 data$column <- as.Date(data$column, format = "%Y-%m-%d")

5. Handling Categorical Data

 Renaming Factor Levels: Use levels() or forcats::fct_recode() to rename factor levels.

 data$column <- factor(data$column, levels = c("old_level1", "old_level2"), labels =

c("new_level1", "new_level2"))

 Recode Factors Using forcats: You can also use fct_recode for recoding factor levels.

 library(forcats)

 data$column <- fct_recode(data$column, "New Level" = "Old Level")

6. String Cleaning

 Removing Whitespaces: You can use trimws() to remove leading and trailing whitespaces.

 data$column <- trimws(data$column)

 Converting to Lowercase or Uppercase: Convert text data to lowercase or uppercase using

tolower() or toupper().

 data$column <- tolower(data$column)

 Removing Special Characters: Use gsub() to remove or replace special characters.

 data$column <- gsub("[^[:alnum:][:space:]]", "", data$column)

7. Feature Engineering and Transformation

 Create New Variables: You can create new variables based on existing ones.

 data$new_column <- data$column1 + data$column2

 Log Transformation: Log transformations are useful for skewed data.

 data$log_column <- log(data$column + 1)

 Binning or Categorizing Continuous Variables: Use cut() to categorize continuous variables into
bins.

 data$category <- cut(data$column, breaks = 4, labels = c("Low", "Medium", "High", "Very High"))
8. Standardizing/Scaling Data

 Scaling Data (Normalization or Standardization): You can standardize your data (e.g., scale
between 0 and 1, or standardize to have zero mean and unit variance).

 data$scaled_column <- scale(data$column)

9. Handling Date and Time Data

 Converting to Date Type: Use as.Date() for date conversion.

 data$Date <- as.Date(data$Date, format="%Y-%m-%d")

 Extracting Date Components: Extract year, month, or day from a date.

 data$Year <- format(data$Date, "%Y")

 data$Month <- format(data$Date, "%m")

10. Data Transformation

 Pivoting Data: Reshape data using tidyr's pivot_longer() or pivot_wider() functions.

 library(tidyr)

 data_long <- pivot_longer(data, cols = c("column1", "column2"), names_to = "variable",

values_to = "value")

 data_wide <- pivot_wider(data, names_from = "variable", values_from = "value")

 Merging Data: Use merge() or dplyr's left_join(), right_join(), etc., to merge datasets.

 library(dplyr)

 merged_data <- left_join(data1, data2, by = "common_column")

11. Dealing with Factors and Levels

 Reordering Factor Levels: You can reorder factor levels with factor() and relevel().

 data$column <- factor(data$column, levels = c("level1", "level2", "level3"))

 data$column <- relevel(data$column, ref = "level2")

Commonly Used Packages for Data Cleaning in R:

 dplyr: For data manipulation (filter, select, mutate, arrange, etc.).

 tidyr: For reshaping and tidying data (pivot, gather, spread, etc.).

 stringr: For string manipulation functions (regex, trimming, etc.).

 lubridate: For handling date and time data.

 forcats: For working with factors.

 data.table: For high-performance data manipulation.

Example of a Complete Data Cleaning Workflow:

# Load necessary libraries

library(dplyr)

library(tidyr)

# Step 1: Remove duplicates

data <- distinct(data)

# Step 2: Handle missing values (impute with mean for numeric columns)

data$numeric_column[is.na(data$numeric_column)] <- mean(data$numeric_column, na.rm = TRUE)

# Step 3: Remove rows with missing data in any column

data <- data[complete.cases(data), ]

# Step 4: Handle outliers (using IQR method)

Q1 <- quantile(data$numeric_column, 0.25)

Q3 <- quantile(data$numeric_column, 0.75)

IQR <- Q3 - Q1

data <- data[data$numeric_column > (Q1 - 1.5 * IQR) & data$numeric_column < (Q3 + 1.5 * IQR), ]

# Step 5: Convert a factor to a character

data$factor_column <- as.character(data$factor_column)

# Step 6: Normalize data (scale to 0-1)

data$scaled_column <- scale(data$numeric_column)

# Step 7: Split date into year and month

data$Year <- format(data$Date, "%Y")

data$Month <- format(data$Date, "%m")

# Step 8: Rename factor levels

data$factor_column <- factor(data$factor_column, levels = c("old_level1", "old_level2"), labels =

c("new_level1", "new_level2"))

This workflow is just a sample and can be customized based on the specific needs of your dataset.

Data Cleaning R
No ratings yet
Data Cleaning R
16 pages
DAV Practical 2
No ratings yet
DAV Practical 2
6 pages
04 Data Cleaning in R
No ratings yet
04 Data Cleaning in R
36 pages
1-Introduction To Data Cleaning
No ratings yet
1-Introduction To Data Cleaning
22 pages
Data Cleaning R
No ratings yet
Data Cleaning R
2 pages
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
No ratings yet
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
36 pages
6.data Cleaning
No ratings yet
6.data Cleaning
20 pages
Data Cleaning
No ratings yet
Data Cleaning
28 pages
Part 5
No ratings yet
Part 5
22 pages
Document
No ratings yet
Document
29 pages
Statistical Transform Data Cleaning
No ratings yet
Statistical Transform Data Cleaning
30 pages
III Unit
No ratings yet
III Unit
4 pages
Reading 5 - Data Preparation
No ratings yet
Reading 5 - Data Preparation
23 pages
DWM - Co2-10
No ratings yet
DWM - Co2-10
27 pages
M 2.3 Data Preprocessing
No ratings yet
M 2.3 Data Preprocessing
22 pages
Ads Exp2 C35
No ratings yet
Ads Exp2 C35
9 pages
Data Cleaning and Preprocessing
No ratings yet
Data Cleaning and Preprocessing
4 pages
Data Preprocessing: Clean, Transform, Integrate
No ratings yet
Data Preprocessing: Clean, Transform, Integrate
6 pages
Date Cleaning Notes
No ratings yet
Date Cleaning Notes
2 pages
Module II - Data Processing
No ratings yet
Module II - Data Processing
54 pages
Data Cleaning
No ratings yet
Data Cleaning
8 pages
Ads 2
No ratings yet
Ads 2
9 pages
1data Cleansing Cheklist
No ratings yet
1data Cleansing Cheklist
2 pages
Data Cleaning Guide
No ratings yet
Data Cleaning Guide
4 pages
Chap 3
No ratings yet
Chap 3
26 pages
Module 3 Notes
No ratings yet
Module 3 Notes
5 pages
Chapter 2. Pre-Processing Data
No ratings yet
Chapter 2. Pre-Processing Data
37 pages
Introduction To Data Science: Data Science Methodology & Data Preparation DR Shuhaida Mohamed Shuhidan Jan 2025
No ratings yet
Introduction To Data Science: Data Science Methodology & Data Preparation DR Shuhaida Mohamed Shuhidan Jan 2025
34 pages
Unit 2
No ratings yet
Unit 2
16 pages
Unit 2 Preprocessing in Data Analytics
No ratings yet
Unit 2 Preprocessing in Data Analytics
36 pages
Data Cleaning
No ratings yet
Data Cleaning
40 pages
Rlab Exp 8
No ratings yet
Rlab Exp 8
3 pages
ML ch-1
No ratings yet
ML ch-1
32 pages
Chapter - 2 - Cleaning and Transforming Data
No ratings yet
Chapter - 2 - Cleaning and Transforming Data
27 pages
Unit II (DWDM)
No ratings yet
Unit II (DWDM)
19 pages
Data Cleaning
No ratings yet
Data Cleaning
20 pages
Data Mining Group Assignment4
No ratings yet
Data Mining Group Assignment4
10 pages
3-Data Preprocessing
No ratings yet
3-Data Preprocessing
32 pages
Data Cleaning and Preparation
No ratings yet
Data Cleaning and Preparation
20 pages
DM Week 3 Des
No ratings yet
DM Week 3 Des
2 pages
REVIEWER
No ratings yet
REVIEWER
9 pages
Chapter3 DS
No ratings yet
Chapter3 DS
17 pages
Data Cleaningin ML
No ratings yet
Data Cleaningin ML
15 pages
MSDSModule 2
No ratings yet
MSDSModule 2
35 pages
Deep Learning Ram
No ratings yet
Deep Learning Ram
21 pages
DS Unit 2
No ratings yet
DS Unit 2
23 pages
EDA and Cleaning
No ratings yet
EDA and Cleaning
24 pages
Dav Exps - Merged - Merged
No ratings yet
Dav Exps - Merged - Merged
99 pages
Foundation of DS
No ratings yet
Foundation of DS
21 pages
DS Lec 6
No ratings yet
DS Lec 6
27 pages
Data Pre-processing in Machine Learning
No ratings yet
Data Pre-processing in Machine Learning
84 pages
Data Cleaning Using R
No ratings yet
Data Cleaning Using R
26 pages
Lecture Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
No ratings yet
Lecture Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
40 pages
Data Cleaning Essentials
No ratings yet
Data Cleaning Essentials
42 pages
CleaningData Chapter 3
No ratings yet
CleaningData Chapter 3
29 pages
Chapter 2
No ratings yet
Chapter 2
46 pages
DWDM 3
No ratings yet
DWDM 3
12 pages
Data Cleaning in Python
No ratings yet
Data Cleaning in Python
14 pages
Data Cleaning 1728415892
No ratings yet
Data Cleaning 1728415892
10 pages
MARC - Machine Readable Catalog
No ratings yet
MARC - Machine Readable Catalog
37 pages
SQL Basics: DDL, DML, and DCL Overview
No ratings yet
SQL Basics: DDL, DML, and DCL Overview
29 pages
Iot MCQ 1 Solve
No ratings yet
Iot MCQ 1 Solve
4 pages
Futureinternet 15 00010
No ratings yet
Futureinternet 15 00010
23 pages
2023bske PCVL For Barangay 4610004banilad-2
No ratings yet
2023bske PCVL For Barangay 4610004banilad-2
255 pages
LLMs On The Fly: Text-To-JSON For Custom API Calling
No ratings yet
LLMs On The Fly: Text-To-JSON For Custom API Calling
6 pages
Anil B
No ratings yet
Anil B
4 pages
Scientometrics: Tools, Techniques and Software For Analysis: V. Jayasree and M. D. Baby
No ratings yet
Scientometrics: Tools, Techniques and Software For Analysis: V. Jayasree and M. D. Baby
6 pages
Beginners Python Cheat Sheet PCC Plotly PDF
No ratings yet
Beginners Python Cheat Sheet PCC Plotly PDF
2 pages
Day1 01 SIGNAVIO PI
100% (1)
Day1 01 SIGNAVIO PI
77 pages
Oracle Lock Management Guide
No ratings yet
Oracle Lock Management Guide
15 pages
CSE 241 Database Systems and Applications Spring 2014 (Jan 8, 2014)
No ratings yet
CSE 241 Database Systems and Applications Spring 2014 (Jan 8, 2014)
9 pages
University Research Graph Database
No ratings yet
University Research Graph Database
5 pages
제조업 엔지니어 연구-디지털 전환 (DX) 과 전망 - web
100% (1)
제조업 엔지니어 연구-디지털 전환 (DX) 과 전망 - web
168 pages
ACC 311 - Topic 3 - The General Ledger
No ratings yet
ACC 311 - Topic 3 - The General Ledger
46 pages
Reading Outline Week 2
No ratings yet
Reading Outline Week 2
9 pages
Data Warehousing & Mining Guide
No ratings yet
Data Warehousing & Mining Guide
142 pages
SIH2024 IDEA Presentation Format
No ratings yet
SIH2024 IDEA Presentation Format
6 pages
pgAdmin Guide for Students
No ratings yet
pgAdmin Guide for Students
16 pages
Fms - Archiving
No ratings yet
Fms - Archiving
4 pages
BDB User Guide
No ratings yet
BDB User Guide
224 pages
Programming Basics for Students
No ratings yet
Programming Basics for Students
6 pages
67S SQL Fundamentals For Financial Analysis Detailed Guide 2024
No ratings yet
67S SQL Fundamentals For Financial Analysis Detailed Guide 2024
67 pages
Sales Trend Analysis RPR
No ratings yet
Sales Trend Analysis RPR
12 pages
Types of Keys in Rdbms. What Is RDBMS? Advantage & Disadvantage of Dbms
No ratings yet
Types of Keys in Rdbms. What Is RDBMS? Advantage & Disadvantage of Dbms
6 pages
Srs Complete of Virtual Mouse Control
No ratings yet
Srs Complete of Virtual Mouse Control
19 pages
HOPEX V5 - Business Process Analysis - Load
No ratings yet
HOPEX V5 - Business Process Analysis - Load
7 pages
Business Intelligence Systems - Types of BI Tools in 2023
No ratings yet
Business Intelligence Systems - Types of BI Tools in 2023
16 pages
SQL and RDBMS Concepts Guide
No ratings yet
SQL and RDBMS Concepts Guide
20 pages
Data Systems Risks Model Paper
No ratings yet
Data Systems Risks Model Paper
5 pages

Data Cleaning Using R

Uploaded by

Data Cleaning Using R

Uploaded by

Data cleaning is an essential step in the data analysis process to ensure that the dataset is accurate,

1. Handling Missing Data

 cleaned_data <- na.omit(data)

cleaned_data <- data[complete.cases(data), ]

 data$column[is.na(data$column)] <- mean(data$column, na.rm = TRUE)

 Identifying Duplicates: Use the duplicated() function to find duplicate rows.

 duplicated_rows <- duplicated(data)

 data_unique <- unique(data)

data_unique <- distinct(data)

3. Outlier Detection and Removal

 Q1 <- quantile(data$column, 0.25)

 Q3 <- quantile(data$column, 0.75)

4. Data Type Conversion

 data$column <- as.numeric(data$column)

 data$column <- as.factor(data$column)

 data$column <- as.Date(data$column, format = "%Y-%m-%d")

5. Handling Categorical Data

 Renaming Factor Levels: Use levels() or forcats::fct_recode() to rename factor levels.

 data$column <- factor(data$column, levels = c("old_level1", "old_level2"), labels =

 data$column <- fct_recode(data$column, "New Level" = "Old Level")

 data$column <- trimws(data$column)

 Converting to Lowercase or Uppercase: Convert text data to lowercase or uppercase using

 data$column <- tolower(data$column)

 Removing Special Characters: Use gsub() to remove or replace special characters.

 data$column <- gsub("[^[:alnum:][:space:]]", "", data$column)

7. Feature Engineering and Transformation

 data$new_column <- data$column1 + data$column2

 Log Transformation: Log transformations are useful for skewed data.

 data$log_column <- log(data$column + 1)

 data$scaled_column <- scale(data$column)

9. Handling Date and Time Data

 Converting to Date Type: Use as.Date() for date conversion.

 data$Date <- as.Date(data$Date, format="%Y-%m-%d")

 Extracting Date Components: Extract year, month, or day from a date.

 data$Year <- format(data$Date, "%Y")

 data$Month <- format(data$Date, "%m")

10. Data Transformation

 Pivoting Data: Reshape data using tidyr's pivot_longer() or pivot_wider() functions.

 data_long <- pivot_longer(data, cols = c("column1", "column2"), names_to = "variable",

 data_wide <- pivot_wider(data, names_from = "variable", values_from = "value")

 merged_data <- left_join(data1, data2, by = "common_column")

11. Dealing with Factors and Levels

 data$column <- factor(data$column, levels = c("level1", "level2", "level3"))

 data$column <- relevel(data$column, ref = "level2")

Commonly Used Packages for Data Cleaning in R:

 dplyr: For data manipulation (filter, select, mutate, arrange, etc.).

 stringr: For string manipulation functions (regex, trimming, etc.).

 lubridate: For handling date and time data.

 data.table: For high-performance data manipulation.

Example of a Complete Data Cleaning Workflow:

# Load necessary libraries

# Step 1: Remove duplicates

data <- distinct(data)

data$numeric_column[is.na(data$numeric_column)] <- mean(data$numeric_column, na.rm = TRUE)

# Step 3: Remove rows with missing data in any column

data <- data[complete.cases(data), ]

# Step 4: Handle outliers (using IQR method)

Q1 <- quantile(data$numeric_column, 0.25)

Q3 <- quantile(data$numeric_column, 0.75)

# Step 5: Convert a factor to a character

data$factor_column <- as.character(data$factor_column)

# Step 6: Normalize data (scale to 0-1)

data$scaled_column <- scale(data$numeric_column)

# Step 7: Split date into year and month

data$Month <- format(data$Date, "%m")

# Step 8: Rename factor levels

data$factor_column <- factor(data$factor_column, levels = c("old_level1", "old_level2"), labels =

You might also like