0% found this document useful (0 votes)

152 views4 pages

Introduction To EDA: Exploratory Data Analysis (EDA) in Data Science

Exploratory Data Analysis (EDA) is essential in data science for summarizing datasets, identifying patterns, and detecting anomalies. The process involves steps such as loading data, handling missing values, visualizing data, and feature engineering to improve data quality. EDA ultimately enhances model accuracy by ensuring a thorough understanding of the data before applying predictive models.

Uploaded by

Vikram Singh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

152 views4 pages

Introduction To EDA: Exploratory Data Analysis (EDA) in Data Science

Uploaded by

Vikram Singh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 4

Exploratory Data Analysis (EDA) in Data Science

1. Introduction to EDA
Exploratory Data Analysis (EDA) is a fundamental step in data science and machine
learning that involves analyzing datasets to summarize their key characteristics, identify
patterns, and detect anomalies before applying predictive models.

Objectives of EDA:

 Understand data structure and patterns.

 Identify missing values, outliers, and inconsistencies.
 Discover relationships between variables.
 Validate assumptions before building models.
 Improve data quality through feature engineering.

2. Steps in Exploratory Data Analysis

Step Description
Load Data Import dataset using Pandas
Understand Structure View column types, missing values, and basic stats
Handle Missing Values Remove or fill NaNs (mean, median, mode)
Remove Duplicates Identify and drop duplicate rows
Visualize Data Histograms, boxplots, scatter plots, heatmaps
Outlier Detection Use IQR or boxplots
Handle Categorical Data Convert to numeric format (one-hot, label encoding)
Feature Engineering Create new features and scale data
Save Cleaned Data Store processed dataset for modeling

Step 1: Load the Dataset

 Import necessary libraries and read the dataset.

import pandas as pd

df = pd.read_csv("data.csv") # Replace with actual file path

print(df.head()) # Display first five rows

Step 2: Understand Data Structure

 View column types, null values, and basic information.

print(df.info()) # Column names, data types, non-null values
print(df.describe()) # Summary statistics (mean, median, etc.)

3. Handling Missing Data

Missing data can impact model accuracy. Common techniques to handle missing values:

 Remove missing values: df.dropna()

 Fill missing values with mean/median/mode:

df.fillna(df.mean(), inplace=True) # Fill numerical NaNs with mean

df.fillna(df.mode().iloc[0], inplace=True) # Fill categorical NaNs with
mode

4. Handling Duplicate Data

 Detect and remove duplicate rows to avoid redundancy.

print("Duplicates:", df.duplicated().sum()) # Count duplicate rows

df.drop_duplicates(inplace=True) # Remove duplicates

5. Data Visualization for EDA

A. Univariate Analysis (Single Variable)

1. Histogram (Data Distribution)

o Helps understand the spread of numerical features.
2. import matplotlib.pyplot as plt
3. df["column_name"].hist(bins=30)
4. plt.show()
5. Boxplot (Outlier Detection)
o Shows quartiles and outliers.
6. import seaborn as sns
7. sns.boxplot(df["column_name"])
8. plt.show()

B. Bivariate Analysis (Two Variables)

1. Scatter Plot (Correlation between two features)

o Used for continuous variables.
2. sns.scatterplot(x="feature1", y="feature2", data=df)
3. plt.show()
4. Correlation Heatmap
o Shows relationships between numerical variables.
5. plt.figure(figsize=(10,6))
6. sns.heatmap(df.corr(), annot=True, cmap="coolwarm")
7. plt.show()
8. Pairplot
o Visualizes pairwise relationships.
9. sns.pairplot(df)
10. plt.show()

6. Outlier Detection and Handling

A. Using IQR (Interquartile Range) Method

 Remove data points beyond 1.5 times the IQR.

Q1 = df.quantile(0.25)
Q3 = df.quantile(0.75)
IQR = Q3 - Q1
df_cleaned = df[~((df < (Q1 - 1.5 * IQR)) | (df > (Q3 + 1.5 *
IQR))).any(axis=1)]

7. Handling Categorical Data

A. Encoding Categorical Variables

1. One-Hot Encoding (Best for nominal categories)

df = pd.get_dummies(df, columns=["categorical_column"], drop_first=True)

2. Label Encoding (For ordinal categories like Low, Medium, High)

from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()
df["encoded_column"] = encoder.fit_transform(df["categorical_column"])

8. Feature Engineering
 Creating new meaningful features to improve models.

A. Creating a New Feature

df["new_feature"] = df["feature1"] * df["feature2"]

B. Feature Scaling

1. Min-Max Scaling (Rescale to range 0-1)

2. from sklearn.preprocessing import MinMaxScaler
3. scaler = MinMaxScaler()
4. df_scaled = scaler.fit_transform(df)
5. Standardization (Mean = 0, Std Dev = 1)
6. from sklearn.preprocessing import StandardScaler
7. scaler = StandardScaler()
8. df_scaled = scaler.fit_transform(df)
9. Saving the Cleaned Dataset
df.to_csv("cleaned_data.csv", index=False)

EDA is a crucial step in data science that ensures data quality and model accuracy. By
exploring and visualizing the dataset, we can make informed decisions before applying
machine learning models.

Exploratory Data Analysis Using Python
No ratings yet
Exploratory Data Analysis Using Python
7 pages
Exploratory Data Analysis Unit 2
No ratings yet
Exploratory Data Analysis Unit 2
39 pages
MATPLOTLIB Updated
No ratings yet
MATPLOTLIB Updated
95 pages
Cs3352 - Foundation of Data Science
No ratings yet
Cs3352 - Foundation of Data Science
56 pages
Ad3301 Data Exploration and Visualization
No ratings yet
Ad3301 Data Exploration and Visualization
24 pages
Unit I
No ratings yet
Unit I
85 pages
Fdsa Unit 3
No ratings yet
Fdsa Unit 3
42 pages
Notes - EDA-Unit1
No ratings yet
Notes - EDA-Unit1
34 pages
SEO Tools for Engineering Students
No ratings yet
SEO Tools for Engineering Students
14 pages
Unit 3 Ids Notes
No ratings yet
Unit 3 Ids Notes
31 pages
Fdsa Unit 5
No ratings yet
Fdsa Unit 5
48 pages
OCS353 Data Science Fundamentals LAB QUESTION SET
No ratings yet
OCS353 Data Science Fundamentals LAB QUESTION SET
2 pages
Module 6 Data Visualiztion Matplotlib
No ratings yet
Module 6 Data Visualiztion Matplotlib
69 pages
CS3352 - Foundations of Data Science
No ratings yet
CS3352 - Foundations of Data Science
142 pages
CCS341 DW QP 28.04.25
No ratings yet
CCS341 DW QP 28.04.25
4 pages
Lecture 01 05.08.2024 AI-ML Introduction
No ratings yet
Lecture 01 05.08.2024 AI-ML Introduction
46 pages
FDS Unit 5
No ratings yet
FDS Unit 5
22 pages
STA112 - Lecture - 1 - Content - Probability 1
No ratings yet
STA112 - Lecture - 1 - Content - Probability 1
42 pages
Unit-1 Basics of Algorithms and Mathematics
No ratings yet
Unit-1 Basics of Algorithms and Mathematics
47 pages
Univariate Analysis Basics
No ratings yet
Univariate Analysis Basics
33 pages
Lab-manual-Advanced Python Programming 4321602
No ratings yet
Lab-manual-Advanced Python Programming 4321602
24 pages
Searching and Sorting 2
No ratings yet
Searching and Sorting 2
24 pages
Data Warehousing Study Guide
No ratings yet
Data Warehousing Study Guide
10 pages
Ad3411 - Student
No ratings yet
Ad3411 - Student
27 pages
BDA Unit 1-1
No ratings yet
BDA Unit 1-1
21 pages
Lecture 4 Data Structure Linked List
No ratings yet
Lecture 4 Data Structure Linked List
30 pages
Lecture Notes: Introduction To Data Science and Big Data
No ratings yet
Lecture Notes: Introduction To Data Science and Big Data
5 pages
CCS341 Data Warehousing Syllabus
No ratings yet
CCS341 Data Warehousing Syllabus
2 pages
Data Science Unit-1 Notes
No ratings yet
Data Science Unit-1 Notes
19 pages
Data Discretization Techniques
No ratings yet
Data Discretization Techniques
21 pages
R23!3!1 DWDM Final Syllabus On 21-06-2025
No ratings yet
R23!3!1 DWDM Final Syllabus On 21-06-2025
5 pages
Programming For Data Science - Assignment 1
No ratings yet
Programming For Data Science - Assignment 1
2 pages
Data Structure Question Bank
No ratings yet
Data Structure Question Bank
24 pages
Unit - 5 Multivariate Analysis
No ratings yet
Unit - 5 Multivariate Analysis
29 pages
CS3352 Fds
No ratings yet
CS3352 Fds
23 pages
Chandigarh Group of Colleges College of Engineering Landran, Mohali
No ratings yet
Chandigarh Group of Colleges College of Engineering Landran, Mohali
47 pages
Programming For Data Science Assignment-2
No ratings yet
Programming For Data Science Assignment-2
23 pages
FDS Iat-2 Part-B
No ratings yet
FDS Iat-2 Part-B
4 pages
Data Science - Unit-4
No ratings yet
Data Science - Unit-4
30 pages
Data Warehouse Basics & Models
No ratings yet
Data Warehouse Basics & Models
33 pages
ISRO Research Proposal
No ratings yet
ISRO Research Proposal
11 pages
RMM Unit-I Introdution To Data Mining
No ratings yet
RMM Unit-I Introdution To Data Mining
129 pages
Data Science - Unit-3-Part-2
No ratings yet
Data Science - Unit-3-Part-2
32 pages
12-Exploratory Data Analysis, Anomaly Detection-28!03!2023
No ratings yet
12-Exploratory Data Analysis, Anomaly Detection-28!03!2023
79 pages
Data Mining for CS Students
No ratings yet
Data Mining for CS Students
406 pages
1.introduction To Python For Data Science
No ratings yet
1.introduction To Python For Data Science
6 pages
DWM Manual
No ratings yet
DWM Manual
60 pages
Lec 37
No ratings yet
Lec 37
13 pages
cd3291 Dsa Study Material
No ratings yet
cd3291 Dsa Study Material
168 pages
Unit-2 Solution
No ratings yet
Unit-2 Solution
22 pages
Ccs341-Dw-Int I Key-Set I-Ar
No ratings yet
Ccs341-Dw-Int I Key-Set I-Ar
18 pages
Unit V Big Data Analytics
No ratings yet
Unit V Big Data Analytics
47 pages
CCS341 Data Warehousing
No ratings yet
CCS341 Data Warehousing
7 pages
Binary Search Tree Exercises
No ratings yet
Binary Search Tree Exercises
4 pages
DWM-Experiment No-1,2,3,4,5,6,7,8
No ratings yet
DWM-Experiment No-1,2,3,4,5,6,7,8
42 pages
Matplotlib Line and Scatter Plot Guide
No ratings yet
Matplotlib Line and Scatter Plot Guide
32 pages
Orange 27-1-2025
No ratings yet
Orange 27-1-2025
20 pages
Lecture+Notes+ +clustering
No ratings yet
Lecture+Notes+ +clustering
13 pages
R Language
No ratings yet
R Language
59 pages
Unit 1
No ratings yet
Unit 1
23 pages
RAYTOOLS Consumabile Originale Laser Catalog SiMBLECH
No ratings yet
RAYTOOLS Consumabile Originale Laser Catalog SiMBLECH
15 pages
Rabin CV
No ratings yet
Rabin CV
6 pages
ILFOSPEED RC DELUXE Technical Data Sheet
No ratings yet
ILFOSPEED RC DELUXE Technical Data Sheet
4 pages
Vibration-Free Rod-Baffle Heat Exchanger
No ratings yet
Vibration-Free Rod-Baffle Heat Exchanger
5 pages
CS Energy Safety Consultation Guide
No ratings yet
CS Energy Safety Consultation Guide
12 pages
Understanding The Classification of Biomes
No ratings yet
Understanding The Classification of Biomes
3 pages
VAOW Pitch 22112023
No ratings yet
VAOW Pitch 22112023
27 pages
Nursing Informatics in Australia
No ratings yet
Nursing Informatics in Australia
5 pages
Urbanization: Trends & Challenges
No ratings yet
Urbanization: Trends & Challenges
12 pages
Issue 02
No ratings yet
Issue 02
64 pages
Educational Psychology Course
No ratings yet
Educational Psychology Course
5 pages
Lima Bean Production
No ratings yet
Lima Bean Production
12 pages
Adobe Scan Jan 25, 2025
No ratings yet
Adobe Scan Jan 25, 2025
1 page
AQUÍ-DEBICKI (2009) - Family Business Research in The New Millennium - An Overview of The Who, The Where, The What
No ratings yet
AQUÍ-DEBICKI (2009) - Family Business Research in The New Millennium - An Overview of The Who, The Where, The What
17 pages
Banner Concept
No ratings yet
Banner Concept
11 pages
English User Guide - 0044-033-05 - en
No ratings yet
English User Guide - 0044-033-05 - en
16 pages
Welcome: Marketing Principles and Practices (MKT 701)
No ratings yet
Welcome: Marketing Principles and Practices (MKT 701)
56 pages
Gender and Social Construction
No ratings yet
Gender and Social Construction
64 pages
2025 Drik Panchang Tamil Calendar v1.0.1
No ratings yet
2025 Drik Panchang Tamil Calendar v1.0.1
25 pages
MSC Trauma Care Technology
No ratings yet
MSC Trauma Care Technology
4 pages
Till A Glacial Process Sedimentology 1st Edition David J. A. Evans Ebook All Chapters PDF
100% (7)
Till A Glacial Process Sedimentology 1st Edition David J. A. Evans Ebook All Chapters PDF
51 pages
Integrated Management System Audit Checklist
No ratings yet
Integrated Management System Audit Checklist
15 pages
GMW3235 Fogging Characteristics of Trim Materials - EffectiveDate - 2011-01
No ratings yet
GMW3235 Fogging Characteristics of Trim Materials - EffectiveDate - 2011-01
11 pages
Mary in Early Christian Faith and Devotion Stephen J. Shoemaker PDF Download
100% (5)
Mary in Early Christian Faith and Devotion Stephen J. Shoemaker PDF Download
68 pages
Internal and External Stake Holders of A Microsoft
No ratings yet
Internal and External Stake Holders of A Microsoft
3 pages
Introduction To CFX: Appendix C Radiation Modeling
No ratings yet
Introduction To CFX: Appendix C Radiation Modeling
10 pages
1736509569111epic December 2024
No ratings yet
1736509569111epic December 2024
52 pages
Lec 2
No ratings yet
Lec 2
19 pages
Cation Detection Reactions Guide
No ratings yet
Cation Detection Reactions Guide
33 pages
Raising Great Kids (PDFDrive)
No ratings yet
Raising Great Kids (PDFDrive)
116 pages