0% found this document useful (0 votes)

35 views19 pages

DVA Practical

The document provides a comprehensive introduction to data visualization, emphasizing its importance in analytics and detailing common chart types such as bar, line, scatter, histogram, box plot, and pie chart. It also covers tools and libraries like Matplotlib, Seaborn, and Plotly for creating various visualizations, alongside techniques for dataset loading, exploration, cleaning, and preparation. Additionally, it discusses advanced visualization techniques, multivariate analysis, and time series analysis using real-world datasets.

Uploaded by

laxmipriya1521

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

35 views19 pages

DVA Practical

Uploaded by

laxmipriya1521

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 19

Q1.

Introduction to Data Visualization

• Understand the importance of data visualization in analytics.
• Overview of common chart types: bar, line, scatter, histogram, box plot, pie chart.

Answer:

What is Data Visualization?

Data visualization is the graphical representation of information and data. It helps in:

• Understanding patterns and trends in the data

• Communicating insights clearly and effectively

• Making data-driven decisions

Why is it Important?

• Simplifies complex data

• Reveals patterns that aren't obvious in raw data

• Helps detect outliers and anomalies

• Facilitates storytelling with data

Common Chart Types import pandas as pd

import matplotlib.pyplot as plt import seaborn as

sns

# Load dataset df = pd.read_csv('titanic.csv')

# Preview data df.head()

1. Bar Chart

Use: To compare quantities across categories.

# Count of passengers by class sns.countplot(data=df, x='Pclass')

plt.title('Passenger Count by Class') plt.xlabel('Class')

plt.ylabel('Count') plt.show()

2. Line Chart

Use: To track changes over time. # Simulate some time data df['PassengerId'] =

pd.to_datetime(df['PassengerId'], unit='D', origin='1900-01-01')

df.groupby(df['PassengerId'].dt.year)['Fare'].mean().plot() plt.title('Average Fare Over Time')

plt.xlabel('Year') plt.ylabel('Average Fare') plt.show()

3. Scatter Plot

Use: To show relationship between two numeric variables.

sns.scatterplot(data=df, x='Age', y='Fare') plt.title('Age vs

Fare') plt.show()

4. Histogram
Use: To view the distribution of a single numeric variable.

sns.histplot(data=df, x='Age', bins=30, kde=True) plt.title('Age

Distribution') plt.show()

5. Box Plot

Use: To show distribution and detect outliers.

sns.boxplot(data=df, x='Pclass', y='Age') plt.title('Age

Distribution by Class') plt.show()

6. Pie Chart

Use: To show proportion. # Pie chart of survival survived_counts =

df['Survived'].value_counts() labels = ['Not Survived', 'Survived'] plt.pie(survived_counts,

labels=labels, autopct='%1.1f%%', startangle=140) plt.title('Survival Rate') plt.axis('equal')

plt.show()
Q2. Tools and Libraries for Visualization

• Introduction to Python libraries: Matplotlib, Seaborn, and Plotly.

• Install necessary libraries and understand their use cases.

Answer:

Library Use Case Strengths

Matplotlib Base library for all plots Highly customizable, good for static charts

Seaborn Statistical visualization Clean, attractive default themes, simplifies complex plots

Plotly Interactive plots Great for dashboards and web apps

Installing the Libraries

Open your terminal or Jupyter Notebook and install the following:

pip install matplotlib seaborn plotly

1. Matplotlib – The Foundation

Overview: It’s the base library used to create static, animated, and interactive plots in Python. import matplotlib.pyplot

as plt

# Simple line chart x = [1, 2, 3, 4] y =

[10, 20, 25, 30]

plt.plot(x, y) plt.title("Simple Line Plot")

plt.xlabel("X-axis") plt.ylabel("Y-axis")

plt.grid(True) plt.show()

2. Seaborn – Built on Matplotlib

Overview: Makes it easier to create beautiful and informative statistical plots.

import seaborn as sns import pandas as pd

# Load example dataset df =

sns.load_dataset('tips')

# Seaborn scatter plot sns.scatterplot(data=df, x='total_bill', y='tip',

hue='sex') plt.title("Total Bill vs Tip by Gender") plt.show()

3. Plotly – For Interactive Plots

Overview: Best for interactive, zoomable, and hoverable plots. Excellent for web apps and dashboards.

import plotly.express as px

# Load built-in dataset df = px.data.iris()

# Interactive scatter plot fig = px.scatter(df, x='sepal_width', y='sepal_length', color='species', title="Iris Sepal

Dimensions") fig.show()

Note: Plotly works in Jupyter Notebooks and browser-based apps by default. No need for plt.show().
Q3. Dataset Loading and Exploration
• Load real-world datasets using Pandas.
• Use .head(), .tail(), .info(), .describe() to explore data.

Answer:

Loading a Dataset import pandas as pd

# Load Titanic dataset df =

pd.read_csv("titanic.csv")

# Show the first 5 rows df.head()

Exploring the Dataset .head() – View the first few

rows df.head(3) # First 3 rows

.tail() – View the last few rows df.tail(3) # Last 3 rows

.info() – Overview of columns, data types, non-null counts df.info()

.describe() – Summary statistics for numeric columns df.describe()

Q4. Understanding Variable Types

• Differentiate between categorical, numerical, discrete, and continuous variables.

• Identify types of variables in a dataset.

Answer:

Types of Variables
Type Description Examples

Categorical Represent categories or groups Gender, Class, Embarked

Numerical Represent measurable quantities Age, Fare

➤ Discrete Countable values (integers) Number of siblings, Pclass

➤ Continuous Measurable values (fractions allowed) Age, Fare

Let's Work with the Titanic Dataset import pandas as

pd # Load dataset df = pd.read_csv('titanic.csv')

df.head()

Identify Variable Types # Check data types

df.dtypes
Q5. Data Cleaning and Preparation for Visualization
• Handle missing values, remove duplicates, and convert data types.
• Prepare clean data for analysis and plotting.

Answer:

Step 1: Handling Missing Values Identify Missing Values

df.isnull().sum()

Drop or Fill Missing Values

Drop missing rows (when too many nulls or rows aren't crucial):

df_cleaned = df.dropna(subset=['Embarked'])

Fill missing values (with mean, median, or mode): df['Age'].fillna(df['Age'].median(), inplace=True)

df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True)

Step 2: Removing Duplicates # Check and remove

duplicates print("Duplicates:", df.duplicated().sum())

df.drop_duplicates(inplace=True)

Step 3: Convert Data Types

Ensure columns are in correct format: # Convert Survived to

category df['Survived'] = df['Survived'].astype('category')

# Convert Embarked to category df['Embarked'] =

df['Embarked'].astype('category')

# Confirm changes df.dtypes

Clean Data Ready! # Final check

print(df.info()) print(df.isnull().sum())
Q6. Creating Basic Plots Using Matplotlib

• Plot line charts, bar charts, histograms using Matplotlib.

• Customize plots with titles, labels, legends, and colors.

Answer:

import pandas as pd import matplotlib.pyplot as

plt

# Load dataset df = pd.read_csv("titanic.csv")

1. Line Chart # Average fare by class fare_by_class =

df.groupby('Pclass')['Fare'].mean()

# Plot line chart plt.plot(fare_by_class.index, fare_by_class.values, color='green', marker='o', linestyle='--')

plt.title('Average Fare by Passenger Class') plt.xlabel('Passenger Class') plt.ylabel('Average Fare')

plt.grid(True) plt.xticks([1, 2, 3]) plt.show()

2. Bar Chart

# Count of passengers per class class_counts =

df['Pclass'].value_counts().sort_index()

# Bar chart plt.bar(class_counts.index, class_counts.values, color=['skyblue', 'salmon', 'lightgreen'])

plt.title('Passenger Count by Class') plt.xlabel('Passenger Class')

plt.ylabel('Count') plt.xticks([1, 2, 3]) plt.show()

3. Histogram

# Drop missing values in 'Age' ages =

df['Age'].dropna()

# Histogram plt.hist(ages, bins=20, color='purple', edgecolor='black')

plt.title('Age Distribution of Passengers') plt.xlabel('Age')

plt.ylabel('Frequency') plt.grid(axis='y', alpha=0.5)

plt.show()
Q7. Advanced Visualization Using Seaborn

• Create scatter plots, box plots, violin plots, and pair plots.

• Use hue, style, and palette for deeper analysis.

Answer:

import seaborn as sns import pandas as pd

import matplotlib.pyplot as plt

# Load Titanic dataset df = sns.load_dataset('titanic') # built-in

dataset

1. Scatter Plot sns.scatterplot(data=df, x='age', y='fare', hue='sex', style='class',

palette='Set2')

plt.title("Age vs Fare by Gender and Class") plt.show()

2. Box Plot sns.boxplot(data=df, x='class', y='age', hue='sex', palette='coolwarm')

plt.title("Age Distribution by Class and Gender") plt.show()

3. Violin Plot sns.violinplot(data=df, x='class', y='age', hue='sex', split=True,

palette='muted')

plt.title("Age Distribution by Class and Gender (Violin Plot)") plt.show()

4. Pair Plot sns.pairplot(df[['age', 'fare', 'survived', 'sex']], hue='sex', palette='husl')

plt.suptitle("Pairwise Relationships", y=1.02) plt.show()

Q8. Multivariate Analysis with Seaborn

• Heatmaps and correlation matrices to analyze relationships between multiple variables.

• Apply sns.heatmap() and sns.pairplot().

Answer:

import seaborn as sns import pandas as pd

import matplotlib.pyplot as plt

# Load dataset df = sns.load_dataset('titanic')

1. Correlation Matrix # Select numeric columns only num_df =

df.select_dtypes(include='number')
# Compute correlation matrix corr_matrix = num_df.corr()

# Display correlation matrix print(corr_matrix)

2. Heatmap Using sns.heatmap()

plt.figure(figsize=(10, 6)) sns.heatmap(corr_matrix, annot=True, fmt=".2f", cmap="coolwarm",

linewidths=0.5)

plt.title("Correlation Heatmap - Titanic Numeric Features") plt.show()

3. Pairplot (Again, But for Multivariate) sns.pairplot(df[['age', 'fare', 'pclass', 'survived']],

hue='survived', palette='Set1') plt.suptitle("Pairwise Plot of Age, Fare, Pclass, and Survival",

y=1.02) plt.show()
Q9. Time Series and Trend Analysis

• Plot time-based data using Pandas and Matplotlib.

• Perform trend analysis and plot rolling averages.

• Select a real dataset (e.g., COVID-19, IPL stats, sales data).

Answer:

import pandas as pd import matplotlib.pyplot as

plt import numpy as np

# Load dataset df = pd.read_csv("titanic.csv")

# Create a fake 'Date' column (spread over 100 days before April 15, 1912) df['Date'] =

pd.date_range(end="1912-04-15", periods=len(df))

# Sort by date df.sort_values('Date', inplace=True)

# Group by date and count passengers daily_passengers =

df.groupby('Date').size()

# Plotting daily passenger entries plt.figure(figsize=(12, 5)) daily_passengers.plot(kind='line',

title='Simulated Passenger Entries Over Time') plt.xlabel("Date") plt.ylabel("Number of

Passengers") plt.grid(True) plt.show()

B. Rolling Averages (Trend Smoothing)

# 7-day rolling average

rolling_avg = daily_passengers.rolling(window=7).mean()

plt.figure(figsize=(12, 5)) plt.plot(daily_passengers, label='Daily Count')

plt.plot(rolling_avg, label='7-Day Rolling Average', color='red') plt.title("Trend of

Simulated Passenger Entries (with Smoothing)") plt.xlabel("Date")

plt.ylabel("Passenger Count") plt.legend() plt.grid(True) plt.show()

Matplotlib Guide for Data Scientists
No ratings yet
Matplotlib Guide for Data Scientists
5 pages
Sl-3 Assignment No.8
No ratings yet
Sl-3 Assignment No.8
21 pages
Data Visualization Part 2
No ratings yet
Data Visualization Part 2
18 pages
DSBDAL - Assignment No 9
No ratings yet
DSBDAL - Assignment No 9
12 pages
DSBDL Write Ups 8 To 10
No ratings yet
DSBDL Write Ups 8 To 10
7 pages
Pandas 3-2
No ratings yet
Pandas 3-2
27 pages
Pandas and Numpy
No ratings yet
Pandas and Numpy
9 pages
Pandas Complete + Visualisation Summary of IBM Visualization
No ratings yet
Pandas Complete + Visualisation Summary of IBM Visualization
21 pages
Summary: Introduction To Data Visualization Tools
No ratings yet
Summary: Introduction To Data Visualization Tools
13 pages
Experiment No 9
No ratings yet
Experiment No 9
13 pages
Ass 8 DSBDL
No ratings yet
Ass 8 DSBDL
27 pages
Experiment No 8
No ratings yet
Experiment No 8
26 pages
NumPy, Pandas, MatplotLib, Seaborn, ScikitLearn (SkLearn)
No ratings yet
NumPy, Pandas, MatplotLib, Seaborn, ScikitLearn (SkLearn)
14 pages
Pandas Cheat Sheet 2
No ratings yet
Pandas Cheat Sheet 2
12 pages
Data Visualization Python Tutorial
100% (1)
Data Visualization Python Tutorial
9 pages
DMV Unit-4-1 PDF
No ratings yet
DMV Unit-4-1 PDF
10 pages
BDA File
No ratings yet
BDA File
26 pages
Datascienece
No ratings yet
Datascienece
18 pages
Seaborn
No ratings yet
Seaborn
7 pages
1.1 Univariate Analysis: 1.1.1 Categorical Data
No ratings yet
1.1 Univariate Analysis: 1.1.1 Categorical Data
10 pages
Data Visualisation
No ratings yet
Data Visualisation
5 pages
Data Visualization
No ratings yet
Data Visualization
31 pages
Data Visualization With Python
No ratings yet
Data Visualization With Python
36 pages
Session 13, Data Visualization
No ratings yet
Session 13, Data Visualization
13 pages
Description of Data Visualization Tools
No ratings yet
Description of Data Visualization Tools
15 pages
Advanced Plot Types With Seaborn
No ratings yet
Advanced Plot Types With Seaborn
8 pages
Lec 19
No ratings yet
Lec 19
14 pages
Data Analysis Graphs
No ratings yet
Data Analysis Graphs
9 pages
Data Visualization II: Downloading The Seaborn Library
No ratings yet
Data Visualization II: Downloading The Seaborn Library
14 pages
An Introduction To Seaborn
No ratings yet
An Introduction To Seaborn
42 pages
Seaborn Data Visualization Guide
No ratings yet
Seaborn Data Visualization Guide
49 pages
Data Visualisation Using Pyplot
No ratings yet
Data Visualisation Using Pyplot
20 pages
Learn Seaborn 1674064934
No ratings yet
Learn Seaborn 1674064934
24 pages
MLT Lab Prep Guide
No ratings yet
MLT Lab Prep Guide
37 pages
Data Visualization With Matplotlib
No ratings yet
Data Visualization With Matplotlib
20 pages
Pandas - Data Manipulation and Analysis Library - Educative
No ratings yet
Pandas - Data Manipulation and Analysis Library - Educative
7 pages
V Unit
No ratings yet
V Unit
17 pages
Data Visualization
No ratings yet
Data Visualization
23 pages
Session 7 - Data Visualization With Python
No ratings yet
Session 7 - Data Visualization With Python
17 pages
Visualization Library Documentation
No ratings yet
Visualization Library Documentation
16 pages
Class 1 Data Visualization in Python Using Matplotlib
No ratings yet
Class 1 Data Visualization in Python Using Matplotlib
13 pages
ProgrammingForDS12 Viz
No ratings yet
ProgrammingForDS12 Viz
25 pages
Data Visualization
No ratings yet
Data Visualization
24 pages
Exp 8
No ratings yet
Exp 8
19 pages
Data Visualization
No ratings yet
Data Visualization
19 pages
DV LAb Staff
No ratings yet
DV LAb Staff
73 pages
Advanced Plot Types With Seaborn
No ratings yet
Advanced Plot Types With Seaborn
4 pages
Data Visualization in Python With Libraries
No ratings yet
Data Visualization in Python With Libraries
28 pages
Unit 2
No ratings yet
Unit 2
36 pages
Data Visualization Using Matplotlib in Python
No ratings yet
Data Visualization Using Matplotlib in Python
15 pages
Seaborn Merged
No ratings yet
Seaborn Merged
106 pages
19 Matplotlib
No ratings yet
19 Matplotlib
26 pages
Pandas
No ratings yet
Pandas
25 pages
Class 12th Ip CH 2
No ratings yet
Class 12th Ip CH 2
2 pages
Data Visualization Techniques Guide
No ratings yet
Data Visualization Techniques Guide
48 pages
Unit 5 Seaborn Visualization
No ratings yet
Unit 5 Seaborn Visualization
35 pages
Data Visualization - 1 by Matplot Lib
No ratings yet
Data Visualization - 1 by Matplot Lib
19 pages
HSK 3 - Rasimsiz
No ratings yet
HSK 3 - Rasimsiz
60 pages
Deadlock-System Model Notes
No ratings yet
Deadlock-System Model Notes
2 pages
International K-6 Teacher Resume
No ratings yet
International K-6 Teacher Resume
2 pages
PPL Unit-5 Notes1
No ratings yet
PPL Unit-5 Notes1
13 pages
Amor Tão Lindo - Andréia Fontes - Fabio Henrique
No ratings yet
Amor Tão Lindo - Andréia Fontes - Fabio Henrique
38 pages
Technologies Cheat Sheet
No ratings yet
Technologies Cheat Sheet
28 pages
Teacher's Role in CLT
No ratings yet
Teacher's Role in CLT
5 pages
PRACTICE 32 33 Foto
No ratings yet
PRACTICE 32 33 Foto
8 pages
Introduction To 6 Minute English - Homework
No ratings yet
Introduction To 6 Minute English - Homework
3 pages
Advanced Object-Oriented Coding
No ratings yet
Advanced Object-Oriented Coding
2 pages
History and Importance of Hadith Full New Updated
No ratings yet
History and Importance of Hadith Full New Updated
16 pages
JEE 2020 Physics Exam Paper Structure
No ratings yet
JEE 2020 Physics Exam Paper Structure
22 pages
Anh 6 I Learn Smart World Luyện chuyên sâu cả năm có đáp án và file nghe Unit 2
No ratings yet
Anh 6 I Learn Smart World Luyện chuyên sâu cả năm có đáp án và file nghe Unit 2
5 pages
RSM Calculator 28 Feb 2015
No ratings yet
RSM Calculator 28 Feb 2015
40 pages
Holiness - Meditation
No ratings yet
Holiness - Meditation
5 pages
REPORT WRITING Grade 12
No ratings yet
REPORT WRITING Grade 12
4 pages
IPM AT 2022 Quantitative Exam Results
No ratings yet
IPM AT 2022 Quantitative Exam Results
40 pages
Slang Analysis in "Fury" Film
No ratings yet
Slang Analysis in "Fury" Film
12 pages
Ae Tt9 Gram Works 10
No ratings yet
Ae Tt9 Gram Works 10
2 pages
Group 7 Mountain Provinvce
No ratings yet
Group 7 Mountain Provinvce
22 pages
Objetos Directos e Indirectos
No ratings yet
Objetos Directos e Indirectos
6 pages
Arnav Kumar WISC Report
No ratings yet
Arnav Kumar WISC Report
5 pages
Chinnas MCD Ppts
No ratings yet
Chinnas MCD Ppts
81 pages
Diary of A Wimpy Kid - Old School #10: September Saturday
No ratings yet
Diary of A Wimpy Kid - Old School #10: September Saturday
4 pages
Lab Exercises For Visual Basic 6.0
0% (1)
Lab Exercises For Visual Basic 6.0
11 pages
Module 5.1 - The Counting Principle
No ratings yet
Module 5.1 - The Counting Principle
19 pages
Ed Ing Adjectives
No ratings yet
Ed Ing Adjectives
12 pages
Report - Minor Project
100% (1)
Report - Minor Project
41 pages
Image Processing
No ratings yet
Image Processing
13 pages
CLT
100% (1)
CLT
8 pages