0% found this document useful (0 votes)

29 views6 pages

Document 11

The document outlines a Python script for data analysis using pandas and matplotlib, focusing on sales, inventory, and customer data. It includes steps for loading and exploring data, cleaning it by handling missing values and duplicates, and performing analyses to derive insights such as total revenue, popular products, and customer demographics. Additionally, it features visualizations for trends and distributions, and an optional section for advanced analysis including profit calculations and identifying high-spending customers.

Uploaded by

deadmachinenitin4

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

29 views6 pages

Document 11

Uploaded by

deadmachinenitin4

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 6

import pandas as pd

import matplotlib.pyplot as plt

# Part A: Load & Explore Data

# Load all CSV files

sales = pd.read_csv('sales.csv')

inventory = pd.read_csv('inventory.csv')

customers = pd.read_csv('customers.csv')

# Explore data

print("Sales Data:")

print(sales.head())

print(sales.info())

print(sales.describe())

print("\nInventory Data:")

print(inventory.head())

print(inventory.info())

print(inventory.describe())

print("\nCustomer Data:")

print(customers.head())

print(customers.info())

print(customers.describe())

# Rename confusing columns

sales = sales.rename(columns={'Unit_Price': 'Price_per_Unit'})

inventory = inventory.rename(columns={'Unit_Price': 'Price_per_Unit'})

# Convert Date column to datetime

sales['Date'] = pd.to_datetime(sales['Date'])

# Part B: Data Cleaning

# Handle missing values

sales = sales.dropna()

inventory = inventory.dropna()

customers = customers.dropna()

# Drop duplicates

sales = sales.drop_duplicates()

inventory = inventory.drop_duplicates()

customers = customers.drop_duplicates()

# Ensure proper data types

sales['Quantity'] = sales['Quantity'].astype(int)

customers['Age'] = customers['Age'].astype(int)

# Part C: Data Analysis

# 1. Sales Insights

# Total revenue generated

sales['Total_Sale'] = sales['Quantity'] * sales['Price_per_Unit']

total_revenue = sales['Total_Sale'].sum()

print(f"\nTotal Revenue: ₹{total_revenue:.2f}")

# Top 5 products by sales revenue

product_revenue = sales.groupby('Product_ID')
['Total_Sale'].sum().sort_values(ascending=False)

print("\nTop 5 Products by Revenue:")

print(product_revenue.head())

# Monthly revenue trend

sales['Month'] = sales['Date'].dt.month

monthly_revenue = sales.groupby('Month')['Total_Sale'].sum()

print("\nMonthly Revenue Trend:")

print(monthly_revenue)

# Most popular payment method

popular_payment = sales['Payment_Method'].value_counts().idxmax()

print(f"\nMost Popular Payment Method: {popular_payment}")

# 2. Inventory Management

# Products that need restocking (Stock < 10)

restock_products = inventory[inventory['Stock'] < 10]

print("\nProducts that need restocking:")

print(restock_products[['Product_ID', 'Product_Name', 'Stock']])

# Most stocked category

most_stocked = inventory.groupby('Category')['Stock'].sum().idxmax()

print(f"\nMost Stocked Category: {most_stocked}")

# Inventory value per category

inventory['Inventory_Value'] = inventory['Stock'] * inventory['Price_per_Unit']

category_value = inventory.groupby('Category')['Inventory_Value'].sum()

print("\nInventory Value per Category:")

print(category_value)

# 3. Customer Analysis

# Cities with most customers

city_counts = customers['City'].value_counts()

print("\nCities with Most Customers:")

print(city_counts.head())

# Gender distribution

gender_dist = customers['Gender'].value_counts(normalize=True) * 100

print("\nGender Distribution:")

print(gender_dist)

# Average age of customers

avg_age = customers['Age'].mean()

print(f"\nAverage Age of Customers: {avg_age:.1f} years")

# Part D: Visualizations

plt.figure(figsize=(15, 10))

# Line chart: Monthly revenue

plt.subplot(2, 2, 1)

monthly_revenue.plot(kind='line', marker='o')

plt.title('Monthly Revenue Trend')

plt.xlabel('Month')

plt.ylabel('Revenue (₹)')

plt.grid(True)

# Bar chart: Top 5 products by revenue

plt.subplot(2, 2, 2)

product_revenue.head().plot(kind='bar')

plt.title('Top 5 Products by Revenue')

plt.xlabel('Product ID')

plt.ylabel('Revenue (₹)')

# Pie chart: Payment methods distribution

plt.subplot(2, 2, 3)

sales['Payment_Method'].value_counts().plot(kind='pie', autopct='%1.1f%%')

plt.title('Payment Methods Distribution')

plt.ylabel('')

# Histogram: Age distribution of customers

plt.subplot(2, 2, 4)

customers['Age'].plot(kind='hist', bins=10)

plt.title('Age Distribution of Customers')

plt.xlabel('Age')

plt.ylabel('Count')

plt.tight_layout()

plt.show()
# Part E: Advanced (Optional)

# Merge sales and inventory to calculate profit (assuming cost price is 70%
of selling price)

merged_data = pd.merge(sales, inventory, on='Product_ID')

merged_data['Cost_Price'] = merged_data['Price_per_Unit_y'] * 0.7

merged_data['Profit'] = (merged_data['Price_per_Unit_x'] -
merged_data['Cost_Price']) * merged_data['Quantity']

# Flag customers who made purchases above ₹10,000

customer_spending = sales.groupby('Customer_ID')['Total_Sale'].sum()

big_spenders = customer_spending[customer_spending >

10000].index.tolist()

print("\nCustomers who spent more than ₹10,000:")

print(big_spenders)

Wa0002.
No ratings yet
Wa0002.
4 pages
Supermarket Sales Data Analysis
No ratings yet
Supermarket Sales Data Analysis
6 pages
BIDA Practical Print
No ratings yet
BIDA Practical Print
56 pages
Sales Management Project Report
No ratings yet
Sales Management Project Report
18 pages
Final
No ratings yet
Final
2 pages
Supermarket Sales Insights
No ratings yet
Supermarket Sales Insights
8 pages
Data Analysis
No ratings yet
Data Analysis
4 pages
Guides
No ratings yet
Guides
23 pages
Supermarket Sales Analysis 1
No ratings yet
Supermarket Sales Analysis 1
13 pages
Project 3
No ratings yet
Project 3
8 pages
Supermart Grocery Sales - Retail Analytics Dataset (Finance Analyst)
No ratings yet
Supermart Grocery Sales - Retail Analytics Dataset (Finance Analyst)
19 pages
A Real World Scenario Solution Using Pandas
No ratings yet
A Real World Scenario Solution Using Pandas
3 pages
Customer Segmentation in Python
No ratings yet
Customer Segmentation in Python
71 pages
Project Sale Analysis
No ratings yet
Project Sale Analysis
8 pages
Diwali Sales Analysis EDA 1696347982
No ratings yet
Diwali Sales Analysis EDA 1696347982
8 pages
IIM PBA Assignment 2
No ratings yet
IIM PBA Assignment 2
3 pages
Assignment: Master in Business Administration
No ratings yet
Assignment: Master in Business Administration
18 pages
Class 12 IP Project
No ratings yet
Class 12 IP Project
4 pages
Data Preparation Guide
No ratings yet
Data Preparation Guide
6 pages
DSA Lab Exp1
No ratings yet
DSA Lab Exp1
3 pages
Sample Project 1
No ratings yet
Sample Project 1
14 pages
Divyanshi 05401172023 Ds Practical
No ratings yet
Divyanshi 05401172023 Ds Practical
18 pages
Ads Phase 5
No ratings yet
Ads Phase 5
23 pages
EDA Report Week2
No ratings yet
EDA Report Week2
15 pages
Amazon Sales Analysis
No ratings yet
Amazon Sales Analysis
3 pages
Customer Segmentation PDF
No ratings yet
Customer Segmentation PDF
18 pages
Supermart Grocery Sales - Retail Analytics Dataset - (Data Analyst)
No ratings yet
Supermart Grocery Sales - Retail Analytics Dataset - (Data Analyst)
17 pages
Import Pandas As PD
No ratings yet
Import Pandas As PD
7 pages
Project Amazon Sales Data Analysis
No ratings yet
Project Amazon Sales Data Analysis
12 pages
Exploratory Data Analysis
No ratings yet
Exploratory Data Analysis
10 pages
Supermart Grocery Sales Analysis
No ratings yet
Supermart Grocery Sales Analysis
8 pages
Data Analysis Project On Customer Purchases Dataset
No ratings yet
Data Analysis Project On Customer Purchases Dataset
1 page
Data Visualization II
No ratings yet
Data Visualization II
17 pages
Inventory Management System
No ratings yet
Inventory Management System
17 pages
Coffee Sales - (Data Analyst)
No ratings yet
Coffee Sales - (Data Analyst)
31 pages
Ip Renew Solution Project
No ratings yet
Ip Renew Solution Project
8 pages
UNIT 5 Scenario
No ratings yet
UNIT 5 Scenario
5 pages
Notes 20241025083428
No ratings yet
Notes 20241025083428
4 pages
Retail Analytics Project Guide
No ratings yet
Retail Analytics Project Guide
3 pages
Exploratory Data Analysis66
No ratings yet
Exploratory Data Analysis66
17 pages
Axe Submission
No ratings yet
Axe Submission
4 pages
PRJCT Report
No ratings yet
PRJCT Report
22 pages
Data Collection and Data Cleaning: Next Connect To The Drive
No ratings yet
Data Collection and Data Cleaning: Next Connect To The Drive
16 pages
Pandas Notes
No ratings yet
Pandas Notes
8 pages
Solution
No ratings yet
Solution
4 pages
Assignment For Business Analyst Intern @jar
No ratings yet
Assignment For Business Analyst Intern @jar
11 pages
Analyzing Sales Data
No ratings yet
Analyzing Sales Data
11 pages
Project Merged
No ratings yet
Project Merged
7 pages
DF PD - Read - Excel ('Sample - Superstore - XLS') : Anjaliassignmnet - Ipy NB
No ratings yet
DF PD - Read - Excel ('Sample - Superstore - XLS') : Anjaliassignmnet - Ipy NB
23 pages
Python Syntax and Functions For Data Mining
No ratings yet
Python Syntax and Functions For Data Mining
6 pages
Rithika
No ratings yet
Rithika
16 pages
Diwali Sales Analysis
No ratings yet
Diwali Sales Analysis
14 pages
Project Python
No ratings yet
Project Python
3 pages
Sales Data Analysis
No ratings yet
Sales Data Analysis
37 pages
Sample Sales Data Analysis
No ratings yet
Sample Sales Data Analysis
13 pages
Wa0003.
No ratings yet
Wa0003.
3 pages
Retail Sales Analytics Project
No ratings yet
Retail Sales Analytics Project
3 pages
Python MP
No ratings yet
Python MP
15 pages
Accounting & Auditing Syllabus
No ratings yet
Accounting & Auditing Syllabus
15 pages
Applications Manual: Peugeot Immobiliser
No ratings yet
Applications Manual: Peugeot Immobiliser
10 pages
Spouses Ros v. Philippine National Bank - Laoag Branch
No ratings yet
Spouses Ros v. Philippine National Bank - Laoag Branch
7 pages
Class 1 Summer Homework Help
100% (1)
Class 1 Summer Homework Help
5 pages
Paul Irving's Jan 6th Interview Transcript
No ratings yet
Paul Irving's Jan 6th Interview Transcript
58 pages
RET670 Test Report Differential
50% (2)
RET670 Test Report Differential
3 pages
Warr Tle17
No ratings yet
Warr Tle17
29 pages
Civic Chapter 4 Judiciary Note (Class 8)
100% (1)
Civic Chapter 4 Judiciary Note (Class 8)
20 pages
Aker Solution Employee Referral Form
No ratings yet
Aker Solution Employee Referral Form
1 page
Earthquake Risk Management: Lecture Notes - IIT, Roorkee
75% (8)
Earthquake Risk Management: Lecture Notes - IIT, Roorkee
365 pages
Untitled0.ipynb - Colab
No ratings yet
Untitled0.ipynb - Colab
2 pages
BSB Group vs. Go: Theft Case Analysis
No ratings yet
BSB Group vs. Go: Theft Case Analysis
14 pages
In Re Carl E. Snyder, Debtor. Roy D. Hansen Mortgage Company v. Carl E. Snyder, 81 F.3d 151, 4th Cir. (1996)
No ratings yet
In Re Carl E. Snyder, Debtor. Roy D. Hansen Mortgage Company v. Carl E. Snyder, 81 F.3d 151, 4th Cir. (1996)
2 pages
Home Manegement
No ratings yet
Home Manegement
8 pages
Gas Turbine Training
100% (3)
Gas Turbine Training
139 pages
IoT-Based Bank Security System
No ratings yet
IoT-Based Bank Security System
10 pages
Timeline of Computer History: 2500 BC The Abacus
No ratings yet
Timeline of Computer History: 2500 BC The Abacus
2 pages
Download: F Mazda Engineering Management
No ratings yet
Download: F Mazda Engineering Management
2 pages
MikroTik Traffic Control Training
No ratings yet
MikroTik Traffic Control Training
110 pages
LPDA Technical Databook
No ratings yet
LPDA Technical Databook
5 pages
BMO Everyday Banking Statement
No ratings yet
BMO Everyday Banking Statement
3 pages
Idm Chumbak
No ratings yet
Idm Chumbak
21 pages
WPA Cheah
No ratings yet
WPA Cheah
26 pages
Passive Voice Online Exercise For 7 Live Worksheets 2
No ratings yet
Passive Voice Online Exercise For 7 Live Worksheets 2
1 page
Chaudhery Mustansar Hussain - Handbook of Environmental Materials Management-Springer International Publishing (2019)
100% (1)
Chaudhery Mustansar Hussain - Handbook of Environmental Materials Management-Springer International Publishing (2019)
3,209 pages
Cheyenne's Community Cat Initiative
No ratings yet
Cheyenne's Community Cat Initiative
1 page
Chapter 16 - Alternate Solutions
No ratings yet
Chapter 16 - Alternate Solutions
9 pages
Department of Education: Republic of The Philippines
No ratings yet
Department of Education: Republic of The Philippines
2 pages
The 10 Best Jobs Working From Home
No ratings yet
The 10 Best Jobs Working From Home
6 pages
Lecture 5 - Business Planning Part II I&E - BS & Cashflow
No ratings yet
Lecture 5 - Business Planning Part II I&E - BS & Cashflow
67 pages

Document 11

Uploaded by

Document 11

Uploaded by

import pandas as pd

import matplotlib.pyplot as plt

# Part A: Load & Explore Data

# Load all CSV files

# Rename confusing columns

sales = sales.rename(columns={'Unit_Price': 'Price_per_Unit'})

# Convert Date column to datetime

# Part B: Data Cleaning

# Handle missing values

# Ensure proper data types

# Part C: Data Analysis

# Total revenue generated

sales['Total_Sale'] = sales['Quantity'] * sales['Price_per_Unit']

print(f"\nTotal Revenue: ₹{total_revenue:.2f}")

print("\nTop 5 Products by Revenue:")

# Monthly revenue trend

print("\nMonthly Revenue Trend:")

# Most popular payment method

print(f"\nMost Popular Payment Method: {popular_payment}")

# Products that need restocking (Stock < 10)

restock_products = inventory[inventory['Stock'] < 10]

print("\nProducts that need restocking:")

print(restock_products[['Product_ID', 'Product_Name', 'Stock']])

# Most stocked category

print(f"\nMost Stocked Category: {most_stocked}")

# Inventory value per category

print("\nInventory Value per Category:")

# Cities with most customers

print("\nCities with Most Customers:")

gender_dist = customers['Gender'].value_counts(normalize=True) * 100

# Average age of customers

print(f"\nAverage Age of Customers: {avg_age:.1f} years")

# Line chart: Monthly revenue

plt.title('Monthly Revenue Trend')

# Bar chart: Top 5 products by revenue

plt.title('Top 5 Products by Revenue')

# Pie chart: Payment methods distribution

plt.title('Payment Methods Distribution')

# Histogram: Age distribution of customers

plt.title('Age Distribution of Customers')

merged_data = pd.merge(sales, inventory, on='Product_ID')

merged_data['Cost_Price'] = merged_data['Price_per_Unit_y'] * 0.7

# Flag customers who made purchases above ₹10,000

big_spenders = customer_spending[customer_spending >

print("\nCustomers who spent more than ₹10,000:")

You might also like