0% found this document useful (0 votes)

11 views7 pages

Enda Practical 3 Explanation One

This script performs data preprocessing by importing necessary libraries, loading a CSV file into a pandas DataFrame, and displaying various sections of the dataset. It handles missing values and duplicates, encodes categorical variables into numerical values, standardizes numerical data, and splits the dataset into training and testing sets. The process concludes with a completion message indicating that data preprocessing is finished.

Uploaded by

Edilita

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

11 views7 pages

Enda Practical 3 Explanation One

Uploaded by

Edilita

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 7

Let's break this down step by step:

---

## 1. Importing Necessary Libraries

```python

import pandas as pd # Importing pandas for data manipulation

import numpy as np # Importing numpy for numerical computations

from sklearn.preprocessing import StandardScaler, MinMaxScaler, LabelEncoder,

OneHotEncoder

from sklearn.model_selection import train_test_split

```

- **pandas (`pd`)**: A library for data manipulation and analysis. It provides data

structures such as `DataFrame` and `Series` to store and process tabular data.

- **numpy (`np`)**: A library for numerical computations, providing support for arrays,

matrices, and mathematical functions.

- **sklearn.preprocessing**:

- `StandardScaler`: Standardizes data by removing the mean and scaling to unit

variance.

- `MinMaxScaler`: Scales data to a fixed range, usually [0,1].

- `LabelEncoder`: Converts categorical labels into numeric values.

- `OneHotEncoder`: Encodes categorical variables as binary vectors.

- **sklearn.model_selection**:
- `train_test_split`: Splits data into training and testing sets.

---

## 2. Loading the Dataset

```python

df =

pd.read_csv('/content/food-price-index-september-2023-weighted-average-prices.csv')

```

- Reads a CSV (Comma-Separated Values) file into a pandas `DataFrame`.

- `df` is now a tabular dataset.

### Displaying Data

```python

print("Orignal Data :")

print(df.head()) # Displays the first 5 rows

print(df.head()) # Again displays the first 5 rows

print(df.tail()) # Displays the last 5 rows

print(df.tail(15)) # Displays the last 15 rows

print(df.head(30)) # Displays the first 30 rows

print(df.head(15)) # Displays the first 15 rows

```

- `df.head(n)`: Shows the first `n` rows (default: 5).

- `df.tail(n)`: Shows the last `n` rows (default: 5).

- The redundant print statements might be unintentional.

---

## 3. Handling Missing Values

```python

print("\nChecking for missing values:")

print(df.isnull().sum()) # Count missing values per column

df = df.dropna() # Drops rows with missing values

```

- `df.isnull().sum()`: Checks how many missing values each column has.

- `df.dropna()`: Removes rows with missing values.

_(Alternative: `df.fillna(value)` fills missing values with a specified value.)_

---

## 4. Handling Duplicates

```python

print("\nchecking for duplicates:")

print(df.duplicated().sum()) # Counts duplicate rows

df = df.drop_duplicates() # Removes duplicate rows

```
- `df.duplicated().sum()`: Counts the number of duplicate rows.

- `df.drop_duplicates()`: Removes duplicate rows.

---

## 5. Encoding Categorical Variables

```python

print("\nEncoding categorical variables:")

categorical_cols = df.select_dtypes(include=['object']).columns # Selecting categorical

columns

label_encoders = {}

for col in categorical_cols:

le = LabelEncoder()

df[col] = le.fit_transform(df[col]) # Apply Label Encoding

label_encoders[col] = le

print(df.head()) # Display transformed dataset

```

- `df.select_dtypes(include=['object']).columns`: Finds all categorical columns.

- **Label Encoding**:

- Converts categorical data (text) into numbers.

- Example: `['Apple', 'Banana', 'Cherry'] → [0, 1, 2]`.

- The encoded values replace the original categorical values.

---

## 6. Feature Scaling

```python

print("\nApplying feature scaling:")

numeric_cols = df.select_dtypes(include=[np.number]).columns # Selecting numeric

columns

scaler = StandardScaler() # Initializing Standard Scaler

df[numeric_cols] = scaler.fit_transform(df[numeric_cols]) # Standardizing numerical

features

print(df.head()) # Display scaled dataset

```

- `df.select_dtypes(include=[np.number]).columns`: Finds all numeric columns.

- `StandardScaler()`:

- Standardizes data: `(value - mean) / standard deviation`

- Ensures all features have a mean of 0 and standard deviation of 1.

- Effect: Prevents large numerical values from dominating smaller ones.

---

## 7. Splitting Dataset into Training and Testing Sets

```python

print("\nSplitting dataset into training and testing sets:")

X = df.drop(columns=['Series_reference']) # Assuming 'Series_reference' is the target

variable

y = df['Series_reference']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Training set size: {X_train.shape}, Testing set size: {X_test.shape}")

```

- `X = df.drop(columns=['Series_reference'])`: Features (independent variables).

- `y = df['Series_reference']`: Target variable (dependent variable).

- `train_test_split(X, y, test_size=0.2, random_state=42)`:

- Splits the dataset into:

- `80%` training (`X_train`, `y_train`)

- `20%` testing (`X_test`, `y_test`)

- `random_state=42` ensures reproducibility.

---

## 8. Completion Message

```python

print("\nData Preprocessing Completed!")

```

- Confirms that data preprocessing is finished.

---
## **Summary**

### What does this script do?

1. **Imports necessary libraries** for data manipulation, encoding, scaling, and splitting.

2. Loads a CSV file into a `pandas` DataFrame.

3. Displays different sections of the dataset.

4. Handles missing values by removing rows with `NaN`s.

5. Removes duplicate rows to avoid redundant data.

6. Encodes categorical variables into numerical values.

7. Standardizes numerical data for consistency.

8. Splits the dataset into training and testing sets.

Untitled Document
No ratings yet
Untitled Document
2 pages
ML - Lab - Ex 2
No ratings yet
ML - Lab - Ex 2
4 pages
Building Good Training Sets UNIT 1 PART2
No ratings yet
Building Good Training Sets UNIT 1 PART2
46 pages
Ap Python
No ratings yet
Ap Python
12 pages
EDS - Python Cheat Sheet
0% (1)
EDS - Python Cheat Sheet
3 pages
MACHINE LEARNING Manual
No ratings yet
MACHINE LEARNING Manual
36 pages
ML Complete Notes Hridoy
No ratings yet
ML Complete Notes Hridoy
5 pages
# (Data Preprocessing) : (Cheatsheet)
No ratings yet
# (Data Preprocessing) : (Cheatsheet)
10 pages
Project 2
No ratings yet
Project 2
5 pages
Advance Python
No ratings yet
Advance Python
5 pages
Data Pre Processing
No ratings yet
Data Pre Processing
2 pages
Class Xii PDF For Practical
No ratings yet
Class Xii PDF For Practical
24 pages
ML Lab
No ratings yet
ML Lab
29 pages
DMA Flask
No ratings yet
DMA Flask
14 pages
ML (Prac1)
No ratings yet
ML (Prac1)
12 pages
Code Shabab Error 7
No ratings yet
Code Shabab Error 7
5 pages
Data Preprocessing and Model Training
No ratings yet
Data Preprocessing and Model Training
21 pages
Exp2-Dm - KS
No ratings yet
Exp2-Dm - KS
9 pages
Experiment 1 Solution
No ratings yet
Experiment 1 Solution
5 pages
Micro
No ratings yet
Micro
4 pages
Lab File
No ratings yet
Lab File
96 pages
ML Book Notes
No ratings yet
ML Book Notes
9 pages
Mercedes-Benz Greener Manufacturing Ai
0% (1)
Mercedes-Benz Greener Manufacturing Ai
16 pages
Abhiml ML File
No ratings yet
Abhiml ML File
74 pages
Pandas For Machine Learning
No ratings yet
Pandas For Machine Learning
10 pages
Data Preprocessing in Machine Learning
No ratings yet
Data Preprocessing in Machine Learning
27 pages
Hint Sheet
No ratings yet
Hint Sheet
13 pages
Logistic Regression and Beginner ML Notes
No ratings yet
Logistic Regression and Beginner ML Notes
9 pages
Parth ML
No ratings yet
Parth ML
24 pages
Unit 4 - Working With Graphs - Python
No ratings yet
Unit 4 - Working With Graphs - Python
49 pages
How To Prepare Your Dataset For Machine Learning in Python
No ratings yet
How To Prepare Your Dataset For Machine Learning in Python
14 pages
List of Imported Libraries
No ratings yet
List of Imported Libraries
12 pages
Multi Classification - Py (For 1 Class TP, TN, FP, FN)
No ratings yet
Multi Classification - Py (For 1 Class TP, TN, FP, FN)
25 pages
Step-by-Step Explanation of Python Data Preprocessing Script
No ratings yet
Step-by-Step Explanation of Python Data Preprocessing Script
9 pages
Lab 08 - Data Preprocessing
No ratings yet
Lab 08 - Data Preprocessing
9 pages
Exp. 1
No ratings yet
Exp. 1
4 pages
Python For Machine Learning
No ratings yet
Python For Machine Learning
66 pages
1data Cleansing Cheklist
No ratings yet
1data Cleansing Cheklist
2 pages
Eda Code Snippets
No ratings yet
Eda Code Snippets
17 pages
4 Data Preprocessing
No ratings yet
4 Data Preprocessing
27 pages
Data Analysis for Beginners
No ratings yet
Data Analysis for Beginners
8 pages
External
No ratings yet
External
11 pages
Iii Aid - ML
No ratings yet
Iii Aid - ML
30 pages
Preprocessing
No ratings yet
Preprocessing
9 pages
Handle Missing Data in Real-Time
No ratings yet
Handle Missing Data in Real-Time
5 pages
Machine Learning Record VR19
No ratings yet
Machine Learning Record VR19
46 pages
Python in Research
No ratings yet
Python in Research
18 pages
Train
No ratings yet
Train
17 pages
Python Syntax and Functions For Data Mining
No ratings yet
Python Syntax and Functions For Data Mining
6 pages
100 Days of Machine Learning
No ratings yet
100 Days of Machine Learning
14 pages
Data Cleaning - Cheatsheet
100% (2)
Data Cleaning - Cheatsheet
8 pages
ML Final Prac
No ratings yet
ML Final Prac
47 pages
Exercise 3
No ratings yet
Exercise 3
12 pages
Pandas DataFrame Notes
100% (1)
Pandas DataFrame Notes
10 pages
Data Preprocesing JavaPoint
No ratings yet
Data Preprocesing JavaPoint
19 pages
Exp3 Python
No ratings yet
Exp3 Python
15 pages
ML 1-10
No ratings yet
ML 1-10
53 pages
23BCE7199 ML Lab Assignment
No ratings yet
23BCE7199 ML Lab Assignment
15 pages
Data Science Foundations
No ratings yet
Data Science Foundations
58 pages
IBT DNA Seq Analysis
No ratings yet
IBT DNA Seq Analysis
38 pages
IBT - 2025 Introduction Part5 - Video Instructions - 4
No ratings yet
IBT - 2025 Introduction Part5 - Video Instructions - 4
3 pages
Day 2-RPL Practitioners Training-Counselling & Facilitationst
No ratings yet
Day 2-RPL Practitioners Training-Counselling & Facilitationst
33 pages
Georgia Habitats Lesson Plan: Standards
No ratings yet
Georgia Habitats Lesson Plan: Standards
3 pages
The Roles of A Pharmacistat Ministry Level
No ratings yet
The Roles of A Pharmacistat Ministry Level
14 pages
District One Residences g12 Brochure
No ratings yet
District One Residences g12 Brochure
31 pages
2123imguf ESE 2023 Mains Offline-Test Series
No ratings yet
2123imguf ESE 2023 Mains Offline-Test Series
9 pages
SPES FORM 1 - PLEDGE OF COMMITMENT - Dec2016.final
No ratings yet
SPES FORM 1 - PLEDGE OF COMMITMENT - Dec2016.final
1 page
Lifting Plan 2016
100% (1)
Lifting Plan 2016
4 pages
CNC Writing Machine Project
No ratings yet
CNC Writing Machine Project
23 pages
Electrical Circuits Lab Guide
No ratings yet
Electrical Circuits Lab Guide
51 pages
Business Ethics for Grade 12 Students
No ratings yet
Business Ethics for Grade 12 Students
9 pages
Indian Railways Overview
No ratings yet
Indian Railways Overview
10 pages
Revision Activities Term 3
No ratings yet
Revision Activities Term 3
3 pages
Physician Certification Form
No ratings yet
Physician Certification Form
2 pages
8 - Attitudes and Persuasive Communication
No ratings yet
8 - Attitudes and Persuasive Communication
26 pages
P2BE 300-SRB-SRE - Roller Bearing Units - SKF
No ratings yet
P2BE 300-SRB-SRE - Roller Bearing Units - SKF
8 pages
CH 4 - Professional Ethics - Test Your Understanding - Q N Ans
No ratings yet
CH 4 - Professional Ethics - Test Your Understanding - Q N Ans
35 pages
Final Project and Documentary
No ratings yet
Final Project and Documentary
21 pages
O2 21 Day Workout
No ratings yet
O2 21 Day Workout
7 pages
Torts & Damages: Law Student Guide
100% (1)
Torts & Damages: Law Student Guide
200 pages
OBIEE Material
No ratings yet
OBIEE Material
117 pages
(08.03.2025) MTC 316L-2B 3 X 1500 X C X 8664KG - POSCO
No ratings yet
(08.03.2025) MTC 316L-2B 3 X 1500 X C X 8664KG - POSCO
1 page
Placental Examination
No ratings yet
Placental Examination
7 pages
General Medicine Assignment - ADGN 2
No ratings yet
General Medicine Assignment - ADGN 2
3 pages
IT Data Visualization Guide
No ratings yet
IT Data Visualization Guide
17 pages
Asian Girl Gand Moti Wala Us5853
No ratings yet
Asian Girl Gand Moti Wala Us5853
3 pages
Contoh RPP Adiwiyata
No ratings yet
Contoh RPP Adiwiyata
5 pages
Lotawata Creek Menu Highlights
No ratings yet
Lotawata Creek Menu Highlights
2 pages
Virtual University Project - SRS
No ratings yet
Virtual University Project - SRS
25 pages
Transition Metals Overview
No ratings yet
Transition Metals Overview
5 pages
The Emperor's New Sonnet
No ratings yet
The Emperor's New Sonnet
1 page
Summary of Glycopeptides and Aminoglycosides
No ratings yet
Summary of Glycopeptides and Aminoglycosides
2 pages

Enda Practical 3 Explanation One

Uploaded by

Enda Practical 3 Explanation One

Uploaded by

Let's break this down step by step:

## **1. Importing Necessary Libraries**

import pandas as pd # Importing pandas for data manipulation

import numpy as np # Importing numpy for numerical computations

from sklearn.preprocessing import StandardScaler, MinMaxScaler, LabelEncoder,

from sklearn.model_selection import train_test_split

matrices, and mathematical functions.

- `StandardScaler`: Standardizes data by removing the mean and scaling to unit

- `MinMaxScaler`: Scales data to a fixed range, usually [0,1].

- `LabelEncoder`: Converts categorical labels into numeric values.

- `OneHotEncoder`: Encodes categorical variables as binary vectors.

## **2. Loading the Dataset**

- Reads a CSV (Comma-Separated Values) file into a pandas `DataFrame`.

- `df` is now a tabular dataset.

### **Displaying Data**

print("Orignal Data :")

print(df.head()) # Displays the first 5 rows

print(df.head()) # Again displays the first 5 rows

print(df.tail()) # Displays the last 5 rows

print(df.tail(15)) # Displays the last 15 rows

print(df.head(30)) # Displays the first 30 rows

print(df.head(15)) # Displays the first 15 rows

- `df.head(n)`: Shows the first `n` rows (default: 5).

- The redundant print statements might be unintentional.

## **3. Handling Missing Values**

print("\nChecking for missing values:")

print(df.isnull().sum()) # Count missing values per column

df = df.dropna() # Drops rows with missing values

- `df.isnull().sum()`: Checks how many missing values each column has.

- `df.dropna()`: Removes rows with missing values.

_(Alternative: `df.fillna(value)` fills missing values with a specified value.)_

## **4. Handling Duplicates**

print("\nchecking for duplicates:")

print(df.duplicated().sum()) # Counts duplicate rows

df = df.drop_duplicates() # Removes duplicate rows

- `df.drop_duplicates()`: Removes duplicate rows.

## **5. Encoding Categorical Variables**

print("\nEncoding categorical variables:")

categorical_cols = df.select_dtypes(include=['object']).columns # Selecting categorical

for col in categorical_cols:

df[col] = le.fit_transform(df[col]) # Apply Label Encoding

print(df.head()) # Display transformed dataset

- `df.select_dtypes(include=['object']).columns`: Finds all categorical columns.

- Converts categorical data (text) into numbers.

- Example: `['Apple', 'Banana', 'Cherry'] → [0, 1, 2]`.

- The encoded values replace the original categorical values.

## **6. Feature Scaling**

print("\nApplying feature scaling:")

numeric_cols = df.select_dtypes(include=[np.number]).columns # Selecting numeric

scaler = StandardScaler() # Initializing Standard Scaler

df[numeric_cols] = scaler.fit_transform(df[numeric_cols]) # Standardizing numerical

print(df.head()) # Display scaled dataset

- `df.select_dtypes(include=[np.number]).columns`: Finds all numeric columns.

- Standardizes data: `(value - mean) / standard deviation`

- Ensures all features have a mean of 0 and standard deviation of 1.

- **Effect**: Prevents large numerical values from dominating smaller ones.

## **7. Splitting Dataset into Training and Testing Sets**

print("\nSplitting dataset into training and testing sets:")

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Training set size: {X_train.shape}, Testing set size: {X_test.shape}")

- `X = df.drop(columns=['Series_reference'])`: Features (independent variables).

- `y = df['Series_reference']`: Target variable (dependent variable).

- `train_test_split(X, y, test_size=0.2, random_state=42)`:

- Splits the dataset into:

- `80%` training (`X_train`, `y_train`)

- `20%` testing (`X_test`, `y_test`)

- `random_state=42` ensures reproducibility.

## **8. Completion Message**

print("\nData Preprocessing Completed!")

- Confirms that data preprocessing is finished.

### **What does this script do?**

2. **Loads a CSV file** into a `pandas` DataFrame.

3. **Displays different sections** of the dataset.

4. **Handles missing values** by removing rows with `NaN`s.

5. **Removes duplicate rows** to avoid redundant data.

6. **Encodes categorical variables** into numerical values.

## 1. Importing Necessary Libraries

## 2. Loading the Dataset

### Displaying Data

## 3. Handling Missing Values

## 4. Handling Duplicates

## 5. Encoding Categorical Variables

## 6. Feature Scaling

- Effect: Prevents large numerical values from dominating smaller ones.

## 7. Splitting Dataset into Training and Testing Sets

## 8. Completion Message

### What does this script do?

2. Loads a CSV file into a `pandas` DataFrame.

3. Displays different sections of the dataset.

4. Handles missing values by removing rows with `NaN`s.

5. Removes duplicate rows to avoid redundant data.

6. Encodes categorical variables into numerical values.

7. Standardizes numerical data for consistency.

8. Splits the dataset into training and testing sets.