0% found this document useful (0 votes)

28 views5 pages

ML 8 Program

The document outlines an experiment focused on applying four data preprocessing techniques: attribute selection, handling missing values, discretization, and elimination of outliers using Python libraries. Each technique is demonstrated with sample code, including the use of SelectKBest for feature selection, SimpleImputer for filling missing values, KBinsDiscretizer for discretization, and IQR for outlier removal. The document provides detailed explanations and code snippets for each preprocessing step.

Uploaded by

praveenveerepalli729

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

28 views5 pages

ML 8 Program

Uploaded by

praveenveerepalli729

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

Experiment – 8

AIM : Apply the following Pre-Processing Techniques for given dataset

A. Attribute selection
B.Handling Missing values
C.Discretization
D.Elimination of Outliers
Description of the Preprocessing Program:
The provided program demonstrates four key data preprocessing techniques: attribute
selection, handling missing values, discretization, and elimination of outliers using Python's
popular libraries like pandas, numpy, and scikit-learn. Here's a detailed breakdown of each
step:

A. Attribute Selection

Attribute selection is a process of selecting relevant features from a given dataset to reduce
dimensionality and improve model performance. Here, we'll use SelectKBest from the
sklearn.feature_selection library to select the top k features.

Code:

python

CopyEdit

from sklearn.feature_selection import SelectKBest, f_classif

from sklearn.datasets import load_iris

import pandas as pd

# Load dataset (Iris dataset for example)

data = load_iris()

X = data.data

y = data.target

# Apply SelectKBest

selector = SelectKBest(f_classif, k=2) # Select top 2 features

X_new = selector.fit_transform(X, y)
# Print selected features

print("Selected Features:")

print(X_new)

Output:

Selected Features:

[[5.1 3.5]

[4.9 3.0]

[4.7 3.2]

...

B. Handling Missing Values

Handling missing values involves replacing or removing missing data points. We can use
SimpleImputer from sklearn.impute to fill missing values.

Code:

python

CopyEdit

import pandas as pd

from sklearn.impute import SimpleImputer

# Sample dataset with missing values

data = {'age': [25, 30, None, 35, 40],

'salary': [50000, 60000, 55000, None, 65000]}

df = pd.DataFrame(data)

# Handle missing values by filling with mean

imputer = SimpleImputer(strategy='mean')

df_imputed = imputer.fit_transform(df)

# Output the imputed dataframe

df_imputed = pd.DataFrame(df_imputed, columns=df.columns)

print(df_imputed)
Output:

age salary

0 25.0 50000.0

1 30.0 60000.0

2 32.5 55000.0

3 35.0 58750.0

4 40.0 65000.0

C. Discretization

Discretization involves converting continuous features into discrete bins. We can use KBinsDiscretizer
from sklearn.preprocessing for this.

Code:

from sklearn.preprocessing import KBinsDiscretizer

import numpy as np

# Sample dataset (age)

data = np.array([[18], [25], [30], [40], [60]])

# Apply discretization (into 3 bins)

scaler = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')

data_binned = scaler.fit_transform(data)

# Output the binned data

print("Binned Data:")

print(data_binned)

Output:

Binned Data:

[[0.]

[0.]

[1.]

[2.]

[2.]]
D. Elimination of Outliers

Eliminating outliers can be done by removing data points that fall outside a specific range (e.g.,
beyond 1.5 times the interquartile range). Here is an example using IQR for outlier removal.

Code:

python

CopyEdit

import numpy as np

import pandas as pd

# Sample data with outliers

data = {'age': [25, 30, 35, 1000, 40, 50, 60, 10000]}

df = pd.DataFrame(data)

# Calculate Q1 (25th percentile) and Q3 (75th percentile)

Q1 = df['age'].quantile(0.25)

Q3 = df['age'].quantile(0.75)

IQR = Q3 - Q1

# Define outlier range

lower_bound = Q1 - 1.5 * IQR

upper_bound = Q3 + 1.5 * IQR

# Eliminate outliers

df_no_outliers = df[(df['age'] >= lower_bound) & (df['age'] <= upper_bound)]

# Output the dataset without outliers

print("Dataset without outliers:")

print(df_no_outliers)
Output:

Dataset without outliers:

age

0 25

1 30

2 35

4 40

5 50

6 60

ML Ex2
No ratings yet
ML Ex2
7 pages
ML LAB Manual-1
No ratings yet
ML LAB Manual-1
33 pages
Step-by-Step Explanation of Python Data Preprocessing Script
No ratings yet
Step-by-Step Explanation of Python Data Preprocessing Script
9 pages
Data - Analytics Lab - Manual JNTUH R22 Regulation
No ratings yet
Data - Analytics Lab - Manual JNTUH R22 Regulation
26 pages
Data Mining Lab 03
No ratings yet
Data Mining Lab 03
10 pages
Data Analytics Lab Manual - 250402 - 095326
No ratings yet
Data Analytics Lab Manual - 250402 - 095326
58 pages
Edp 3
No ratings yet
Edp 3
16 pages
Statistics IMP Questions and Answers
No ratings yet
Statistics IMP Questions and Answers
23 pages
DS Problem Statements and Codes
No ratings yet
DS Problem Statements and Codes
21 pages
DataAnalytics Lab Manual
No ratings yet
DataAnalytics Lab Manual
35 pages
Assignment 2 Ds
No ratings yet
Assignment 2 Ds
8 pages
DA Lab
No ratings yet
DA Lab
27 pages
Data Analytics Lab Manual
No ratings yet
Data Analytics Lab Manual
47 pages
Data Preprocessing Techniques in ML
No ratings yet
Data Preprocessing Techniques in ML
12 pages
Machine Learning Lab File
No ratings yet
Machine Learning Lab File
45 pages
Module 3
No ratings yet
Module 3
108 pages
Unit 2 Dpa Programs
No ratings yet
Unit 2 Dpa Programs
7 pages
Da Program Upto 6
No ratings yet
Da Program Upto 6
20 pages
Exp 2
No ratings yet
Exp 2
6 pages
AIML
No ratings yet
AIML
13 pages
Handle Missing Data in Real-Time
No ratings yet
Handle Missing Data in Real-Time
5 pages
Group A Assignment No2 Writeup
No ratings yet
Group A Assignment No2 Writeup
9 pages
Dsi237 Group 2
No ratings yet
Dsi237 Group 2
27 pages
Eda U2
No ratings yet
Eda U2
141 pages
ASSi2 DSBDA
No ratings yet
ASSi2 DSBDA
4 pages
DA Programs
No ratings yet
DA Programs
44 pages
Résumé-Analyse Des Données Resumee Resumee
No ratings yet
Résumé-Analyse Des Données Resumee Resumee
4 pages
Exp-2 ML
No ratings yet
Exp-2 ML
6 pages
Da Rec
No ratings yet
Da Rec
29 pages
Abhiml ML File
No ratings yet
Abhiml ML File
74 pages
Data Preprocessing Example Programs1
No ratings yet
Data Preprocessing Example Programs1
9 pages
ML Self Unit 2
No ratings yet
ML Self Unit 2
20 pages
DSBDA Lab Assignment No 2
No ratings yet
DSBDA Lab Assignment No 2
7 pages
Data Preprocessing 1
No ratings yet
Data Preprocessing 1
6 pages
PP DWDM 4 5
No ratings yet
PP DWDM 4 5
26 pages
ML Lab Records
No ratings yet
ML Lab Records
101 pages
Data Assigment 1
100% (2)
Data Assigment 1
32 pages
Bussiness Report PM
No ratings yet
Bussiness Report PM
44 pages
Practical Guide and Concepts Data Mining
No ratings yet
Practical Guide and Concepts Data Mining
63 pages
Advance Python
No ratings yet
Advance Python
5 pages
MACHINE LEARNING Manual
No ratings yet
MACHINE LEARNING Manual
36 pages
Slides On DataII
No ratings yet
Slides On DataII
26 pages
Scikit Hca
No ratings yet
Scikit Hca
8 pages
DP Prog
No ratings yet
DP Prog
10 pages
04 DS 2023
No ratings yet
04 DS 2023
63 pages
ML Notes
No ratings yet
ML Notes
44 pages
ML Lab Manual 2025-2
No ratings yet
ML Lab Manual 2025-2
35 pages
Data Preprocessing
No ratings yet
Data Preprocessing
56 pages
Part A Assignment 6
No ratings yet
Part A Assignment 6
28 pages
Data Mining Lab Manual CSE VII Sem
No ratings yet
Data Mining Lab Manual CSE VII Sem
63 pages
Data Visualization & Preprocessing Guide
No ratings yet
Data Visualization & Preprocessing Guide
18 pages
Data Pre Processing
No ratings yet
Data Pre Processing
2 pages
Study Material For Machine Learning - 1 - 1754721598318
No ratings yet
Study Material For Machine Learning - 1 - 1754721598318
18 pages
Data Wrangling and Preprocessing
100% (1)
Data Wrangling and Preprocessing
41 pages
Dmdw-Lab Manual
No ratings yet
Dmdw-Lab Manual
61 pages
Data Prep for ML Beginners
No ratings yet
Data Prep for ML Beginners
39 pages
Project Paarth
No ratings yet
Project Paarth
21 pages
Machine Learning File
No ratings yet
Machine Learning File
28 pages
DWDM Lab Manual
No ratings yet
DWDM Lab Manual
32 pages
Cps-Assignment 2
No ratings yet
Cps-Assignment 2
1 page
ML Mania 2025
No ratings yet
ML Mania 2025
2 pages
2.naïve Bayes Classifier For Sms
No ratings yet
2.naïve Bayes Classifier For Sms
9 pages
ML-11 Experiment Support Vector Machine
No ratings yet
ML-11 Experiment Support Vector Machine
2 pages
ML Exer 3
No ratings yet
ML Exer 3
3 pages
Unit 4 ML
No ratings yet
Unit 4 ML
11 pages
ML Imp Questions Final
No ratings yet
ML Imp Questions Final
2 pages
Linear Vs Logistic Regression Comparison
No ratings yet
Linear Vs Logistic Regression Comparison
4 pages
Unit II 2 Mark Answers ML
No ratings yet
Unit II 2 Mark Answers ML
3 pages
Unit I 2 Mark Answers ML
No ratings yet
Unit I 2 Mark Answers ML
3 pages
P&S Assignment 3
No ratings yet
P&S Assignment 3
2 pages
P&s Unit-4 Assignment
No ratings yet
P&s Unit-4 Assignment
1 page
Vehicle Checklist
No ratings yet
Vehicle Checklist
9 pages
Corporate Finance Exam Guide
No ratings yet
Corporate Finance Exam Guide
7 pages
Jaguar Land Rover Acquisition Part 2
No ratings yet
Jaguar Land Rover Acquisition Part 2
29 pages
Full (Ebook PDF) Introduction To Health Policy, Second Edition PDF All Chapters
100% (2)
Full (Ebook PDF) Introduction To Health Policy, Second Edition PDF All Chapters
41 pages
Cmb16D-Qc DMX: 16 Channel DC Controller
No ratings yet
Cmb16D-Qc DMX: 16 Channel DC Controller
10 pages
Types of Trade Agreements Explained
100% (1)
Types of Trade Agreements Explained
3 pages
02 Task Performance 1
No ratings yet
02 Task Performance 1
4 pages
Lner Class A2
No ratings yet
Lner Class A2
3 pages
India Sugar Sector Report - Oct18
No ratings yet
India Sugar Sector Report - Oct18
37 pages
PRC Inv Ord Inv Pay
No ratings yet
PRC Inv Ord Inv Pay
23 pages
Evangelista vs. People PDF
No ratings yet
Evangelista vs. People PDF
10 pages
Production Technology For Successful Cultivation of Manila Tamarind (Pithecellobium Dulce (Roxb. Benth)
No ratings yet
Production Technology For Successful Cultivation of Manila Tamarind (Pithecellobium Dulce (Roxb. Benth)
4 pages
Advanced Hill Cipher Algorithm For Security Image
No ratings yet
Advanced Hill Cipher Algorithm For Security Image
9 pages
Project Report On Stress Management
89% (102)
Project Report On Stress Management
66 pages
Engineering Services Directives
No ratings yet
Engineering Services Directives
71 pages
Tamil Nadu Law Internship Diary
No ratings yet
Tamil Nadu Law Internship Diary
15 pages
Transformer Protection Fudamentals
No ratings yet
Transformer Protection Fudamentals
8 pages
Is Internet Exceptionalism Dead
No ratings yet
Is Internet Exceptionalism Dead
14 pages
Vehicle Diagnostic System of The Car Eng
No ratings yet
Vehicle Diagnostic System of The Car Eng
10 pages
Obduskey Brief in Opposition 17-1307
100% (1)
Obduskey Brief in Opposition 17-1307
30 pages
Experienced Sales & Recruitment Manager
No ratings yet
Experienced Sales & Recruitment Manager
5 pages
Deviare Assessments
No ratings yet
Deviare Assessments
1 page
Mathematical Modelling of Sampling Process
No ratings yet
Mathematical Modelling of Sampling Process
6 pages
Contract Law Quiz: True or False Statements
100% (1)
Contract Law Quiz: True or False Statements
6 pages
7MF Pressure Sensor Technical Instructions SEN-2000
No ratings yet
7MF Pressure Sensor Technical Instructions SEN-2000
5 pages
Final Project
No ratings yet
Final Project
20 pages
Intellectual Property Reviewer
No ratings yet
Intellectual Property Reviewer
7 pages
DAVID - v. - THE - STATE - 2000 - (2) - BLR - 142 - (CA) - HIV
No ratings yet
DAVID - v. - THE - STATE - 2000 - (2) - BLR - 142 - (CA) - HIV
5 pages
Fixed Asset Audits
No ratings yet
Fixed Asset Audits
8 pages

ML 8 Program

Uploaded by

ML 8 Program

Uploaded by

Experiment – 8

AIM : Apply the following Pre-Processing Techniques for given dataset

from sklearn.feature_selection import SelectKBest, f_classif

from sklearn.datasets import load_iris

# Load dataset (Iris dataset for example)

selector = SelectKBest(f_classif, k=2) # Select top 2 features

B. Handling Missing Values

from sklearn.impute import SimpleImputer

# Sample dataset with missing values

data = {'age': [25, 30, None, 35, 40],

'salary': [50000, 60000, 55000, None, 65000]}

# Handle missing values by filling with mean

# Output the imputed dataframe

df_imputed = pd.DataFrame(df_imputed, columns=df.columns)

from sklearn.preprocessing import KBinsDiscretizer

# Sample dataset (age)

data = np.array([[18], [25], [30], [40], [60]])

# Apply discretization (into 3 bins)

scaler = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')

# Output the binned data

# Sample data with outliers

# Calculate Q1 (25th percentile) and Q3 (75th percentile)

# Define outlier range

lower_bound = Q1 - 1.5 * IQR

upper_bound = Q3 + 1.5 * IQR

df_no_outliers = df[(df['age'] >= lower_bound) & (df['age'] <= upper_bound)]

# Output the dataset without outliers

print("Dataset without outliers:")

Dataset without outliers:

You might also like