0% found this document useful (0 votes)

553 views5 pages

Email Classification: Roll No-41463 (LP-3)

The document discusses classifying emails using binary classification with K-Nearest Neighbors and Support Vector Machine models. It analyzes the performance of these models on an email spam classification dataset from Kaggle. For KNN, the accuracy was 87% and for SVM the accuracy was 93%, showing SVM had slightly better performance on this task.

Uploaded by

fgfsgsg

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

553 views5 pages

Email Classification: Roll No-41463 (LP-3)

Uploaded by

fgfsgsg

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

Roll No- 41463 (LP-3)

Email Classification

Classify the email using binary classification method. Email Spam detection has two
states: a) Normal State Not Spam b) Abnormal State Spam. Use K-Nearest Neighbors and
Support Vector Machine for Classification. Analyze their performance.

Dataset used: https://www.kaggle.com/datasets/balaka18/email-spam-classification-dataset-csv

(https://www.kaggle.com/datasets/balaka18/email-spam-classification-dataset-csv)

In [1]: import numpy as np

import pandas as pd

from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.metrics import mean_squared_error,mean_absolute_error
from sklearn.metrics import accuracy_score

In [2]: df = pd.read_csv("emails.csv")
df.head()

Out[2]:
Email
the to ect and for of a you hou ... connevey jay valued lay infrastructu
No.

Email
0 0 0 1 0 0 0 2 0 0 ... 0 0 0 0
1

Email
1 8 13 24 6 6 2 102 1 27 ... 0 0 0 0
2

Email
2 0 0 1 0 0 0 8 0 0 ... 0 0 0 0
3

Email
3 0 5 22 0 5 1 51 2 10 ... 0 0 0 0
4

Email
4 7 6 17 1 5 2 57 0 9 ... 0 0 0 0
5

5 rows × 3002 columns

In [3]: df.tail()

Out[3]:
Email
the to ect and for of a you hou ... connevey jay valued lay infrastru
No.

Email
5167 2 2 2 3 0 0 32 0 0 ... 0 0 0 0
5168

Email
5168 35 27 11 2 6 5 151 4 3 ... 0 0 0 0
5169

Email
5169 0 0 1 1 0 0 11 0 0 ... 0 0 0 0
5170

Email
5170 2 7 1 0 2 1 28 2 0 ... 0 0 0 0
5171

Email
5171 22 24 5 1 6 5 148 8 2 ... 0 0 0 0
5172

5 rows × 3002 columns

In [4]: df.info()

RangeIndex: 5172 entries, 0 to 5171

Columns: 3002 entries, Email No. to Prediction

dtypes: int64(3001), object(1)

memory usage: 118.5+ MB

In [5]: df.describe()

Out[5]:
the to ect and for of

count 5172.000000 5172.000000 5172.000000 5172.000000 5172.000000 5172.000000 5172.00000

mean 6.640565 6.188128 5.143852 3.075599 3.124710 2.627030 55.51740

std 11.745009 9.534576 14.101142 6.045970 4.680522 6.229845 87.57417

min 0.000000 0.000000 1.000000 0.000000 0.000000 0.000000 0.00000

25% 0.000000 1.000000 1.000000 0.000000 1.000000 0.000000 12.00000

50% 3.000000 3.000000 1.000000 1.000000 2.000000 1.000000 28.00000

75% 8.000000 7.000000 4.000000 3.000000 4.000000 2.000000 62.25000

max 210.000000 132.000000 344.000000 89.000000 47.000000 77.000000 1898.00000

8 rows × 3001 columns

In [6]: df.isnull().sum()

Out[6]: Email No. 0

the 0

to 0

ect 0

and 0

for 0

of 0

a 0

you 0

hou 0

in 0

on 0

is 0

this 0

enron 0

i 0

be 0

that 0

will 0

have 0

with 0

your 0

at 0

we 0

s 0

are 0

it 0

by 0

com 0

as 0

decisions 0

produced 0

ended 0

greatest 0

degree 0

solmonson 0

imbalances 0

fall 0

fear 0

hate 0

fight 0

reallocated 0

debt 0

reform 0

australia 0

plain 0

prompt 0

remains 0

ifhsc 0

enhancements 0

connevey 0

jay 0

valued 0

lay 0

infrastructure 0

military 0

allowing 0

ff 0

dry 0

Prediction 0

Length: 3002, dtype: int64

Splitting Train and Test dataset

In [7]: x = df.iloc[:,1:3001]
y = df.iloc[:,-1].values

In [8]: x_train, x_test, y_train, y_test = train_test_split(x,y, test_size=0.2,

a) Using K-Nearest Neighbours

In [9]: knn = KNeighborsClassifier(n_neighbors=8)
knn.fit(x_train, y_train)
y_pred = knn.predict(x_test)

In [ ]:

Analyzing performance

In [10]: print("MSE: ", mean_squared_error(y_test, y_pred))

print("MAE: ", mean_absolute_error(y_test, y_pred))
print("RMSE: ", np.sqrt(mean_squared_error(y_test, y_pred)))
print("R2 Score: ", metrics.r2_score(y_test, y_pred))
print("Accuracy Score for KNN: ", accuracy_score(y_test, y_pred))

MSE: 0.12560386473429952

MAE: 0.12560386473429952

RMSE: 0.3544063553807966

R2 Score: 0.40780091899790494

Accuracy Score for KNN: 0.8743961352657005

b) Using Support Vector Machine(SVM)

In [11]: svc = SVC(C=1.0, gamma='auto', kernel='rbf')
svc.fit(x_test, y_test)
y_pred = svc.predict(x_test)

Analyzing Performance
In [12]: print("MSE: ", mean_squared_error(y_test, y_pred))
print("MAE: ", mean_absolute_error(y_test, y_pred))
print("RMSE: ", np.sqrt(mean_squared_error(y_test, y_pred)))
print("R2 Score: ", metrics.r2_score(y_test, y_pred))
print("Accuracy Score for KNN: ", accuracy_score(y_test, y_pred))

MSE: 0.07149758454106281

MAE: 0.07149758454106281

RMSE: 0.2673903224521464

R2 Score: 0.6629020615834228

Accuracy Score for KNN: 0.9285024154589372

In [ ]:

Exercise 1: Case Study
No ratings yet
Exercise 1: Case Study
2 pages
Unit I - Data Science
No ratings yet
Unit I - Data Science
161 pages
FIND-S Algorithm: Machine Learning 15CSL76
No ratings yet
FIND-S Algorithm: Machine Learning 15CSL76
3 pages
Question Bank: T.E. (Computer Engineering) Data Science and Big Data Analytics (2019 Pattern)
No ratings yet
Question Bank: T.E. (Computer Engineering) Data Science and Big Data Analytics (2019 Pattern)
4 pages
R & Python Programming Tasks
No ratings yet
R & Python Programming Tasks
15 pages
DAA SPPU Paper
100% (3)
DAA SPPU Paper
2 pages
COMPUTER GRAPHICS & Multimedia Syllabus
No ratings yet
COMPUTER GRAPHICS & Multimedia Syllabus
3 pages
Data Science & Big Data Lab Manual
No ratings yet
Data Science & Big Data Lab Manual
117 pages
Experiment-7: Implementation of K-Means Clustering Algorithm
No ratings yet
Experiment-7: Implementation of K-Means Clustering Algorithm
3 pages
Bcs054 Object Oriented System Design With C
0% (1)
Bcs054 Object Oriented System Design With C
2 pages
Week 7 Assignment 1
No ratings yet
Week 7 Assignment 1
6 pages
Data Analytics Lab File Rohit
No ratings yet
Data Analytics Lab File Rohit
23 pages
DCDR Question Bank
No ratings yet
DCDR Question Bank
4 pages
Mini Project HPC
No ratings yet
Mini Project HPC
17 pages
R Factors and Tables Guide
No ratings yet
R Factors and Tables Guide
10 pages
Anubhav Singh: Tech Portfolio & Projects
No ratings yet
Anubhav Singh: Tech Portfolio & Projects
1 page
Concept Learning
No ratings yet
Concept Learning
62 pages
Siddharth Arya 76 ML Practical File
No ratings yet
Siddharth Arya 76 ML Practical File
30 pages
Unit-5 Computer Vision (Ai)
No ratings yet
Unit-5 Computer Vision (Ai)
14 pages
Lab Manual - LP2 - Sem - II - 2022 - 23
No ratings yet
Lab Manual - LP2 - Sem - II - 2022 - 23
91 pages
Sample Report 22-23 1
No ratings yet
Sample Report 22-23 1
30 pages
Mini Project B.tech
100% (1)
Mini Project B.tech
15 pages
NPTEL Domain
No ratings yet
NPTEL Domain
1 page
Artificial Intelligence Final
No ratings yet
Artificial Intelligence Final
4 pages
ML LAB Viva Questions With Answers
No ratings yet
ML LAB Viva Questions With Answers
10 pages
Co-Po & Pso SPM - 2023
No ratings yet
Co-Po & Pso SPM - 2023
16 pages
Compiler Design MCQ - Javatpoint
No ratings yet
Compiler Design MCQ - Javatpoint
1 page
Data Base Management System - Unit 8 - Week 6
No ratings yet
Data Base Management System - Unit 8 - Week 6
7 pages
Module-1: Review Questions: Automata Theory and Computability - 15CS54
No ratings yet
Module-1: Review Questions: Automata Theory and Computability - 15CS54
4 pages
Session 02
No ratings yet
Session 02
16 pages
ESDL Lab Manual
No ratings yet
ESDL Lab Manual
7 pages
BI Practical No.1
No ratings yet
BI Practical No.1
11 pages
Drivers For Big Data
No ratings yet
Drivers For Big Data
7 pages
Unit-4 DS Student
No ratings yet
Unit-4 DS Student
43 pages
DBDAL LAB - MANUAL - Final
No ratings yet
DBDAL LAB - MANUAL - Final
93 pages
Viewing: 1. Classical and Computer Viewing
No ratings yet
Viewing: 1. Classical and Computer Viewing
5 pages
5.knowledge Acquisition in Artificial Intelligence
No ratings yet
5.knowledge Acquisition in Artificial Intelligence
19 pages
Nptel - Python For Data Science: Assignment 1 - Solution
No ratings yet
Nptel - Python For Data Science: Assignment 1 - Solution
3 pages
Session 13 AO Memory Bounded Heuristic Search Heuristic Functions
No ratings yet
Session 13 AO Memory Bounded Heuristic Search Heuristic Functions
22 pages
Practical 3 ANN
No ratings yet
Practical 3 ANN
3 pages
Notes of Data Science Unit 3
No ratings yet
Notes of Data Science Unit 3
22 pages
Artifical Intelligence and Machine Learning Lab
No ratings yet
Artifical Intelligence and Machine Learning Lab
109 pages
Practical No 07: Graphics Concepts in PHP
No ratings yet
Practical No 07: Graphics Concepts in PHP
6 pages
WS MCQ (Sem-5) (Itscholar - Codegency.co - In) (MC)
No ratings yet
WS MCQ (Sem-5) (Itscholar - Codegency.co - In) (MC)
22 pages
Vtu 5th Sem Cse Computer Networks
No ratings yet
Vtu 5th Sem Cse Computer Networks
91 pages
HN DAA 15CS43 LectureNotes 1
20% (5)
HN DAA 15CS43 LectureNotes 1
28 pages
Data Science Laboratory Lab Manual: Prepared by Dr. R Obulakonda Reddy, Associate Professor
No ratings yet
Data Science Laboratory Lab Manual: Prepared by Dr. R Obulakonda Reddy, Associate Professor
35 pages
Transfer Learning Seminar
No ratings yet
Transfer Learning Seminar
12 pages
1) Aim: Demonstration of Preprocessing of Dataset Student - Arff
No ratings yet
1) Aim: Demonstration of Preprocessing of Dataset Student - Arff
26 pages
Data Analytics Question Bank
No ratings yet
Data Analytics Question Bank
4 pages
Excel Guide for Data Analysts
No ratings yet
Excel Guide for Data Analysts
62 pages
Theory of Computation Assignments
No ratings yet
Theory of Computation Assignments
6 pages
Object Detection With Tracking and Counting Object Using Machine Learning in Python
No ratings yet
Object Detection With Tracking and Counting Object Using Machine Learning in Python
54 pages
Chapter 5
No ratings yet
Chapter 5
92 pages
Unit-2 Solution
No ratings yet
Unit-2 Solution
22 pages
Data Analytics With R - BDS306C - LAB - Full
No ratings yet
Data Analytics With R - BDS306C - LAB - Full
61 pages
Model Evaluation-I
No ratings yet
Model Evaluation-I
68 pages
Ad3381 - Data Base Design and Management Manual
No ratings yet
Ad3381 - Data Base Design and Management Manual
56 pages
Assignment 11
100% (1)
Assignment 11
4 pages
SPPUML2
No ratings yet
SPPUML2
7 pages
Rebar Bending Schedule Guide
No ratings yet
Rebar Bending Schedule Guide
3 pages
Federated Level 4 Test
No ratings yet
Federated Level 4 Test
2 pages
F5C1 (Tutorial1 1)
No ratings yet
F5C1 (Tutorial1 1)
2 pages
Database Structure of Accounting Systems
67% (3)
Database Structure of Accounting Systems
4 pages
Internet Computer Mcqs
No ratings yet
Internet Computer Mcqs
18 pages
Stepper Motor Drive Circuit: Features Description
No ratings yet
Stepper Motor Drive Circuit: Features Description
9 pages
Informacast Over Sip
No ratings yet
Informacast Over Sip
8 pages
User's Manual: 1-800-HEATH-US
No ratings yet
User's Manual: 1-800-HEATH-US
35 pages
Fluid Dynamics: Boundary Layer Analysis
No ratings yet
Fluid Dynamics: Boundary Layer Analysis
4 pages
LUTEC AUSTRALIA PTY LTD Displays Prototypes That Amplifying Electricity by 5 Times
No ratings yet
LUTEC AUSTRALIA PTY LTD Displays Prototypes That Amplifying Electricity by 5 Times
1 page
Engineering Problem Solving With C United States Edition Paperback Delores M. Etter Instant Download
No ratings yet
Engineering Problem Solving With C United States Edition Paperback Delores M. Etter Instant Download
52 pages
Anna Univ Nov/Dec 2023 Exam Schedule
No ratings yet
Anna Univ Nov/Dec 2023 Exam Schedule
108 pages
Paper DFS MIT Solving The "False Positives" Problem in Fraud Prediction
No ratings yet
Paper DFS MIT Solving The "False Positives" Problem in Fraud Prediction
14 pages
Rocket Nozzle Design & Analysis
No ratings yet
Rocket Nozzle Design & Analysis
9 pages
2ceit402 Design and Analysis of Algorithms Ce It Ceai
No ratings yet
2ceit402 Design and Analysis of Algorithms Ce It Ceai
2 pages
Horizontal Alignment: Arvie John D. Inderes
No ratings yet
Horizontal Alignment: Arvie John D. Inderes
26 pages
Math 0482 - Chapter 11
No ratings yet
Math 0482 - Chapter 11
25 pages
11 Computer Science
No ratings yet
11 Computer Science
4 pages
DLL Math 7 March 6-10, 2023
No ratings yet
DLL Math 7 March 6-10, 2023
6 pages
Carbomers Theory
100% (1)
Carbomers Theory
16 pages
117-101 Level 1
0% (1)
117-101 Level 1
71 pages
KDC-MP245 KDC-MP145 KDC-MP145CR: Instruction Manual Mode D'Emploi Manual de Instrucciones
No ratings yet
KDC-MP245 KDC-MP145 KDC-MP145CR: Instruction Manual Mode D'Emploi Manual de Instrucciones
56 pages
Single Index Model
100% (1)
Single Index Model
3 pages
Infosys Campus Recruitment Program Eligibility Criteria For BCA and BSC Graduates
No ratings yet
Infosys Campus Recruitment Program Eligibility Criteria For BCA and BSC Graduates
2 pages
Iocl Training Report
No ratings yet
Iocl Training Report
10 pages
RSVP Valleylab Covidien
No ratings yet
RSVP Valleylab Covidien
60 pages
Finance For Strategic Management
No ratings yet
Finance For Strategic Management
28 pages
Synthesis and Characterization of Silica Nanoparticles From Clay
No ratings yet
Synthesis and Characterization of Silica Nanoparticles From Clay
7 pages
Mini Milling Machine
No ratings yet
Mini Milling Machine
4 pages
Chapter 4 - Graphs of Trigonometric Functions
No ratings yet
Chapter 4 - Graphs of Trigonometric Functions
6 pages

Email Classification: Roll No-41463 (LP-3)

Uploaded by

Email Classification: Roll No-41463 (LP-3)

Uploaded by

Roll No- 41463 (LP-3)

Dataset used: https://www.kaggle.com/datasets/balaka18/email-spam-classification-dataset-csv

In [1]: import numpy as np

5 rows × 3002 columns

5 rows × 3002 columns

RangeIndex: 5172 entries, 0 to 5171

Columns: 3002 entries, Email No. to Prediction

dtypes: int64(3001), object(1)

memory usage: 118.5+ MB

count 5172.000000 5172.000000 5172.000000 5172.000000 5172.000000 5172.000000 5172.00000

mean 6.640565 6.188128 5.143852 3.075599 3.124710 2.627030 55.51740

std 11.745009 9.534576 14.101142 6.045970 4.680522 6.229845 87.57417

min 0.000000 0.000000 1.000000 0.000000 0.000000 0.000000 0.00000

25% 0.000000 1.000000 1.000000 0.000000 1.000000 0.000000 12.00000

50% 3.000000 3.000000 1.000000 1.000000 2.000000 1.000000 28.00000

75% 8.000000 7.000000 4.000000 3.000000 4.000000 2.000000 62.25000

max 210.000000 132.000000 344.000000 89.000000 47.000000 77.000000 1898.00000

8 rows × 3001 columns

Out[6]: Email No. 0

Length: 3002, dtype: int64

Splitting Train and Test dataset

In [8]: x_train, x_test, y_train, y_test = train_test_split(x,y, test_size=0.2,

a) Using K-Nearest Neighbours

In [10]: print("MSE: ", mean_squared_error(y_test, y_pred))

Accuracy Score for KNN: 0.8743961352657005

b) Using Support Vector Machine(SVM)

Accuracy Score for KNN: 0.9285024154589372

You might also like