0% found this document useful (0 votes)

48 views4 pages

Step 1: Finding The Data Set: "Amazon - Reviews - Multilingual - UK - v1 - 00.tsv - GZ" 'RT' "Utf8"

This document summarizes the steps taken in a machine learning project on an Amazon product review dataset. It explores the data, cleans it by converting fields and splits it into training and test sets. It defines features, fits a logistic regression model and calculates the accuracy, finding 76% on both training and test sets. It also calculates true/false metrics and error rates to evaluate the model.

Uploaded by

frankh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

48 views4 pages

Step 1: Finding The Data Set: "Amazon - Reviews - Multilingual - UK - v1 - 00.tsv - GZ" 'RT' "Utf8"

Uploaded by

frankh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

9/24/2020 course3project - Jupyter Notebook

Step 1: Finding the data set

This dataset is an amazon review data. The data set consists of multiple product reviews

In [1]:

import gzip
path = "amazon_reviews_multilingual_UK_v1_00.tsv.gz"
f = gzip.open(path, 'rt', encoding="utf8")

Step 2: Exploring the dataset

The data set consist of multiple entries in the form of market place, customer id etc. Each entitiy represents the
unique charactristics of the product

In [2]:

header = f.readline()
header = header.strip().split('\t')

print(header)

['marketplace', 'customer_id', 'review_id', 'product_id', 'product_parent',

'product_title', 'product_category', 'star_rating', 'helpful_votes', 'total_
votes', 'vine', 'verified_purchase', 'review_headline', 'review_body', 'revi
ew_date']

Step 3: Cleaning the dataset

Here typecasting is used to filter the data required and converting the boolean responses to true and false

In [3]:

dataset = []

In [4]:

for line in f:
fields = line.strip().split('\t')
d = dict(zip(header, fields))
d['star_rating'] = int(d['star_rating'])
d['helpful_votes'] = int(d['helpful_votes'])
d['total_votes'] = int(d['total_votes'])
for field in ['verified_purchase','vine']:
if d[field] == 'Y':
d[field]=True
else:
d[field]=False
dataset.append(d)

localhost:8891/notebooks/course3project.ipynb# 1/4
9/24/2020 course3project - Jupyter Notebook

In [5]:

dataset[20]

Out[5]:

{'marketplace': 'UK',
'customer_id': '20222',
'review_id': 'R3I6A1LWUUVBRE',
'product_id': 'B0002CVQCW',
'product_parent': '281008695',
'product_title': "Les Miserables 10th Anniversary Concert At The Royal Albe
rt Hall (2 Disc Collector's Edition) [DVD]",
'product_category': 'Video DVD',
'star_rating': 5,
'helpful_votes': 0,
'total_votes': 0,
'vine': False,
'verified_purchase': True,
'review_headline': 'some of the best voices in the world',
'review_body': 'I liked it so much I bought it twice just so that I could s
hare it with a friend. Excellant',
'review_date': '2013-02-26'}

Step 4: Dividing the data set

Here the dataset has been divided into two parts. First part is training set, which consists of 80 percentage of
data and the remaining will be used for testing

In [6]:

import random
random.shuffle(dataset)

N = len(dataset)
trainingSet = dataset[:4*N//5]
testingSet = dataset[4*N//5:]

print("Training Set: ",len(trainingSet), "\nTest Set: ",len(testingSet), "\nTotal no.of row

Training Set: 1365995

Test Set: 341499
Total no.of rows 1707494

Step 5: Performing basic operation and refining and

evaluating the model

localhost:8891/notebooks/course3project.ipynb# 2/4
9/24/2020 course3project - Jupyter Notebook

In [7]:

# Defining the feature function and the implementation will be based on star rating and len
from collections import defaultdict
from nltk.stem.porter import PorterStemmer
import string
wordCount = defaultdict(int)
stemmer = PorterStemmer() #use stemmer.stem(stuff)
for d in trainingSet:
f = ''.join([x for x in d['review_body'].lower() if not x in string.punctuation])
for w in f.split():
w = stemmer.stem(w) # with stemming
wordCount[w]+=1

def feature(dat):
feat = [1, dat['star_rating'], len(wordCount)]
return feat

Fitting the model through

creating a vector feature creating a label vector defining a logistic regeression model and fitting the model

In [8]:

from sklearn import preprocessing

from sklearn import linear_model
X_train = [feature(d) for d in trainingSet]
y_train = [d['verified_purchase'] for d in trainingSet]

X_test = [feature(d) for d in testingSet]

y_test = [d['verified_purchase'] for d in testingSet]

scaler = preprocessing.StandardScaler().fit(X_train)
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

# print("Label: ", y[:100], "\nFeatures:", X[:10])

model = linear_model.LogisticRegression()
model.fit(X_train_scaled, y_train)

Out[8]:

LogisticRegression()

Calculating the accuracy of the model

localhost:8891/notebooks/course3project.ipynb# 3/4
9/24/2020 course3project - Jupyter Notebook

In [9]:

from sklearn.metrics import confusion_matrix

predictions_train = model.predict(X_train_scaled)
predictions_test = model.predict(X_test_scaled)

correctPredictions_train = predictions_train == y_train

correctPredictions_test = predictions_test == y_test

accuracy_train = sum(correctPredictions_train) / len(correctPredictions_train)*100

accuracy_test = sum(correctPredictions_test) / len(correctPredictions_test)*100

print("Training accuracy: ",round(accuracy_train,2),"%","\nTest accuracy: ",round(accuracy_

print("Confusion matrix: \n",confusion_matrix(y_test, predictions_test))

Training accuracy: 76.23 %

Test accuracy: 76.07 %
Confusion matrix:
[[ 0 81733]
[ 0 259766]]

Finding error rate

In [10]:

TP_train = sum([(p and l) for (p, l) in zip(predictions_train, y_train)])

FP_train = sum([(p and not l) for (p, l) in zip(predictions_train, y_train)])
TN_train = sum([(not p and not l) for (p, l) in zip(predictions_train, y_train)])
FN_train = sum([(not p and l) for (p, l) in zip(predictions_train, y_train)])
TF_accuracy = (TP_train + TN_train) / (TP_train + FP_train + TN_train + FN_train)
BER = 1 - 1/2 * (TP_train / (TP_train + FN_train) + TN_train / (TN_train + FP_train))
print(f'TP_train = {TP_train}')
print(f'FP_train = {FP_train}')
print(f'TN_train = {TN_train}')
print(f'FN_train = {FN_train}')
print(f'TF_Accuracy: {round(TF_accuracy*100,2)}%')
print(f'BER_train = {BER}')

TP_train = 1041287
FP_train = 324708
TN_train = 0
FN_train = 0
TF_Accuracy: 76.23%
BER_train = 0.5

In [ ]:

localhost:8891/notebooks/course3project.ipynb# 4/4

C2W3 Lab 01 Model Evaluation and Selection
No ratings yet
C2W3 Lab 01 Model Evaluation and Selection
21 pages
C2W3 Lab 01 Model Evaluation and Selection
No ratings yet
C2W3 Lab 01 Model Evaluation and Selection
21 pages
Capstone Project - Jaro-Prof. Babji
No ratings yet
Capstone Project - Jaro-Prof. Babji
5 pages
Lesson 3
No ratings yet
Lesson 3
5 pages
B.Tech AI & DS: Data Science Lab
No ratings yet
B.Tech AI & DS: Data Science Lab
35 pages
CODE
No ratings yet
CODE
24 pages
Customer Churn Prediction Model
No ratings yet
Customer Churn Prediction Model
6 pages
A3 Classification and Feature Engineering
No ratings yet
A3 Classification and Feature Engineering
2 pages
Diagnosing Bias and Variance Lab
No ratings yet
Diagnosing Bias and Variance Lab
11 pages
Data Preprocessing 2
No ratings yet
Data Preprocessing 2
5 pages
Da 012307
No ratings yet
Da 012307
8 pages
DS Food
No ratings yet
DS Food
23 pages
Assignment 3
No ratings yet
Assignment 3
8 pages
Data Analytics II
No ratings yet
Data Analytics II
4 pages
AI
No ratings yet
AI
16 pages
Chapter04 - Getting Started With Neural Networks
No ratings yet
Chapter04 - Getting Started With Neural Networks
9 pages
05 E RandomForest LoanData
No ratings yet
05 E RandomForest LoanData
8 pages
Wine Classification
No ratings yet
Wine Classification
10 pages
Amazon Product Review - Ipynb - Colaboratory
No ratings yet
Amazon Product Review - Ipynb - Colaboratory
7 pages
Deep Learning with Keras Guide
No ratings yet
Deep Learning with Keras Guide
12 pages
Multi Classification - Py (For 1 Class TP, TN, FP, FN)
No ratings yet
Multi Classification - Py (For 1 Class TP, TN, FP, FN)
25 pages
AI Projects: Search, Prediction, Sentiment, and More
No ratings yet
AI Projects: Search, Prediction, Sentiment, and More
17 pages
ML Lab Manual
No ratings yet
ML Lab Manual
17 pages
To Improve The Performance of Models Predicting Ba
No ratings yet
To Improve The Performance of Models Predicting Ba
6 pages
Ann Experiential Learning
No ratings yet
Ann Experiential Learning
43 pages
Machine Learning Model Guide
No ratings yet
Machine Learning Model Guide
27 pages
Lab08 ML
No ratings yet
Lab08 ML
6 pages
ChatGPT - Auto Classification TensorFlow
No ratings yet
ChatGPT - Auto Classification TensorFlow
38 pages
Data Mining with Python Lab Guide
No ratings yet
Data Mining with Python Lab Guide
39 pages
TP - Ipynb - Colab
No ratings yet
TP - Ipynb - Colab
6 pages
DL Exp-10,11,12
No ratings yet
DL Exp-10,11,12
6 pages
MiniProject - ML - Ipynb - Colaboratory
No ratings yet
MiniProject - ML - Ipynb - Colaboratory
26 pages
Jupyter Lab
No ratings yet
Jupyter Lab
42 pages
Data Mining Regression and Classification
No ratings yet
Data Mining Regression and Classification
11 pages
ML Priyesha - 778
No ratings yet
ML Priyesha - 778
23 pages
41 Perusse Alexander Aperusse PDF
No ratings yet
41 Perusse Alexander Aperusse PDF
7 pages
Data Science Regression Analysis
No ratings yet
Data Science Regression Analysis
25 pages
DL 3
No ratings yet
DL 3
5 pages
Bayesian Algorithm
No ratings yet
Bayesian Algorithm
6 pages
TD2345
No ratings yet
TD2345
3 pages
CP4252 Machine Learning Lab Manual
No ratings yet
CP4252 Machine Learning Lab Manual
26 pages
DA Practicle Answers Easyw
No ratings yet
DA Practicle Answers Easyw
30 pages
Unit2 ML Programs
No ratings yet
Unit2 ML Programs
7 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
22 pages
30 Days ML Projects Challenge
No ratings yet
30 Days ML Projects Challenge
288 pages
Machine Learning Lab: Algorithms & Implementation
No ratings yet
Machine Learning Lab: Algorithms & Implementation
11 pages
Machine Learning Hands-On
100% (1)
Machine Learning Hands-On
18 pages
1 - Data Preprocessing and Cleaning - 55
No ratings yet
1 - Data Preprocessing and Cleaning - 55
8 pages
Assignment 3 DS5620
No ratings yet
Assignment 3 DS5620
11 pages
Btech1007022 Lab5
No ratings yet
Btech1007022 Lab5
14 pages
ML Lab Programs
No ratings yet
ML Lab Programs
9 pages
Linear Regression
No ratings yet
Linear Regression
3 pages
Dsbda 5
No ratings yet
Dsbda 5
4 pages
AI Lab M.Tech
No ratings yet
AI Lab M.Tech
29 pages
ML Lab
No ratings yet
ML Lab
29 pages
Machine Learning
No ratings yet
Machine Learning
3 pages
Slides On DataI
No ratings yet
Slides On DataI
33 pages
AAM PR QB
No ratings yet
AAM PR QB
13 pages
Writing Effective Research Abstracts
No ratings yet
Writing Effective Research Abstracts
3 pages
This Study Resource Was: Module 2 - Assignment 2
No ratings yet
This Study Resource Was: Module 2 - Assignment 2
3 pages
Written Assignment
No ratings yet
Written Assignment
7 pages
4 Ps vs Value Approach in Marketing
No ratings yet
4 Ps vs Value Approach in Marketing
2 pages
Written Assignment Unit 7: Abstract
No ratings yet
Written Assignment Unit 7: Abstract
3 pages
A. Describe in Detail The Advantages and Disadvantages of Renting Versus Owning A Home
No ratings yet
A. Describe in Detail The Advantages and Disadvantages of Renting Versus Owning A Home
2 pages
Final Project Making Predictions From Data-Course 2: October 6, 2020
No ratings yet
Final Project Making Predictions From Data-Course 2: October 6, 2020
20 pages
Written Assignment Unit 1: Business Net Types University of The People BUS 2202 E-Commerce Instructor Richard Cline 16 November, 2020
No ratings yet
Written Assignment Unit 1: Business Net Types University of The People BUS 2202 E-Commerce Instructor Richard Cline 16 November, 2020
5 pages
University of The People BUS 2201 - AY2021-T2 Principles of Marketing Written Assignment Unit 1 Instructor DR Linda Howe Date: November 14, 2020
No ratings yet
University of The People BUS 2201 - AY2021-T2 Principles of Marketing Written Assignment Unit 1 Instructor DR Linda Howe Date: November 14, 2020
5 pages
University of The People Course Bus 2204 Topic: Personal Financial Planning Instructor: Madam Schaffert
No ratings yet
University of The People Course Bus 2204 Topic: Personal Financial Planning Instructor: Madam Schaffert
4 pages
Data Exploration
No ratings yet
Data Exploration
4 pages
About The Dataset - Car Evaluation Dataset (UCI Machine Learning Repository
No ratings yet
About The Dataset - Car Evaluation Dataset (UCI Machine Learning Repository
5 pages
What Makes A Good Abstract
No ratings yet
What Makes A Good Abstract
3 pages
Information Regarding Sales Made in Real Estate in A Tabular Format
No ratings yet
Information Regarding Sales Made in Real Estate in A Tabular Format
13 pages
Journal. Retrieved From: References
No ratings yet
Journal. Retrieved From: References
1 page
Second Year Synopsis Format
No ratings yet
Second Year Synopsis Format
7 pages
Exam Night Revision
No ratings yet
Exam Night Revision
24 pages
Linear Regression - Ipynb - Colab
No ratings yet
Linear Regression - Ipynb - Colab
3 pages
Paper 3 Answers
No ratings yet
Paper 3 Answers
1 page
ALL - CR - 4834 - CORE - CWISS-RAMS Coinsurer FAC Placement Integration V - 3.0
No ratings yet
ALL - CR - 4834 - CORE - CWISS-RAMS Coinsurer FAC Placement Integration V - 3.0
12 pages
Solutions QC2
No ratings yet
Solutions QC2
2 pages
4 6
No ratings yet
4 6
19 pages
Prerna Subtitles
No ratings yet
Prerna Subtitles
4 pages
SummerSchool2022chugginguhg Dmi Foswiki
No ratings yet
SummerSchool2022chugginguhg Dmi Foswiki
24 pages
F1 Second Exam 5 (14-15 劉金龍 Final Exam) (modified)
No ratings yet
F1 Second Exam 5 (14-15 劉金龍 Final Exam) (modified)
8 pages
Group Project
No ratings yet
Group Project
13 pages
Linear Algebra M. Thamban Nair PDF Download
No ratings yet
Linear Algebra M. Thamban Nair PDF Download
163 pages
10 STD English
No ratings yet
10 STD English
4 pages
System Administration & Maintenance
No ratings yet
System Administration & Maintenance
42 pages
Jajpadoajfapaopkajmknakpp Auam Fuaifjaodanfaihfakfjaifahifuruafj Iafajfafoafa 8fhaifhaufa8afnaf
No ratings yet
Jajpadoajfapaopkajmknakpp Auam Fuaifjaodanfaihfakfjaifahifuruafj Iafajfafoafa 8fhaifhaufa8afnaf
25 pages
3-UNIT-1-COA-Instruction Set Architecture
No ratings yet
3-UNIT-1-COA-Instruction Set Architecture
14 pages
ICC Article
No ratings yet
ICC Article
8 pages
MSRS & FTView Integration V1.6
No ratings yet
MSRS & FTView Integration V1.6
258 pages
Early Islam A Critical Reconstruction Based On Contemporary Sources by Karl-Heinz Ohlig PDF
86% (7)
Early Islam A Critical Reconstruction Based On Contemporary Sources by Karl-Heinz Ohlig PDF
654 pages
Msam 615
No ratings yet
Msam 615
2 pages
HTF Fadi
No ratings yet
HTF Fadi
18 pages
Taras Shevchenko
No ratings yet
Taras Shevchenko
2 pages
Psycholinguistics (2nd Ed) (Gleason & Ratner)
No ratings yet
Psycholinguistics (2nd Ed) (Gleason & Ratner)
545 pages
Circle
No ratings yet
Circle
18 pages
ĐÁP ÁN de Tu Soan Năng Khieu L P 8 TEST 1
No ratings yet
ĐÁP ÁN de Tu Soan Năng Khieu L P 8 TEST 1
4 pages
God's Power Through Prayer
100% (4)
God's Power Through Prayer
40 pages
Carol of The Bells
No ratings yet
Carol of The Bells
2 pages
Seminar 2
No ratings yet
Seminar 2
16 pages
Written in Blood Revolutionary Terrorism and Russian Literary Culture 1861 1881 1st Edition Lynn Ellen Patyk Download
100% (12)
Written in Blood Revolutionary Terrorism and Russian Literary Culture 1861 1881 1st Edition Lynn Ellen Patyk Download
79 pages
Inquiry Based Learning
100% (1)
Inquiry Based Learning
35 pages