Data Imbalance Problem

The document discusses the data imbalance problem in machine learning, particularly in contexts like fraud detection and healthcare, and questions the adequacy of accuracy as a quality measure for models. It introduces the ROC curve and AUC score as effective tools for evaluating model performance, emphasizing the importance of distinguishing between classes. Additionally, it outlines methods to address data imbalance, including class weighting, oversampling techniques like SMOTE, and various undersampling strategies.

Uploaded by

dhruv tiwari

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

8 views14 pages

Data Imbalance Problem

Uploaded by

dhruv tiwari

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 14

Data Imbalance problem

Is accuracy
correct way to
measure Quality
of model?
• Fraud Detection
Why this happen? • Anomaly Detection
• Healthcare
Confusion Matrix
How to
measure
quality of
model?
ROC Curve and ROC AUC Score
• Receiver Operating Characteristics(ROC) curves are VERY help with understanding the
balance between true-positive rate and false positive rates. Calculated using 3 lists

• thresholds = all unique prediction probabilities in descending order

• FPR = the false positive rate (FP / (FP + TN)) for each threshold
• TPR = the true positive rate (TP / (TP + FN)) for each threshold

• It tells how much model is capable of distinguishing between classes.

• Higher the AUC, better the model is at predicting 0s as 0s and 1s as 1s.

ROC Curve and ROC AUC Score
Methods to Overcome Data Imbalance
Problem
• Class weight
• Oversampling
• Random oversampling
• Synthetic Minority Over-sampling Technique (SMOTE)
• ADASYN
• Undersampling
• Random undersampling
• Near miss
• Tomeks links
Class weight
• Provide a weight for each class which places more emphasis on the
minority classes

wj=n_samples / (n_classes * n_samplesj)

Here,
•wj is the weight for each class(j signifies the class)
•n_samples is the total number of samples or rows in the dataset
•n_classes is the total number of unique classes in the target
•n_samplesj is the total number of rows of the respective class
Oversampling
• Oversampling the minority classes to increase the number of minority
observations until we've reached a balanced dataset

• Random Oversampling
• Randomly sample the minority classes and simply duplicate the sampled
observations
Synthetic Minority Over-sampling Technique (SMOTE)

• It generates new observations by

interpolating between
observations in the original
dataset
• For a given observation xi, a new
(synthetic) observation is
generated by interpolating
between one of the k-nearest
neighbors, xzi.
Under Sampling
• Throwing away data to make it easier to learn characteristics about
the minority classes

• Random under sampling

• simply sample the majority class at random until reaching a similar number of
observations as the minority classes
Near miss -1
NearMiss-1 select samples from the
majority class for which the average
distance of the N closest samples of
a minority class is smallest.
Near miss -2

Select samples from the majority class for

which the average distance of the N
farthest samples of a minority class is
smallest.

SMOTE: Improving Classifier Performance
No ratings yet
SMOTE: Improving Classifier Performance
37 pages
Imbalanced Classes in Big Data
No ratings yet
Imbalanced Classes in Big Data
20 pages
Handling Imbalanced Data in ML
No ratings yet
Handling Imbalanced Data in ML
6 pages
15 dm2 Imbalanced Learning 2022 23
No ratings yet
15 dm2 Imbalanced Learning 2022 23
35 pages
JPSP - 2022 - 383
No ratings yet
JPSP - 2022 - 383
12 pages
Random and Synthetic Over Sampling Approach To Resolve Data 2zu79c47m6
No ratings yet
Random and Synthetic Over Sampling Approach To Resolve Data 2zu79c47m6
9 pages
Predicting Rare Events Using Specialized Sampling Techniques in SAS®
No ratings yet
Predicting Rare Events Using Specialized Sampling Techniques in SAS®
7 pages
Smote TNP
No ratings yet
Smote TNP
32 pages
Sampling
No ratings yet
Sampling
9 pages
Data Mining: Class Imbalance Solutions
No ratings yet
Data Mining: Class Imbalance Solutions
56 pages
5 Techniques To Handle Imbalanced Data For A Classification Problem
No ratings yet
5 Techniques To Handle Imbalanced Data For A Classification Problem
7 pages
Unit8 (Evaluation Method)
No ratings yet
Unit8 (Evaluation Method)
43 pages
Machine Learning Project Report (Group 3) Shahbaz Khan
No ratings yet
Machine Learning Project Report (Group 3) Shahbaz Khan
11 pages
Model Evaluation and Selection
No ratings yet
Model Evaluation and Selection
49 pages
A Comprehensive Analysis of Synthetic Minority Oversampling Technique (SMOTE) For Handling Class Imbalance
No ratings yet
A Comprehensive Analysis of Synthetic Minority Oversampling Technique (SMOTE) For Handling Class Imbalance
33 pages
A Comparative Study of SMOTE Borderline-SMOTE and ADASYN Oversampling Techniques Using Different Classifiers
No ratings yet
A Comparative Study of SMOTE Borderline-SMOTE and ADASYN Oversampling Techniques Using Different Classifiers
9 pages
Balancing Data
No ratings yet
Balancing Data
28 pages
Advanced ML Classification Guide
No ratings yet
Advanced ML Classification Guide
40 pages
Topic 2
No ratings yet
Topic 2
47 pages
14.1 Data Preprocessing Class Imbalance and AUC Curve
No ratings yet
14.1 Data Preprocessing Class Imbalance and AUC Curve
5 pages
Imbalanced Classes in ML: 10 Techniques
No ratings yet
Imbalanced Classes in ML: 10 Techniques
10 pages
Unit 2 Chap 4
No ratings yet
Unit 2 Chap 4
14 pages
Enhanced Synthetic Oversampling For Multiclass Imbalanced Data
No ratings yet
Enhanced Synthetic Oversampling For Multiclass Imbalanced Data
20 pages
Big Data Lesson 2 Lucrezia Noli
No ratings yet
Big Data Lesson 2 Lucrezia Noli
21 pages
Introduction To Data Mining
No ratings yet
Introduction To Data Mining
19 pages
CS 620 / DASC 600 Introduction To Data Science & Analytics: Lecture 8-Performance Evaluation
No ratings yet
CS 620 / DASC 600 Introduction To Data Science & Analytics: Lecture 8-Performance Evaluation
62 pages
133 - Sampling Approaches For Imbalanced Data Classificatin Problem in Machine Learning
No ratings yet
133 - Sampling Approaches For Imbalanced Data Classificatin Problem in Machine Learning
14 pages
Mod 7 Smote ML
No ratings yet
Mod 7 Smote ML
40 pages
Module 10 Notes
No ratings yet
Module 10 Notes
5 pages
Under-Sampling Technique For Imbalanced Data Using Minimum Sum of Euclidean Distance in Principal Component Subset
No ratings yet
Under-Sampling Technique For Imbalanced Data Using Minimum Sum of Euclidean Distance in Principal Component Subset
14 pages
Unit6 - 7 Issues
No ratings yet
Unit6 - 7 Issues
53 pages
An Overview of Classification Algorithms For Imbalanced Datasets
No ratings yet
An Overview of Classification Algorithms For Imbalanced Datasets
7 pages
Handling Data Imbalance in Machine Learning
No ratings yet
Handling Data Imbalance in Machine Learning
51 pages
I D L A R: Mbalanced ATA Earning Pproaches Eview
No ratings yet
I D L A R: Mbalanced ATA Earning Pproaches Eview
19 pages
Performance Evaluation
No ratings yet
Performance Evaluation
24 pages
Imbalanced Dataset Techniques
No ratings yet
Imbalanced Dataset Techniques
16 pages
Dimensionality Reduction & Model Evaluation
No ratings yet
Dimensionality Reduction & Model Evaluation
80 pages
Data Analytics Course (IIFT MBA) Full Course Summary - 27072023
No ratings yet
Data Analytics Course (IIFT MBA) Full Course Summary - 27072023
253 pages
ML - 03 Evaluation Metrics
No ratings yet
ML - 03 Evaluation Metrics
17 pages
6 Evaluarea Performantei
No ratings yet
6 Evaluarea Performantei
43 pages
Chap4 Imbalanced Classes
No ratings yet
Chap4 Imbalanced Classes
28 pages
Tata Data Analytics Glossary
No ratings yet
Tata Data Analytics Glossary
5 pages
Machine Learning Basics
No ratings yet
Machine Learning Basics
32 pages
ERROR and Confusion Matrix
No ratings yet
ERROR and Confusion Matrix
29 pages
INT354 - Unit 1
No ratings yet
INT354 - Unit 1
72 pages
7118 Ds Methodology Ss
No ratings yet
7118 Ds Methodology Ss
56 pages
DS Notes
No ratings yet
DS Notes
36 pages
Analysis of Imbalanced Classification Algorithms A Perspective View
No ratings yet
Analysis of Imbalanced Classification Algorithms A Perspective View
5 pages
Admin, 1277
No ratings yet
Admin, 1277
21 pages
Model Evaluation
No ratings yet
Model Evaluation
29 pages
Understanding Overfitting, Underfitting, Oversampling, and SMOTE in Machine Learning
No ratings yet
Understanding Overfitting, Underfitting, Oversampling, and SMOTE in Machine Learning
9 pages
AI & ML Notes
No ratings yet
AI & ML Notes
22 pages
Chapter 02 Overview (R)
No ratings yet
Chapter 02 Overview (R)
43 pages
Modelling and Evaluation
No ratings yet
Modelling and Evaluation
36 pages
Unit Iii
No ratings yet
Unit Iii
67 pages
SMOTE For Imbalanced Classification With Python
No ratings yet
SMOTE For Imbalanced Classification With Python
8 pages
Chapter 7 - LAST
No ratings yet
Chapter 7 - LAST
29 pages
1608 06048 PDF
No ratings yet
1608 06048 PDF
7 pages
Intro to Statistical Machine Learning
No ratings yet
Intro to Statistical Machine Learning
84 pages
Chapter 11 Quiz Review Results
No ratings yet
Chapter 11 Quiz Review Results
15 pages
Pearson's Correlation Coefficient
No ratings yet
Pearson's Correlation Coefficient
7 pages
Pearson Correlation Coefficient
No ratings yet
Pearson Correlation Coefficient
7 pages
Improved Holt-Winters for Tourism Demand
No ratings yet
Improved Holt-Winters for Tourism Demand
8 pages
Penugasan Data Raya (Pertemuan 11) Karen Zefanya 1203621041
No ratings yet
Penugasan Data Raya (Pertemuan 11) Karen Zefanya 1203621041
7 pages
Comp3314 4. Regression Classification
No ratings yet
Comp3314 4. Regression Classification
120 pages
TUGAS 1 - Metode Penelitian - FADYA AM
No ratings yet
TUGAS 1 - Metode Penelitian - FADYA AM
7 pages
Midterm Testbank
No ratings yet
Midterm Testbank
13 pages
1F Null Hypothesis and Alternative Hypothesis
No ratings yet
1F Null Hypothesis and Alternative Hypothesis
3 pages
Internal Marketing & Ethics Study
No ratings yet
Internal Marketing & Ethics Study
17 pages
Statistics Using Stata An Integrative Approach: Weinberg and Abramowitz 2016
No ratings yet
Statistics Using Stata An Integrative Approach: Weinberg and Abramowitz 2016
46 pages
Data Preparation
No ratings yet
Data Preparation
12 pages
Forecasting Notes
No ratings yet
Forecasting Notes
4 pages
Intro To Factor Analysis
No ratings yet
Intro To Factor Analysis
52 pages
Understanding Statistical Means
100% (1)
Understanding Statistical Means
5 pages
Group Project - Corona Virus MAS291 - Group 1 - AI1603 Lecturer: Lê Thị Hồng Thơm
No ratings yet
Group Project - Corona Virus MAS291 - Group 1 - AI1603 Lecturer: Lê Thị Hồng Thơm
94 pages
BSC Statistics
No ratings yet
BSC Statistics
12 pages
IS4834 Final Exam Sample Questions
No ratings yet
IS4834 Final Exam Sample Questions
5 pages
The T Test Prepared by B.saikiran (12NA1E0036)
No ratings yet
The T Test Prepared by B.saikiran (12NA1E0036)
14 pages
Logistic Regression
No ratings yet
Logistic Regression
8 pages
Statistical Methods MCQ'S
91% (11)
Statistical Methods MCQ'S
41 pages
The Effect of Food Expenditure To The Total of Household Expenditure
No ratings yet
The Effect of Food Expenditure To The Total of Household Expenditure
12 pages
Lecture 10 - Naive Bayes Classifier
No ratings yet
Lecture 10 - Naive Bayes Classifier
53 pages
Im ch01
No ratings yet
Im ch01
11 pages
Correlation 1
No ratings yet
Correlation 1
9 pages
Slovins Formula
No ratings yet
Slovins Formula
20 pages
Correlation & Regression Numericals
No ratings yet
Correlation & Regression Numericals
4 pages
Confusion Matrix
No ratings yet
Confusion Matrix
5 pages
Hays Statistics 5th Edition: Error Corrections
No ratings yet
Hays Statistics 5th Edition: Error Corrections
3 pages

Data Imbalance Problem

Uploaded by

Data Imbalance Problem

Uploaded by

Data Imbalance problem

• thresholds = all unique prediction probabilities in descending order

• It tells how much model is capable of distinguishing between classes.

• Higher the AUC, better the model is at predicting 0s as 0s and 1s as 1s.

wj=n_samples / (n_classes * n_samplesj)

• It generates new observations by

• Random under sampling

Select samples from the majority class for

You might also like