0% found this document useful (0 votes)

44 views16 pages

Extracting Knowledge From Data

Uploaded by

Did you KNOW

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

44 views16 pages

Extracting Knowledge From Data

Uploaded by

Did you KNOW

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 16

Extracting Knowledge from Data

Data Preparation, Enrichment, Encoding, and Standardization

Presented by: Bejaoui Ahmed

Plan

• Why is Data Preparation Important?

• Data Preparation and Cleaning
• Data Enrichment
• Data Encoding
• Data Standardization
• Data Normalization
• Challenges in Data Preparation
• Future Trends

2
Introduction

Extracting knowledge from data involves going beyond basic analysis; it

requires that data be carefully prepared, enriched, encoded, and
standardized. This process improves data quality, increases model
accuracy, and enhances decision-making. Today, we’ll explore key steps
like data cleaning, enrichment, encoding, and standardization.

3
Why is Data Preparation Important?

Data often comes in raw form with inconsistencies, missing values, and errors.
Properly prepared data:

 Increases model accuracy: Clean data improves prediction outcomes.

 Saves time and resources: Reduces the need for troubleshooting during analysis.

 Prevents unjust results: Findings and decisions can be distorted by inaccurate or

unclean data.

4
Data Preparation and Cleaning

1. Handling Missing Data 2. Handling Outliers

Use deletion to remove incomplete Use statistical methods like IQR (Interquartile
entries or imputation to fill gaps with Range) or Z-score to identify extreme values,
statistical estimates, balancing data then treat outliers by removing, transforming,
integrity and completeness. or replacing them as appropriate based on
domain knowledge.

3. Data Consistency 4. Removing Duplicates

Ensure uniform formats (e.g., dates, Identify and eliminate duplicate records
currencies) across the dataset. that may distort analysis results.

5
Data Enrichment
Adding new relevant data to enhance the existing dataset and improve
analysis.
Types of Data Enrichment:
External Data: Adding information Feature Engineering: Creating new
from other sources (e.g., social features from the existing data (e.g.,
media, weather data). combining date and time into one feature).

Benefits:
Enriched data provides deeper insights.
Improves model performance by adding relevant context or features.

6
Data Encoding
Converting categorical (non-numerical) data into numerical form so that
machine learning algorithms can use them.
Techniques:
Label Encoding:
• Assigns an integer to each category.
• Example: "Red" = 1, "Green" = 2, "Blue" = 3. Used for ordinal data.

One-Hot Encoding:
• Creates binary columns for each category.
• Example: "Color" column with values "Red," "Green," "Blue" becomes three binary
columns.

7
Data Encoding
 Frequency Encoding:
Replaces categories with their frequency in the dataset.
Example:
A column with colors: "Red," "Green," "Blue" becomes "Red" = 50%,
"Green" = 30%, "Blue" = 20%.

8
Data Standardization
Rescaling data so that it has a mean of zero and a standard deviation of
one.
Why It’s Important:
Algorithms like k-Means, SVM(Support Vector Machine), and Gradient
Descent are sensitive to data scaling.
Standardization ensures that large-scale features don’t dominate smaller-
scale features.

9
Example of data standardization

10
Data Normalization

Rescaling data to a range between 0 and 1 without

changing its distribution.
When to Use:
• It is preferred when working with algorithms that
rely on distances, such as k-NN or neural
networks.

11
Example of data Normalization

12
Challenges in Data Preparation

• High Dimensionality:
Datasets with many features can lead to overfitting or long processing times.
• Incomplete or Inconsistent External Data:
Data enrichment may introduce inconsistencies or new missing values.
• Complexity in Encoding:
Some categorical features have too many levels, making encoding
computationally expensive.

13
Future Trends

Automated Data Cleaning (AutoML): Data-Centric AI: Prioritizes data quality

Uses AI to automatically clean and prepare improvements over model tuning, ensuring
data, saving time and improving data better model performance from well-
quality. prepared data

Real-Time Data Preparation: Enables Synthetic Data Generation: Creates

on-the-fly data cleaning and artificial, privacy-safe data to supplement
transformation, essential for streaming real datasets, improving model training
analytics and IoT. without compromising sensitive
information.

14
Conclusion
Data preparation, enrichment, encoding, and standardization are
foundational to effective data analysis and machine learning.
Prioritizing these steps ensures cleaner, more consistent data and
enhances model performance.

15
References
•Aggarwal, C. C. (2015). Data Mining: The Textbook. Springer.

•Han, J., Pei, J., & Kamber, M. (2011). Data Mining: Concepts and Techniques. Morgan
Kaufmann.

•Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and

TensorFlow. O'Reilly Media.

•Kuhn, M., & Johnson, K. (2013). Applied Predictive Modeling. Springer.

7 Data Preprocessing Steps in Machine Learning
No ratings yet
7 Data Preprocessing Steps in Machine Learning
5 pages
Unit 2 ML
No ratings yet
Unit 2 ML
14 pages
MSDSModule 2
No ratings yet
MSDSModule 2
35 pages
Statistics For Data Science
100% (2)
Statistics For Data Science
39 pages
Module 3 Notes
No ratings yet
Module 3 Notes
5 pages
ML 1
No ratings yet
ML 1
13 pages
Unit - 2 ML
No ratings yet
Unit - 2 ML
8 pages
Aml Midsem
No ratings yet
Aml Midsem
59 pages
Data Preprocessing: Clean, Transform, Integrate
No ratings yet
Data Preprocessing: Clean, Transform, Integrate
6 pages
Session-2-CO3-Introduction To Data Preprocessing
No ratings yet
Session-2-CO3-Introduction To Data Preprocessing
39 pages
Lecture No 2 Data Preparation
No ratings yet
Lecture No 2 Data Preparation
23 pages
Exploratory Data Analysis
No ratings yet
Exploratory Data Analysis
23 pages
Unit - 2 ML
No ratings yet
Unit - 2 ML
8 pages
Data Prep and Cleaning For Machine Learning
No ratings yet
Data Prep and Cleaning For Machine Learning
22 pages
Big Data Essentials & Challenges
No ratings yet
Big Data Essentials & Challenges
71 pages
Machine Learning Data Prep Guide
No ratings yet
Machine Learning Data Prep Guide
9 pages
Machine Learning Essentials Guide
No ratings yet
Machine Learning Essentials Guide
33 pages
Predictive Analytics Modelling (21CSH-440) : Apex Institute of Technology
No ratings yet
Predictive Analytics Modelling (21CSH-440) : Apex Institute of Technology
20 pages
SML Updated UNIT-2
No ratings yet
SML Updated UNIT-2
43 pages
Data Munging for Data Scientists
No ratings yet
Data Munging for Data Scientists
54 pages
Data Preparation Steps for Analysis
No ratings yet
Data Preparation Steps for Analysis
3 pages
Ads Imp Qna 2025 15 04 06 06 35
No ratings yet
Ads Imp Qna 2025 15 04 06 06 35
33 pages
Module 2-b Prediction Methods and Models-Data Preperation
No ratings yet
Module 2-b Prediction Methods and Models-Data Preperation
26 pages
Lecture 3 Unit 1
No ratings yet
Lecture 3 Unit 1
61 pages
CH 3
No ratings yet
CH 3
33 pages
Business Analytics
No ratings yet
Business Analytics
14 pages
PredictiveAnalysis U1 U2
No ratings yet
PredictiveAnalysis U1 U2
7 pages
Unit 2
No ratings yet
Unit 2
18 pages
ML Unit 2
No ratings yet
ML Unit 2
52 pages
Chap 3
No ratings yet
Chap 3
26 pages
Disruptive Technologies DA Lecture 8
No ratings yet
Disruptive Technologies DA Lecture 8
17 pages
Data Preprocessing
No ratings yet
Data Preprocessing
49 pages
Kaggle Competition Mastery Guide
100% (1)
Kaggle Competition Mastery Guide
74 pages
Week5 Modified
No ratings yet
Week5 Modified
25 pages
6-Deep Networks Basics - Shallow Neural Networks-29-07-2024
No ratings yet
6-Deep Networks Basics - Shallow Neural Networks-29-07-2024
8 pages
REVIEWER
No ratings yet
REVIEWER
9 pages
Data Science 2
100% (2)
Data Science 2
55 pages
Data Preprocessing Before Classification: Presented by
No ratings yet
Data Preprocessing Before Classification: Presented by
23 pages
ADS IA 1 Syllabus Prep
No ratings yet
ADS IA 1 Syllabus Prep
5 pages
Course 4
No ratings yet
Course 4
29 pages
1725892639module 3 The Machine Learning Process
No ratings yet
1725892639module 3 The Machine Learning Process
17 pages
Data Mining
No ratings yet
Data Mining
18 pages
Week 3
No ratings yet
Week 3
23 pages
Data Preparation For Machine Learning Mini Course
No ratings yet
Data Preparation For Machine Learning Mini Course
19 pages
Model Evaluation
No ratings yet
Model Evaluation
39 pages
Data Mining for Analysts
No ratings yet
Data Mining for Analysts
38 pages
Data Preparation with NumPy & Pandas
No ratings yet
Data Preparation with NumPy & Pandas
5 pages
CSC 3301-Lecture06 Introduction To Machine Learning
No ratings yet
CSC 3301-Lecture06 Introduction To Machine Learning
56 pages
Lect 04 Preprocessing Structured
No ratings yet
Lect 04 Preprocessing Structured
39 pages
DS Data Understanding and Preparation
No ratings yet
DS Data Understanding and Preparation
2 pages
3 Preprocessing
No ratings yet
3 Preprocessing
27 pages
AIPPTMaker - Data Preprocessing and Feature Engineering - Key To Improving AI Algorithm Performance
No ratings yet
AIPPTMaker - Data Preprocessing and Feature Engineering - Key To Improving AI Algorithm Performance
35 pages
Exam Preparation Notes
No ratings yet
Exam Preparation Notes
31 pages
Step by Step Data Wrangling
No ratings yet
Step by Step Data Wrangling
4 pages
Data Mining for Business Insights
No ratings yet
Data Mining for Business Insights
38 pages
ML Lect1
100% (1)
ML Lect1
51 pages
Communication in Distributed Systems - Multicast Communication
No ratings yet
Communication in Distributed Systems - Multicast Communication
15 pages
IoT in Agriculture
No ratings yet
IoT in Agriculture
13 pages
SRS E-Commerce Catalog Management System
100% (1)
SRS E-Commerce Catalog Management System
8 pages
Cloud-Saas (Bejaoui Ahmed)
No ratings yet
Cloud-Saas (Bejaoui Ahmed)
12 pages
Sociotechnical System
No ratings yet
Sociotechnical System
15 pages
Cloud Computing Computing Edge (Ahmed Bejaoui)
No ratings yet
Cloud Computing Computing Edge (Ahmed Bejaoui)
3 pages
Computer Vision
No ratings yet
Computer Vision
17 pages
Untitled
No ratings yet
Untitled
5 pages
Third Year B.sc. Computer Science (REV.2019) 2024
No ratings yet
Third Year B.sc. Computer Science (REV.2019) 2024
3 pages
2017 01 SE Animal Adoption
100% (2)
2017 01 SE Animal Adoption
28 pages
80-p8101-31 A Band Scan Optimization For Nb-Iot
No ratings yet
80-p8101-31 A Band Scan Optimization For Nb-Iot
8 pages
Data WareHouse
No ratings yet
Data WareHouse
48 pages
FortiGate 1000D
No ratings yet
FortiGate 1000D
6 pages
Computer Science Resume: Max Kimmelman
No ratings yet
Computer Science Resume: Max Kimmelman
1 page
Jenkins & Ansible Guide for DevOps
No ratings yet
Jenkins & Ansible Guide for DevOps
5 pages
Chapter 1 - Introduction
No ratings yet
Chapter 1 - Introduction
32 pages
Manuscript
No ratings yet
Manuscript
57 pages
Release Notes For Capture Pro Software V
No ratings yet
Release Notes For Capture Pro Software V
22 pages
SE Tools and Invironment
No ratings yet
SE Tools and Invironment
19 pages
Visual Basic
No ratings yet
Visual Basic
167 pages
Indonesia Map and Template Usage Guide
No ratings yet
Indonesia Map and Template Usage Guide
5 pages
SQL Top 50 Interview Questions and Answers
No ratings yet
SQL Top 50 Interview Questions and Answers
28 pages
Combining Security Associations
No ratings yet
Combining Security Associations
13 pages
Asa 91 General Cli
No ratings yet
Asa 91 General Cli
1,078 pages
ISTQB Advanced Test Analyst
0% (1)
ISTQB Advanced Test Analyst
2 pages
Chapter 11 Developing Business/IT Strategies
No ratings yet
Chapter 11 Developing Business/IT Strategies
41 pages
Secure Software Development Lifecycle: Daniel Kefer, Information Security, 1&1 Internet AG
No ratings yet
Secure Software Development Lifecycle: Daniel Kefer, Information Security, 1&1 Internet AG
29 pages
Eccouncil Ecihv2 9 1 1 Best Practices Against Insider Threats
No ratings yet
Eccouncil Ecihv2 9 1 1 Best Practices Against Insider Threats
5 pages
Dokumen - Tips - Installation Runbook For Mirantis Runbook For Palo Alto Networks Virtual Firewall
No ratings yet
Dokumen - Tips - Installation Runbook For Mirantis Runbook For Palo Alto Networks Virtual Firewall
55 pages
Service Ip
No ratings yet
Service Ip
3 pages
Agile Process Models
No ratings yet
Agile Process Models
15 pages
3GPP TS 29.518
No ratings yet
3GPP TS 29.518
195 pages
Mini Project ON Online Art Gallery: Presented by
100% (1)
Mini Project ON Online Art Gallery: Presented by
28 pages
Fortios Hardware Acceleration 701
No ratings yet
Fortios Hardware Acceleration 701
141 pages
GE Elect MST-4 Module 2 A.Y. 2022-2023
No ratings yet
GE Elect MST-4 Module 2 A.Y. 2022-2023
49 pages
How To View Visit History in Apple Maps and Google Maps
No ratings yet
How To View Visit History in Apple Maps and Google Maps
2 pages
Emerging Technologies Essay
No ratings yet
Emerging Technologies Essay
7 pages

Extracting Knowledge From Data

Uploaded by

Extracting Knowledge From Data

Uploaded by

Extracting Knowledge from Data

Data Preparation, Enrichment, Encoding, and Standardization

Presented by: Bejaoui Ahmed

• Why is Data Preparation Important?

Extracting knowledge from data involves going beyond basic analysis; it

 Increases model accuracy: Clean data improves prediction outcomes.

 Prevents unjust results: Findings and decisions can be distorted by inaccurate or

1. Handling Missing Data 2. Handling Outliers

3. Data Consistency 4. Removing Duplicates

Rescaling data to a range between 0 and 1 without

Automated Data Cleaning (AutoML): Data-Centric AI: Prioritizes data quality

Real-Time Data Preparation: Enables Synthetic Data Generation: Creates

•Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and

•Kuhn, M., & Johnson, K. (2013). Applied Predictive Modeling. Springer.

You might also like