Preprocessing

Data preprocessing involves cleaning, transforming, and reducing raw data to prepare it for modeling. The key steps are data cleaning to handle missing values, noisy data, and inconsistencies; data integration and transformation through normalization, aggregation, and dimensionality reduction; and data reduction to obtain a smaller yet representative version of the dataset to speed up analysis. The overall goal is to improve data quality for obtaining high quality modeling results.

Uploaded by

mba20238

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

56 views13 pages

Preprocessing

Uploaded by

mba20238

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

You are on page 1/ 13

Data Preprocessing

Why Data Preprocessing?

• Data in the real world is dirty
– incomplete: lacking attribute values, lacking certain attributes
of interest, or containing only aggregate data
– noisy: containing errors or outliers
– inconsistent: containing discrepancies in codes or names
• No quality data, no quality mining results!
– Quality decisions must be based on quality data
– Data warehouse needs consistent integration of quality data
Major Tasks in Data Preprocessing
• Data cleaning
– Fill in missing values, smooth noisy data, identify or remove outliers, and
resolve inconsistencies
• Data integration
– Integration of multiple databases, data cubes, files, or notes
• Data transformation
– Normalization (scaling to a specific range)
– Aggregation
Data Cleaning

• Data cleaning tasks

– Fill in missing values
– Identify outliers and smooth out noisy data
– Correct inconsistent data
Missing Data
• Data is not always available
– E.g., many tuples have no recorded value for several attributes, such
as customer income in sales data
• Missing data may be due to
– equipment malfunction
– inconsistent with other recorded data and thus deleted
– data not entered due to misunderstanding
– certain data may not be considered important at the time of entry
– not register history or changes of the data
• Missing data may need to be inferred
How to Handle Missing Data?
• Source of data
• Most mention.
• Mean/average .
• Sign ?
• Delete
• Smoothing.
Noisy Data
• Q: What is noise?
• A: Random error in a measured variable.
• Incorrect attribute values may be due to
– faulty data collection instruments
– data entry problems
– data transmission problems
– technology limitation
– inconsistency in naming convention
• Other data problems which requires data cleaning
– duplicate records
– incomplete data
– inconsistent data
How to Handle Noisy Data?
• Binning method:
– first sort data and partition into (equi-depth) bins
– then one can smooth by bin means, smooth by bin
boundaries, etc.
• Clustering
– detect and remove outliers
• Semi-automated method: combined computer and
human inspection
– detect suspicious values and check manually
Binning Methods for Data Smoothing
* Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25,
26, 28, 29, 34
* Partition into (equi-depth) bins:
- Bin 1: 4, 8, 9, 15
- Bin 2: 21, 21, 24, 25
- Bin 3: 26, 28, 29, 34
* Smoothing by bin means:
- Bin 1: 9, 9, 9, 9
- Bin 2: 23, 23, 23, 23
- Bin 3: 29, 29, 29, 29
* Smoothing by bin boundaries:
- Bin 1: 4, 4, 4, 15
- Bin 2: 21, 21, 25, 25
- Bin 3: 26, 26, 26, 34
How to Handle Inconsistent Data?
• Manual correction using external references
• Semi-automatic using various tools
– To detect violation of known functional
dependencies and data constraints
– To correct redundant data
Data Transformation
• Smoothing: remove noise from data (binning,
clustering, regression)
• Aggregation: summarization, data cube construction
• Generalization: concept hierarchy climbing
• Normalization: scaled to fall within a small,
specified range
Data Reduction
• Problem:
Data Warehouse may store terabytes of data:
Complex data analysis/mining may take a very
long time to run on the complete data set

• Solution?
– Data reduction…
Data Reduction
•Obtains a reduced representation of the data
set that is much smaller in volume but yet
produces the same (or almost the same)
analytical results
•Data reduction strategies
–Data cube aggregation
–Dimensionality reduction
–Data compression
–Discretization and concept hierarchy generation

Data Preprocessing Techniques
No ratings yet
Data Preprocessing Techniques
62 pages
Preprocessing
No ratings yet
Preprocessing
52 pages
ICS 2408 - Lecture 2 - Data Preprocessing
No ratings yet
ICS 2408 - Lecture 2 - Data Preprocessing
29 pages
Estimasi Anggaran Biaya Google Adwords Iklan Website
No ratings yet
Estimasi Anggaran Biaya Google Adwords Iklan Website
54 pages
DWM
No ratings yet
DWM
14 pages
Chapter - 2 - Cleaning and Transforming Data
No ratings yet
Chapter - 2 - Cleaning and Transforming Data
27 pages
02 Data - Preprocessing - 4,5,6
No ratings yet
02 Data - Preprocessing - 4,5,6
54 pages
Data Pre Processing
No ratings yet
Data Pre Processing
48 pages
M 2.3 Data Preprocessing
No ratings yet
M 2.3 Data Preprocessing
22 pages
CIS664-Knowledge Discovery and Data Mining
No ratings yet
CIS664-Knowledge Discovery and Data Mining
52 pages
Spatial and Temporal Data Mining
No ratings yet
Spatial and Temporal Data Mining
52 pages
M2 PPT
No ratings yet
M2 PPT
60 pages
Knowledge Discovery and Data Mining
No ratings yet
Knowledge Discovery and Data Mining
55 pages
CS-DM Module-2
No ratings yet
CS-DM Module-2
29 pages
Data Preparation Guide COS10022
No ratings yet
Data Preparation Guide COS10022
61 pages
CS-DM Module-2
No ratings yet
CS-DM Module-2
30 pages
Data Preprocessing 1 - Annotated
No ratings yet
Data Preprocessing 1 - Annotated
23 pages
DMDW Unit II
No ratings yet
DMDW Unit II
57 pages
04 DM BI Data Preprocessing
No ratings yet
04 DM BI Data Preprocessing
93 pages
Session 4
No ratings yet
Session 4
40 pages
DM Lect3
No ratings yet
DM Lect3
41 pages
Data Preprocessing Techniques Guide
No ratings yet
Data Preprocessing Techniques Guide
35 pages
Pre Processing
No ratings yet
Pre Processing
68 pages
DWDM 3
No ratings yet
DWDM 3
12 pages
Data Preprocessing Essentials
No ratings yet
Data Preprocessing Essentials
9 pages
Module1.5 Preprocessing
No ratings yet
Module1.5 Preprocessing
40 pages
Unit-2 Preprocessing
No ratings yet
Unit-2 Preprocessing
18 pages
Unit 2
No ratings yet
Unit 2
37 pages
DWDM Unit 2
No ratings yet
DWDM Unit 2
20 pages
Aiml Data Preprocessing
No ratings yet
Aiml Data Preprocessing
99 pages
2 Data Pre-Processing
No ratings yet
2 Data Pre-Processing
50 pages
Week 2 - Data Quality
No ratings yet
Week 2 - Data Quality
43 pages
UNIT-2 Data Pre-Processing
No ratings yet
UNIT-2 Data Pre-Processing
57 pages
Data Preprocessing Essentials
No ratings yet
Data Preprocessing Essentials
33 pages
Data Preprocessing for Tech Students
No ratings yet
Data Preprocessing for Tech Students
59 pages
BIS 541 Ch03 20-21 S
No ratings yet
BIS 541 Ch03 20-21 S
86 pages
Unit - II
No ratings yet
Unit - II
56 pages
Data Mining Unit 3
No ratings yet
Data Mining Unit 3
64 pages
Preprocessing
No ratings yet
Preprocessing
50 pages
Data Pre-Processing: Submitted By, R.Archana, 10ucs05 D.Gayathri, 10ucs11
No ratings yet
Data Pre-Processing: Submitted By, R.Archana, 10ucs05 D.Gayathri, 10ucs11
18 pages
DEC - Unit II Data Pre-Processing
No ratings yet
DEC - Unit II Data Pre-Processing
96 pages
Data Preprocessing Techniques Guide
No ratings yet
Data Preprocessing Techniques Guide
8 pages
Data Preprocessing
No ratings yet
Data Preprocessing
11 pages
Unit 1datapre Processing Datacleaningtransformationreductionintegration 240509092339 7095c9af
No ratings yet
Unit 1datapre Processing Datacleaningtransformationreductionintegration 240509092339 7095c9af
88 pages
Chapter-3 Data Processing
No ratings yet
Chapter-3 Data Processing
54 pages
Final - Unit 3 Data Preprocessing - Phases
No ratings yet
Final - Unit 3 Data Preprocessing - Phases
42 pages
Data Preprocessing
No ratings yet
Data Preprocessing
77 pages
Data Mining for Quality Improvement
100% (1)
Data Mining for Quality Improvement
34 pages
Data Mining: Concepts and Techniques: September 16, 2020 1
No ratings yet
Data Mining: Concepts and Techniques: September 16, 2020 1
46 pages
Data Mining
No ratings yet
Data Mining
22 pages
Syllabus: Data Warehousing and Data Mining
No ratings yet
Syllabus: Data Warehousing and Data Mining
18 pages
Data Pre Processing - NG
No ratings yet
Data Pre Processing - NG
43 pages
2 Data Preprocessing
No ratings yet
2 Data Preprocessing
57 pages
Data Cleaning: Missing Values: - For Example in Attribute Income If
No ratings yet
Data Cleaning: Missing Values: - For Example in Attribute Income If
30 pages
Data Preprocessing
No ratings yet
Data Preprocessing
56 pages
Data Preprocessing
No ratings yet
Data Preprocessing
22 pages
Pre Processing
No ratings yet
Pre Processing
52 pages
Data Science Course Overview
No ratings yet
Data Science Course Overview
34 pages
Lecture 6
No ratings yet
Lecture 6
19 pages
Systems Implementation Guide
No ratings yet
Systems Implementation Guide
23 pages
Lecture 8
No ratings yet
Lecture 8
24 pages
Lecture 3
No ratings yet
Lecture 3
20 pages
UML Diagrams
No ratings yet
UML Diagrams
17 pages
Lecture 4
No ratings yet
Lecture 4
18 pages
Lecture 5
No ratings yet
Lecture 5
15 pages
Part Four
No ratings yet
Part Four
73 pages
Data Mining for Business Analysts
No ratings yet
Data Mining for Business Analysts
21 pages
Part Three
No ratings yet
Part Three
63 pages
Part Seven
No ratings yet
Part Seven
69 pages
Chapter 03
No ratings yet
Chapter 03
62 pages
3.php Classes and Objects
No ratings yet
3.php Classes and Objects
12 pages
Chapter 01
No ratings yet
Chapter 01
24 pages
3-Distribution Design
No ratings yet
3-Distribution Design
66 pages
Lecture 5 - Hadoop and Mapreduce
No ratings yet
Lecture 5 - Hadoop and Mapreduce
30 pages
2.Php Arrays and Superglobals
No ratings yet
2.Php Arrays and Superglobals
16 pages
Lecture 6 - Iot and UbiComp
No ratings yet
Lecture 6 - Iot and UbiComp
30 pages
Unwrapping The Gift
No ratings yet
Unwrapping The Gift
26 pages
Lecture 4 - Cloud Security
No ratings yet
Lecture 4 - Cloud Security
20 pages
Lecture 4 Chapter3
No ratings yet
Lecture 4 Chapter3
32 pages
Ch1 Computing Paradigms
No ratings yet
Ch1 Computing Paradigms
18 pages
Ultrasonic Wind Sensor: Model 2040/2041 Series
100% (1)
Ultrasonic Wind Sensor: Model 2040/2041 Series
2 pages
SAP MM Training - in Plain English - Udemy
0% (1)
SAP MM Training - in Plain English - Udemy
17 pages
Picanol OptiMax: Versatile High-Speed Weaving
No ratings yet
Picanol OptiMax: Versatile High-Speed Weaving
6 pages
SPC Enrollment System: Purpose and Discription of The Study
No ratings yet
SPC Enrollment System: Purpose and Discription of The Study
11 pages
DAMBI DOLLO UNIVERSITY PPT I-1
No ratings yet
DAMBI DOLLO UNIVERSITY PPT I-1
25 pages
Roadroid - Continuous Road Condition Monitoring With Smartphones
No ratings yet
Roadroid - Continuous Road Condition Monitoring With Smartphones
20 pages
HM - Detectors - HM PSE AP - HM PSE I AP - R1
No ratings yet
HM - Detectors - HM PSE AP - HM PSE I AP - R1
3 pages
Mastermind Monitoring 6.22.01
100% (2)
Mastermind Monitoring 6.22.01
209 pages
Event Log
No ratings yet
Event Log
111 pages
Properties of Exponents Worksheet
No ratings yet
Properties of Exponents Worksheet
2 pages
Optimization With R - Tips and Tricks
No ratings yet
Optimization With R - Tips and Tricks
17 pages
Problem 2 Businessreport ML
No ratings yet
Problem 2 Businessreport ML
9 pages
Eye-Lcd-Epu Datasheet en
No ratings yet
Eye-Lcd-Epu Datasheet en
2 pages
How To Create EEG - Hat - DIY
No ratings yet
How To Create EEG - Hat - DIY
4 pages
Observability Monitoring 1735803011
No ratings yet
Observability Monitoring 1735803011
34 pages
SF6 Gas Dew Point Meter Manual
No ratings yet
SF6 Gas Dew Point Meter Manual
22 pages
Autonomous Fire Fighter Robot Based On Image Processing 4
No ratings yet
Autonomous Fire Fighter Robot Based On Image Processing 4
6 pages
Hardware and Software Requirement, Assemble, Setup Microcomputer, Computer Systems
No ratings yet
Hardware and Software Requirement, Assemble, Setup Microcomputer, Computer Systems
5 pages
Bagging Trees & Random Forests Guide
No ratings yet
Bagging Trees & Random Forests Guide
50 pages
Coupa - Software Engineer - Performance
No ratings yet
Coupa - Software Engineer - Performance
2 pages
RNN Scheduling & GRU-LSTM Insights
No ratings yet
RNN Scheduling & GRU-LSTM Insights
36 pages
INFA Product Lifecycle Guide v2024 05
No ratings yet
INFA Product Lifecycle Guide v2024 05
12 pages
Srilatha's Resume
No ratings yet
Srilatha's Resume
1 page
APC AP8853 Metered Rack PDU Data Sheet
No ratings yet
APC AP8853 Metered Rack PDU Data Sheet
2 pages
PLX3x-EIP-MBTCP Migration Guide
No ratings yet
PLX3x-EIP-MBTCP Migration Guide
4 pages
Assist Remove Quiz
No ratings yet
Assist Remove Quiz
17 pages
SPM Lecture 2 ScopeManagement
No ratings yet
SPM Lecture 2 ScopeManagement
40 pages
LinkClick Aspx PDF
No ratings yet
LinkClick Aspx PDF
78 pages
GSM - Mobility - Important Paramaters
No ratings yet
GSM - Mobility - Important Paramaters
12 pages
Nokia n9 rm-696 Service Schematics v1
No ratings yet
Nokia n9 rm-696 Service Schematics v1
12 pages

Preprocessing

Uploaded by

Preprocessing

Uploaded by

Data Preprocessing

Why Data Preprocessing?

• Data cleaning tasks

You might also like