0% found this document useful (0 votes)

23 views19 pages

Unit 1

Data mining is the process of extracting knowledge from large data sets using statistical and computational techniques to discover patterns and relationships for informed decision-making. It has applications across various industries, including marketing and healthcare, and is part of the broader Knowledge Discovery in Data (KDD) process, which involves several steps from data cleaning to knowledge presentation. The document also discusses the evolution of database technology, the difference between KDD and data mining, and the functionalities and issues associated with data mining.

Uploaded by

vaibhav.21scse1011450

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

23 views19 pages

Unit 1

Uploaded by

vaibhav.21scse1011450

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 19

School of Computing Science and Engineering

Course Code : Course Name: Data mining and web Algo

Unit – 1
Data Mining

Faculty Name: Mr. Soumalya Ghosh Program Name: B.Tech CSE

What is Data Mining?

• Data mining is the process of

– extracting knowledge or insights from large amounts of data
• using various statistical and computational techniques.
• The primary goal of data mining
– is to discover hidden patterns and relationships in the data that can be used
to make informed decisions or predictions.
What is Data Mining?

• This involves exploring the data using various techniques such as

– Clustering
– Classification
– regression analysis,
– association rule mining
– anomaly detection.
Data Mining: Applications

• Data mining has a wide range of applications across various industries,

including marketing, finance, healthcare, and telecommunications.
• For example,
– in marketing,
• data mining can be used to identify customer segments and target marketing
campaigns
– in healthcare
• it can be used to identify risk factors for diseases and develop personalized
treatment plans.
Evolution of Database Technology

• The Explosive Growth of Data: from terabytes to petabytes

– Data collection and data availability
• Automated data collection tools, database systems, Web, computerized society
– Major sources of abundant data
• Business: Web, e-commerce, transactions, stocks, …
• Science: Remote sensing, bioinformatics, scientific simulation, …
• Society and everyone: news, digital cameras, YouTube
• We are drowning in data, but starving for knowledge!
• “Necessity is the mother of invention”—Data mining—Automated analysis of massive data
sets
Why it is called Data Mining?

• Simply stated, data mining refers to extracting or “mining” knowledge from

large amounts of data.
• The term is actually a misnomer.
– Remember that the mining of gold from rocks or sand is referred to as gold
mining rather than rock or sand mining.
– Thus, data mining should have been more appropriately named “knowledge
mining from data,” which is unfortunately somewhat long.
– “Knowledge mining,” a shorter term, may not reflect the emphasis on mining
from large amounts of data.
• Thus, such a misnomer that carries both “data” and “mining” became a
popular choice.
Why it is called Data Mining?

• Many other terms carry a similar or slightly different meaning to data

mining, such as
– knowledge mining from data,
– knowledge extraction,
– data/pattern analysis,
– data archaeology
– data dredging
• Many people treat data mining as a synonym for another popularly used
term, Knowledge Discovery from Data, or KDD
• Alternatively, others view data mining as simply an essential step in the
process of knowledge discovery
Data mining as a step in the process of knowledge discovery

• 1. Data cleaning (to remove noise and inconsistent data)

• 2. Data integration (where multiple data sources may be combined)
• 3. Data selection (where data relevant to the analysis task are retrieved from the database)
• 4. Data transformation (where data are transformed or consolidated into forms
appropriate for mining by performing summary or aggregation operations, for instance)
• 5. Data mining (an essential process where intelligent methods are applied in order to
• extract data patterns)
• 6. Pattern evaluation (to identify the truly interesting patterns representing knowledge
• based on some interestingness measures)
• 7. Knowledge presentation (where visualization and knowledge representation techniques
are used to present the mined knowledge to the user)
Knowledge Discovery (KDD) Process

– Data mining—core of
Pattern Evaluation
knowledge discovery
process
Data Mining

Task-relevant Data

Data Warehouse Selection

Data Cleaning

Data Integration

Databases
Difference between KDD and Data Mining

• Although the two terms KDD and Data Mining are heavily used interchangeably,
they refer to two related yet slightly different concepts.

• KDD is the overall process of extracting knowledge from data, while Data Mining
is a step inside the KDD process, which deals with identifying patterns in data.

• And Data Mining is only the application of a specific algorithm based on the
overall goal of the KDD process.

• KDD is an iterative process where evaluation measures can be enhanced, mining

can be refined, and new data can be integrated and transformed to get different
and more appropriate results.
Data Mining and Business Intelligence

Increasing potential
to support
business decisions End User
Decision
Making

Data Presentation Business

Analyst
Visualization Techniques
Data Mining Data
Information Discovery Analyst

Data Exploration
Statistical Summary, Querying, and Reporting

Data Preprocessing/Integration, Data Warehouses

DBA
Data Sources
Paper, Files, Web documents, Scientific experiments, Database Systems
Architecture: Typical Data Mining System

Graphical User Interface

Pattern Evaluation
Knowl
Data Mining Engine edge-
Base
Database or Data Warehouse
Server

data cleaning, integration, and selection

Data World-Wide Other Info

Database Repositories
Warehouse Web
Data Mining: Confluence of Multiple Disciplines

Database
Technology Statistics

Machine Visualization
Data Mining
Learning

Pattern
Recognition Other
Algorithm Disciplines
Data Mining: On What Kinds of Data?

• Database-oriented data sets and applications

– Relational database, data warehouse, transactional database
• Advanced data sets and advanced applications
– Data streams and sensor data
– Time-series data, temporal data, sequence data (incl. bio-sequences)
– Structure data, graphs, social networks and multi-linked data
– Object-relational databases
– Heterogeneous databases and legacy databases
– Spatial data and spatiotemporal data
– Multimedia database
– Text databases
– The World-Wide Web
Data Mining Functionalities

• Multidimensional concept description: Characterization and discrimination

– Generalize, summarize, and contrast data characteristics, e.g., dry vs. wet regions
• Frequent patterns, association, correlation vs. causality
– Diaper  Beer [0.5%, 75%] (Correlation or causality?)
• Classification and prediction
– Construct models (functions) that describe and distinguish classes or concepts for
future prediction
• E.g., classify countries based on (climate), or classify cars based on (gas mileage)
– Predict some unknown or missing numerical values
Data Mining Functionalities

• Cluster analysis
– Class label is unknown: Group data to form new classes, e.g., cluster houses to find
distribution patterns
– Maximizing intra-class similarity & minimizing interclass similarity
• Outlier analysis
– Outlier: Data object that does not comply with the general behavior of the data
– Noise or exception? Useful in fraud detection, rare events analysis
• Trend and evolution analysis
– Trend and deviation: e.g., regression analysis
– Sequential pattern mining: e.g., digital camera  large SD memory
– Periodicity analysis
– Similarity-based analysis
• Other pattern-directed or statistical analyses
Data Mining - Issues
Data Mining - Issues

• Mining methodology
– Mining different kinds of knowledge from diverse data types, e.g., bio, stream, Web
– Performance: efficiency, effectiveness, and scalability
– Pattern evaluation: the interestingness problem
– Incorporation of background knowledge
– Handling noise and incomplete data
– Parallel, distributed and incremental mining methods
– Integration of the discovered knowledge with existing one: knowledge fusion
• User interaction
– Data mining query languages and ad-hoc mining
– Expression and visualization of data mining results
– Interactive mining of knowledge at multiple levels of abstraction
• Applications and social impacts
– Domain-specific data mining & invisible data mining
– Protection of data security, integrity, and privacy
Data Mining Applications

DMM Finals
No ratings yet
DMM Finals
30 pages
DWDM 1
No ratings yet
DWDM 1
17 pages
What Is Data Mining?
No ratings yet
What Is Data Mining?
35 pages
Intro Data Mining
No ratings yet
Intro Data Mining
51 pages
01 Intro
No ratings yet
01 Intro
23 pages
01 - Introduction To Datamining
No ratings yet
01 - Introduction To Datamining
19 pages
Unit 3
No ratings yet
Unit 3
23 pages
21IS503 UnitII LM5
No ratings yet
21IS503 UnitII LM5
20 pages
DM Introduction-SSM
No ratings yet
DM Introduction-SSM
6 pages
Lecture 1
No ratings yet
Lecture 1
37 pages
1712060004 (1)
No ratings yet
1712060004 (1)
25 pages
1 - 1 Intro To Data Mining - ch1
No ratings yet
1 - 1 Intro To Data Mining - ch1
18 pages
Datamining&warehousing
No ratings yet
Datamining&warehousing
65 pages
Data Mining Concepts
No ratings yet
Data Mining Concepts
35 pages
CIS 467 - Topic 1 - Introduction - 2020
No ratings yet
CIS 467 - Topic 1 - Introduction - 2020
79 pages
Week-1-Introduction To Data Mining
No ratings yet
Week-1-Introduction To Data Mining
43 pages
DB 14
No ratings yet
DB 14
97 pages
DM Unit - 3
No ratings yet
DM Unit - 3
10 pages
FALLSEM2025 26 - VL - ISWE209L - 00100 - TH - 2025 07 31 - Course Material For Module 1
No ratings yet
FALLSEM2025 26 - VL - ISWE209L - 00100 - TH - 2025 07 31 - Course Material For Module 1
31 pages
Unit - I
No ratings yet
Unit - I
22 pages
Data Mining
No ratings yet
Data Mining
88 pages
Data Analysis-2
No ratings yet
Data Analysis-2
41 pages
UNIT 5 Introduction To Data Mining-1
No ratings yet
UNIT 5 Introduction To Data Mining-1
185 pages
Mehrdad Jalali: Jalali@mshdiau - Ac.ir Jalali - Mshdiau.ac - Ir
No ratings yet
Mehrdad Jalali: Jalali@mshdiau - Ac.ir Jalali - Mshdiau.ac - Ir
27 pages
2 DM Module 1 Introduction DVS
No ratings yet
2 DM Module 1 Introduction DVS
81 pages
Week 02 PDF
No ratings yet
Week 02 PDF
39 pages
Unit 1
No ratings yet
Unit 1
148 pages
LECTURE 1 Data Mining
No ratings yet
LECTURE 1 Data Mining
41 pages
Chapter 1 - Tagged
No ratings yet
Chapter 1 - Tagged
46 pages
5 Data Mining Proccess and Techniques - Week 7
No ratings yet
5 Data Mining Proccess and Techniques - Week 7
61 pages
01 Intro
No ratings yet
01 Intro
45 pages
Data Mining: Applications and Techniques
No ratings yet
Data Mining: Applications and Techniques
60 pages
IS414: Data Mining: DR - Waleed M.Ead
No ratings yet
IS414: Data Mining: DR - Waleed M.Ead
36 pages
01 Intro
No ratings yet
01 Intro
40 pages
Course: COMP6140 - Data Mining Effective Period: September 2017
No ratings yet
Course: COMP6140 - Data Mining Effective Period: September 2017
24 pages
01 - Data Mining Introduction
No ratings yet
01 - Data Mining Introduction
21 pages
Data Mining for Business Analysts
No ratings yet
Data Mining for Business Analysts
21 pages
Data Mining Note
No ratings yet
Data Mining Note
79 pages
Chapter 1 Intro
No ratings yet
Chapter 1 Intro
23 pages
Data Mining
No ratings yet
Data Mining
395 pages
Inf 444e - Datamining N Advanced Databases Introduction 2019
No ratings yet
Inf 444e - Datamining N Advanced Databases Introduction 2019
32 pages
Data Mining Essentials for Analysts
No ratings yet
Data Mining Essentials for Analysts
35 pages
Data Mining
No ratings yet
Data Mining
13 pages
Introduction
No ratings yet
Introduction
26 pages
Combine 056
No ratings yet
Combine 056
57 pages
01 Intro 1
No ratings yet
01 Intro 1
33 pages
01 Introduction
No ratings yet
01 Introduction
36 pages
DM Module1
No ratings yet
DM Module1
15 pages
DWDM LS1 Fall 24 25
No ratings yet
DWDM LS1 Fall 24 25
42 pages
DM-Unit 1
No ratings yet
DM-Unit 1
110 pages
01 Intro
No ratings yet
01 Intro
29 pages
Unit III
No ratings yet
Unit III
101 pages
Data Mining Basics for Beginners
No ratings yet
Data Mining Basics for Beginners
59 pages
2 Data Mining
No ratings yet
2 Data Mining
20 pages
5-Introduction To Data Mining, Steps in Data Mining Process-06!01!2025
No ratings yet
5-Introduction To Data Mining, Steps in Data Mining Process-06!01!2025
21 pages
Introduction To Data Mining-Week1
No ratings yet
Introduction To Data Mining-Week1
43 pages
Data Mining for Business Insights
100% (1)
Data Mining for Business Insights
39 pages
Chapter 1 DM
No ratings yet
Chapter 1 DM
20 pages
Introduction To Data Mining
No ratings yet
Introduction To Data Mining
43 pages
RuBIMS: Bridge Data System for LGED
No ratings yet
RuBIMS: Bridge Data System for LGED
32 pages
Search Engine
No ratings yet
Search Engine
19 pages
Generative AI Applications
No ratings yet
Generative AI Applications
44 pages
Perbandingan Akurasi Euclidean Distance, Minkowski Distance, Dan Manhattan Distance Pada Algoritma K-Means Clustering Berbasis Chi-Square
No ratings yet
Perbandingan Akurasi Euclidean Distance, Minkowski Distance, Dan Manhattan Distance Pada Algoritma K-Means Clustering Berbasis Chi-Square
6 pages
Memory Hierarchy - Primary and Secondary Memory GET 211
No ratings yet
Memory Hierarchy - Primary and Secondary Memory GET 211
4 pages
DBMS 2024
No ratings yet
DBMS 2024
3 pages
Zero Trust Cybersecurity Maturity Tool
No ratings yet
Zero Trust Cybersecurity Maturity Tool
132 pages
MIS: Comprehensive Overview & Benefits
No ratings yet
MIS: Comprehensive Overview & Benefits
34 pages
Relevance Feedback
No ratings yet
Relevance Feedback
47 pages
Excel for Data Visualization
100% (1)
Excel for Data Visualization
72 pages
Online Platforms & Internet Learning Guide
100% (1)
Online Platforms & Internet Learning Guide
21 pages
Mca 501 Data Warehousing and Mining Jun 2020
No ratings yet
Mca 501 Data Warehousing and Mining Jun 2020
2 pages
Backing Storage
No ratings yet
Backing Storage
16 pages
Netflix DataScience CaseStudy
No ratings yet
Netflix DataScience CaseStudy
4 pages
DBMS Important Questions Answers
No ratings yet
DBMS Important Questions Answers
10 pages
Microfilming: DR/ Wafaa Mustafa DR/ Hanan Meselhy
No ratings yet
Microfilming: DR/ Wafaa Mustafa DR/ Hanan Meselhy
12 pages
DWDM All Units
No ratings yet
DWDM All Units
102 pages
SQL & RDBMS Study Guide
No ratings yet
SQL & RDBMS Study Guide
3 pages
Data Science & Analytics: Course Code: CSE3105 Credits: 02 Credit Hours: 02/week Exam Hours: 03
No ratings yet
Data Science & Analytics: Course Code: CSE3105 Credits: 02 Credit Hours: 02/week Exam Hours: 03
2 pages
Telecom Call Silence Issue Report
No ratings yet
Telecom Call Silence Issue Report
38 pages
ICT and Web Evolution Overview
No ratings yet
ICT and Web Evolution Overview
72 pages
Car Owner Database - CL 8826460912
27% (11)
Car Owner Database - CL 8826460912
3 pages
Master's in Business Administration (MBA) : A Project Report On Management Information System
No ratings yet
Master's in Business Administration (MBA) : A Project Report On Management Information System
20 pages
Niyathi ServiceNow
No ratings yet
Niyathi ServiceNow
6 pages
ITTO
No ratings yet
ITTO
3 pages
Chapter 4 Managing Marketing Information To Gain Customer Insights
100% (1)
Chapter 4 Managing Marketing Information To Gain Customer Insights
32 pages
AI Agent Studio Dumps
No ratings yet
AI Agent Studio Dumps
10 pages
ML 06 Multiclass
No ratings yet
ML 06 Multiclass
11 pages
SAP - All Types of Testing
No ratings yet
SAP - All Types of Testing
5 pages
01 LCD Slides 1
No ratings yet
01 LCD Slides 1
35 pages

Unit 1

Uploaded by

Unit 1

Uploaded by

School of Computing Science and Engineering

Course Code : Course Name: Data mining and web Algo

Faculty Name: Mr. Soumalya Ghosh Program Name: B.Tech CSE

• Data mining is the process of

• This involves exploring the data using various techniques such as

• Data mining has a wide range of applications across various industries,

• The Explosive Growth of Data: from terabytes to petabytes

• Simply stated, data mining refers to extracting or “mining” knowledge from

• Many other terms carry a similar or slightly different meaning to data

• 1. Data cleaning (to remove noise and inconsistent data)

Data Warehouse Selection

• KDD is an iterative process where evaluation measures can be enhanced, mining

Data Presentation Business

Data Preprocessing/Integration, Data Warehouses

Graphical User Interface

data cleaning, integration, and selection

Data World-Wide Other Info

• Database-oriented data sets and applications

• Multidimensional concept description: Characterization and discrimination

You might also like