0% found this document useful (0 votes)

4 views14 pages

DWDM

dont worry dm

Uploaded by

kanagavalli.manavalan

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

4 views14 pages

DWDM

dont worry dm

Uploaded by

kanagavalli.manavalan

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 14

21AD1901 – DATA WAREHOUSING AND DATA MINING (DWDM)

2 Marks Answers:

1. Characteristics of Data Warehousing with examples

• Subject-Oriented: Organized around subjects like sales, customers.

• Integrated: Data from multiple sources is unified.
• Time-Variant: Historical data is stored (e.g., sales trends across years).
• Non-Volatile: Data is read-only (not updated).

2. Purpose of ETL in Data Warehousing

ETL (Extract, Transform, Load) extracts data from sources, cleans & formats it, and loads it into
the warehouse.
Example: Extract sales from ERP, standardize currency, load into warehouse.

3. Data Warehouse difference from Database

• Database: Stores current transactional data, optimized for daily operations (OLTP).
• Data Warehouse: Stores historical, integrated data, optimized for analysis (OLAP).

4. Facts and dimensions in Data Warehouse

• Facts: Numerical measures (e.g., sales amount, profit).

• Dimensions: Descriptive context (e.g., time, product, region).

5. KDD steps / KDD Process steps involved

Steps:

1. Data Cleaning
2. Data Integration
3. Data Selection
4. Data Transformation
5. Data Mining
6. Pattern Evaluation
7. Knowledge Presentation

6. Primary goals of data preprocessing

• Improve data quality (remove noise, fill missing values).

• Ensure consistency & accuracy.
• Prepare data for mining (transformation, reduction).

7. Cosine Similarity of X & Y

X = (5,0,3,0,2,0,0,2,0,0)
Y = (3,0,2,0,1,1,0,1,0,1)

Formula:

Cosine Similarity = (X . Y) / ||X|| × ||Y||

Dot Product:

X . Y = (5 × 3) + (3 × 2) + (2 × 1) + (2 × 1) = 15 + 6 + 2 + 2 = 25

||X|| = √(5²+3²+2²+2²) = √42 ≈ 6.48

||Y|| = √(3²+2²+1²+1²+1²) = √16 = 4

So, cosine similarity = 25/25.92 = 0.92 (approx.)

8. Techniques and tools available in visualization

• Techniques: Pie charts, Bar charts, Histograms, Scatter plots, Heatmaps.

• Tools: Tableau, Power BI, Matplotlib, D3.js.
9. Frequent patterns in the content of data mining
Frequent patterns = recurring relationships.
Examples:

• Item sets: milk & bread often bought together.

• Sequences: buy PC → then buy printer.
• Substructures: repeating graph/tree patterns.

10. Supports and confidence used in frequent pattern analysis

• Support (s): Frequency of occurrence of an itemset in all transactions.

• Confidence (c): Probability that if X occurs, Y also occurs.
Example: buys(diaper) → buys(beer) with s=50%, c=60%.

13 Marks Answers:

11 a). Data Warehousing Multilayer Architecture

Introduction:
A data warehouse is not just a single database, but a complete system for storing historical data
and analyzing it for decision making. To make it efficient, it is built in multiple layers, each
performing a clear function. The standard model is the three-tier architecture.

Layers:

1. Bottom Tier – Data Sources and ETL

o Includes operational databases (like sales DB, HR DB, ERP) and external
data (market data, CSV files).
o ETL process extracts data, cleans it, transforms it, and loads it into a staging
area.
o Example: Sales data from an ERP and marketing data from social media
combined together.
2. Middle Tier – Data Warehouse Server (OLAP Engine)
o Contains the integrated database storing historical and current data.
o Supports schemas like star or snowflake.
o OLAP engine allows multidimensional queries (roll-up, drill-down).
3. Top Tier – Front-End Tools (User Layer)
o Business users interact using tools such as Power BI, Tableau, SQL-based
reports.
o Provides dashboards, charts, and decision support.

Diagram (exam-ready):

Data Sources (ERP, CRM, Files) → ETL → Data Warehouse (schemas, OLAP) → Users
(Reports, BI Tools)

Conclusion:
This architecture separates storage, processing, and presentation, making data warehouses
scalable, flexible, and reliable for business intelligence.

11 b). Data Warehouse Schemas for Decision Support

Introduction:
A schema is the logical design of how data is stored. In data warehousing, schema design helps
in decision support queries. The main schemas are Star, Snowflake, and Galaxy (Fact
Constellation).

Types:

1. Star Schema:
o Has one fact table (numeric measures) at the center and several dimension
tables around it.
o Example: Sales Fact Table → Time, Product, Customer, Region.
o Advantage: Simple, fast query performance, widely supported.
o Disadvantage: Data redundancy since dimensions are denormalized.
2. Snowflake Schema:
o A normalized version of star schema where dimensions are broken into sub-
dimensions.
o Example: Product → Category → Brand.
o Advantage: Saves storage, avoids redundancy.
o Disadvantage: Requires more joins, slower queries.
3. Galaxy / Fact Constellation Schema:
o Contains multiple fact tables sharing common dimensions.
o Example: Sales Fact + Shipping Fact sharing Time & Location dimensions.
o Advantage: Handles complex business models, multiple processes.
o Disadvantage: Complex design, hard to maintain.

Diagram:

• Star = simple star shape with one fact in center.

• Snowflake = fact with branched dimensions.
• Galaxy = two facts connected to shared dimensions.

Conclusion:

• Star → simple & fast.

• Snowflake → storage-efficient.
• Galaxy → supports complex businesses.

12 a) OLAP Operations

Introduction:
OLAP (Online Analytical Processing) supports fast analysis of multidimensional data in a data
warehouse. It allows users to view data from different angles.

Main Operations:

1. Roll-up: Aggregating data to a higher level.

o Example: Sales by month → quarter → year.
2. Drill-down: Moving to more detailed data.
o Example: Sales by year → quarter → month.
3. Slice: Fixing one dimension to see a single layer.
o Example: Sales in 2024 only.
4. Dice: Selecting multiple dimensions.
o Example: Sales in 2024, in Asia, for Mobiles.
5. Pivot (Rotate): Reorienting data view.
o Example: Swap rows and columns to view sales by product vs region.

Diagram:
Draw a cube: show slicing one layer, drilling down into detail.

Conclusion:
OLAP operations provide flexibility and allow managers to explore data interactively,
improving decisions.

12 b). OLAP Server Architecture & OLAP vs OLTP

OLAP Server Types:

1. MOLAP (Multidimensional OLAP): Uses pre-built cubes. Fast for queries, but large
storage.
2. ROLAP (Relational OLAP): Uses relational DB with star/snowflake schemas. Good
for large data, slower queries.
3. HOLAP (Hybrid OLAP): Combines both—summary stored in MOLAP, details in
ROLAP.

OLAP vs OLTP:

Feature OLAP (Analysis) OLTP (Transactions)

Purpose Analysis, decision support Routine transactions

Data Historical, summarized Current, operational

Queries Complex, read-heavy Simple, write-heavy

Example Sales trends report Banking transaction

Conclusion:
OLAP is for decision support; OLTP is for day-to-day operations. Both complement each
other.

13 a). Data Mining Steps & Architecture

Steps (KDD Process):

1. Data Cleaning – remove noise/missing values.

2. Data Integration – merge from multiple sources.
3. Data Selection – choose relevant attributes.
4. Data Transformation – convert formats.
5. Data Mining – apply algorithms (clustering, classification).
6. Pattern Evaluation – filter interesting patterns.
7. Knowledge Presentation – use visualization (rules, graphs).

Architecture Components:

• Database/Data Warehouse Server – provides input data.

• Knowledge Base – stores background knowledge.
• Data Mining Engine – core algorithms.
• Pattern Evaluation Module – checks interestingness.
• User Interface – communicates results to users.
Diagram:
Show flow: Database → Mining Engine → Evaluation → User Interface.

Conclusion:
The KDD process ensures only useful and valid knowledge is discovered.

13 b). Role of Data Cleaning & Data Integration

Data Cleaning:

• Fixes missing, noisy, inconsistent data.

• Methods: mean substitution, binning, clustering, regression.
• Example: Replacing missing age with average value.

Data Integration:

• Combines data from multiple sources.

• Removes redundancy & conflicts.
• Example: Same customer appearing in ERP & CRM merged.

Conclusion:
Both cleaning and integration are crucial preprocessing steps, improving quality before mining.

14 a). Data Transformation Methods

Definition: Changing data into suitable form for mining.

Methods:

1. Smoothing – remove noise (binning, regression).

2. Aggregation – summary data (daily → monthly sales).
3. Normalization – scale to range [0,1] (min-max, z-score).
4. Attribute Construction – create new attributes (BMI from weight & height).
5. Discretization – convert continuous → categorical (age → {child, adult}).

Conclusion:
Transformation ensures data is comparable, standardized, and ready for analysis.
14 b). Attribute Types & Choice of Mining Algorithms

• Nominal (Categories):
o Examples: eye color, gender.
o Algorithms: decision trees, clustering (k-modes).
• Ordinal (Ranked):
o Examples: grades (A, B, C), height {short, medium, tall}.
o Algorithms: regression trees, ranking models.
• Interval (Equal spacing, no true zero):
o Examples: temperature in °C, calendar dates.
o Algorithms: linear regression, correlation analysis.
• Ratio (True zero):
o Examples: weight, time, counts.
o Algorithms: statistical analysis, clustering, classification.

Conclusion:
Choosing correct algorithm based on attribute type ensures valid and accurate results.

15 a). Vertical Data Points – Apriori

Apriori Algorithm:

• Mines frequent itemsets using candidate generation + pruning.

• Rule: If a set is frequent, all its subsets must also be frequent.

Vertical Format (TID-lists):

• Instead of scanning full DB, store each item with list of transaction IDs.
• Example:
o A: {T1, T2, T5}
o B: {T2, T4}
o Intersection gives support for {A,B}.

Conclusion:
Using vertical data points speeds up Apriori by avoiding repeated scans.

15 b). Interesting Patterns & Pattern Evaluation

Interesting Patterns:
• Not all patterns are useful.
• A pattern is interesting if:
o Valid on test data.
o Useful and actionable.
o Novel or unexpected.
o Understandable to users.

Measures of Interestingness:

• Support: frequency.
• Confidence: reliability.
• Lift/Correlation: measures dependency.

Pattern Evaluation:

• Done after mining to filter unimportant patterns.

• Uses thresholds (min_support, min_confidence).

Conclusion:
Pattern evaluation ensures results are relevant and valuable for decision making.

15 Marks Answers:

16 a). Statistical Description of Data in Data Mining

Introduction:
In data mining, statistical description is the process of summarizing and presenting the main
features of a dataset using numerical and graphical measures. It helps to understand the
distribution, spread, and central tendency of data before applying mining techniques.

Types of Statistical Measures

1. Measures of Central Tendency

o Mean (Average):

Mean = Sumof(X) / N
• Median: Middle value when data is sorted. Robust to outliers.
• Mode: Most frequent value.

2. Measures of Dispersion (Spread)

o Range: Difference between max and min values.
o Variance & Standard Deviation: Shows spread around the mean.

Variance = Sumof (X – X’)^2 / N

3. Measures of Distribution Shape

o Skewness: Asymmetry in data distribution.
▪ Positive skew → long right tail (income data).
▪ Negative skew → long left tail.
o Kurtosis: Whether data has heavy tails or is flat.
4. Graphical Descriptions
o Histograms: Frequency distribution.
o Boxplots: Median, quartiles, outliers.
o Scatter plots: Relation between two variables.

Why is Statistical Description Important in Data Mining?

• Provides initial insight into the dataset.

• Detects outliers, skewness, missing values.
• Guides algorithm selection (e.g., skewed data may need normalization).
• Helps compare datasets (customer age vs income distribution).

Example:

Consider 5 exam scores: 50, 60, 70, 90, 100

• Mean = 74
• Median = 70
• Mode = None (no repetition)
• Range = 100 - 50 = 50
• Standard Deviation ≈ 20

This shows the class has wide performance spread.

Conclusion:
Statistical description is a fundamental preprocessing step in data mining. It provides a
compact summary, helps understand patterns, and ensures that later mining results are accurate
and meaningful.

16 b) FP-Growth Algorithm (with Given Dataset)

Introduction:
The FP-Growth algorithm is used for frequent pattern mining without generating candidate
sets like Apriori. It uses an FP-tree (Frequent Pattern Tree) and mines frequent itemsets
directly, making it faster for large datasets.

Dataset Given:
Transaction Items Bought

T100 M, O, N, K, E, Y

T200 D, O, N, K, E, Y

T300 M, A, K, E

T400 M, U, C, K, Y

T500 C, O, O, K, I, E

Minimum Support = 60% = 3 transactions

(3 out of 5 transactions must contain the itemset).

Step 1: Count Item Frequencies

• M→3
• O→3
• N→2
• K→5
• E→4
• Y→3
• D→1
• A→1
• U→1
• C→2
• I→1

Items with support ≥ 3 (Frequent):

{K:5, E:4, M:3, O:3, Y:3}

Discard {N, D, A, U, C, I}.

Step 2: Order Items by Frequency in Each Transaction

Reorder transactions by descending frequency order (K > E > M > O > Y):

• T100: K, E, M, O, Y
• T200: K, E, O, Y
• T300: K, E, M
• T400: K, M, Y
• T500: K, E, O

Step 3: Construct FP-Tree

1. Root → K
2. K branches:
o K→E→M→O→Y
o K→E→O→Y
o K→E→M
o K→M→Y
o K→E→O

Final FP-Tree Paths:

• K-E-M-O-Y
• K-E-O-Y
• K-E-M
• K-M-Y
• K-E-O
Step 4: Extract Frequent Patterns

Start from lowest frequency items upward:

• From Y: {K,Y}, {K,E,Y}, {K,M,Y}, {K,O,Y}

• From O: {K,O}, {K,E,O}, {K,O,Y}, {K,E,O,Y}
• From M: {K,M}, {K,E,M}, {K,M,Y}, {K,E,M,Y}
• From E: {K,E}, {K,E,M}, {K,E,O}, {K,E,Y}, {K,E,O,Y}, {K,E,M,Y}
• From K: {K}

Final Frequent Itemsets (Support ≥ 3):

• {K} → 5
• {E} → 4
• {M} → 3
• {O} → 3
• {Y} → 3
• {K,E} → 4
• {K,M} → 3
• {K,O} → 3
• {K,Y} → 3
• {K,E,O} → 3

Conclusion:
The FP-Growth algorithm efficiently finds frequent patterns without generating candidates.
Frequent itemsets include {K,E}, {K,M}, {K,O}, {K,Y}, {K,E,O}, which can later be used
for association rules like:
“If a customer buys K and E, they are likely to buy O.”

That’s your 15-mark set done in full detail.

Would you like me to now create a condensed “last-day revision notes” sheet for all 2, 13, and
15 mark questions combined, so you can revise quickly before exams?

DW&DM Material
No ratings yet
DW&DM Material
107 pages
DWDMS 23ad1901
No ratings yet
DWDMS 23ad1901
7 pages
DWDM
No ratings yet
DWDM
19 pages
Data Mining: Concepts and Techniques
No ratings yet
Data Mining: Concepts and Techniques
70 pages
DataMining Notes BBIS 2025
No ratings yet
DataMining Notes BBIS 2025
74 pages
Introduction To Data Warehouse
No ratings yet
Introduction To Data Warehouse
17 pages
Datawarehouse and Data Mining Final Notes
No ratings yet
Datawarehouse and Data Mining Final Notes
9 pages
Multitier DW Architecture & Implementation
No ratings yet
Multitier DW Architecture & Implementation
63 pages
CSEP 546 Data Mining: Instructor: Pedro Domingos
No ratings yet
CSEP 546 Data Mining: Instructor: Pedro Domingos
63 pages
Ai Pass
No ratings yet
Ai Pass
12 pages
Data Mining Course Overview
No ratings yet
Data Mining Course Overview
63 pages
DWDM
No ratings yet
DWDM
11 pages
Solutions For Data Warehousing 7
No ratings yet
Solutions For Data Warehousing 7
18 pages
Elaborated DWH DataMining Assignment Answers
No ratings yet
Elaborated DWH DataMining Assignment Answers
8 pages
Lecture 1 & 2
No ratings yet
Lecture 1 & 2
14 pages
Data Mininng
No ratings yet
Data Mininng
11 pages
Chapter-2 DM
No ratings yet
Chapter-2 DM
23 pages
Data Warehouse
No ratings yet
Data Warehouse
19 pages
Data Warehousing for Analysts
No ratings yet
Data Warehousing for Analysts
40 pages
MultiDimensional Data Model
No ratings yet
MultiDimensional Data Model
22 pages
Data Mining Cat
No ratings yet
Data Mining Cat
6 pages
Adbms Unit5
No ratings yet
Adbms Unit5
10 pages
DMDW Chapter 1
No ratings yet
DMDW Chapter 1
31 pages
Data Warehouse and Data Mining Syllabus
No ratings yet
Data Warehouse and Data Mining Syllabus
5 pages
04OLAP
No ratings yet
04OLAP
50 pages
DW Concepts
No ratings yet
DW Concepts
40 pages
Resume 1
100% (1)
Resume 1
106 pages
Data Warehousing - Data Mining CSE - IT (4th Year) Engineering Lecture Notes, Ebook PDF Download
No ratings yet
Data Warehousing - Data Mining CSE - IT (4th Year) Engineering Lecture Notes, Ebook PDF Download
146 pages
DM-M1-PPT v1.11
No ratings yet
DM-M1-PPT v1.11
84 pages
Unit 1
No ratings yet
Unit 1
99 pages
1.introduction To Data Warehouse
No ratings yet
1.introduction To Data Warehouse
26 pages
Data Warehouse and Mining Techmax - Compressed
No ratings yet
Data Warehouse and Mining Techmax - Compressed
429 pages
DWM Q Bank
No ratings yet
DWM Q Bank
16 pages
Module 3 DM
No ratings yet
Module 3 DM
9 pages
Introduction to Data Warehousing
No ratings yet
Introduction to Data Warehousing
80 pages
Data Mining & KDD Overview
No ratings yet
Data Mining & KDD Overview
63 pages
OLAP and Data Mining
No ratings yet
OLAP and Data Mining
27 pages
Data Mining & Business Intelligence
No ratings yet
Data Mining & Business Intelligence
322 pages
Internship
No ratings yet
Internship
12 pages
Chapter 13 - Data Warehousing
No ratings yet
Chapter 13 - Data Warehousing
31 pages
DW Question Paper 3
No ratings yet
DW Question Paper 3
4 pages
Cat Data Mining
No ratings yet
Cat Data Mining
4 pages
Ctit QB Solution-U1
No ratings yet
Ctit QB Solution-U1
12 pages
DWM 2
No ratings yet
DWM 2
31 pages
Data Mining and Data Warehouse Guide
No ratings yet
Data Mining and Data Warehouse Guide
10 pages
Data Warehousing and Mining - TE7255
No ratings yet
Data Warehousing and Mining - TE7255
3 pages
Data Warehousing and Data Mining
100% (1)
Data Warehousing and Data Mining
30 pages
Lecture 2.1.1 2.1.2
No ratings yet
Lecture 2.1.1 2.1.2
19 pages
Data Mining - GDi Techno Solutions
No ratings yet
Data Mining - GDi Techno Solutions
145 pages
List Data Warehouse Models With Example
No ratings yet
List Data Warehouse Models With Example
19 pages
DMT Unit-1
No ratings yet
DMT Unit-1
59 pages
Data Mining - Assignment
No ratings yet
Data Mining - Assignment
15 pages
CH-2 Data Warehouse and OLAP
No ratings yet
CH-2 Data Warehouse and OLAP
24 pages
Data Warehousing and OLAP Technology
No ratings yet
Data Warehousing and OLAP Technology
51 pages
Data Mining and Data Warehousing
No ratings yet
Data Mining and Data Warehousing
73 pages
Ba Important
No ratings yet
Ba Important
13 pages
DM & W SQ
No ratings yet
DM & W SQ
15 pages
DeceptionGrid 7.3 CLI - SDK Developers Guide
No ratings yet
DeceptionGrid 7.3 CLI - SDK Developers Guide
59 pages
Flashback in ORACLE
No ratings yet
Flashback in ORACLE
17 pages
Notes On Introduction To Unix
No ratings yet
Notes On Introduction To Unix
87 pages
Answers 1. Critical Path: Found by Filtering "Critical Path"
No ratings yet
Answers 1. Critical Path: Found by Filtering "Critical Path"
1 page
CAEN RFID API Reference Manual Rev 04
No ratings yet
CAEN RFID API Reference Manual Rev 04
131 pages
Boot Hiren's CD from USB Guide
No ratings yet
Boot Hiren's CD from USB Guide
5 pages
Advance Bug Bounty Curriculum
No ratings yet
Advance Bug Bounty Curriculum
3 pages
Python ECS51005 Syllabus
No ratings yet
Python ECS51005 Syllabus
3 pages
Commands Autocad
No ratings yet
Commands Autocad
3 pages
Scanv 1.ru - en
No ratings yet
Scanv 1.ru - en
51 pages
Smart Attendance System Applying QR Code
No ratings yet
Smart Attendance System Applying QR Code
5 pages
Zcsalweemnharr Engkoh Bandahala: Personal Profile
No ratings yet
Zcsalweemnharr Engkoh Bandahala: Personal Profile
2 pages
JNTU Study Units & Exam Tips Guide
100% (1)
JNTU Study Units & Exam Tips Guide
4 pages
LLM Cheat Sheetpdf
No ratings yet
LLM Cheat Sheetpdf
7 pages
The Ultimate Web Design Guide - 100+ Tips
No ratings yet
The Ultimate Web Design Guide - 100+ Tips
3 pages
Userguide AE C2105-C2104 3 Android4.1
No ratings yet
Userguide AE C2105-C2104 3 Android4.1
126 pages
MMS VIVA Questions Overview
No ratings yet
MMS VIVA Questions Overview
3 pages
Gr5 Ta Scholarship Examination 2024 Model Paper
No ratings yet
Gr5 Ta Scholarship Examination 2024 Model Paper
18 pages
Elevator Group Control Settings Guide
No ratings yet
Elevator Group Control Settings Guide
13 pages
Engineering Inventory Management System
No ratings yet
Engineering Inventory Management System
1 page
SZGH 880tc 1080tc PLC Manual
No ratings yet
SZGH 880tc 1080tc PLC Manual
145 pages
IMS-CSET-201-Lab Assignment 2.4
No ratings yet
IMS-CSET-201-Lab Assignment 2.4
6 pages
DX Series Smart Edge Capture Device R1.6
No ratings yet
DX Series Smart Edge Capture Device R1.6
2 pages
TOS Chart Studies and Scans
No ratings yet
TOS Chart Studies and Scans
19 pages
HackSpace: Raspberry Pi Projects
100% (2)
HackSpace: Raspberry Pi Projects
100 pages
Smart Automation
No ratings yet
Smart Automation
3 pages
ASSDF Searchable
No ratings yet
ASSDF Searchable
95 pages
FSD Previous
No ratings yet
FSD Previous
6 pages
Main Concept of React Js
No ratings yet
Main Concept of React Js
68 pages
Adn Learn To Play v2 Lo
No ratings yet
Adn Learn To Play v2 Lo
32 pages

DWDM

Uploaded by

DWDM

Uploaded by

21AD1901 – DATA WAREHOUSING AND DATA MINING (DWDM)

1. Characteristics of Data Warehousing with examples

• Subject-Oriented: Organized around subjects like sales, customers.

2. Purpose of ETL in Data Warehousing

3. Data Warehouse difference from Database

4. Facts and dimensions in Data Warehouse

• Facts: Numerical measures (e.g., sales amount, profit).

5. KDD steps / KDD Process steps involved

6. Primary goals of data preprocessing

• Improve data quality (remove noise, fill missing values).

7. Cosine Similarity of X & Y

Cosine Similarity = (X . Y) / ||X|| × ||Y||

||X|| = √(5²+3²+2²+2²) = √42 ≈ 6.48

So, cosine similarity = 25/25.92 = 0.92 (approx.)

8. Techniques and tools available in visualization

• Techniques: Pie charts, Bar charts, Histograms, Scatter plots, Heatmaps.

• Item sets: milk & bread often bought together.

10. Supports and confidence used in frequent pattern analysis

• Support (s): Frequency of occurrence of an itemset in all transactions.

11 a). Data Warehousing Multilayer Architecture

1. Bottom Tier – Data Sources and ETL

11 b). Data Warehouse Schemas for Decision Support

• Star = simple star shape with one fact in center.

• Star → simple & fast.

1. Roll-up: Aggregating data to a higher level.

12 b). OLAP Server Architecture & OLAP vs OLTP

OLAP Server Types:

Feature OLAP (Analysis) OLTP (Transactions)

Purpose Analysis, decision support Routine transactions

Data Historical, summarized Current, operational

Queries Complex, read-heavy Simple, write-heavy

Example Sales trends report Banking transaction

13 a). Data Mining Steps & Architecture

Steps (KDD Process):

1. Data Cleaning – remove noise/missing values.

• Database/Data Warehouse Server – provides input data.

13 b). Role of Data Cleaning & Data Integration

• Fixes missing, noisy, inconsistent data.

• Combines data from multiple sources.

14 a). Data Transformation Methods

Definition: Changing data into suitable form for mining.

1. Smoothing – remove noise (binning, regression).

15 a). Vertical Data Points – Apriori

• Mines frequent itemsets using candidate generation + pruning.

Vertical Format (TID-lists):

15 b). Interesting Patterns & Pattern Evaluation

• Done after mining to filter unimportant patterns.

16 a). Statistical Description of Data in Data Mining

Types of Statistical Measures

1. Measures of Central Tendency

2. Measures of Dispersion (Spread)

Variance = Sumof (X – X’)^2 / N

3. Measures of Distribution Shape

Why is Statistical Description Important in Data Mining?

• Provides initial insight into the dataset.

Consider 5 exam scores: 50, 60, 70, 90, 100

This shows the class has wide performance spread.

16 b) FP-Growth Algorithm (with Given Dataset)

Minimum Support = 60% = 3 transactions

Step 1: Count Item Frequencies

Items with support ≥ 3 (Frequent):

Discard {N, D, A, U, C, I}.

Step 2: Order Items by Frequency in Each Transaction

Step 3: Construct FP-Tree

Final FP-Tree Paths:

Start from lowest frequency items upward:

• From Y: {K,Y}, {K,E,Y}, {K,M,Y}, {K,O,Y}

Final Frequent Itemsets (Support ≥ 3):

That’s your 15-mark set done in full detail.

You might also like