0% found this document useful (0 votes)

16 views10 pages

Exp 6

The document outlines the process of building a clustering model using various algorithms such as K-Means, Hierarchical, DBSCAN, and Spectral Clustering to analyze air quality data. It includes steps for data preprocessing, determining optimal clusters using the Elbow Method, and visualizing results through PCA. The findings indicate three distinct pollution profiles and identify approximately 10% of the data as outliers, highlighting the model's effectiveness in detecting unusual air quality events.

Uploaded by

jemimam278

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

16 views10 pages

Exp 6

Uploaded by

jemimam278

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 10

Exp No: 6 Build a Clustering model and calculate the Error measures and Bias

Aim:

To build a clustering model and calculate error measures.

Theory:

Clustering:

 Clustering is an unsupervised machine learning technique used to group similar data points
into clusters based on their characteristics.

 The goal is to identify patterns and organize data without using pre-labeled outputs.

 Data points within a cluster are more similar to each other than to those in other clusters.

K-Means Clustering

 K-Means is a centroid-based clustering algorithm that partitions data into K clusters by

minimizing the distance between data points and their nearest cluster center.

 The optimal value of K is determined using the Elbow Method, which plots inertia (sum of
squared distances to the nearest cluster center) against the number of clusters.

 The point where the inertia curve bends (or the rate of decrease slows) is considered the
optimal number of clusters.

Hierarchical Clustering

 Hierarchical clustering builds a tree-like structure (dendrogram) to represent data groupings

through agglomerative (bottom-up) or divisive (top-down) approaches.

 Agglomerative Clustering starts with each point as an individual cluster and merges them
step by step.

 The optimal number of clusters is found by cutting the dendrogram at the appropriate height
where clusters are well separated.

DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

 DBSCAN is a density-based algorithm that groups dense regions and identifies points in low-
density regions as outliers.

 It requires two key parameters:

o ε (epsilon): Maximum distance between two points to be considered neighbors.

o min_samples: Minimum points required to form a cluster.

 DBSCAN is effective in detecting arbitrary-shaped clusters and outliers but is sensitive to

parameter selection.

Spectral Clustering
 Spectral clustering is a graph-based method that converts data into a similarity graph and
uses eigenvalues for dimensionality reduction before applying clustering algorithms like K-
Means.

 It is suitable for non-linearly separable and complex cluster structures.

 Requires defining a similarity measure (e.g., Gaussian kernel or K-nearest neighbors) to build
the graph.

Code:

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

from sklearn.preprocessing import StandardScaler

from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN

from sklearn.decomposition import PCA

from sklearn.ensemble import IsolationForest

from scipy.cluster.hierarchy import dendrogram, linkage

# Load dataset

df = pd.read_csv("/mnt/data/updated_pollution_dataset.csv")

# Drop non-numeric columns

df_numeric = df.select_dtypes(include=[np.number])

# Handle missing values (if any)

df_numeric.fillna(df_numeric.mean(), inplace=True)

# Normalize data

scaler = StandardScaler()

df_scaled = scaler.fit_transform(df_numeric)

# Detect outliers using Isolation Forest

iso_forest = IsolationForest(contamination=0.1, random_state=42)

outlier_labels = iso_forest.fit_predict(df_scaled)

df['Outlier'] = outlier_labels

# Determine optimal clusters using Elbow Method

inertia = [KMeans(n_clusters=k, random_state=42, n_init=10).fit(df_scaled).inertia_ for k in range(1,

11)]

plt.plot(range(1, 11), inertia, marker='o')

plt.xlabel("Number of Clusters")

plt.ylabel("Inertia")

plt.title("Elbow Method for Optimal k")

plt.show()

# Hierarchical Clustering Dendrogram

plt.figure(figsize=(10, 5))

dendrogram(linkage(df_scaled, method='ward'))

plt.title("Dendrogram for Hierarchical Clustering")

plt.show()

# Apply K-Means Clustering

kmeans = KMeans(n_clusters=3, random_state=42, n_init=10)

kmeans_labels = kmeans.fit_predict(df_scaled)

# Apply Hierarchical Clustering

hierarchical = AgglomerativeClustering(n_clusters=3)

hierarchical_labels = hierarchical.fit_predict(df_scaled)

# Apply DBSCAN Clustering

dbscan = DBSCAN(eps=1.5, min_samples=5)

dbscan_labels = dbscan.fit_predict(df_scaled)
# PCA for visualization

pca = PCA(n_components=2)

df_pca = pca.fit_transform(df_scaled)

from sklearn.cluster import SpectralClustering

# Apply Spectral Clustering

spectral = SpectralClustering(n_clusters=3, random_state=42, affinity='nearest_neighbors')

spectral_labels = spectral.fit_predict(df_scaled)

# Visualizing Spectral Clusters

plt.figure(figsize=(8, 6))

sns.scatterplot(x=df_pca[:, 0], y=df_pca[:, 1], hue=spectral_labels, palette='coolwarm', edgecolor='k')

plt.xlabel("PCA Component 1")

plt.ylabel("PCA Component 2")

plt.title("Spectral Clusters Visualization using PCA")

plt.legend(title="Clusters")

plt.show()

# Visualizing K-Means Clusters

plt.figure(figsize=(8, 6))

sns.scatterplot(x=df_pca[:, 0], y=df_pca[:, 1], hue=kmeans_labels, palette='viridis', edgecolor='k')

plt.xlabel("PCA Component 1")

plt.ylabel("PCA Component 2")

plt.title("KMeans Clusters Visualization using PCA")

plt.legend(title="Clusters")

plt.show()

# Visualizing Outliers

plt.figure(figsize=(8, 6))
sns.scatterplot(x=df_pca[:, 0], y=df_pca[:, 1], hue=outlier_labels, palette={1: 'blue', -1: 'red'},
edgecolor='k')

plt.xlabel("PCA Component 1")

plt.ylabel("PCA Component 2")

plt.title("Outlier Detection using Isolation Forest")

plt.legend(title="Outlier Status", labels=["Normal", "Outlier"])

plt.show()

# Visualizing DBSCAN Clusters

plt.figure(figsize=(8, 6))

sns.scatterplot(x=df_pca[:, 0], y=df_pca[:, 1], hue=dbscan_labels, palette='Set1', edgecolor='k')

plt.xlabel("PCA Component 1")

plt.ylabel("PCA Component 2")

plt.title("DBSCAN Clusters Visualization using PCA")

plt.legend(title="Clusters")

plt.show()

# Add cluster labels to original data

df['KMeans_Cluster'] = kmeans_labels

df['Hierarchical_Cluster'] = hierarchical_labels

df['DBSCAN_Cluster'] = dbscan_labels

ScreenShots:
Inference:

Outlier Detection: Approximately 10% of the data were identified as outliers, likely representing
extreme pollution levels or rare environmental conditions.

Optimal Clusters: The Elbow method and Dendrogram suggest 3 optimal clusters, indicating three
distinct air quality profiles.

K-Means & Hierarchical Clustering: Both methods identified low, moderate, and high pollution
groups, with K-Means providing clearer separation.

DBSCAN Clustering: Successfully captured irregular patterns and outliers, useful for detecting rare
pollution spikes.

Spectral Clustering : effectively identified complex, non-linear pollution patterns, revealing subtle
variations in air quality levels across different regions.

The dataset reveals three primary pollution categories, with outliers representing unusual air quality
events or anomalies.

RESULT:

Thus clustering model has been built .

ML0101EN Clus DBSCN Weather Py v1
No ratings yet
ML0101EN Clus DBSCN Weather Py v1
16 pages
Baidurya Debnath 4
No ratings yet
Baidurya Debnath 4
37 pages
LAB7 Kmeans
No ratings yet
LAB7 Kmeans
11 pages
Sklearn Kmeans Dbscan Guide
No ratings yet
Sklearn Kmeans Dbscan Guide
2 pages
K-Means Clustering Guide
No ratings yet
K-Means Clustering Guide
26 pages
Unsupervised Learning Guide
No ratings yet
Unsupervised Learning Guide
50 pages
22mid0187 ML Lab-5
No ratings yet
22mid0187 ML Lab-5
13 pages
ML Assignment 2
No ratings yet
ML Assignment 2
6 pages
FullMarks - Clustering StudentSolution 2
No ratings yet
FullMarks - Clustering StudentSolution 2
13 pages
4.cluster Analysis
No ratings yet
4.cluster Analysis
7 pages
DWDM Lab All
No ratings yet
DWDM Lab All
20 pages
ML Exp5 C36
No ratings yet
ML Exp5 C36
18 pages
Spectral Clustering
No ratings yet
Spectral Clustering
5 pages
Clustering R Codes
No ratings yet
Clustering R Codes
2 pages
Unit - 4 DWDM
No ratings yet
Unit - 4 DWDM
27 pages
Experiment 4 1
No ratings yet
Experiment 4 1
4 pages
HW5 Clustering (50 PTS) : Test Algorithms
No ratings yet
HW5 Clustering (50 PTS) : Test Algorithms
5 pages
ML Clustering and Regression FAQs
No ratings yet
ML Clustering and Regression FAQs
4 pages
Unit 3 Unsupervised Learning
No ratings yet
Unit 3 Unsupervised Learning
9 pages
ML Notes 1
No ratings yet
ML Notes 1
3 pages
SE KMeansClustering
No ratings yet
SE KMeansClustering
21 pages
Cheat Sheet-Building Unsupervised Learning Models
No ratings yet
Cheat Sheet-Building Unsupervised Learning Models
3 pages
Practical 5
No ratings yet
Practical 5
6 pages
Apriori Algorithm & Clustering Guide
No ratings yet
Apriori Algorithm & Clustering Guide
8 pages
Week 8 DS Practical
No ratings yet
Week 8 DS Practical
13 pages
Casos de ML Unsupervised Daniel Ames Camayo
No ratings yet
Casos de ML Unsupervised Daniel Ames Camayo
20 pages
DBSCAN - Introduction in Machine Learning.
No ratings yet
DBSCAN - Introduction in Machine Learning.
3 pages
Clustering Algorithms CheatSheet
No ratings yet
Clustering Algorithms CheatSheet
6 pages
Clustering
No ratings yet
Clustering
1 page
Dbscan Implementation in Python
No ratings yet
Dbscan Implementation in Python
5 pages
From Import Import As Import As From Import From Import From Import From Import
No ratings yet
From Import Import As Import As From Import From Import From Import From Import
9 pages
Unit 4 Introduction To Algorithm
No ratings yet
Unit 4 Introduction To Algorithm
10 pages
R Reference Card For Data Mining
No ratings yet
R Reference Card For Data Mining
3 pages
Unsupervisd Learning Algorithm
No ratings yet
Unsupervisd Learning Algorithm
6 pages
ML Python Exercises UOM BDS Cluster Analysis
No ratings yet
ML Python Exercises UOM BDS Cluster Analysis
8 pages
DB Scan
No ratings yet
DB Scan
7 pages
DBSCAN Clustering in ML - Density Based Clustering
No ratings yet
DBSCAN Clustering in ML - Density Based Clustering
5 pages
Clustering in R
No ratings yet
Clustering in R
12 pages
ML Lab Exam Document
No ratings yet
ML Lab Exam Document
14 pages
IDM Assignment
No ratings yet
IDM Assignment
15 pages
Application of Linear Algebra
No ratings yet
Application of Linear Algebra
7 pages
ML DSBA Lab7
No ratings yet
ML DSBA Lab7
6 pages
ML 2.3 Prashant
No ratings yet
ML 2.3 Prashant
4 pages
EXP-6 K Mean Clustring
No ratings yet
EXP-6 K Mean Clustring
6 pages
10 - DBSCANClusteringOnIRIS-Copy1 - Jupyter Notebook
No ratings yet
10 - DBSCANClusteringOnIRIS-Copy1 - Jupyter Notebook
4 pages
Unit 4
No ratings yet
Unit 4
19 pages
Lab Report6 - B21CI014
No ratings yet
Lab Report6 - B21CI014
8 pages
SOLUTION ONLY CODE DWDM - Lab - All
No ratings yet
SOLUTION ONLY CODE DWDM - Lab - All
8 pages
DWM Exp4
No ratings yet
DWM Exp4
9 pages
ML2 Practical List
No ratings yet
ML2 Practical List
80 pages
Density Based Clustering (Unit 5)
No ratings yet
Density Based Clustering (Unit 5)
5 pages
DM After Midz
No ratings yet
DM After Midz
22 pages
Experiment 3.1 K-Mean
No ratings yet
Experiment 3.1 K-Mean
8 pages
Aam Unit 4 QB With Answer
No ratings yet
Aam Unit 4 QB With Answer
11 pages
CC Unit IV
No ratings yet
CC Unit IV
30 pages
Detecting Patterns With Unsupervised Learning
No ratings yet
Detecting Patterns With Unsupervised Learning
21 pages
1 ST
No ratings yet
1 ST
11 pages
Lecture 12 - Unsupervised Learning - Shoould Be Marged
No ratings yet
Lecture 12 - Unsupervised Learning - Shoould Be Marged
31 pages
Vid 4
No ratings yet
Vid 4
6 pages
Mammoth Cave Presentation
No ratings yet
Mammoth Cave Presentation
17 pages
Niti Annual Report-2014-15
No ratings yet
Niti Annual Report-2014-15
217 pages
21 Indispensable Qualities of A Leader - John Maxwell (Presentation)
100% (1)
21 Indispensable Qualities of A Leader - John Maxwell (Presentation)
23 pages
Top 10 Ways To Make Money With Your 360 Camera (14-20)
No ratings yet
Top 10 Ways To Make Money With Your 360 Camera (14-20)
7 pages
BP C1 Tests Unit4
No ratings yet
BP C1 Tests Unit4
4 pages
Axioo Neon Clevo m720s A20 PDF
No ratings yet
Axioo Neon Clevo m720s A20 PDF
37 pages
Core Banking Tech Overview
0% (1)
Core Banking Tech Overview
61 pages
Su8000 01 - en GB
No ratings yet
Su8000 01 - en GB
5 pages
Introduction To Neuromorphic Computing New
No ratings yet
Introduction To Neuromorphic Computing New
3 pages
History of World Wide Web
No ratings yet
History of World Wide Web
2 pages
Causes of Building Cracks
No ratings yet
Causes of Building Cracks
5 pages
Ngspice 38 Manual
No ratings yet
Ngspice 38 Manual
715 pages
BMW i4 Models & Features Guide
No ratings yet
BMW i4 Models & Features Guide
29 pages
Archicad 22 New Features Guide
No ratings yet
Archicad 22 New Features Guide
32 pages
Aspiring Journalists' Mastery Guide
No ratings yet
Aspiring Journalists' Mastery Guide
13 pages
Battery Safety Sheet CLARIOS
No ratings yet
Battery Safety Sheet CLARIOS
8 pages
5 B777-CargoFireSmoke
No ratings yet
5 B777-CargoFireSmoke
5 pages
Privacy Coins for Crypto Investors
No ratings yet
Privacy Coins for Crypto Investors
8 pages
Automatic Controls, Electronic Controls, Compressors, Condensing Units and Packages For All Refrigerants
100% (2)
Automatic Controls, Electronic Controls, Compressors, Condensing Units and Packages For All Refrigerants
0 pages
5 LinearRegression With One-Variable
No ratings yet
5 LinearRegression With One-Variable
21 pages
Food Marketing Assignment Final
No ratings yet
Food Marketing Assignment Final
15 pages
Legal Documents Formate (Honhaar)
No ratings yet
Legal Documents Formate (Honhaar)
6 pages
Lesson 2 Notes
No ratings yet
Lesson 2 Notes
3 pages
PPT#03
No ratings yet
PPT#03
46 pages
Digitalization in Chemical Industry
No ratings yet
Digitalization in Chemical Industry
27 pages
Nursing Care Plan: Angeles University Foundation College of Nursing
No ratings yet
Nursing Care Plan: Angeles University Foundation College of Nursing
2 pages
Introduction To The Python Programming Language
No ratings yet
Introduction To The Python Programming Language
41 pages
Performance Aide Memoire: R MC S1 2 Toss MC S1
No ratings yet
Performance Aide Memoire: R MC S1 2 Toss MC S1
8 pages
KR0003 KRA For Infrastructure Technical Services Manager Sample
No ratings yet
KR0003 KRA For Infrastructure Technical Services Manager Sample
2 pages
Graham C. Goodwin, Stefan F. Graebe, Mario E. Salgado - Control System Design - Prentice Hall (2000) - 15
No ratings yet
Graham C. Goodwin, Stefan F. Graebe, Mario E. Salgado - Control System Design - Prentice Hall (2000) - 15
1 page