0% found this document useful (0 votes)

29 views4 pages

Hierarchical Clustering

This document provides a comprehensive overview of hierarchical clustering, detailing its methods, mathematical foundations, and challenges. It covers both agglomerative and divisive approaches, distance metrics, linkage criteria, and evaluation metrics, while also addressing contemporary issues such as scalability and robustness to noise. The paper concludes by emphasizing the importance of hierarchical clustering in exploratory data analysis and the need for future advancements in efficiency and integration with deep learning.

Uploaded by

diaetorres

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

29 views4 pages

Hierarchical Clustering

Uploaded by

diaetorres

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

Hierarchical Clustering

Hierarchical Clustering: Methods, Formalism, and Contemporary Challenges

Abstract:
Hierarchical clustering, a fundamental unsupervised learning technique, constructs a hierarchy of partitions either by iterative
mergers (agglomerative) or divisions (divisive) of clusters. This paper presents a mathematically rigorous treatment of hierarchical
clustering, detailing the core principles, distance metrics, linkage criteria, computational complexities, and practical implications.
Formal notations and proofs are provided where applicable, and we examine recent enhancements addressing the scalability and
interpretability challenges inherent to traditional hierarchical models.

Keywords:
Hierarchical Clustering, Agglomerative Clustering, Divisive Clustering, Dendrogram, Linkage Methods, Distance Metrics,
Mathematical Formalism

1. Introduction
Clustering is a form of unsupervised learning where the objective is to partition a set X = {x 1 , x 2 , … , x n } ⊆ R d into groups,
or clusters, such that intra-cluster similarity is maximized and inter-cluster similarity is minimized. Hierarchical clustering
approaches this task by successively combining or dividing clusters, resulting in a nested structure represented by a
dendrogram. Unlike flat methods, hierarchical clustering does not require the number of clusters kk to be pre-specified.

2. Mathematical Foundations
2.1 Problem Definition
Given a finite dataset X ⊆ R d , the goal of hierarchical clustering is to construct a sequence of partitions:
P 0 , P 1 , … , P n−1
where:

 P 0 = {{x 1 }, {x 2 }, … , {x n }} (all points as singleton clusters)

 P n−1 = {X} (all points merged into a single cluster)
 Each partition Pi+1\mathcal{P}_{i+1} is obtained from Pi\mathcal{P}_i by merging two clusters.

In divisive clustering, the sequence is reversed.

2.2 Distance Functions

A distance function (or dissimilarity measure) d:X×X→R≥0d : \mathcal{X} \times \mathcal{X} \rightarrow \mathbb{R}_{\geq 0}
must satisfy:

 (Non-negativity) d(x, y) ≥0
 (Identity) d(x, y) =0 ⟺ x=y
 (Symmetry) d(x, y) = d(y, x)
 (Triangle Inequality) d(x, z) ≤ d(x, y) + d(y, z)

Common distance metrics include:


Euclidean distance: d Euclidean (x i , x j ) = √∑ dk=1 (x ik − x jk ) 2
 Manhattan distance: d Manhattan (x i , x j ) = ∑ dk=1 |x ik − x jk |
 Cosine dissimilarity: d ⟨x i ,x j ⟩
Cosine (x i , x j ) =1− ∥x i ∥∥x j ∥

where ⟨⋅, ⋅⟩ denotes the dot product.

3. Hierarchical Agglomerative Clustering (HAC)

3.1 Algorithmic Structure
HAC begins with each data point in its own cluster. At each iteration:

1. Compute the pairwise distances between all clusters.

2. Merge the two clusters AA and BB such that: (A, B) = arg min (Ci ,Cj ) d linkage (C i , C j )
3. Update the distance matrix.

The algorithm terminates when a single cluster remains.

3.2 Linkage Criteria Formalism

Let C i , C j ⊆X be two clusters. Different linkage methods define the distance d linkage (C i , C j ) between clusters:

 Single linkage (minimum distance): d single (C i , C j ) = min x∈Ci ,y∈Cj d(x, y)

 Complete linkage (maximum distance): d complete (C i , C j ) = max x∈C i ,y∈C j d(x, y)
 Average linkage (mean distance): d average (C i , C j ) = |C ||C | ∑ x∈C i ∑ y∈C j d(x, y)
1
i j

 Ward’s linkage (increase in variance):

Ward's method minimizes the total within-cluster variance. The distance between clusters CiCi and CjC_j is: $$d{\text{Ward}}
(C_i, C_j) = \frac{|C_i||C_j|}{|C_i| + |C_j|} | \mu_i - \mu_j |^2$$

where μ i and μ j are the centroids of clusters C i and C j , respectively.

4. Divisive Hierarchical Clustering

Divisive clustering begins with all points in one cluster and recursively splits clusters.

At each step:

 Choose the cluster C with highest internal dissimilarity.

 Partition C into two clusters C 1 , C 2 by optimizing a criterion such as maximum dissimilarity or minimizing the within-cluster
sum of squares (WCSS):

WCSS(C) = ∑ ∥x − μ C ∥ 2
x∈C

Due to its computational cost (O(2 n ) in worst-case scenarios), divisive methods are less popular than agglomerative ones.

5. Dendrograms and Cluster Extraction

A dendrogram is a tree T where:

 Leaves correspond to data points x i ∈ X.

 Internal nodes represent cluster merges with associated merge distances.

Cutting the dendrogram at a threshold t yields a flat clustering.

Mathematically, if height(u) denotes the merge height of node u, the set of clusters at threshold t corresponds to connected
components of the subgraph:

{u ∈ T ∣ height(u) ≤ t}

6. Computational Complexity
The naïve implementation of HAC requires:

 Distance matrix computation: O(n 2 )

 Merge operations: O(n 3 ) (in the worst case, updating all pairwise distances at each step)

Using data structures like priority queues or optimizations such as the nearest-neighbor chain algorithm, this can be
reduced to O(n 2 ).

Divisive methods, especially exhaustive splits, can have exponential complexity.

7. Evaluation Metrics
7.1 Silhouette Coefficient
Given a point x i :

 Let a(i) = average distance from x i to all other points in the same cluster.
 Let b(i) = minimum average distance from x i to points in a different cluster.

The silhouette coefficient s(i) is: s(i)

b(i)−a(i)
= max{a(i),b(i)}

where −1 ≤ s(i) ≤ 1.

7.2 Cophenetic Correlation Coefficient

Measures how faithfully a dendrogram preserves pairwise distances:

Cophenetic Correlation = corr(d(x i , x j ), d cophenetic (x i , x j ))

where cophenetic(x i , x j ) is the dendrogram merge height at which x i and x j first join the same cluster.

8. Limitations and Advances

8.1 Scalability
Techniques such as BIRCH and CURE address memory and runtime issues by:

 Compressing data using clustering features (CF) in BIRCH.

 Representing clusters via multiple representative points in CURE.

8.2 Robustness to Noise

Standard hierarchical clustering is sensitive to noise and outliers. Density-based variants like HDBSCAN improve noise handling
by incorporating density estimates into cluster formation.

8.3 Hybrid Approaches

Recent works combine hierarchical pre-clustering with deep autoencoders, resulting in models such as DeepCluster
and DEC-Hierarchy, where representations are learned jointly with clustering.

9. Conclusion
Hierarchical clustering offers a mathematically rich, flexible framework for exploratory data analysis. Despite computational
challenges, it remains valuable for its interpretability and lack of assumptions regarding the number of clusters. Future research
must further address efficiency, robustness, and integration with deep learning paradigms.

AI20 - Hierarchical-Clustering
No ratings yet
AI20 - Hierarchical-Clustering
31 pages
Hierarchical Clustering
No ratings yet
Hierarchical Clustering
10 pages
Lecture - 11 Hierarchical Clustering
No ratings yet
Lecture - 11 Hierarchical Clustering
28 pages
MLCR CA 3 Blog
No ratings yet
MLCR CA 3 Blog
10 pages
Heirarchical Clustering
No ratings yet
Heirarchical Clustering
22 pages
Report 2
No ratings yet
Report 2
7 pages
10Hierarchical&Probabilistic Clustering & GMM (ML)
No ratings yet
10Hierarchical&Probabilistic Clustering & GMM (ML)
24 pages
Hierarchical Clustering
No ratings yet
Hierarchical Clustering
41 pages
Hierarchical Clustering in Machine Learning
No ratings yet
Hierarchical Clustering in Machine Learning
10 pages
Clustering
No ratings yet
Clustering
19 pages
Hierarchical Clustering
No ratings yet
Hierarchical Clustering
6 pages
Hierarchical Clusters
No ratings yet
Hierarchical Clusters
6 pages
Hierarchical Clustering
No ratings yet
Hierarchical Clustering
21 pages
Hierarchical Clustering
No ratings yet
Hierarchical Clustering
26 pages
Un Supervised Learning
No ratings yet
Un Supervised Learning
22 pages
Hierarchical Clustering Case Study
No ratings yet
Hierarchical Clustering Case Study
4 pages
Hierarchical Clustering - 11.3.2024 - Full
No ratings yet
Hierarchical Clustering - 11.3.2024 - Full
14 pages
4.4 Hierarchical Clustering Methods
No ratings yet
4.4 Hierarchical Clustering Methods
39 pages
Hierarchical Clustering PDF
No ratings yet
Hierarchical Clustering PDF
5 pages
20 - 1 - ML - UNSUP - 02 - Hierarchical Clustering
No ratings yet
20 - 1 - ML - UNSUP - 02 - Hierarchical Clustering
41 pages
Clustering Hierarchical PDF
No ratings yet
Clustering Hierarchical PDF
31 pages
Hierarchical
No ratings yet
Hierarchical
31 pages
Hierarchical Clustering
No ratings yet
Hierarchical Clustering
23 pages
Agnes
No ratings yet
Agnes
25 pages
Hierarchical Clustering: Class Program University Semester Lecturer Sources
100% (1)
Hierarchical Clustering: Class Program University Semester Lecturer Sources
33 pages
Hierarchical Clustering Explained
No ratings yet
Hierarchical Clustering Explained
14 pages
ML Lec-17
No ratings yet
ML Lec-17
12 pages
Hierarchical Clustering Guide
No ratings yet
Hierarchical Clustering Guide
11 pages
Lect 11 DM
No ratings yet
Lect 11 DM
41 pages
3.2 HierCluster
No ratings yet
3.2 HierCluster
17 pages
Clustring
No ratings yet
Clustring
20 pages
Hierarchical Clustering PDF
No ratings yet
Hierarchical Clustering PDF
7 pages
Data Mining Unit 5
No ratings yet
Data Mining Unit 5
30 pages
Clustering: EE-671 Prof L. Behera, IITK
No ratings yet
Clustering: EE-671 Prof L. Behera, IITK
33 pages
9536 DWM Expt 7 Merged
No ratings yet
9536 DWM Expt 7 Merged
14 pages
7 Clustering-Hierarichal Clustering
No ratings yet
7 Clustering-Hierarichal Clustering
13 pages
3CP10 MJJ Hierarchical Clustering
No ratings yet
3CP10 MJJ Hierarchical Clustering
40 pages
Clustering Techniques Overview
No ratings yet
Clustering Techniques Overview
80 pages
Hierar Scale4
No ratings yet
Hierar Scale4
51 pages
Image Segmentation Adaptive Clustering
No ratings yet
Image Segmentation Adaptive Clustering
9 pages
Hierarchical 4 4 03
No ratings yet
Hierarchical 4 4 03
15 pages
ML TCS Lecture Hierarchical 1608
No ratings yet
ML TCS Lecture Hierarchical 1608
41 pages
Week 10
No ratings yet
Week 10
84 pages
Hierarchical Clustering in Machine Learning
No ratings yet
Hierarchical Clustering in Machine Learning
7 pages
Hierarchical Clustering
No ratings yet
Hierarchical Clustering
11 pages
6902 An Applied Algorithmic Foundation For Hierarchical Clustering
No ratings yet
6902 An Applied Algorithmic Foundation For Hierarchical Clustering
10 pages
Chp10 Cluster Analysis Basic Concepts and Methods
No ratings yet
Chp10 Cluster Analysis Basic Concepts and Methods
24 pages
Chapter 4 - Clustering
No ratings yet
Chapter 4 - Clustering
21 pages
Week10 Summary Detail
No ratings yet
Week10 Summary Detail
16 pages
Module-5-Cluster Analysis-Part1
No ratings yet
Module-5-Cluster Analysis-Part1
24 pages
Hierarchical Clustering Guide
No ratings yet
Hierarchical Clustering Guide
110 pages
Hierarchical Clustering: Relationship Between Clusters
No ratings yet
Hierarchical Clustering: Relationship Between Clusters
23 pages
Cluster Analysis Concept & Methods
No ratings yet
Cluster Analysis Concept & Methods
14 pages
Lecture 4
No ratings yet
Lecture 4
6 pages
DWM Exp8 127 133 137
No ratings yet
DWM Exp8 127 133 137
4 pages
P 3.1.3 Hierarchical
No ratings yet
P 3.1.3 Hierarchical
30 pages
Hierarchical Clustering Guide
No ratings yet
Hierarchical Clustering Guide
40 pages
Business Analytics: Data Mining Guide
No ratings yet
Business Analytics: Data Mining Guide
81 pages
Data Mining Concept Description: Characterization and Comparison
No ratings yet
Data Mining Concept Description: Characterization and Comparison
14 pages
Community Pharmacist Reporting: A Novel Initiative Towards Community Pharmacovigilance in Nepal
No ratings yet
Community Pharmacist Reporting: A Novel Initiative Towards Community Pharmacovigilance in Nepal
24 pages
Exp 6
No ratings yet
Exp 6
12 pages
Openai Chatgpt Seminar Report Collegelib
No ratings yet
Openai Chatgpt Seminar Report Collegelib
8 pages
Final Project (FCDS)
No ratings yet
Final Project (FCDS)
2 pages
Data Mining Notes
No ratings yet
Data Mining Notes
21 pages
Convolutional Neural Networks Guide
No ratings yet
Convolutional Neural Networks Guide
28 pages
2-Evolution of Analytic Scalability-07!01!2025
No ratings yet
2-Evolution of Analytic Scalability-07!01!2025
21 pages
Data Mining
No ratings yet
Data Mining
2 pages
Fundamentals of ANN
No ratings yet
Fundamentals of ANN
213 pages
Social Networks and Data Mining
100% (21)
Social Networks and Data Mining
81 pages
Clustering Chicken Production Areas
No ratings yet
Clustering Chicken Production Areas
9 pages
Clustering Techniques Overview
No ratings yet
Clustering Techniques Overview
40 pages
Module 3
No ratings yet
Module 3
9 pages
Satyabhama Bigdata
No ratings yet
Satyabhama Bigdata
128 pages
Data Science: Key Concepts & Skills
No ratings yet
Data Science: Key Concepts & Skills
48 pages
Knowledge Management Revision Paper With Answers - OUM / VILLA COLLEGE
No ratings yet
Knowledge Management Revision Paper With Answers - OUM / VILLA COLLEGE
15 pages
Data Mining Dissertation Examples
100% (2)
Data Mining Dissertation Examples
4 pages
Concept Learning
No ratings yet
Concept Learning
62 pages
Agent Intelligence Through Data Mining Multiagent Systems Artificial Societies and Simulated Organizations 14 1st edition by Andreas Symeonidis, Pericles Mitkas ISBN 0387243526 Â 978-0387243528 instant download
100% (2)
Agent Intelligence Through Data Mining Multiagent Systems Artificial Societies and Simulated Organizations 14 1st edition by Andreas Symeonidis, Pericles Mitkas ISBN 0387243526 Â 978-0387243528 instant download
56 pages
DMW Module 3
No ratings yet
DMW Module 3
112 pages
Entire Space Multi-Task Model-An Effective Approach For Estimating Post-Click Conversion Rate
No ratings yet
Entire Space Multi-Task Model-An Effective Approach For Estimating Post-Click Conversion Rate
4 pages
Module 1-Data Mining Introduction (Student Edition)
No ratings yet
Module 1-Data Mining Introduction (Student Edition)
39 pages
Artificial Int Syllabus Sem V Mumbai University
No ratings yet
Artificial Int Syllabus Sem V Mumbai University
39 pages
38 GM - ASAP-Association Rule Mining
No ratings yet
38 GM - ASAP-Association Rule Mining
64 pages
Data Mining: Concepts and Techniques: Jiawei Han and Micheline Kamber
No ratings yet
Data Mining: Concepts and Techniques: Jiawei Han and Micheline Kamber
46 pages
Restaurant Data Mining Insights
No ratings yet
Restaurant Data Mining Insights
5 pages
Data Mining of Restaurant Review Using W PDF
No ratings yet
Data Mining of Restaurant Review Using W PDF
4 pages
Current and Emerging Trends Transparencies: © Pearson Education Limited, 2004 1
No ratings yet
Current and Emerging Trends Transparencies: © Pearson Education Limited, 2004 1
85 pages

Hierarchical Clustering

Uploaded by

Hierarchical Clustering

Uploaded by

Hierarchical Clustering

Hierarchical Clustering: Methods, Formalism, and Contemporary Challenges

 P 0 = {{x 1 }, {x 2 }, … , {x n }} (all points as singleton clusters)

In divisive clustering, the sequence is reversed.

2.2 Distance Functions

Common distance metrics include:

where ⟨⋅, ⋅⟩ denotes the dot product.

3. Hierarchical Agglomerative Clustering (HAC)

1. Compute the pairwise distances between all clusters.

The algorithm terminates when a single cluster remains.

3.2 Linkage Criteria Formalism

 Single linkage (minimum distance): d single (C i , C j ) = min x∈Ci ,y∈Cj d(x, y)

 Ward’s linkage (increase in variance):

where μ i and μ j are the centroids of clusters C i and C j , respectively.

4. Divisive Hierarchical Clustering

 Choose the cluster C with highest internal dissimilarity.

5. Dendrograms and Cluster Extraction

 Leaves correspond to data points x i ∈ X.

Cutting the dendrogram at a threshold t yields a flat clustering.

 Distance matrix computation: O(n 2 )

Divisive methods, especially exhaustive splits, can have exponential complexity.

The silhouette coefficient s(i) is: s(i)

7.2 Cophenetic Correlation Coefficient

Cophenetic Correlation = corr(d(x i , x j ), d cophenetic (x i , x j ))

8. Limitations and Advances

 Compressing data using clustering features (CF) in BIRCH.

8.2 Robustness to Noise

8.3 Hybrid Approaches

You might also like