Naar inhoud springen

Clusteranalyse

Uit Wikipedia, de vrije encyclopedie

Clusteranalyse is het classificeren of het groeperen in clusters of klassen van objecten op grond van hun kenmerken. Het doel van clusteranalyse is het vormen van deelverzamelingen die elk hun eigen gedeelde kenmerken bevatten. Om het resultaat te visualiseren kan een dendrogram worden gebruikt.

Veel grote classificatiesystemen zijn hiërarchisch gestructureerd. Het resultaat is de vorming van een dendrogram. Hoe hoger een groep in een hiërarchie is geplaatst, hoe algemener de beschrijving ervan zal zijn. Groepen zijn hierbij onderverdeeld in subgroepen die op hun beurt ook weer in groepen zijn onderverdeeld (divisief en hiërarchisch). Bij divisieve methoden wordt een gegevensverzameling in deelverzamelingen (subsets, clusters) opgedeeld. Naast divisieve methoden bestaan ook agglomeratieve methoden, waarbij de objecten in steeds grotere clusters worden samengevoegd.

Bij niet-hiërarchische methoden wordt de gegevensverzameling in een keer verdeeld in een van tevoren opgegeven aantal deelgroepen. Deze deelgroepen zijn niet-overlappend: elk object behoort slechts in een deelgroep.

Er zijn ook methoden die leiden tot overlappende groepen, of vage verzamelingen, waarvan de elementen graden van lidmaatschap kennen.

Er is een grote variatie aan clustermethoden. Deze kunnen worden onderverdeeld onder andere op grond van het aantal te gebruiken kenmerken, de eventuele voorbewerking van de basisgegevens, de keuze tussen samenvoegen of juist het splitsen van de groepen en de mate van overlap tussen de groepen.

  1. Aantal gebruikte kenmerken:
    • de classificatie is monothetisch als er voor het opstellen slechts een kenmerk wordt gebruikt,
    • als er veel kenmerken worden gebruikt is de classificatie polythetisch.
  2. Voorbewerking van de gegevens:
    • bij indirecte methoden is het nodig eerst de verschillen (distanties) of de overeenkomsten of verwantschappen (similariteiten) tussen de objecten te berekenen,
    • bij directe methoden is die stap niet nodig. Dit is de minderheid van de methoden.
  3. Groepen samenvoegen of splitsen:
    • bij divisieve classificatiemethoden wordt de gehele verzameling objecten opgedeeld in twee of meer zo homogeen mogelijke groepen, waarna deze eventueel verder kunnen worden opgedeeld; daarbij moet van tevoren worden opgegeven hoeveel clusters het resultaat moet opleveren.
    • bij agglomeratieve clustermethoden worden de meest verwante paren van objecten eerst samengevoegd tot kleine subgroepen, waarna deze weer verder kunnen worden samengevoegd tot steeds grotere subgroepen.
    • bij simultane clustermethoden kan deze opdeling in clusters ook in een keer gebeuren in een van tevoren opgegeven aantal clusters.
  4. Scheiding tussen de groepen:
    • leden van een groep komen slechts in een enkele groep voor.
    • groepen zijn overlappend; leden van een groep kunnen in meer dan een groep voor komen.

Als de classificatie hiërarchisch is, is een dendrogram (een diagram met een boomstructuur) het resultaat van de clusteranalyse. Een goed voorbeeld is een stamboom of een fylogenetische stamboom.

Stappen in de clusteranalyse

[bewerken | brontekst bewerken]

Bij de clusteranalyse moeten enkele subjectieve beslissingen worden genomen. Het clusteren of classificeren verloopt in de volgende stappen:

  • De keuze van de te classificeren objecten (operationele eenheden, entiteiten, individuen, monsters, opnames, tellingen, sample units), op grond waarvan een classificatie gemaakt moet worden.
  • De keuze van hoeveel en welke kenmerken (eigenschappen, variabelen, attributen, characters, traits, features, cases) gebruikt zullen worden. Soms is een classificatie gebaseerd op de mate waarin één bepaalde eigenschap bij een object voorkomt. Zo kunnen stenen geordend worden op hun hardheid.
  • De reeks van waarden die de kenmerken (values, character states, qualities, observations) mogen aannemen, de meetschalen die gebruikt zullen worden bij het meten van de waarnemingen (observations, measurements).
  • De vaststelling van de weegfactoren van de kenmerken (bijvoorbeeld: a priori alles gelijke weging).
    In de cladistiek worden plesiomorfieën (primitieve kenmerken) binnen de onderzochte groep van objecten licht, maar juist de synapomorfieën (afgeleide kenmerken) zwaar gewogen.
  • Het meten of waarnemen van de waarden van de kenmerken van de objecten, de registratie (het vastleggen) daarvan, en de eventueel noodzakelijke transformaties van de waarnemingen.
  • De keuze van de classificatiemethode. Vaak is daarbij een keuze van de maat voor overeenkomst ("verwantschap", similariteit) of juist voor het voor het verschil (distantie, dissimilariteit) tussen de objecten nodig. Ook moet er bijvoorbeeld gekozen worden uit een divisieve (steeds verder splitsen van de groep, top-down) methode, een agglomeratieve (steeds verder samenvoegen van de elementen van de groep, bottom-up) methode (beide hiërarchisch) of een niet-hiërarchische methode.
  • De bewerking van de verzamelde gegevens, met als resultaat de classificatie van de objecten of een dendrogram voor een grafische weergave.

Als deze beslissingen genomen zijn, verloopt het verdere proces automatisch. Het is ook mogelijk niet de objecten, maar de kenmerken te classificeren. Bij de directe methoden gebeurt dit automatisch.

Eigenschappen, kenmerken

[bewerken | brontekst bewerken]

Eigenschappen kunnen afhankelijk van elkaar zijn. Als kenmerken van structuren worden beschreven, kan de afmeting, de kleur en de vorm weer afhangen van de aan- of afwezigheid van die structuur. De volgende soorten van eigenschappen of kenmerken zijn meestal in classificaties terug te vinden:

Biologische toepassingen

[bewerken | brontekst bewerken]

In de biologie zijn er meerdere gebieden waar clusteranalyse wordt toegepast.

  • In de systematiek worden zowel divisieve als agglomeratieve methoden tegelijk gebruikt bij de classificaties van organismen. Het centrale niveau is dat van de soort. Soorten kunnen weer worden onderverdeeld in lagere taxa, zoals ondersoort en variëteit. Soorten zelf worden samengevoegd in geslachten en deze weer in families en in taxa van nog hogere rang.
  • In transcriptomics wordt clusteren gebruikt om groepen te maken met genen die gerelateerde expressiepatronen bevatten. Vaak bevat elke subgroep functioneel gerelateerde proteïnen, zoals enzymen voor een specifieke pathway, of genen die co-gereguleerd zijn.
  • Sequentieanalyse, hierbij worden homologe sequenties geclustert tot genfamilies.
  • Vegetatieopnamen worden op grond van de soortensamenstelling geclusterd, de clusters worden dan geabstraheerd tot vegetatietypen.