Clusterbildung

Abgeschlossen

Hinweis

Weitere Details finden Sie auf der Registerkarte "Text und Bilder ".

Clustering ist eine Form des nicht überwachten maschinellen Lernens, in dem Beobachtungen basierend auf Ähnlichkeiten in ihren Datenwerten oder Features in Clustern gruppiert werden. Diese Art von maschinellem Lernen wird als unüberwacht betrachtet, da es die zuvor bekannten Labels nicht verwendet, um ein Modell zu trainieren. In einem Clustermodell entspricht die Bezeichnung dem Cluster, dem die Beobachtung basierend auf den zugehörigen Features zugewiesen wird.

Beispiel: Clustering

Angenommen, ein Botanist beobachtet eine Probe von Blumen und zeichnet die Anzahl der Blätter und Blütenblätter auf jeder Blume auf:

Diagramm einiger Blumen.

Es gibt keine bekannten Bezeichnungen im Dataset, nur zwei Features. Ziel ist es nicht, die verschiedenen Arten (Arten) der Blume zu identifizieren; nur um ähnliche Blumen auf der Grundlage der Anzahl der Blätter und Blütenblätter zu gruppieren.

Blätter (x1) Blütenblätter (x2)
0 5
0 6
1 3
1 3
1 6
1 8
2 3
2 7
2 8

Trainieren eines Clustermodells

Für das Clustering stehen mehrere Algorithmen zur Verfügung. Einer der am häufigsten verwendeten Algorithmen ist K-Means-Clustering , das aus den folgenden Schritten besteht:

  1. Die Featurewerte (x) werden vektorisiert, um ndimensionale Koordinaten zu definieren (wobei n die Anzahl der Features ist). Im Blumenbeispiel haben wir zwei Merkmale: Die Anzahl der Blätter (x1) und die Anzahl der Blütenblätter (x2). Der Featurevektor verfügt also über zwei Koordinaten, mit denen wir die Datenpunkte im zweidimensionalen Raum ([x1,x2]) konzeptionell darstellen können.
  2. Sie entscheiden, wie viele Cluster Sie verwenden möchten, um die Blumen zu gruppieren - nennen Sie diesen Wert k. Um beispielsweise drei Cluster zu erstellen, verwenden Sie einen k-Wert von 3. Dann werden K-Punkte mit zufälligen Koordinaten gezeichnet. Diese Punkte werden zu den Mittelpunkten für jeden Cluster, daher werden sie als Mittelpunkte bezeichnet.
  3. Jeder Datenpunkt (in diesem Fall eine Blume) wird dem nächstliegenden Schwerpunkt zugewiesen.
  4. Jeder Schwerpunkt wird basierend auf der durchschnittlichen Entfernung zwischen den Punkten in die Mitte der ihm zugewiesenen Datenpunkte verschoben.
  5. Nach dem Verschieben des Schwerpunkts befinden sich die Datenpunkte jetzt möglicherweise näher an einem anderen Schwerpunkt und werden daher dem Cluster zugewiesen, dessen Schwerpunkt ihnen jetzt am nächsten liegt.
  6. Die Schwerpunkte werden so lange verschoben und die Cluster neu zugeordnet, bis die Cluster stabil sind oder eine vorher festgelegte Anzahl von Iterationen erreicht ist.

In der folgenden Animation wird dieser Vorgang veranschaulicht:

Diagramm einer Animation, die den K-Mittel-Clustering-Prozess zeigt.

Bewertung eines Clustering-Modells

Da es keine bekannte Bezeichnung gibt, mit der die vorhergesagten Clusterzuordnungen verglichen werden sollen, basiert die Auswertung eines Clustermodells darauf, wie gut die resultierenden Cluster voneinander getrennt sind.

Es gibt mehrere Metriken, mit denen Sie die Clustertrennung auswerten können, einschließlich:

  • Durchschnittliche Entfernung zum Clusterzentrum: Wie nah im Durchschnitt jeder Punkt im Cluster zum Zentroid des Clusters ist.
  • Durchschnittliche Entfernung zu den anderen Zentren: Wie nah im Durchschnitt jeder Punkt im Cluster zum Schwerpunkt aller anderen Cluster ist.
  • Maximaler Abstand zum Clustermittelpunkt: Der abstandste Abstand zwischen einem Punkt im Cluster und seinem Mittelpunkt.
  • Silhouette: Ein Wert zwischen -1 und 1, der das Verhältnis zwischen Punkten im selben Cluster und Punkten in verschiedenen Clustern zusammenfasst (Je näher an 1, desto besser ist die Clustertrennung).