Assign Data to Clusters

Artikel
05/06/2019

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Siehe Migrieren zu Azure Machine Learning
Weitere Informationen zu Azure Machine Learning.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

Weist Daten mithilfe eines vorhandenen, trainierten Clusteringmodells Clustern hinzu

Kategorie: Bewertung

Hinweis

Gilt nur für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Modul Assign Data to Clusters (Daten clustern zuweisen) in Machine Learning Studio (klassisch) verwenden, um Vorhersagen mithilfe eines Clusteringmodells zu generieren, das mit dem K-Means-Clusteringalgorithmus trainiert wurde.

Das Modul gibt ein Dataset zurück, das die wahrscheinlichen Zuweisungen für jeden neuen Datenpunkt enthält. Außerdem wird ein PCA-Diagramm (Principal Component Analysis, Prinzipalkomponentenanalyse) erstellt, mit dem Sie die Dimensionalität der Cluster visualisieren können.

Warnung

Dieses Modul ersetzt das Modul Assign to Clusters (Zu Clustern zuweisen) (veraltet), das nur zur Unterstützung älterer Experimente verfügbar ist.

Verwenden von „Assign Data to Clusters“

Suchen Sie in Machine Learning Studio (klassisch) nach einem zuvor trainierten Clustermodell. Sie können ein Clusteringmodell mit einer dieser beiden Methoden erstellen und trainieren:
- Konfigurieren Sie den k-Means-Algorithmus mithilfe des Moduls K-Means Clustering, und trainieren Sie anschließend das Modell mit einem Dataset und dem Modul Train Clustering Model (Trainieren des Clusteringmodells).
- Konfigurieren Sie eine Reihe von Optionen für den K-Means-Algorithmus mithilfe von K-Means-Clustering , und trainieren Sie das Modell dann mithilfe des Sweep Clustering-Moduls .
Sie können auch ein bestehendes trainiertes Clusteringmodell aus der Gruppe Saved Models (Gespeicherte Modelle) Ihrem Arbeitsbereich hinzufügen.
Fügen Sie das trainierte Modell an den linken Eingabeport von Assign Data to Clusters an.
Fügen Sie ein neues Dataset als Eingabe an. In diesem Dataset sind Bezeichnungen optional. Im Allgemeinen ist Clustering eine unüberwachte Lernmethode, weshalb nicht erwartet wird, dass Sie Kategorien im Voraus kennen.

Die Eingabespalten müssen jedoch mit den Spalten übereinstimmen, die beim Training des Clusteringmodells verwendet wurden, da sonst ein Fehler auftritt.

Tipp

Um die Anzahl der Spalten zu reduzieren, die von Clustervorhersagen ausgegeben werden, verwenden Sie Select Columns in Dataset (Spalten im Dataset auswählen), und wählen Sie eine Teilmenge der Spalten aus.
Lassen Sie die Option Check for Append or Uncheck for Result Only (Für Anfügen aktivieren oder für reine Ergebnisse deaktivieren) aktiviert, wenn die Ergebnisse das gesamte Eingabedataset sowie eine Spalte mit den Ergebnissen (Clusterzuweisungen) enthalten sollen.

Wenn Sie diese Option deaktivieren, erhalten Sie bloß die Ergebnisse. Dies kann nützlich sein, wenn Sie Vorhersagen als Teil eines Webdiensts erstellen.
Führen Sie das Experiment aus.

Ergebnisse

Das Modul Assign Data to Clusters (Daten clustern zuweisen ) gibt zwei Ergebnistypen für die Ergebnisdatasetausgabe zurück:

Um die Trennung von Clustern im Modell anzuzeigen, klicken Sie auf die Ausgabe des Moduls, und wählen Sie Visualisieren aus.

Dieser Befehl zeigt ein PCA-Diagramm (Principal Component Analysis) an, das die Auflistung der Werte in jedem Cluster zwei Komponentenachsen zuteilt.
- Die erste Komponentenachse ist der kombinierte Satz von Features, der die größte Varianz im Modell erfasst. Sie wird auf der x-Achse (Prinzipalkomponente 1) gezeichnet.
- Die nächste Komponentenachse stellt einige kombinierte Features dar, die der ersten Komponente orthogonal sind und dem Diagramm die nächsten Informationen hinzufügen. Sie wird auf der y-Achse (Prinzipalkomponente 2) gezeichnet.
Im Diagramm sehen Sie die Trennung zwischen den Clustern und die Verteilung der Cluster entlang der Achsen, die die Hauptkomponenten darstellen.

Fügen Sie zum Anzeigen der Ergebnistabelle für jeden Fall in den Eingabedaten das Modul Convert to Dataset (In Dataset konvertieren ) an, und visualisieren Sie die Ergebnisse in Studio (klassisch).

Dieses Dataset enthält die Clusterzuweisungen für jeden Fall und eine Entfernungsmetrik, die Ihnen einen Hinweis darauf gibt, wie nah dieser spezielle Fall am Mittelpunkt des Clusters liegt.

Name der Ausgabespalte	Beschreibung
Zuweisungen	Ein 0-basierter Index, der angibt, welchem Cluster der Datenpunkt zugewiesen wurde.
DistancesToClusterCenter Nein. n	Für jeden Datenpunkt gibt dieser Wert den Abstand vom Datenpunkt zum Mittelpunkt des zugewiesenen Clusters und den Abstand zu anderen Clustern an. Die Metrik zum Berechnen der Entfernung wird bestimmt, wenn Sie das K-Means-Clusteringmodell konfigurieren.

Erwartete Eingaben

Name	Type	BESCHREIBUNG
Trainiertes Modell	ICluster-Schnittstelle	Trainiertes Clusteringmodell
Dataset	Datentabelle	Eingabedatenquelle

Modulparameter

Name	Typ	Range	Optional	Standard	Beschreibung
Nur Anfügen oder Ergebnis			Erforderlich	true	Geben Sie an, ob das Ausgabedataset das Eingabedataset sowie die Ergebnisse oder nur die Ergebnisse enthalten soll.
Specify parameter sweeping mode	Sweep-Methoden	List:Gesamtes Raster\| Zufälliger Sweep	Erforderlich	Zufalls-Sweep	Sweep durch das ganze Raster des Parameterbereichs oder Sweep mit einer begrenzten Anzahl von Testläufen

Ausgaben

Name	Type	Beschreibung
Ergebnisdataset	Datentabelle	Eingabedataset mit angefügter Zuweisungsdatenspalte oder nur Zuweisungsspalte

Ausnahmen

Ausnahme	Beschreibung
Fehler 0003	Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist.

Siehe auch

K-Means-Clustering
Wert

Freigeben über