Tilldela data till kluster

Viktigt

Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.

Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.

Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.

Tilldelar data till kluster med hjälp av en befintlig tränad klustringsmodell

Kategori: Poäng

Anteckning

Gäller endast för: Machine Learning Studio (klassisk)

Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.

Modulöversikt

Den här artikeln beskriver hur du använder modulen Tilldela data till kluster i Machine Learning Studio (klassisk) för att generera förutsägelser med hjälp av en klustringsmodell som har tränats med K-Means-klustringsalgoritmen.

Modulen returnerar en datauppsättning som innehåller troliga tilldelningar för varje ny datapunkt. Den skapar också ett PCA-diagram (Principal Component Analysis) som hjälper dig att visualisera klustrens dimensionalitet.

Varning

Den här modulen ersätter modulen Tilldela till kluster (inaktuell), som endast är tillgänglig för stöd för äldre experiment.

Så här använder du Tilldela data till kluster

I Machine Learning Studio (klassisk) letar du upp en tidigare tränad klustringsmodell. Du kan skapa och träna en klustringsmodell med någon av följande metoder:
- Konfigurera K-means-algoritmen med hjälp av K-Means-klustringsmodulen och träna sedan modellen med hjälp av en datauppsättning och modulen Träna klustringsmodell .
- Konfigurera en mängd alternativ för K-means-algoritmen med hjälp av K-Means-klustring och träna sedan modellen med hjälp av modulen Rensa klustring .
Du kan också lägga till en befintlig tränad klustringsmodell från gruppen Sparade modeller på din arbetsyta.
Koppla den tränade modellen till den vänstra indataporten för Tilldela data till kluster.
Bifoga en ny datauppsättning som indata. I den här datamängden är etiketter valfria. I allmänhet är klustring en oövervakad inlärningsmetod, så det förväntas inte att du känner till kategorier i förväg.

Indatakolumnerna måste dock vara samma som de kolumner som användes vid träning av klustringsmodellen, annars uppstår ett fel.

Tips

Om du vill minska antalet kolumner som matas ut från klusterförutsägelser använder du Välj kolumner i datauppsättning och väljer en delmängd av kolumnerna.
Låt alternativet Sök efter Lägg till eller Avmarkera endast för Resultat vara markerat om du vill att resultatet ska innehålla den fullständiga indatauppsättningen, tillsammans med en kolumn som visar resultatet (klustertilldelningar).

Om du avmarkerar det här alternativet får du bara tillbaka resultatet. Detta kan vara användbart när du skapar förutsägelser som en del av en webbtjänst.
Kör experimentet.

Resultat

Modulen Assign Data to Clusters (Tilldela data till kluster) returnerar två typer av resultat i resultatdatauppsättningens utdata:

Om du vill se uppdelningen av kluster i modellen klickar du på modulens utdata och väljer Visualisera

Det här kommandot visar ett PCA-diagram (Principal Component Analysis) som mappar samlingen med värden i varje kluster till två komponentaxlar.
- Den första komponentaxeln är den kombinerade uppsättningen funktioner som samlar in den största variansen i modellen. Den ritas på x-axeln (huvudkomponent 1).
- Nästa komponentaxel representerar en viss kombinerad uppsättning funktioner som är ortogonala för den första komponenten och som lägger till den näst mest information i diagrammet. Den ritas på y-axeln (huvudkomponent 2).
I diagrammet kan du se separationen mellan klustren och hur klustren distribueras längs axlarna som representerar huvudkomponenterna.

Om du vill visa resultattabellen för varje fall i indata kopplar du modulen Konvertera till datauppsättning och visualiserar resultaten i Studio (klassisk).

Den här datamängden innehåller klustertilldelningarna för varje fall och ett avståndsmått som ger dig en indikation på hur nära det här specifika fallet är i mitten av klustret.

Namn på utdatakolumn	Description
Tilldelningar	Ett 0-baserat index som anger vilket kluster datapunkten tilldelades till.
DistancesToClusterCenter nej. n	För varje datapunkt anger det här värdet avståndet från datapunkten till mitten av det tilldelade klustret och avståndet till andra kluster. Det mått som används för att beräkna avståndet bestäms när du konfigurerar K-means-klustringsmodellen.

Förväntade indata

Namn	Typ	Description
Tränad modell	ICluster-gränssnitt	Tränad klustringsmodell
Datamängd	Datatabell	Indatakälla

Modulparametrar

Namn	Typ	Intervall	Valfritt	Standardvärde	Description
Endast tillägg eller resultat			Obligatorisk	TRUE	Ange om utdatauppsättningen ska innehålla indatauppsättningen samt resultaten, eller endast resultatet
Ange parametersökningsläge	Avsökningsmetoder	Lista:Hela rutnätet\| Slumpmässigt svep	Obligatorisk	Slumpmässigt svep	Rensa hela rutnätet på parameterutrymmet eller rensa med hjälp av ett begränsat antal exempelkörningar

Utdata

Namn	Typ	Description
Resultatdatauppsättning	Datatabell	Indatauppsättning som läggs till av datakolumnen i endast tilldelningar eller tilldelningar

Undantag

Undantag	Description
Fel 0003	Undantag inträffar om en eller flera indata är null eller tomma.

Se även

K-means-klustring
Poäng

Last updated on 2019-05-06

Dela via