Share via


Tilldela data till kluster

Viktigt

Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.

Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.

Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.

Tilldelar data till kluster med hjälp av en befintlig tränad klustringsmodell

Kategori: Poäng

Anteckning

Gäller endast för: Machine Learning Studio (klassisk)

Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.

Modulöversikt

Den här artikeln beskriver hur du använder modulen Tilldela data till kluster i Machine Learning Studio (klassisk) för att generera förutsägelser med hjälp av en klustringsmodell som har tränats med K-Means-klustringsalgoritmen.

Modulen returnerar en datauppsättning som innehåller troliga tilldelningar för varje ny datapunkt. Den skapar också ett PCA-diagram (Principal Component Analysis) som hjälper dig att visualisera klustrens dimensionalitet.

Varning

Den här modulen ersätter modulen Tilldela till kluster (inaktuell), som endast är tillgänglig för stöd för äldre experiment.

Så här använder du Tilldela data till kluster

  1. I Machine Learning Studio (klassisk) letar du upp en tidigare tränad klustringsmodell. Du kan skapa och träna en klustringsmodell med någon av följande metoder:

    Du kan också lägga till en befintlig tränad klustringsmodell från gruppen Sparade modeller på din arbetsyta.

  2. Koppla den tränade modellen till den vänstra indataporten för Tilldela data till kluster.

  3. Bifoga en ny datauppsättning som indata. I den här datamängden är etiketter valfria. I allmänhet är klustring en oövervakad inlärningsmetod, så det förväntas inte att du känner till kategorier i förväg.

    Indatakolumnerna måste dock vara samma som de kolumner som användes vid träning av klustringsmodellen, annars uppstår ett fel.

    Tips

    Om du vill minska antalet kolumner som matas ut från klusterförutsägelser använder du Välj kolumner i datauppsättning och väljer en delmängd av kolumnerna.

  4. Låt alternativet Sök efter Lägg till eller Avmarkera endast för Resultat vara markerat om du vill att resultatet ska innehålla den fullständiga indatauppsättningen, tillsammans med en kolumn som visar resultatet (klustertilldelningar).

    Om du avmarkerar det här alternativet får du bara tillbaka resultatet. Detta kan vara användbart när du skapar förutsägelser som en del av en webbtjänst.

  5. Kör experimentet.

Resultat

Modulen Assign Data to Clusters (Tilldela data till kluster) returnerar två typer av resultat i resultatdatauppsättningens utdata:

  • Om du vill se uppdelningen av kluster i modellen klickar du på modulens utdata och väljer Visualisera

    Det här kommandot visar ett PCA-diagram (Principal Component Analysis) som mappar samlingen med värden i varje kluster till två komponentaxlar.

    • Den första komponentaxeln är den kombinerade uppsättningen funktioner som samlar in den största variansen i modellen. Den ritas på x-axeln (huvudkomponent 1).
    • Nästa komponentaxel representerar en viss kombinerad uppsättning funktioner som är ortogonala för den första komponenten och som lägger till den näst mest information i diagrammet. Den ritas på y-axeln (huvudkomponent 2).

    I diagrammet kan du se separationen mellan klustren och hur klustren distribueras längs axlarna som representerar huvudkomponenterna.

  • Om du vill visa resultattabellen för varje fall i indata kopplar du modulen Konvertera till datauppsättning och visualiserar resultaten i Studio (klassisk).

    Den här datamängden innehåller klustertilldelningarna för varje fall och ett avståndsmått som ger dig en indikation på hur nära det här specifika fallet är i mitten av klustret.

    Namn på utdatakolumn Description
    Tilldelningar Ett 0-baserat index som anger vilket kluster datapunkten tilldelades till.
    DistancesToClusterCenter nej. n För varje datapunkt anger det här värdet avståndet från datapunkten till mitten av det tilldelade klustret och avståndet till andra kluster.

    Det mått som används för att beräkna avståndet bestäms när du konfigurerar K-means-klustringsmodellen.

Förväntade indata

Namn Typ Description
Tränad modell ICluster-gränssnitt Tränad klustringsmodell
Datamängd Datatabell Indatakälla

Modulparametrar

Namn Typ Intervall Valfritt Standardvärde Description
Endast tillägg eller resultat Obligatorisk TRUE Ange om utdatauppsättningen ska innehålla indatauppsättningen samt resultaten, eller endast resultatet
Ange parametersökningsläge Avsökningsmetoder Lista:Hela rutnätet| Slumpmässigt svep Obligatorisk Slumpmässigt svep Rensa hela rutnätet på parameterutrymmet eller rensa med hjälp av ett begränsat antal exempelkörningar

Utdata

Namn Typ Description
Resultatdatauppsättning Datatabell Indatauppsättning som läggs till av datakolumnen i endast tilldelningar eller tilldelningar

Undantag

Undantag Description
Fel 0003 Undantag inträffar om en eller flera indata är null eller tomma.

Se även

K-means-klustring
Poäng