Přiřazení dat do clusterů
Důležité
Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.
Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).
- Podívejte se na informace o přesunu projektů strojového učení z ML Studia (klasického) do Azure Machine Learning.
- Další informace o Azure Machine Learning.
Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.
Přiřadí data ke clusterům pomocí existujícího natrénového modelu clusteringu.
Kategorie: Skóre
Poznámka
Platí pro: Machine Learning Studio (classic)
Podobné moduly s přetahováním jsou k dispozici v Azure Machine Learning návrháři.
Přehled modulu
Tento článek popisuje, jak pomocí modulu Přiřadit data ke clusterům v Machine Learning Studiu (klasickém) generovat předpovědi pomocí modelu clusteringu, který byl vytrénován pomocí algoritmu clusteringu K-Means.
Modul vrátí datovou sadu, která obsahuje možné přiřazení pro každý nový datový bod. Vytvoří také graf PCA (Principal Component Analysis), který vám pomůže vizualizovat dimenzionalitu shluků.
Upozornění
Tento modul nahrazuje modul Přiřadit ke clusterům (zastaralé), který je k dispozici pouze pro podporu starších experimentů.
Jak používat přiřazení dat ke clusterům
V Machine Learning Studio (Classic) vyhledejte dříve natrénovaný model clusteringu. Model clusteringu můžete vytvořit a vytrénovat pomocí jedné z těchto metod:
Nakonfigurujte algoritmus K-Means pomocí modulu clusteringu K-Means a pak model vytrénujte pomocí datové sady a modulu Trénování modelu clusteringu .
Pomocí clusteringu K-Means nakonfigurujte řadu možností pro algoritmus K-Means a pak model vytrénujte pomocí modulu Sweep Clustering .
Můžete také přidat existující natrénovaný model clusteringu ze skupiny Uložené modely ve vašem pracovním prostoru.
Natrénovaný model připojte k levému vstupnímu portu přiřadit data ke clusterům.
Připojte novou datovou sadu jako vstup. V této datové sadě jsou popisky volitelné. Clustering je obecně metoda učení bez dohledu, takže se neočekává, že byste kategorie věděli předem.
Vstupní sloupce ale musí být stejné jako sloupce použité při trénování modelu clusteringu, jinak dojde k chybě.
Tip
Pokud chcete snížit počet sloupců výstupů z předpovědí clusteru, použijte možnost Vybrat sloupce v datové sadě a vyberte podmnožinu sloupců.
Pokud chcete, aby výsledky obsahovaly úplnou vstupní datovou sadu spolu se sloupcem udávajícím výsledky (přiřazení clusteru), ponechte vybranou možnost Zaškrtnutá možnost Připojit nebo Zrušit zaškrtnutí u možnosti Pouze výsledek.
Pokud výběr této možnosti zrušíte, vrátí se pouze výsledky. To může být užitečné při vytváření předpovědí jako součásti webové služby.
Spusťte experiment.
Výsledky
Modul Přiřadit data ke clusterům vrátí dva typy výsledků ve výstupu datové sady Results:
Pokud chcete zobrazit oddělení clusterů v modelu, klikněte na výstup modulu a vyberte Vizualizovat.
Tento příkaz zobrazí graf Analýzy hlavních komponent (PCA), který mapuje kolekci hodnot v každém clusteru na dvě osy komponent.
- První osa komponenty je kombinovaná sada prvků, které zachycují největší odchylku v modelu. Vykreslí se na ose x (hlavní komponenta 1).
- Další osa komponenty představuje několik kombinovaných prvků, které jsou pro první komponentu ortogonální a které přidávají do grafu další nejvíce informací. Vykreslí se na ose y (hlavní komponenta 2).
V grafu vidíte rozdělení mezi shluky a způsob distribuce shluků na osách, které představují hlavní komponenty.
Pokud chcete zobrazit tabulku výsledků pro každý případ ve vstupních datech, připojte modul Převést na datovou sadu a vizualizujte výsledky v nástroji Studio (classic).
Tato datová sada obsahuje přiřazení shluků pro každý případ a metriku vzdálenosti, která poskytuje informace o tom, jak blízko je tento konkrétní případ ke středu clusteru.
Název výstupního sloupce Description Přiřazení Index založený na 0, který označuje, ke kterému clusteru byl datový bod přiřazen. DistancesToClusterCenter č. n U každého datového bodu tato hodnota označuje vzdálenost od datového bodu ke středu přiřazeného clusteru a vzdálenost od jiných shluků.
Metrika použitá k výpočtu vzdálenosti se určuje při konfiguraci modelu clusteringu K-Means.
Očekávané vstupy
Název | Typ | Description |
---|---|---|
Natrénovaný model | Rozhraní ICluster | Natrénovaný model clusteringu |
Datová sada | Tabulka dat | Vstupní zdroj dat |
Parametry modulu
Název | Typ | Rozsah | Volitelné | Výchozí | Description |
---|---|---|---|---|---|
Připojit nebo Pouze výsledek | Vyžadováno | TRUE | Určete, jestli má výstupní datová sada obsahovat vstupní datovou sadu i výsledky, nebo jenom výsledky. | ||
Určení režimu úklidu parametrů | Metody Sweep | Seznam:Celá mřížka| Náhodné úklidy | Vyžadováno | Náhodné úklidy | Při úklidu celé mřížky na prostoru parametrů nebo při úklidu pomocí omezeného počtu ukázkových spuštění |
Výstupy
Název | Typ | Description |
---|---|---|
Datová sada výsledků | Tabulka dat | Vstupní datová sada připojená pouze ke sloupci dat přiřazení nebo přiřazení |
Výjimky
Výjimka | Description |
---|---|
Chyba 0003 | K výjimce dochází v případě, že jeden nebo více vstupů má hodnotu null nebo je prázdný. |