Přiřazení dat do clusterů

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Podívejte se na informace o přesunu projektů strojového učení z ML Studia (klasického) do Azure Machine Learning.
Další informace o Azure Machine Learning.

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Přiřadí data ke clusterům pomocí existujícího natrénového modelu clusteringu.

Kategorie: Skóre

Poznámka

Platí pro: Machine Learning Studio (classic)

Podobné moduly s přetahováním jsou k dispozici v Azure Machine Learning návrháři.

Přehled modulu

Tento článek popisuje, jak pomocí modulu Přiřadit data ke clusterům v Machine Learning Studiu (klasickém) generovat předpovědi pomocí modelu clusteringu, který byl vytrénován pomocí algoritmu clusteringu K-Means.

Modul vrátí datovou sadu, která obsahuje možné přiřazení pro každý nový datový bod. Vytvoří také graf PCA (Principal Component Analysis), který vám pomůže vizualizovat dimenzionalitu shluků.

Upozornění

Tento modul nahrazuje modul Přiřadit ke clusterům (zastaralé), který je k dispozici pouze pro podporu starších experimentů.

Jak používat přiřazení dat ke clusterům

V Machine Learning Studio (Classic) vyhledejte dříve natrénovaný model clusteringu. Model clusteringu můžete vytvořit a vytrénovat pomocí jedné z těchto metod:
- Nakonfigurujte algoritmus K-Means pomocí modulu clusteringu K-Means a pak model vytrénujte pomocí datové sady a modulu Trénování modelu clusteringu .
- Pomocí clusteringu K-Means nakonfigurujte řadu možností pro algoritmus K-Means a pak model vytrénujte pomocí modulu Sweep Clustering .
Můžete také přidat existující natrénovaný model clusteringu ze skupiny Uložené modely ve vašem pracovním prostoru.
Natrénovaný model připojte k levému vstupnímu portu přiřadit data ke clusterům.
Připojte novou datovou sadu jako vstup. V této datové sadě jsou popisky volitelné. Clustering je obecně metoda učení bez dohledu, takže se neočekává, že byste kategorie věděli předem.

Vstupní sloupce ale musí být stejné jako sloupce použité při trénování modelu clusteringu, jinak dojde k chybě.

Tip

Pokud chcete snížit počet sloupců výstupů z předpovědí clusteru, použijte možnost Vybrat sloupce v datové sadě a vyberte podmnožinu sloupců.
Pokud chcete, aby výsledky obsahovaly úplnou vstupní datovou sadu spolu se sloupcem udávajícím výsledky (přiřazení clusteru), ponechte vybranou možnost Zaškrtnutá možnost Připojit nebo Zrušit zaškrtnutí u možnosti Pouze výsledek.

Pokud výběr této možnosti zrušíte, vrátí se pouze výsledky. To může být užitečné při vytváření předpovědí jako součásti webové služby.
Spusťte experiment.

Výsledky

Modul Přiřadit data ke clusterům vrátí dva typy výsledků ve výstupu datové sady Results:

Pokud chcete zobrazit oddělení clusterů v modelu, klikněte na výstup modulu a vyberte Vizualizovat.

Tento příkaz zobrazí graf Analýzy hlavních komponent (PCA), který mapuje kolekci hodnot v každém clusteru na dvě osy komponent.
- První osa komponenty je kombinovaná sada prvků, které zachycují největší odchylku v modelu. Vykreslí se na ose x (hlavní komponenta 1).
- Další osa komponenty představuje několik kombinovaných prvků, které jsou pro první komponentu ortogonální a které přidávají do grafu další nejvíce informací. Vykreslí se na ose y (hlavní komponenta 2).
V grafu vidíte rozdělení mezi shluky a způsob distribuce shluků na osách, které představují hlavní komponenty.

Pokud chcete zobrazit tabulku výsledků pro každý případ ve vstupních datech, připojte modul Převést na datovou sadu a vizualizujte výsledky v nástroji Studio (classic).

Tato datová sada obsahuje přiřazení shluků pro každý případ a metriku vzdálenosti, která poskytuje informace o tom, jak blízko je tento konkrétní případ ke středu clusteru.

Název výstupního sloupce	Description
Přiřazení	Index založený na 0, který označuje, ke kterému clusteru byl datový bod přiřazen.
DistancesToClusterCenter č. n	U každého datového bodu tato hodnota označuje vzdálenost od datového bodu ke středu přiřazeného clusteru a vzdálenost od jiných shluků. Metrika použitá k výpočtu vzdálenosti se určuje při konfiguraci modelu clusteringu K-Means.

Očekávané vstupy

Název	Typ	Description
Natrénovaný model	Rozhraní ICluster	Natrénovaný model clusteringu
Datová sada	Tabulka dat	Vstupní zdroj dat

Parametry modulu

Název	Typ	Rozsah	Volitelné	Výchozí	Description
Připojit nebo Pouze výsledek			Vyžadováno	TRUE	Určete, jestli má výstupní datová sada obsahovat vstupní datovou sadu i výsledky, nebo jenom výsledky.
Určení režimu úklidu parametrů	Metody Sweep	Seznam:Celá mřížka\| Náhodné úklidy	Vyžadováno	Náhodné úklidy	Při úklidu celé mřížky na prostoru parametrů nebo při úklidu pomocí omezeného počtu ukázkových spuštění

Výstupy

Název	Typ	Description
Datová sada výsledků	Tabulka dat	Vstupní datová sada připojená pouze ke sloupci dat přiřazení nebo přiřazení

Výjimky

Výjimka	Description
Chyba 0003	K výjimce dochází v případě, že jeden nebo více vstupů má hodnotu null nebo je prázdný.

Viz také

Clustering K-Means
Skóre

Last updated on 2019-05-06

Sdílet prostřednictvím