Sdílet prostřednictvím


Clustering Sweep

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Pro určení optimálního nastavení modelu clusteringu slouží k rozmazání parametrů

kategorie: Machine Learning/výuka

Poznámka

platí pro: jenom Machine Learning Studio (classic)

podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.

Přehled modulu

tento článek popisuje, jak pomocí modulu pro nasazení clusterů v systému Machine Learning Studio (classic) vytvořit výuku modelu pomocí funkce sweep. Odmazání parametrů je způsob, jak najít nejlepší parametry pro model s ohledem na sadu dat.

Modul clusteringu pro Sweep je určený speciálně pro modely clusteringu. Jako vstup poskytujete model clusteringu spolu s datovou sadou. Modul projde sadu parametrů, které zadáte, sestavování a testování modelů s různými parametry, dokud nenajde model s nejlepší sadou clusterů. Automaticky vypočítá nejlepší konfiguraci a potom navlakuje model pomocí této konfigurace.

Také vrací sadu metrik popisujících testované modely a sadu přiřazení clusteru na základě nejlepšího modelu.

Postup konfigurace clusteringu pro čištění

  1. Přidejte modul clustering pro Sweep do experimentu v studiu (Classic). tento modul můžete najít v části Machine Learningv kategorii vlak .

  2. Přidejte k experimentu modul clusteringu a datovou sadu školení a propojte je s modulem clusteringu pro Sweep .

  3. Konfigurace k – znamená , že modul clusteringu používá pro použití přečištění parametrů následujícím způsobem:

    1. Nastavte režim vytváření Trainer na rozsah parametrů.

    2. Pro každý parametr použijte Tvůrce rozsahu (nebo ručně zadejte více hodnot), abyste mohli nastavit rozsah hodnot, které se mají iterovat.

    3. Inicializace pro Sweep: Určete, jak má algoritmus K discentroids počáteční cluster. Pro inicializaci náhodného spouštění a testování centroids je k dispozici více algoritmů.

      Pokud vaše datová sada pro školení obsahuje sloupec popisku, a to i s částečnými hodnotami, můžete použít tyto hodnoty pro centroids. Pomocí možnosti přiřadit režim popisku můžete určit, jak se mají hodnoty popisku používat.

      Tip

      Sloupec popisku musí být označen jako předem. Pokud se zobrazí chyba, zkuste použít příkaz Upravit metadata k identifikaci sloupce obsahujícího popisky.

    4. Počet semen kvygenerování: Určete, kolik různých náhodných počátečních osiv se má při mazání parametru vyzkoušet.

    5. Vyberte metriku, která se má použít při měření podobnosti clusteru. Další informace najdete v tématu k clusteringu .

    6. Iterace: Určete celkový počet iterací, které by měl použít algoritmus k. Tyto iterace se používají k optimalizaci výběru centroids clusteru.

    7. Pokud k inicializaci Sweep používáte sloupec popisku, použijte možnost přiřadit režim popisku a určete, jak mají být zpracovány hodnoty ve sloupci popisek.

      • Vyplnit chybějící hodnoty: Pokud sloupec popisku obsahuje některé chybějící hodnoty, použijte tuto možnost k imputaci kategorií na základě clusteru, ke kterému je přiřazen datový bod.

      • Přepsat z nejbližšího centra: vygeneruje hodnoty popisků pro všechny datové body přiřazené ke clusteru pomocí popisku bodu, který je nejblíže středu clusteru.

      • Ignorovat popisek sloupce: tuto možnost vyberte, pokud nechcete provádět žádnou z výše uvedených operací.

  4. V modulu clusteringu pro clustering použijte pro metriku pro měření výsledků clusteringumožnost, abyste určili matematickou metodu, která se má použít při odhadování vyhovujícího modelu clusteringu:

    • Zjednodušená Silhouette: Tato metrika zachycuje těsnost datových bodů v každém clusteru. Je vypočítána jako kombinace podobnosti každého řádku s clusterem a podobností s nejbližším clusterem. Pokud má cluster jenom 1 řádek, počítá se místo toho poměrná vzdálenost k nejbližší nejbližší těžiště, aby se předešlo tomu, že se jako výsledek vrátí 0. "Zjednodušená" označuje skutečnost, že vzdálenost ke clusteru těžiště se používá jako jednoduchá míra podobnosti. Obecně je větší skóre lepší. Průměrná hodnota nad datovou sadou indikuje, jak dobře jsou data v clusteru. Pokud je příliš mnoho nebo příliš málo clusterů, budou mít některé clustery nižší hodnoty Silhouette než zbytek. Další informace najdete v tomto článku Wikipedii.

    • Davies-Bouldin: Tato metrika se zaměřuje na identifikaci nejmenší sady clusterů s nejmenším bodovým. Vzhledem k tomu, že metrika je definovaná jako poměr bodový v rámci jednotlivých clusterů přes oddělení clusteru, nižší hodnota znamená, že clustering je lepší. Nejlepší model clusteringu tuto metriku minimalizuje. Pro výpočet Davies-Bouldinové metriky se na cluster vypočítá průměrně těžiště vzdálenost. U každého páru clusterů je součet těchto průměrů dělený vzdáleností mezi centroids. Maximální hodnota u všech ostatních clusterů je vybrána pro každý cluster a průměrná pro všechny clustery. Další informace najdete v tomto článku Wikipedii.

    • Dunna: Tato metrika se zaměřuje na identifikaci nejmenší sady většiny kompaktních clusterů. Obecně platí, že vyšší hodnota této metriky indikuje lepší clusteringu. Aby bylo možné vypočítat metriku Dunna, je minimální vzdálenost těžiště-to-těžiště vydělena maximální délkou každého datového bodu do centra clusteru. Další informace najdete v tomto článku Wikipedii.

    • Průměrná odchylka: Tato metrika je vypočítaná pomocí průměrné vzdálenosti od jednotlivých datových bodů až po centrum clusteru. Hodnota se zmenší, protože se zvýší počet centroids; Proto není užitečné, pokud chcete najít počet centroids. Tato metrika se doporučuje pro použití při výběru nejlepšího počátečního těžiště inicializace.

  5. Zadejte režim pro mazání parametrů: vyberte možnost definující kombinace hodnot používaných při výuce a způsobu jejich výběru:

    • Celá mřížka: jsou vyzkoušeny a vyhodnocovány všechny hodnoty v daném rozsahu. Tato možnost je obvykle více výpočetně náročná.

    • Náhodné čištění: tuto možnost použijte, pokud chcete omezit počet spuštění. Model clusteringu se sestaví a vyhodnocuje pomocí kombinace hodnot, které se náhodně zvolí z povoleného rozsahu hodnot parametrů.

  6. Maximální počet spuštění na náhodném čištění: tuto možnost nastavte, pokud zvolíte možnost náhodný úklid . Zadejte hodnotu pro omezení maximálního počtu iterací při testování sad náhodně vybraných parametrů.

    Upozornění

    Parametry iterací pro k – znamená , že modul clusteringu má jiný účel a není ovlivněn tímto nastavením: omezuje počet průchodů daty provedenými za účelem zlepšení clusterů tím, že minimalizuje průměrnou vzdálenost od jednotlivých datových bodů až po cluster centroids. Naproti tomu jsou iterace definované parametrem modulu clustering Sweep provedeny, aby bylo možné vyzkoušet jiné náhodné inicializace těžiště. Tento problém minimalizace je známý jako NP-tvrdý; Proto by bylo možné vyzkoušet několik náhodných semen a dosáhnout lepších výsledků.

    Pokud vyberete náhodné rozčištění, použijte možnost náhodného osazení a určete počáteční hodnoty náhodného osazení, na kterých chcete začít vytvářet centroids. Jednou z výhod použití funkce Sweep pro vytvoření modelu clusteringu je, že můžete snadno otestovat více hodnot počáteční hodnoty a zmírnit tak známou citlivost modelů clusteringu na počáteční počáteční hodnotu.

  7. Klikněte na sada sloupcůa vyberte sloupce, které chcete použít při sestavování clusterů. Ve výchozím nastavení se všechny sloupce funkce používají při sestavování a testování modelu clusteringu.

    Můžete zahrnout sloupec popisku, pokud se nachází ve vaší datové sadě. Pokud je popisek k dispozici, můžete ho použít k vodítkí výběru centroids, použití popisku jako funkce nebo ignorování popisku. Nastavte tyto možnosti pro popisek, který zpracovává modul clusteringu Kmeans , jak je popsáno v kroku 3 výše.

  8. Kontrola připojení nebo zrušení kontroly pouze pro výsledek: tuto možnost použijte k určení, které sloupce budou vráceny ve výsledcích.

    Ve výchozím nastavení modul vrací původní sloupce školicích dat spolu s výsledky. Pokud zrušíte výběr této možnosti. Vrátí se pouze přiřazení clusteru.

  9. Do experimentu přidejte modul přiřazení dat do clusterů .

  10. Připojení výstupem označeného nejlépe vyškolený model do proučeného modelu vstup přiřazení dat do clusterů.

  11. Přidejte datovou sadu, která je určena pro vyhodnocení, a připojte ji k portu DataSet modulu přiřazení dat ke clusterům .

  12. Přidejte modul vyhodnocení modelu a připojte ho, aby bylo možné přiřazovat data do clusterů. Volitelně můžete připojit zkušební datovou sadu.

  13. Spusťte experiment.

Výsledky

Modul clusteringu pro Sweep má tři různé výsledky:

  • Nejlépe vycvičený model. Vyškolený model, který můžete použít pro bodování a vyhodnocení. Klikněte pravým tlačítkem a vyberte Uložit jako trained model pro zachycení optimalizovaného modelu clusteringu a použijte ho pro bodování.

  • Datová sada výsledků Sada přiřazení clusteru založená na optimalizovaném modelu.

    Název sloupce Popis
    Přiřazení Tato hodnota označuje cluster, ke kterému byl přiřazen každý datový bod. Clustery v proškolených modelech jsou označené s 0 indexy.
    DistancesToClusterCenter č. 1

    DistancesToClusterCenter ne. n
    Tato hodnota indikuje, jak se má datový bod uzavřít do středu každého clusteru.

    Vytvoří se sloupec pro každý cluster vytvořený v optimalizovaném modelu.

    Počet clusterů můžete omezit pomocí možnosti počet centroids .

    Ve výchozím nastavení můžete vracet sloupce z datové sady školení společně s výsledky, aby bylo snazší zkontrolovat a interpretovat přiřazení clusteru.

  • Výsledky Shrnutí Datová sada obsahující následující metriky vyhodnocení pro clustery:

    Název sloupce Popis
    Metrika clusteru Hodnota, která označuje průměrnou kvalitu clusteru pro dané spuštění. Spuštění jsou seřazena podle nejlepšího skóre.
    Počet centroids Počet clusterů, které byly vytvořeny v této konkrétní iteraci Sweep
    Index běhu Identifikátor pro každou iteraci

    Tip

    Hodnoty vrácené pro metriku clusteru by měly být interpretovány jinak, podle toho, kterou metriku jste zvolili při nastavování sweep. Pro výchozí metriku je lepší Silhouettevětší skóre. V případě Davies-Bouldinje nižší skóre lepší.

Příklady

Příklady, jak vysweep parametr s K – znamená clustering, najdete v Azure AI Gallery:

Technické poznámky

Tato část obsahuje tipy a podrobnosti implementace.

Optimalizace modelů clusteringu

Kvalita a přesnost modelů clusteringu může být silně ovlivněna volbou počátečních parametrů, jako je třeba počet centroids a hodnota počáteční hodnoty používané k inicializaci clusteru. Chcete-li zmírnit tuto citlivost na počáteční parametry, modul clusteringu pro čištění vám pomůže najít nejlepší kombinaci parametrů. Zadáte rozsah parametrů, které chcete testovat, a modul automaticky vytvoří a otestuje více modelů a nakonec vybere optimální počet clusterů.

Chcete-li vytvořit parametr Sweep, je nutné také nakonfigurovat modul pro vytváření clusterů tak, aby používal parametr sweep. Můžete určit, že se má oblouk iterovat přes všechny možné kombinace parametrů, nebo použít náhodnou kombinaci parametrů. Můžete také zvolit jednu z několika standardních metrik pro měření přesnosti centroids během procesu vytváření a testování iteračního modelu. Po dokončení zadaného počtu iterací modul vybere nejlepší počet clusterů na základě vybrané metriky a vytvoří výstup sestav, které můžete použít k vyhodnocení výsledků.

Tipy k použití

  • V některých případech můžete už zjistit, kolik clusterů očekáváte. Například vaše data mohou mít popisky třídy, které by mohly být použity při výběru identifikátoru centroids. V takovém případě můžete nakonfigurovat modul pro vytváření clusterů tak, aby se k výběru počátečního centroidsu použil sloupec popisek.

  • Pokud znáte některé z očekávaných clusterů, ale nejste si jistí, kolik clusterů je optimální, nastavte počet centroids na číslo, které je větší než počet známých hodnot popisku. Modul pro čištění clusterů Vytvoří clustery pro známé datové body a pak určí optimální počet dodatečných clusterů pro zbývající datové body.

Zpracování chybějících hodnot ve sloupci popisku

Existuje několik způsobů, jak ve sloupci popisku zpracovat chybějící hodnoty. Předpokládejme například, že máte úlohu klasifikace obrázku a že byly označeny pouze některé z imagí.

Můžete použít sloupec Label (popisek) k seznámení s výběrem centroids, ale určit, že se některé chybějící popisky vyplní pomocí přiřazení clusteru. Jinými slovy existující hodnoty popisků se nemění, ale chybějící popisky jsou vyplněné.

Případně pro všechny datové body přiřazené ke clusteru můžete přepsat i existující popisky pomocí jediného popisku, který nejlépe představuje cluster. Abyste porozuměli tomu, jak je tato možnost užitečná, Představte si, že používáte data obrázku s velmi podrobnými popisky, například s různými plemeny pro psy. Pomocí této možnosti můžete nahradit všechny podrobné popisky jedním označením kategorie "pes".

Počáteční hodnoty v protokolu

Zdá se, že soubor protokolu generovaný modulem modelu clusteringu pro vytváření clusterů označuje, že se stejné počáteční hodnoty používají pro všechny iterace algoritmu "k", bez ohledu na počáteční hodnotu, která byla poskytnuta jako vlastnost náhodného osazení .

Ve skutečnosti používá implementace k vygenerování sekvence náhodných čísel, která jsou pro každé spuštění odlišná od uživatelem zadané hodnoty. Proto je pro vytvoření všech náhodně vygenerovaných čísel nutná pouze jedna počáteční část.

Záměrem protokolu je určit, kterou počáteční hodnotu modul používá, když uživatel nezadá počáteční hodnotu v podokně vlastnosti .

Očekávané vstupy

Název Typ Description
Nevlakový model Rozhraní ICluster Nevlakový model clusteringu
Datová sada Tabulka dat Vstupní zdroj dat

Parametry modulu

Název Typ Hodnoty Volitelné Výchozí Description
Metrika pro měření výsledku clusteringu Metrika clusteru Zjednodušená Silhouette, Davies-Bouldin, Dunna, průměrná odchylka Vyžadováno Zjednodušená Silhouette Vyberte metriku, která se používá pro vyhodnocení regresních modelů.
Zadat režim mazání parametrů Metody Sweep Celá mřížka nebo náhodný oblouk Vyžadováno Náhodné Shrnutí Rozložit celou mřížku na místo parametrů nebo vyložit pomocí omezeného počtu vzorových běhů
Sada sloupců ColumnSelection Vyžadováno Vzor výběru sloupce
Maximální počet spuštění na náhodném čištění Integer [1; 10000] K dispozici pouze v případě, že je SweepingMode nastaveno na náhodné čištění 5 Nastavte maximální počet spuštění, která se mají provést při použití náhodného čištění.
Náhodné osazení Integer K dispozici pouze v případě, že je SweepingMode nastaveno na náhodné čištění 0 Zadejte hodnotu pro počáteční generátor náhodných čísel pro náhodný úklid.
Kontrolovat pouze výsledek připojení nebo zrušení kontroly Logická hodnota Vyžadováno Ano Tuto možnost vyberte, pokud chcete, aby výstupní datová sada měla obsahovat vstupní datovou sadu se sloupcem přiřazení. Zrušte zaškrtnutí, pokud chcete označit, že by měl být výstup pouze sloupce přiřazení.

Výstupy

Název Typ Description
Nejlépe vyškolený model Rozhraní ICluster Model proučeného clusteringu
Datová sada výsledků Tabulka dat Vstupní datová sada, která je připojena datovým sloupcem pro přiřazení nebo sloupce přiřazení
Výsledky Shrnutí Tabulka dat Výsledný protokol metriky pro spuštění v průběhu clusterového čištění

Výjimky

Výjimka Description
Chyba 0003 K výjimce dojde v případě, že jeden nebo více vstupů má hodnotu null nebo je prázdné.

seznam chyb, které jsou specifické pro moduly studia (classic), najdete v článku kódy chyb Machine Learning.

seznam výjimek rozhraní API najdete v tématu Machine Learning REST API chybové kódy.

Viz také

Clustering K-Means
Přiřazení dat do clusterů
Machine Learning/výuka
Machine Learning/inicializace modelu/clusteringu