Komponenta rozhodovací doménové struktury s více třídami

Tento článek popisuje komponentu v návrháři služby Azure Machine Learning.

Tato komponenta slouží k vytvoření modelu strojového učení založeného na algoritmu rozhodovací doménové struktury . Rozhodovací doména je souborový model, který rychle vytváří řadu rozhodovacích stromů a zároveň se učí ze označených dat.

Další informace o rozhodovacích strukturách

Algoritmus rozhodovací doménové struktury je metoda učení souboru pro klasifikaci. Algoritmus funguje tak, že sestaví více rozhodovacích stromů a pak hlasuje o nejoblíbenější výstupní třídě. Hlasování je forma agregace, ve které každý strom v rozhodovací doménové struktuře klasifikace vypíše nenormalizovaný frekvenční histogram popisků. Proces agregace tyto histogramy sečte a normalizuje výsledek, aby získal "pravděpodobnosti" pro každý popisek. Stromy, které mají vysokou jistotu predikce, mají větší váhu v konečném rozhodnutí souboru.

Rozhodovací stromy jsou obecně neparametrické modely, což znamená, že podporují data s různými rozděleními. V každém stromu se pro každou třídu spouští posloupnost jednoduchých testů, které zvyšují úrovně stromové struktury, dokud se nedosáhne uzlu listu (rozhodnutí).

Rozhodovací stromy mají mnoho výhod:

  • Mohou představovat nelineární rozhodovací hranice.
  • Jsou efektivní při výpočtu a využití paměti během trénování a predikce.
  • Provádějí integrovaný výběr a klasifikaci funkcí.
  • Jsou odolné v přítomnosti hlučných funkcí.

Klasifikátor rozhodovací doménové struktury ve službě Azure Machine Learning se skládá ze souboru rozhodovacích stromů. Obecně platí, že modely souborů poskytují lepší pokrytí a přesnost než jednotlivé rozhodovací stromy. Další informace najdete v tématu Rozhodovací stromy.

Konfigurace rozhodovací struktury s více třídami

  1. Přidejte do kanálu v návrháři komponentu Rozhodovací doménová struktura s více třídami . Tuto komponentu najdete v části Strojové učení, Inicializace modelu a Klasifikace.

  2. Poklikáním na komponentu otevřete podokno Vlastnosti .

  3. V části Metoda převzorkování zvolte metodu použitou k vytvoření jednotlivých stromů. Můžete si vybrat z pytlování nebo replikace.

    • Pytlování: Pytlování se také nazývá bootstrap agregace. V této metodě se každý strom vytvoří na novém vzorku vytvořeném náhodným vzorkováním původní datové sady s nahrazením, dokud nebudete mít datovou sadu o velikosti původní. Výstupy modelů se kombinují hlasováním, což je forma agregace. Další informace najdete v článku o agregaci bootstrap na Wikipedii.

    • Replikace: Při replikaci se každý strom vytrénuje na přesně stejných vstupních datech. Určení, který rozdělený predikát se používá pro každý uzel stromové struktury, zůstává náhodné a vytváří různorodé stromy.

  4. Nastavením možnosti Vytvořit režim školitele určete, jak má být model vytrénován.

    • Jeden parametr: Tuto možnost vyberte, pokud víte, jak chcete model nakonfigurovat, a jako argumenty zadejte sadu hodnot.

    • Rozsah parametrů: Tuto možnost vyberte, pokud si nejste jistí nejlepšími parametry a chcete spustit úklid parametrů. Vyberte rozsah hodnot, které chcete iterovat, a hyperparametry tune modelu iteruje všechny možné kombinace nastavení, které jste zadali, a určí hyperparametry, které generují optimální výsledky.

  5. Počet rozhodovacích stromů: Zadejte maximální počet rozhodovacích stromů, které lze v souboru vytvořit. Vytvořením více rozhodovacích stromů můžete potenciálně získat lepší pokrytí, ale může se prodloužit doba trénování.

    Pokud nastavíte hodnotu na 1; To však znamená, že lze vytvořit pouze jeden strom (strom s počáteční sadou parametrů) a neprovádí se žádné další iterace.

  6. Maximální hloubka rozhodovacích stromů: Zadejte číslo, které omezí maximální hloubku rozhodovacího stromu. Zvýšení hloubky stromu může zvýšit přesnost s rizikem přeurčení a delšího trénování.

  7. Počet náhodných rozdělení na uzel: Zadejte počet rozdělení, která se mají použít při sestavování jednotlivých uzlů stromu. Rozdělení znamená, že funkce v každé úrovni stromu (uzlu) jsou náhodně rozděleny.

  8. Minimální počet vzorků na uzel listu: Určuje minimální počet případů, které jsou potřeba k vytvoření libovolného koncového uzlu (listu) ve stromu. Zvýšením této hodnoty zvýšíte prahovou hodnotu pro vytváření nových pravidel.

    Například s výchozí hodnotou 1 může i jeden případ způsobit vytvoření nového pravidla. Pokud hodnotu zvýšíte na 5, trénovací data by musela obsahovat alespoň pět případů, které splňují stejné podmínky.

  9. Připojte datovou sadu s popiskem a vytrénujte model:

    • Pokud nastavíte Vytvořit režim školitele na jeden parametr, propojte označenou datovou sadu a komponentu Trénování modelu .

    • Pokud nastavíte Vytvořit režim školitele na Rozsah parametrů, připojte označenou datovou sadu a vytrénujte model pomocí ladění hyperparametrů modelu.

    Poznámka

    Pokud do trénování modelu předáte rozsah parametrů, použije se pouze výchozí hodnota v seznamu s jedním parametrem.

    Pokud předáte jednu sadu hodnot parametrů do komponenty Tune Model Hyperparameters , pokud očekává rozsah nastavení pro každý parametr, ignoruje hodnoty a použije výchozí hodnoty pro learner.

    Pokud vyberete možnost Rozsah parametrů a zadáte jednu hodnotu pro libovolný parametr, použije se tato jedna hodnota, kterou jste zadali, v průběhu úklidu, i když se jiné parametry v rozsahu hodnot mění.

  10. Odešlete kanál.

Další kroky

Projděte si sadu komponent dostupných pro Azure Machine Learning.