Komponenta rozhodovací doménové struktury s více třídami
Tento článek popisuje komponentu v návrháři služby Azure Machine Learning.
Tato komponenta slouží k vytvoření modelu strojového učení založeného na algoritmu rozhodovací doménové struktury . Rozhodovací doména je souborový model, který rychle vytváří řadu rozhodovacích stromů a zároveň se učí ze označených dat.
Další informace o rozhodovacích strukturách
Algoritmus rozhodovací doménové struktury je metoda učení souboru pro klasifikaci. Algoritmus funguje tak, že sestaví více rozhodovacích stromů a pak hlasuje o nejoblíbenější výstupní třídě. Hlasování je forma agregace, ve které každý strom v rozhodovací doménové struktuře klasifikace vypíše nenormalizovaný frekvenční histogram popisků. Proces agregace tyto histogramy sečte a normalizuje výsledek, aby získal "pravděpodobnosti" pro každý popisek. Stromy, které mají vysokou jistotu predikce, mají větší váhu v konečném rozhodnutí souboru.
Rozhodovací stromy jsou obecně neparametrické modely, což znamená, že podporují data s různými rozděleními. V každém stromu se pro každou třídu spouští posloupnost jednoduchých testů, které zvyšují úrovně stromové struktury, dokud se nedosáhne uzlu listu (rozhodnutí).
Rozhodovací stromy mají mnoho výhod:
- Mohou představovat nelineární rozhodovací hranice.
- Jsou efektivní při výpočtu a využití paměti během trénování a predikce.
- Provádějí integrovaný výběr a klasifikaci funkcí.
- Jsou odolné v přítomnosti hlučných funkcí.
Klasifikátor rozhodovací doménové struktury ve službě Azure Machine Learning se skládá ze souboru rozhodovacích stromů. Obecně platí, že modely souborů poskytují lepší pokrytí a přesnost než jednotlivé rozhodovací stromy. Další informace najdete v tématu Rozhodovací stromy.
Konfigurace rozhodovací struktury s více třídami
Přidejte do kanálu v návrháři komponentu Rozhodovací doménová struktura s více třídami . Tuto komponentu najdete v části Strojové učení, Inicializace modelu a Klasifikace.
Poklikáním na komponentu otevřete podokno Vlastnosti .
V části Metoda převzorkování zvolte metodu použitou k vytvoření jednotlivých stromů. Můžete si vybrat z pytlování nebo replikace.
Pytlování: Pytlování se také nazývá bootstrap agregace. V této metodě se každý strom vytvoří na novém vzorku vytvořeném náhodným vzorkováním původní datové sady s nahrazením, dokud nebudete mít datovou sadu o velikosti původní. Výstupy modelů se kombinují hlasováním, což je forma agregace. Další informace najdete v článku o agregaci bootstrap na Wikipedii.
Replikace: Při replikaci se každý strom vytrénuje na přesně stejných vstupních datech. Určení, který rozdělený predikát se používá pro každý uzel stromové struktury, zůstává náhodné a vytváří různorodé stromy.
Nastavením možnosti Vytvořit režim školitele určete, jak má být model vytrénován.
Jeden parametr: Tuto možnost vyberte, pokud víte, jak chcete model nakonfigurovat, a jako argumenty zadejte sadu hodnot.
Rozsah parametrů: Tuto možnost vyberte, pokud si nejste jistí nejlepšími parametry a chcete spustit úklid parametrů. Vyberte rozsah hodnot, které chcete iterovat, a hyperparametry tune modelu iteruje všechny možné kombinace nastavení, které jste zadali, a určí hyperparametry, které generují optimální výsledky.
Počet rozhodovacích stromů: Zadejte maximální počet rozhodovacích stromů, které lze v souboru vytvořit. Vytvořením více rozhodovacích stromů můžete potenciálně získat lepší pokrytí, ale může se prodloužit doba trénování.
Pokud nastavíte hodnotu na 1; To však znamená, že lze vytvořit pouze jeden strom (strom s počáteční sadou parametrů) a neprovádí se žádné další iterace.
Maximální hloubka rozhodovacích stromů: Zadejte číslo, které omezí maximální hloubku rozhodovacího stromu. Zvýšení hloubky stromu může zvýšit přesnost s rizikem přeurčení a delšího trénování.
Počet náhodných rozdělení na uzel: Zadejte počet rozdělení, která se mají použít při sestavování jednotlivých uzlů stromu. Rozdělení znamená, že funkce v každé úrovni stromu (uzlu) jsou náhodně rozděleny.
Minimální počet vzorků na uzel listu: Určuje minimální počet případů, které jsou potřeba k vytvoření libovolného koncového uzlu (listu) ve stromu. Zvýšením této hodnoty zvýšíte prahovou hodnotu pro vytváření nových pravidel.
Například s výchozí hodnotou 1 může i jeden případ způsobit vytvoření nového pravidla. Pokud hodnotu zvýšíte na 5, trénovací data by musela obsahovat alespoň pět případů, které splňují stejné podmínky.
Připojte datovou sadu s popiskem a vytrénujte model:
Pokud nastavíte Vytvořit režim školitele na jeden parametr, propojte označenou datovou sadu a komponentu Trénování modelu .
Pokud nastavíte Vytvořit režim školitele na Rozsah parametrů, připojte označenou datovou sadu a vytrénujte model pomocí ladění hyperparametrů modelu.
Poznámka
Pokud do trénování modelu předáte rozsah parametrů, použije se pouze výchozí hodnota v seznamu s jedním parametrem.
Pokud předáte jednu sadu hodnot parametrů do komponenty Tune Model Hyperparameters , pokud očekává rozsah nastavení pro každý parametr, ignoruje hodnoty a použije výchozí hodnoty pro learner.
Pokud vyberete možnost Rozsah parametrů a zadáte jednu hodnotu pro libovolný parametr, použije se tato jedna hodnota, kterou jste zadali, v průběhu úklidu, i když se jiné parametry v rozsahu hodnot mění.
Odešlete kanál.
Další kroky
Projděte si sadu komponent dostupných pro Azure Machine Learning.