Komponenta Decision Forest Regression
Tento článek popisuje komponentu v návrháři služby Azure Machine Learning.
Tato komponenta slouží k vytvoření regresního modelu založeného na souboru rozhodovacích stromů.
Po nakonfigurování modelu musíte model trénovat pomocí označené datové sady a komponenty Trénování modelu . Trénovaný model se pak dá použít k vytváření předpovědí.
Jak to funguje
Rozhodovací stromy jsou neparametrické modely, které provádějí posloupnost jednoduchých testů pro každou instanci a procházejí strukturu dat binárního stromu, dokud není dosaženo uzlu listu (rozhodnutí).
Rozhodovací stromy mají tyto výhody:
Jsou efektivní při výpočtu i využití paměti během trénování a predikce.
Mohou představovat nelineární rozhodovací hranice.
Provádějí integrovaný výběr a klasifikaci funkcí a jsou odolné v přítomnosti hlučných funkcí.
Tento regresní model se skládá ze souboru rozhodovacích stromů. Každý strom v regresní rozhodovací doménové struktuře vypíše gaussovské rozdělení jako předpověď. Agregace se provádí nad souborem stromů, aby se zjistilo Gaussovské rozdělení, které je nejblíže kombinovanému rozdělení pro všechny stromy v modelu.
Další informace o teoretickém rámci pro tento algoritmus a jeho implementaci najdete v tomto článku: Rozhodovací struktury: Jednotný rámec pro klasifikaci, regresi, odhad hustoty, učení a učení Semi-Supervised.
Jak nakonfigurovat model regrese rozhodovací doménové struktury
Přidejte komponentu Decision Forest Regression do kanálu. Komponentu najdete v návrháři v části Strojové učení, Inicializace modelu a Regrese.
Otevřete vlastnosti komponenty a v části Metoda Převzorkování zvolte metodu použitou k vytvoření jednotlivých stromů. Můžete si vybrat z možností Pytlování nebo Replikovat.
Pytlování: Pytlování se také nazývá bootstrap agregace. Každý strom v regresní rozhodovací doménové struktuře vypíše gaussovské rozdělení prostřednictvím předpovědi. Agregace spočívá v nalezení Gaussova diagramu, jehož první dva okamžiky odpovídají momentům kombinace gaussových rozdělení, které jsou dány kombinací všech rozdělení vrácených jednotlivými stromy.
Další informace najdete v článku o agregaci bootstrap na Wikipedii.
Replikace: Při replikaci se každý strom vytrénuje na přesně stejných vstupních datech. Určení, který rozdělený predikát se používá pro každý uzel stromu, zůstává náhodné a stromy budou různorodé.
Další informace o procesu trénování s možností Replikovat najdete v tématech Rozhodovací struktury pro Počítačové zpracování obrazu a Medical Image Analysis. Criminisi a J. Shotton. Springer 2013.
Nastavením možnosti Vytvořit režim školitele určete, jak má být model vytrénován.
Jeden parametr
Pokud víte, jak chcete model nakonfigurovat, můžete jako argumenty zadat konkrétní sadu hodnot. Je možné, že jste se tyto hodnoty naučili experimentováním nebo jste je získali jako vodítko.
Rozsah parametrů: Tuto možnost vyberte, pokud si nejste jistí nejlepšími parametry a chcete spustit úklid parametrů. Vyberte rozsah hodnot, které chcete iterovat, a hyperparametry tune modelu iteruje všechny možné kombinace nastavení, které jste zadali, a určí hyperparametry, které generují optimální výsledky.
V části Počet rozhodovacích stromů uveďte celkový počet rozhodovacích stromů, které se mají vytvořit v souboru. Vytvořením více rozhodovacích stromů můžete potenciálně získat lepší pokrytí, ale doba trénování se zvýší.
Tip
Pokud nastavíte hodnotu na 1; To však znamená, že se vytvoří pouze jeden strom (strom s počáteční sadou parametrů) a nebudou provedeny žádné další iterace.
Do pole Maximální hloubka rozhodovacích stromů zadejte číslo, které omezí maximální hloubku libovolného rozhodovacího stromu. Zvýšení hloubky stromu může zvýšit přesnost s rizikem přeurčení a delšího trénování.
Do pole Počet náhodných rozdělení na uzel zadejte počet rozdělení, která se mají použít při vytváření jednotlivých uzlů stromu. Rozdělení znamená, že funkce v každé úrovni stromu (uzlu) jsou náhodně rozděleny.
V poli Minimální počet vzorků na uzel listu uveďte minimální počet případů potřebných k vytvoření libovolného koncového uzlu (listu) ve stromu.
Zvýšením této hodnoty zvýšíte prahovou hodnotu pro vytváření nových pravidel. Například s výchozí hodnotou 1 může i jeden případ způsobit vytvoření nového pravidla. Pokud hodnotu zvýšíte na 5, trénovací data by musela obsahovat alespoň pět případů, které splňují stejné podmínky.
Trénování modelu:
Pokud nastavíte Vytvořit režim školitele na jeden parametr, propojte označenou datovou sadu a komponentu Trénování modelu .
Pokud nastavíte Vytvořit režim školitele na Rozsah parametrů, připojte označenou datovou sadu a vytrénujte model pomocí ladění hyperparametrů modelu.
Poznámka
Pokud do trénování modelu předáte rozsah parametrů, použije se pouze výchozí hodnota v seznamu s jedním parametrem.
Pokud předáte jednu sadu hodnot parametrů do komponenty Tune Model Hyperparameters , pokud očekává rozsah nastavení pro každý parametr, ignoruje hodnoty a použije výchozí hodnoty pro learner.
Pokud vyberete možnost Rozsah parametrů a zadáte jednu hodnotu pro libovolný parametr, použije se tato jedna hodnota, kterou jste zadali, v průběhu úklidu, i když se jiné parametry v rozsahu hodnot mění.
Odešlete kanál.
Výsledky
Po dokončení trénování:
- Pokud chcete uložit snímek natrénovaného modelu, vyberte komponentu trénování a pak na pravém panelu přepněte na kartu Výstupy . Klikněte na ikonu Zaregistrovat model. Uložený model najdete jako součást ve stromu komponent.
Další kroky
Projděte si sadu komponent dostupných pro Azure Machine Learning.