Komponenta Decision Forest Regression

Tento článek popisuje komponentu v návrháři služby Azure Machine Learning.

Tato komponenta slouží k vytvoření regresního modelu založeného na souboru rozhodovacích stromů.

Po nakonfigurování modelu musíte model trénovat pomocí označené datové sady a komponenty Trénování modelu . Trénovaný model se pak dá použít k vytváření předpovědí.

Jak to funguje

Rozhodovací stromy jsou neparametrické modely, které provádějí posloupnost jednoduchých testů pro každou instanci a procházejí strukturu dat binárního stromu, dokud není dosaženo uzlu listu (rozhodnutí).

Rozhodovací stromy mají tyto výhody:

  • Jsou efektivní při výpočtu i využití paměti během trénování a predikce.

  • Mohou představovat nelineární rozhodovací hranice.

  • Provádějí integrovaný výběr a klasifikaci funkcí a jsou odolné v přítomnosti hlučných funkcí.

Tento regresní model se skládá ze souboru rozhodovacích stromů. Každý strom v regresní rozhodovací doménové struktuře vypíše gaussovské rozdělení jako předpověď. Agregace se provádí nad souborem stromů, aby se zjistilo Gaussovské rozdělení, které je nejblíže kombinovanému rozdělení pro všechny stromy v modelu.

Další informace o teoretickém rámci pro tento algoritmus a jeho implementaci najdete v tomto článku: Rozhodovací struktury: Jednotný rámec pro klasifikaci, regresi, odhad hustoty, učení a učení Semi-Supervised.

Jak nakonfigurovat model regrese rozhodovací doménové struktury

  1. Přidejte komponentu Decision Forest Regression do kanálu. Komponentu najdete v návrháři v části Strojové učení, Inicializace modelu a Regrese.

  2. Otevřete vlastnosti komponenty a v části Metoda Převzorkování zvolte metodu použitou k vytvoření jednotlivých stromů. Můžete si vybrat z možností Pytlování nebo Replikovat.

    • Pytlování: Pytlování se také nazývá bootstrap agregace. Každý strom v regresní rozhodovací doménové struktuře vypíše gaussovské rozdělení prostřednictvím předpovědi. Agregace spočívá v nalezení Gaussova diagramu, jehož první dva okamžiky odpovídají momentům kombinace gaussových rozdělení, které jsou dány kombinací všech rozdělení vrácených jednotlivými stromy.

      Další informace najdete v článku o agregaci bootstrap na Wikipedii.

    • Replikace: Při replikaci se každý strom vytrénuje na přesně stejných vstupních datech. Určení, který rozdělený predikát se používá pro každý uzel stromu, zůstává náhodné a stromy budou různorodé.

      Další informace o procesu trénování s možností Replikovat najdete v tématech Rozhodovací struktury pro Počítačové zpracování obrazu a Medical Image Analysis. Criminisi a J. Shotton. Springer 2013.

  3. Nastavením možnosti Vytvořit režim školitele určete, jak má být model vytrénován.

    • Jeden parametr

      Pokud víte, jak chcete model nakonfigurovat, můžete jako argumenty zadat konkrétní sadu hodnot. Je možné, že jste se tyto hodnoty naučili experimentováním nebo jste je získali jako vodítko.

    • Rozsah parametrů: Tuto možnost vyberte, pokud si nejste jistí nejlepšími parametry a chcete spustit úklid parametrů. Vyberte rozsah hodnot, které chcete iterovat, a hyperparametry tune modelu iteruje všechny možné kombinace nastavení, které jste zadali, a určí hyperparametry, které generují optimální výsledky.

  4. V části Počet rozhodovacích stromů uveďte celkový počet rozhodovacích stromů, které se mají vytvořit v souboru. Vytvořením více rozhodovacích stromů můžete potenciálně získat lepší pokrytí, ale doba trénování se zvýší.

    Tip

    Pokud nastavíte hodnotu na 1; To však znamená, že se vytvoří pouze jeden strom (strom s počáteční sadou parametrů) a nebudou provedeny žádné další iterace.

  5. Do pole Maximální hloubka rozhodovacích stromů zadejte číslo, které omezí maximální hloubku libovolného rozhodovacího stromu. Zvýšení hloubky stromu může zvýšit přesnost s rizikem přeurčení a delšího trénování.

  6. Do pole Počet náhodných rozdělení na uzel zadejte počet rozdělení, která se mají použít při vytváření jednotlivých uzlů stromu. Rozdělení znamená, že funkce v každé úrovni stromu (uzlu) jsou náhodně rozděleny.

  7. V poli Minimální počet vzorků na uzel listu uveďte minimální počet případů potřebných k vytvoření libovolného koncového uzlu (listu) ve stromu.

    Zvýšením této hodnoty zvýšíte prahovou hodnotu pro vytváření nových pravidel. Například s výchozí hodnotou 1 může i jeden případ způsobit vytvoření nového pravidla. Pokud hodnotu zvýšíte na 5, trénovací data by musela obsahovat alespoň pět případů, které splňují stejné podmínky.

  8. Trénování modelu:

    • Pokud nastavíte Vytvořit režim školitele na jeden parametr, propojte označenou datovou sadu a komponentu Trénování modelu .

    • Pokud nastavíte Vytvořit režim školitele na Rozsah parametrů, připojte označenou datovou sadu a vytrénujte model pomocí ladění hyperparametrů modelu.

    Poznámka

    Pokud do trénování modelu předáte rozsah parametrů, použije se pouze výchozí hodnota v seznamu s jedním parametrem.

    Pokud předáte jednu sadu hodnot parametrů do komponenty Tune Model Hyperparameters , pokud očekává rozsah nastavení pro každý parametr, ignoruje hodnoty a použije výchozí hodnoty pro learner.

    Pokud vyberete možnost Rozsah parametrů a zadáte jednu hodnotu pro libovolný parametr, použije se tato jedna hodnota, kterou jste zadali, v průběhu úklidu, i když se jiné parametry v rozsahu hodnot mění.

  9. Odešlete kanál.

Výsledky

Po dokončení trénování:

  • Pokud chcete uložit snímek natrénovaného modelu, vyberte komponentu trénování a pak na pravém panelu přepněte na kartu Výstupy . Klikněte na ikonu Zaregistrovat model. Uložený model najdete jako součást ve stromu komponent.

Další kroky

Projděte si sadu komponent dostupných pro Azure Machine Learning.