Posílená komponenta regrese rozhodovacího stromu

Tento článek popisuje komponentu v návrháři služby Azure Machine Learning.

Pomocí této komponenty můžete vytvořit soubor regresních stromů pomocí boostingu. Posílení znamená, že každý strom je závislý na předchozích stromech. Algoritmus se učí přizpůsobením zbytku stromů, které mu předcházely. Proto zvýšení v souboru rozhodovacího stromu má tendenci zlepšit přesnost s určitým malým rizikem menšího pokrytí.

Tato komponenta je založená na algoritmu LightGBM.

Tato regresní metoda je metoda učení se supervizí, a proto vyžaduje datovou sadu s popiskem. Sloupec popisku musí obsahovat číselné hodnoty.

Poznámka

Tuto komponentu používejte pouze u datových sad, které používají číselné proměnné.

Po definování modelu ho trénujte pomocí trénování modelu.

Další informace o zesílených regresních stromech

Boosting je jednou z několika klasických metod vytváření kompletových modelů spolu s pytlováním, náhodnými doménovými strukturami atd. Ve službě Azure Machine Learning využívají posílené rozhodovací stromy efektivní implementaci algoritmu zesílání přechodu MART. Gradient boosting je technika strojového učení pro regresní problémy. Sestaví každý regresní strom krokově a pomocí předdefinované funkce ztráty změří chybu v každém kroku a v dalším kroku ji opraví. Prediktivní model je tedy ve skutečnosti soubor slabších prediktivních modelů.

Při regresních problémech vytváří posílení řadu stromů krokovým způsobem a pak vybere optimální strom pomocí libovolně odlišné ztrátové funkce.

Další informace najdete v těchto článcích:

Metodu gradientního zvýšení lze také použít pro klasifikační problémy tím, že je redukuje na regresi s vhodnou ztrátovou funkcí. Další informace o implementaci posílených stromů pro úlohy klasifikace najdete v tématu Dvoutřídní posílený rozhodovací strom.

Konfigurace regrese posíleného rozhodovacího stromu

  1. Přidejte do svého kanálu komponentu Posílený rozhodovací strom . Tuto komponentu najdete v části Machine Learning, Initialize (Inicializovat) v kategorii Regrese .

  2. Určete, jak se má model trénovat, nastavením možnosti Vytvořit režim školitele .

    • Jeden parametr: Tuto možnost vyberte, pokud víte, jak chcete model nakonfigurovat, a jako argumenty zadat konkrétní sadu hodnot.

    • Rozsah parametrů: Tuto možnost vyberte, pokud si nejste jistí nejlepšími parametry a chcete spustit úklid parametrů. Vyberte rozsah hodnot, které chcete iterovat, a hyperparametry Tune Model Hyperparameters iteruje všechny možné kombinace nastavení, která jste zadali, a určí hyperparametry, které generují optimální výsledky.

  3. Maximální počet listů na strom: Určuje maximální počet koncových uzlů (listů), které lze vytvořit v libovolném stromu.

    Zvýšením této hodnoty potenciálně zvětšíte velikost stromu a získáte lepší přesnost s rizikem přeurčení a delšího trénování.

  4. Minimální počet vzorků na uzel typu list: Určuje minimální počet případů potřebných k vytvoření libovolného koncového uzlu (typu list) ve stromu.

    Zvýšením této hodnoty zvýšíte prahovou hodnotu pro vytváření nových pravidel. Například při výchozí hodnotě 1 může i jeden případ způsobit vytvoření nového pravidla. Pokud hodnotu zvýšíte na 5, trénovací data by musela obsahovat alespoň 5 případů, které splňují stejné podmínky.

  5. Rychlost učení: Zadejte číslo mezi 0 a 1, které definuje velikost kroku při učení. Rychlost učení určuje, jak rychle nebo pomalu se učící konverguje na optimální řešení. Pokud je velikost kroku příliš velká, můžete optimální řešení překroutit. Pokud je velikost kroku příliš malá, trénování trvá déle, než se konverguje k nejlepšímu řešení.

  6. Počet vytvořených stromů: Udává celkový počet rozhodovacích stromů, které se mají vytvořit v souboru. Vytvořením více rozhodovacích stromů můžete potenciálně získat lepší pokrytí, ale prodlužuje se doba trénování.

    Pokud nastavíte hodnotu na 1; Vytvoří se však pouze jeden strom (strom s počáteční sadou parametrů) a žádné další iterace se neprovedou.

  7. Počáteční náhodné číslo: Zadejte volitelné nezáporné celé číslo, které se použije jako náhodná počáteční hodnota. Určení počáteční hodnoty zajišťuje reprodukovatelnost napříč spuštěními, která mají stejná data a parametry.

    Ve výchozím nastavení je náhodné počáteční hodnoty nastaveno na hodnotu 0, což znamená, že počáteční počáteční hodnota je získána ze systémových hodin.

  8. Trénování modelu:

    • Pokud nastavíte vytvořit režim školitele na jeden parametr, propojte označenou datovou sadu a komponentu Trénování modelu .

    • Pokud nastavíte Vytvořit režim školitele na Rozsah parametrů, připojte označenou datovou sadu a vytrénujte model pomocí hyperparametrů vyladit model.

    Poznámka

    Pokud předáte rozsah parametrů trénování modelu, použije se pouze výchozí hodnota v seznamu jednotlivých parametrů.

    Pokud předáte jednu sadu hodnot parametrů komponentě Tune Model Hyperparameters , když očekává rozsah nastavení pro každý parametr, ignoruje hodnoty a použije výchozí hodnoty pro učícího se.

    Pokud vyberete možnost Rozsah parametrů a zadáte jednu hodnotu pro libovolný parametr, použije se tato zadaná hodnota v průběhu úklidu, a to i v případě, že se jiné parametry v rámci rozsahu hodnot mění.

  9. Odešlete kanál.

Výsledky

Po dokončení trénování:

  • Pokud chcete model použít k bodování, propojte trénování modelu a určení skóre modelu, abyste mohli předpovědět hodnoty pro nové vstupní příklady.

  • Pokud chcete uložit snímek natrénovaného modelu, vyberte v pravém panelu Vytrénovaný model kartu Výstupy a klikněte na Zaregistrovat ikonu datové sady. Kopie vytrénovaného modelu se uloží jako součást ve stromu komponent a nebude aktualizována při následných spuštěních kanálu.

Další kroky

Podívejte se na sadu komponent dostupných pro Azure Machine Learning.