Zvýšení regrese rozhodovacího stromu

Tento článek popisuje komponentu v návrháři služby Azure Machine Learning.

Pomocí této komponenty můžete vytvořit soubor regresních stromů pomocí zvýšení. Zvýšení znamená, že každý strom je závislý na předchozích stromech. Algoritmus se učí přizpůsobením reziduí stromů, které mu předchází. Proto zvýšení v souboru rozhodovacího stromu má tendenci zlepšit přesnost s malým rizikem menšího pokrytí.

Tato komponenta je založená na algoritmu LightGBM.

Tato regresní metoda je metoda učení pod dohledem, a proto vyžaduje označenou datovou sadu. Sloupec popisku musí obsahovat číselné hodnoty.

Poznámka:

Tuto komponentu používejte pouze u datových sad, které používají číselné proměnné.

Po definování modelu ho natrénujte pomocí modelu trénování.

Další informace o zesílených regresních stromech

Boosting je jednou z několika klasických metod pro vytváření souborů modelů, spolu s pytlováním, náhodnými lesy atd. Ve službě Azure Machine Learning využívají posílené rozhodovací stromy efektivní implementaci algoritmu přechodu MART. Zvýšení přechodu je technika strojového učení pro regresní problémy. Sestaví každý regresní strom krokově moudrým způsobem pomocí předdefinované funkce ztráty, která měří chybu v každém kroku a opraví ji v dalším kroku. Prediktivní model je tedy ve skutečnosti souborem slabších prediktivních modelů.

Při regresních problémech vytváří zvýšení řady stromů krokově moudrým způsobem a pak vybere optimální strom pomocí libovolné odlišitelné ztráty funkce.

Další informace najdete v těchto článcích:

https://wikipedia.org/wiki/Gradient_boosting#Gradient_tree_boosting

Tento článek na Wikipedii o zvýšení přechodu poskytuje určité pozadí na zesílených stromech.

https://research.microsoft.com/apps/pubs/default.aspx?id=132652

Microsoft Research: From RankNet to LambdaRank to LambdaMART: An Overview. By J.C. Burges.

Metodu zvýšení přechodu lze také použít pro problémy klasifikace tím, že je snížíte na regresi s vhodnou ztrátovou funkcí. Další informace o implementaci posílených stromů pro klasifikační úkoly naleznete v tématu Dvoutřídní posílený rozhodovací strom.

Konfigurace regrese rozhodovacího stromu boosted

Přidejte do kanálu komponentu Boosted Decision Tree . Tuto komponentu najdete v části Machine Learning inicializace v kategorii Regrese.
Určete, jak chcete model trénovat, nastavením možnosti Vytvořit režim trenéra.
- Jeden parametr: Tuto možnost vyberte, pokud víte, jak chcete model nakonfigurovat, a jako argumenty zadejte konkrétní sadu hodnot.
- Rozsah parametrů: Tuto možnost vyberte, pokud si nejste jisti nejlepšími parametry a chcete spustit úklid parametrů. Vyberte rozsah hodnot, který chcete iterovat, a Hyperparametry modelu tunes iteruje přes všechny možné kombinace nastavení, která jste zadali k určení hyperparametrů, které vytvářejí optimální výsledky.
Maximální počet listů na strom: Určuje maximální počet uzlů terminálu (listů), které lze vytvořit v libovolném stromu.

Tím, že tuto hodnotu zvýšíte, potenciálně zvětšíte velikost stromu a získáte lepší přesnost, s rizikem přeurčení a delší dobu trénování.
Minimální počet vzorků na uzel typu list: Uveďte minimální počet případů potřebných k vytvoření libovolného koncového uzlu (list) ve stromu.

Zvýšením této hodnoty zvýšíte prahovou hodnotu pro vytváření nových pravidel. Například s výchozí hodnotou 1 může vytvoření nového pravidla způsobit i jeden případ. Pokud zvýšíte hodnotu na 5, trénovací data by musela obsahovat alespoň 5 případů, které splňují stejné podmínky.
Rychlost výuky: Zadejte číslo mezi 0 a 1, které definuje velikost kroku při učení. Rychlost učení určuje, jak rychle nebo pomalu se učení konverguje na optimálním řešení. Pokud je velikost kroku příliš velká, můžete optimální řešení překroutit. Pokud je velikost kroku příliš malá, trénování trvá déle, než se shodí s nejlepším řešením.
Počet vytvořených stromů: Uveďte celkový počet rozhodovacích stromů, které se mají vytvořit v souboru. Vytvořením více rozhodovacích stromů můžete potenciálně získat lepší pokrytí, ale doba trénování se zvyšuje.

Pokud nastavíte hodnotu na 1; Vytvoří se však pouze jeden strom (strom s počáteční sadou parametrů) a neprovádí se žádné další iterace.
Náhodné počáteční číslo: Zadejte volitelné nezáporné celé číslo, které se má použít jako náhodná počáteční hodnota. Určení počáteční hodnoty zajišťuje reprodukovatelnost napříč běhy, která mají stejná data a parametry.

Ve výchozím nastavení je náhodné počáteční hodnoty nastaveno na 0, což znamená, že počáteční hodnota je získána ze systémových hodin.
Trénování modelu:
- Pokud nastavíte režim Vytvořit trenéra na Jeden parametr, připojte označenou datovou sadu a komponentu Train Model .
- Pokud nastavíte režim Vytvořit trenéra na rozsah parametrů, připojte označenou datovou sadu a vytrénujte model pomocí hyperparametrů ladění modelu.
Poznámka:

Pokud do trénování modelu předáte rozsah parametrů, použije pouze výchozí hodnotu v seznamu parametrů.

Pokud předáte jednu sadu hodnot parametrů komponentě Tune Model Hyperparameters , pokud očekává rozsah nastavení pro každý parametr, ignoruje hodnoty a použije výchozí hodnoty pro žáka.

Pokud vyberete možnost Rozsah parametrů a zadáte jednu hodnotu pro libovolný parametr, použije se v rámci úklidu zadaná jedna hodnota, i když se v rozsahu hodnot změní jiné parametry.
Odešlete kanál.

Výsledky

Po dokončení trénování:

Pokud chcete použít model pro bodování, připojte trénování modelu k určení skóre modelu a predikujte hodnoty pro nové vstupní příklady.
Pokud chcete uložit snímek vytrénovaného modelu, vyberte na pravém panelu trénovaného modelu kartu Výstupy a klikněte na ikonu Registrovat datovou sadu. Kopie natrénovaného modelu se uloží jako součást ve stromu komponent a nebude aktualizována při následných spuštěních kanálu.

Další kroky

Podívejte se na sadu komponent dostupných pro Azure Machine Learning.

Váš názor

Byla tato stránka užitečná?

Last updated on 2024-09-01