komponenta rozhodovacího stromu Two-Class Boosted

Tento článek popisuje komponentu v návrháři služby Azure Machine Learning.

Tato komponenta slouží k vytvoření modelu strojového učení, který je založený na algoritmu zesílených rozhodovacích stromů.

Zesílený rozhodovací strom je metoda učení souboru, ve které druhý strom opravuje chyby prvního stromu, třetí strom opravuje chyby prvního a druhého stromu a tak dále. Předpovědi jsou založeny na celém souboru stromů dohromady, který předpověď tvoří.

Obecně platí, že při správné konfiguraci jsou zesílené rozhodovací stromy nejjednodušší metodou, která umožňuje dosáhnout nejvyššího výkonu u široké škály úloh strojového učení. Jsou však také jedním z více náročných na paměť a aktuální implementace uchovává vše v paměti. Proto model posíleného rozhodovacího stromu nemusí být schopen zpracovat velké datové sady, které mohou někteří lineární výuka zpracovat.

Tato komponenta je založená na algoritmu LightGBM.

Způsob konfigurace

Tato komponenta vytvoří netrénovaný klasifikační model. Vzhledem k tomu, že klasifikace je metoda učení pod dohledem, potřebujete k trénování modelu označenou datovou sadu , která obsahuje sloupec popisku s hodnotou pro všechny řádky.

Tento typ modelu můžete trénovat pomocí trénování modelu.

  1. Ve službě Azure Machine Learning přidejte do kanálu komponentu Zesílený rozhodovací strom .

  2. Nastavením možnosti Vytvořit režim školitele určete, jak má být model vytrénován.

    • Jeden parametr: Pokud víte, jak chcete model nakonfigurovat, můžete jako argumenty zadat konkrétní sadu hodnot.

    • Rozsah parametrů: Pokud si nejste jistí nejlepšími parametry, můžete najít optimální parametry pomocí komponenty Tune Model Hyperparameters . Zadáte určitý rozsah hodnot a školitel iteruje několik kombinací nastavení, aby určil kombinaci hodnot, která vede k nejlepšímu výsledku.

  3. V poli Maximální počet listů na strom zadejte maximální počet terminálových uzlů (listů), které lze vytvořit v libovolném stromu.

    Zvýšením této hodnoty potenciálně zvětšíte velikost stromu a získáte lepší přesnost s rizikem přeurčení a delšího trénování.

  4. V poli Minimální počet vzorků na uzel listu uveďte počet případů potřebných k vytvoření libovolného koncového uzlu (listu) ve stromu.

    Zvýšením této hodnoty zvýšíte prahovou hodnotu pro vytváření nových pravidel. Například s výchozí hodnotou 1 může i jeden případ způsobit vytvoření nového pravidla. Pokud hodnotu zvýšíte na 5, trénovací data by musela obsahovat alespoň pět případů, které splňují stejné podmínky.

  5. Do pole Rychlost učení zadejte číslo mezi 0 a 1, které definuje velikost kroku při učení.

    Rychlost učení určuje, jak rychle nebo pomalu se učící konverguje na optimálním řešení. Pokud je velikost kroku příliš velká, můžete optimální řešení překroutit. Pokud je velikost kroku příliš malá, trénování trvá déle, než se shodí s nejlepším řešením.

  6. V části Počet vytvořených stromů uveďte celkový počet rozhodovacích stromů, které se mají vytvořit v souboru. Vytvořením více rozhodovacích stromů můžete potenciálně získat lepší pokrytí, ale doba trénování se zvýší.

    Pokud nastavíte hodnotu na 1, vytvoří se pouze jeden strom (strom s počáteční sadou parametrů) a neprovedou se žádné další iterace.

  7. Do pole Náhodné počáteční číslo volitelně zadejte nezáporné celé číslo, které se použije jako náhodná počáteční hodnota. Zadání počáteční hodnoty zajišťuje reprodukovatelnost napříč spuštěními, která mají stejná data a parametry.

    Náhodné počáteční hodnoty jsou standardně nastaveny na hodnotu 0, což znamená, že počáteční počáteční hodnota se získá ze systémových hodin. Po sobě jdoucí spuštění s použitím náhodného počátečního seedu můžou mít různé výsledky.

  8. Trénování modelu:

    • Pokud nastavíte Vytvořit režim školitele na jeden parametr, propojte označenou datovou sadu a komponentu Trénování modelu .

    • Pokud nastavíte Vytvořit režim školitele na Rozsah parametrů, připojte označenou datovou sadu a vytrénujte model pomocí ladění hyperparametrů modelu.

    Poznámka

    Pokud do trénování modelu předáte rozsah parametrů, použije se pouze výchozí hodnota v seznamu s jedním parametrem.

    Pokud předáte jednu sadu hodnot parametrů do komponenty Tune Model Hyperparameters , pokud očekává rozsah nastavení pro každý parametr, ignoruje hodnoty a použije výchozí hodnoty pro learner.

    Pokud vyberete možnost Rozsah parametrů a zadáte jednu hodnotu pro libovolný parametr, použije se tato jedna hodnota, kterou jste zadali, v průběhu úklidu, i když se jiné parametry v rozsahu hodnot mění.

Výsledky

Po dokončení trénování:

  • Pokud chcete uložit snímek natrénovaného modelu, vyberte kartu Výstupy v pravém panelu komponenty Trénování modelu . Výběrem ikony Zaregistrovat datovou sadu uložte model jako opakovaně použitelnou komponentu.

  • Pokud chcete model použít k bodování, přidejte do kanálu komponentu Score Model (Skóre modelu ).

Další kroky

Projděte si sadu komponent dostupných pro Azure Machine Learning.