Two-Class komponenta rozhodovací doménové struktury

Tento článek popisuje komponentu v návrháři služby Azure Machine Learning.

Tato komponenta slouží k vytvoření modelu strojového učení založeného na algoritmu rozhodovací doménové struktury.

Rozhodovací struktury jsou rychlé, pod dohledem modely souborů. Tato komponenta je dobrou volbou, pokud chcete předpovědět cíl s maximálně dvěma výsledky.

Principy rozhodovacích doménových struktur

Tento algoritmus rozhodovací struktury je metoda učení souborů určená pro úlohy klasifikace. Metody souboru jsou založeny na obecném principu, že místo toho, abyste se spoléhali na jeden model, můžete získat lepší výsledky a obecnější model vytvořením více souvisejících modelů a jejich zkombinováním nějakým způsobem. Obecně platí, že modely souborů poskytují lepší pokrytí a přesnost než jednotlivé rozhodovací stromy.

Existuje mnoho způsobů, jak vytvořit jednotlivé modely a kombinovat je v souboru. Tato konkrétní implementace rozhodovacího lesa funguje tak, že vytvoří více rozhodovacích stromů a pak hlasuje o nejoblíbenější výstupní třídě. Hlasování je jednou z lépe známých metod generování výsledků v modelu souboru.

  • Mnoho jednotlivých klasifikačních stromů se vytváří s využitím celé datové sady, ale různých (obvykle náhodných) výchozích bodů. To se liší od přístupu k náhodné doménové struktuře, kdy jednotlivé rozhodovací stromy můžou používat jenom určitou náhodnou část dat nebo funkcí.
  • Každý strom v rozhodovacím stromu stromové struktury vypíše histogram nenormalizované frekvence popisků.
  • Proces agregace tyto histogramy sečte a normalizuje výsledek, aby získal "pravděpodobnosti" pro každý popisek.
  • Stromy, které mají vysokou jistotu predikce, budou mít větší váhu v konečném rozhodnutí souboru.

Rozhodovací stromy mají obecně mnoho výhod pro úlohy klasifikace:

  • Můžou zachytit nelineární rozhodovací hranice.
  • Můžete trénovat a predikovat velké množství dat, protože jsou efektivní při výpočtech a využití paměti.
  • Výběr funkcí je integrovaný do trénovacích a klasifikačních procesů.
  • Stromy mohou obsahovat hlučná data a mnoho funkcí.
  • Jedná se o neparametrické modely, což znamená, že můžou zpracovávat data s různými distribucemi.

Jednoduché rozhodovací stromy však mohou přetěžovat data a jsou méně generalizovatelné než stromové soubory.

Další informace najdete v tématu Rozhodovací doménové struktury.

Způsob konfigurace

  1. Přidejte do kanálu ve službě Azure Machine Learning komponentu Rozhodovací doménová struktura se dvěma třídami a otevřete podokno Vlastnosti této komponenty.

    Komponentu najdete v části Machine Learning. Rozbalte Inicializovat a pak Klasifikace.

  2. V části Metoda převzorkování zvolte metodu použitou k vytvoření jednotlivých stromů. Můžete si vybrat z možností Pytlování nebo Replikovat.

    • Pytlování: Pytlování se také nazývá bootstrap agregace. V této metodě se každý strom vytvoří na novém vzorku vytvořeném náhodným vzorkováním původní datové sady s nahrazením, dokud nebudete mít datovou sadu o velikosti původní.

      Výstupy modelů se kombinují hlasováním, což je forma agregace. Každý strom v rozhodovací doménové struktuře klasifikace vypíše histogram popisků nenormalizované frekvence. Agregace je sečíst tyto histogramy a normalizovat, aby se získaly "pravděpodobnosti" pro každý popisek. Tímto způsobem budou mít stromy s vysokou jistotou predikce větší váhu při konečném rozhodnutí souboru.

      Další informace najdete v článku o agregaci bootstrap na Wikipedii.

    • Replikace: Při replikaci se každý strom vytrénuje na přesně stejných vstupních datech. Určení, který rozdělený predikát se používá pro každý uzel stromu, zůstává náhodné a stromy budou různorodé.

  3. Nastavením možnosti Vytvořit režim školitele určete, jak má být model vytrénován.

    • Jeden parametr: Pokud víte, jak chcete model nakonfigurovat, můžete jako argumenty zadat konkrétní sadu hodnot.

    • Rozsah parametrů: Pokud si nejste jistí nejlepšími parametry, můžete najít optimální parametry pomocí komponenty Tune Model Hyperparameters . Zadáte určitý rozsah hodnot a školitel iteruje několik kombinací nastavení, aby určil kombinaci hodnot, která vede k nejlepšímu výsledku.

  4. Do pole Počet rozhodovacích stromů zadejte maximální počet rozhodovacích stromů, které lze v souboru vytvořit. Vytvořením více rozhodovacích stromů můžete potenciálně získat lepší pokrytí, ale doba trénování se zvýší.

    Poznámka

    Pokud nastavíte hodnotu na 1. Je však možné vytvořit pouze jeden strom (strom s počáteční sadou parametrů) a neprovedou se žádné další iterace.

  5. Do pole Maximální hloubka rozhodovacích stromů zadejte číslo, které omezí maximální hloubku libovolného rozhodovacího stromu. Zvýšení hloubky stromu může zvýšit přesnost s rizikem přeurčení a delšího trénování.

  6. V poli Minimální počet vzorků na uzel listu uveďte minimální počet případů potřebných k vytvoření libovolného koncového uzlu (listu) ve stromu.

    Zvýšením této hodnoty zvýšíte prahovou hodnotu pro vytváření nových pravidel. Například s výchozí hodnotou 1 může i jeden případ způsobit vytvoření nového pravidla. Pokud hodnotu zvýšíte na 5, trénovací data by musela obsahovat alespoň pět případů, které splňují stejné podmínky.

  7. Výběrem možnosti Povolit neznámé hodnoty pro funkce kategorií vytvořte skupinu pro neznámé hodnoty v trénovacích nebo ověřovacích sadách. Model může být méně přesný pro známé hodnoty, ale může poskytovat lepší předpovědi pro nové (neznámé) hodnoty.

    Pokud tuto možnost zrušíte, model může přijmout pouze hodnoty, které jsou obsaženy v trénovacích datech.

  8. Připojte datovou sadu s popiskem a vytrénujte model:

    • Pokud nastavíte Vytvořit režim školitele na jeden parametr, propojte označenou datovou sadu a komponentu Trénování modelu .

    • Pokud nastavíte Vytvořit režim školitele na Rozsah parametrů, připojte označenou datovou sadu a vytrénujte model pomocí ladění hyperparametrů modelu.

    Poznámka

    Pokud do trénování modelu předáte rozsah parametrů, použije se pouze výchozí hodnota v seznamu s jedním parametrem.

    Pokud předáte jednu sadu hodnot parametrů do komponenty Tune Model Hyperparameters , pokud očekává rozsah nastavení pro každý parametr, ignoruje hodnoty a použije výchozí hodnoty pro learner.

    Pokud vyberete možnost Rozsah parametrů a zadáte jednu hodnotu pro libovolný parametr, použije se tato jedna hodnota, kterou jste zadali, v průběhu úklidu, i když se jiné parametry v rozsahu hodnot mění.

Výsledky

Po dokončení trénování:

  • Pokud chcete uložit snímek natrénovaného modelu, vyberte kartu Výstupy v pravém panelu komponenty Trénování modelu . Výběrem ikony Zaregistrovat datovou sadu uložte model jako opakovaně použitelnou komponentu.

  • Pokud chcete model použít k bodování, přidejte do kanálu komponentu Score Model (Skóre modelu ).

Další kroky

Projděte si sadu komponent dostupných pro Azure Machine Learning.