Sdílet prostřednictvím


Rozhodovací les se dvěma třídami

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Vytvoří klasifikační model se dvěma třídami pomocí algoritmu doménové struktury pro rozhodování.

kategorie: Machine Learning/inicializovat Model/klasifikace

Poznámka

platí pro: jenom Machine Learning Studio (classic)

podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.

Přehled modulu

tento článek popisuje, jak používat modul doménové struktury se dvěma třídami v Machine Learning studiu (classic) k vytvoření modelu Machine Learning založeného na algoritmu rozhodovacích doménových struktur.

Rozhodovací doménové struktury jsou rychlé a pod dohledem. Tento modul je dobrý volbou, pokud chcete předpovědět cíl s maximálním počtem dvou výsledků. Pokud si nejste jistí, jak nakonfigurovat model rozhodovacího stromu pro dosažení nejlepších výsledků, doporučujeme, abyste pro výuku a testování více modelů používali modul ladit model parametrů . ladění iterací více možností a vyhledá optimální řešení za vás.

Porozumění rozhodovacím strukturám

Tento algoritmus rozhodovací doménové struktury je vzdělávací metoda kompletování, která je určená pro úlohy klasifikace. Metody kompletování jsou založené na obecné zásadě, která se spíše nespoléhá na jeden model, můžete získat lepší výsledky a obecnější model tím, že vytvoříte několik souvisejících modelů a zkombinujete je nějakým způsobem. Obecně platí, že modely kompletování poskytují lepší pokrytí a přesnost než jednotlivé rozhodovací stromy.

Existuje mnoho způsobů, jak vytvořit jednotlivé modely a kombinovat je do kompletu. Tato konkrétní implementace rozhodovací doménové struktury funguje tak, že sestaví více rozhodovacích stromů a pak bude hlasovat pro nejoblíbenější výstupní třídu. Hlasovací je jedna z lepších známých metod pro generování výsledků v modelu kompletu.

  • Je vytvořeno mnoho jednotlivých stromů klasifikace, pomocí celé datové sady, ale různé (obvykle náhodné) počáteční body. To se liší od přístupu k náhodné doménové struktuře, ve kterém jednotlivé rozhodovací stromy můžou použít jenom náhodnou část dat nebo funkcí.
  • V každém stromu stromu rozhodovací doménové struktury je výstupem nenormalizovaného frekvenčního histogramu popisků.
  • Agregační proces sečte Tyto histogramy a normalizuje výsledek pro získání "pravděpodobnosti" pro každý popisek.
  • V konečném rozhodnutí kompletu budou mít stromy s jistotou vysoké předpovědi větší váhu.

Obecné rozhodovací stromy mají pro úlohy klasifikace mnoho výhod:

  • Můžou zachytit hranice nelineárního rozhodování.
  • Můžete vyškolit a odhadnout spoustu dat, protože jsou efektivní při výpočtech a využití paměti.
  • Výběr funkcí je integrovaný do procesů školení a klasifikace.
  • Stromy mohou pojmout data o velikosti a množství funkcí.
  • Jsou to modely nevyužívající parametry, což znamená, že mohou zpracovávat data s proměnlivými distribucí.

Jednoduché rozhodovací stromy ale mohou overfit data a jsou méně generalizované než struktury stromů.

Další informace najdete v tématu rozhodovací doménové strukturynebo na dalších dokladech uvedených v části technické poznámky .

Postup konfigurace Two-Class rozhodovací doménové struktury

  1. přidejte modul pro rozhodovací doménovou strukturu se dvěma třídami do experimentu v Machine Learning studiu (classic) a otevřete podokno vlastnosti daného modulu.

    Modul najdete v části Machine Learning. Rozbalte položku Initializea pak klasifikaci.

  2. V případě metody převzorkovánívyberte metodu použitou k vytvoření jednotlivých stromů. Můžete si vybrat z zavazadla nebo replikace.

    • Zaznamenání do zavazadlase také označuje jako agregace Bootstrap. V této metodě se každý strom vypěstuje na novém vzorku, který vytvořil náhodným vzorkováním původní datové sady s náhradou, dokud nebudete mít datovou velikost původní.

      Výstupy modelů jsou kombinovány hlasováním, což je forma agregace. Každý strom v doménové struktuře rozhodnutí o klasifikaci má za následek histogram nenormalizované frekvence popisků. Agregaci je sečíst Tyto histogramy a normalizace a získat tak "pravděpodobnost" pro každý popisek. Tímto způsobem budou mít stromy s důvěrou vysoké předpovědi větší váhu v konečném rozhodnutí kompletu.

      Další informace najdete v tématu Wikipedii pro agregaci Bootstrap.

    • Replikace: vrámci replikace je každý strom vyškolen na přesně stejných vstupních datech. Určení, které dělicí predikát se používá pro každý uzel stromu, zůstane náhodné a stromy budou odlišné.

      Další informace o procesu školení s možností replikace najdete v dokumentaci uvedených v části technické poznámky .

  3. Určete, jak chcete model vyškolet nastavením možnosti vytvořit Trainer režim .

    • Jediný parametr: Pokud víte, jak chcete model konfigurovat, můžete zadat konkrétní sadu hodnot jako argumenty.

    • Rozsah parametrů: Pokud si nejste jisti nejlepšími parametry, můžete najít optimální parametry zadáním více hodnot a pomocí modulu ladění modelu předparametrů vyhledat optimální konfiguraci. Trainer projde více kombinací nastavení, které jste zadali, a určí kombinaci hodnot, které vytvářejí nejlepší model.

  4. V poli počet rozhodovacích stromůzadejte maximální počet rozhodovacích stromů, které lze v kompletu vytvořit. Vytvořením dalších rozhodovacích stromů můžete potenciálně získat lepší pokrytí, ale zvýší se čas školení.

    Poznámka

    Tato hodnota také určuje počet stromů zobrazených při vizualizaci výukového modelu. Pokud chcete zobrazit nebo vytisknout jeden strom, můžete nastavit hodnotu 1. Může však být vytvořen pouze jeden strom (strom s počáteční sadou parametrů) a žádné další iterace.

  5. Pro maximální hloubku rozhodovacích stromůzadejte číslo, abyste omezili maximální hloubku rozhodovacího stromu. Zvýšení hloubky stromové struktury může zvýšit přesnost, a to na riziko nějakého přeložení a zvýšené doby školení.

  6. Pro počet náhodných rozdělení na uzelzadejte počet rozdělení, který se má použít při sestavování jednotlivých uzlů stromu. Rozdělení znamená, že funkce v každé úrovni stromu (uzlu) jsou náhodně děleny.

  7. Pro minimální počet vzorků na uzel listuUrčete minimální počet případů, které jsou nutné k vytvoření libovolného uzlu terminálu (list) ve stromu.

    Zvýšením této hodnoty zvýšíte prahovou hodnotu pro vytváření nových pravidel. Například výchozí hodnota 1, dokonce i jeden případ, může způsobit vytvoření nového pravidla. Pokud zvýšíte hodnotu na 5, musí školicí data obsahovat alespoň 5 případů, které splňují stejné podmínky.

  8. Vyberte možnost Povolení neznámých hodnot pro funkce kategorií a vytvořte skupinu pro neznámé hodnoty v rámci školicích nebo ověřovacích sad. Model může být pro známé hodnoty méně přesný, ale může poskytovat lepší předpovědi pro nové (neznámé) hodnoty.

    Pokud zrušíte výběr této možnosti, může model přijímat pouze hodnoty, které jsou obsaženy v školicích datech.

  9. Připojte s popiskem datovou sadu a jeden z školicích modulů:

    Poznámka

    Pokud předáte rozsah parametrů do modelu výuky, je použita pouze první hodnota v seznamu rozsah parametrů.

    Pokud předáte jednu sadu hodnot parametrů do modulu předparametrů modelu ladění , když očekává rozsah nastavení pro každý parametr, ignoruje hodnoty a použije výchozí hodnoty pro učit se.

    Pokud vyberete možnost rozsahu parametrů a pro libovolný parametr zadáte jedinou hodnotu, použije se tato jediná hodnota v celém období, a to i v případě, že se jiné parametry mění v rámci rozsahu hodnot.

Výsledky

Po dokončení školení:

  • Pokud chcete zobrazit strom, který byl vytvořen při každé iteraci, klikněte pravým tlačítkem na modul výuka modelů a vyberte trained model , který chcete vizualizovat. Pokud používáte parametry modelu ladění, klikněte pravým tlačítkem na modul a vyberte vyškolený nejlepší model , abyste mohli vizualizovat nejlepší model.

    Kliknutím na jednotlivé stromové struktury přejdete k podrobnostem o rozdělení a uvidíte pravidla pro každý uzel.

  • Snímek modelu uložíte tak, že kliknete pravým tlačítkem na výstup trained model a vyberete Uložit model. Uložený model není aktualizován při následných spuštění experimentu.

  • Chcete-li použít model pro bodování, přidejte modul určení skóre modelu do experimentu.

Příklady

Příklady, jak se ve službě Machine Learning používají doménové struktury, najdete v ukázkových experimentech v Azure AI Gallery:

  • Kategorizace zpráv: porovná třídění více tříd s modelem sestaveným pomocí algoritmu doménové struktury pro rozhodování dvou tříd s 1-versus-All Multiclass.

  • Prediktivní údržba: rozšířený návod, který používá algoritmus doménové struktury se dvěma třídami k předpovídání, jestli selže Asset v určitém časovém rámci.

Technické poznámky

Tato část obsahuje další podrobnosti o implementaci, výzkum a nejčastější dotazy.

Tipy k používání

Pokud máte omezená data nebo pokud chcete minimalizovat čas strávený trénování modelu, vyzkoušejte tato nastavení:

Omezená trénovací sada

Pokud trénovací sada obsahuje omezený počet instancí:

  • Rozhodovací doménovou strukturu vytvoříte pomocí velkého počtu rozhodovacích stromů (například více než 20).
  • K převzorkování použijte možnost Bagging .)
  • Zadejte velký počet náhodných rozdělení na uzel (například více než 1 000).

Omezená doba trénování

Pokud trénovací sada obsahuje velký počet instancí a doba trénování je omezená:

  • Vytvořte rozhodovací doménovou strukturu pomocí menšího počtu rozhodovacích stromů (například 5–10).
  • Pro převzorkování použijte možnost Replikovat.
  • Zadejte menší počet náhodných rozdělení na uzel (například méně než 100).

Podrobnosti o implementaci

Tento článek společnosti Microsoft Research poskytuje užitečné informace o souborových metodách, které používají rozhodovací stromy. Od Nammps po Stromy až po Doménové struktury.

Další informace o procesu trénování s možností Replikovat najdete v tématu Rozhodovací doménové struktury pro Počítačové zpracování obrazu a analýzu lékařských obrázků. Criminisi a J. Shotton. Springer 2013.

Parametry modulu

Name Rozsah Typ Výchozí Description
Metoda převzorkování Všechny Metoda převzorkování Pytlování Volba metody převzorkování
Počet rozhodovacích stromů >=1 Integer 8 Určení počtu rozhodovacích stromů, které se vytvoří ve směsi
Maximální hloubka rozhodovacích stromů >=1 Integer 32 Zadejte maximální hloubku libovolného rozhodovacího stromu, který lze vytvořit.
Počet náhodných rozdělení na uzel >=1 Integer 128 Zadejte počet rozdělení vygenerovaný na uzel, ze kterého se vybere optimální rozdělení.
Minimální počet vzorků na uzel typu list >=1 Integer 1 Zadejte minimální počet trénovací ukázky, které jsou potřeba k vytvoření uzlu typu list.
Povolit neznámé hodnoty pro kategorické funkce Všechny Logická hodnota Ano Určete, jestli je možné na novou další funkci namapovat neznámé hodnoty existujících funkcí kategorií.

Výstup

Název Typ Description
Model bez trénování ILearner – rozhraní Model binární klasifikace bez trénování

Viz také

Classification
Regrese rozhodovacího lesa
Rozhodovací les s více třídami
Seznam modulů A až Z