Sdílet prostřednictvím


Volba parametrů pro optimalizaci algoritmů v nástroji Machine Learning Studio (classic)

PLATÍ PRO: Platí pro. Machine Learning Studio (Classic) Nevztahuje se na.Azure Machine Learning

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Toto téma popisuje, jak zvolit správnou sadu hyperparametrů pro algoritmus v nástroji Machine Learning Studio (classic). Většina algoritmů strojového učení má parametry, které se mají nastavit. Při trénování modelu musíte zadat hodnoty pro tyto parametry. Účinnost natrénovaného modelu závisí na vámi zvolených parametrech modelu. Proces nalezení optimální sady parametrů se označuje jako výběr modelu.

Výběr modelu můžete provést různými způsoby. Ve strojovém učení je křížové ověřování jednou z nejčastěji používaných metod pro výběr modelu a jedná se o výchozí mechanismus výběru modelu v nástroji Machine Learning Studio (classic). Vzhledem k tomu, že Machine Learning Studio (classic) podporuje R i Python, můžete vždy implementovat vlastní mechanismy výběru modelu pomocí jazyka R nebo Python.

Při hledání nejlepší sady parametrů existují čtyři kroky:

  1. Definujte prostor parametrů: Pro algoritmus nejprve rozhodněte přesné hodnoty parametrů, které chcete zvážit.
  2. Definujte nastavení křížového ověření: Rozhodněte se, jak pro datovou sadu zvolit přeložení křížového ověření.
  3. Definujte metriku: Rozhodněte se, jakou metriku použít k určení nejlepší sady parametrů, jako je přesnost, odmocněná střední kvadratická chyba, přesnost, úplnost nebo f-score.
  4. Trénování, vyhodnocení a porovnání: Pro každou jedinečnou kombinaci hodnot parametrů se křížové ověření provádí a vychází z vámi definované metriky chyb. Po vyhodnocení a porovnání můžete zvolit nejvýkonnější model.

Následující obrázek znázorňuje, jak toho lze dosáhnout v nástroji Machine Learning Studio (classic).

Vyhledání nejlepší sady parametrů

Definování prostoru parametrů

Sadu parametrů můžete definovat v kroku inicializace modelu. Podokno parametrů všech algoritmů strojového učení má dva režimy trenéra: jeden parametr a rozsah parametrů. Zvolte režim rozsahu parametrů. V režimu rozsahu parametrů můžete zadat více hodnot pro každý parametr. Do textového pole můžete zadat hodnoty oddělené čárkami.

Rozhodovací strom se dvěma třídami, jeden parametr

Alternativně můžete definovat maximální a minimální body mřížky a celkový počet bodů, které se mají vygenerovat pomocí nástroje Use Range Builder. Ve výchozím nastavení se hodnoty parametrů generují v lineárním měřítku. Pokud je ale zaškrtnuté měřítko protokolu, hodnoty se vygenerují ve měřítku protokolu (to znamená, že poměr sousedních bodů je místo jejich rozdílu konstantní). Pro celočíselné parametry můžete definovat rozsah pomocí spojovníku. Například "1-10" znamená, že všechna celá čísla mezi 1 a 10 (včetně) tvoří sadu parametrů. Podporuje se také smíšený režim. Například sada parametrů 1-10, 20, 50 by obsahovala celá čísla 1–10, 20 a 50.

Rozhodovací strom se dvěma třídami, rozsah parametrů

Definování záhybů křížového ověřování

Modul Partition a Sample lze použít k náhodnému přiřazení přeložení dat. V následující ukázkové konfiguraci modulu definujeme pět složených záhybů a náhodně přiřadíme číslo přeložení k instancím vzorku.

Dělení a ukázka

Definování metriky

Modul Hyperparametry Tune Model poskytuje podporu pro empirické výběr nejlepší sady parametrů pro daný algoritmus a datovou sadu. Kromě dalších informací týkajících se trénování modelu zahrnuje podokno Vlastnosti tohoto modulu metriku pro určení nejlepší sady parametrů. Pro klasifikační a regresní algoritmy má dvě různá rozevírací seznamy. Pokud je algoritmus zvažovaný klasifikačním algoritmem, metrika regrese se ignoruje a naopak. V tomto konkrétním příkladu je metrika Přesnost.

Parametry úklidu

Trénování, vyhodnocení a porovnání

Stejný modul Tune Model Hyperparameters trénuje všechny modely, které odpovídají sadě parametrů, vyhodnocuje různé metriky a pak vytvoří model s nejlepším trénovaným modelem na základě metriky, kterou zvolíte. Tento modul má dva povinné vstupy:

  • Vyučovaný žák
  • Datová sada

Modul má také volitelný vstup datové sady. Připojte datovou sadu s informacemi o přeložení k povinnému vstupu datové sady. Pokud datová sada nemá přiřazené žádné informace o přeložení, ve výchozím nastavení se automaticky spustí 10násobné křížové ověření. Pokud přiřazení přeložení není hotové a ověřovací datová sada je k dispozici na volitelném portu datové sady, vybere se režim trénování testu a první datová sada se použije k trénování modelu pro každou kombinaci parametrů.

Zvýšení klasifikátoru rozhodovacího stromu

Model se pak vyhodnocuje u ověřovací datové sady. Levý výstupní port modulu zobrazuje různé metriky jako funkce hodnot parametrů. Správný výstupní port poskytuje natrénovaný model, který odpovídá nejvýkonnějšímu modelu podle zvolené metriky (v tomto případě přesnost ).

Ověřovací datová sada

Přesné parametry zvolené vizualizací správného výstupního portu můžete zobrazit. Tento model lze použít při bodování testovací sady nebo ve zprovozněné webové službě po uložení jako natrénovaného modelu.