Trénování komponenty modelu

Tento článek popisuje komponentu v návrháři služby Azure Machine Learning.

Tuto komponentu použijte k trénování klasifikačního nebo regresního modelu. Trénování probíhá po definování modelu a nastavení jeho parametrů a vyžaduje označená data. Pomocí Trénování modelu můžete také přetrénovat existující model s novými daty.

Jak proces trénování funguje

Ve službě Azure Machine Learning je vytvoření a používání modelu strojového učení obvykle procesem se třemi kroky.

  1. Model nakonfigurujete tak, že zvolíte konkrétní typ algoritmu a definujete jeho parametry nebo hyperparametry. Zvolte některý z následujících typů modelů:

    • Klasifikační modely založené na neurálních sítích, rozhodovacích stromech, rozhodovacích doménových strukturách a dalších algoritmech
    • Regresní modely, které mohou zahrnovat standardní lineární regresi nebo které používají jiné algoritmy, včetně neurálních sítí a Bayesovské regrese.
  2. Zadejte datovou sadu, která je označená popiskem a obsahuje data kompatibilní s algoritmem. Připojte data i model k trénování modelu.

    Trénování vytváří konkrétní binární formát, iLearner, který zapouzdřuje statistické vzory získané z dat. Nelze přímo upravit nebo číst tento formát; tento natrénovaný model však můžou používat i jiné komponenty.

    Můžete také zobrazit vlastnosti modelu. Další informace najdete v části Výsledky.

  3. Po dokončení trénování použijte vytrénovaný model s jednou z hodnoticích komponent k vytvoření predikcí nových dat.

Jak používat trénování modelu

  1. Přidejte do kanálu komponentu Train Model (Trénování modelu ). Tuto komponentu najdete v kategorii Machine Learning . Rozbalte Train (Trénovat) a přetáhněte komponentu Train Model (Trénování modelu ) do kanálu.

  2. Na levém vstupu připojte netrénovaný režim. Připojte trénovací datovou sadu ke vstupu trénování modelu na pravé straně.

    Trénovací datová sada musí obsahovat sloupec popisku. Všechny řádky bez popisků se ignorují.

  3. V části Sloupec popisku klikněte na Upravit sloupec na pravém panelu komponenty a zvolte jeden sloupec, který obsahuje výsledky, které model může použít pro trénování.

    • V případě problémů s klasifikací musí sloupec popisku obsahovat buď hodnoty kategorií , nebo diskrétní hodnoty. Příkladem může být hodnocení ano/ne, kód klasifikace nemocí nebo název nebo příjmová skupina. Pokud vyberete nekategorický sloupec, komponenta během trénování vrátí chybu.

    • V případě problémů s regresí musí sloupec popisku obsahovat číselná data, která představují proměnnou odpovědi. Číselná data v ideálním případě představují průběžné škálování.

    Příkladem může být skóre úvěrového rizika, předpokládaný čas selhání pevného disku nebo předpokládaný počet volání do call centra v daný den nebo čas. Pokud nevyberete číselný sloupec, může se zobrazit chyba.

    • Pokud nezadáte, který sloupec popisku se má použít, azure Machine Learning se pokusí pomocí metadat datové sady odvodit, který sloupec popisku je vhodný. Pokud vybere nesprávný sloupec, opravte ho pomocí voliče sloupců.

    Tip

    Pokud máte potíže s používáním selektoru sloupců, přečtěte si článek Výběr sloupců v datové sadě, kde najdete tipy. Popisuje některé běžné scénáře a tipy pro použití možností WITH RULES (S PRAVIDLY ) a BY NAME (PODLE NÁZVU ).

  4. Odešlete kanál. Pokud máte hodně dat, může to chvíli trvat.

    Důležité

    Pokud máte sloupec ID, který je ID každého řádku, nebo textový sloupec, který obsahuje příliš mnoho jedinečných hodnot, může dojít k chybě typu Počet jedinečných hodnot ve sloupci {column_name} je větší, než je povoleno.

    Důvodem je to, že sloupec dosáhl prahové hodnoty jedinečných hodnot a mohl by způsobit nedostatek paměti. Pomocí možnosti Upravit metadata můžete tento sloupec označit jako funkci Vymazat a nebude se používat při trénování, nebo extrahovat funkce N-Gram z textové komponenty k předběžnému zpracování textového sloupce. Další podrobnosti o chybách najdete v Designer kódu chyby.

Interpretovatelnost modelu

Interpretovatelnost modelu poskytuje možnost porozumět modelu ML a prezentovat základní základ pro rozhodování způsobem, který je srozumitelný pro lidi.

Komponenta Trénování modelu v současné době podporuje použití balíčku interpretovatelnosti k vysvětlení modelů ML. Podporují se následující integrované algoritmy:

  • Lineární regrese
  • Regrese neurální sítě
  • Zesílená regrese stromu decistionu
  • Regrese rozhodovacího lesa
  • Poissonova regrese
  • Logistická regrese se dvěma třídami
  • Support Vector Machine (SVM) se dvěma třídami
  • Two-Class posílený strom decistionu
  • Rozhodovací les se dvěma třídami
  • Rozhodovací struktura s více třídami
  • Logistická regrese s více třídami
  • Neurální síť s více třídami

Pokud chcete vygenerovat vysvětlení modelu, vyberte v rozevíracím seznamu Vysvětlení modelu v části Trénování komponenty model možnost Pravda. Ve výchozím nastavení je v komponentě Trénování modelu nastavena na Hodnotu False. Upozorňujeme, že generování vysvětlení vyžaduje dodatečné náklady na výpočetní prostředky.

Snímek obrazovky znázorňující zaškrtávací políčko vysvětlení modelu

Po dokončení spuštění kanálu můžete navštívit kartu Vysvětlení v pravém podokně komponenty Trénování modelu a prozkoumat výkon modelu, datovou sadu a důležitost funkce.

Snímek obrazovky znázorňující grafy vysvětlení modelů

Další informace o používání vysvětlení modelů ve službě Azure Machine Learning najdete v článku s postupy o interpretaci modelů ML.

Výsledky

Po vytrénování modelu:

  • Pokud chcete model použít v jiných kanálech, vyberte komponentu a na pravém panelu na kartě Výstupy vyberte ikonu Zaregistrovat datovou sadu. K uloženým modelům můžete přistupovat na paletě komponent v části Datové sady.

  • Pokud chcete model použít k předpovídání nových hodnot, připojte ho ke komponentě Určení skóre modelu společně s novými vstupními daty.

Další kroky

Podívejte se na sadu komponent dostupných pro Azure Machine Learning.