Kurz: Trénování klasifikačního modelu bez kódu v studio Azure Machine Learning

Naučte se trénovat klasifikační model bez kódu AutoML pomocí azure Machine Učení automatizovaného strojového učení v studio Azure Machine Learning. Tento klasifikační model předpovídá, jestli se klient přihlásí k odběru dlouhodobého vkladu u finanční instituce.

Pomocí automatizovaného strojového učení můžete automatizovat úlohy náročné na čas. Automatizované strojové učení rychle iteruje více kombinací algoritmů a hyperparametrů, které vám pomůžou najít nejlepší model založený na metrikě úspěchu podle vašeho výběru.

V tomto kurzu nebudete psát žádný kód, k trénování použijete studiové rozhraní. Naučíte se provádět následující úlohy:

  • Vytvořte pracovní prostor Učení Azure Machine.
  • Jak spouštět experimenty automatizovaného strojového učení.
  • Prozkoumejte podrobnosti o modelu.
  • Nasaďte doporučený model.

Vyzkoušejte také automatizované strojové učení pro tyto další typy modelů:

Požadavky

Vytvoření pracovního prostoru

Pracovní prostor Azure Machine Učení je základní prostředek v cloudu, který používáte k experimentování, trénování a nasazování modelů strojového učení. Prováže vaše předplatné Azure a skupinu prostředků s snadno využitým objektem ve službě.

V tomto kurzu dokončete následující kroky a vytvořte pracovní prostor a pokračujte v tomto kurzu.

  1. Přihlášení k studio Azure Machine Learning

  2. Výběr možnosti Vytvořit pracovní prostor

  3. Zadejte následující informace pro konfiguraci nového pracovního prostoru:

Pole Popis
Název pracovního prostoru Zadejte jedinečný název, který identifikuje váš pracovní prostor. Názvy musí být v rámci skupiny prostředků jedinečné. Použijte název, který je snadno odvolatelný a odlišit se od pracovních prostorů vytvořených jinými uživateli. Název pracovního prostoru nerozlišuje velká a malá písmena.
Předplatné Vyberte předplatné Azure, které chcete použít.
Skupina prostředků Použijte stávající skupinu prostředků, kterou máte v předplatném, nebo zadejte název a vytvořte novou skupinu prostředků. Skupina prostředků obsahuje související prostředky pro řešení Azure. K použití existující skupiny prostředků potřebujete roli přispěvatele nebo vlastníka . Další informace o přístupu najdete v tématu Správa přístupu k pracovnímu prostoru azure machine Učení.
Oblast Vyberte oblast Azure, která je nejblíže vašim uživatelům, a datové prostředky a vytvořte pracovní prostor.
  1. Vyberte Vytvořit a vytvořte pracovní prostor.

Další informace o prostředcích Azure najdete v krocích v tomto článku: Vytvoření prostředků, které potřebujete, abyste mohli začít.

Pokud chcete vytvořit pracovní prostor v Azure, spravujte pracovní prostory Azure Machine Učení na portálu nebo pomocí sady Python SDK (v2).

Vytvoření úlohy automatizovaného počítače Učení

Následující kroky nastavení a spuštění experimentu provedete prostřednictvím studio Azure Machine Learning v https://ml.azure.comkonsolidovaném webovém rozhraní, které zahrnuje nástroje strojového učení pro provádění scénářů datových věd pro odborníky na datové vědy na všech úrovních dovedností. Studio není podporováno v prohlížečích Internet Explorer.

  1. Vyberte své předplatné a pracovní prostor, který jste vytvořili.

  2. V levém podokně vyberte automatizované strojové učení v části Vytváření obsahu.

    Vzhledem k tomu, že se jedná o první experiment automatizovaného strojového učení, zobrazí se prázdný seznam a odkazy na dokumentaci.

    Get started page

  3. Vyberte +Nová automatizovaná úloha ML.

Vytvoření a načtení datové sady jako datového assetu

Než experiment nakonfigurujete, nahrajte datový soubor do pracovního prostoru ve formě datového prostředku Azure Machine Učení. V případě tohoto kurzu si můžete datový asset představit jako datovou sadu pro úlohu AutoML. To vám umožní zajistit, aby se data správně naformátovala pro váš experiment.

  1. Nový datový asset vytvoříte tak, že v rozevíracím seznamu +Vytvořit datový asset vyberete Z místních souborů.

    1. Ve formuláři Základní informace zadejte název datového prostředku a zadejte volitelný popis. Automatizované rozhraní ML v současné době podporuje pouze tabulkové datové sady, takže typ datové sady by měl být ve výchozím nastavení tabulkový.

    2. Výběr možnosti Další v levém dolním rohu

    3. Ve formuláři úložiště dat a výběru souboru vyberte výchozí úložiště dat, které se automaticky nastavilo při vytváření pracovního prostoru, workspaceblobstore (Azure Blob Storage). Tady nahrajete datový soubor, aby byl dostupný pro váš pracovní prostor.

    4. V rozevíracím seznamu Nahrát soubory vyberte Nahrát soubory.

    5. Zvolte soubor bankmarketing_train.csv na místním počítači. Toto je soubor, který jste stáhli jako předpoklad.

    6. V levém dolním rohu vyberte Další a nahrajte ho do výchozího kontejneru, který se automaticky nastavil během vytváření pracovního prostoru.

      Po dokončení nahrávání se na základě typu souboru předem vyplní formulář Nastavení a náhledu.

    7. Ověřte, že jsou data správně naformátovaná prostřednictvím formuláře Schémata . Data by se měla vyplňovat následujícím způsobem. Jakmile ověříte, že jsou data přesná, vyberte Další.

      Pole Popis Hodnota pro kurz
      File format Definuje rozložení a typ dat uložených v souboru. Oddělené
      Delimiter Jeden nebo více znaků pro určení hranice mezi samostatnými, nezávislými oblastmi v prostém textu nebo jinými datovými proudy. Comma
      Kódování Určuje, jaký bit tabulky schématu znaků se má použít ke čtení datové sady. UTF-8
      Záhlaví sloupců Určuje, jak se budou zacházet s hlavičkami datové sady( pokud existuje). Všechny soubory mají stejné hlavičky.
      Přeskočit řádky Určuje, kolik řádků se v datové sadě přeskočí( pokud existuje). Nic
    8. Formulář schématu umožňuje další konfiguraci dat pro tento experiment. V tomto příkladu vyberte přepínač pro day_of_week, aby ho nezahrnuli. Vyberte Další. Schema form

    9. Ve formuláři Potvrdit podrobnosti ověřte, že informace odpovídají dříve vyplněným informacím o základních informacích, úložišti dat a výběru souboru a Nastavení a náhleduformulářů.

    10. Výběrem možnosti Vytvořit dokončíte vytvoření datové sady.

    11. Jakmile se zobrazí v seznamu, vyberte datovou sadu.

    12. Zkontrolujte data tak, že vyberete datový asset a podíváte se na kartu náhledu , abyste měli jistotu, že jste nezahrnuli day_of_week a pak vyberte Zavřít.

    13. Vyberte Další.

Konfigurace úlohy

Po načtení a konfiguraci dat můžete experiment nastavit. Toto nastavení zahrnuje úlohy návrhu experimentů, například výběr velikosti výpočetního prostředí a určení sloupce, který chcete předpovědět.

  1. Vyberte přepínač Vytvořit nový.

  2. Vyplňte formulář Konfigurovat úlohu následujícím způsobem:

    1. Zadejte tento název experimentu: my-1st-automl-experiment

    2. Jako cílový sloupec vyberte y , co chcete předpovědět. Tento sloupec označuje, jestli se klient přihlásil k odběru vkladu termínů, nebo ne.

    3. Jako typ výpočetních prostředků vyberte výpočetní cluster .

    4. Cílový výpočetní objekt je místní nebo cloudové prostředí prostředků, které slouží ke spuštění trénovacího skriptu nebo hostování nasazení služby. Pro účely tohoto experimentu můžete vyzkoušet cloudový bezserverový výpočetní výkon (Preview) nebo vytvořit vlastní cloudové výpočetní prostředky.

      1. Pokud chcete používat bezserverové výpočetní prostředky, povolte funkci Preview, vyberte Bezserverové prostředí a přeskočte zbytek tohoto kroku.
      2. Pokud chcete vytvořit vlastní cílový výpočetní objekt, vyberte +Nový a nakonfigurujte cílový výpočetní objekt.
        1. Vyplňte formulář Vybrat virtuální počítač a nastavte výpočetní prostředky.

          Pole Popis Hodnota pro kurz
          Umístění Oblast, ze které chcete počítač spustit Západní USA 2
          Úroveň virtuálního počítače Vyberte, jakou prioritu má experiment mít. Vyhrazené
          Typ virtuálního počítače Vyberte typ virtuálního počítače pro výpočetní prostředky. CPU (jednotka centrálního zpracování)
          Velikost virtuálního počítače Vyberte velikost virtuálního počítače pro výpočetní prostředky. Seznam doporučených velikostí se poskytuje na základě vašich dat a typu experimentu. Standard_DS12_V2
        2. Výběrem možnosti Další naplníte formulář Konfigurovat nastavení.

          Pole Popis Hodnota pro kurz
          Název výpočetních prostředků Jedinečný název, který identifikuje výpočetní kontext. automl-compute
          Minimální a maximální počet uzlů Chcete-li profilovat data, musíte zadat 1 nebo více uzlů. Minimální počet uzlů: 1
          Maximální počet uzlů: 6
          Nečinné sekundy před vertikálním snížením kapacity Doba nečinnosti před automatickým vertikálním snížením kapacity clusteru na minimální počet uzlů. 120 (výchozí)
          Rozšířené nastavení Nastavení nakonfigurovat a autorizovat virtuální síť pro experiment. Nic
        3. Výběrem možnosti Vytvořit vytvořte cílový výpočetní objekt.

          Dokončení této akce trvá několik minut.

          Settings page

        4. Po vytvoření vyberte nový cílový výpočetní objekt z rozevíracího seznamu.

    5. Vyberte Další.

  3. Ve formuláři Vybrat úkol a nastavení dokončete nastavení pro experiment automatizovaného strojového učení zadáním typu úlohy strojového učení a nastavení konfigurace.

    1. Jako typ úlohy strojového učení vyberte Klasifikaci .

    2. Vyberte Zobrazit další nastavení konfigurace a vyplňte pole následujícím způsobem. Tato nastavení slouží k lepšímu řízení trénovací úlohy. V opačném případě se výchozí hodnoty použijí na základě výběru experimentu a dat.

      Další konfigurace Popis Hodnota pro kurz
      Primární metrika Metrika vyhodnocení, podle které se bude algoritmus strojového učení měřit. AUC_weighted
      Vysvětlit nejlepší model Automaticky zobrazuje vysvětlitelnost nejlepšího modelu vytvořeného automatizovaným strojovém učení. Povolit
      Blokované algoritmy Algoritmy, které chcete vyloučit z trénovací úlohy Nic
      Další nastavení klasifikace Tato nastavení pomáhají zlepšit přesnost modelu. Popisek kladné třídy: Žádný
      Kritérium ukončení Pokud jsou splněna kritéria, úloha trénování se zastaví. Doba trénování úlohy (hodiny): 1
      Prahová hodnota skóre metriky: Žádná
      Souběžnost Maximální počet spuštěných paralelních iterací na iteraci Maximální počet souběžných iterací: 5

      Zvolte Uložit.

    3. Vyberte Další.

  4. Ve formuláři [Volitelné] Ověření a testování ,

    1. Jako typ ověření vyberte křížové ověření k-fold.
    2. Jako počet křížových ověření vyberte 2.
  5. Vyberte Dokončit a spusťte experiment. Při zahájení přípravy experimentu se otevře obrazovka Podrobnosti úlohy se stavem úlohy nahoře. Tento stav se aktualizuje při pokroku experimentu. Oznámení se také zobrazí v pravém horním rohu studia, aby vás informovala o stavu experimentu.

Důležité

Příprava trvá 10 až 15 minut , než se experiment připraví. Po spuštění trvá pro každou iteraci dalších 2 až 3 minuty.

V produkčním prostředí byste asi trochu odešel. Pro účely tohoto kurzu ale doporučujeme začít zkoumat testované algoritmy na kartě Modely , zatímco ostatní stále běží.

Prozkoumání modelů

Přejděte na kartu Modely a prohlédněte si testované algoritmy (modely). Ve výchozím nastavení jsou modely seřazené podle skóre metrik při jejich dokončení. V tomto kurzu je model, který na základě zvolené metriky AUC_weighted v horní části seznamu boduje nejvyšší skóre.

Během čekání na dokončení všech modelů experimentů vyberte název algoritmu dokončeného modelu a prozkoumejte jeho podrobnosti o výkonu.

Na následujících kartách Podrobnosti a Metriky se zobrazí vlastnosti, metriky a grafy výkonu vybraného modelu.

Run iteration detail

Vysvětlení modelů

Zatímco čekáte na dokončení modelů, můžete se také podívat na vysvětlení modelu a zjistit, které datové funkce (nezpracované nebo inženýrované) ovlivnily predikce konkrétního modelu.

Vysvětlení těchto modelů se dají vygenerovat na vyžádání a shrnují se na řídicím panelu vysvětlení modelu, který je součástí karty Vysvětlení (Preview).

Vysvětlení modelu vygenerujete tak, že

  1. Výběrem možnosti Úloha 1 v horní části přejděte zpět na obrazovku Modely .

  2. Vyberte kartu Modely.

  3. Pro účely tohoto kurzu vyberte první model MaxAbsScaler, LightGBM .

  4. Nahoře vyberte tlačítko Vysvětlit model. Vpravo se zobrazí podokno Vysvětlit model.

  5. Vyberte objekt automl-compute, který jste vytvořili dříve. Tento výpočetní cluster zahájí podřízenou úlohu, která vygeneruje vysvětlení modelu.

  6. Vyberte Vytvořit v dolní části. V horní části obrazovky se zobrazí zelená zpráva o úspěchu.

    Poznámka:

    Dokončení úlohy vysvětlení trvá přibližně 2 až 5 minut.

  7. Vyberte tlačítko Vysvětlení (Preview). Po dokončení spuštění vysvětlitelnosti se tato karta naplní.

  8. Na levé straně rozbalte podokno a vyberte řádek s nezpracovanou položkou Funkce.

  9. Na pravé straně vyberte kartu Důležitost agregace funkcí. Tento graf ukazuje, které datové funkce ovlivnily předpovědi vybraného modelu.

    V tomto příkladu se zdá, že doba trvání má největší vliv na předpovědi tohoto modelu.

    Model explanation dashboard

Nasazení nejlepšího modelu

Automatizované rozhraní strojového učení umožňuje nasadit nejlepší model jako webovou službu v několika krocích. Nasazení je integrace modelu, takže dokáže předpovědět nová data a identifikovat potenciální oblasti příležitostí.

Pro účely tohoto experimentu nasazení do webové služby znamená, že finanční instituce teď má iterativní a škálovatelné webové řešení pro identifikaci potenciálních zákazníků s pevným vkladem.

Zkontrolujte, jestli je spuštění experimentu dokončené. Pokud to chcete udělat, přejděte zpět na stránku nadřazené úlohy tak , že v horní části obrazovky vyberete 1 . Úlohu. Stav Dokončeno se zobrazí v levém horním rohu obrazovky.

Po dokončení experimentu se stránka Podrobností naplní oddílem Nejlepší souhrn modelu. V tomto kontextu experimentu se VotingEnsemble považuje za nejlepší model založený na AUC_weighted metrice.

Tento model nasadíme, ale doporučujeme, aby nasazení trvá přibližně 20 minut. Proces nasazení zahrnuje několik kroků, včetně registrace modelu, generování prostředků a jejich konfigurace pro webovou službu.

  1. Výběrem možnosti VotingEnsemble otevřete stránku specifickou pro model.

  2. V levém horním rohu vyberte nabídku Nasadit a vyberte Nasadit do webové služby.

  3. Naplňte podokno Nasazení modelu následujícím způsobem:

    Pole Hodnota
    Název nasazení my-automl-deploy
    Popis nasazení Moje první nasazení experimentu automatizovaného strojového učení
    Typ výpočetních prostředků Výběr služby Azure Container Instance (ACI)
    Povolit ověřování Zakázat.
    Použití vlastních nasazení Zakázat. Umožňuje automaticky vygenerovat výchozí soubor ovladače (bodovací skript) a soubor prostředí.

    V tomto příkladu používáme výchozí hodnoty uvedené v nabídce Upřesnit .

  4. Vyberte Nasadit.

    V horní části obrazovky Úlohy se zobrazí zelená zpráva o úspěchu a v podokně souhrnu modelu se v části Stav nasazení zobrazí stavová zpráva. Pravidelně vyberte Aktualizovat a zkontrolujte stav nasazení.

Teď máte provozní webovou službu pro generování předpovědí.

Přejděte k dalším krokům, kde se dozvíte více o tom, jak využívat novou webovou službu, a otestujte predikce pomocí podpory Power BI integrované v Azure Machine Učení.

Vyčištění prostředků

Soubory nasazení jsou větší než data a soubory experimentů, takže jejich ukládání je nákladnější. Odstraňte jenom soubory nasazení, abyste minimalizovali náklady na váš účet, nebo pokud chcete zachovat pracovní prostor a soubory experimentů. Jinak odstraňte celou skupinu prostředků, pokud neplánujete používat žádné soubory.

Odstranění instance nasazení

Pokud chcete zachovat skupinu prostředků a pracovní prostor pro další kurzy a zkoumání, odstraňte pouze instanci nasazení ze služby Azure Machine Učení na adresehttps://ml.azure.com/.

  1. Přejděte na azure Machine Učení. V podokně Prostředky přejděte do svého pracovního prostoru a vlevo pod podoknem Prostředky vyberte Koncové body.

  2. Vyberte nasazení, které chcete odstranit, a vyberte Odstranit.

  3. Vyberte Pokračovat.

Odstranění skupiny prostředků

Důležité

Prostředky, které jste vytvořili, se dají použít jako předpoklady pro další kurzy a postupy pro azure machine Učení články.

Pokud nemáte v úmyslu používat žádné prostředky, které jste vytvořili, odstraňte je, abyste za ně neúčtovaly žádné poplatky:

  1. Úplně nalevo na webu Azure Portal vyberte Skupiny prostředků.

  2. V seznamu vyberte skupinu prostředků, kterou jste vytvořili.

  3. Vyberte Odstranit skupinu prostředků.

    Screenshot of the selections to delete a resource group in the Azure portal.

  4. Zadejte název skupiny prostředků. Poté vyberte Odstranit.

Další kroky

V tomto kurzu automatizovaného strojového učení jste k vytvoření a nasazení klasifikačního modelu použili automatizované rozhraní strojového učení služby Azure Machine Učení. Další informace a další kroky najdete v těchto článcích:

Poznámka:

Tato datová sada bankovního marketingu je dostupná v rámci licence Creative Commons (CCO: Public Domain). Veškerá práva v jednotlivých obsahech databáze jsou licencována v rámci licence Na obsah databáze a k dispozici v Kaggle. Tato datová sada byla původně k dispozici v databázi Učení počítače UCI.

[Moro et al., 2014] S. Moro, P. Cortez a P. Rita. Přístup řízený daty k předpovídání úspěchu bankovního telemarketingu. Decision Support Systems, Elsevier, 62:22-31, červen 2014.