Kurz: Trénování klasifikačního modelu pomocí automatizovaného strojového učení bez kódu v studio Azure Machine Learning

Zjistěte, jak v studio Azure Machine Learning vytrénovat klasifikační model s automatickým strojovém učením bez kódu pomocí automatizovaného strojového učení Azure Machine Learning. Tento klasifikační model předpovídá, jestli klient upíše termínovaný vklad u finanční instituce.

Pomocí automatizovaného strojového učení můžete automatizovat časově náročné úlohy. Automatizované strojové učení rychle iteruje pomocí mnoha kombinací algoritmů a hyperparametrů, aby vám pomohlo najít nejlepší model na základě metriky úspěšnosti podle vašeho výběru.

V tomto kurzu nebudete psát žádný kód, k trénování použijete studiové rozhraní. Naučíte se provádět následující úlohy:

  • Vytvořte pracovní prostor Azure Machine Learning.
  • Jak spouštět experimenty automatizovaného strojového učení.
  • Prozkoumejte podrobnosti o modelu.
  • Nasaďte doporučený model.

Vyzkoušejte také automatizované strojové učení pro tyto další typy modelů:

Požadavky

  • Předplatné Azure. Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet.

  • Stáhněte bankmarketing_train.csv datový soubor. Sloupec y označuje, jestli se zákazník přihlásil k odběru termínovaného vkladu, který se později identifikuje jako cílový sloupec pro předpovědi v tomto kurzu.

Vytvoření pracovního prostoru

Pracovní prostor Azure Machine Learning je základní prostředek v cloudu, který používáte k experimentování, trénování a nasazování modelů strojového učení. Prováže vaše předplatné Azure a skupinu prostředků se snadno využívaným objektem ve službě.

Pracovní prostor můžete vytvořit mnoha způsoby. V tomto kurzu vytvoříte pracovní prostor prostřednictvím Azure Portal, což je webová konzola pro správu prostředků Azure.

  1. Přihlaste se k Azure Portal pomocí přihlašovacích údajů pro vaše předplatné Azure.

  2. V levém horním rohu Azure Portal vyberte tři pruhy a pak + Vytvořit prostředek.

    Snímek obrazovky znázorňující + Vytvořit prostředek

  3. Pomocí panelu hledání vyhledejte Azure Machine Learning.

  4. Vyberte Azure Machine Learning.

    Snímek obrazovky s výsledky hledání pro výběr služby Machine Learning

  5. V podokně Machine Learning začněte výběrem možnosti Vytvořit .

  6. Zadejte následující informace ke konfiguraci nového pracovního prostoru:

    Pole Popis
    Název pracovního prostoru Zadejte jedinečný název, který identifikuje váš pracovní prostor. V tomto příkladu použijeme docs-ws. Názvy musí být v rámci skupiny prostředků jedinečné. Použijte název, který se snadno zapamatuje a odliší od pracovních prostorů vytvořených jinými uživateli.
    Předplatné Vyberte předplatné Azure, které chcete použít.
    Skupina prostředků Použijte existující skupinu prostředků ve vašem předplatném nebo zadejte název a vytvořte novou skupinu prostředků. Skupina prostředků obsahuje související prostředky pro řešení Azure. V tomto příkladu použijeme docs-aml.
    Oblast Vyberte umístění co nejblíže vašim uživatelům a datové prostředky pro vytvoření pracovního prostoru.
    Účet úložiště Účet úložiště se používá jako výchozí úložiště dat pro pracovní prostor. Můžete vytvořit nový prostředek Azure Storage nebo vybrat existující prostředek ve vašem předplatném.
    Trezor klíčů Trezor klíčů se používá k ukládání tajných kódů a dalších citlivých informací, které pracovní prostor potřebuje. Můžete vytvořit nový prostředek Azure Key Vault nebo vybrat existující prostředek ve vašem předplatném.
    Application Insights Pracovní prostor používá Aplikace Azure Insights k ukládání informací o monitorování nasazených modelů. Můžete vytvořit nový prostředek Aplikace Azure Insights nebo vybrat existující prostředek ve vašem předplatném.
    Registr kontejneru Registr kontejneru slouží k registraci imagí Dockeru používaných při trénování a nasazeních. Můžete se rozhodnout vytvořit prostředek nebo vybrat existující prostředek ve vašem předplatném.
  7. Po dokončení konfigurace pracovního prostoru vyberte Zkontrolovat a vytvořit.

  8. Vyberte Vytvořit a vytvořte pracovní prostor.

    Upozornění

    Vytvoření pracovního prostoru v cloudu může trvat několik minut.

    Po dokončení procesu se zobrazí zpráva o úspěšném nasazení.

  9. Pokud chcete zobrazit nový pracovní prostor, vyberte Přejít k prostředku.

  10. V zobrazení portálu vašeho pracovního prostoru vyberte Spustit studio a přejděte na studio Azure Machine Learning.

Důležité

Poznamenejte si svůj pracovní prostor a předplatné. Budete je potřebovat, abyste měli jistotu, že experiment vytvoříte na správném místě.

Přihlaste se ke studiu.

Dokončíte následující nastavení experimentu a spustíte kroky prostřednictvím studio Azure Machine Learning na adrese https://ml.azure.com, což je konsolidované webové rozhraní, které zahrnuje nástroje strojového učení pro provádění scénářů datových věd pro odborníky na datové vědy všech úrovní. Studio není podporováno v prohlížečích Internet Explorer.

  1. Přihlaste se a studio Azure Machine Learning.

  2. Vyberte své předplatné a pracovní prostor, který jste vytvořili.

  3. Vyberte Začínáme.

  4. V levém podokně vyberte Automatizované strojové učení v části Autor .

    Vzhledem k tomu, že se jedná o váš první experiment automatizovaného strojového učení, zobrazí se prázdný seznam a odkazy na dokumentaci.

    Stránka Začínáme

  5. Vyberte +Nová automatizovaná úloha ML.

Vytvoření a načtení datové sady

Před konfigurací experimentu nahrajte datový soubor do pracovního prostoru ve formě datové sady Azure Machine Learning. Tím zajistíte, že jsou data naformátovaná odpovídajícím způsobem pro váš experiment.

  1. Novou datovou sadu vytvoříte tak, že v rozevíracím seznamu +Vytvořit datovou sadu vybereteZ místních souborů.

    1. Ve formuláři Základní informace zadejte název datové sady a volitelně zadejte popis. Rozhraní automatizovaného strojového učení v současné době podporuje pouze TabularDatasets, takže typ datové sady by měl být ve výchozím nastavení Tabulkový.

    2. Vlevo dole vyberte Další .

    3. Ve formuláři Úložiště dat a výběr souboru vyberte výchozí úložiště dat, které se automaticky nastavilo při vytváření pracovního prostoru, workspaceblobstore (Azure Blob Storage). Sem nahrajete datový soubor, abyste ho zpřístupnili vašemu pracovnímu prostoru.

    4. V rozevíracím seznamu Nahrát vyberte Nahrát soubory.

    5. Zvolte souborbankmarketing_train.csv v místním počítači. Jedná se o soubor, který jste stáhli jako předpoklad.

    6. V levém dolním rohu vyberte Další a nahrajte ho do výchozího kontejneru, který se automaticky nastavil při vytváření pracovního prostoru.

      Po dokončení nahrávání se formulář Nastavení a náhled vyplní předem podle typu souboru.

    7. Ověřte, že je formulář Nastavení a náhled vyplněný následujícím způsobem, a vyberte Další.

      Pole Popis Hodnota pro kurz
      Formát souboru Definuje rozložení a typ dat uložených v souboru. Oddělený
      Oddělovač Jeden nebo více znaků pro určení hranice mezi samostatnými, nezávislými oblastmi v prostém textu nebo jiných datových proudech. Čárka
      Encoding Identifikuje tabulku schématu bitů ke znakům, která se má použít ke čtení datové sady. UTF-8
      Záhlaví sloupců Určuje, jak se budou zpracovávat případné hlavičky datové sady. Všechny soubory mají stejná záhlaví.
      Přeskočit řádky Určuje, kolik řádků (pokud vůbec nějaké) se v datové sadě přeskočí. Žádné
    8. Formulář schématu umožňuje další konfiguraci dat pro tento experiment. V tomto příkladu vyberte přepínač pro day_of_week, abyste ho nezahrnuli. Vyberte Další. Formulář schématu

    9. Ve formuláři Potvrdit podrobnosti ověřte, že informace odpovídají tomu, co bylo dříve vyplněno ve formulářích Základní informace, Výběr souboru a Úložiště dat a Nastavení a Náhled .

    10. Vyberte Vytvořit a dokončete vytváření datové sady.

    11. Jakmile se datová sada zobrazí v seznamu, vyberte ji.

    12. Zkontrolujte náhled dat a ujistěte se, že jste nezahrnuli day_of_week pak vyberte Zavřít.

    13. Vyberte Další.

Konfigurace úlohy

Po načtení a konfiguraci dat můžete nastavit experiment. Toto nastavení zahrnuje úlohy návrhu experimentů, jako je výběr velikosti výpočetního prostředí a určení sloupce, který chcete předpovědět.

  1. Vyberte přepínač Vytvořit nový .

  2. Vyplňte formulář Konfigurovat úlohu následujícím způsobem:

    1. Zadejte název tohoto experimentu: my-1st-automl-experiment

    2. Jako cílový sloupec vyberte y , co chcete předpovědět. Tento sloupec označuje, jestli si klient předplatil termínovaný vklad nebo ne.

    3. Jako typ výpočetních prostředků vyberte výpočetní cluster .

    4. Cílový výpočetní objekt je místní nebo cloudové prostředí prostředků, které slouží ke spuštění trénovacího skriptu nebo hostování nasazení služby. Pro účely tohoto experimentu můžete buď vyzkoušet cloudové bezserverové výpočetní prostředky (Preview), nebo vytvořit vlastní cloudové výpočetní prostředky.

      1. Pokud chcete používat bezserverové výpočetní prostředky, povolte funkci Preview, vyberte Bezserverové a přeskočte zbytek tohoto kroku.
      2. Pokud chcete vytvořit vlastní cílový výpočetní objekt, vyberte + Nový a nakonfigurujte cílový výpočetní objekt.
        1. Vyplňte formulář Vybrat virtuální počítač a nastavte výpočetní prostředky.

          Pole Popis Hodnota pro kurz
          Umístění Oblast, ze které chcete počítač spustit Západní USA 2
          Vrstva virtuálního počítače Vyberte prioritu experimentu. Vyhrazená
          Typ virtuálního počítače Vyberte typ virtuálního počítače pro váš výpočetní výkon. CPU (Central Processing Unit)
          Velikost virtuálního počítače Vyberte velikost virtuálního počítače pro váš výpočetní výkon. Seznam doporučených velikostí je k dispozici na základě vašich dat a typu experimentu. Standard_DS12_V2
        2. Výběrem možnosti Další vyplňte formulář Konfigurovat nastavení.

          Pole Popis Hodnota pro kurz
          Název výpočetních prostředků Jedinečný název, který identifikuje váš výpočetní kontext. automl-compute
          Minimální/maximální počet uzlů Pokud chcete profilovat data, musíte zadat 1 nebo více uzlů. Minimální počet uzlů: 1
          Maximální počet uzlů: 6
          Nečinné sekundy před vertikálním snížením kapacity Doba nečinnosti před automatickým vertikálním snížením kapacity clusteru na minimální počet uzlů. 120 (výchozí)
          Rozšířená nastavení Nastavení pro konfiguraci a autorizaci virtuální sítě pro váš experiment Žádné
        3. Vyberte Vytvořit a vytvořte cílový výpočetní objekt.

          Dokončení této akce trvá několik minut.

          Stránka Nastavení

        4. Po vytvoření vyberte z rozevíracího seznamu nový cílový výpočetní objekt.

    5. Vyberte Další.

  3. Ve formuláři Vybrat úlohu a nastavení dokončete nastavení experimentu automatizovaného strojového učení zadáním typu úlohy strojového učení a nastavení konfigurace.

    1. Jako typ úlohy strojového učení vyberte Klasifikace .

    2. Vyberte Zobrazit další nastavení konfigurace a vyplňte pole následujícím způsobem. Tato nastavení slouží k lepšímu řízení trénovací úlohy. Jinak se výchozí hodnoty použijí na základě výběru experimentu a dat.

      Další konfigurace Popis Hodnota pro kurz
      Primární metrika Metrika hodnocení, kterou se bude algoritmus strojového učení měřit. AUC_weighted
      Vysvětlit nejlepší model Automaticky zobrazuje vysvětlitelnost nejlepšího modelu vytvořeného automatizovaným strojovém učením. Povolit
      Blokované algoritmy Algoritmy, které chcete vyloučit z trénovací úlohy Žádné
      Další nastavení klasifikace Tato nastavení pomáhají zlepšit přesnost modelu. Popisek kladné třídy: Žádný
      Kritérium ukončení Pokud jsou splněna kritéria, úloha trénování se zastaví. Doba trénovací úlohy (hodiny): 1
      Prahová hodnota skóre metriky: Žádná
      Souběžnost Maximální počet paralelních iterací prováděných na jednu iteraci Maximální počet souběžných iterací: 5

      Vyberte Uložit.

    3. Vyberte Další.

  4. Ve formuláři pro ověření a testování [volitelné]

    1. Jako typ ověření vyberte křížové ověření k-fold.
    2. Jako Počet křížových ověření vyberte 2.
  5. Výběrem možnosti Dokončit experiment spusťte. Při zahájení přípravy experimentu se otevře obrazovka Podrobnosti úlohy se stavem Úloha v horní části. Tento stav se v průběhu experimentu aktualizuje. V pravém horním rohu studia se také zobrazují oznámení, která vás informují o stavu experimentu.

Důležité

Příprava spuštění experimentu trvá 10 až 15 minut . Po spuštění trvá každá iterace o 2 až 3 minuty déle.

V produkčním prostředí byste asi na chvíli odešel. Pro účely tohoto kurzu ale doporučujeme začít zkoumat testované algoritmy na kartě Modely , jakmile se dokončí, zatímco ostatní stále běží.

Prozkoumání modelů

Přejděte na kartu Modely a prohlédněte si testované algoritmy (modely). Ve výchozím nastavení jsou modely po dokončení seřazené podle skóre metriky. Pro účely tohoto kurzu je model, který na základě zvolené metriky AUC_weighted boduje nejvyšší skóre, na začátku seznamu.

Zatímco čekáte na dokončení všech modelů experimentů, vyberte název algoritmu dokončeného modelu a prozkoumejte podrobnosti o jeho výkonu.

Následující příkaz prochází karty Podrobnosti a Metriky a zobrazí vlastnosti, metriky a grafy výkonu vybraného modelu.

Podrobnosti o spuštění iterace

Vysvětlení modelů

Zatímco čekáte na dokončení modelů, můžete se také podívat na vysvětlení modelu a zjistit, které datové funkce (nezpracované nebo zkonstruované) ovlivnily predikce konkrétního modelu.

Tato vysvětlení modelů se dají generovat na vyžádání a jsou shrnutá na řídicím panelu vysvětlení modelů, který je součástí karty Vysvětlení (Preview).

Pokud chcete vygenerovat vysvětlení modelu,

  1. Výběrem možnosti Úloha 1 v horní části přejděte zpět na obrazovku Modely .

  2. Vyberte kartu Modely .

  3. Pro účely tohoto kurzu vyberte první model MaxAbsScaler a LightGBM .

  4. Vyberte tlačítko Vysvětlit model v horní části. Na pravé straně se zobrazí podokno Vysvětlit model .

  5. Vyberte automl-compute , který jste vytvořili dříve. Tento výpočetní cluster inicializuje podřízenou úlohu, která vygeneruje vysvětlení modelu.

  6. V dolní části vyberte Vytvořit . V horní části obrazovky se zobrazí zelená zpráva o úspěchu.

    Poznámka

    Dokončení úlohy vysvětlitelnosti trvá přibližně 2 až 5 minut.

  7. Vyberte tlačítko Vysvětlení (Preview). Tato karta se naplní po dokončení běhu vysvětlení.

  8. Na levé straně rozbalte podokno a v části Funkce vyberte řádek nezpracovaný.

  9. Vpravo vyberte kartu Agregovat důležitost funkce . Tento graf ukazuje, které datové funkce ovlivnily predikce vybraného modelu.

    V tomto příkladu se zdá, že doba trvání má největší vliv na předpovědi tohoto modelu.

    Řídicí panel vysvětlení modelu

Nasazení nejlepšího modelu

Rozhraní automatizovaného strojového učení umožňuje nasadit nejlepší model jako webovou službu v několika krocích. Nasazení je integrace modelu, aby mohl predikovat nová data a identifikovat potenciální oblasti příležitostí.

Nasazení do webové služby pro tento experiment znamená, že finanční instituce má nyní iterativní a škálovatelné webové řešení pro identifikaci potenciálních zákazníků s pevnými termíny vkladu.

Zkontrolujte, jestli je spuštění experimentu dokončené. Uděláte to tak, že v horní části obrazovky vyberete Úlohu 1 a vrátíte se zpět na stránku nadřazené úlohy. V levém horním rohu obrazovky se zobrazí stav Dokončeno .

Po dokončení spuštění experimentu se na stránce Podrobnosti vyplní oddíl Souhrn nejlepšího modelu . V tomto kontextu experimentu se VotingEnsemble považuje za nejlepší model na základě metriky AUC_weighted .

Tento model nasadíme, ale doporučujeme, že dokončení nasazení trvá přibližně 20 minut. Proces nasazení zahrnuje několik kroků, včetně registrace modelu, generování prostředků a jejich konfigurace pro webovou službu.

  1. Výběrem možnosti VotingEnsemble otevřete stránku pro konkrétní model.

  2. V levém horním rohu vyberte nabídku Deploy (Nasadit ) a vyberte Deploy to web service (Nasadit do webové služby).

  3. Následujícím způsobem vyplňte podokno Deploy a model (Nasadit model ):

    Pole Hodnota
    Název nasazení my-automl-deploy
    Popis nasazení Moje první nasazení experimentu automatizovaného strojového učení
    Typ výpočetních prostředků Výběr instance kontejneru Azure (ACI)
    Povolit ověřování Zakázat.
    Použití vlastních nasazení Zakázat. Umožňuje automatické vygenerování výchozího souboru ovladače (hodnoticího skriptu) a souboru prostředí.

    V tomto příkladu použijeme výchozí hodnoty uvedené v nabídce Upřesnit .

  4. Vyberte Nasadit.

    V horní části obrazovky Úlohy se zobrazí zelená zpráva o úspěchu a v podokně Souhrn modelu se v části Stav nasazení zobrazí stavová zpráva. Pravidelně vybírejte Aktualizovat a kontrolujte stav nasazení.

Teď máte funkční webovou službu, která generuje predikce.

Přejděte k dalším krokům , kde se dozvíte více o tom, jak využívat novou webovou službu a otestovat předpovědi pomocí integrované podpory Služby Azure Machine Learning v Power BI.

Vyčištění prostředků

Soubory nasazení jsou větší než soubory dat a experimentů, takže jejich uložení stojí víc. Odstraňte pouze soubory nasazení, abyste minimalizovali náklady na svůj účet, nebo pokud chcete zachovat pracovní prostor a soubory experimentů. V opačném případě odstraňte celou skupinu prostředků, pokud neplánujete použít žádný ze souborů.

Odstranění instance nasazení

Pokud chcete zachovat skupinu prostředků a pracovní prostor pro další kurzy a zkoumání, odstraňte pouze instanci nasazení ze služby Azure Machine Learning na adrese https://ml.azure.com/.

  1. Přejděte na Azure Machine Learning. Přejděte do svého pracovního prostoru a vlevo pod podoknem Prostředky vyberte Koncové body.

  2. Vyberte nasazení, které chcete odstranit, a vyberte Odstranit.

  3. Vyberte Pokračovat.

Odstranění skupiny prostředků

Důležité

Prostředky, které jste vytvořili, je možné použít jako předpoklady pro další kurzy a články s postupy služby Azure Machine Learning.

Pokud žádný z prostředků, které jste vytvořili, neplánujete používat, odstraňte je, aby se vám neúčtovaly žádné poplatky:

  1. Úplně nalevo na webu Azure Portal vyberte Skupiny prostředků.

  2. V seznamu vyberte skupinu prostředků, kterou jste vytvořili.

  3. Vyberte Odstranit skupinu prostředků.

    Snímek obrazovky s výběry k odstranění skupiny prostředků na portálu Azure Portal.

  4. Zadejte název skupiny prostředků. Vyberte Odstranit.

Další kroky

V tomto kurzu automatizovaného strojového učení jste použili rozhraní automatizovaného strojového učení služby Azure Machine Learning k vytvoření a nasazení klasifikačního modelu. Další informace a další kroky najdete v těchto článcích:

Poznámka

Tato datová sada Bank Marketing je k dispozici v rámci licence Creative Commons (CCO: Public Domain). Veškerá práva k jednotlivým obsahem databáze jsou licencována v rámci licence k obsahu databáze a k dispozici na webu Kaggle. Tato datová sada byla původně k dispozici v rámci služby UCI Machine Learning Database.

[Moro et al., 2014] S. Moro, P. Cortez a P. Rita. „A Data-Driven Approach to Predict the Success of Bank Telemarketing“ (Předpovídání úspěchu bankovního telemarketingu na základě dat). Decision Support Systems, Elsevier, 62:22-31, červen 2014