Kurz: Trénování klasifikačního modelu bez kódu automatizovaného strojového učení v studio Azure Machine Learning
Zjistěte, jak v studio Azure Machine Learning vytrénovat klasifikační model s automatickým strojovém učením bez kódu pomocí automatizovaného strojového učení Azure Machine Learning. Tento klasifikační model předpovídá, jestli si klient u finanční instituce upíše termínovaný vklad.
Pomocí automatizovaného strojového učení můžete automatizovat časově náročné úlohy. Automatizované strojové učení rychle iteruje pomocí mnoha kombinací algoritmů a hyperparametrů, aby vám pomohlo najít nejlepší model na základě metriky úspěšnosti podle vašeho výběru.
V tomto kurzu nebudete psát žádný kód, k trénování použijete studiové rozhraní. Naučíte se provádět následující úlohy:
- Vytvořte pracovní prostor Azure Machine Learning.
- Jak spouštět experimenty automatizovaného strojového učení.
- Prozkoumejte podrobnosti o modelu.
- Nasaďte doporučený model.
Vyzkoušejte také automatizované strojové učení pro tyto další typy modelů:
- Příklad prognózování bez kódu najdete v tématu Kurz: Automatické strojové učení prognózování & poptávky.
- První příklad modelu rozpoznávání objektů s kódem najdete v tématu Kurz: Trénování modelu rozpoznávání objektů pomocí AutoML a Pythonu.
Požadavky
Předplatné Azure. Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet.
Stáhněte bankmarketing_train.csv datový soubor. Sloupec y označuje, jestli se zákazník přihlásil k odběru termínovaného vkladu, který se později identifikuje jako cílový sloupec pro předpovědi v tomto kurzu.
Vytvoření pracovního prostoru
Pracovní prostor Azure Machine Learning je základní prostředek v cloudu, který používáte k experimentování, trénování a nasazování modelů strojového učení. Prováže vaše předplatné Azure a skupinu prostředků se snadno využívaným objektem ve službě.
Pracovní prostor můžete vytvořit mnoha způsoby. V tomto kurzu vytvoříte pracovní prostor prostřednictvím Azure Portal, což je webová konzola pro správu prostředků Azure.
Přihlaste se k Azure Portal pomocí přihlašovacích údajů pro vaše předplatné Azure.
V levém horním rohu Azure Portal vyberte tři pruhy a pak + Vytvořit prostředek.
Pomocí panelu hledání vyhledejte Azure Machine Learning.
Vyberte Azure Machine Learning.
V podokně Machine Learning začněte výběrem možnosti Vytvořit .
Zadejte následující informace ke konfiguraci nového pracovního prostoru:
Pole Description Název pracovního prostoru Zadejte jedinečný název, který identifikuje váš pracovní prostor. V tomto příkladu použijeme docs-ws. Názvy musí být v rámci skupiny prostředků jedinečné. Použijte název, který se snadno zapamatuje a odliší od pracovních prostorů vytvořených jinými uživateli. Předplatné Vyberte předplatné Azure, které chcete použít. Skupina prostředků Použijte existující skupinu prostředků ve vašem předplatném nebo zadejte název a vytvořte novou skupinu prostředků. Skupina prostředků obsahuje související prostředky pro řešení Azure. V tomto příkladu použijeme docs-aml. Oblast Vyberte umístění co nejblíže vašim uživatelům a datové prostředky pro vytvoření pracovního prostoru. Účet úložiště Účet úložiště se používá jako výchozí úložiště dat pro pracovní prostor. Můžete vytvořit nový prostředek Azure Storage nebo vybrat existující prostředek ve vašem předplatném. Trezor klíčů Trezor klíčů se používá k ukládání tajných kódů a dalších citlivých informací, které pracovní prostor potřebuje. Můžete vytvořit nový prostředek Azure Key Vault nebo vybrat existující prostředek ve vašem předplatném. Application Insights Pracovní prostor používá Aplikace Azure Insights k ukládání informací o monitorování nasazených modelů. Můžete vytvořit nový prostředek Aplikace Azure Insights nebo vybrat existující prostředek ve vašem předplatném. Registr kontejneru Registr kontejneru slouží k registraci imagí Dockeru používaných při trénování a nasazeních. Můžete se rozhodnout vytvořit prostředek nebo vybrat existující prostředek ve vašem předplatném. Po dokončení konfigurace pracovního prostoru vyberte Zkontrolovat a vytvořit.
Vyberte Vytvořit a vytvořte pracovní prostor.
Upozornění
Vytvoření pracovního prostoru v cloudu může trvat několik minut.
Po dokončení procesu se zobrazí zpráva o úspěšném nasazení.
Pokud chcete zobrazit nový pracovní prostor, vyberte Přejít k prostředku.
V zobrazení portálu vašeho pracovního prostoru vyberte Spustit studio a přejděte na studio Azure Machine Learning.
Důležité
Poznamenejte si svůj pracovní prostor a předplatné. Budete je potřebovat, abyste měli jistotu, že experiment vytvoříte na správném místě.
Přihlaste se ke studiu.
Následující nastavení experimentu dokončíte a provedete kroky prostřednictvím studio Azure Machine Learning na https://ml.azure.comadrese , což je konsolidované webové rozhraní, které zahrnuje nástroje strojového učení pro provádění scénářů datových věd pro odborníky na datové vědy všech úrovní. Studio není podporováno v prohlížečích Internet Explorer.
Přihlaste se a studio Azure Machine Learning.
Vyberte své předplatné a pracovní prostor, který jste vytvořili.
Vyberte Začínáme.
V levém podokně vyberte Automatizované strojové učení v části Autor .
Vzhledem k tomu, že se jedná o váš první experiment automatizovaného strojového učení, zobrazí se prázdný seznam a odkazy na dokumentaci.
Vyberte +Nová automatizovaná úloha ML.
Vytvoření a načtení datové sady
Před konfigurací experimentu nahrajte datový soubor do pracovního prostoru ve formě datové sady Azure Machine Learning. Tím zajistíte, že jsou data naformátovaná odpovídajícím způsobem pro váš experiment.
Novou datovou sadu vytvoříte tak, že v rozevíracím seznamu +Vytvořit datovou sadu vybereteZ místních souborů.
Ve formuláři Základní informace zadejte název datové sady a volitelně zadejte popis. Rozhraní automatizovaného strojového učení v současné době podporuje pouze TabularDatasets, takže typ datové sady by měl být ve výchozím nastavení Tabulkový.
Vlevo dole vyberte Další .
Ve formuláři Úložiště dat a výběr souboru vyberte výchozí úložiště dat, které se automaticky nastavilo při vytváření pracovního prostoru, workspaceblobstore (Azure Blob Storage). Sem nahrajete datový soubor, abyste ho zpřístupnili vašemu pracovnímu prostoru.
V rozevíracím seznamu Nahrát vyberte Nahrát soubory.
Zvolte souborbankmarketing_train.csv v místním počítači. Jedná se o soubor, který jste stáhli jako předpoklad.
V levém dolním rohu vyberte Další a nahrajte ho do výchozího kontejneru, který se automaticky nastavil při vytváření pracovního prostoru.
Po dokončení nahrávání se formulář Nastavení a náhled vyplní předem podle typu souboru.
Ověřte, že je formulář Nastavení a náhled vyplněný následujícím způsobem, a vyberte Další.
Pole Description Hodnota pro kurz Formát souboru Definuje rozložení a typ dat uložených v souboru. Oddělený Oddělovač Jeden nebo více znaků pro určení hranice mezi samostatnými, nezávislými oblastmi v prostém textu nebo jiných datových proudech. Čárka Encoding Identifikuje tabulku schématu bitů ke znakům, která se má použít ke čtení datové sady. UTF-8 Záhlaví sloupců Určuje, jak se budou zpracovávat případné hlavičky datové sady. Všechny soubory mají stejná záhlaví. Přeskočit řádky Určuje, kolik řádků (pokud vůbec nějaké) se v datové sadě přeskočí. Žádné Formulář schématu umožňuje další konfiguraci dat pro tento experiment. V tomto příkladu vyberte přepínač pro day_of_week, abyste ho nezahrnuli. Vyberte Další.
Ve formuláři Potvrdit podrobnosti ověřte, že informace odpovídají informacím dříve vyplněným ve formulářích Základní informace, Výběr úložiště dat a souborů a Nastavení a Náhled .
Vyberte Vytvořit a dokončete vytváření datové sady.
Jakmile se datová sada zobrazí v seznamu, vyberte ji.
Zkontrolujte náhled dat a ujistěte se, že jste nezahrnuli day_of_week pak vyberte Zavřít.
Vyberte Další.
Konfigurace úlohy
Po načtení a konfiguraci dat můžete nastavit experiment. Toto nastavení zahrnuje úlohy návrhu experimentů, jako je výběr velikosti výpočetního prostředí a určení sloupce, který chcete předpovědět.
Vyberte přepínač Vytvořit nový .
Vyplňte formulář Konfigurovat úlohu následujícím způsobem:
Zadejte název tohoto experimentu:
my-1st-automl-experiment
Jako cílový sloupec vyberte y , co chcete předpovědět. Tento sloupec označuje, jestli si klient předplatil termínovaný vklad nebo ne.
Jako typ výpočetních prostředků vyberte výpočetní cluster .
+Nový – nakonfigurujete cílový výpočetní objekt. Cílový výpočetní objekt je místní nebo cloudové prostředí prostředků, které slouží ke spuštění trénovacího skriptu nebo hostování nasazení služby. Pro tento experiment používáme cloudové výpočetní prostředky.
Vyplňte formulář Vybrat virtuální počítač a nastavte výpočetní prostředky.
Pole Description Hodnota pro kurz Umístění Oblast, ze které chcete počítač spustit Západní USA 2 Vrstva virtuálního počítače Vyberte prioritu experimentu. Vyhrazená Typ virtuálního počítače Vyberte typ virtuálního počítače pro váš výpočetní výkon. CPU (Central Processing Unit) Velikost virtuálního počítače Vyberte velikost virtuálního počítače pro váš výpočetní výkon. Seznam doporučených velikostí je k dispozici na základě vašich dat a typu experimentu. Standard_DS12_V2 Výběrem možnosti Další vyplňte formulář Konfigurovat nastavení.
Pole Description Hodnota pro kurz Název výpočetních prostředků Jedinečný název, který identifikuje váš výpočetní kontext. automl-compute Minimální/maximální počet uzlů Pokud chcete profilovat data, musíte zadat 1 nebo více uzlů. Minimální počet uzlů: 1
Maximální počet uzlů: 6Nečinné sekundy před vertikálním snížením kapacity Doba nečinnosti před automatickým vertikálním snížením kapacity clusteru na minimální počet uzlů. 120 (výchozí) Rozšířená nastavení Nastavení pro konfiguraci a autorizaci virtuální sítě pro váš experiment Žádné Vyberte Vytvořit a vytvořte cílový výpočetní objekt.
Dokončení této akce trvá několik minut.
Po vytvoření vyberte z rozevíracího seznamu nový cílový výpočetní objekt.
Vyberte Další.
Ve formuláři Vybrat úlohu a nastavení dokončete nastavení experimentu automatizovaného strojového učení zadáním typu úlohy strojového učení a nastavení konfigurace.
Jako typ úlohy strojového učení vyberte Klasifikace .
Vyberte Zobrazit další nastavení konfigurace a vyplňte pole následujícím způsobem. Tato nastavení slouží k lepšímu řízení trénovací úlohy. Jinak se výchozí hodnoty použijí na základě výběru experimentu a dat.
Další konfigurace Description Hodnota pro kurz Primární metrika Metrika hodnocení, kterou se bude algoritmus strojového učení měřit. AUC_weighted Vysvětlit nejlepší model Automaticky zobrazuje vysvětlitelnost nejlepšího modelu vytvořeného automatizovaným strojovém učením. Povolit Blokované algoritmy Algoritmy, které chcete vyloučit z trénovací úlohy Žádné Další nastavení klasifikace Tato nastavení pomáhají zlepšit přesnost modelu. Popisek kladné třídy: Žádný Kritérium ukončení Pokud jsou splněna kritéria, úloha trénování se zastaví. Doba trénovací úlohy (hodiny): 1
Prahová hodnota skóre metriky: ŽádnáSouběžnost Maximální počet paralelních iterací prováděných na jednu iteraci Maximální počet souběžných iterací: 5 Vyberte Uložit.
Vyberte Další.
Ve formuláři [Volitelné] Ověření a testování
- Jako typ ověření vyberte křížové ověření k-fold.
- Jako počet křížových ověření vyberte 2.
Vyberte Dokončit a spusťte experiment. Otevře se obrazovka Podrobnosti úlohy se stavem úlohy v horní části, jakmile začíná příprava experimentu. Tento stav se aktualizuje s průběhem experimentu. V pravém horním rohu studia se také zobrazují oznámení, která vás informují o stavu experimentu.
Důležité
Příprava spuštění experimentu trvá 10 až 15 minut .
Po spuštění trvá každá iterace o 2 až 3 minuty déle.
V produkčním prostředí byste asi na chvíli odešel. Pro účely tohoto kurzu ale doporučujeme začít zkoumat testované algoritmy na kartě Modely po jejich dokončení, zatímco ostatní jsou stále spuštěné.
Prozkoumání modelů
Přejděte na kartu Modely a podívejte se na testované algoritmy (modely). Ve výchozím nastavení se modely po dokončení řadí podle skóre metrik. V tomto kurzu je na začátku seznamu model, který na základě zvolené AUC_weighted metriky hodnotí nejvyšší skóre.
Zatímco čekáte na dokončení všech modelů experimentů, vyberte název algoritmu dokončeného modelu a prozkoumejte podrobnosti o jeho výkonu.
Následující příkaz prochází karty Podrobnosti a Metriky a zobrazí vlastnosti, metriky a grafy výkonu vybraného modelu.
Vysvětlení modelu
Zatímco čekáte na dokončení modelů, můžete se také podívat na vysvětlení modelu a zjistit, které datové funkce (nezpracované nebo zkonstruované) ovlivnily predikce konkrétního modelu.
Tato vysvětlení modelu se dají generovat na vyžádání a jsou shrnutá na řídicím panelu vysvětlení modelu, který je součástí karty Vysvětlení (Preview).
Pokud chcete vygenerovat vysvětlení modelu,
Výběrem možnosti Úloha 1 v horní části přejděte zpět na obrazovku Modely .
Vyberte kartu Modely .
Pro účely tohoto kurzu vyberte první model MaxAbsScaler a LightGBM .
Nahoře vyberte tlačítko Vysvětlit model . Vpravo se zobrazí podokno Vysvětlit model .
Vyberte automl-compute , který jste vytvořili dříve. Tento výpočetní cluster zahájí podřízenou úlohu, která vygeneruje vysvětlení modelu.
V dolní části vyberte Vytvořit . V horní části obrazovky se zobrazí zelená zpráva o úspěchu.
Poznámka
Dokončení úlohy vysvětlitelnosti trvá přibližně 2 až 5 minut.
Vyberte tlačítko Vysvětlení (Preview). Tato karta se naplní, jakmile se dokončí spuštění vysvětlitelnosti.
Na levé straně rozbalte podokno a vyberte řádek, který je v části Funkcenezpracovaný.
Vpravo vyberte kartu Agregovat důležitost funkce . Tento graf ukazuje, které datové funkce ovlivnily předpovědi vybraného modelu.
V tomto příkladu se zdá, že doba trvání má největší vliv na předpovědi tohoto modelu.
Nasazení nejlepšího modelu
Rozhraní automatizovaného strojového učení umožňuje nasadit nejlepší model jako webovou službu v několika krocích. Nasazení je integrace modelu, aby mohl predikovat nová data a identifikovat potenciální oblasti příležitostí.
Nasazení do webové služby pro tento experiment znamená, že finanční instituce má nyní iterativní a škálovatelné webové řešení pro identifikaci potenciálních zákazníků s pevnými termíny vkladu.
Zkontrolujte, jestli je spuštění experimentu dokončené. Uděláte to tak, že přejdete zpět na stránku nadřazené úlohy tak, že v horní části obrazovky vyberete Úloha 1 . V levém horním rohu obrazovky se zobrazí stav Dokončeno .
Po dokončení spuštění experimentu se stránka Podrobnosti naplní oddílem Souhrn nejlepšího modelu . V tomto kontextu experimentu se za nejlepší model považuje VotingEnsemble na základě metriky AUC_weighted .
Tento model nasadíme, ale upozorňujeme, že dokončení nasazení trvá přibližně 20 minut. Proces nasazení zahrnuje několik kroků, včetně registrace modelu, generování prostředků a jejich konfigurace pro webovou službu.
Výběrem možnosti VotingEnsemble otevřete stránku specifickou pro model.
V levém horním rohu vyberte nabídku Deploy (Nasadit ) a vyberte Deploy to web service (Nasadit do webové služby).
Naplňte podokno Nasadit model následujícím způsobem:
Pole Hodnota Název nasazení my-automl-deploy Popis nasazení Moje první nasazení experimentu automatizovaného strojového učení Typ výpočetních prostředků Výběr služby Azure Container Instance (ACI) Povolit ověřování Zakázat. Použití vlastních nasazení Zakázat. Umožňuje automaticky vygenerovat výchozí soubor ovladače (bodovací skript) a soubor prostředí. V tomto příkladu použijeme výchozí hodnoty uvedené v nabídce Upřesnit .
Vyberte Nasadit.
V horní části obrazovky Úlohy se zobrazí zelená zpráva o úspěchu a v podokně Souhrn modelu se v části Stav nasazení zobrazí stavová zpráva. Vyberte Aktualizovat pravidelně a kontrolujte stav nasazení.
Teď máte provozní webovou službu pro generování předpovědí.
Další informace o využití nové webové služby a testování předpovědí pomocí integrované podpory Služby Azure Machine Learning pro Power BI přejděte k dalším krokům .
Vyčištění prostředků
Soubory nasazení jsou větší než soubory dat a experimentů, takže jejich uložení stojí víc. Odstraňte jenom soubory nasazení, abyste minimalizovali náklady na svůj účet, nebo pokud chcete zachovat pracovní prostor a soubory experimentů. V opačném případě odstraňte celou skupinu prostředků, pokud neplánujete použít žádný ze souborů.
Odstranění instance nasazení
Pokud chcete zachovat skupinu prostředků a pracovní prostor pro další kurzy a zkoumání, odstraňte ze služby Azure Machine Learning https://ml.azure.com/pouze instanci nasazení.
Přejděte na Azure Machine Learning. Přejděte do pracovního prostoru a vlevo pod podoknem Prostředky vyberte Koncové body.
Vyberte nasazení, které chcete odstranit, a vyberte Odstranit.
Vyberte Pokračovat.
Odstranění skupiny prostředků
Důležité
Prostředky, které jste vytvořili, můžete použít jako předpoklady pro další kurzy a články s postupy pro Azure Machine Learning.
Pokud nemáte v úmyslu používat žádné z prostředků, které jste vytvořili, odstraňte je, aby se vám neúčtovaly žádné poplatky:
Úplně nalevo na webu Azure Portal vyberte Skupiny prostředků.
V seznamu vyberte skupinu prostředků, kterou jste vytvořili.
Vyberte Odstranit skupinu prostředků.
Zadejte název skupiny prostředků. Vyberte Odstranit.
Další kroky
V tomto kurzu automatizovaného strojového učení jste pomocí automatizovaného rozhraní ML služby Azure Machine Learning vytvořili a nasadíte klasifikační model. Další informace a další kroky najdete v těchto článcích:
- Přečtěte si další informace o automatizovaném strojovém učení.
- Další informace o metrikách a grafech klasifikace najdete v článku Vysvětlení výsledků automatizovaného strojového učení .
- Přečtěte si další informace o featurizaci.
- Přečtěte si další informace o profilaci dat.
Poznámka
Tato datová sada Bank Marketing je k dispozici v rámci licence Creative Commons (CCO: Public Domain). Veškerá práva k jednotlivým obsahem databáze jsou licencována v rámci licence k obsahu databáze a k dispozici na webu Kaggle. Tato datová sada byla původně k dispozici ve službě UCI Machine Learning Database.
[Moro et al., 2014] S. Moro, P. Cortez a P. Rita. „A Data-Driven Approach to Predict the Success of Bank Telemarketing“ (Předpovídání úspěchu bankovního telemarketingu na základě dat). Decision Support Systems, Elsevier, 62:22-31, červen 2014