Trénování modelů ML pomocí uživatelského rozhraní Azure Databricks AutoML

Článek
04/18/2024

Tento článek ukazuje, jak trénovat model strojového učení pomocí AutoML a uživatelského rozhraní Učení Databricks Machine. Uživatelské rozhraní AutoML vás provede procesem trénování klasifikačního, regresního nebo prognózovacího modelu v datové sadě.

Přístup k uživatelskému rozhraní:

Na bočním panelu vyberte Nový > experiment AutoML.

Nový experiment AutoML můžete vytvořit také na stránce Experimenty.

Zobrazí se stránka konfigurace experimentu AutoML. Na této stránce nakonfigurujete proces AutoML, zadáte datovou sadu, typ problému, cílový sloupec nebo sloupec popisku, který chcete předpovědět, metriku pro vyhodnocení a hodnocení spuštění experimentu a zastavení podmínek.

Požadavky

Viz Požadavky pro experimenty AutoML.

Nastavení problémů s klasifikací nebo regresí

Pomocí uživatelského rozhraní AutoML můžete nastavit problém s klasifikací nebo regresí pomocí následujícího postupu:

V poli Výpočty vyberte cluster se spuštěným modulem Databricks Runtime ML.
V rozevírací nabídce typu problému ML vyberte Regrese nebo Klasifikace. Pokud se pokoušíte predikovat průběžnou číselnou hodnotu pro každé pozorování, například roční příjem, vyberte regresi. Pokud se snažíte přiřadit každé pozorování jedné z diskrétní sady tříd, jako je dobré úvěrové riziko nebo špatné úvěrové riziko, vyberte klasifikaci.
V části Datová sada vyberte Procházet.
Přejděte do tabulky, kterou chcete použít, a klikněte na Vybrat. Zobrazí se schéma tabulky.

U problémů klasifikace a regrese můžete určit, které sloupce se mají zahrnout do trénování , a vybrat vlastní metody imputace.
Klikněte do pole Cíl předpovědi. Zobrazí se rozevírací seznam se seznamem sloupců zobrazených ve schématu. Vyberte sloupec, který má model předpovědět.
Pole Název experimentu zobrazuje výchozí název. Pokud ho chcete změnit, zadejte nový název do pole.

Můžete také:

Zadejte další možnosti konfigurace.
K rozšíření původní vstupní datové sady použijte existující tabulky funkcí v úložišti funkcí.

Nastavení problémů s prognózou

Pomocí uživatelského rozhraní AutoML můžete nastavit problém s prognózováním pomocí následujícího postupu:

V poli Výpočty vyberte cluster se spuštěným Modulem Databricks Runtime 10.0 ML nebo novějším.
V rozevírací nabídce typ problému ML vyberte Prognózování.
V části Datová sada klikněte na Procházet. Přejděte do tabulky, kterou chcete použít, a klikněte na Vybrat. Zobrazí se schéma tabulky.
Klikněte do pole Cíl předpovědi. Zobrazí se rozevírací nabídka se seznamem sloupců zobrazených ve schématu. Vyberte sloupec, který má model předpovědět.
Klikněte do pole Sloupec Čas. Zobrazí se rozevírací seznam se sloupci datové sady, které jsou typu timestamp nebo date. Vyberte sloupec obsahující časová období časové řady.
U prognózování s více řadami vyberte sloupce, které identifikují jednotlivé časové řady z rozevíracího seznamu Identifikátory časových řad. AutoML seskupí data podle těchto sloupců jako různé časové řady a vytrénuje model pro každou řadu nezávisle. Pokud toto pole necháte prázdné, AutoML předpokládá, že datová sada obsahuje jednu časovou řadu.
V polích Horizont prognózy a četnosti zadejte počet časových období do budoucnosti, pro které má AutoML vypočítat předpokládané hodnoty. Do levého pole zadejte celočíselné číslo období, která se mají prognózovat. V pravém poli vyberte jednotky. .. Poznámka:: Aby bylo možné použít funkci Auto-ARIMA, musí mít časová řada běžnou frekvenci (to znamená, že interval mezi všemi dvěma body musí být v průběhu časových řad stejný). Frekvence se musí shodovat s jednotkou frekvence zadanou ve volání rozhraní API nebo v uživatelském rozhraní AutoML. AutoML zpracovává chybějící kroky času vyplněním těchto hodnot předchozí hodnotou.
Ve službě Databricks Runtime 11.3 LTS ML a novějších můžete uložit výsledky předpovědi. Uděláte to tak, že do pole Výstupní databáze zadáte databázi. V dialogovém okně klikněte na Procházet a vyberte databázi. AutoML zapíše výsledky předpovědi do tabulky v této databázi.
Pole Název experimentu zobrazuje výchozí název. Pokud ho chcete změnit, zadejte nový název do pole.

Můžete také:

Zadejte další možnosti konfigurace.
K rozšíření původní vstupní datové sady použijte existující tabulky funkcí v úložišti funkcí.

Použití existujících tabulek funkcí z úložiště funkcí Databricks

Ve službě Databricks Runtime 11.3 LTS ML a novějších můžete pomocí tabulek funkcí v úložišti funkcí Databricks rozšířit vstupní trénovací datovou sadu pro vaše problémy klasifikace a regrese.

Ve službě Databricks Runtime 12.2 LTS ML a novějších můžete pomocí tabulek funkcí v úložišti funkcí Databricks rozšířit vstupní trénovací datovou sadu pro všechny problémy s AutoML: klasifikaci, regresi a prognózování.

Pokud chcete vytvořit tabulku funkcí, přečtěte si téma Vytvoření tabulky funkcí v katalogu Unity nebo Vytvoření tabulky funkcí v úložišti funkcí Databricks.

Po dokončení konfigurace experimentu AutoML můžete vybrat tabulku funkcí pomocí následujících kroků:

Klikněte na Připojit se k funkcím (volitelné).
Na stránce Připojit další funkce vyberte tabulku funkcí v poli Tabulka funkcí.
Pro každý primární klíč tabulky funkcí vyberte odpovídající vyhledávací klíč. Vyhledávací klíč by měl být sloupec v trénovací datové sadě, kterou jste zadali pro experiment AutoML.
U tabulek funkcí časových řad vyberte odpovídající vyhledávací klíč časového razítka. Podobně by vyhledávací klíč časového razítka měl být sloupec v trénovací datové sadě, kterou jste zadali pro experiment AutoML.
Pokud chcete přidat další tabulky funkcí, klikněte na Přidat další tabulku a opakujte výše uvedené kroky.

Pokročilé konfigurace

Otevřete oddíl Advanced Configuration (volitelné) pro přístup k těmto parametrům.

Metrika vyhodnocení je primární metrika použitá k určení skóre spuštění.
Ve službě Databricks Runtime 10.4 LTS ML a novějších můžete vyloučit z úvahy trénovací architektury. AutoML ve výchozím nastavení trénuje modely pomocí architektur uvedených v algoritmech AutoML.
Podmínky zastavení můžete upravit. Výchozí podmínky zastavení jsou:
- U předpovědí experimentů zastavte po 120 minutách.
- V Databricks Runtime 10.4 LTS ML a níže pro klasifikační a regresní experimenty zastavte po 60 minutách nebo po dokončení 200 pokusů, podle toho, co nastane dříve. Pro Databricks Runtime 11.0 ML a vyšší se počet pokusů nepoužívá jako stav zastavení.
- V Databricks Runtime 10.4 LTS ML a novějších, pro klasifikační a regresní experimenty autoML zahrnuje předčasné zastavení; zastaví trénování a ladění modelů, pokud se metrika ověřování už nelepší.
Ve službě Databricks Runtime 10.4 LTS ML a vyšší můžete vybrat časový sloupec , který rozdělí data pro trénování, ověřování a testování v chronologickém pořadí (platí pouze pro klasifikaci a regresi).
Databricks doporučuje nenaplnění pole Adresář dat. Tím se aktivuje výchozí chování, které je bezpečné uložení datové sady jako artefaktu MLflow. Je možné zadat cestu DBFS, ale v tomto případě datová sada nedědí přístupová oprávnění experimentu AutoML.

Výběr sloupce

Poznámka:

Tato funkce je dostupná pouze pro problémy klasifikace a regrese.

Ve službě Databricks Runtime 10.3 ML a vyšší můžete určit, které sloupce AutoML se mají použít pro trénování. Pokud chcete sloupec vyloučit, zrušte jeho zaškrtnutí ve sloupci Zahrnout .

Sloupec vybraný jako cíl předpovědi nebo jako časový sloupec nelze rozdělit data.

Ve výchozím nastavení jsou zahrnuty všechny sloupce.

Imputace chybějících hodnot

V Databricks Runtime 10.4 LTS ML a novějších můžete určit, jak jsou imputovány hodnoty null. V uživatelském rozhraní vyberte metodu z rozevíracího seznamu v impute se sloupcem ve schématu tabulky.

AutoML ve výchozím nastavení vybere metodu imputace na základě typu sloupce a obsahu.

Poznámka:

Pokud zadáte metodu bez výchozí imputace, AutoML neprovádí detekci sémantických typů.

Spuštění experimentu a monitorování výsledků

Chcete-li spustit experiment AutoML, klepněte na tlačítko Spustit AutoML. Experiment se spustí a zobrazí se stránka pro trénování AutoML. Pokud chcete aktualizovat tabulku spuštění, klikněte na tlačítko .

Z této stránky můžete:

Experiment můžete kdykoli zastavit.
Otevřete poznámkový blok pro zkoumání dat.
Monitorování spuštění.
Přejděte na stránku spuštění pro jakékoli spuštění.

S modulem Databricks Runtime 10.1 ML a novějším zobrazí AutoML upozornění na potenciální problémy s datovou sadou, jako jsou nepodporované typy sloupců nebo sloupce s vysokou kardinalitou.

Poznámka:

Databricks nejlépe indikuje potenciální chyby nebo problémy. Nemusí to být ale komplexní a nemusí se zaznamenávat problémy nebo chyby, pro které můžete hledat. Nezapomeňte také provést vlastní recenze.

Pokud chcete zobrazit všechna upozornění pro datovou sadu, klikněte na kartu Upozornění na stránce školení nebo na stránce experimentu po dokončení experimentu.

Upozornění AutoML

Po dokončení experimentu můžete:

Zaregistrujte a nasaďte jeden z modelů pomocí MLflow.
Pokud chcete zkontrolovat a upravit poznámkový blok, který vytvořil nejlepší model, vyberte Zobrazit poznámkový blok.
Výběrem možnosti Zobrazit poznámkový blok pro zkoumání dat otevřete poznámkový blok pro zkoumání dat.
Hledání, filtrování a řazení spuštění v tabulce spuštění
Podrobnosti o každém spuštění:
- Vygenerovaný poznámkový blok obsahující zdrojový kód pro zkušební spuštění najdete kliknutím na spuštění MLflow. Poznámkový blok se uloží v části Artefakty na stránce spuštění. Tento poznámkový blok si můžete stáhnout a importovat do pracovního prostoru, pokud správce pracovního prostoru povolí stahování artefaktů.
- Pokud chcete zobrazit výsledky spuštění, klikněte ve sloupci Modely nebo na sloupec Čas zahájení. Zobrazí se stránka spuštění zobrazující informace o zkušebním spuštění (například parametry, metriky a značky) a artefaktech vytvořených spuštěním, včetně modelu. Tato stránka obsahuje také fragmenty kódu, které můžete použít k předpovědím s modelem.

Pokud se chcete k tomuto experimentu AutoML vrátit později, najděte ho v tabulce na stránce Experimenty. Výsledky každého experimentu AutoML, včetně zkoumání dat a trénovacích poznámkových bloků, jsou uložené ve databricks_automl složce v domovské složce uživatele, který experiment spustil.

Registrace a nasazení modelu

Model můžete zaregistrovat a nasadit pomocí uživatelského rozhraní AutoML:

Vyberte odkaz ve sloupci Modely , který se má model zaregistrovat. Po dokončení běhu je nejlepším modelem (na základě primární metriky) horní řádek.
Výběrem zaregistrujete model v registru modelů.
Výběrem možnosti Modely na bočním panelu přejděte do registru modelů.
V tabulce modelu vyberte název modelu.
Na stránce zaregistrovaného modelu můžete model obsluhovat pomocí obsluhy modelů.

Žádný modul s názvem pandas.core.indexes.numeric

Při poskytování modelu vytvořeného pomocí AutoML s obsluhou modelů se může zobrazit chyba: No module named 'pandas.core.indexes.numeric.

Důvodem je nekompatibilní pandas verze mezi AutoML a modelem obsluhující prostředí koncového bodu. Tuto chybu můžete vyřešit spuštěním skriptu add-pandas-dependency.py. Skript upraví requirements.txt protokolovaný model tak conda.yaml , aby zahrnoval příslušnou pandas verzi závislostí: pandas==1.5.3

Upravte skript tak, aby zahrnoval run_id běh MLflow, ve kterém byl váš model protokolován.
Opětovná registrace modelu do registru modelů MLflow
Zkuste obsluhovat novou verzi modelu MLflow.

Trénování modelů ML pomocí uživatelského rozhraní Azure Databricks AutoML

Požadavky

Nastavení problémů s klasifikací nebo regresí

Nastavení problémů s prognózou

Použití existujících tabulek funkcí z úložiště funkcí Databricks

Pokročilé konfigurace

Výběr sloupce

Imputace chybějících hodnot

Spuštění experimentu a monitorování výsledků

Registrace a nasazení modelu

Žádný modul s názvem pandas.core.indexes.numeric

Další materiály