Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
AutoML zjednodušuje proces použití strojového učení u datových sad tím, že automaticky vyhledá nejlepší algoritmus a konfiguraci hyperparametrů za vás.
Jak AutoML funguje?
Zadejte datovou sadu a zadejte typ problému strojového učení a pak AutoML provede následující kroky:
- Vyčistí a připraví vaše data.
- Orchestruje trénování distribuovaného modelu a ladění hyperparametrů napříč několika algoritmy.
- Najde nejlepší model pomocí algoritmů pro vyhodnocení open source z knihovny scikit-learn, xgboost, LightGBM, Prorok a ARIMA.
- Zobrazí výsledky. AutoML také generuje poznámkové bloky zdrojového kódu pro každou zkušební verzi, takže můžete kód podle potřeby zkontrolovat, reprodukovat a upravit.
Začněte s experimenty AutoML prostřednictvím uživatelského rozhraní s nízkým kódem pro regresi, klasifikaci, prognózování, nebo rozhraní API Pythonu .
Požadavky
Azure Databricks doporučuje databricks Runtime 10.4 LTS ML nebo novější pro obecnou dostupnost AutoML.
AutoML závisí na
databricks-automl-runtimebalíčku, který obsahuje komponenty, které jsou užitečné mimo AutoML, a také pomáhá zjednodušit poznámkové bloky generované trénováním AutoML.databricks-automl-runtimeje k dispozici na PyPI.V clusteru by se neměly instalovat žádné další knihovny, které jsou předinstalované v prostředí Databricks Runtime pro Machine Learning.
- Jakékoli změny (odebrání, upgrady nebo downgrady) na stávající verze knihoven způsobí selhání spuštění kvůli nekompatibilitě.
Pokud chcete získat přístup k souborům v pracovním prostoru, musíte mít otevřené síťové porty 1017 a 1021 pro experimenty AutoML. Pokud chcete tyto porty otevřít nebo potvrdit, že jsou otevřené, zkontrolujte konfiguraci brány firewall cloudové sítě VPN a pravidla skupin zabezpečení nebo se obraťte na místního správce cloudu. Další informace o konfiguraci a nasazení pracovního prostoru najdete v tématu Vytvoření pracovního prostoru.
Použijte výpočetní prostředek s podporovaným režimem výpočetního přístupu. Ne všechny režimy výpočetního přístupu mají přístup k katalogu Unity:
Režim výpočetního přístupu Podpora AutoML Podpora katalogu Unity Dedicated (dříve jeden uživatel) Podporováno Podporováno Standard (dříve sdílený) Nepodporované Podporováno Žádná sdílená izolace Podporováno Nepodporované
Algoritmy AutoML
AutoML trénuje a vyhodnocuje modely na základě algoritmů v následující tabulce.
Poznámka:
Pro klasifikační a regresní modely jsou rozhodovací strom, náhodné doménové struktury, logistická regrese a lineární regrese s algoritmy stochastického gradientního sestupu založeny na scikit-learn.
| Modely klasifikace | Regresní modely | Modely prognózování | Modely prognózování (bezserverové) |
|---|---|---|---|
| Rozhodovací stromy | Rozhodovací stromy | Prorok | Prorok |
| Náhodné doménové struktury | Náhodné doménové struktury | Auto-ARIMA (k dispozici v Databricks Runtime 10.3 ML a novější.) | automatické ARIMA |
| Logistická regrese | Lineární regrese se stochastickým gradientním sestupem | DeepAR | |
| XGBoost | XGBoost | ||
| LightGBM | LightGBM |
Generování zkušebního poznámkového bloku
Classic Compute AutoML generuje poznámkové bloky zdrojového kódu za zkušebními verzemi, abyste mohli kód podle potřeby zkontrolovat, reprodukovat a upravit.
V případě předpovědí experimentů se automaticky naimportují poznámkové bloky vygenerované službou AutoML do vašeho pracovního prostoru pro všechny zkušební verze experimentu.
U klasifikačních a regresních experimentů se automaticky naimportují do pracovního prostoru poznámkové bloky generované autoML pro zkoumání dat a nejlepší zkušební verze experimentu. Vygenerované poznámkové bloky pro jiné zkušební verze experimentu se ukládají jako artefakty MLflow ve službě DBFS místo automatického importu do vašeho pracovního prostoru. U všech zkušebních verzí kromě nejlepší zkušební verze nejsou nastavené notebook_path a notebook_url v rozhraní API TrialInfo Pythonu. Pokud tyto poznámkové bloky potřebujete použít, můžete je ručně importovat do pracovního prostoru pomocí uživatelského rozhraní experimentu databricks.automl.import_notebookAutoML nebo rozhraní Python API.
Pokud používáte jenom poznámkový blok pro zkoumání dat nebo nejlepší zkušební poznámkový blok vygenerovaný službou AutoML, obsahuje sloupec Zdroj v uživatelském rozhraní experimentu AutoML odkaz na vygenerovaný poznámkový blok pro nejlepší zkušební verzi.
Pokud používáte jiné vygenerované poznámkové bloky v uživatelském rozhraní experimentu AutoML, tyto poznámkové bloky se do pracovního prostoru automaticky neimportují. Poznámkové bloky najdete kliknutím na každé spuštění MLflow. Poznámkový blok IPython se uloží v části Artefakty na stránce spuštění. Tento poznámkový blok si můžete stáhnout a importovat do pracovního prostoru, pokud správce pracovního prostoru povolí stahování artefaktů.
Hodnoty Shapley (SHAP) pro vysvětlitelnost modelu
Poznámka:
V případě MLR 11.1 a novějších se grafy SHAP negenerují, pokud datová sada obsahuje sloupec datetime.
Poznámkové bloky vytvořené regresí a klasifikací AutoML zahrnují kód pro výpočet hodnot Shapley. Hodnoty Shapley jsou založeny na teorii hry a odhadují důležitost každé funkce pro předpovědi modelu.
Poznámkové bloky AutoML počítají Shapleyho hodnoty pomocí balíčku SHAP. Vzhledem k tomu, že tyto výpočty jsou vysoce náročné na paměť, výpočty se ve výchozím nastavení neprovádí.
Výpočet a zobrazení hodnot Shapley:
- V poznámkovém bloku zkušební verze vygenerované službou AutoML přejděte do části Důležitost funkce.
- Nastavte
shap_enabled = True. - Znovu spusťte poznámkový blok.