Co je AutoML?
Databricks AutoML zjednodušuje proces použití strojového učení na datové sady tím, že automaticky vyhledá nejlepší algoritmus a konfiguraci hyperparametrů za vás.
Zadejte datovou sadu a zadejte typ problému strojového učení a pak AutoML provede následující kroky:
- Vyčistí a připraví vaše data.
- Orchestruje trénování distribuovaného modelu a ladění hyperparametrů napříč několika algoritmy.
- Najde nejlepší model pomocí algoritmů pro vyhodnocení open source z knihovny scikit-learn, xgboost, LightGBM, Prorok a ARIMA.
- Zobrazí výsledky. AutoML také generuje poznámkové bloky zdrojového kódu pro každou zkušební verzi, takže můžete kód podle potřeby zkontrolovat, reprodukovat a upravit.
Začněte s experimenty AutoML prostřednictvím uživatelského rozhraní s nízkým kódem nebo rozhraním PYTHON API.
Požadavky
- Databricks Runtime 9.1 ML nebo novější Pro obecnou verzi (GA) databricks Runtime 10.4 LTS ML nebo vyšší.
- Pro prognózování časových řad databricks Runtime 10.0 ML nebo vyšší.
- S modulem Databricks Runtime 9.1 LTS ML a novějším závisí AutoML na
databricks-automl-runtime
balíčku, který obsahuje komponenty, které jsou užitečné mimo AutoML, a také pomáhá zjednodušit poznámkové bloky generované trénováním AutoML.databricks-automl-runtime
je k dispozici na PyPI.
- V clusteru by se neměly instalovat žádné další knihovny, které jsou předinstalované v prostředí Databricks Runtime pro Machine Learning.
- Jakékoli změny (odebrání, upgrady nebo downgrady) na stávající verze knihoven způsobí selhání spuštění kvůli nekompatibilitě.
- AutoML není kompatibilní s clustery režimu sdíleného přístupu.
- Pokud chcete používat katalog Unity s AutoML, musí být režim přístupu ke clusteru jeden uživatel a musíte být určeným jediným uživatelem clusteru.
- Pokud chcete získat přístup k souborům v pracovním prostoru, musíte mít otevřené síťové porty 1017 a 1021 pro experimenty AutoML. Pokud chcete tyto porty otevřít nebo potvrdit, že jsou otevřené, zkontrolujte konfiguraci brány firewall cloudové sítě VPN a pravidla skupin zabezpečení nebo se obraťte na místního správce cloudu. Další informace o konfiguraci a nasazení pracovního prostoru najdete v tématu Vytvoření pracovního prostoru.
Algoritmy AutoML
Databricks AutoML trénuje a vyhodnocuje modely na základě algoritmů v následující tabulce.
Poznámka:
Pro klasifikační a regresní modely jsou rozhodovací strom, náhodné doménové struktury, logistická regrese a lineární regrese s algoritmy stochastického gradientního sestupu založeny na scikit-learn.
Modely klasifikace | Regresní modely | Modely prognózování |
---|---|---|
Rozhodovací stromy | Rozhodovací stromy | Prorok |
Náhodné doménové struktury | Náhodné doménové struktury | Auto-ARIMA (k dispozici v Databricks Runtime 10.3 ML a novější.) |
Logistická regrese | Lineární regrese se stochastickým gradientním sestupem | |
XGBoost | XGBoost | |
LightGBM | LightGBM |
Generování zkušebního poznámkového bloku
AutoML generuje poznámkové bloky zdrojového kódu za zkušebními verzemi, abyste mohli kód podle potřeby zkontrolovat, reprodukovat a upravit.
V případě předpovědí experimentů se automaticky naimportují poznámkové bloky vygenerované službou AutoML do vašeho pracovního prostoru pro všechny zkušební verze experimentu.
U klasifikačních a regresních experimentů se automaticky naimportují do pracovního prostoru poznámkové bloky generované autoML pro zkoumání dat a nejlepší zkušební verze experimentu. Vygenerované poznámkové bloky pro jiné zkušební verze experimentu se ukládají jako artefakty MLflow ve službě DBFS místo automatického importu do vašeho pracovního prostoru. U všech zkušebních verzí kromě nejlepší zkušební verze notebook_path
není nastavené rozhraní notebook_url
API Pythonu TrialInfo
. Pokud tyto poznámkové bloky potřebujete použít, můžete je ručně importovat do pracovního prostoru pomocí uživatelského rozhraní experimentu databricks.automl.import_notebook
AutoML nebo rozhraní Python API.
Pokud používáte jenom poznámkový blok pro zkoumání dat nebo nejlepší zkušební poznámkový blok vygenerovaný autoML, sloupec Zdroj v uživatelském rozhraní experimentu AutoML obsahuje odkaz na vygenerovaný poznámkový blok pro nejlepší zkušební verzi.
Pokud používáte jiné vygenerované poznámkové bloky v uživatelském rozhraní experimentu AutoML, tyto poznámkové bloky se do pracovního prostoru automaticky neimportují. Poznámkové bloky najdete kliknutím na každé spuštění MLflow. Poznámkový blok IPython se uloží v části Artefakty na stránce spuštění. Tento poznámkový blok si můžete stáhnout a importovat do pracovního prostoru, pokud správce pracovního prostoru povolí stahování artefaktů.
Hodnoty shapley (SHAP) pro vysvětlení modelu
Poznámka:
V případě MLR 11.1 a novějších se grafy SHAP negenerují, pokud datová sada obsahuje datetime
sloupec.
Poznámkové bloky vytvořené regresí a klasifikací AutoML zahrnují kód pro výpočet hodnot Shapley. Hodnoty Shapley jsou založeny na teorii hry a odhadují důležitost každé funkce pro předpovědi modelu.
Poznámkové bloky AutoML počítají hodnoty Shapley pomocí balíčku SHAP. Vzhledem k tomu, že tyto výpočty jsou vysoce náročné na paměť, výpočty se ve výchozím nastavení neprovádí.
Výpočet a zobrazení hodnot Shapley:
- V poznámkovém bloku zkušební verze vygenerované službou AutoML přejděte do části Důležitost funkce.
- Nastavit
shap_enabled = True
. - Znovu spusťte poznámkový blok.
Další kroky
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro