Co je Mosaic AutoML?
Mosaic AutoML zjednodušuje proces použití strojového učení na datové sady tím, že automaticky vyhledá nejlepší algoritmus a konfiguraci hyperparametrů za vás.
Zadejte datovou sadu a zadejte typ problému strojového učení a pak AutoML provede následující kroky:
- Vyčistí a připraví vaše data.
- Orchestruje trénování distribuovaného modelu a ladění hyperparametrů napříč několika algoritmy.
- Najde nejlepší model pomocí algoritmů pro vyhodnocení open source z knihovny scikit-learn, xgboost, LightGBM, Prorok a ARIMA.
- Zobrazí výsledky. AutoML také generuje poznámkové bloky zdrojového kódu pro každou zkušební verzi, takže můžete kód podle potřeby zkontrolovat, reprodukovat a upravit.
Začněte s experimenty AutoML prostřednictvím uživatelského rozhraní s nízkým kódem nebo rozhraním PYTHON API.
Požadavky
Databricks Runtime 9.1 ML nebo novější Pro obecnou verzi (GA) databricks Runtime 10.4 LTS ML nebo vyšší.
- Pro prognózování časových řad databricks Runtime 10.0 ML nebo vyšší.
- S modulem Databricks Runtime 9.1 LTS ML a novějším závisí AutoML na
databricks-automl-runtime
balíčku, který obsahuje komponenty, které jsou užitečné mimo AutoML, a také pomáhá zjednodušit poznámkové bloky generované trénováním AutoML.databricks-automl-runtime
je k dispozici na PyPI.
V clusteru by se neměly instalovat žádné další knihovny, které jsou předinstalované v prostředí Databricks Runtime pro Machine Learning.
- Jakékoli změny (odebrání, upgrady nebo downgrady) na stávající verze knihoven způsobí selhání spuštění kvůli nekompatibilitě.
Pokud chcete získat přístup k souborům v pracovním prostoru, musíte mít otevřené síťové porty 1017 a 1021 pro experimenty AutoML. Pokud chcete tyto porty otevřít nebo potvrdit, že jsou otevřené, zkontrolujte konfiguraci brány firewall cloudové sítě VPN a pravidla skupin zabezpečení nebo se obraťte na místního správce cloudu. Další informace o konfiguraci a nasazení pracovního prostoru najdete v tématu Vytvoření pracovního prostoru.
Použijte výpočetní prostředek s podporovaným režimem výpočetního přístupu. Ne všechny režimy výpočetního přístupu mají přístup k katalogu Unity:
Režim výpočetního přístupu Podpora AutoML Podpora katalogu Unity jeden uživatel Podporováno (musí být určeným jedním uživatelem clusteru) Podporováno Režim sdíleného přístupu Nepodporované Nepodporované Žádná sdílená izolace Podporováno Nepodporované
Algoritmy AutoML
Mosaic AutoML trénuje a vyhodnocuje modely na základě algoritmů v následující tabulce.
Poznámka:
Pro klasifikační a regresní modely jsou rozhodovací strom, náhodné doménové struktury, logistická regrese a lineární regrese s algoritmy stochastického gradientního sestupu založeny na scikit-learn.
Modely klasifikace | Regresní modely | Modely prognózování |
---|---|---|
Rozhodovací stromy | Rozhodovací stromy | Prorok |
Náhodné doménové struktury | Náhodné doménové struktury | Auto-ARIMA (k dispozici v Databricks Runtime 10.3 ML a novější.) |
Logistická regrese | Lineární regrese se stochastickým gradientním sestupem | |
XGBoost | XGBoost | |
LightGBM | LightGBM |
Generování zkušebního poznámkového bloku
AutoML generuje poznámkové bloky zdrojového kódu za zkušebními verzemi, abyste mohli kód podle potřeby zkontrolovat, reprodukovat a upravit.
V případě předpovědí experimentů se automaticky naimportují poznámkové bloky vygenerované službou AutoML do vašeho pracovního prostoru pro všechny zkušební verze experimentu.
U klasifikačních a regresních experimentů se automaticky naimportují do pracovního prostoru poznámkové bloky generované autoML pro zkoumání dat a nejlepší zkušební verze experimentu. Vygenerované poznámkové bloky pro jiné zkušební verze experimentu se ukládají jako artefakty MLflow ve službě DBFS místo automatického importu do vašeho pracovního prostoru. U všech zkušebních verzí kromě nejlepší zkušební verze notebook_path
není nastavené rozhraní notebook_url
API Pythonu TrialInfo
. Pokud tyto poznámkové bloky potřebujete použít, můžete je ručně importovat do pracovního prostoru pomocí uživatelského rozhraní experimentu databricks.automl.import_notebook
AutoML nebo rozhraní Python API.
Pokud používáte jenom poznámkový blok pro zkoumání dat nebo nejlepší zkušební poznámkový blok vygenerovaný autoML, sloupec Zdroj v uživatelském rozhraní experimentu AutoML obsahuje odkaz na vygenerovaný poznámkový blok pro nejlepší zkušební verzi.
Pokud používáte jiné vygenerované poznámkové bloky v uživatelském rozhraní experimentu AutoML, tyto poznámkové bloky se do pracovního prostoru automaticky neimportují. Poznámkové bloky najdete kliknutím na každé spuštění MLflow. Poznámkový blok IPython se uloží v části Artefakty na stránce spuštění. Tento poznámkový blok si můžete stáhnout a importovat do pracovního prostoru, pokud správce pracovního prostoru povolí stahování artefaktů.
Hodnoty shapley (SHAP) pro vysvětlení modelu
Poznámka:
V případě MLR 11.1 a novějších se grafy SHAP negenerují, pokud datová sada obsahuje datetime
sloupec.
Poznámkové bloky vytvořené regresí a klasifikací AutoML zahrnují kód pro výpočet hodnot Shapley. Hodnoty Shapley jsou založeny na teorii hry a odhadují důležitost každé funkce pro předpovědi modelu.
Poznámkové bloky AutoML počítají hodnoty Shapley pomocí balíčku SHAP. Vzhledem k tomu, že tyto výpočty jsou vysoce náročné na paměť, výpočty se ve výchozím nastavení neprovádí.
Výpočet a zobrazení hodnot Shapley:
- V poznámkovém bloku zkušební verze vygenerované službou AutoML přejděte do části Důležitost funkce.
- Nastavit
shap_enabled = True
. - Znovu spusťte poznámkový blok.