Sdílet prostřednictvím


Co je AutoML?

Databricks AutoML zjednodušuje proces použití strojového učení na datové sady tím, že automaticky vyhledá nejlepší algoritmus a konfiguraci hyperparametrů za vás.

Zadejte datovou sadu a zadejte typ problému strojového učení a pak AutoML provede následující kroky:

  1. Vyčistí a připraví vaše data.
  2. Orchestruje trénování distribuovaného modelu a ladění hyperparametrů napříč několika algoritmy.
  3. Najde nejlepší model pomocí algoritmů pro vyhodnocení open source z knihovny scikit-learn, xgboost, LightGBM, Prorok a ARIMA.
  4. Zobrazí výsledky. AutoML také generuje poznámkové bloky zdrojového kódu pro každou zkušební verzi, takže můžete kód podle potřeby zkontrolovat, reprodukovat a upravit.

Začněte s experimenty AutoML prostřednictvím uživatelského rozhraní s nízkým kódem nebo rozhraním PYTHON API.

Požadavky

  • Databricks Runtime 9.1 ML nebo novější Pro obecnou verzi (GA) databricks Runtime 10.4 LTS ML nebo vyšší.
    • Pro prognózování časových řad databricks Runtime 10.0 ML nebo vyšší.
    • S modulem Databricks Runtime 9.1 LTS ML a novějším závisí AutoML na databricks-automl-runtime balíčku, který obsahuje komponenty, které jsou užitečné mimo AutoML, a také pomáhá zjednodušit poznámkové bloky generované trénováním AutoML. databricks-automl-runtime je k dispozici na PyPI.
  • V clusteru by se neměly instalovat žádné další knihovny, které jsou předinstalované v prostředí Databricks Runtime pro Machine Learning.
    • Jakékoli změny (odebrání, upgrady nebo downgrady) na stávající verze knihoven způsobí selhání spuštění kvůli nekompatibilitě.
  • AutoML není kompatibilní s clustery režimu sdíleného přístupu.
  • Pokud chcete používat katalog Unity s AutoML, musí být režim přístupu ke clusteru jeden uživatel a musíte být určeným jediným uživatelem clusteru.
  • Pokud chcete získat přístup k souborům v pracovním prostoru, musíte mít otevřené síťové porty 1017 a 1021 pro experimenty AutoML. Pokud chcete tyto porty otevřít nebo potvrdit, že jsou otevřené, zkontrolujte konfiguraci brány firewall cloudové sítě VPN a pravidla skupin zabezpečení nebo se obraťte na místního správce cloudu. Další informace o konfiguraci a nasazení pracovního prostoru najdete v tématu Vytvoření pracovního prostoru.

Algoritmy AutoML

Databricks AutoML trénuje a vyhodnocuje modely na základě algoritmů v následující tabulce.

Poznámka:

Pro klasifikační a regresní modely jsou rozhodovací strom, náhodné doménové struktury, logistická regrese a lineární regrese s algoritmy stochastického gradientního sestupu založeny na scikit-learn.

Modely klasifikace Regresní modely Modely prognózování
Rozhodovací stromy Rozhodovací stromy Prorok
Náhodné doménové struktury Náhodné doménové struktury Auto-ARIMA (k dispozici v Databricks Runtime 10.3 ML a novější.)
Logistická regrese Lineární regrese se stochastickým gradientním sestupem
XGBoost XGBoost
LightGBM LightGBM

Generování zkušebního poznámkového bloku

AutoML generuje poznámkové bloky zdrojového kódu za zkušebními verzemi, abyste mohli kód podle potřeby zkontrolovat, reprodukovat a upravit.

V případě předpovědí experimentů se automaticky naimportují poznámkové bloky vygenerované službou AutoML do vašeho pracovního prostoru pro všechny zkušební verze experimentu.

U klasifikačních a regresních experimentů se automaticky naimportují do pracovního prostoru poznámkové bloky generované autoML pro zkoumání dat a nejlepší zkušební verze experimentu. Vygenerované poznámkové bloky pro jiné zkušební verze experimentu se ukládají jako artefakty MLflow ve službě DBFS místo automatického importu do vašeho pracovního prostoru. U všech zkušebních verzí kromě nejlepší zkušební verze notebook_path není nastavené rozhraní notebook_url API Pythonu TrialInfo . Pokud tyto poznámkové bloky potřebujete použít, můžete je ručně importovat do pracovního prostoru pomocí uživatelského rozhraní experimentu databricks.automl.import_notebook AutoML nebo rozhraní Python API.

Pokud používáte jenom poznámkový blok pro zkoumání dat nebo nejlepší zkušební poznámkový blok vygenerovaný autoML, sloupec Zdroj v uživatelském rozhraní experimentu AutoML obsahuje odkaz na vygenerovaný poznámkový blok pro nejlepší zkušební verzi.

Pokud používáte jiné vygenerované poznámkové bloky v uživatelském rozhraní experimentu AutoML, tyto poznámkové bloky se do pracovního prostoru automaticky neimportují. Poznámkové bloky najdete kliknutím na každé spuštění MLflow. Poznámkový blok IPython se uloží v části Artefakty na stránce spuštění. Tento poznámkový blok si můžete stáhnout a importovat do pracovního prostoru, pokud správce pracovního prostoru povolí stahování artefaktů.

Hodnoty shapley (SHAP) pro vysvětlení modelu

Poznámka:

V případě MLR 11.1 a novějších se grafy SHAP negenerují, pokud datová sada obsahuje datetime sloupec.

Poznámkové bloky vytvořené regresí a klasifikací AutoML zahrnují kód pro výpočet hodnot Shapley. Hodnoty Shapley jsou založeny na teorii hry a odhadují důležitost každé funkce pro předpovědi modelu.

Poznámkové bloky AutoML počítají hodnoty Shapley pomocí balíčku SHAP. Vzhledem k tomu, že tyto výpočty jsou vysoce náročné na paměť, výpočty se ve výchozím nastavení neprovádí.

Výpočet a zobrazení hodnot Shapley:

  1. V poznámkovém bloku zkušební verze vygenerované službou AutoML přejděte do části Důležitost funkce.
  2. Nastavit shap_enabled = True.
  3. Znovu spusťte poznámkový blok.

Další kroky