Megosztás a következőn keresztül:


Mi az AutoML?

A Databricks AutoML leegyszerűsíti a gépi tanulás alkalmazását az adathalmazokra azáltal, hogy automatikusan megtalálja a legjobb algoritmust és hiperparaméter-konfigurációt.

Adja meg az adathalmazt, és adja meg a gépi tanulási probléma típusát, majd az AutoML a következőket teszi:

  1. Megtisztítja és előkészíti az adatokat.
  2. Elosztott modell betanítását és hiperparaméter-finomhangolását vezényli több algoritmus között.
  3. A legjobb modellt a scikit-learn, xgboost, LightGBM, Prophet és ARIMA nyílt forráskód kiértékelési algoritmusai alapján találja meg.
  4. Megjeleníti az eredményeket. Az AutoML emellett forráskód-jegyzetfüzeteket is létrehoz az egyes próbaverziókhoz , így szükség szerint áttekintheti, reprodukálhatja és módosíthatja a kódot.

Ismerkedés az AutoML-kísérletekkel egy alacsony kódú felhasználói felületen vagy a Python API-val.

Követelmények

  • Databricks Runtime 9.1 ML vagy újabb. Az általános rendelkezésre állási (GA) verzió esetében a Databricks Runtime 10.4 LTS ML vagy újabb verziója.
    • Az idősor-előrejelzéshez a Databricks Runtime 10.0 ML vagy újabb verziója használható.
    • A Databricks Runtime 9.1 LTS ML és újabb verziók esetén az AutoML a databricks-automl-runtime csomagtól függ, amely az AutoML-en kívül hasznos összetevőket tartalmaz, és segít leegyszerűsíteni az AutoML-betanítás által létrehozott jegyzetfüzeteket. databricks-automl-runtimea PyPI-n érhető el.
  • A Databricks Runtime for Machine Learningben előre telepített kódtárakon kívül nem lehet további kódtárakat telepíteni a fürtre.
    • A meglévő kódtárverziók módosításai (eltávolítása, frissítései vagy leminősítései) kompatibilitási hibákhoz vezetnek.
  • Az AutoML nem kompatibilis a megosztott hozzáférési módú fürtökkel.
  • Ha a Unity Katalógust autoML-vel szeretné használni, a fürt hozzáférési módjának egyfelhasználósnak kell lennie, és Önnek kell a fürt kijelölt egyetlen felhasználójának lennie.
  • A munkaterület fájljainak eléréséhez meg kell nyitnia az 1017-es és az 1021-es hálózati portot az AutoML-kísérletekhez. Ha meg szeretné nyitni ezeket a portokat, vagy ellenőrizni szeretné, hogy nyitva vannak-e, tekintse át a felhőbeli VPN-tűzfal konfigurációját és a biztonsági csoport szabályait, vagy forduljon a helyi felhő rendszergazdájához. A munkaterület konfigurációjáról és üzembe helyezéséről további információt a Munkaterület létrehozása című témakörben talál.

AutoML-algoritmusok

A Databricks AutoML az alábbi táblázatban szereplő algoritmusok alapján képez ki és értékel ki modelleket.

Feljegyzés

A besorolási és regressziós modellek esetében a döntési fa, a véletlenszerű erdők, a logisztikai regresszió és a lineáris regresszió a sztochasztikus gradiens süllyedési algoritmusokkal a scikit-learn függvényen alapul.

Besorolási modellek Regressziós modellek Előrejelzési modellek
Döntési fák Döntési fák Próféta
Véletlenszerű erdők Véletlenszerű erdők Auto-ARIMA (a Databricks Runtime 10.3 ML-ben és újabb verziókban érhető el.)
Logisztikai regresszió Lineáris regresszió sztochasztikus gradiens süllyedéssel
XGBoost XGBoost
LightGBM LightGBM

Próbaverziós jegyzetfüzet létrehozása

Az AutoML a próbaverziók mögött hozza létre a forráskód jegyzetfüzeteit, hogy szükség szerint áttekinthesse, reprodukálhassa és módosítsa a kódot.

A kísérletek előrejelzéséhez a rendszer automatikusan importálja az AutoML által létrehozott jegyzetfüzeteket a munkaterületre a kísérlet összes próbaidőszakához.

Besorolási és regressziós kísérletek esetén a rendszer automatikusan importálja az AutoML által az adatfeltáráshoz és a kísérlet legjobb próbaverziójához létrehozott jegyzetfüzeteket a munkaterületre. Az egyéb kísérletkísérletekhez létrehozott jegyzetfüzetek MLflow-összetevőkként vannak mentve a DBFS-en ahelyett, hogy automatikusan importálták volna a munkaterületre. A legjobb próbaverzión notebook_path notebook_url TrialInfo kívül az összes próba esetében a Python API nincs beállítva. Ha ezeket a jegyzetfüzeteket szeretné használni, manuálisan importálhatja őket a munkaterületre az AutoML-kísérlet felhasználói felületével vagy a databricks.automl.import_notebook Python API-val.

Ha csak az AutoML által létrehozott adatfeltáró jegyzetfüzetet vagy a legjobb próbaverziós jegyzetfüzetet használja, az AutoML-kísérlet felhasználói felületén található Forrás oszlop tartalmazza a létrehozott jegyzetfüzetre mutató hivatkozást a legjobb próbaverzióhoz.

Ha más létrehozott jegyzetfüzeteket használ az AutoML-kísérlet felhasználói felületén, a rendszer nem importálja őket automatikusan a munkaterületre. A jegyzetfüzeteket az egyes MLflow-futtatásokra kattintva találja meg. Az IPython-jegyzetfüzet a futtatási lap Összetevők szakaszában lesz mentve. Letöltheti ezt a jegyzetfüzetet, és importálhatja a munkaterületre, ha a munkaterület rendszergazdái engedélyezik az összetevők letöltését.

Shapley értékek (SHAP) a modell magyarázatához

Feljegyzés

Az MLR 11.1-es és újabb verzió esetén az SHAP-diagramok nem jönnek létre, ha az adathalmaz tartalmaz egy oszlopot datetime .

Az AutoML-regresszió és a besorolási futtatások által létrehozott jegyzetfüzetek tartalmazzák a Shapley-értékek kiszámítására szolgáló kódot. A shapley értékek a játékelméletben alapulnak, és megbecsülik az egyes funkciók fontosságát a modell előrejelzéseiben.

Az AutoML-jegyzetfüzetek shapley értékeket számolnak ki az SHAP-csomag használatával. Mivel ezek a számítások nagy memóriaigényűek, a számítások alapértelmezés szerint nem lesznek végrehajtva.

Shapley-értékek kiszámítása és megjelenítése:

  1. Nyissa meg az AutoML által létrehozott próbajegyzetfüzet Szolgáltatás fontossági szakaszát.
  2. Beállítás shap_enabled = True.
  3. Futtassa újra a jegyzetfüzetet.

Következő lépések