Mi az AutoML?
A Databricks AutoML leegyszerűsíti a gépi tanulás alkalmazását az adathalmazokra azáltal, hogy automatikusan megtalálja a legjobb algoritmust és hiperparaméter-konfigurációt.
Adja meg az adathalmazt, és adja meg a gépi tanulási probléma típusát, majd az AutoML a következőket teszi:
- Megtisztítja és előkészíti az adatokat.
- Elosztott modell betanítását és hiperparaméter-finomhangolását vezényli több algoritmus között.
- A legjobb modellt a scikit-learn, xgboost, LightGBM, Prophet és ARIMA nyílt forráskód kiértékelési algoritmusai alapján találja meg.
- Megjeleníti az eredményeket. Az AutoML emellett forráskód-jegyzetfüzeteket is létrehoz az egyes próbaverziókhoz , így szükség szerint áttekintheti, reprodukálhatja és módosíthatja a kódot.
Ismerkedés az AutoML-kísérletekkel egy alacsony kódú felhasználói felületen vagy a Python API-val.
Követelmények
- Databricks Runtime 9.1 ML vagy újabb. Az általános rendelkezésre állási (GA) verzió esetében a Databricks Runtime 10.4 LTS ML vagy újabb verziója.
- Az idősor-előrejelzéshez a Databricks Runtime 10.0 ML vagy újabb verziója használható.
- A Databricks Runtime 9.1 LTS ML és újabb verziók esetén az AutoML a
databricks-automl-runtime
csomagtól függ, amely az AutoML-en kívül hasznos összetevőket tartalmaz, és segít leegyszerűsíteni az AutoML-betanítás által létrehozott jegyzetfüzeteket.databricks-automl-runtime
a PyPI-n érhető el.
- A Databricks Runtime for Machine Learningben előre telepített kódtárakon kívül nem lehet további kódtárakat telepíteni a fürtre.
- A meglévő kódtárverziók módosításai (eltávolítása, frissítései vagy leminősítései) kompatibilitási hibákhoz vezetnek.
- Az AutoML nem kompatibilis a megosztott hozzáférési módú fürtökkel.
- Ha a Unity Katalógust autoML-vel szeretné használni, a fürt hozzáférési módjának egyfelhasználósnak kell lennie, és Önnek kell a fürt kijelölt egyetlen felhasználójának lennie.
- A munkaterület fájljainak eléréséhez meg kell nyitnia az 1017-es és az 1021-es hálózati portot az AutoML-kísérletekhez. Ha meg szeretné nyitni ezeket a portokat, vagy ellenőrizni szeretné, hogy nyitva vannak-e, tekintse át a felhőbeli VPN-tűzfal konfigurációját és a biztonsági csoport szabályait, vagy forduljon a helyi felhő rendszergazdájához. A munkaterület konfigurációjáról és üzembe helyezéséről további információt a Munkaterület létrehozása című témakörben talál.
AutoML-algoritmusok
A Databricks AutoML az alábbi táblázatban szereplő algoritmusok alapján képez ki és értékel ki modelleket.
Feljegyzés
A besorolási és regressziós modellek esetében a döntési fa, a véletlenszerű erdők, a logisztikai regresszió és a lineáris regresszió a sztochasztikus gradiens süllyedési algoritmusokkal a scikit-learn függvényen alapul.
Besorolási modellek | Regressziós modellek | Előrejelzési modellek |
---|---|---|
Döntési fák | Döntési fák | Próféta |
Véletlenszerű erdők | Véletlenszerű erdők | Auto-ARIMA (a Databricks Runtime 10.3 ML-ben és újabb verziókban érhető el.) |
Logisztikai regresszió | Lineáris regresszió sztochasztikus gradiens süllyedéssel | |
XGBoost | XGBoost | |
LightGBM | LightGBM |
Próbaverziós jegyzetfüzet létrehozása
Az AutoML a próbaverziók mögött hozza létre a forráskód jegyzetfüzeteit, hogy szükség szerint áttekinthesse, reprodukálhassa és módosítsa a kódot.
A kísérletek előrejelzéséhez a rendszer automatikusan importálja az AutoML által létrehozott jegyzetfüzeteket a munkaterületre a kísérlet összes próbaidőszakához.
Besorolási és regressziós kísérletek esetén a rendszer automatikusan importálja az AutoML által az adatfeltáráshoz és a kísérlet legjobb próbaverziójához létrehozott jegyzetfüzeteket a munkaterületre. Az egyéb kísérletkísérletekhez létrehozott jegyzetfüzetek MLflow-összetevőkként vannak mentve a DBFS-en ahelyett, hogy automatikusan importálták volna a munkaterületre. A legjobb próbaverzión notebook_path
notebook_url
TrialInfo
kívül az összes próba esetében a Python API nincs beállítva. Ha ezeket a jegyzetfüzeteket szeretné használni, manuálisan importálhatja őket a munkaterületre az AutoML-kísérlet felhasználói felületével vagy a databricks.automl.import_notebook
Python API-val.
Ha csak az AutoML által létrehozott adatfeltáró jegyzetfüzetet vagy a legjobb próbaverziós jegyzetfüzetet használja, az AutoML-kísérlet felhasználói felületén található Forrás oszlop tartalmazza a létrehozott jegyzetfüzetre mutató hivatkozást a legjobb próbaverzióhoz.
Ha más létrehozott jegyzetfüzeteket használ az AutoML-kísérlet felhasználói felületén, a rendszer nem importálja őket automatikusan a munkaterületre. A jegyzetfüzeteket az egyes MLflow-futtatásokra kattintva találja meg. Az IPython-jegyzetfüzet a futtatási lap Összetevők szakaszában lesz mentve. Letöltheti ezt a jegyzetfüzetet, és importálhatja a munkaterületre, ha a munkaterület rendszergazdái engedélyezik az összetevők letöltését.
Shapley értékek (SHAP) a modell magyarázatához
Feljegyzés
Az MLR 11.1-es és újabb verzió esetén az SHAP-diagramok nem jönnek létre, ha az adathalmaz tartalmaz egy oszlopot datetime
.
Az AutoML-regresszió és a besorolási futtatások által létrehozott jegyzetfüzetek tartalmazzák a Shapley-értékek kiszámítására szolgáló kódot. A shapley értékek a játékelméletben alapulnak, és megbecsülik az egyes funkciók fontosságát a modell előrejelzéseiben.
Az AutoML-jegyzetfüzetek shapley értékeket számolnak ki az SHAP-csomag használatával. Mivel ezek a számítások nagy memóriaigényűek, a számítások alapértelmezés szerint nem lesznek végrehajtva.
Shapley-értékek kiszámítása és megjelenítése:
- Nyissa meg az AutoML által létrehozott próbajegyzetfüzet Szolgáltatás fontossági szakaszát.
- Beállítás
shap_enabled = True
. - Futtassa újra a jegyzetfüzetet.