Mi az AutoML?

Cikk
07/04/2024

A Databricks AutoML leegyszerűsíti a gépi tanulás alkalmazását az adathalmazokra azáltal, hogy automatikusan megtalálja a legjobb algoritmust és hiperparaméter-konfigurációt.

Adja meg az adathalmazt, és adja meg a gépi tanulási probléma típusát, majd az AutoML a következőket teszi:

Megtisztítja és előkészíti az adatokat.
Elosztott modell betanítását és hiperparaméter-finomhangolását vezényli több algoritmus között.
A legjobb modellt a scikit-learn, xgboost, LightGBM, Prophet és ARIMA nyílt forráskód kiértékelési algoritmusai alapján találja meg.
Megjeleníti az eredményeket. Az AutoML emellett forráskód-jegyzetfüzeteket is létrehoz az egyes próbaverziókhoz , így szükség szerint áttekintheti, reprodukálhatja és módosíthatja a kódot.

Ismerkedés az AutoML-kísérletekkel egy alacsony kódú felhasználói felületen vagy a Python API-val.

Követelmények

Databricks Runtime 9.1 ML vagy újabb. Az általános rendelkezésre állási (GA) verzió esetében a Databricks Runtime 10.4 LTS ML vagy újabb verziója.
- Az idősor-előrejelzéshez a Databricks Runtime 10.0 ML vagy újabb verziója használható.
- A Databricks Runtime 9.1 LTS ML és újabb verziók esetén az AutoML a databricks-automl-runtime csomagtól függ, amely az AutoML-en kívül hasznos összetevőket tartalmaz, és segít leegyszerűsíteni az AutoML-betanítás által létrehozott jegyzetfüzeteket. databricks-automl-runtimea PyPI-n érhető el.
A Databricks Runtime for Machine Learningben előre telepített kódtárakon kívül nem lehet további kódtárakat telepíteni a fürtre.
- A meglévő kódtárverziók módosításai (eltávolítása, frissítései vagy leminősítései) kompatibilitási hibákhoz vezetnek.
Az AutoML nem kompatibilis a megosztott hozzáférési módú fürtökkel.
Ha a Unity Katalógust autoML-vel szeretné használni, a fürt hozzáférési módjának egyfelhasználósnak kell lennie, és Önnek kell a fürt kijelölt egyetlen felhasználójának lennie.
A munkaterület fájljainak eléréséhez meg kell nyitnia az 1017-es és az 1021-es hálózati portot az AutoML-kísérletekhez. Ha meg szeretné nyitni ezeket a portokat, vagy ellenőrizni szeretné, hogy nyitva vannak-e, tekintse át a felhőbeli VPN-tűzfal konfigurációját és a biztonsági csoport szabályait, vagy forduljon a helyi felhő rendszergazdájához. A munkaterület konfigurációjáról és üzembe helyezéséről további információt a Munkaterület létrehozása című témakörben talál.

AutoML-algoritmusok

A Databricks AutoML az alábbi táblázatban szereplő algoritmusok alapján képez ki és értékel ki modelleket.

Feljegyzés

A besorolási és regressziós modellek esetében a döntési fa, a véletlenszerű erdők, a logisztikai regresszió és a lineáris regresszió a sztochasztikus gradiens süllyedési algoritmusokkal a scikit-learn függvényen alapul.

Besorolási modellek	Regressziós modellek	Előrejelzési modellek
Döntési fák	Döntési fák	Próféta
Véletlenszerű erdők	Véletlenszerű erdők	Auto-ARIMA (a Databricks Runtime 10.3 ML-ben és újabb verziókban érhető el.)
Logisztikai regresszió	Lineáris regresszió sztochasztikus gradiens süllyedéssel
XGBoost	XGBoost
LightGBM	LightGBM

Próbaverziós jegyzetfüzet létrehozása

Az AutoML a próbaverziók mögött hozza létre a forráskód jegyzetfüzeteit, hogy szükség szerint áttekinthesse, reprodukálhassa és módosítsa a kódot.

A kísérletek előrejelzéséhez a rendszer automatikusan importálja az AutoML által létrehozott jegyzetfüzeteket a munkaterületre a kísérlet összes próbaidőszakához.

Besorolási és regressziós kísérletek esetén a rendszer automatikusan importálja az AutoML által az adatfeltáráshoz és a kísérlet legjobb próbaverziójához létrehozott jegyzetfüzeteket a munkaterületre. Az egyéb kísérletkísérletekhez létrehozott jegyzetfüzetek MLflow-összetevőkként vannak mentve a DBFS-en ahelyett, hogy automatikusan importálták volna a munkaterületre. A legjobb próbaverzión notebook_path notebook_url TrialInfo kívül az összes próba esetében a Python API nincs beállítva. Ha ezeket a jegyzetfüzeteket szeretné használni, manuálisan importálhatja őket a munkaterületre az AutoML-kísérlet felhasználói felületével vagy a databricks.automl.import_notebook Python API-val.

Ha csak az AutoML által létrehozott adatfeltáró jegyzetfüzetet vagy a legjobb próbaverziós jegyzetfüzetet használja, az AutoML-kísérlet felhasználói felületén található Forrás oszlop tartalmazza a létrehozott jegyzetfüzetre mutató hivatkozást a legjobb próbaverzióhoz.

Ha más létrehozott jegyzetfüzeteket használ az AutoML-kísérlet felhasználói felületén, a rendszer nem importálja őket automatikusan a munkaterületre. A jegyzetfüzeteket az egyes MLflow-futtatásokra kattintva találja meg. Az IPython-jegyzetfüzet a futtatási lap Összetevők szakaszában lesz mentve. Letöltheti ezt a jegyzetfüzetet, és importálhatja a munkaterületre, ha a munkaterület rendszergazdái engedélyezik az összetevők letöltését.

Shapley értékek (SHAP) a modell magyarázatához

Feljegyzés

Az MLR 11.1-es és újabb verzió esetén az SHAP-diagramok nem jönnek létre, ha az adathalmaz tartalmaz egy oszlopot datetime .

Az AutoML-regresszió és a besorolási futtatások által létrehozott jegyzetfüzetek tartalmazzák a Shapley-értékek kiszámítására szolgáló kódot. A shapley értékek a játékelméletben alapulnak, és megbecsülik az egyes funkciók fontosságát a modell előrejelzéseiben.

Az AutoML-jegyzetfüzetek shapley értékeket számolnak ki az SHAP-csomag használatával. Mivel ezek a számítások nagy memóriaigényűek, a számítások alapértelmezés szerint nem lesznek végrehajtva.

Shapley-értékek kiszámítása és megjelenítése:

Nyissa meg az AutoML által létrehozott próbajegyzetfüzet Szolgáltatás fontossági szakaszát.
Beállítás shap_enabled = True.
Futtassa újra a jegyzetfüzetet.

Megosztás a következőn keresztül:

Mi az AutoML?

Követelmények

AutoML-algoritmusok

Próbaverziós jegyzetfüzet létrehozása

Shapley értékek (SHAP) a modell magyarázatához

Következő lépések

Visszajelzés

További források