Gépi tanulási modellek betanítása a Mozaik AutoML felhasználói felülettel
Ez a cikk bemutatja, hogyan taníthat be gépi tanulási modellt az AutoML és a Databricks Mozaik AI felhasználói felülete használatával. Az AutoML felhasználói felülete végigvezeti egy besorolási, regressziós vagy előrejelzési modell betanításán egy adathalmazon.
Lásd az AutoML-kísérletek követelményeit .
Az AutoML felhasználói felületének megnyitása
Az AutoML felhasználói felületének elérése:
Az oldalsávon válassza az Új > AutoML-kísérlet lehetőséget.
A Kísérletek lapon új AutoML-kísérletet is létrehozhat.
Megjelenik az AutoML-kísérlet konfigurálása lap . Ezen a lapon konfigurálja az AutoML-folyamatot, megadva az adathalmazt, a probléma típusát, a cél- vagy címkeoszlopot az előrejelzéshez, a metrikát a kísérletfuttatások kiértékeléséhez és pontszámához, valamint a feltételek leállításához.
Besorolási vagy regressziós probléma beállítása
Az AutoML felhasználói felületén a következő lépésekkel állíthat be besorolási vagy regressziós problémát:
A Compute mezőben válasszon ki egy Databricks Runtime ML-t futtató fürtöt.
Az ML-problématípus legördülő menüjében válassza a Regresszió vagy a Besorolás lehetőséget. Ha egy folyamatos numerikus értéket próbál előrejelezni minden megfigyeléshez, például az éves bevételhez, válassza a regressziót. Ha minden megfigyelést egy különálló osztályhoz próbál hozzárendelni, például a jó hitelkockázatot vagy a rossz hitelkockázatot, válassza a besorolást.
Az Adathalmaz csoportban válassza a Tallózás lehetőséget.
Lépjen a használni kívánt táblázatra, és kattintson a Kijelölés gombra. Megjelenik a táblaséma.
- A Databricks Runtime 10.3 ML és újabb verziókban megadhatja , hogy az AutoML mely oszlopokat használja a betanításhoz. Nem távolíthatja el az előrejelzési célként kijelölt oszlopot vagy az adatok felosztására kijelölt időoszlopot.
- A Databricks Runtime 10.4 LTS ML és újabb verziókban a null értékek imputálásának módját az Impute with dropdown (Impute with dropdown) lehetőség kiválasztásával adhatja meg. Alapértelmezés szerint az AutoML kiválaszt egy számítási módszert az oszloptípus és a tartalom alapján.
Feljegyzés
Ha nem alapértelmezett számítási módszert ad meg, az AutoML nem végez szemantikai típusészlelést.
Kattintson az Előrejelzés célmezőre . Megjelenik egy legördülő lista, amely felsorolja a sémában látható oszlopokat. Jelölje ki azt az oszlopot, amelyet a modell előre jelez.
A Kísérletnév mező az alapértelmezett nevet jeleníti meg. A módosításhoz írja be az új nevet a mezőbe.
További lehetőségek:
- Adjon meg további konfigurációs beállításokat.
- A Funkciótár meglévő funkciótábláinak használatával bővítse az eredeti bemeneti adatkészletet.
Előrejelzési problémák beállítása
Az AutoML felhasználói felületén az alábbi lépésekkel állíthat be előrejelzési problémát:
A Számítási mezőben válasszon ki egy Databricks Runtime 10.0 ML-t vagy újabb verziót futtató fürtöt.
Az ML-probléma típusa legördülő menüben válassza az Előrejelzés lehetőséget.
Az Adatkészlet csoportban kattintson a Tallózás gombra. Lépjen a használni kívánt táblázatra, és kattintson a Kijelölés gombra. Megjelenik a táblaséma.
Kattintson az Előrejelzés célmezőre . Megjelenik egy legördülő menü, amely felsorolja a sémában látható oszlopokat. Jelölje ki azt az oszlopot, amelyet a modell előre jelez.
Kattintson az Idő oszlop mezőjére. Megjelenik egy legördülő lista, amely a típus
timestamp
vagydate
a . Jelölje ki az idősorok időszakait tartalmazó oszlopot.Többsoros előrejelzéshez válassza ki az egyes idősorokat azonosító oszlop(ok)t az Idősor-azonosítók legördülő listából. Az AutoML ezeket az oszlopokat különböző idősorokként csoportosítja, és egymástól függetlenül tanít be modelleket az egyes adatsorokhoz. Ha ezt a mezőt üresen hagyja, az AutoML feltételezi, hogy az adathalmaz egyetlen idősort tartalmaz.
Az Előrejelzési horizont és a gyakoriság mezőkben adja meg azoknak a jövőbeli időszakoknak a számát, amelyekre az AutoML-nek ki kell számítania az előrejelzett értékeket. A bal oldali mezőbe írja be az előrejelezendő időszakok egész számát. A jobb oldali mezőben válassza ki az egységeket.
Feljegyzés
Az Auto-ARIMA használatához az idősornak rendszeres gyakorisággal kell rendelkeznie, ahol a két pont közötti intervallumnak az idősor során azonosnak kell lennie. A gyakoriságnak meg kell egyeznie az API-hívásban vagy az AutoML felhasználói felületén megadott frekvenciaegységtel. Az AutoML úgy kezeli a hiányzó időlépéseket, hogy az előző értékkel kitölti ezeket az értékeket.
A Databricks Runtime 11.3 LTS ML-ben és újabb verziókban mentheti az előrejelzési eredményeket. Ehhez adjon meg egy adatbázist a Kimeneti adatbázis mezőben. Kattintson a Tallózás gombra, és válasszon ki egy adatbázist a párbeszédpanelen. Az AutoML az előrejelzési eredményeket az adatbázis egyik táblájának írja.
A Kísérletnév mező az alapértelmezett nevet jeleníti meg. A módosításhoz írja be az új nevet a mezőbe.
További lehetőségek:
- Adjon meg további konfigurációs beállításokat.
- A Funkciótár meglévő funkciótábláinak használatával bővítse az eredeti bemeneti adatkészletet.
Meglévő funkciótáblák használata a Databricks Szolgáltatástárból
A Databricks Runtime 11.3 LTS ML és újabb verziókban a Databricks Feature Store szolgáltatástáblái segítségével bővítheti a bemeneti betanítási adatkészletet a besorolási és regressziós problémákhoz.
A Databricks Runtime 12.2 LTS ML-ben és újabb verziókban a Databricks Feature Store szolgáltatástáblái segítségével bővítheti a bemeneti betanítási adatkészletet az AutoML-problémákhoz: besoroláshoz, regresszióhoz és előrejelzéshez.
Funkciótábla létrehozásához tekintse meg a Funkciótábla létrehozása a Unity Katalógusban vagy a Szolgáltatástábla létrehozása a Databricks Szolgáltatástárban című témakört.
Az AutoML-kísérlet konfigurálása után az alábbi lépések végrehajtásával kiválaszthat egy szolgáltatástáblát:
Kattintson az Illesztés szolgáltatások elemre (nem kötelező).
A További funkciók csatlakoztatása lapon válasszon ki egy funkciótáblát a Funkciótábla mezőben.
Minden funkciótábla elsődleges kulcsához válassza ki a megfelelő keresési kulcsot. A keresési kulcsnak oszlopnak kell lennie az AutoML-kísérlethez megadott betanítási adatkészletben.
Az idősorozat-funkciótáblák esetében válassza ki a megfelelő időbélyeg-keresési kulcsot. Hasonlóképpen, az időbélyeg-keresési kulcsnak oszlopnak kell lennie az AutoML-kísérlethez megadott betanítási adatkészletben.
További funkciótáblák hozzáadásához kattintson a Másik táblázat hozzáadása elemre, és ismételje meg a fenti lépéseket.
Speciális konfigurációk
A paraméterek eléréséhez nyissa meg a Speciális konfiguráció (nem kötelező) szakaszt.
- A kiértékelési metrika a futtatások pontszámának elsődleges mérőszáma .
- A Databricks Runtime 10.4 LTS ML és újabb verziókban kizárhatja a betanítási keretrendszereket. Alapértelmezés szerint az AutoML az AutoML-algoritmusok alatt felsorolt keretrendszerek használatával képez be modelleket.
- A leállítási feltételeket szerkesztheti. Az alapértelmezett leállítási feltételek a következők:
- Az előrejelzési kísérletekhez 120 perc után állítsa le.
- A Databricks Runtime 10.4 LTS ML-ben és alatta a besorolási és regressziós kísérletek esetében 60 perc elteltével vagy 200 próba elvégzése után állítsa le a műveletet, attól függően, hogy melyik az első. A Databricks Runtime 11.0 ML-es és újabb verziói esetében a kísérletek száma nem áll megállási feltételként.
- A Databricks Runtime 10.4 LTS ML és újabb verziókban a besorolási és regressziós kísérletekhez az AutoML magában foglalja a korai leállást; leállítja a modellek betanítását és finomhangolását, ha az érvényesítési metrika már nem javul.
- A Databricks Runtime 10.4 LTS ML és újabb verziókban kiválaszthat egy időoszlopot az adatok időrendi sorrendben történő felosztásához a betanításhoz, az ellenőrzéshez és a teszteléshez (csak a besorolásra és a regresszióra vonatkozik).
- A Databricks azt javasolja, hogy ne legyen feltöltve az Adatkönyvtár mező. Ez aktiválja az adathalmaz MLflow-összetevőként való biztonságos tárolásának alapértelmezett viselkedését. Megadható dbFS-elérési út, de ebben az esetben az adathalmaz nem örökli az AutoML-kísérlet hozzáférési engedélyeit.
A kísérlet futtatása és az eredmények monitorozása
Az AutoML-kísérlet elindításához kattintson az AutoML indítása gombra. A kísérlet elindul, és megjelenik az AutoML betanítási oldala. A futtatások táblázatának frissítéséhez kattintson a gombra.
Ezen az oldalon a következőket teheti:
- Bármikor állítsa le a kísérletet.
- Nyissa meg az adatfeltáró jegyzetfüzetet.
- Monitorozási futtatások.
- Lépjen a futtatási lapra bármilyen futtatáshoz.
A Databricks Runtime 10.1 ML-es vagy újabb verziójával az AutoML figyelmeztetéseket jelenít meg az adatkészlettel kapcsolatos lehetséges problémákra, például nem támogatott oszloptípusokra vagy magas számosságú oszlopokra.
Feljegyzés
A Databricks a lehető legjobban képes jelezni a lehetséges hibákat vagy problémákat. Előfordulhat azonban, hogy ez nem átfogó, és nem feltétlenül rögzíti a keresett problémákat vagy hibákat.
Az adathalmazra vonatkozó figyelmeztetések megtekintéséhez kattintson a betanítási lap Figyelmeztetések lapjára vagy a kísérletoldalra a kísérlet befejezése után.
A kísérlet befejezése után a következőt teheti:
- Regisztrálja és telepítse az egyik modellt az MLflow használatával.
- Válassza a Legjobb modell megtekintése lehetőséget a legjobb modellt létrehozó jegyzetfüzet áttekintéséhez és szerkesztéséhez.
- Válassza az Adatfeltáró jegyzetfüzet megtekintése lehetőséget az adatfeltárási jegyzetfüzet megnyitásához.
- Keresés, szűrés és rendezés a futtatások táblában.
- További információ a futtatásról:
- A próbaverziós futtatáshoz forráskódot tartalmazó létrehozott jegyzetfüzet az MLflow-futtatásra való kattintással található. A jegyzetfüzet a futtatási lap Összetevők szakaszában lesz mentve. Letöltheti ezt a jegyzetfüzetet, és importálhatja a munkaterületre, ha a munkaterület rendszergazdái engedélyezik az összetevők letöltését.
- A futtatási eredmények megtekintéséhez kattintson a Modellek vagy a Kezdési idő oszlopra. Megjelenik a futtatási oldal, amely a próbafuttatással kapcsolatos információkat (például paramétereket, metrikákat és címkéket) és a futtatás által létrehozott összetevőket jeleníti meg, beleértve a modellt is. Ez a lap kódrészleteket is tartalmaz, amelyekkel előrejelzéseket készíthet a modellel.
Ha később vissza szeretne térni ehhez az AutoML-kísérlethez, keresse meg a Kísérletek lap táblázatában. Az egyes AutoML-kísérletek eredményeit, beleértve az adatfeltárási és betanítási jegyzetfüzeteket, a kísérletet végrehajtó felhasználó kezdőlapjának mappájában tárolja databricks_automl
a rendszer.
Modell regisztrálása és üzembe helyezése
A modell regisztrálható és üzembe helyezhető az AutoML felhasználói felületén:
- Kattintson a regisztrálandó modell Modell oszlopában található hivatkozásra. Amikor egy futtatás befejeződik, a felső sor a legjobb modell (az elsődleges metrika alapján).
- Válassza ki a modell regisztrálásához a Modellregisztrációs adatbázisban.
- Az oldalsávOn válassza a Modellek lehetőséget a Modellregisztrációs adatbázishoz való navigáláshoz.
- Válassza ki a modell nevét a modelltáblában.
- A regisztrált modelloldalon a modell a Modellkiszolgálóval is kiszolgálható.
Nincs "pandas.core.indexes.numeric" nevű modul
Az AutoML és a Model Service használatával készült modellek kiszolgálásakor a következő hibaüzenet jelenhet meg: No module named 'pandas.core.indexes.numeric
.
Ennek oka az AutoML és a végpontkörnyezetet kiszolgáló modell közötti nem kompatibilis pandas
verzió. Ezt a hibát a add-pandas-dependency.py szkript futtatásával oldhatja meg. A szkript szerkessze a requirements.txt
naplózott modellt, hogy conda.yaml
tartalmazza a megfelelő pandas
függőségi verziót: pandas==1.5.3
- Módosítsa a szkriptet úgy, hogy az tartalmazza az
run_id
MLflow-futtatás azon részét, amelyben a modellt naplózták. - A modell ismételt regisztrálása az MLflow-modell beállításjegyzékében.
- Próbálja meg kiszolgálni az MLflow-modell új verzióját.