Megosztás a következőn keresztül:


Gépi tanulási modellek betanítása a Mozaik AutoML felhasználói felülettel

Ez a cikk bemutatja, hogyan taníthat be gépi tanulási modellt az AutoML és a Databricks Mozaik AI felhasználói felülete használatával. Az AutoML felhasználói felülete végigvezeti egy besorolási, regressziós vagy előrejelzési modell betanításán egy adathalmazon.

Lásd az AutoML-kísérletek követelményeit .

Az AutoML felhasználói felületének megnyitása

Az AutoML felhasználói felületének elérése:

  1. Az oldalsávon válassza az Új > AutoML-kísérlet lehetőséget.

    A Kísérletek lapon új AutoML-kísérletet is létrehozhat.

    Megjelenik az AutoML-kísérlet konfigurálása lap . Ezen a lapon konfigurálja az AutoML-folyamatot, megadva az adathalmazt, a probléma típusát, a cél- vagy címkeoszlopot az előrejelzéshez, a metrikát a kísérletfuttatások kiértékeléséhez és pontszámához, valamint a feltételek leállításához.

Besorolási vagy regressziós probléma beállítása

Az AutoML felhasználói felületén a következő lépésekkel állíthat be besorolási vagy regressziós problémát:

  1. A Compute mezőben válasszon ki egy Databricks Runtime ML-t futtató fürtöt.

  2. Az ML-problématípus legördülő menüjében válassza a Regresszió vagy a Besorolás lehetőséget. Ha egy folyamatos numerikus értéket próbál előrejelezni minden megfigyeléshez, például az éves bevételhez, válassza a regressziót. Ha minden megfigyelést egy különálló osztályhoz próbál hozzárendelni, például a jó hitelkockázatot vagy a rossz hitelkockázatot, válassza a besorolást.

  3. Az Adathalmaz csoportban válassza a Tallózás lehetőséget.

  4. Lépjen a használni kívánt táblázatra, és kattintson a Kijelölés gombra. Megjelenik a táblaséma.

    Feljegyzés

    Ha nem alapértelmezett számítási módszert ad meg, az AutoML nem végez szemantikai típusészlelést.

  5. Kattintson az Előrejelzés célmezőre . Megjelenik egy legördülő lista, amely felsorolja a sémában látható oszlopokat. Jelölje ki azt az oszlopot, amelyet a modell előre jelez.

  6. A Kísérletnév mező az alapértelmezett nevet jeleníti meg. A módosításhoz írja be az új nevet a mezőbe.

További lehetőségek:

Előrejelzési problémák beállítása

Az AutoML felhasználói felületén az alábbi lépésekkel állíthat be előrejelzési problémát:

  1. A Számítási mezőben válasszon ki egy Databricks Runtime 10.0 ML-t vagy újabb verziót futtató fürtöt.

  2. Az ML-probléma típusa legördülő menüben válassza az Előrejelzés lehetőséget.

  3. Az Adatkészlet csoportban kattintson a Tallózás gombra. Lépjen a használni kívánt táblázatra, és kattintson a Kijelölés gombra. Megjelenik a táblaséma.

  4. Kattintson az Előrejelzés célmezőre . Megjelenik egy legördülő menü, amely felsorolja a sémában látható oszlopokat. Jelölje ki azt az oszlopot, amelyet a modell előre jelez.

  5. Kattintson az Idő oszlop mezőjére. Megjelenik egy legördülő lista, amely a típus timestamp vagy datea . Jelölje ki az idősorok időszakait tartalmazó oszlopot.

  6. Többsoros előrejelzéshez válassza ki az egyes idősorokat azonosító oszlop(ok)t az Idősor-azonosítók legördülő listából. Az AutoML ezeket az oszlopokat különböző idősorokként csoportosítja, és egymástól függetlenül tanít be modelleket az egyes adatsorokhoz. Ha ezt a mezőt üresen hagyja, az AutoML feltételezi, hogy az adathalmaz egyetlen idősort tartalmaz.

  7. Az Előrejelzési horizont és a gyakoriság mezőkben adja meg azoknak a jövőbeli időszakoknak a számát, amelyekre az AutoML-nek ki kell számítania az előrejelzett értékeket. A bal oldali mezőbe írja be az előrejelezendő időszakok egész számát. A jobb oldali mezőben válassza ki az egységeket.

    Feljegyzés

    Az Auto-ARIMA használatához az idősornak rendszeres gyakorisággal kell rendelkeznie, ahol a két pont közötti intervallumnak az idősor során azonosnak kell lennie. A gyakoriságnak meg kell egyeznie az API-hívásban vagy az AutoML felhasználói felületén megadott frekvenciaegységtel. Az AutoML úgy kezeli a hiányzó időlépéseket, hogy az előző értékkel kitölti ezeket az értékeket.

  8. A Databricks Runtime 11.3 LTS ML-ben és újabb verziókban mentheti az előrejelzési eredményeket. Ehhez adjon meg egy adatbázist a Kimeneti adatbázis mezőben. Kattintson a Tallózás gombra, és válasszon ki egy adatbázist a párbeszédpanelen. Az AutoML az előrejelzési eredményeket az adatbázis egyik táblájának írja.

  9. A Kísérletnév mező az alapértelmezett nevet jeleníti meg. A módosításhoz írja be az új nevet a mezőbe.

További lehetőségek:

Meglévő funkciótáblák használata a Databricks Szolgáltatástárból

A Databricks Runtime 11.3 LTS ML és újabb verziókban a Databricks Feature Store szolgáltatástáblái segítségével bővítheti a bemeneti betanítási adatkészletet a besorolási és regressziós problémákhoz.

A Databricks Runtime 12.2 LTS ML-ben és újabb verziókban a Databricks Feature Store szolgáltatástáblái segítségével bővítheti a bemeneti betanítási adatkészletet az AutoML-problémákhoz: besoroláshoz, regresszióhoz és előrejelzéshez.

Funkciótábla létrehozásához tekintse meg a Funkciótábla létrehozása a Unity Katalógusban vagy a Szolgáltatástábla létrehozása a Databricks Szolgáltatástárban című témakört.

Az AutoML-kísérlet konfigurálása után az alábbi lépések végrehajtásával kiválaszthat egy szolgáltatástáblát:

  1. Kattintson az Illesztés szolgáltatások elemre (nem kötelező).

    A Csatlakozás funkciók gomb

  2. A További funkciók csatlakoztatása lapon válasszon ki egy funkciótáblát a Funkciótábla mezőben.

  3. Minden funkciótábla elsődleges kulcsához válassza ki a megfelelő keresési kulcsot. A keresési kulcsnak oszlopnak kell lennie az AutoML-kísérlethez megadott betanítási adatkészletben.

  4. Az idősorozat-funkciótáblák esetében válassza ki a megfelelő időbélyeg-keresési kulcsot. Hasonlóképpen, az időbélyeg-keresési kulcsnak oszlopnak kell lennie az AutoML-kísérlethez megadott betanítási adatkészletben.

    Elsődleges kulcs és keresési táblák kiválasztása

  5. További funkciótáblák hozzáadásához kattintson a Másik táblázat hozzáadása elemre, és ismételje meg a fenti lépéseket.

Speciális konfigurációk

A paraméterek eléréséhez nyissa meg a Speciális konfiguráció (nem kötelező) szakaszt.

  • A kiértékelési metrika a futtatások pontszámának elsődleges mérőszáma .
  • A Databricks Runtime 10.4 LTS ML és újabb verziókban kizárhatja a betanítási keretrendszereket. Alapértelmezés szerint az AutoML az AutoML-algoritmusok alatt felsorolt keretrendszerek használatával képez be modelleket.
  • A leállítási feltételeket szerkesztheti. Az alapértelmezett leállítási feltételek a következők:
    • Az előrejelzési kísérletekhez 120 perc után állítsa le.
    • A Databricks Runtime 10.4 LTS ML-ben és alatta a besorolási és regressziós kísérletek esetében 60 perc elteltével vagy 200 próba elvégzése után állítsa le a műveletet, attól függően, hogy melyik az első. A Databricks Runtime 11.0 ML-es és újabb verziói esetében a kísérletek száma nem áll megállási feltételként.
    • A Databricks Runtime 10.4 LTS ML és újabb verziókban a besorolási és regressziós kísérletekhez az AutoML magában foglalja a korai leállást; leállítja a modellek betanítását és finomhangolását, ha az érvényesítési metrika már nem javul.
  • A Databricks Runtime 10.4 LTS ML és újabb verziókban kiválaszthat egy időoszlopot az adatok időrendi sorrendben történő felosztásához a betanításhoz, az ellenőrzéshez és a teszteléshez (csak a besorolásra és a regresszióra vonatkozik).
  • A Databricks azt javasolja, hogy ne legyen feltöltve az Adatkönyvtár mező. Ez aktiválja az adathalmaz MLflow-összetevőként való biztonságos tárolásának alapértelmezett viselkedését. Megadható dbFS-elérési út, de ebben az esetben az adathalmaz nem örökli az AutoML-kísérlet hozzáférési engedélyeit.

A kísérlet futtatása és az eredmények monitorozása

Az AutoML-kísérlet elindításához kattintson az AutoML indítása gombra. A kísérlet elindul, és megjelenik az AutoML betanítási oldala. A futtatások táblázatának frissítéséhez kattintson Frissítés gomba gombra.

Ezen az oldalon a következőket teheti:

  • Bármikor állítsa le a kísérletet.
  • Nyissa meg az adatfeltáró jegyzetfüzetet.
  • Monitorozási futtatások.
  • Lépjen a futtatási lapra bármilyen futtatáshoz.

A Databricks Runtime 10.1 ML-es vagy újabb verziójával az AutoML figyelmeztetéseket jelenít meg az adatkészlettel kapcsolatos lehetséges problémákra, például nem támogatott oszloptípusokra vagy magas számosságú oszlopokra.

Feljegyzés

A Databricks a lehető legjobban képes jelezni a lehetséges hibákat vagy problémákat. Előfordulhat azonban, hogy ez nem átfogó, és nem feltétlenül rögzíti a keresett problémákat vagy hibákat.

Az adathalmazra vonatkozó figyelmeztetések megtekintéséhez kattintson a betanítási lap Figyelmeztetések lapjára vagy a kísérletoldalra a kísérlet befejezése után.

AutoML-figyelmeztetések

A kísérlet befejezése után a következőt teheti:

  • Regisztrálja és telepítse az egyik modellt az MLflow használatával.
  • Válassza a Legjobb modell megtekintése lehetőséget a legjobb modellt létrehozó jegyzetfüzet áttekintéséhez és szerkesztéséhez.
  • Válassza az Adatfeltáró jegyzetfüzet megtekintése lehetőséget az adatfeltárási jegyzetfüzet megnyitásához.
  • Keresés, szűrés és rendezés a futtatások táblában.
  • További információ a futtatásról:
    • A próbaverziós futtatáshoz forráskódot tartalmazó létrehozott jegyzetfüzet az MLflow-futtatásra való kattintással található. A jegyzetfüzet a futtatási lap Összetevők szakaszában lesz mentve. Letöltheti ezt a jegyzetfüzetet, és importálhatja a munkaterületre, ha a munkaterület rendszergazdái engedélyezik az összetevők letöltését.
    • A futtatási eredmények megtekintéséhez kattintson a Modellek vagy a Kezdési idő oszlopra. Megjelenik a futtatási oldal, amely a próbafuttatással kapcsolatos információkat (például paramétereket, metrikákat és címkéket) és a futtatás által létrehozott összetevőket jeleníti meg, beleértve a modellt is. Ez a lap kódrészleteket is tartalmaz, amelyekkel előrejelzéseket készíthet a modellel.

Ha később vissza szeretne térni ehhez az AutoML-kísérlethez, keresse meg a Kísérletek lap táblázatában. Az egyes AutoML-kísérletek eredményeit, beleértve az adatfeltárási és betanítási jegyzetfüzeteket, a kísérletet végrehajtó felhasználó kezdőlapjának mappájában tárolja databricks_automl a rendszer.

Modell regisztrálása és üzembe helyezése

A modell regisztrálható és üzembe helyezhető az AutoML felhasználói felületén:

  1. Kattintson a regisztrálandó modell Modell oszlopában található hivatkozásra. Amikor egy futtatás befejeződik, a felső sor a legjobb modell (az elsődleges metrika alapján).
  2. Válassza ki Modell regisztrálása gomb a modell regisztrálásához a Modellregisztrációs adatbázisban.
  3. Az oldalsávOn válassza Modellek ikonra a Modellek lehetőséget a Modellregisztrációs adatbázishoz való navigáláshoz.
  4. Válassza ki a modell nevét a modelltáblában.
  5. A regisztrált modelloldalon a modell a Modellkiszolgálóval is kiszolgálható.

Nincs "pandas.core.indexes.numeric" nevű modul

Az AutoML és a Model Service használatával készült modellek kiszolgálásakor a következő hibaüzenet jelenhet meg: No module named 'pandas.core.indexes.numeric.

Ennek oka az AutoML és a végpontkörnyezetet kiszolgáló modell közötti nem kompatibilis pandas verzió. Ezt a hibát a add-pandas-dependency.py szkript futtatásával oldhatja meg. A szkript szerkessze a requirements.txt naplózott modellt, hogy conda.yaml tartalmazza a megfelelő pandas függőségi verziót: pandas==1.5.3

  1. Módosítsa a szkriptet úgy, hogy az tartalmazza az run_id MLflow-futtatás azon részét, amelyben a modellt naplózták.
  2. A modell ismételt regisztrálása az MLflow-modell beállításjegyzékében.
  3. Próbálja meg kiszolgálni az MLflow-modell új verzióját.