Bevezetés a Databricks Lakehouse monitorozásába
Ez a cikk a Databricks Lakehouse monitorozását ismerteti. Ismerteti az adatok monitorozásának előnyeit, és áttekintést nyújt a Databricks Lakehouse Monitoring összetevőiről és használatáról.
A Databricks Lakehouse Monitorozás lehetővé teszi az adatok statisztikai tulajdonságainak és minőségének monitorozását a fiók összes táblájában. A gépi tanulási modellek és a modellkiszolgáló végpontok teljesítményének nyomon követésére is használható a modellbemeneteket és előrejelzéseket tartalmazó következtetési táblák monitorozásával. Az ábra bemutatja az adatok és az ml-folyamatok adatáramlását a Databricksben, valamint azt, hogy hogyan használhat monitorozást az adatminőség és a modell teljesítményének folyamatos nyomon követéséhez.
Miért érdemes a Databricks Lakehouse Monitorozást használni?
Ahhoz, hogy hasznos megállapításokat nyerjen az adataiból, megbízhatónak kell lennie az adatok minőségében. Az adatok monitorozása mennyiségi mértékeket biztosít, amelyek segítenek nyomon követni és ellenőrizni az adatok minőségét és konzisztenciáját. Amikor változásokat észlel a táblázat adatelosztásában vagy a megfelelő modell teljesítményében, a Databricks Lakehouse Monitoring által létrehozott táblák rögzíthetik és riasztást kaphatnak a változásról, és segíthetnek az ok azonosításában.
A Databricks Lakehouse Monitor az alábbihoz hasonló kérdések megválaszolásában nyújt segítséget:
- Hogyan néz ki az adatintegritás, és hogyan változik az idő múlásával? Mi például a null vagy nulla értékek aránya az aktuális adatokban, és növekedett?
- Hogyan néz ki az adatok statisztikai eloszlása, és hogyan változik az idő múlásával? Mi például egy numerikus oszlop 90. percentilise? Vagy mi az értékek eloszlása egy kategorikus oszlopban, és miben különbözik a tegnapitól?
- Van eltérés az aktuális adatok és az ismert alapkonfiguráció között, vagy az adatok egymást követő időablakai között?
- Hogyan néz ki az adatok egy részhalmazának vagy szeletének statisztikai eloszlása vagy sodródása?
- Hogyan változnak az ml-modell bemenetei és előrejelzései az idő függvényében?
- Hogyan növekszik a modell teljesítménye az idő függvényében? Az A modell jobban teljesít, mint a B verzió?
A Databricks Lakehouse Monitorozás emellett lehetővé teszi a megfigyelések időrészletességének szabályozását és egyéni metrikák beállítását.
Követelmények
A Databricks Lakehouse Monitorozás használatához a következők szükségesek:
- A munkaterületet engedélyezni kell a Unity Catalogban, és hozzá kell férnie a Databricks SQL-hez.
- Csak a Delta-táblák támogatottak a monitorozáshoz, és a táblázatnak a következő táblázattípusok egyikének kell lennie: felügyelt táblák, külső táblák, nézetek, materializált nézetek vagy streamelési táblák.
- A materializált nézeteken és streamtáblákon létrehozott monitorok nem támogatják a növekményes feldolgozást.
- Nem minden régió támogatott. Regionális támogatásért tekintse meg a kiszolgáló nélküli számítás oszlopot a korlátozott regionális rendelkezésre állású szolgáltatások táblában található jegyzetfüzetekhez és munkafolyamatokhoz.
Feljegyzés
A Databricks Lakehouse Monitor kiszolgáló nélküli számítást használ a feladatokhoz. A Lakehouse monitorozási költségeinek nyomon követéséről további információt a Lakehouse monitorozási költségeinek megtekintése című témakörben talál.
A Lakehouse Monitorozás működése a Databricksen
Ha a Databricksben szeretne figyelni egy táblát, hozzon létre egy, a táblához csatolt monitort. A gépi tanulási modellek teljesítményének monitorozásához csatolja a figyelőt egy következtetési táblához, amely a modell bemeneteit és a hozzájuk tartozó előrejelzéseket tartalmazza.
A Databricks Lakehouse Monitor a következő elemzési típusokat biztosítja: idősor, pillanatkép és következtetés.
Profil típusa | Leírás |
---|---|
Idősor | Időbélyegoszlopon alapuló idősorozat-adatkészletet tartalmazó táblákhoz használható. A monitorozás az adatminőségi metrikákat az idősor időalapú ablakai között számítja ki. |
Következtetés | Olyan táblákhoz használható, amelyek egy modell kérelemnaplót tartalmaznak. Minden sor egy kérés, az időbélyeg oszlopaival, a modell bemeneteivel, a megfelelő előrejelzéssel és (nem kötelező) alapigaz címkével. A monitorozás összehasonlítja a modell teljesítményét és az adatminőségi metrikákat a kérelemnapló időalapú ablakai között. |
Pillanatkép | Minden más típusú táblához használható. A monitorozás a tábla összes adatára vonatkozóan kiszámítja az adatminőségi metrikákat. A teljes táblázat minden frissítéssel feldolgozásra kerül. |
Ez a szakasz röviden ismerteti a Databricks Lakehouse Monitorozás által használt bemeneti táblákat és az általa előállított metrikatáblákat. Az ábra a bemeneti táblák, a metrikatáblák, a monitor és az irányítópult közötti kapcsolatot mutatja be.
Elsődleges tábla és alapkonfigurációs tábla
A monitorozandó tábla mellett az úgynevezett "elsődleges tábla" is megadhat egy alaptáblát, amelyet referenciaként használhat az eltolódás méréséhez, vagy az értékek időbeli változásához. Az alaptervtáblák akkor hasznosak, ha mintát ad arról, hogy az adatok hogyan néznek ki. Az elképzelés az, hogy a sodródást a várt adatértékekhez és eloszlásokhoz viszonyítva számítjuk ki.
Az alaptáblának olyan adatkészletet kell tartalmaznia, amely tükrözi a bemeneti adatok várható minőségét statisztikai eloszlások, egyéni oszlopeloszlások, hiányzó értékek és egyéb jellemzők tekintetében. Ennek egyeznie kell a figyelt tábla sémájának. Kivételt képez az idősorokhoz vagy következtetési profilokhoz használt táblák időbélyegoszlopa. Ha az elsődleges táblában vagy az alaptáblában hiányoznak oszlopok, a monitorozás a lehető leghatékonyabb heurisztikus módszerekkel számítja ki a kimeneti metrikákat.
Pillanatképprofilt használó monitorok esetében az alaptáblának tartalmaznia kell azokról az adatokról készült pillanatképeket, amelyek eloszlása elfogadható minőségi szabványnak felel meg. Az osztályzatok eloszlási adatainál például az alapkonfigurációt egy korábbi osztályra állíthatjuk, ahol az osztályzatok egyenletesen voltak elosztva.
Az idősorprofilt használó monitorok esetében az alaptáblának olyan adatokat kell tartalmaznia, amelyek az időablak(ok)t jelölik, ahol az adateloszlások elfogadható minőségi szabványt képviselnek. Időjárási adatok esetén például beállíthatja az alaptervet egy hétre, hónapra vagy évre, ahol a hőmérséklet a várt normál hőmérséklethez közeli volt.
A következtetési profilt használó monitorok esetében az alapkonfiguráció szempontjából jó választás a figyelt modell betanítására vagy ellenőrzésére használt adatok. Ily módon a felhasználók riasztást kaphatnak, ha az adatok a modell betanítása és ellenőrzése alapján sodródtak. Ennek a táblának ugyanazokat a funkcióoszlopokat kell tartalmaznia, mint az elsődleges tábla, és az elsődleges tábla Következtetésnaplójában megadottaknak is meg model_id_col
kell egyezniük, hogy az adatok egységesen legyenek összesítve. Ideális esetben a modell kiértékeléséhez használt tesztelési vagy érvényesítési készletet kell használni a modell összehasonlítható minőségi metrikáinak biztosítására.
Metrikatáblák és irányítópult
A táblamonitor két metrikatáblát és egy irányítópultot hoz létre. A metrikaértékek a teljes táblára, valamint a monitor létrehozásakor megadott időablakokra és adatrészkészletekre (vagy "szeletekre") lesznek kiszámítva. Emellett a következtetéselemzéshez a metrikákat az egyes modellazonosítókhoz számítjuk ki. A metrikatáblákról további információt a metrikatáblák figyelése című témakörben talál.
- A profilmetrika táblázata összefoglaló statisztikákat tartalmaz. Tekintse meg a profilmetrikák táblázatsémát.
- Az eltolódási metrikák táblázata az adatok időbeli eltérésével kapcsolatos statisztikákat tartalmaz. Alaptervtábla megadása esetén a rendszer az alapértékek alapján is figyeli az eltérést. Tekintse meg az eltérési metrikák táblázatsémát.
A metrikatáblák Delta-táblák, és egy Ön által megadott Unity Catalog-sémában vannak tárolva. Ezeket a táblákat a Databricks felhasználói felületén tekintheti meg, a Databricks SQL használatával kérdezheti le őket, és ezek alapján irányítópultokat és riasztásokat hozhat létre.
A Databricks minden monitorhoz automatikusan létrehoz egy irányítópultot, amely segít a monitor eredményeinek megjelenítésében és megjelenítésében. Az irányítópult teljesen testre szabható, mint bármely más örökölt irányítópult.
A Lakehouse Monitorozás használatának megkezdése a Databricksen
Első lépésként tekintse meg az alábbi cikkeket:
- Monitor létrehozása a Databricks felhasználói felületén.
- Hozzon létre egy monitort az API használatával.
- A metrikatáblák monitorozásának ismertetése.
- A monitor irányítópultjának kezelése.
- SQL-riasztások létrehozása monitor alapján.
- Egyéni metrikák létrehozása.
- Végpontokat kiszolgáló modell figyelése.
- A besorolási modellek méltányosságának és elfogultságának monitorozása.
- Tekintse meg a Databricks Lakehouse Monitoring API referenciaanyagát.
- Példajegyzetfüzetek.