Bevezetés a Databricks Lakehouse monitorozásába

2025-01-22

Ez a cikk a Databricks Lakehouse monitorozását ismerteti. Ismerteti az adatok monitorozásának előnyeit, és áttekintést nyújt a Databricks Lakehouse Monitoring összetevőiről és használatáról.

A Databricks Lakehouse Monitorozás lehetővé teszi az adatok statisztikai tulajdonságainak és minőségének monitorozását a fiók összes táblájában. A gépi tanulási modellek és a modellkiszolgáló végpontok teljesítményének nyomon követésére is használható a modellbemeneteket és előrejelzéseket tartalmazó következtetési táblák monitorozásával. Az ábra bemutatja az adatok és az ml-folyamatok adatáramlását a Databricksben, valamint azt, hogy hogyan használhat monitorozást az adatminőség és a modell teljesítményének folyamatos nyomon követéséhez.

Databricks Lakehouse monitorozási áttekintés

Miért érdemes a Databricks Lakehouse Monitorozást használni?

Ahhoz, hogy hasznos megállapításokat nyerjen az adataiból, megbízhatónak kell lennie az adatok minőségében. Az adatok monitorozása mennyiségi mértékeket biztosít, amelyek segítenek nyomon követni és ellenőrizni az adatok minőségét és konzisztenciáját. Amikor változásokat észlel a táblázat adatelosztásában vagy a megfelelő modell teljesítményében, a Databricks Lakehouse Monitoring által létrehozott táblák rögzíthetik és riasztást kaphatnak a változásról, és segíthetnek az ok azonosításában.

A Databricks Lakehouse Monitor az alábbihoz hasonló kérdések megválaszolásában nyújt segítséget:

Hogyan néz ki az adatintegritás, és hogyan változik az idő múlásával? Mi például a null vagy nulla értékek aránya az aktuális adatokban, és növekedett?
Hogyan néz ki az adatok statisztikai eloszlása, és hogyan változik az idő múlásával? Mi például egy numerikus oszlop 90. percentilise? Vagy mi az értékek eloszlása egy kategorikus oszlopban, és miben különbözik a tegnapitól?
Van eltérés az aktuális adatok és az ismert alapkonfiguráció között, vagy az adatok egymást követő időablakai között?
Hogyan néz ki az adatok egy részhalmazának vagy szeletének statisztikai eloszlása vagy sodródása?
Hogyan változnak az ml-modell bemenetei és előrejelzései az idő függvényében?
Hogyan növekszik a modell teljesítménye az idő függvényében? Az A modell jobban teljesít, mint a B verzió?

A Databricks Lakehouse Monitorozás emellett lehetővé teszi a megfigyelések időrészletességének szabályozását és egyéni metrikák beállítását.

Követelmények

A következők szükségesek a Databricks Lakehouse monitorozásának használatához:

A munkaterületet engedélyezni kell a Unity Catalogban, és hozzá kell férnie a Databricks SQL-hez.
Csak a Delta-táblák támogatottak a monitorozáshoz, és a táblázatnak a következő táblázattípusok egyikének kell lennie: felügyelt táblák, külső táblák, nézetek, materializált nézetek vagy streamelési táblák.
A materializált nézeteken és streamtáblákon létrehozott monitorok nem támogatják a növekményes feldolgozást.
Nem minden régió támogatott. Regionális támogatásért tekintse meg a Lakehouse monitorozás oszlopát az AI és a gépi tanulás táblázatában.

Feljegyzés

A Databricks Lakehouse Monitor kiszolgáló nélküli számítást használ a feladatokhoz, de nem követeli meg, hogy a fiókja engedélyezve legyen a kiszolgáló nélküli számításhoz. A Lakehouse monitorozási költségeinek nyomon követéséről további információt a Lakehouse monitorozási költségeinek megtekintése című témakörben talál.

A Lakehouse monitorozásának működése a Databricks platformon

Ha a Databricksben szeretne figyelni egy táblát, hozzon létre egy, a táblához csatolt monitort. A gépi tanulási modellek teljesítményének monitorozásához csatolja a figyelőt egy következtetési táblához, amely a modell bemeneteit és a hozzájuk tartozó előrejelzéseket tartalmazza.

A Databricks Lakehouse Monitor a következő elemzési típusokat biztosítja: idősor, pillanatkép és következtetés.

Profil típusa	Leírás
Idősor	Időbélyegoszlopon alapuló idősorozat-adatkészletet tartalmazó táblákhoz használható. A monitorozás az adatminőségi metrikákat az idősor időalapú ablakai között számítja ki.
Következtetés	Olyan táblákhoz használható, amelyek egy modell kérelemnaplót tartalmaznak. Minden sor egy kérés, amely tartalmazza az időbélyeget, a modell bemeneteit, a megfelelő előrejelzést és (nem kötelező) valós címkét. A monitorozás összehasonlítja a modell teljesítményét és az adatminőségi metrikákat a kérelemnapló időalapú ablakai között.
Pillanatkép	Minden más típusú táblához használható. A monitorozás a tábla összes adatára vonatkozóan kiszámítja az adatminőségi metrikákat. A teljes táblázat minden frissítéssel feldolgozásra kerül.

Ez a szakasz röviden ismerteti a Databricks Lakehouse Monitorozás által használt bemeneti táblákat és az általa előállított metrikatáblákat. Az ábra a bemeneti táblák, a metrikatáblák, a monitor és az irányítópult közötti kapcsolatot mutatja be.

Databricks Lakehouse monitorozási diagramja

Elsődleges tábla és alap tábla

A monitorozandó táblán, az úgynevezett "elsődleges táblán" kívül, opcionálisan lehet megadni egy alaptáblát referenciaként az eltolódás vagy az értékek időbeli változásának méréséhez. A referenciatábla hasznos, ha van egy mintája arról, hogy az adatok várhatóan hogyan néznek ki. Az elképzelés az, hogy a sodródást a várt adatértékekhez és eloszlásokhoz viszonyítva számítjuk ki.

Az alaptáblának olyan adatkészletet kell tartalmaznia, amely tükrözi a bemeneti adatok várható minőségét statisztikai eloszlások, egyéni oszlopeloszlások, hiányzó értékek és egyéb jellemzők tekintetében. Ennek egyeznie kell a figyelt tábla sémájának. Kivételt képez az idősorokhoz vagy következtetési profilokhoz használt táblák időbélyegoszlopa. Ha az elsődleges táblában vagy az alaptáblában hiányoznak oszlopok, a monitorozás a lehető leghatékonyabb heurisztikus módszerekkel számítja ki a kimeneti metrikákat.

Pillanatképprofilt használó monitorok esetében az alaptáblának tartalmaznia kell azokról az adatokról készült pillanatképeket, amelyek eloszlása elfogadható minőségi szabványnak felel meg. Az osztályzatok eloszlási adatainál például az alapkonfigurációt egy korábbi osztályra állíthatjuk, ahol az osztályzatok egyenletesen voltak elosztva.

Az idősorprofilt használó monitorok esetében az alaptáblának olyan adatokat kell tartalmaznia, amelyek az időablak(ok)t jelölik, ahol az adateloszlások elfogadható minőségi szabványt képviselnek. Időjárási adatok esetén például beállíthatja az alaptervet egy hétre, hónapra vagy évre, ahol a hőmérséklet a várt normál hőmérséklethez közeli volt.

A következtetési profilt használó monitorok esetében az alapkonfiguráció szempontjából jó választás a figyelt modell betanítására vagy ellenőrzésére használt adatok. Ily módon a felhasználók riasztást kaphatnak, ha az adatok eltérnek attól, amire a modell be lett tanítva és validálva. Ennek a táblának ugyanazokat a funkcióoszlopokat kell tartalmaznia, mint az elsődleges táblának, és emellett ugyanazt a model_id_col-t is tartalmaznia kell, amelyet az elsődleges tábla Következtetésnaplójában megadtak, hogy az adatok egységesen legyenek összesítve. Ideális esetben a modell kiértékeléséhez használt tesztelési vagy érvényesítési készletet kell használni a modell összehasonlítható minőségi metrikáinak biztosítására.

Metrikatáblák és irányítópult

A táblamonitor két metrikatáblát és egy irányítópultot hoz létre. A metrikaértékek a teljes táblára, valamint a monitor létrehozásakor megadott időablakokra és adatrészkészletekre (vagy "szeletekre") lesznek kiszámítva. Emellett a következtetéselemzéshez a metrikákat az egyes modellazonosítókhoz számítjuk ki. A metrikatáblákról további információt metrikatáblák figyelésecímű témakörben talál.

A profilmetrika táblázata összefoglaló statisztikákat tartalmaz. Tekintse meg a profilmetrikák táblázati sémáját.
Az eltolódási metrikák táblázata az adatok időbeli eltérésével kapcsolatos statisztikákat tartalmaz. Alaptervtábla megadása esetén a rendszer az alapértékek alapján is figyeli az eltérést. Tekintse meg a sodródási metrikák táblázatának sémáját:.

A metrikatáblák Delta-táblák, és egy Ön által megadott Unity Catalog-sémában vannak tárolva. Ezeket a táblákat a Databricks felhasználói felületén tekintheti meg, a Databricks SQL használatával kérdezheti le őket, és ezek alapján irányítópultokat és riasztásokat hozhat létre.

A Databricks minden monitorhoz automatikusan létrehoz egy irányítópultot, amely segít a monitor eredményeinek megjelenítésében és bemutatásában. Az irányítópult teljesen testre szabható. Lásd: Irányítópultok.

A Lakehouse-monitorozás megkezdése a Databricksben

Első lépésként tekintse meg az alábbi cikkeket:

Monitor létrehozása a Databricks felhasználói felületén.
Hozzon létre egy monitort az API használatával.
Megérteni a figyelési metrikatáblákat.
A monitor irányítópultjának kezelése.
SQL-riasztások létrehozása a monitor alapján.
Egyéni metrikák létrehozása.
Végpontokat kiszolgáló egyéni modell monitorozása.
A besorolási modellek méltányosságának és elfogultságának monitorozása.
Tekintse meg a Databricks Lakehouse Monitoring API referenciaanyagát.
Példajegyzetfüzetek.