Úvod do monitorování Databricks Lakehouse

2025-05-10

Tento článek popisuje monitorování Databricks Lakehouse. Zahrnuje výhody monitorování dat a poskytuje přehled komponent a využití monitorování Databricks Lakehouse.

Monitorování Databricks Lakehouse umožňuje monitorovat statistické vlastnosti a kvalitu dat ve všech tabulkách ve vašem účtu. Můžete ho také použít ke sledování výkonu modelů strojového učení a koncových bodů obsluhy modelů monitorováním tabulek odvozování, které obsahují vstupy a předpovědi modelu. Diagram znázorňuje tok dat prostřednictvím kanálů dat a STROJOVÉho učení v Databricks a způsob, jak můžete pomocí monitorování průběžně sledovat kvalitu dat a výkon modelu.

Přehled monitorování Databricks Lakehouse

Proč používat monitorování Databricks Lakehouse?

Pokud chcete z dat získat užitečné přehledy, musíte mít jistotu v kvalitu dat. Monitorování dat poskytuje kvantitativní míry, které vám pomůžou sledovat a potvrdit kvalitu a konzistenci dat v průběhu času. Když zjistíte změny v distribuci dat vaší tabulky nebo v odpovídajícím modelu výkonu, můžou tabulky vytvořené monitorováním Databricks Lakehouse zachytit a upozornit vás na změnu a můžou vám pomoct identifikovat příčinu.

Monitorování Databricks Lakehouse pomáhá zodpovědět otázky, jako jsou následující:

Jak vypadá integrita dat a jak se mění v průběhu času? Jaký je například podíl hodnot null nebo nula v aktuálních datech? Zvýšil se jejich počet?
Jak vypadá statistické rozdělení dat a jak se mění v průběhu času? Jaký je například 90. percentil číselného sloupce? Nebo jaký je rozdělení hodnot v kategorickém sloupci a jak se liší od včerejška?
Je mezi aktuálními daty a známou základní linií, nebo mezi po sobě jdoucími časovými úseky dat posun?
Jak vypadá statistické rozdělení nebo posun podmnožiny nebo výřezu dat?
Jak se v průběhu času mění vstupy a predikce modelu ML?
Jaký je trend výkonu modelu v průběhu času? Funguje verze modelu A lépe než verze B?

Monitorování Databricks Lakehouse navíc umožňuje řídit časové intervaly pozorování a nastavit vlastní metriky.

Požadavky

K používání monitorování Databricks Lakehouse jsou potřeba následující:

Váš pracovní prostor musí být povolený pro katalog Unity a musíte mít přístup k Databricks SQL.
Monitorování podporuje pouze tabulky Delta a tabulka musí být jedním z následujících typů tabulek: spravované tabulky, externí tabulky, zobrazení, materializovaná zobrazení nebo tabulky streamování.
Monitory vytvořené pro materializovaná zobrazení a streamovací tabulky nepodporují přírůstkové zpracování.
Nepodporují se všechny oblasti. Pokud potřebujete regionální podporu, podívejte se na sloupec monitorování Lakehouse v tabulce umělá inteligence a strojové učení.

Poznámka:

Monitorování Databricks Lakehouse používá pro úlohy bezserverové výpočetní prostředky, ale nevyžaduje povolení vašeho účtu pro bezserverové výpočetní prostředky. Informace o sledování výdajů na monitorování Lakehouse naleznete v tématu View Lakehouse Monitoring Expenses.

Jak funguje monitorování Lakehouse v Databricks

Pokud chcete monitorovat tabulku v Databricks, vytvoříte monitor připojený k tabulce. Pokud chcete monitorovat výkon modelu strojového učení, připojíte ho k tabulce odvozování, která obsahuje vstupy modelu a odpovídající předpovědi.

Monitorování Databricks Lakehouse poskytuje následující typy analýzy: časové řady, snímky a odvozování.

Typ profilu	Popis
Časová řada	Používejte tabulky, které obsahují datovou sadu časových řad, založenou na sloupci časové značky. Monitorování počítá metriky kvality dat v časových oknech časové řady.
Odvozování	Používá se pro tabulky, které obsahují protokol požadavků pro model. Každý řádek je požadavek se sloupci pro časové razítko , vstupy modelu, odpovídající předpověď a (volitelné) popisek základní pravdy. Monitorování porovnává metriky výkonu modelu a kvality dat v časových oknech protokolu požadavků.
Snímek	Slouží pro všechny ostatní typy tabulek. Systém monitorování vypočítá metriky kvality dat pro všechna data v tabulce. Kompletní tabulka se zpracuje při každé aktualizaci.

Tato část stručně popisuje vstupní tabulky používané monitorováním Databricks Lakehouse a tabulkami metrik, které vytváří. Diagram znázorňuje relaci mezi vstupními tabulkami, tabulkami metrik, monitorováním a řídicím panelem.

Diagram monitorování Databricks Lakehouse

Primární tabulka a směrná tabulka

Kromě tabulky, kterou chcete monitorovat, označované jako "primární tabulka", můžete volitelně zadat základní tabulku, která se má použít jako odkaz pro měření posunu, nebo změnu hodnot v průběhu času. Základní tabulka je užitečná, když máte vzorek toho, co očekáváte, že data budou vypadat. Myšlenka spočívá v tom, že posun se pak vypočítá vzhledem k očekávaným hodnotám a distribucím dat.

Základní tabulka by měla obsahovat datovou sadu, která odráží očekávanou kvalitu vstupních dat z hlediska statistických rozdělení, rozdělení jednotlivých sloupců, chybějících hodnot a dalších charakteristik. Měl by odpovídat schématu monitorované tabulky. Výjimkou je sloupec časového razítka pro tabulky používané s časovými řadami nebo inferenčními profily. Pokud v primární tabulce nebo v základní tabulce chybí sloupce, monitorování k výpočtu výstupních metrik používá heuristiku s nejlepším úsilím.

U monitorů, které používají profil snímku, by základní tabulka měla obsahovat snímek dat, ve kterých distribuce představuje přijatelný standard kvality. Například u dat distribuce známek můžete nastavit základní úroveň podle předchozí třídy, kde byly známky rovnoměrně rozděleny.

Pro monitorování, která používají profil časové řady, by základní tabulka měla obsahovat data, která představují časové intervaly, kde distribuce dat představují přijatelný standard kvality. Například u dat o počasí můžete nastavit směrný plán na týden, měsíc nebo rok, kdy byla teplota blízko očekávané normální teploty.

Pro monitory, které používají profil inferencí, je dobrou volbou pro referenční bod data, která byla použita k trénování nebo ověření modelu, který je monitorován. Tímto způsobem mohou být uživatelé upozorněni, když se data odchylují vzhledem k tomu, na co byl model natrénován a ověřen. Tato tabulka by měla obsahovat stejné sloupce funkcí jako primární tabulka a navíc by měla obsahovat stejné model_id_col sloupce, které byly zadány pro odvozovací protokol primární tabulky, aby se data agregovala konzistentně. V ideálním případě by se měla použít testovací nebo ověřovací sada použitá k vyhodnocení modelu, aby se zajistily srovnatelné metriky kvality modelu.

Tabulky metrik a řídicí panel

Monitor tabulky vytvoří dvě tabulky metrik a řídicí panel. Hodnoty metrik se počítají pro celou tabulku a pro časová okna a podmnožiny dat, jinak řečeno "řezy", které zadáte při vytváření monitoru. Kromě toho se metriky pro analýzu odvozování počítají pro každé ID modelu. Další podrobnosti o tabulkách metrik najdete v tématu Monitorování tabulek metrik.

Tabulka metrik profilu obsahuje souhrnné statistiky. Podívejte se na schéma tabulky metrik profilu.
Tabulka metrik posunu obsahuje statistiky související s posunem dat v průběhu času. Pokud je k dispozici tabulka základních hodnot, monitoruje se posun také vzhledem k základním hodnotám. Podívejte se na schéma tabulky metrik posunu.

Tabulky metrik jsou tabulky Delta a jsou uložené ve vámi zadaném schématu katalogu Unity. Tyto tabulky můžete zobrazit pomocí uživatelského rozhraní Databricks, dotazovat se na ně pomocí Databricks SQL a vytvářet na jejich základě řídicí panely a výstrahy.

Pro každé monitorování Databricks automaticky vytvoří řídicí panel, který vám pomůže vizualizovat a prezentovat výsledky monitorování. Řídicí panel je plně přizpůsobitelný. Podívejte se na řídicí panely.

Začněte používat monitorování Lakehouse na platformě Databricks.

Pokud chcete začít, podívejte se na následující články: