Sdílet prostřednictvím


Úvod do monitorování Databricks Lakehouse

Tento článek popisuje monitorování Databricks Lakehouse. Zahrnuje výhody monitorování dat a poskytuje přehled komponent a využití monitorování Databricks Lakehouse.

Monitorování Databricks Lakehouse umožňuje monitorovat statistické vlastnosti a kvalitu dat ve všech tabulkách ve vašem účtu. Můžete ho také použít ke sledování výkonu modelů strojového učení a koncových bodů obsluhy modelů monitorováním tabulek odvozování, které obsahují vstupy a předpovědi modelu. Diagram znázorňuje tok dat prostřednictvím kanálů dat a STROJOVÉho učení v Databricks a způsob, jak můžete pomocí monitorování průběžně sledovat kvalitu dat a výkon modelu.

Přehled monitorování Databricks Lakehouse

Proč používat monitorování Databricks Lakehouse?

Pokud chcete z dat získat užitečné přehledy, musíte mít jistotu v kvalitu dat. Monitorování dat poskytuje kvantitativní míry, které vám pomůžou sledovat a potvrdit kvalitu a konzistenci dat v průběhu času. Když zjistíte změny v distribuci dat vaší tabulky nebo v odpovídajícím modelu výkonu, můžou tabulky vytvořené monitorováním Databricks Lakehouse zachytit a upozornit vás na změnu a můžou vám pomoct identifikovat příčinu.

Monitorování Databricks Lakehouse pomáhá zodpovědět otázky, jako jsou následující:

  • Jak vypadá integrita dat a jak se mění v průběhu času? Jaký je například zlomek hodnot null nebo nula v aktuálních datech a zvýšil se?
  • Jak vypadá statistické rozdělení dat a jak se mění v průběhu času? Jaký je například 90. percentil číselného sloupce? Nebo jaký je rozdělení hodnot v kategorickém sloupci a jak se liší od včerejška?
  • Je mezi aktuálními daty a známým směrný plán nebo mezi po sobě jdoucími časovými okny dat posun?
  • Jak vypadá statistické rozdělení nebo posun podmnožina nebo řezu dat?
  • Jak se v průběhu času mění vstupy a predikce modelu ML?
  • Jak se model v průběhu času mění v trendu výkonu? Funguje verze modelu A lépe než verze B?

Monitorování Databricks Lakehouse navíc umožňuje řídit časové intervaly pozorování a nastavit vlastní metriky.

Požadavky

K používání monitorování Databricks Lakehouse jsou potřeba následující:

  • Váš pracovní prostor musí být povolený pro katalog Unity a musíte mít přístup k Databricks SQL.
  • Monitorování podporuje pouze tabulky Delta a tabulka musí být jedním z následujících typů tabulek: spravované tabulky, externí tabulky, zobrazení, materializovaná zobrazení nebo tabulky streamování.
  • Monitorování vytvořená přes materializovaná zobrazení a tabulky streamování nepodporují přírůstkové zpracování.
  • Nepodporují se všechny oblasti. Místní podporu najdete ve sloupci Bezserverové výpočetní prostředky pro poznámkové bloky a pracovní postupy v tabulce Funkce s omezenou regionální dostupností.

Poznámka:

Monitorování Databricks Lakehouse používá pro úlohy bezserverové výpočetní prostředky. Informace o sledování výdajů na monitorování Lakehouse naleznete v tématu View Lakehouse Monitoring Expenses.

Jak funguje monitorování Lakehouse v Databricks

Pokud chcete monitorovat tabulku v Databricks, vytvoříte monitor připojený k tabulce. Pokud chcete monitorovat výkon modelu strojového učení, připojíte ho k tabulce odvozování, která obsahuje vstupy modelu a odpovídající předpovědi.

Monitorování Databricks Lakehouse poskytuje následující typy analýzy: časové řady, snímky a odvozování.

Typ profilu Popis
Časové řady Používá se pro tabulky, které obsahují datovou sadu časových řad na základě sloupce časového razítka. Monitorování počítá metriky kvality dat v časových oknech časové řady.
Odvozování Používá se pro tabulky, které obsahují protokol požadavků pro model. Každý řádek je požadavek se sloupci pro časové razítko , vstupy modelu, odpovídající předpověď a (volitelné) popisek základní pravdy. Monitorování porovnává metriky výkonu modelu a kvality dat v časových oknech protokolu požadavků.
Snímek Slouží pro všechny ostatní typy tabulek. Monitorování vypočítá metriky kvality dat nad všemi daty v tabulce. Kompletní tabulka se zpracuje při každé aktualizaci.

Tato část stručně popisuje vstupní tabulky používané monitorováním Databricks Lakehouse a tabulkami metrik, které vytváří. Diagram znázorňuje relaci mezi vstupními tabulkami, tabulkami metrik, monitorováním a řídicím panelem.

Diagram monitorování Databricks Lakehouse

Primární tabulka a směrná tabulka

Kromě tabulky, kterou chcete monitorovat, označované jako "primární tabulka", můžete volitelně zadat základní tabulku, která se má použít jako odkaz pro měření posunu, nebo změnu hodnot v průběhu času. Základní tabulka je užitečná, když máte vzorek toho, co očekáváte, že data budou vypadat. Myšlenka spočívá v tom, že posun se pak vypočítá vzhledem k očekávaným hodnotám a distribucím dat.

Základní tabulka by měla obsahovat datovou sadu, která odráží očekávanou kvalitu vstupních dat z hlediska statistických rozdělení, rozdělení jednotlivých sloupců, chybějících hodnot a dalších charakteristik. Měl by odpovídat schématu monitorované tabulky. Výjimkou je sloupec časového razítka pro tabulky používané s časovými řadami nebo profily odvozování. Pokud v primární tabulce nebo v základní tabulce chybí sloupce, monitorování k výpočtu výstupních metrik používá heuristiku s nejlepším úsilím.

U monitorů, které používají profil snímku, by základní tabulka měla obsahovat snímek dat, ve kterých distribuce představuje přijatelný standard kvality. Například u dat distribuce známek můžete nastavit směrný plán na předchozí třídu, kde byly známky rovnoměrně distribuovány.

Pro monitorování, která používají profil časové řady, by základní tabulka měla obsahovat data, která představují časové intervaly, kde distribuce dat představují přijatelný standard kvality. Například u dat o počasí můžete nastavit směrný plán na týden, měsíc nebo rok, kdy byla teplota blízko očekávané normální teploty.

Pro monitorování, která používají profil odvozování, je dobrou volbou pro směrný plán data, která byla použita k trénování nebo ověření monitorovaného modelu. Tímto způsobem mohou být uživatelé upozorněni, když se data odchylují vzhledem k tomu, na co byl model natrénován a ověřen. Tato tabulka by měla obsahovat stejné sloupce funkcí jako primární tabulka a navíc by měla obsahovat stejné model_id_col sloupce, které byly zadány pro odvozovací protokol primární tabulky, aby se data agregovala konzistentně. V ideálním případě by se měla použít testovací nebo ověřovací sada použitá k vyhodnocení modelu, aby se zajistily srovnatelné metriky kvality modelu.

Tabulky metrik a řídicí panel

Monitorování tabulky vytvoří dvě tabulky metrik a řídicí panel. Hodnoty metrik se počítají pro celou tabulku a pro časová okna a podmnožina dat (neboli "řezy"), které zadáte při vytváření monitoru. Kromě toho se metriky pro analýzu odvozování počítají pro každé ID modelu. Další podrobnosti o tabulkách metrik najdete v tématu Monitorování tabulek metrik.

  • Tabulka metrik profilu obsahuje souhrnné statistiky. Podívejte se na schéma tabulky metrik profilu.
  • Tabulka metrik posunu obsahuje statistiky související s posunem dat v průběhu času. Pokud je k dispozici tabulka směrného plánu, monitoruje se posun také vzhledem k hodnotám směrného plánu. Podívejte se na schéma tabulky metrik posunu.

Tabulky metrik jsou tabulky Delta a jsou uložené ve vámi zadaném schématu katalogu Unity. Tyto tabulky můžete zobrazit pomocí uživatelského rozhraní Databricks, dotazovat se na ně pomocí Databricks SQL a vytvářet na jejich základě řídicí panely a výstrahy.

Pro každé monitorování Databricks automaticky vytvoří řídicí panel, který vám pomůže vizualizovat a prezentovat výsledky monitorování. Řídicí panel je plně přizpůsobitelný jako jakýkoli jiný starší řídicí panel.

Začínáme používat monitorování Lakehouse v Databricks

Pokud chcete začít, podívejte se na následující články: