Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Důležité
Tato funkce je v beta verzi.
Tato stránka popisuje, co je detekce anomálií, co monitoruje a jak ji používat.
Důležité
Detekce anomálií používá výchozí úložiště.
Co je detekce anomálií?
Pomocí detekce anomálií můžete snadno monitorovat kvalitu dat všech tabulek ve schématu. Databricks využívá inteligentní data tím, že se dívá na historické vzory k automatickému vyhodnocení kvality dat, konkrétně vyhodnocení úplnosti a aktuálnosti každé tabulky. Vlastníci dat mají přístup k tabulce protokolování, která jim umožňuje rychle identifikovat a řešit anomálie v celém metastoru. Výsledky na úrovni katalogu, schématu a tabulky jsou k dispozici v Průzkumníku katalogu nebo centru zásad správného řízení (Private Preview).
Požadavky
- Pracovní prostor s aktivovaným katalogem Unity
- Stávající uživatelé potřebují mít povolené bezserverové výpočty. Pokyny najdete v tématu Připojení k výpočetním prostředkům bez serveru.
- Pokud chcete povolit detekci anomálií ve schématu, musíte mít oprávnění SPRAVOVAT SCHEMA nebo SPRAVOVAT CATALOG ve schématu katalogu.
Jak funguje detekce anomálií?
Databricks vytvoří úlohu na pozadí, která monitoruje aktuálnost a úplnost tabulek. Databricks používá inteligentní kontrolu k určení, kdy prohledávat tabulky.
Inteligentní prohledávání automaticky zarovná frekvenci skenování s četností aktualizací tabulek a zajišťuje, aby přehledy zůstaly aktuální bez ručního plánování. Systém upřednostňuje tabulky s vysokým dopadem podle oblíbenosti a podřízeného využití, zatímco prohledávání méně kritických tabulek méně často nebo je úplně přeskočí.
aktuálnost označuje, jak nedávno byla tabulka aktualizována. Monitorování kvality dat analyzuje historii potvrzení do tabulky a sestaví model pro jednotlivé tabulky, aby předpověděl čas dalšího potvrzení. Pokud dojde k neobvykle opožděnému commitu, tabulka se označí jako zastaralá.
úplnost odkazuje na počet řádků, které se mají zapsat do tabulky za posledních 24 hodin. Monitorování kvality dat analyzuje historický počet řádků a na základě těchto dat předpovídá rozsah očekávaných řádků. Pokud je počet řádků potvrzených za posledních 24 hodin menší než dolní mez tohoto rozmezí, tabulka se označí jako neúplná.
Poznámka:
Aktuálnost událostí, která je založená na sloupcích času událostí a latenci příjmu dat, byla k dispozici pouze uživatelům beta verze monitorování kvality dat. V aktuální verzi se aktuálnost událostí nepodporuje.
Detekce anomálií neupravuje žádné tabulky, které monitoruje, ani nepřidá režijní náklady na úlohy, které tyto tabulky naplní.
Povolení detekce anomálií ve schématu
Pokud chcete povolit detekci anomálií ve schématu, přejděte do schématu v katalogu Unity.
Na stránce schématu klikněte na kartu Podrobnosti.
Klikněte na Povolit. V dialogovém okně Monitorování kvality dat klikněte na Uložit.
Spustí se kontrola. Databricks automaticky prohledává každou tabulku se stejnou frekvencí, jakou aktualizuje, a poskytuje up-topřehledy kalendářních dat bez nutnosti ruční konfigurace pro každou tabulku. Pro schémata povolená před 24. zářím 2025 spustila Databricks monitorování historických dat (backtesting) při první kontrole, aby zkontrolovala kvalitu tabulek, jako kdyby bylo monitorování kvality dat ve schématu povolené před dvěma týdny.
Po dokončení kontroly se zjištěné problémy s kvalitou zaprotokolují do tabulky výstupního systému s přehledy vyplněnými v uživatelském rozhraní. Podrobnosti najdete v tématu Kontrola výsledků protokolování detekce anomálií. K uživatelskému rozhraní můžete kdykoli přistupovat kliknutím na Zobrazit výsledky vedle přepínače Monitorování kvality dat .
Zakázání detekce anomálií
Zakázání detekce anomálií:
Klikněte na ikonu tužky.
V dialogovém okně Monitorování kvality dat klikněte na přepínač.
Důležité
Když zakážete detekci anomálií, odstraní se úloha detekce anomálií a všechny tabulky a informace detekce anomálií. Tuto akci nelze vrátit zpět.
Klikněte na Uložit.
Uživatelské rozhraní pro monitorování kvality dat
Důležité
7. října 2025 společnost Databricks vydala novou verzi monitorování kvality dat. Schémata povolená pro monitorování kvality dat v daném datu nebo po tomto datu mají nové uživatelské rozhraní výsledků.
Informace o novém uživatelském rozhraní najdete v tématu Zobrazení výsledků monitorování kvality dat v uživatelském rozhraní.
Informace o starším uživatelském rozhraní najdete v tématu Řídicí panel kvality dat (starší verze).
Databricks doporučuje povolit novou verzi pro všechna existující schémata. Starší verze řídicího panelu z beta verze se už nebude aktualizovat.
Pokud chcete povolit novou verzi, pomocí přepínače Monitorování kvality dat tuto funkci zakažte a pak ji znovu povolte.
Zobrazení výsledků monitorování kvality dat v uživatelském rozhraní
Po povolení monitorování kvality dat ve schématu můžete stránku výsledků otevřít kliknutím na Zobrazit výsledky. K výsledkům můžete přistupovat také ze všech schémat, která mají povolené monitorování v Průzkumníku katalogu.
Uživatelské rozhraní výsledků obsahuje rozevírací seznamy katalogu a schématu. Při výběru katalogu se rozevírací seznam schémat naplní schématy v katalogu, které mají povolené monitorování kvality dat.
Pokud máte v katalogu oprávnění SPRAVOVAT nebo SELECT na úrovni katalogu, můžete zobrazit incidenty na úrovni katalogu. Pokud chcete zobrazit všechny incidenty v katalogu, v rozevírací nabídce Schéma vyberte Všechna schémata.
Pokud chcete zobrazit incidenty pro konkrétní schéma, musíte mít u tohoto schématu oprávnění MANAGE nebo SELECT. Výběrem schématu se pak zobrazí incidenty pouze pro toto schéma.
Uživatelské rozhraní má dvě hlavní části:
- Souhrnná část: Zobrazuje celkovou kvalitu dat pro vybraný obor, včetně procenta tabulek, které jsou v pořádku, a procento aktuálně monitorovaných schémat a tabulek.
- Část Incident: Vypíše incidenty napříč všemi monitorovanými tabulkami ve vybraném oboru. Incidenty můžete filtrovat na základě důležitých tabulek určených pomocí analýzy dopadu na následné procesy.
Každý záznam incidentu obsahuje následující podrobnosti:
- Důvod: Zda je tabulka nevyhovující kvůli aktuálnosti nebo úplnosti.
- Od: Časové razítko, kdy byl zjištěn první incident.
- Dopad: Kvalitativní míra dopadu na podřízené položky (Vysoká, Střední nebo Nízká) na základě počtu ovlivněných podřízených tabulek a dotazů.
- Původní příčina: Informace o upstreamových úlohách přispívajících k problému (podrobnosti najdete v tématu Kontrola výsledků protokolování detekce anomálií ).
- Revize: Odkaz na stránku kvality tabulky , kde můžete zobrazit historické trendy a vizualizace vysvětlující, proč byla zjištěna anomálie.
Podrobnosti o kvalitě tabulky
Uživatelské rozhraní Podrobností o kvalitě tabulky umožňuje hlouběji prozkoumat trendy a pochopit, proč byly zjištěny anomálie pro konkrétní tabulky ve vašem schématu. K tomuto zobrazení se dostanete několika způsoby:
- V uživatelském rozhraní výsledků (nové prostředí) kliknutím na odkaz pro kontrolu v seznamu incidentů.
- Na monitorovacím řídicím panelu (starší řídicí panel Lakeview) klikněte na název tabulky na kartě Přehled kvality.
- V prohlížeči tabulky UC přejděte na kartu Kvalita na stránce tabulky.
Všechny možnosti vás převezmou do stejného zobrazení Podrobností o kvalitě tabulky pro vybranou tabulku.
V uživatelském rozhraní se u tabulky zobrazují souhrny z každé kontroly kvality, spolu s grafy predikovaných a pozorovaných hodnot v každém okamžiku vyhodnocení. Grafy vykreslují výsledky z posledních 1 týdnů dat.
Pokud tabulka neprošla kontrolou kvality, zobrazí uživatelské rozhraní také všechny nadřazené úlohy, které byly identifikovány jako původní příčina.
Nastavení výstrah
Pokud chcete nakonfigurovat upozornění SQL Databricks na výstupní tabulku výsledků, přečtěte si téma Nastavení upozornění na základě detekce anomálií.
Omezení
Detekce anomálií nepodporuje následující:
- Zobrazení nebo materializovaná zobrazení
- Určení úplnosti nebere v úvahu metriky, jako je zlomek hodnot null, nulových hodnot nebo naN.
Řídicí panel kvality dat (starší verze)
Poznámka:
Řídicí panel monitorování kvality dat byl k dispozici pouze starším uživatelům. V aktuální verzi použijte zobrazení výsledků monitorování kvality dat v uživatelském rozhraní.
První spuštění monitorování kvality dat vytvoří řídicí panel pro shrnutí výsledků a trendů odvozených z tabulky protokolování. Řídicí panel se automaticky naplní přehledy pro naskenované schéma. V této cestě se vytvoří jeden řídicí panel pro každý pracovní prostor: /Shared/Databricks Quality Monitoring/Data Quality Monitoring.
Přehled kvality
Karta Přehled kvality zobrazuje souhrn nejnovějšího stavu kvality tabulek ve schématu na základě nejnovějšího vyhodnocení.
Abyste mohli začít, musíte zadat tabulku protokolování pro schéma, které chcete analyzovat, a naplnit řídicí panel.
V horní části řídicího panelu se zobrazí přehled výsledků kontroly.
Pod souhrnem je tabulka se seznamem incidentů kvality podle dopadu. Ve sloupci root_cause_analysis se zobrazí všechny identifikované původní příčiny.
Pod tabulkou incidentů kvality je tabulka identifikovaných statických tabulek, které se dlouho neaktualizovaly.
Nastavení parametrů pro vyhodnocení aktuálnosti a úplnosti (starší verze)
Poznámka:
Od 21. července 2025 se pro nové zákazníky nepodporuje konfigurace parametrů úlohy. Pokud potřebujete nakonfigurovat nastavení úlohy, obraťte se na Databricks.
Chcete-li upravit parametry, které řídí úlohu, například četnost spuštění úlohy nebo název tabulky výsledků protokolu, musíte upravit parametry úlohy na kartě Úkoly na stránce úlohy.
Následující části popisují konkrétní nastavení. Informace o nastavení parametrů úlohy naleznete v tématu Konfigurace parametrů úkolu.
Plánování a oznámení (starší verze)
Pokud chcete přizpůsobit plán úlohy nebo nastavit oznámení, použijte nastavení Schedules &Triggers na stránce úlohy. Viz Automatizace úloh s plány a aktivačními událostmi.
Název tabulky protokolování (starší verze)
Pokud chcete změnit název tabulky protokolování nebo uložit tabulku do jiného schématu, upravte parametr úlohy logging_table_name a zadejte požadovaný název. Pokud chcete uložit tabulku protokolování do jiného schématu, zadejte úplný název na úrovni 3.
Přizpůsobení freshness a completeness vyhodnocení (starší verze)
Všechny parametry v této části jsou volitelné. Detekce anomálií ve výchozím nastavení určuje prahové hodnoty na základě analýzy historie tabulky.
Tyto parametry jsou pole uvnitř parametru úkolu metric_configs. Formát metric_configs je řetězec JSON s následujícími výchozími hodnotami:
[
{
"disable_check": false,
"tables_to_skip": null,
"tables_to_scan": null,
"table_threshold_overrides": null,
"table_latency_threshold_overrides": null,
"static_table_threshold_override": null,
"event_timestamp_col_names": null,
"metric_type": "FreshnessConfig"
},
{
"disable_check": true,
"tables_to_skip": null,
"tables_to_scan": null,
"table_threshold_overrides": null,
"metric_type": "CompletenessConfig"
}
]
Následující parametry lze použít pro freshness i pro vyhodnocení completeness.
| Název pole | Description | Example |
|---|---|---|
tables_to_scan |
Prohledávají se pouze zadané tabulky. | ["table_to_scan", "another_table_to_scan"] |
tables_to_skip |
Zadané tabulky se během kontroly přeskočí. | ["table_to_skip"] |
disable_check |
Kontrola není spuštěna. Tento parametr použijte, pokud chcete zakázat pouze sken freshness nebo sken completeness. |
true, false |
Následující parametry platí pouze pro vyhodnocení freshness:
| Název pole | Description | Example |
|---|---|---|
event_timestamp_col_names |
Seznam tabulek obsahujících sloupce s časovými razítky, které může mít vaše schéma. Pokud tabulka obsahuje jeden z těchto sloupců, je označena Unhealthy pokud je překročena maximální hodnota tohoto sloupce. Použití tohoto parametru může zvýšit čas vyhodnocení a náklady. |
["timestamp", "date"] |
table_threshold_overrides |
Slovník skládající se z názvů tabulek a prahových hodnot (v sekundách), které určují maximální interval od poslední aktualizace tabulky před označením tabulky jako Unhealthy. |
{"table_0": 86400} |
table_latency_threshold_overrides |
Slovník skládající se z názvů tabulek a prahových hodnot latence (v sekundách), které určují maximální interval od posledního časového razítka v tabulce před označením tabulky jako Unhealthy. |
{"table_1": 3600} |
static_table_threshold_override |
Doba (v sekundách) před tím, než se tabulka považuje za statickou tabulku (to znamená tabulku, která se už neaktualizuje). | 2592000 |
Následující parametr se vztahuje pouze na vyhodnocení completeness:
| Název pole | Description | Example |
|---|---|---|
table_threshold_overrides |
Slovník skládající se z názvů tabulek a prahových hodnot svazků řádků (zadaných jako celá čísla) Pokud je počet řádků přidaných do tabulky za předchozích 24 hodin menší než zadaná prahová hodnota, je tabulka označena Unhealthy. |
{"table_0": 1000} |