Sdílet prostřednictvím


Vytvoření monitorování pomocí uživatelského rozhraní Databricks

Tento článek ukazuje vytvoření monitorování dat pomocí uživatelského rozhraní Databricks. Můžete také použít rozhraní API.

Pokud chcete získat přístup k uživatelskému rozhraní Databricks, postupujte takto:

  1. V levém bočním panelu pracovního prostoru kliknutím Ikona katalogu otevřete Průzkumníka katalogu.
  2. Přejděte do tabulky, kterou chcete monitorovat.
  3. Klikněte na kartu Kvalita .
  4. Klikněte na tlačítko Začínáme .
  5. V části Vytvořit monitorování zvolte možnosti, které chcete nastavit.

Profilace

V nabídce Typ profilu vyberte typ monitoru, který chcete vytvořit. Typy profilů se zobrazují v tabulce.

Typ profilu Popis
Profil časové řady Tabulka obsahující hodnoty měřené v průběhu času. Tato tabulka obsahuje sloupec časového razítka.
Profil odvozování Tabulka obsahující výstup predikovaných hodnot pomocí klasifikačního nebo regresního modelu strojového učení Tato tabulka obsahuje časové razítko, ID modelu, vstupy modelu (funkce), sloupec obsahující předpovědi modelu a volitelné sloupce obsahující jedinečné ID pozorování a popisky základní pravdy. Může také obsahovat metadata, jako jsou demografické informace, které se nepoužívají jako vstup do modelu, ale mohou být užitečné pro nestrannost a šetření předsudků nebo jiné monitorování.
Profil snímku Libovolná tabulka spravovaná delta, externí tabulka, zobrazení, materializované zobrazení nebo streamovaná tabulka

Pokud vyberete TimeSeries nebo Inference, vyžadují se další parametry a jsou popsány v následujících částech.

Poznámka:

  • Při prvním vytvoření časového řady nebo profilu odvozování monitor analyzuje pouze data z 30 dnů před vytvořením. Po vytvoření monitorování se všechna nová data zpracovávají.
  • Monitorování definovaná na materializovaných zobrazeních a tabulkách streamování nepodporují přírůstkové zpracování.

TimeSeries profil

TimeSeries U profilu musíte provést následující výběry:

  • Určete členitosti metrik, které určují způsob rozdělení dat v oknech v čase.
  • Zadejte sloupec časového razítka, sloupec v tabulce obsahující časové razítko. Datový typ sloupce časového razítka musí být buď TIMESTAMP nebo typ, který lze převést na časová razítka pomocí to_timestamp funkce PySpark.

Inference profil

Inference Kromě členitosti a časového razítka profilu musíte provést následující výběry:

  • Vyberte typ problému, buď klasifikaci, nebo regresi.
  • Zadejte sloupec Predikce, sloupec obsahující predikované hodnoty modelu.
  • Volitelně můžete zadat sloupec Popisek, sloupec obsahující základní pravdu pro předpovědi modelu.
  • Zadejte sloupec ID modelu, sloupec obsahující ID modelu použitého k predikci.

Plán

Pokud chcete nastavit monitorování, které se bude spouštět podle plánu, vyberte Aktualizovat podle plánu a vyberte frekvenci a čas spuštění monitorování. Pokud nechcete, aby se monitorování spustilo automaticky, vyberte Aktualizovat ručně. Pokud vyberete Možnost Aktualizovat ručně, můžete metriky později aktualizovat na kartě Kvalita .

Oznámení

Pokud chcete nastavit e-mailová oznámení pro monitor, zadejte e-mail, který chcete dostávat oznámení, a vyberte oznámení, která chcete povolit. Pro každý typ události oznámení se podporuje až 5 e-mailů.

OBECNÉ

V části Obecné musíte zadat jedno požadované nastavení a některé další možnosti konfigurace:

  • Musíte zadat schéma katalogu Unity, ve kterém jsou uloženy tabulky metrik vytvořené monitorováním. Umístění musí být ve formátu {catalog}. {schema}.

Můžete také zadat následující nastavení:

  • Adresář prostředků. Zadejte absolutní cestu k existujícímu adresáři pro ukládání monitorovacích prostředků, jako je vygenerovaný řídicí panel. Ve výchozím nastavení jsou prostředky uložené ve výchozím adresáři: "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}". Pokud do tohoto pole zadáte jiné umístění, prostředky se vytvoří v adresáři, který zadáte, pod položkou /{table_name}. Tento adresář může být kdekoli v pracovním prostoru. Pro monitorování, která mají být sdílena v rámci organizace, můžete použít cestu v adresáři /Shared/.

    Toto pole nemůže být ponecháno prázdné.

  • Název tabulky standardních hodnot katalogu Unity Název tabulky nebo zobrazení, které obsahuje data směrného plánu pro porovnání Další informace o směrných tabulkách najdete v tématu Primární vstupní tabulka a tabulka směrného plánu.

  • Výrazy řezů metrik Výrazy řezů umožňují definovat podmnožinu tabulky, které se mají monitorovat vedle tabulky jako celku. Pokud chcete vytvořit výraz řezů, klikněte na Přidat výraz a zadejte definici výrazu. Výraz například "col_2 > 10" vygeneruje dva řezy: jeden pro col_2 > 10 a druhý pro col_2 <= 10. Jako další příklad výraz "col_1" vygeneruje jeden řez pro každou jedinečnou hodnotu v col_1. Data jsou seskupována podle jednotlivých výrazů nezávisle, což vede k samostatnému řezu pro každý predikát a jeho doplňky.

  • Vlastní metriky Vlastní metriky se zobrazují v tabulkách metrik jako jakákoli integrovaná metrika. Podrobnosti najdete v tématu Použití vlastních metrik s monitorováním Databricks Lakehouse. Pokud chcete nakonfigurovat vlastní metriku, klikněte na Přidat vlastní metriku.

    • Zadejte název vlastní metriky.
    • Vyberte vlastní typ metriky, jeden z Aggregate, Derivednebo Drift. Definice najdete v tématu Typy vlastních metrik.
    • V rozevíracím seznamu ve sloupcích Vstup vyberte sloupce, u kterých chcete metriku použít.
    • V poli Typ výstupu vyberte datový typ Sparku metriky.
    • Do pole Definice zadejte kód SQL, který definuje vlastní metriku.

Úprava nastavení monitorování v uživatelském rozhraní

Po vytvoření monitoru můžete provést změny nastavení monitorování kliknutím na tlačítko Upravit konfiguraci monitorování na kartě Kvalita .

Aktualizace a zobrazení výsledků monitorování v uživatelském rozhraní

Pokud chcete monitorování spustit ručně, klikněte na Aktualizovat metriky.

Informace o statistikách uložených v tabulkách metrik monitorování najdete v tématu Monitorování tabulek metrik. Tabulky metrik jsou tabulky katalogu Unity. Můžete se na ně dotazovat v poznámkových blocích nebo v Průzkumníku dotazů SQL a zobrazit je v Průzkumníku katalogu.

Řízení přístupu k monitorování výstupů

Tabulky metrik a řídicí panel vytvořené monitorováním vlastní uživatel, který monitor vytvořil. Oprávnění katalogu Unity můžete použít k řízení přístupu k tabulkám metrik. Pokud chcete sdílet řídicí panely v pracovním prostoru, klikněte na tlačítko Sdílet na pravé horní straně řídicího panelu.

Odstranění monitorování z uživatelského rozhraní

Pokud chcete odstranit monitorování z uživatelského rozhraní, klikněte na nabídku kebab vedle tlačítka Aktualizovat metriky a vyberte Odstranit monitorování.