Udostępnij za pośrednictwem


Tworzenie monitora przy użyciu interfejsu użytkownika usługi Databricks

W tym artykule przedstawiono tworzenie monitora danych przy użyciu interfejsu użytkownika usługi Databricks. Możesz również użyć interfejsu API.

Aby uzyskać dostęp do interfejsu użytkownika usługi Databricks, wykonaj następujące czynności:

  1. Na pasku bocznym po lewej stronie obszaru roboczego kliknij ikonę Dane. Aby otworzyć Eksploratora wykazu.

  2. Przejdź do tabeli, którą chcesz monitorować.

  3. Kliknij kartę Jakość .

    Karta monitorowania jakości systemu Lakehouse.

  4. Kliknij przycisk Rozpocznij pracę.

    Przycisk Rozpocznij monitorowanie usługi Lakehouse.

  5. W Utwórz monitorwybierz opcje, które chcesz ustawić dla monitora.

Profilowanie

Z menu rozwijanego Typ profilu wybierz typ monitora, który chcesz utworzyć. Typy profilów są wyświetlane w tabeli.

Typ profilu opis
Profil szeregów czasowych Tabela zawierająca wartości mierzone w czasie. Ta tabela zawiera kolumnę znacznika czasu.
Profil migawki Dowolna tabela zarządzana przez Delta, tabela zewnętrzna, widok, zmaterializowany widok lub tabela strumieniowa.
Profil wnioskowania Tabela zawierająca przewidywane wartości wyjściowe według klasyfikacji lub modelu regresji uczenia maszynowego. Ta tabela zawiera sygnaturę czasową, identyfikator modelu, dane wejściowe modelu (funkcje), kolumnę zawierającą przewidywania modelu oraz opcjonalne kolumny zawierające unikatowe identyfikatory obserwacji i etykiety podstaw prawdy. Może również zawierać metadane, takie jak informacje demograficzne, które nie są używane jako dane wejściowe do modelu, ale mogą być przydatne w przypadku badań uczciwości i stronniczości lub innych monitorowania.

W przypadku wybrania TimeSeries lub Inferencewymagane są dodatkowe parametry i zostały opisane w poniższych sekcjach.

Uwaga

  • Podczas pierwszego tworzenia szeregu czasowego lub profilu wnioskowania monitor analizuje tylko dane z 30 dni przed jego utworzeniem. Po utworzeniu monitora wszystkie nowe dane są przetwarzane.
  • Monitory zdefiniowane na zmaterializowanych widokach i tabelach strumieniowych nie obsługują przetwarzania przyrostowego.

Napiwek

W profilach TimeSeries i Inference najlepszym rozwiązaniem jest włączenie strumienia danych zmiany (CDF) w tabeli. Po włączeniu usługi CDF przetwarzane są tylko nowo dołączone dane, a nie ponowne przetwarzanie całej tabeli przy każdym odświeżeniu. Dzięki temu procesy są bardziej wydajne i zmniejszają koszty, w miarę jak skalujesz monitorowanie w wielu tabelach.

TimeSeries profil

TimeSeries W przypadku profilu należy wybrać następujące opcje:

  • Określ stopień szczegółowości metryk , które określają sposób partycjonowania danych w oknach czasowych.
  • Określ kolumnę Sygnatura czasowa, kolumnę w tabeli zawierającej znacznik czasu. Typ danych kolumny sygnatury czasowej musi być TIMESTAMP lub typ, który można przekonwertować na znaczniki czasu przy użyciu funkcji to_timestampPySpark.

Inference profil

Inference W przypadku profilu oprócz szczegółowości i znacznika czasu należy wybrać następujące opcje:

  • Wybierz typ problemu : klasyfikację lub regresję.
  • Określ kolumnę Prediction (Przewidywanie), kolumnę zawierającą przewidywane wartości modelu.
  • Opcjonalnie określ kolumnę Label, kolumnę zawierającą podstawowe informacje dla prognoz modelu.
  • Określ kolumnę identyfikatora modelu , kolumnę zawierającą identyfikator modelu używanego do przewidywania.

Opcje zaawansowane

W sekcji Opcje zaawansowane możesz ustawić harmonogram, dodać powiadomienia e-mail, dodać metryki niestandardowe i wyrażenia fragmentowania oraz zmienić konfigurację monitora domyślnego.

Zaplanuj

Aby skonfigurować monitor do uruchomienia zgodnie z harmonogramem, wybierz pozycję Odśwież zgodnie z harmonogramem i wybierz częstotliwość i czas uruchamiania monitora. Jeśli monitor nie ma być uruchamiany automatycznie, wybierz pozycję Odśwież ręcznie. Jeśli wybierzesz opcję Odśwież ręcznie, możesz później odświeżyć metryki z karty jakości.

Powiadomienia

Aby skonfigurować powiadomienia e-mail dla monitora, wprowadź wiadomość e-mail, która ma zostać powiadomiona, i wybierz powiadomienia, które mają zostać włączone. Na typ zdarzenia powiadomienia jest obsługiwanych maksymalnie 5 wiadomości e-mail.

Wskaźniki

W sekcji Metryki możesz zmienić następujące ustawienia domyślne:

  • Nazwa schematu tabel metryk: schemat Unity Catalog, w którym przechowywane są tabele metryk utworzone przez monitor. Ta lokalizacja musi być w formacie {catalog}. {schema}. Domyślnie jest ona ustawiona na tę samą lokalizację schematu co monitorowana tabela. Możesz określić inną lokalizację.

  • Katalog zasobów: ścieżka bezwzględna do istniejącego katalogu do przechowywania zasobów monitorowania. Domyślnie zasoby są przechowywane w katalogu domyślnym: "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}". Jeśli wprowadzisz inną lokalizację w tym polu, zasoby zostaną utworzone w obszarze "/{table_name}" w określonym katalogu. Ten katalog może znajdować się w dowolnym miejscu w obszarze roboczym. W przypadku monitorów przeznaczonych do udostępniania w organizacji można użyć ścieżki w katalogu "/Shared/".

    Nie można pozostawić tego pola pustego.

Można również określić następujące ustawienia:

  • Nazwa tabeli bazowej w Unity Catalog: Nazwa tabeli lub widoku zawierającego dane bazowe do porównania.
  • Wyrażenia fragmentowania metryk: Wyrażenia fragmentowania umożliwiają definiowanie podzbiorów tabeli w celu monitorowania ich oprócz tabeli jako całości. Aby utworzyć wyrażenie fragmentowania, kliknij pozycję Dodaj wyrażenie i wprowadź definicję wyrażenia. Na przykład wyrażenie "col_2 > 10" generuje dwa wycinki: jeden dla col_2 > 10 i jeden dla col_2 <= 10. W innym przykładzie wyrażenie "col_1" wygeneruje jeden wycinek dla każdej unikatowej wartości w col_1. Dane są pogrupowane niezależnie od każdego wyrażenia, co powoduje utworzenie oddzielnego wycinka dla każdego predykatu i jego uzupełnień.
  • Metryki niestandardowe: Metryki niestandardowe są wyświetlane w tabelach metryk tak samo, jak każda wbudowana metryka. Aby skonfigurować metrykę niestandardową, kliknij pozycję Dodaj metrykę niestandardową.
    • Wprowadź nazwę metryki niestandardowej.
    • Wybierz niestandardowy typ metryki. Wybierz jedną z opcji: Aggregate, Derivedlub Drift.
    • Z listy rozwijanej w Kolumny wejściowewybierz kolumny, do których ma być zastosowana metryka.
    • W polu Typ danych wyjściowych wybierz typ danych Spark dla metryki.
    • W polu Definicja wprowadź kod SQL definiujący metryki niestandardowej.

Edytowanie ustawień monitora w interfejsie użytkownika

Po utworzeniu monitora możesz wprowadzić zmiany w ustawieniach monitora, klikając przycisk Edytuj konfigurację monitora na karcie Jakość .

Odśwież i wyświetl wyniki monitora w interfejsie użytkownika

Aby ręcznie uruchomić monitor, kliknij pozycję Odśwież metryki.

Aby uzyskać informacje o statystykach przechowywanych w tabelach metryk monitora, zobacz Tabele metryk monitora. Tabele metryk to tabele Unity Catalog. Zapytania można wykonywać w notesach lub w Eksploratorze zapytań SQL i wyświetlać je w Eksploratorze wykazu.

Kontrola dostępu do monitorowania danych wyjściowych

Tabele metryk i pulpit nawigacyjny utworzony przez monitor są własnością użytkownika, który utworzył monitor. Uprawnienia Unity Catalog umożliwiają kontrolowanie dostępu do tabel metryk. Aby udostępnić pulpity nawigacyjne w obszarze roboczym, kliknij przycisk Udostępnij w prawym górnym rogu pulpitu nawigacyjnego.

Usuwanie monitora z interfejsu użytkownika

Aby usunąć monitor z interfejsu użytkownika, kliknij menu kebab obok przycisku Odśwież metryki i wybierz pozycję Usuń monitor.