Uwaga
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
W tym artykule przedstawiono tworzenie monitora danych przy użyciu interfejsu użytkownika usługi Databricks. Możesz również użyć interfejsu API.
Aby uzyskać dostęp do interfejsu użytkownika usługi Databricks, wykonaj następujące czynności:
Na pasku bocznym po lewej stronie obszaru roboczego kliknij
Aby otworzyć Eksploratora wykazu.
Przejdź do tabeli, którą chcesz monitorować.
Kliknij kartę Jakość .
Kliknij przycisk Rozpocznij pracę.
W Utwórz monitorwybierz opcje, które chcesz ustawić dla monitora.
Profilowanie
Z menu rozwijanego Typ profilu wybierz typ monitora, który chcesz utworzyć. Typy profilów są wyświetlane w tabeli.
Typ profilu | opis |
---|---|
Profil szeregów czasowych | Tabela zawierająca wartości mierzone w czasie. Ta tabela zawiera kolumnę znacznika czasu. |
Profil migawki | Dowolna tabela zarządzana przez Delta, tabela zewnętrzna, widok, zmaterializowany widok lub tabela strumieniowa. |
Profil wnioskowania | Tabela zawierająca przewidywane wartości wyjściowe według klasyfikacji lub modelu regresji uczenia maszynowego. Ta tabela zawiera sygnaturę czasową, identyfikator modelu, dane wejściowe modelu (funkcje), kolumnę zawierającą przewidywania modelu oraz opcjonalne kolumny zawierające unikatowe identyfikatory obserwacji i etykiety podstaw prawdy. Może również zawierać metadane, takie jak informacje demograficzne, które nie są używane jako dane wejściowe do modelu, ale mogą być przydatne w przypadku badań uczciwości i stronniczości lub innych monitorowania. |
W przypadku wybrania TimeSeries
lub Inference
wymagane są dodatkowe parametry i zostały opisane w poniższych sekcjach.
Uwaga
- Podczas pierwszego tworzenia szeregu czasowego lub profilu wnioskowania monitor analizuje tylko dane z 30 dni przed jego utworzeniem. Po utworzeniu monitora wszystkie nowe dane są przetwarzane.
- Monitory zdefiniowane na zmaterializowanych widokach i tabelach strumieniowych nie obsługują przetwarzania przyrostowego.
Napiwek
W profilach TimeSeries
i Inference
najlepszym rozwiązaniem jest włączenie strumienia danych zmiany (CDF) w tabeli. Po włączeniu usługi CDF przetwarzane są tylko nowo dołączone dane, a nie ponowne przetwarzanie całej tabeli przy każdym odświeżeniu. Dzięki temu procesy są bardziej wydajne i zmniejszają koszty, w miarę jak skalujesz monitorowanie w wielu tabelach.
TimeSeries
profil
TimeSeries
W przypadku profilu należy wybrać następujące opcje:
- Określ stopień szczegółowości metryk , które określają sposób partycjonowania danych w oknach czasowych.
- Określ kolumnę Sygnatura czasowa, kolumnę w tabeli zawierającej znacznik czasu. Typ danych kolumny sygnatury czasowej musi być
TIMESTAMP
lub typ, który można przekonwertować na znaczniki czasu przy użyciu funkcjito_timestamp
PySpark.
Inference
profil
Inference
W przypadku profilu oprócz szczegółowości i znacznika czasu należy wybrać następujące opcje:
- Wybierz typ problemu : klasyfikację lub regresję.
- Określ kolumnę Prediction (Przewidywanie), kolumnę zawierającą przewidywane wartości modelu.
- Opcjonalnie określ kolumnę Label, kolumnę zawierającą podstawowe informacje dla prognoz modelu.
- Określ kolumnę identyfikatora modelu , kolumnę zawierającą identyfikator modelu używanego do przewidywania.
Opcje zaawansowane
W sekcji Opcje zaawansowane możesz ustawić harmonogram, dodać powiadomienia e-mail, dodać metryki niestandardowe i wyrażenia fragmentowania oraz zmienić konfigurację monitora domyślnego.
Zaplanuj
Aby skonfigurować monitor do uruchomienia zgodnie z harmonogramem, wybierz pozycję Odśwież zgodnie z harmonogramem i wybierz częstotliwość i czas uruchamiania monitora. Jeśli monitor nie ma być uruchamiany automatycznie, wybierz pozycję Odśwież ręcznie. Jeśli wybierzesz opcję Odśwież ręcznie, możesz później odświeżyć metryki z karty jakości.
Powiadomienia
Aby skonfigurować powiadomienia e-mail dla monitora, wprowadź wiadomość e-mail, która ma zostać powiadomiona, i wybierz powiadomienia, które mają zostać włączone. Na typ zdarzenia powiadomienia jest obsługiwanych maksymalnie 5 wiadomości e-mail.
Wskaźniki
W sekcji Metryki możesz zmienić następujące ustawienia domyślne:
Nazwa schematu tabel metryk: schemat Unity Catalog, w którym przechowywane są tabele metryk utworzone przez monitor. Ta lokalizacja musi być w formacie {catalog}. {schema}. Domyślnie jest ona ustawiona na tę samą lokalizację schematu co monitorowana tabela. Możesz określić inną lokalizację.
Katalog zasobów: ścieżka bezwzględna do istniejącego katalogu do przechowywania zasobów monitorowania. Domyślnie zasoby są przechowywane w katalogu domyślnym: "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}". Jeśli wprowadzisz inną lokalizację w tym polu, zasoby zostaną utworzone w obszarze "/{table_name}" w określonym katalogu. Ten katalog może znajdować się w dowolnym miejscu w obszarze roboczym. W przypadku monitorów przeznaczonych do udostępniania w organizacji można użyć ścieżki w katalogu "/Shared/".
Nie można pozostawić tego pola pustego.
Można również określić następujące ustawienia:
- Nazwa tabeli bazowej w Unity Catalog: Nazwa tabeli lub widoku zawierającego dane bazowe do porównania.
-
Wyrażenia fragmentowania metryk: Wyrażenia fragmentowania umożliwiają definiowanie podzbiorów tabeli w celu monitorowania ich oprócz tabeli jako całości. Aby utworzyć wyrażenie fragmentowania, kliknij pozycję Dodaj wyrażenie i wprowadź definicję wyrażenia. Na przykład wyrażenie
"col_2 > 10"
generuje dwa wycinki: jeden dlacol_2 > 10
i jeden dlacol_2 <= 10
. W innym przykładzie wyrażenie"col_1"
wygeneruje jeden wycinek dla każdej unikatowej wartości wcol_1
. Dane są pogrupowane niezależnie od każdego wyrażenia, co powoduje utworzenie oddzielnego wycinka dla każdego predykatu i jego uzupełnień. -
Metryki niestandardowe: Metryki niestandardowe są wyświetlane w tabelach metryk tak samo, jak każda wbudowana metryka.
Aby skonfigurować metrykę niestandardową, kliknij pozycję Dodaj metrykę niestandardową.
- Wprowadź nazwę metryki niestandardowej.
- Wybierz niestandardowy typ metryki. Wybierz jedną z opcji:
Aggregate
,Derived
lubDrift
. - Z listy rozwijanej w Kolumny wejściowewybierz kolumny, do których ma być zastosowana metryka.
- W polu Typ danych wyjściowych wybierz typ danych Spark dla metryki.
- W polu Definicja wprowadź kod SQL definiujący metryki niestandardowej.
Edytowanie ustawień monitora w interfejsie użytkownika
Po utworzeniu monitora możesz wprowadzić zmiany w ustawieniach monitora, klikając przycisk Edytuj konfigurację monitora na karcie Jakość .
Odśwież i wyświetl wyniki monitora w interfejsie użytkownika
Aby ręcznie uruchomić monitor, kliknij pozycję Odśwież metryki.
Aby uzyskać informacje o statystykach przechowywanych w tabelach metryk monitora, zobacz Tabele metryk monitora. Tabele metryk to tabele Unity Catalog. Zapytania można wykonywać w notesach lub w Eksploratorze zapytań SQL i wyświetlać je w Eksploratorze wykazu.
Kontrola dostępu do monitorowania danych wyjściowych
Tabele metryk i pulpit nawigacyjny utworzony przez monitor są własnością użytkownika, który utworzył monitor. Uprawnienia Unity Catalog umożliwiają kontrolowanie dostępu do tabel metryk. Aby udostępnić pulpity nawigacyjne w obszarze roboczym, kliknij przycisk Udostępnij w prawym górnym rogu pulpitu nawigacyjnego.
Usuwanie monitora z interfejsu użytkownika
Aby usunąć monitor z interfejsu użytkownika, kliknij menu kebab obok przycisku Odśwież metryki i wybierz pozycję Usuń monitor.