Udostępnij przez


Monitorowanie aktywności konta przy użyciu tabel systemowych

W tym artykule wyjaśniono koncepcję tabel systemowych w usłudze Azure Databricks i wyróżniono zasoby, których można użyć, aby jak najlepiej wykorzystać dane tabel systemowych.

Co to są tabele systemowe?

Tabele systemowe to hostowany w usłudze Azure Databricks magazyn analityczny danych operacyjnych konta, znajdujący się w wykazie system. Tabele systemowe mogą służyć do obserwacji historycznej na koncie.

Uwaga

Tabele schematu informacji (system.information_schema) działają inaczej niż inne tabele systemowe. Zobacz Schemat informacji.

Wymagania

  • Aby uzyskać dostęp do tabel systemowych, obszar roboczy musi być skonfigurowany do korzystania z Unity Catalog. Aby uzyskać więcej informacji, zobacz Włączanie tabel systemowych.
  • Tabele systemowe nie są dostępne w następujących regionach:
    • Regiony Azure w Chinach
    • Regiony rządowe Azure
    • Indie Zachodnie
    • Szwajcaria Zachodnia

Które tabele systemowe są dostępne?

Obecnie usługa Azure Databricks hostuje następujące tabele systemowe:

Stół opis Obsługuje przesyłanie strumieniowe Okres bezpłatnego przechowywania Obejmuje dane globalne lub regionalne
Dzienniki inspekcji (publiczna wersja zapoznawcza) Zawiera rekordy dla wszystkich zdarzeń audytowych z przestrzeni roboczych w Twoim regionie. Aby uzyskać listę dostępnych zdarzeń audytu, zobacz Referencja dziennika diagnostycznego.
Ścieżka tabeli: system.access.audit
Tak 365 dni Regionalny dla zdarzeń na poziomie obszaru roboczego. Globalne dla zdarzeń na poziomie konta.
Rozliczane użycie Zawiera rekordy dotyczące wszelkiego rozliczanego użycia na koncie.
Ścieżka tabeli: system.billing.usage
Tak 365 dni Globalny
Wydarzenia w czystym pomieszczeniu (publiczna wersja próbna) Przechwytuje zdarzenia związane z czystymi pokojami.
Ścieżka tabeli: system.access.clean_room_events
Tak 365 dni Regionalne
Klastry Wolno zmieniająca się tabela wymiarów zawierająca pełną historię konfiguracji obliczeniowych w czasie dla dowolnego klastra. Tak 365 dni Regionalne
Pochodzenie kolumn Zawiera rekord dla każdego zdarzenia odczytu lub zapisu w kolumnie Unity Catalog (ale pomija zdarzenia bez źródła).
Ścieżka tabeli: system.access.column_lineage
Tak 365 dni Regionalne
Wyniki klasyfikacji danych (beta) Przechowuje wykrycia na poziomie kolumn w klasach poufnych danych we włączonych katalogach w twoim magazynie metadanych.
Ścieżka tabeli: system.data_classification.results
Nie. 365 dni Regionalne
Wyniki monitorowania jakości danych (beta) Przechowuje wyniki monitorowania jakości danych (świeżość, kompletność) oraz informacje o incydentach, w tym wpływ na dalsze procesy i analizę pierwotnej przyczyny, we wszystkich włączonych tabelach w magazynie metadanych.
Ścieżka tabeli: system.data_quality_monitoring.table_results
Nie. Nieokreślony Regionalne
Zdarzenia Databricks Assistant (publiczna wersja zapoznawcza) Śledzi komunikaty użytkowników wysyłane do Asystenta usługi Databricks.
Ścieżka tabeli: system.access.assistant_events
Nie. 365 dni Regionalne
Zdarzenia materializacji danych Delta Sharing Przechwytuje zdarzenia materializacji danych utworzone na podstawie widoku, zmaterializowanego widoku oraz udostępniania tabeli strumieniowej.
Ścieżka tabeli: system.sharing.materialization_history
Tak 365 dni Regionalny dla zdarzeń na poziomie obszaru roboczego.
Oś czasu wykonania zadania (publiczna wersja zapoznawcza) Śledzi czasy uruchamiania i zakończenia zadania.
Ścieżka tabeli: system.lakeflow.job_run_timeline
Tak 365 dni Regionalne
Oś czasu zadania pracy (publiczna wersja próbna) Śledzi czasy rozpoczęcia i zakończenia oraz zasoby obliczeniowe używane do wykonywania zadań.
Ścieżka tabeli: system.lakeflow.job_task_run_timeline
Tak 365 dni Regionalne
Zadania (wersja próbna) Śledzi wszystkie zadania, które są uruchamiane na koncie.
Ścieżka tabeli: system.lakeflow.job_tasks
Tak 365 dni Regionalne
Zadania (publiczna wersja zapoznawcza) Śledzi wszystkie zadania utworzone na koncie.
Ścieżka tabeli: system.lakeflow.jobs
Tak 365 dni Regionalne
Zdarzenia lejka sprzedażowego w Marketplace (wersja testowa) Obejmuje dane dotyczące wyobrażeń konsumentów i danych lejka sprzedażowego dla Twoich ofert.
Ścieżka tabeli: system.marketplace.listing_funnel_events
Tak 365 dni Regionalne
Dostęp do ofert w Marketplace (publiczna wersja zapoznawcza) Zawiera informacje dla konsumentów dotyczące zakończonych zdarzeń żądania danych lub uzyskania danych w twoich ofertach.
Ścieżka tabeli: system.marketplace.listing_access_events
Tak 365 dni Regionalne
Metadane eksperymentu śledzenia MLflow (publiczna wersja zapoznawcza) Każdy wiersz reprezentuje eksperyment utworzony w systemie MLflow zarządzanym przez usługę Databricks.
Ścieżka tabeli: system.mlflow.experiments_latest
Tak 180 dni Regionalne
Metadane przebiegu śledzenia MLflow (publiczna wersja zapoznawcza) Każdy wiersz reprezentuje przebieg utworzony w systemie MLflow zarządzanym przez usługę Databricks.
Ścieżka tabeli: system.mlflow.runs_latest
Tak 180 dni Regionalne
Metryki przebiegu śledzenia MLflow (publiczna wersja zapoznawcza) Przechowuje metryki czasowników zarejestrowane w usłudze MLflow skojarzone z danym trenowanie, ewaluacją lub opracowywaniem agentów.
Ścieżka tabeli: system.mlflow.run_metrics_history
Tak 180 dni Regionalne
Model obsługujący dane punktu końcowego (publiczna wersja zapoznawcza) Wolno zmieniająca się tabela wymiarów, która przechowuje metadane dla każdego obsługiwanego modelu podstawowego w punkcie końcowym obsługującym model.
Ścieżka tabeli: system.serving.served_entities
Tak 365 dni Regionalne
Wykorzystanie punktu końcowego w obsłudze modelu (publiczna wersja zapoznawcza) Przechwytuje liczbę tokenów dla każdego żądania do punktu końcowego obsługiwanego przez model i jego odpowiedzi. Aby przechwycić użycie punktu końcowego w tej tabeli, należy włączyć śledzenie użycia w serwerowym punkcie końcowym.
Ścieżka tabeli: system.serving.endpoint_usage
Tak 90 dni Regionalne
Zdarzenia dostępu do sieci (ruch przychodzący) ( publiczna wersja zapoznawcza) Tabela, która rejestruje zdarzenie za każdym razem, gdy tylko przychodzący dostęp do obszaru roboczego jest blokowany przez politykę wejścia.
Ścieżka tabeli: system.access.inbound_network
Tak 30 dni Regionalne
Zdarzenia dostępu do sieci (ruch wychodzący) ( publiczna wersja zapoznawcza) Tabela, która rejestruje zdarzenie za każdym razem, gdy wychodzący dostęp do Internetu zostanie odrzucony z Twojego konta.
Ścieżka tabeli: system.access.outbound_network
Tak 365 dni Regionalne
Oś czasu węzła Przechwytuje metryki wykorzystania zasobów obliczeniowych dla wszystkich celów i zadań.
Ścieżka tabeli: system.compute.node_timeline
Tak 90 dni Regionalne
Typy węzłów Przechwytuje obecnie dostępne typy węzłów przy użyciu podstawowych informacji o sprzęcie.
Ścieżka tabeli: system.compute.node_types
Nie. Nieokreślony Regionalne
Harmonogram aktualizacji potoku danych (publiczna wersja zapoznawcza) Śledzi czas rozpoczęcia i zakończenia oraz zasoby obliczeniowe używane na potrzeby aktualizacji potoku.
Ścieżka tabeli: system.lakeflow.pipeline_update_timeline
Tak 365 dni Regionalne
Rurociągi (wersja publiczna zapoznawcza) Śledzi wszystkie przepływy pracy utworzone na koncie.
Ścieżka tabeli: system.lakeflow.pipelines
Tak 365 dni Regionalne
Optymalizacja predykcyjna (publiczna wersja zapoznawcza) Śledzi historię operacji funkcji optymalizacji predykcyjnej.
Ścieżka tabeli: system.storage.predictive_optimization_operations_history
Nie. 180 dni Regionalne
Cennik Historyczny dziennik cen jednostek SKU. Rekord jest dodawany za każdym razem, gdy następuje zmiana ceny jednostki SKU.
Ścieżka tabeli: system.billing.list_prices
Nie. Nieokreślony Globalny
Historia zapytań (publiczna wersja zapoznawcza) Przechwytuje rekordy wszystkich uruchamianych zapytań zarówno w magazynach SQL, jak i obliczeniach bezserwerowych, dotyczących notesów i zadań.
Ścieżka tabeli: system.query.history
Nie. 365 dni Regionalne
Zdarzenia usługi SQL Warehouse (publiczna wersja zapoznawcza) Przechwytuje zdarzenia związane z magazynami SQL. Na przykład uruchamianie, zatrzymywanie, działanie, skalowanie w górę i w dół.
Ścieżka tabeli: system.compute.warehouse_events
Tak 365 dni Regionalne
Magazyny SQL (publiczna wersja zapoznawcza) Zawiera pełną historię konfiguracji w czasie dla dowolnego magazynu SQL.
Ścieżka tabeli: system.compute.warehouses
Tak 365 dni Regionalne
Pochodzenie tabeli Zawiera rekord dla każdego zdarzenia odczytu lub zapisu w tabeli lub ścieżce katalogu Unity.
Ścieżka tabeli: system.access.table_lineage
Tak 365 dni Regionalne
Obszary robocze (publiczna wersja zapoznawcza) Tabela workspaces_latest to wolno zmieniająca się tabela wymiarów metadanych dla wszystkich obszarów roboczych na koncie.
Ścieżka tabeli: system.access.workspaces_latest
Nie. Nieokreślony Globalny
Zerobus Ingest (Strumienie) (Beta) Tabela, w której są przechowywane wszystkie dane związane z zdarzeniami transmisji danych spowodowanymi korzystaniem z Zerobus Ingest.
Ścieżka tabeli: system.lakeflow.zerobus_stream
Tak 365 dni Regionalne
Zerobus Ingest (Ingestion) (wersja beta) Tabela, która przechowuje wszystkie dane związane z rekordami przetwarzanych za pomocą Zerobus Ingest.
Ścieżka tabeli: system.lakeflow.zerobus_ingest
Tak 365 dni Regionalne

Tabele dotyczące rozliczeń i wycen są dostępne bezpłatnie. Tabele w publicznej wersji zapoznawczej są również bezpłatne do użycia podczas korzystania z wersji zapoznawczej, ale w przyszłości mogą być naliczane opłaty.

Uwaga

Oprócz wymienionych powyżej tabel systemowych na koncie mogą być widoczne inne tabele systemowe. Te tabele są obecnie w prywatnej wersji zapoznawczej i są domyślnie puste. Jeśli interesuje Cię użycie dowolnej z tych tabel, skontaktuj się z zespołem ds. kont usługi Databricks.

relacje tabel systemowych

Na poniższym diagramie relacji między jednostkami opisano, jak obecnie dostępne tabele systemowe są ze sobą powiązane. Ten diagram przedstawia klucze podstawowe i obce każdej tabeli.

Diagram relacji jednostek tabel systemowych usługi Databricks

Włączanie tabel systemowych

Ponieważ tabele systemowe są zarządzane przez Unity Catalog, musisz mieć co najmniej jeden obszar roboczy z obsługą Unity Catalog na swoim koncie, aby włączyć tabele systemowe konta. Tabele systemowe zawierają dane ze wszystkich obszarów roboczych na twoim koncie, ale można uzyskać do nich dostęp tylko z obszaru roboczego z włączonym Unity Catalog.

Aby uzyskać dostęp do tabel systemowych, metamagazyn musi znajdować się w Modelu Uprawnień Unity Catalog w wersji 1.0. Zobacz Uaktualnianie dziedziczenia uprawnień.

Udzielanie dostępu do tabel systemowych

Dostęp do tabel systemowych jest regulowany przez Unity Catalog. Administratorzy kont mają domyślnie dostęp do tabel systemowych. Aby umożliwić użytkownikowi wykonywanie zapytań dotyczących tabel systemowych, administrator musi przyznać temu użytkownikowi USE i SELECT uprawnienia do schematów systemowych. Zobacz Zarządzanie uprawnieniami w Unity Catalog.

Tabele systemowe są tylko do odczytu i nie można ich modyfikować.

Uwaga

Jeśli twoje konto zostało utworzone po 9 listopada 2023 r., być może nie masz domyślnie administratora magazynu metadanych. Aby uzyskać więcej informacji, zobacz Wprowadzenie do Unity Catalog.

Czy tabele systemowe zawierają dane dla wszystkich obszarów roboczych na twoim koncie?

Tabele systemowe zawierają dane operacyjne dla wszystkich obszarów roboczych na koncie wdrożonym w tym samym regionie chmury. Niektóre tabele zawierają dane globalne. Aby uzyskać szczegółowe informacje, zobacz listę dostępnych tabel.

Systemowe tabele są dostępne tylko przez obszar roboczy Unity Catalogu, ale zawierają dane operacyjne z obszarów roboczych nieskanowanych przez Unity Catalog w Twoim koncie.

Gdzie są przechowywane dane tabeli systemowej?

Dane tabel systemowych twojego konta są przechowywane na koncie magazynu hostowanym w usłudze Azure Databricks, znajdującym się w tym samym regionie co twój metamagazyn. Dane zostały bezpiecznie udostępnione przy użyciu Delta Sharing.

Każda tabela ma bezpłatny okres przechowywania danych. Aby uzyskać szczegółowe informacje, zobacz kolumnę Bezpłatny okres przechowywania w artykule Jakie tabele systemowe są dostępne?.

Gdzie znajdują się tabele systemowe w Eksploratorze wykazu?

Tabele systemowe na twoim koncie znajdują się w katalogu o nazwie system, który jest uwzględniony w każdym metastore katalogu Unity. W wykazie system zobaczysz schematy, takie jak access i billing zawierające tabele systemowe.

Rozważania dotyczące tabel systemowych przesyłanych strumieniowo

Usługa Azure Databricks używa funkcji Delta Sharing do udostępniania danych tabeli systemowej klientom. Podczas przesyłania strumieniowego z wykorzystaniem Delta Sharing należy pamiętać o następujących kwestiach:

  • Jeśli używasz przesyłania strumieniowego z tabelami systemowymi, ustaw opcję skipChangeCommits na true. Gwarantuje to, że zadanie streamingu nie jest zakłócane przez usunięcia w tabelach systemowych. Zobacz Ignorowanie aktualizacji i usuwanie.
  • Trigger.AvailableNow nie jest obsługiwane w przypadku przesyłania strumieniowego Delta Sharing. Zostanie on przekonwertowany na Trigger.Once.
  • Tabele systemowe używają domyślnego 7-dniowego przechowywania VACUUM (zobacz Konfigurowanie przechowywania danych dla zapytań dotyczących podróży w czasie), co oznacza, że zapytanie przesyłane strumieniowo może spowodować przerwanie, jeśli opóźni się o więcej niż 7 dni. Monitoruj strumienie, aby upewnić się, że są zgodne z najnowszą wersją tabeli systemowej.

Jeśli używasz wyzwalacza w zadaniu przesyłania strumieniowego i okaże się, że nie nadrabia zaległości do najnowszej wersji tabeli systemu, usługa Databricks zaleca zwiększenie zaplanowanej częstotliwości zadania.

Odczytywanie przyrostowych zmian z tabel systemu przesyłania strumieniowego

spark.readStream.option("skipChangeCommits", "true").table("system.billing.usage")

Znane problemy

  • Nowe kolumny mogą być dodawane do istniejących tabel systemowych w dowolnym momencie. Zapytania korzystające ze stałego schematu mogą spowodować przerwanie, jeśli zostaną wprowadzone nowe kolumny. Istniejące kolumny nie zostaną zmienione ani usunięte. Jeśli piszesz dane tabeli systemu do innej tabeli docelowej, rozważ włączenie ewolucji schematu.
  • Brak obsługi monitorowania w czasie rzeczywistym. Dane są aktualizowane przez cały dzień. Jeśli nie widzisz dziennika dla ostatniego zdarzenia, sprawdź ponownie później.
  • __internal_logging Schemat tabeli systemowej obsługuje rejestrowanie danych ładunkowych przy użyciu tabel inferencyjnych z obsługą bramy AI dla modeli zewnętrznych oraz obciążeń związanych z przydzieloną przepustowością. Ten schemat jest widoczny dla administratorów kont, ale nie można go włączyć i nie należy go używać w przypadku przepływów pracy klienta.
  • Aby włączyć tabele systemowe, może być konieczne przyznanie dostępu sieciowego do punktu końcowego magazynu Blob. Aby wyświetlić listę punktów końcowych magazynu tabel systemowych każdego regionu, zobacz Adresy IP punktu końcowego magazynu.
  • Schematy systemowe system.operational_data i system.lineage są przestarzałe i będą zawierać puste tabele.