Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
W tym artykule wyjaśniono koncepcję tabel systemowych w usłudze Azure Databricks i wyróżniono zasoby, których można użyć, aby jak najlepiej wykorzystać dane tabel systemowych.
Co to są tabele systemowe?
Tabele systemowe to hostowany w usłudze Azure Databricks magazyn analityczny danych operacyjnych konta, znajdujący się w wykazie system. Tabele systemowe mogą służyć do obserwacji historycznej na koncie.
Uwaga
Tabele schematu informacji (system.information_schema) działają inaczej niż inne tabele systemowe. Zobacz Schemat informacji.
Wymagania
- Aby uzyskać dostęp do tabel systemowych, obszar roboczy musi być skonfigurowany do korzystania z Unity Catalog. Aby uzyskać więcej informacji, zobacz Włączanie tabel systemowych.
- Tabele systemowe nie są dostępne w następujących regionach:
- Regiony Azure w Chinach
- Regiony rządowe Azure
- Indie Zachodnie
- Szwajcaria Zachodnia
Które tabele systemowe są dostępne?
Obecnie usługa Azure Databricks hostuje następujące tabele systemowe:
| Stół | opis | Obsługuje przesyłanie strumieniowe | Okres bezpłatnego przechowywania | Obejmuje dane globalne lub regionalne |
|---|---|---|---|---|
| Dzienniki inspekcji (publiczna wersja zapoznawcza) | Zawiera rekordy dla wszystkich zdarzeń audytowych z przestrzeni roboczych w Twoim regionie. Aby uzyskać listę dostępnych zdarzeń audytu, zobacz Referencja dziennika diagnostycznego. Ścieżka tabeli: system.access.audit |
Tak | 365 dni | Regionalny dla zdarzeń na poziomie obszaru roboczego. Globalne dla zdarzeń na poziomie konta. |
| Rozliczane użycie | Zawiera rekordy dotyczące wszelkiego rozliczanego użycia na koncie. Ścieżka tabeli: system.billing.usage |
Tak | 365 dni | Globalny |
| Wydarzenia w czystym pomieszczeniu (publiczna wersja próbna) | Przechwytuje zdarzenia związane z czystymi pokojami. Ścieżka tabeli: system.access.clean_room_events |
Tak | 365 dni | Regionalne |
| Klastry | Wolno zmieniająca się tabela wymiarów zawierająca pełną historię konfiguracji obliczeniowych w czasie dla dowolnego klastra. | Tak | 365 dni | Regionalne |
| Pochodzenie kolumn | Zawiera rekord dla każdego zdarzenia odczytu lub zapisu w kolumnie Unity Catalog (ale pomija zdarzenia bez źródła). Ścieżka tabeli: system.access.column_lineage |
Tak | 365 dni | Regionalne |
| Wyniki klasyfikacji danych (beta) | Przechowuje wykrycia na poziomie kolumn w klasach poufnych danych we włączonych katalogach w twoim magazynie metadanych. Ścieżka tabeli: system.data_classification.results |
Nie. | 365 dni | Regionalne |
| Wyniki monitorowania jakości danych (beta) | Przechowuje wyniki monitorowania jakości danych (świeżość, kompletność) oraz informacje o incydentach, w tym wpływ na dalsze procesy i analizę pierwotnej przyczyny, we wszystkich włączonych tabelach w magazynie metadanych. Ścieżka tabeli: system.data_quality_monitoring.table_results |
Nie. | Nieokreślony | Regionalne |
| Zdarzenia Databricks Assistant (publiczna wersja zapoznawcza) | Śledzi komunikaty użytkowników wysyłane do Asystenta usługi Databricks. Ścieżka tabeli: system.access.assistant_events |
Nie. | 365 dni | Regionalne |
| Zdarzenia materializacji danych Delta Sharing | Przechwytuje zdarzenia materializacji danych utworzone na podstawie widoku, zmaterializowanego widoku oraz udostępniania tabeli strumieniowej. Ścieżka tabeli: system.sharing.materialization_history |
Tak | 365 dni | Regionalny dla zdarzeń na poziomie obszaru roboczego. |
| Oś czasu wykonania zadania (publiczna wersja zapoznawcza) | Śledzi czasy uruchamiania i zakończenia zadania. Ścieżka tabeli: system.lakeflow.job_run_timeline |
Tak | 365 dni | Regionalne |
| Oś czasu zadania pracy (publiczna wersja próbna) | Śledzi czasy rozpoczęcia i zakończenia oraz zasoby obliczeniowe używane do wykonywania zadań. Ścieżka tabeli: system.lakeflow.job_task_run_timeline |
Tak | 365 dni | Regionalne |
| Zadania (wersja próbna) | Śledzi wszystkie zadania, które są uruchamiane na koncie. Ścieżka tabeli: system.lakeflow.job_tasks |
Tak | 365 dni | Regionalne |
| Zadania (publiczna wersja zapoznawcza) | Śledzi wszystkie zadania utworzone na koncie. Ścieżka tabeli: system.lakeflow.jobs |
Tak | 365 dni | Regionalne |
| Zdarzenia lejka sprzedażowego w Marketplace (wersja testowa) | Obejmuje dane dotyczące wyobrażeń konsumentów i danych lejka sprzedażowego dla Twoich ofert. Ścieżka tabeli: system.marketplace.listing_funnel_events |
Tak | 365 dni | Regionalne |
| Dostęp do ofert w Marketplace (publiczna wersja zapoznawcza) | Zawiera informacje dla konsumentów dotyczące zakończonych zdarzeń żądania danych lub uzyskania danych w twoich ofertach. Ścieżka tabeli: system.marketplace.listing_access_events |
Tak | 365 dni | Regionalne |
| Metadane eksperymentu śledzenia MLflow (publiczna wersja zapoznawcza) | Każdy wiersz reprezentuje eksperyment utworzony w systemie MLflow zarządzanym przez usługę Databricks. Ścieżka tabeli: system.mlflow.experiments_latest |
Tak | 180 dni | Regionalne |
| Metadane przebiegu śledzenia MLflow (publiczna wersja zapoznawcza) | Każdy wiersz reprezentuje przebieg utworzony w systemie MLflow zarządzanym przez usługę Databricks. Ścieżka tabeli: system.mlflow.runs_latest |
Tak | 180 dni | Regionalne |
| Metryki przebiegu śledzenia MLflow (publiczna wersja zapoznawcza) | Przechowuje metryki czasowników zarejestrowane w usłudze MLflow skojarzone z danym trenowanie, ewaluacją lub opracowywaniem agentów. Ścieżka tabeli: system.mlflow.run_metrics_history |
Tak | 180 dni | Regionalne |
| Model obsługujący dane punktu końcowego (publiczna wersja zapoznawcza) | Wolno zmieniająca się tabela wymiarów, która przechowuje metadane dla każdego obsługiwanego modelu podstawowego w punkcie końcowym obsługującym model. Ścieżka tabeli: system.serving.served_entities |
Tak | 365 dni | Regionalne |
| Wykorzystanie punktu końcowego w obsłudze modelu (publiczna wersja zapoznawcza) | Przechwytuje liczbę tokenów dla każdego żądania do punktu końcowego obsługiwanego przez model i jego odpowiedzi. Aby przechwycić użycie punktu końcowego w tej tabeli, należy włączyć śledzenie użycia w serwerowym punkcie końcowym. Ścieżka tabeli: system.serving.endpoint_usage |
Tak | 90 dni | Regionalne |
| Zdarzenia dostępu do sieci (ruch przychodzący) ( publiczna wersja zapoznawcza) | Tabela, która rejestruje zdarzenie za każdym razem, gdy tylko przychodzący dostęp do obszaru roboczego jest blokowany przez politykę wejścia. Ścieżka tabeli: system.access.inbound_network |
Tak | 30 dni | Regionalne |
| Zdarzenia dostępu do sieci (ruch wychodzący) ( publiczna wersja zapoznawcza) | Tabela, która rejestruje zdarzenie za każdym razem, gdy wychodzący dostęp do Internetu zostanie odrzucony z Twojego konta. Ścieżka tabeli: system.access.outbound_network |
Tak | 365 dni | Regionalne |
| Oś czasu węzła | Przechwytuje metryki wykorzystania zasobów obliczeniowych dla wszystkich celów i zadań. Ścieżka tabeli: system.compute.node_timeline |
Tak | 90 dni | Regionalne |
| Typy węzłów | Przechwytuje obecnie dostępne typy węzłów przy użyciu podstawowych informacji o sprzęcie. Ścieżka tabeli: system.compute.node_types |
Nie. | Nieokreślony | Regionalne |
| Harmonogram aktualizacji potoku danych (publiczna wersja zapoznawcza) | Śledzi czas rozpoczęcia i zakończenia oraz zasoby obliczeniowe używane na potrzeby aktualizacji potoku. Ścieżka tabeli: system.lakeflow.pipeline_update_timeline |
Tak | 365 dni | Regionalne |
| Rurociągi (wersja publiczna zapoznawcza) | Śledzi wszystkie przepływy pracy utworzone na koncie. Ścieżka tabeli: system.lakeflow.pipelines |
Tak | 365 dni | Regionalne |
| Optymalizacja predykcyjna (publiczna wersja zapoznawcza) | Śledzi historię operacji funkcji optymalizacji predykcyjnej. Ścieżka tabeli: system.storage.predictive_optimization_operations_history |
Nie. | 180 dni | Regionalne |
| Cennik | Historyczny dziennik cen jednostek SKU. Rekord jest dodawany za każdym razem, gdy następuje zmiana ceny jednostki SKU. Ścieżka tabeli: system.billing.list_prices |
Nie. | Nieokreślony | Globalny |
| Historia zapytań (publiczna wersja zapoznawcza) | Przechwytuje rekordy wszystkich uruchamianych zapytań zarówno w magazynach SQL, jak i obliczeniach bezserwerowych, dotyczących notesów i zadań. Ścieżka tabeli: system.query.history |
Nie. | 365 dni | Regionalne |
| Zdarzenia usługi SQL Warehouse (publiczna wersja zapoznawcza) | Przechwytuje zdarzenia związane z magazynami SQL. Na przykład uruchamianie, zatrzymywanie, działanie, skalowanie w górę i w dół. Ścieżka tabeli: system.compute.warehouse_events |
Tak | 365 dni | Regionalne |
| Magazyny SQL (publiczna wersja zapoznawcza) | Zawiera pełną historię konfiguracji w czasie dla dowolnego magazynu SQL. Ścieżka tabeli: system.compute.warehouses |
Tak | 365 dni | Regionalne |
| Pochodzenie tabeli | Zawiera rekord dla każdego zdarzenia odczytu lub zapisu w tabeli lub ścieżce katalogu Unity. Ścieżka tabeli: system.access.table_lineage |
Tak | 365 dni | Regionalne |
| Obszary robocze (publiczna wersja zapoznawcza) | Tabela workspaces_latest to wolno zmieniająca się tabela wymiarów metadanych dla wszystkich obszarów roboczych na koncie. Ścieżka tabeli: system.access.workspaces_latest |
Nie. | Nieokreślony | Globalny |
| Zerobus Ingest (Strumienie) (Beta) | Tabela, w której są przechowywane wszystkie dane związane z zdarzeniami transmisji danych spowodowanymi korzystaniem z Zerobus Ingest. Ścieżka tabeli: system.lakeflow.zerobus_stream |
Tak | 365 dni | Regionalne |
| Zerobus Ingest (Ingestion) (wersja beta) | Tabela, która przechowuje wszystkie dane związane z rekordami przetwarzanych za pomocą Zerobus Ingest. Ścieżka tabeli: system.lakeflow.zerobus_ingest |
Tak | 365 dni | Regionalne |
Tabele dotyczące rozliczeń i wycen są dostępne bezpłatnie. Tabele w publicznej wersji zapoznawczej są również bezpłatne do użycia podczas korzystania z wersji zapoznawczej, ale w przyszłości mogą być naliczane opłaty.
Uwaga
Oprócz wymienionych powyżej tabel systemowych na koncie mogą być widoczne inne tabele systemowe. Te tabele są obecnie w prywatnej wersji zapoznawczej i są domyślnie puste. Jeśli interesuje Cię użycie dowolnej z tych tabel, skontaktuj się z zespołem ds. kont usługi Databricks.
relacje tabel systemowych
Na poniższym diagramie relacji między jednostkami opisano, jak obecnie dostępne tabele systemowe są ze sobą powiązane. Ten diagram przedstawia klucze podstawowe i obce każdej tabeli.
Włączanie tabel systemowych
Ponieważ tabele systemowe są zarządzane przez Unity Catalog, musisz mieć co najmniej jeden obszar roboczy z obsługą Unity Catalog na swoim koncie, aby włączyć tabele systemowe konta. Tabele systemowe zawierają dane ze wszystkich obszarów roboczych na twoim koncie, ale można uzyskać do nich dostęp tylko z obszaru roboczego z włączonym Unity Catalog.
Aby uzyskać dostęp do tabel systemowych, metamagazyn musi znajdować się w Modelu Uprawnień Unity Catalog w wersji 1.0. Zobacz Uaktualnianie dziedziczenia uprawnień.
Udzielanie dostępu do tabel systemowych
Dostęp do tabel systemowych jest regulowany przez Unity Catalog. Administratorzy kont mają domyślnie dostęp do tabel systemowych. Aby umożliwić użytkownikowi wykonywanie zapytań dotyczących tabel systemowych, administrator musi przyznać temu użytkownikowi USE i SELECT uprawnienia do schematów systemowych. Zobacz Zarządzanie uprawnieniami w Unity Catalog.
Tabele systemowe są tylko do odczytu i nie można ich modyfikować.
Uwaga
Jeśli twoje konto zostało utworzone po 9 listopada 2023 r., być może nie masz domyślnie administratora magazynu metadanych. Aby uzyskać więcej informacji, zobacz Wprowadzenie do Unity Catalog.
Czy tabele systemowe zawierają dane dla wszystkich obszarów roboczych na twoim koncie?
Tabele systemowe zawierają dane operacyjne dla wszystkich obszarów roboczych na koncie wdrożonym w tym samym regionie chmury. Niektóre tabele zawierają dane globalne. Aby uzyskać szczegółowe informacje, zobacz listę dostępnych tabel.
Systemowe tabele są dostępne tylko przez obszar roboczy Unity Catalogu, ale zawierają dane operacyjne z obszarów roboczych nieskanowanych przez Unity Catalog w Twoim koncie.
Gdzie są przechowywane dane tabeli systemowej?
Dane tabel systemowych twojego konta są przechowywane na koncie magazynu hostowanym w usłudze Azure Databricks, znajdującym się w tym samym regionie co twój metamagazyn. Dane zostały bezpiecznie udostępnione przy użyciu Delta Sharing.
Każda tabela ma bezpłatny okres przechowywania danych. Aby uzyskać szczegółowe informacje, zobacz kolumnę Bezpłatny okres przechowywania w artykule Jakie tabele systemowe są dostępne?.
Gdzie znajdują się tabele systemowe w Eksploratorze wykazu?
Tabele systemowe na twoim koncie znajdują się w katalogu o nazwie system, który jest uwzględniony w każdym metastore katalogu Unity. W wykazie system zobaczysz schematy, takie jak access i billing zawierające tabele systemowe.
Rozważania dotyczące tabel systemowych przesyłanych strumieniowo
Usługa Azure Databricks używa funkcji Delta Sharing do udostępniania danych tabeli systemowej klientom. Podczas przesyłania strumieniowego z wykorzystaniem Delta Sharing należy pamiętać o następujących kwestiach:
- Jeśli używasz przesyłania strumieniowego z tabelami systemowymi, ustaw opcję
skipChangeCommitsnatrue. Gwarantuje to, że zadanie streamingu nie jest zakłócane przez usunięcia w tabelach systemowych. Zobacz Ignorowanie aktualizacji i usuwanie. -
Trigger.AvailableNownie jest obsługiwane w przypadku przesyłania strumieniowego Delta Sharing. Zostanie on przekonwertowany naTrigger.Once. - Tabele systemowe używają domyślnego 7-dniowego przechowywania
VACUUM(zobacz Konfigurowanie przechowywania danych dla zapytań dotyczących podróży w czasie), co oznacza, że zapytanie przesyłane strumieniowo może spowodować przerwanie, jeśli opóźni się o więcej niż 7 dni. Monitoruj strumienie, aby upewnić się, że są zgodne z najnowszą wersją tabeli systemowej.
Jeśli używasz wyzwalacza w zadaniu przesyłania strumieniowego i okaże się, że nie nadrabia zaległości do najnowszej wersji tabeli systemu, usługa Databricks zaleca zwiększenie zaplanowanej częstotliwości zadania.
Odczytywanie przyrostowych zmian z tabel systemu przesyłania strumieniowego
spark.readStream.option("skipChangeCommits", "true").table("system.billing.usage")
Znane problemy
- Nowe kolumny mogą być dodawane do istniejących tabel systemowych w dowolnym momencie. Zapytania korzystające ze stałego schematu mogą spowodować przerwanie, jeśli zostaną wprowadzone nowe kolumny. Istniejące kolumny nie zostaną zmienione ani usunięte. Jeśli piszesz dane tabeli systemu do innej tabeli docelowej, rozważ włączenie ewolucji schematu.
- Brak obsługi monitorowania w czasie rzeczywistym. Dane są aktualizowane przez cały dzień. Jeśli nie widzisz dziennika dla ostatniego zdarzenia, sprawdź ponownie później.
-
__internal_loggingSchemat tabeli systemowej obsługuje rejestrowanie danych ładunkowych przy użyciu tabel inferencyjnych z obsługą bramy AI dla modeli zewnętrznych oraz obciążeń związanych z przydzieloną przepustowością. Ten schemat jest widoczny dla administratorów kont, ale nie można go włączyć i nie należy go używać w przypadku przepływów pracy klienta.
- Aby włączyć tabele systemowe, może być konieczne przyznanie dostępu sieciowego do punktu końcowego magazynu Blob. Aby wyświetlić listę punktów końcowych magazynu tabel systemowych każdego regionu, zobacz Adresy IP punktu końcowego magazynu.
- Schematy systemowe
system.operational_dataisystem.lineagesą przestarzałe i będą zawierać puste tabele.