本文說明 Azure Databricks 中的系統數據表概念,並醒目提示可用來充分利用系統數據表數據的資源。
什麼是系統數據表?
系統數據表是 Azure Databricks 裝載於system 目錄中的您帳戶操作數據的分析存放區。 系統資料表可用於帳戶的歷史觀察性。
注意
資訊結構表(system.information_schema)的運作方式與其他系統表不同。 請參閱 資訊架構。
需求
- 若要存取系統數據表,您的工作區必須啟用 Unity 目錄。 欲了解更多資訊,請參閱 啟用系統資料表。
- 下列區域無法使用系統資料表:
- Azure 中國區域
- Azure Government 區域
- 印度西部
- 瑞士西部
哪些系統數據表可供使用?
目前,Azure Databricks 會裝載下列系統數據表:
| 桌子 | 描述 | 支援串流 | 免費保留期間 | 包含全域或區域資料 |
|---|---|---|---|---|
| 稽核記錄 (公開預覽) | 包含您區域中工作區所有稽核事件的記錄。 如需可用稽核事件的清單,請參閱 診斷記錄參考。 表格路徑: system.access.audit |
是的 | 365 天 | 工作區層級事件的區域性。 事件適用於帳戶層級的全域範圍。 |
| 計費使用量 | 包含帳戶中所有可計費使用量的記錄。 表格路徑: system.billing.usage |
是的 | 365 天 | 全球 |
| 無塵室活動 (公開預覽) | 擷取與潔淨室相關的事件。 表格路徑: system.access.clean_room_events |
是的 | 365 天 | 區域性 |
| 叢集 | 緩時變維度數據表,其中包含任何叢集一段時間計算組態的完整歷程記錄。 | 是的 | 365 天 | 區域性 |
| 欄位譜系 | 在 Unity 目錄資料行上包含每個讀取或寫入事件的記錄(但不包含沒有來源的事件)。 表格路徑: system.access.column_lineage |
是的 | 365 天 | 區域性 |
| 資料分類結果 (Beta 版) | 儲存中繼存放區中已啟用目錄的敏感性資料類別的資料行層級偵測。 表格路徑: system.data_classification.results |
不 | 365 天 | 區域性 |
| 資料品質監控結果 (Beta 版) | 將資料品質監控檢查的結果 (新鮮度、完整性) 和事件資訊 (包括下游影響和根本原因分析) 儲存在中繼存放區中已啟用的資料表。 表格路徑: system.data_quality_monitoring.table_results |
不 | 無限期 | 區域性 |
| Databricks Assistant 活動 (公開預覽) | 追蹤傳送至 Databricks Assistant 的使用者訊息。 表格路徑: system.access.assistant_events |
不 | 365 天 | 區域性 |
| Delta 共享資料具體化事件 | 擷取從檢視、具體化檢視和串流數據表共用建立的數據具體化事件。 表格路徑: system.sharing.materialization_history |
是的 | 365 天 | 工作區層級事件的區域性。 |
| 工作執行時間軸 (公開預覽) | 追蹤工作執行的開始和結束時間。 表格路徑: system.lakeflow.job_run_timeline |
是的 | 365 天 | 區域性 |
| 工作任務時間軸 (公開預覽) | 追蹤用於工作任務執行的開始和結束時間和運算資源。 表格路徑: system.lakeflow.job_task_run_timeline |
是的 | 365 天 | 區域性 |
| 工作任務 (公開預覽) | 追蹤在帳戶中執行的所有工作任務。 表格路徑: system.lakeflow.job_tasks |
是的 | 365 天 | 區域性 |
| 職位 (公開預覽) | 追蹤所有在帳戶中建立的任務。 表格路徑: system.lakeflow.jobs |
是的 | 365 天 | 區域性 |
| Marketplace 漏斗圖事件 (公開預覽) | 包含商品清單的消費者印象和漏斗資料。 表格路徑: system.marketplace.listing_funnel_events |
是的 | 365 天 | 區域性 |
| Marketplace 清單存取權 (公開預覽) | 包含消費者資訊,用於已完成 要求數據 或 取得資料 事件於您的清單上。 表格路徑: system.marketplace.listing_access_events |
是的 | 365 天 | 區域性 |
| MLflow 追蹤實驗中繼資料 (公開預覽版) | 每一列都代表在 Databricks 管理的 MLflow 系統中建立的實驗。 表格路徑: system.mlflow.experiments_latest |
是的 | 180 天 | 區域性 |
| MLflow 追蹤執行中繼資料 (公開預覽版) | 每個資料列都代表在 Databricks 管理的 MLflow 系統中建立的執行。 表格路徑: system.mlflow.runs_latest |
是的 | 180 天 | 區域性 |
| MLflow 追蹤執行計量 (公開預覽) | 保留記錄至與指定模型定型、評估或代理程式開發相關聯的 MLflow 的時間序列計量。 表格路徑: system.mlflow.run_metrics_history |
是的 | 180 天 | 區域性 |
| 模型服務端點資料 (公開預覽) | 緩慢變更的維度表,將每個服務基礎模型的中繼資料儲存在模型服務端點。 表格路徑: system.serving.served_entities |
是的 | 365 天 | 區域性 |
| 模型服務端點的使用量 (公開預覽) | 擷取每次對模型服務端點的要求及其回應的令牌計數。 若要擷取此資料表中的端點使用量,您必須 啟用服務端點上的使用量追蹤。 表格路徑: system.serving.endpoint_usage |
是的 | 90 天 | 區域性 |
| 網路存取事件 (輸入) (公開預覽版) | 一個資料表記錄每次入口原則拒絕對工作區的入埠存取的事件。 表格路徑: system.access.inbound_network |
是的 | 30 天 | 區域性 |
| 網路存取事件 (輸出) (公開預覽) | 每次您的帳戶被拒絕向外的網際網路存取時,一張表格會記錄該事件。 表格路徑: system.access.outbound_network |
是的 | 365 天 | 區域性 |
| 節點時間軸 | 擷取通用和工作運算資源使用情況的相關數據。 表格路徑: system.compute.node_timeline |
是的 | 90 天 | 區域性 |
| 節點類型 | 使用基本硬體資訊擷取目前可用的節點類型。 表格路徑: system.compute.node_types |
不 | 無限期 | 區域性 |
| 管線更新時間表 (公開預覽) | 追蹤用於管線更新的開始和結束時間以及運算資源。 表格路徑: system.lakeflow.pipeline_update_timeline |
是的 | 365 天 | 區域性 |
| 管線 (公開預覽) | 追蹤在帳戶中建立的所有管線。 表格路徑: system.lakeflow.pipelines |
是的 | 365 天 | 區域性 |
| 預測性最佳化 (公開預覽) | 追蹤預測性最佳化功能的操作歷程記錄。 表格路徑: system.storage.predictive_optimization_operations_history |
不 | 180 天 | 區域性 |
| 定價 | SKU 價格的歷程記錄。 凡是 SKU 價格變更,就會新增記錄。 表格路徑: system.billing.list_prices |
不 | 無限期 | 全球 |
| 查詢歷史記錄 (公開預覽) | 擷取在 SQL 倉儲和無伺服器計算上執行的所有查詢記錄,適用於 筆記本、 和 作業。 表格路徑: system.query.history |
不 | 365 天 | 區域性 |
| SQL 倉儲事件 (公開預覽) | 擷取與 SQL 倉儲相關的事件。 例如,啟動、停止、運行、擴大和縮小。 表格路徑: system.compute.warehouse_events |
是的 | 365 天 | 區域性 |
| SQL 倉儲 (公開預覽) | 包含任何 SQL 倉儲一段時間的組態完整歷程記錄。 表格路徑: system.compute.warehouses |
是的 | 365 天 | 區域性 |
| 表格譜系 | 在 Unity 目錄資料表或路徑上包含每個讀取或寫入事件的記錄。 表格路徑: system.access.table_lineage |
是的 | 365 天 | 區域性 |
| 工作區 (公開預覽) | workspaces_latest數據表是帳戶中所有工作區的緩時變維度數據表。 表格路徑: system.access.workspaces_latest |
不 | 無限期 | 全球 |
| Zerobus 匯入(串流)(測試版) | 一個儲存所有與 Zerobus Ingest 使用量相關的串流事件資料的表格。 表格路徑: system.lakeflow.zerobus_stream |
是的 | 365 天 | 區域性 |
| Zerobus Ingest(匯入)(測試版) | 一個儲存所有使用 Zerobus Ingest 所擷取紀錄相關資料的資料表。 表格路徑: system.lakeflow.zerobus_ingest |
是的 | 365 天 | 區域性 |
這些計費使用量和定價表可免費使用。 公開預覽版中的資料表也可以在預覽期間免費使用,但未來可能會產生費用。
注意
除了上面列出的系統表格之外,您可能會在帳戶中看到其他系統表格。 這些數據表目前為私人預覽版,預設為空白。 如果您有興趣使用上述任何數據表,請連絡您的 Databricks 帳戶小組。
系統數據表關聯性
下列實體關聯性圖表概述目前可用的系統資料表如何彼此相關。 此圖表會醒目提示每個數據表的主鍵和外鍵。
啟用系統資料表
由於系統資料表受 Unity 目錄管理,你需要在帳號中至少有一個啟用 Unity 目錄的工作區,才能啟用帳號的系統表。 系統數據表包含您帳戶中所有工作區的數據,但只能從已啟用 Unity 目錄的工作區存取這些數據。
中繼存放區必須在 Unity 目錄許可權模型 1.0 版上,才能存取系統數據表。 請參閱升級至權限繼承。
授與系統數據表的存取權
系統數據表的存取權是由 Unity 目錄所控管。 預設情況下,沒有使用者能存取系統資料表。 要讓使用者查詢系統資料表,同時也是帳號管理員的元商店管理員必須授予該使用者 USE 及 SELECT 系統結構的權限。 請參閱 在 Unity 目錄中管理許可權。
系統數據表是唯讀的,無法修改。
注意
如果帳戶是在 2023 年 11 月 9 日之後建立,您預設可能沒有中繼存放區管理員。 如需詳細資訊,請參閱 開始使用 Unity 目錄。
系統數據表是否包含您帳戶中所有工作區的數據?
系統數據表包含您帳戶中部署在相同雲端區域中之所有工作區的操作數據。 某些數據表包含全域數據。 如需詳細資訊,請參閱 可用數據表的清單。
雖然系統數據表只能透過 Unity 目錄工作區來存取,但它們包含您帳戶中非 Unity 目錄工作區的作數據。
系統數據表數據儲存在哪裡?
您的帳戶系統表格資料儲存在 Azure Databricks 託管的儲存帳戶中,該帳戶位於與您的中繼資料庫相同的區域。 使用 Delta Sharing 安全地與您共用資料。
每個數據表都有免費的數據保留期間。 如需詳細資訊,請參閱哪些系統表格可用?中的免費保留期間欄。
系統資料表位於目錄瀏覽器的哪裡?
您的帳戶中的系統數據表位於名為 system的目錄中,每個 Unity 目錄中繼存放區都包含此目錄。 在 system 目錄中,您會看到例如 access 和 billing 這樣的架構,其中 billing 包含系統數據表。
串流系統數據表的考慮
Azure Databricks 使用 Delta Sharing 與客戶共用系統數據表數據。 使用 Delta Sharing 串流時,請注意下列考量事項:
- 如果您正在串流並搭配系統資料表,請將
skipChangeCommits選項設定為true。 這可確保串流作業不會因系統數據表中的刪除而中斷。 請參閱忽略更新和刪除。 - 在 Delta Sharing 串流中,
Trigger.AvailableNow是不受支援的。 它會轉換成Trigger.Once。
如果您在串流作業中使用觸發程式,並發現它無法趕上最新的系統數據表版本,Databricks 建議增加作業的排程頻率。
從串流系統資料表讀取增量變更
spark.readStream.option("skipChangeCommits", "true").table("system.billing.usage")
已知問題
- 新的數據行可以隨時新增至現有的系統數據表。 如果引進新的數據行,依賴固定架構的查詢可能會中斷。 現有的欄位不會改變或被移除。 如果您要將系統數據表數據寫入另一個目標數據表,請考慮 啟用架構演進。
- 不支援即時監視。 資料會全天更新。 如果您沒有看到最近事件的記錄檔,請稍後返回。
- 系統
__internal_logging數據表架構支援使用 已啟用 AI 閘道的推斷資料表 進行外部模型和布建輸送量工作負載的承載記錄。 帳戶管理員可以看到此架構,但無法啟用,且不應該用於客戶工作流程。
- 若要啟用系統數據表,您可能需要將網路存取權授與系統數據表 Blob 記憶體端點。 若要檢視每個區域系統資料表的記憶體端點清單,請參閱 記憶體端點 IP 位址。
- 系統架構
system.operational_data和system.lineage已被取代,且將包含空白數據表。