Azure Databricks 資料表

Azure Databricks 支援多種資料表類型與儲存格式,以滿足不同的資料管理需求。 關於資料表類型、儲存格式及 Unity 目錄整合的概述,請參見 Azure Databricks 表格概念

數據表類型

探索各種資料管理案例的不同資料表類型及其功能。

數據表類型 Description
Azure Databricks 中 Unity Catalog 管理的 Delta Lake 和 Apache Iceberg 表格 Azure Databricks 管理需要優化效能的新資料表的元資料與資料檔案。
暫存資料表 會話範圍的 Unity Catalog 管理中介資料表。 僅限於 SQL 倉庫。
處理外部數據表格 資料儲存在外部系統中。 Unity Catalog 只管理元資料。
使用外部資料表 只讀存取透過 Lakehouse Federation 連接的外部系統中的資料。

儲存格式

使用支援進階資料管理功能的開放表格格式。

格式 Description
三角洲湖 預設儲存格式,包含 ACID 交易、時間旅行及結構強制執行,適用於管理與外部資料表。
阿帕奇冰山 開放表格格式,與 Iceberg 生態系統集成,支持高級元數據管理。

資料表管理

設定和最佳化資料表行為、結構和效能。

特徵 / 功能 Description
表格限制 使用檢查約束而不是空值約束來定義和強制執行數據質量規則。
結構描述強制執行 控制 Azure Databricks 在寫入時如何處理結構變更與資料型別強制執行。
表格分割 透過分割區鍵來組織數據,以提高查詢效能和資料管理。
表格大小監控 監視和分析資料表儲存體使用量和成長模式。
將外部轉換為受控 將外部資料表移轉至受管理資料表,以改善效能和管理。
外部分割區探索 自動發現並註冊儲存在雲端儲存中的外部表中的分割區。