Azure Databricks 提供多種資料表類型和儲存體格式,以滿足不同的資料管理需求。 本節涵蓋受管、外部和外部資料表,以及 Delta Lake 和 Apache Iceberg 儲存格式,這些格式支援原子性、一致性、隔離和持久性 (ACID) 交易和時間旅行等進階功能。
核心概念
瞭解資料表類型、儲存體格式和 Unity 目錄整合的基本概念。
| 主題 | Description |
|---|---|
| 表格概念 | 資料表類型、儲存體格式和 Unity 目錄整合的核心概念和基本資訊。 |
數據表類型
探索各種資料管理案例的不同資料表類型及其功能。
| 數據表類型 | Description |
|---|---|
| 適用於 Delta Lake 和 Apache Iceberg 的 Azure Databricks 中的 Unity 目錄受控數據表 | Azure Databricks 管理元資料和資料檔案。 用於需要優化效能的新資料表。 |
| 暫存資料表 | 會話範圍的 Unity Catalog 管理中介資料表。 僅限於 SQL 倉庫。 |
| 處理外部數據表格 | 資料儲存在外部系統中。 Unity Catalog 只管理元資料。 |
| 使用外部資料表 | 只讀存取透過 Lakehouse Federation 連接的外部系統中的資料。 |
儲存格式
使用提供進階資料管理功能的開放式表格格式。
| 格式 | Description |
|---|---|
| 三角洲湖 | 預設儲存格式,為受控和外部資料表提供 ACID 交易、時間旅行和結構描述強制執行。 |
| 阿帕奇冰山 | 開放表格格式,與 Iceberg 生態系統集成,支持高級元數據管理。 |
表格管理
設定和最佳化資料表行為、結構和效能。
| 特徵 / 功能 | Description |
|---|---|
| 表格限制 | 使用檢查約束而不是空值約束來定義和強制執行數據質量規則。 |
| 結構描述強制執行 | 控制 Azure Databricks 在寫入期間處理結構描述變更和資料類型強制執行的方式。 |
| 表格分割 | 透過分割區鍵來組織數據,以提高查詢效能和資料管理。 |
| 表格大小監控 | 監視和分析資料表儲存體使用量和成長模式。 |
| 將外部轉換為受控 | 將外部資料表移轉至受管理資料表,以改善效能和管理。 |
| 外部分割區探索 | 自動發現並註冊儲存在雲端儲存中的外部表中的分割區。 |