本文提供 Azure Databricks 中數據表、檢視、串流數據表和具體化檢視的概觀。
桌子
數據表是儲存在特定位置的結構化數據集。 在 Azure Databricks 中建立的預設數據表類型是 Unity 目錄受控數據表。 您可以使用 SQL 命令或 DataFrame API 來查詢和操作資料表,支援像 INSERT
、UPDATE
、DELETE
和 MERGE INTO
等作業。 請參閱 Azure Databricks 數據表簡介
查看
檢視是由不儲存數據的查詢所定義的虛擬表,能以特定格式或抽象方式呈現來自一或多個數據表的數據。 檢視有助於簡化複雜的查詢、封裝商業規則,以及為基礎數據提供一致的介面,而不需要複製記憶體。 請參閱 什麼是視圖?
具體化檢視
類似於檢視,具體化檢視是由查詢所定義。 不過,不同於檢視,具體化檢視會預先計算並儲存查詢的結果。 查詢可以在實體化檢視上比檢視更快地執行,但會佔用額外的存儲空間。 您可以使用 Databricks SQL 來建立和重新整理獨立具體化檢視,或使用 Lakeflow 宣告式管線來建立及重新整理一或多個具體化檢視、串流數據表和檢視。 請參閱 在 Databricks SQL 中使用具體化檢視 和 具體化檢視。
串流數據表
串流數據表是 Unity 目錄受控數據表的類型,其中包含使用 流程 來定義它的處理邏輯。 您可以使用 Databricks SQL 來建立及重新整理獨立串流數據表,或使用 Lakeflow 宣告式管線來建立及重新整理一或多個串流數據表、具體化檢視和檢視。 請參閱在 Databricks SQL 中使用串流數據表和串流數據表。
物化視圖與串流資料表
具體化檢視和串流數據表是用於數據工程的兩個通用數據物件。 具體化檢視會使用批次語意,而串流數據表會使用串流語意。 如需比較批次與串流,並考慮在數據工程工作負載中選擇批次或串流處理時的因素,請參閱 Azure Databricks 中的批次與串流數據處理。