開始使用 Delta Lake

已完成

Delta Lake 是開放原始碼儲存層,可將關聯式資料庫語意新增至 Spark 型資料湖處理。 PySpark、Scala 與 .NET 程式碼的 Azure Synapse Analytics Spark 集區中支援 Delta Lake。

在 Azure Databricks 中使用 Delta Lake 的優點包括:

  • 支援查詢與資料修改的關聯式資料表。 使用 Delta Lake,您可以將資料儲存於支援 CRUD (建立、讀取、更新及刪除) 作業的資料表中。 換句話說,您可以「選取」、「插入」、「更新」及「刪除」資料列,就像在關聯式資料庫系統中一樣。
  • 支援 ACID 交易。 關聯式資料庫的設計訴求是支援交易資料修改,其提供「不可部分完成的作業」(以單一工作單位完成的交易)、「一致性」(交易讓資料庫保持一致狀態)、「隔離」(同處理序交易無法干擾彼此),以及「持久性」(在交易完成時,其所做的變更會持續)。 Delta Lake 藉由實作交易記錄並實施並行作業的可序列化隔離,為 Spark 帶來相同的交易支援。
  • 資料版本設定與「時間移動」。 因為所有交易都會記錄在交易記錄中,所以您可以追蹤每個資料表資料列的多個版本,甚至使用「時間移動」功能來擷取查詢中前一版本的資料列。
  • 支援批次與串流資料。 雖然大部分關聯式資料庫包含儲存靜態資料的資料表,但 Spark 包含透過 Spark 結構化串流 API 來串流資料的原生支援。 Delta Lake 資料表可以作為「接收器」(目的地) 與串流資料的「來源」
  • 標準格式與互通性。 Delta Lake 資料表的基礎資料會以 Parquet 格式儲存,通常用於資料湖擷取管線中。

提示

如需 Azure Databricks 中 Delta Lake 的詳細資訊,請參閱 Azure Databricks 說明文件中的 Delta Lake 指南