什麼是 Azure Databricks 上的資料倉儲?

數據倉儲是指從多個來源收集和儲存數據,以便快速存取商務見解和報告。 本文包含在 Data Lakehouse 中建置數據倉儲的重要概念。

Lakehouse 中的數據倉儲

Lakehouse 架構和 Databricks SQL 會將雲端數據倉儲功能帶入您的數據湖。 使用熟悉的數據結構、關聯性和管理工具,您可以建立高效能且符合成本效益的數據倉儲模型,直接在數據湖上執行。 如需詳細資訊,請參閱 什麼是 Data Lakehouse?

Lakehouse architecture with a top layer that includes data warehousing, data engineering, data streaming, and data science and ML

如同傳統數據倉儲,您可以根據商務需求建立數據模型,然後將數據用於分析和報告給終端使用者。 與傳統的數據倉儲不同,您可以避免將商務分析數據隔離,或建立快速過時的備援複本。

在 Lakehouse 內建置數據倉儲可讓您將所有數據帶入單一系統,並讓您利用 Unity 目錄和 Delta Lake 等功能。

Unity 目錄 新增整合治理模型,讓您可以保護及稽核數據存取,並提供下游數據表的譜系資訊。 Delta Lake 新增 ACID 交易和架構演進,以及其他功能強大的工具,可讓您的數據保持可靠、可調整且高品質。

什麼是 Databricks SQL?

注意

Azure 中國不提供 Databricks SQL Serverless。 Azure Government 區域中無法使用 Databricks SQL。

Databricks SQL 是一系列服務,可將數據倉儲功能和效能帶入現有的 Data Lake。 Databricks SQL 支援開放格式和標準 ANSI SQL。 平臺內 SQL 編輯器和儀錶板工具可讓小組成員直接與工作區中的其他 Databricks 使用者共同作業。 Databricks SQL 也與各種工具整合,讓分析師可以在慣用的環境中撰寫查詢和儀錶板,而不需要調整為新的平臺。

Databricks SQL 提供針對 Lakehouse 中數據表執行的一般計算資源。 Databricks SQL 是由 SQL 倉儲所提供,可提供與記憶體分離的可調整 SQL 計算資源。

如需 SQL 倉儲預設值和選項的詳細資訊,請參閱什麼是 SQL 倉儲?

Databricks SQL 與 Unity 目錄整合,讓您可以從一個位置探索、稽核及控管數據資產。 若要深入瞭解,請參閱 什麼是 Unity 目錄?

Azure Databricks 上的數據模型

Lakehouse 支援各種模型樣式。 下圖顯示如何在數據在湖屋的不同層移動時進行策劃和模型化。

A diagram showing various data models at each level of the medallion lakehouse archtecture.

Medallion 架構

獎章架構是一種數據設計模式,描述一系列累加精簡的數據層,以提供湖屋的基本結構。 青銅、銀層和金層意味著每個層級的數據質量都越來越高,黃金代表最高品質。 如需詳細資訊,請參閱 什麼是獎章湖屋架構?

在 Lakehouse 內,每個圖層都可以包含一或多個數據表。 數據倉儲會在銀層建立模型,並饋送黃金層中的特製化數據超市。

銅級層

數據可以透過批次或蒸汽交易的任何組合,以任何格式輸入您的 Lakehouse。 銅層會以原始格式提供您所有原始數據的登陸空間。 該數據會轉換成 Delta 資料表。

銀級層

銀層會將來自不同來源的數據結合在一起。 對於著重於數據科學和機器學習應用程式的一部分,這是您開始策劃有意義的數據資產的地方。 此程式通常會以專注在速度和靈活度上。

銀層也可讓您仔細整合來自不同來源的數據,以配合您現有的商務程式來建置數據倉儲。 通常,此數據會遵循第三個標準格式 (3NF) 或 Data Vault 模型。 指定主要和外鍵條件約束可讓使用者在使用 Unity 目錄時了解數據表關聯性。 您的數據倉儲應做為數據超市的單一事實來源。

數據倉儲本身是寫入和不可部分完成的架構。 它已針對變更進行優化,因此您可以在商務程式變更或發展時,快速修改數據倉儲,以符合您目前的需求。

金級層

金層是表示層,可以包含一或多個數據超市。 通常,數據超市是一組相關數據表形式的維度模型,可擷取特定商務觀點。

黃金層也包含部門和數據科學沙盒,以在整個企業啟用自助分析和數據科學。 提供這些沙盒及其各自的計算叢集,可防止商務小組在 Lakehouse 外部建立數據複本。

後續步驟

若要深入瞭解如何使用 Databricks 實作及操作 Lakehouse 的原則和最佳做法,請參閱 妥善架構的 Data Lakehouse 簡介。