下載 Lakehouse 參考架構

本文涵蓋 Lakehouse 的數據源、擷取、轉換、查詢和處理、服務、分析/輸出和記憶體等架構指引。

每個參考架構都有 11 x 17 (A3) 格式的可下載 PDF。

一般參考架構

Lakehouse 的一般參考架構

下載:Databricks 的泛型 Lakehouse 參考架構 (PDF)

參考架構的組織

參考架構會沿著泳道來源、擷取轉換查詢和程式服務分析和 儲存體 進行結構化:

  • 來源

    此架構區分半結構化和非結構化數據(感測器和IoT、媒體、檔案/記錄),以及結構化數據(RDBMS、商務應用程式)。 SQL 來源 (RDBMS) 也可以透過 Lakehouse 同盟整合至 Lakehouse 和 Unity 目錄,而不需要 ETL。 此外,數據可能會從其他雲端提供者載入。

  • 攝取

    數據可以透過批次或串流擷取到 Lakehouse:

  • Storage

    數據通常會儲存在雲端儲存系統中,其中 ETL 管線會使用 獎章架構 ,以策展方式儲存數據,作為 Delta 檔案/資料表

  • 轉換查詢和處理

    Databricks Lakehouse 會針對所有轉換和查詢使用其引擎 Apache SparkPhoton

    由於簡單起見,宣告式架構 DLT (Delta Live Tables) 是建置可靠、可維護且可測試的數據處理管線的絕佳選擇。

    Databricks Data Intelligence Platform 由 Apache Spark 和 Photon 提供,可支援這兩種類型的工作負載:透過 SQL 倉儲進行 SQL 查詢,以及透過工作區 叢集的 SQL、Python 和 Scala 工作負載。

    對於數據科學(ML 模型化和 Gen AI),Databricks AI 和 機器學習 平臺提供適用於 AutoML 和編碼 ML 作業的特製化 ML 運行時間。 MLflow 最能支援所有數據科學和 MLOps 工作流程

  • 服務

    針對 DWH 和 BI 使用案例,Databricks Lakehouse 會提供 Databricks SQL、由 SQL 倉儲無伺服器 SQL 倉儲提供的數據倉儲。

    針對機器學習服務, 模型服務 是可調整、即時、企業級的模型,其服務功能裝載於 Databricks 控制平面中。

    操作資料庫: 外部系統,例如操作資料庫,可用來儲存和傳遞最終數據產品給用戶應用程式。

    共同作業:商務合作夥伴可透過 Delta Sharing 安全地存取所需的數據。 根據差異共用, Databricks Marketplace 是交換數據產品的開放論壇。

  • 分析

    最終的商業應用程式位於此泳道中。 範例包括自定義用戶端,例如連線至 Databricks 模型服務的 AI 應用程式,以進行即時推斷,或存取從 Lakehouse 推送至操作資料庫之數據的應用程式。

    針對 BI 使用案例,分析師通常會使用 BI 工具來存取數據倉儲。 SQL 開發人員也可以另外使用 Databricks SQL 編輯器 (未顯示在圖表中)進行查詢和儀錶板。

    Data Intelligence Platform 也提供 儀錶板 來建置數據視覺效果並共用見解。

工作負載的功能

此外,Databricks Lakehouse 隨附可支援所有工作負載的管理功能:

  • 數據和 AI 治理

    Databricks Data Intelligence Platform 中的中央數據和 AI 治理系統是 Unity 目錄。 Unity 目錄提供單一位置來管理適用於所有工作區的數據存取原則,並支援在 Lakehouse 中建立或使用的所有資產,例如數據表、磁碟區、功能(功能存放區)和模型(模型登錄)。 Unity 目錄也可以用來 擷取在 Databricks 上執行的查詢之間的運行時間數據歷程

    Databricks Lakehouse 監視 可讓您監視帳戶中所有數據表中的數據品質。 它也可以追蹤機器學習模型和模型服務端點的效能。

    針對可觀察性, 系統數據表 是帳戶作業數據的 Databricks 裝載分析存放區。 系統數據表可用於帳戶的歷程記錄可觀察性。

  • 數據智能引擎

    Databricks Data Intelligence Platform 可讓整個組織使用數據和 AI。 它由 DatabricksIQ 提供技術支援,並結合產生 AI 與 Lakehouse 的統一優點,以了解數據的獨特語意。

    Databricks Assistant 可在 Databricks 筆記本、SQL 編輯器和檔案編輯器中取得,做為開發人員的內容感知 AI 助理。

  • 協調流程

    Databricks 工作流程 會在 Databricks Data Intelligence Platform 上協調數據處理、機器學習和分析管線。 工作流程已完全受控協調流程服務整合到 Databricks 平臺,包括 Databricks 作業 ,以在 Databricks 工作區和 Delta Live Tables 中執行非互動式程式代碼,以建置可靠且可維護的 ETL 管線。

Azure 上的 Data Intelligence Platform 參考架構

Azure Databricks 參考架構衍生自泛型參考架構,方法是新增來源、內嵌、服務、分析/輸出和 儲存體 元素的 Azure 特定服務。

Azure Databricks Lakehouse 的參考架構

下載:Azure 上 Databricks lakehouse 的參考架構

Azure 參考架構顯示下列適用於內嵌、儲存體、服務和分析/輸出的 Azure 特定服務:

  • Azure Synapse 和 SQL Server 作為 Lakehouse 同盟的來源系統
  • 用於串流內嵌的 Azure IoT 中樞 和 Azure 事件中樞
  • 用於批次內嵌的 Azure Data Factory
  • Azure Data Lake 儲存體 Gen 2 (ADLS) 作為物件記憶體
  • Azure SQL DB 和 Azure Cosmos DB 作為操作資料庫
  • Azure Purview 作為 UC 將匯出架構和譜系資訊的企業目錄
  • Power BI 作為 BI 工具

注意

  • 此參考架構檢視僅著重於 Azure 服務和 Databricks Lakehouse。 Databricks 上的 Lakehouse 是一個開放平臺,可與 合作夥伴工具的大型生態系統整合。
  • 顯示的雲端提供者服務並不詳盡。 系統會選取它們來說明概念。

使用案例:Batch ETL

Azure Databricks 上的批次 ETL 參考架構

下載:適用於 Azure Databricks 的 Batch ETL 參考架構

擷取工具會使用來源特定的配接器來讀取來源的數據,然後儲存在雲端記憶體中,自動載入器可以從中讀取數據,或直接呼叫 Databricks (例如,合作夥伴內嵌工具整合到 Databricks Lakehouse 中)。 若要載入數據,Databricks ETL 和處理引擎會透過 DLT 執行查詢。 單一或多任務作業可由 Databricks 工作流程協調,並由 Unity 目錄管理(存取控制、稽核、譜系等等)。 如果低延遲的操作系統需要存取特定的黃金數據表,則可以匯出至作業資料庫,例如 ETL 管線結尾的 RDBMS 或索引鍵/值存放區。

使用案例:串流和異動數據擷取 (CDC)

Azure Databricks 上的 Spark 結構化串流架構

下載:適用於 Azure Databricks 的 Spark 結構化串流架構

Databricks ETL 引擎會使用 Spark 結構化串流從 Apache Kafka 或 Azure 事件中樞等事件佇列讀取。 下游步驟遵循上述 Batch 使用案例的方法。

實時變更數據擷取 (CDC) 通常會使用事件佇列來儲存擷取的事件。 從該處,使用案例會遵循串流使用案例。

如果 CDC 是以第一次將擷取的記錄儲存在雲端記憶體的批次中完成,則 Databricks 自動載入器可以讀取這些記錄,而使用案例會遵循 Batch ETL。

使用案例:機器學習和 AI

適用於 Azure Databricks 的機器學習和 AI 參考架構

下載:適用於 Azure Databricks 的機器學習和 AI 參考架構

針對機器學習,Databricks Data Intelligence 平臺提供馬賽克 AI,其隨附最先進的機器學習和深度學習連結庫。 它提供功能存放區和模型登錄等功能(兩者都整合至 Unity 目錄)、使用 AutoML 的低程式代碼功能,以及 MLflow 整合到數據科學生命週期中。

所有數據科學相關資產(數據表、功能和模型)都受到 Unity 目錄的控管,數據科學家可以使用 Databricks 工作流程來協調其工作。

若要以可調整且企業級的方式部署模型,請使用 MLOps 功能在模型服務中發佈模型。

使用案例:擷取擴增世代(Gen AI)

適用於 Azure Databricks 的 Gen AI RAG 參考架構

下載:適用於 Azure Databricks 的 Gen AI RAG 參考架構

針對產生式 AI 使用案例,馬賽克 AI 隨附最先進的連結庫和特定的 Gen AI 功能,從提示工程到微調現有模型,以及從頭開始預先定型。 上述架構示範如何整合向量搜尋來建立RAG(擷取增強世代)AI 應用程式的範例。

若要以可調整且企業級的方式部署模型,請使用 MLOps 功能在模型服務中發佈模型。

使用案例:BI 和 SQL 分析

適用於 Azure Databricks 的 BI 和 SQL 分析參考架構

下載:適用於 Azure Databricks 的 BI 和 SQL 分析參考架構

針對 BI 使用案例,商務分析師可以使用儀錶板、Databricks SQL 編輯器或 Tableau 或 Power BI 等特定 BI 工具。 在所有情況下,引擎都是 Databricks SQL(無伺服器或非無伺服器),而且 Unity 目錄會提供數據探索、探索和存取控制。

使用案例:Lakehouse 同盟

Azure Databricks 的 Lakehouse 同盟參考架構

下載:適用於 Azure Databricks 的 Lakehouse 同盟參考架構

Lakehouse 同盟可讓外部數據 SQL 資料庫(例如 MySQL、Postgres、SQL Server 或 Azure Synapse)與 Databricks 整合。

所有工作負載(AI、DWH 和 BI)都可以從中受益,而不需要先將數據 ETL 儲存到物件記憶體。 外部來源目錄會對應至 Unity 目錄,而且可套用更細緻的訪問控制,以透過 Databricks 平臺存取。

使用案例:企業數據共用

Azure Databricks 的企業數據共享參考架構

下載:Azure Databricks 的企業數據共享參考架構

企業級數據共用是由 Delta Sharing 提供。 它提供直接存取 Unity 目錄所保護之物件存放區中的數據,而 Databricks Marketplace 是交換數據產品的開放論壇。