分享方式:


Lakehouse 參考架構 (下載)

本文涵蓋數據源、擷取、轉換、查詢和處理、服務、分析和記憶體方面的 Lakehouse 架構指引。

每個參考架構都有 11 x 17 (A3) 格式的可下載 PDF。

雖然 Databricks 上的 Lakehouse 是一個開放平臺,可與 大型合作夥伴工具生態系統整合,但參考架構僅著重於 Azure 服務和 Databricks Lakehouse。 所顯示的雲端提供者服務會選取來說明概念,而且並不詳盡。

Azure Databricks lakehouse 的參考架構。

下載:Azure Databricks lakehouse 的參考架構

Azure 參考架構顯示下列用於引入、存儲、提供和分析的 Azure 特定服務:

  • 作為 Lakehouse 同盟來源系統的 Azure Synapse 和 SQL Server
  • 用於串流擷取的 Azure IoT 中樞和 Azure 事件中樞
  • 用於批次擷取的 Azure Data Factory
  • 用作物件儲存體的 Azure Data Lake Storage Gen 2 (ADLS)
  • 用作操作資料庫的 Azure SQL DB 和 Azure Cosmos DB
  • Azure Purview 作為 UC 匯出架構和譜系資訊的企業目錄
  • 用作 BI 工具的 Power BI

參考架構的組織

參考架構會沿著泳道 來源導入轉換查詢/處理服務分析儲存

  • 來源

    此架構可區分半結構化和非結構化資料 (感應器和IoT、媒體、檔案/記錄) 以及結構化資料 (RDBMS、商務應用程式)。 SQL 來源 (RDBMS) 也可以整合到 lakehouse 和 Unity 目錄,而不需要 ETL,透過 lakehouse 同盟。 此外,數據可能會從其他雲端提供者載入。

  • 擷取

    資料可以透過批次或串流擷取到 Lakehouse:

    • Databricks LakeFlow Connect 提供內建連接器,可從企業應用程式和資料庫匯入資料。 產生的擷取管線由 Unity Catalog 控管,並由無伺服器計算和 Delta Live Tables 驅動。
    • 傳遞至雲端儲存的檔案可以直接使用 Databricks Auto Loader 來載入。
    • 針對從企業應用程式到 Delta Lake 的批次資料擷取,Databricks lakehouse 依賴於合作夥伴擷取工具,它們具有適用於這些記錄系統的特定配接器。
    • 可以直接從事件串流系統擷取串流事件,例如使用 Databricks 結構化串流的 Kafka。 串流來源可以是感應器、IoT 或異動資料擷取程序。
  • Storage

    數據通常儲存在雲端儲存系統中,ETL 管線會使用 獎章架構,將數據以 Delta 檔案/數據表的方式經過精心整理後儲存。

  • 轉換查詢/處理

    Databricks Lakehouse 會針對所有轉換和查詢使用其引擎 Apache SparkPhoton

    DLT (Delta Live Tables)是一種宣告式架構,可簡化和優化可靠、可維護且可測試的數據處理管線。

    Databricks Data Intelligence Platform 由 Apache Spark 和 Photon 提供支援,可支援兩種類型的工作負載:透過 SQL 倉儲進行的 SQL 查詢,以及透過工作區叢集進行的 SQL、Python 和 Scala 工作負載。

    對資料科學 (ML 模型化和生成式 AI),Databricks AI 和機器學習平台提供適用於 AutoML 和編碼 ML 工作的特製化 ML 執行階段。 所有資料科學和 MLOps 工作流程都受到 MLflow 的最佳支援。

  • 服務

    針對 DWH 和 BI 使用案例,Databricks Lakehouse 會提供 Databricks SQLSQL 倉儲支援的資料倉儲以及無伺服器 SQL 倉儲

    針對機器學習,模型服務是可調整、即時、企業級的模型,服務於 Databricks 控制平面中託管的功能。 馬賽克 AI 閘道 是 Databricks 解決方案,可用來控管和監視支援的產生式 AI 模型及其相關聯的模型服務端點。

    操作資料庫:諸如操作資料庫等外部系統可用來儲存最終資料產品並傳遞給使用者應用程式。

    共同作業:商務合作夥伴可透過 Delta Sharing,安全地存取所需的數據。 以 Delta Sharing 為基礎,Databricks Marketplace 是用於交換資料產品的開放論壇。

  • 分析

    最終的商務應用程式就在此泳道中。 範例包括自訂用戶端,例如連線至 Mosaic AI 模型服務進行即時推斷的 AI 應用程式,或存取從 Lakehouse 到操作資料庫之資料推送的應用程式。

    針對 BI 使用案例,分析師通常會使用 BI 工具來存取資料倉儲。 SQL 開發人員也可以使用 Databricks SQL 編輯器 (未顯示在圖表中) 進行查詢和儀表板操作。

    Data Intelligence Platform 也提供儀表板來建置資料視覺效果並共用見解。

  • 整合

    • Databricks 平臺與標準身分識別提供者整合,適用於 使用者管理單一登錄 (SSO)

    • OpenAILangChainHuggingFace 等外部 AI 服務可以直接在 Databricks Intelligence Platform 內使用。

    • 外部協調器可以使用完整的 REST API,或者使用專用的連接器來連接到 Apache Airflow等外部協調工具。

    • Unity 目錄可用於 Databricks Intelligence Platform 中的所有資料 & AI 治理,並可透過 Lakehouse Federation,將其他資料庫整合到其治理中。

      此外,Unity 目錄也可以整合到其他企業目錄,例如 Purview。 如需詳細資訊,請連絡企業目錄廠商。

所有工作負載的常見功能

此外,Databricks Lakehouse 隨附可支援所有工作負載的管理功能:

  • 資料和 AI 治理

    Databricks 智能數據平台中的中央數據和 AI 治理系統是 Unity Catalog。 Unity 目錄提供單一位置來管理適用於所有工作區的數據存取原則,並支援在 Lakehouse 中建立或使用的所有資產,例如數據表、磁碟區、功能(功能存放區),以及模型(模型登錄)。 Unity 目錄也可以用來在 Databricks 上執行的查詢之間 擷取運行時間數據譜系

    Databricks lakehouse 監視 可讓您監視帳戶中所有數據表的數據品質。 它也可以追蹤機器學習模型和模型服務端點的效能。

    為了可觀察性,系統數據表 是帳戶作業數據的 Databricks 裝載分析存放區。 系統資料表可用於提供帳戶的歷史觀察性。

  • 資料智慧引擎

    Databricks Data Intelligence Platform 可讓整個組織使用資料和 AI。 它由 DatabricksIQ 提供支援,將生成式 AI 與 Lakehouse 的統一優勢相結合,以理解資料的獨特語意。

    Databricks Assistant 可在 Databricks 筆記本、SQL 編輯器和檔案編輯器中使用,做為開發人員的內容感知 AI 助理。

  • 自動化 & 協調流程

    Databricks 工作可在 Databricks Data Intelligence Platform 中協調資料處理、機器學習和分析管線。 Delta Live Tables 可讓您使用宣告式語法建置可靠且可維護的 ETL 管線。 平臺也支援 CI/CDMLOps

Azure 上 Data Intelligence Platform 的高階使用案例

Databricks LakeFlow Connect 提供內建連接器,可從企業應用程式和資料庫匯入資料。 產生的擷取管線由 Unity Catalog 控管,並由無伺服器計算和 Delta Live Tables 驅動。 LakeFlow Connect 利用有效率的累加式讀取和寫入,讓數據擷取更快、可調整且更具成本效益,而您的數據仍保持最新狀態以供下游取用。

使用案例:使用 Lakeflow Connect 導入資料:

在 Azure Databricks 上使用 Lakeflow Connect 進行資料引入 。

下載:適用於 Azure Databricks 的 Batch ETL 參考架構。

使用案例:批處理 ETL

Azure Databricks 上批次 ETL 的參考架構。

下載:Azure Databricks 的批處理 ETL 參考架構

擷取工具會使用專為來源設計的適配器來讀取來源數據,然後將其儲存在雲端儲存中,自動加載器可以從中讀取數據,或直接呼叫 Databricks(例如,與合作夥伴整合的匯入工具嵌入到 Databricks Lakehouse 中)。 若要載入資料,Databricks ETL 和處理引擎會透過 DLT 執行查詢。 單一或多任務的工作流程可以由 Databricks Jobs 編排,並由 Unity Catalog 管理(存取控制、稽核、譜系等)。 如果低延遲的作業系統需要存取特定的黃金表單,則可以將其匯出至作業資料庫,例如 ETL 管線結尾的 RDBMS 或鍵-值存儲。

使用案例:串流和異動資料擷取 (CDC)

Azure Databricks 上的 Spark 結構化串流架構。

下載:Azure Databricks 的 Spark 結構化串流架構

Databricks ETL 引擎會使用 Spark 結構化串流從 Apache Kafka 或 Azure 事件中樞等事件佇列中讀取。 下游步驟遵循上述批處理使用案例的方法。

即時異動資料擷取 (CDC) 通常會使用事件佇列來儲存擷取的事件。 從那裡開始,使用案例會遵循串流使用案例。

如果 CDC 是以將擷取的記錄先儲存在雲端儲存空間的批次中完成,則 Databricks 自動載入器可以讀取這些記錄,而使用案例會遵循批次 ETL。

使用案例:機器學習和 AI

適用於 Azure Databricks 的機器學習和 AI 參考架構。

下載:適用於 Azure Databricks 的機器學習和 AI 參考架構

針對機器學習,Databricks Data Intelligence Platform 提供 Mosaic AI,其隨附有最先進的機器學習和深度學習媒體庫。 它提供特徵存儲和模型登錄等功能(兩者都整合至 Unity 目錄)、使用 AutoML 的低代碼特性,以及 MLflow 整合到數據科學生命週期中。

所有數據科學相關資產(數據表、功能和模型)均受 Unity 目錄控管,數據科學家可以使用 Databricks 作業來協調其作業。

若要以可調整且企業級的方式部署模型,請使用 MLOps 功能在模型服務中發佈模型。

使用案例:Generative AI(Gen AI) 代理程式應用程式

Azure Databricks 的 Gen AI 應用程式參考架構。

下載:適用於 Azure Databricks 的 Gen AI 應用程式參考架構

針對生成式 AI 的使用案例,馬賽克 AI 配備最先進的函式庫和針對生成式 AI 的特定功能,涵蓋從提示工程到微調現有模型及從頭進行前期訓練的能力。 上述架構展示了一個範例,說明如何將向量搜尋整合到 RAG(檢索增強生成)中創建生成式 AI 應用程式。

若要以可調整且企業級的方式部署模型,請使用 MLOps 功能在模型服務中發佈模型。

使用案例:BI 和 SQL 分析

Azure Databricks 的 BI 和 SQL 分析參考架構。

下載:Azure Databricks 的 BI 和 SQL 分析參考架構

針對 BI 使用案例,商務分析師可以使用儀表板、Databricks SQL 編輯器或諸如 Tableau 或 Power BI 等特定 BI 工具。 在所有情況下,引擎是 Databricks SQL(無伺服器或非無伺服器),而 Unity Catalog 提供資料發現、探索和存取控制功能。

使用案例:Lakehouse 同盟

Azure Databricks 的 Lakehouse 同盟參考架構。

下載:Azure Databricks 的 Lakehouse 同盟參考架構

Lakehouse 同盟允許外部資料 SQL 資料庫 (例如 MySQL、Postgres、SQL Server 或 Azure Synapse) 與 Databricks 整合。

所有工作負載 (AI、DWH 和 BI) 可以從中受益,而不需要先將資料 ETL 到物件儲存體。 外部來源目錄已映射到 Unity 目錄,可以應用更細緻的訪問控制,通過 Databricks 平臺進行訪問。

使用案例:企業資料共用

Azure Databricks 的企業數據共享參考架構。

下載:Azure Databricks 的企業資料共用參考架構

企業級資料共用由 Delta Sharing 提供。 它提供直接存取 Unity 目錄所保護之物件存放區中的數據,而 Databricks Marketplace 是交換數據產品的開放論壇。