下載 Lakehouse 參考架構
本文從資料來源、擷取、轉換、查詢和處理、服務、分析/輸出以及記憶體等方面介紹 Lakehouse 的架構指引。
每個參考架構都有 11 x 17 (A3) 格式的可下載 PDF。
一般參考架構
下載:Databricks 的一般 Lakehouse 參考架構 (PDF)
參考架構的組織
參考架構的結構為來源、擷取、轉換、查詢和處理、服務、分析和儲存體:
來源
此架構可區分半結構化和非結構化資料 (感應器和IoT、媒體、檔案/記錄) 以及結構化資料 (RDBMS、商務應用程式)。 SQL 來源 (RDBMS) 也可以透過 Lakehouse 同盟整合到 Lakehouse 和 Unity Catalog,且無需 ETL。 此外,資料可能會從其他雲端提供者載入。
擷取
資料可以透過批次或串流擷取到 Lakehouse:
- 傳遞至雲端儲存的檔案可以直接使用 Databricks Auto Loader 來載入。
- 針對從企業應用程式到 Delta Lake 的批次資料擷取,Databricks lakehouse 依賴於合作夥伴擷取工具,它們具有適用於這些記錄系統的特定配接器。
- 可以直接從事件串流系統擷取串流事件,例如使用 Databricks 結構化串流的 Kafka。 串流來源可以是感應器、IoT 或異動資料擷取程序。
Storage
資料通常會儲存在雲端儲存系統中,其中 ETL 管線會使用獎章架構,以精心策劃的方式將資料儲存為 Delta 檔案/資料表。
轉換與查詢和處理
Databricks Lakehouse 會針對所有轉換和查詢使用其引擎 Apache Spark 和 Photon。
由於其簡便性,宣告式架構 DLT (Delta Live Tables) 是建置可靠、可維護且可測試的資料處理管線的絕佳選擇。
Databricks Data Intelligence Platform 由 Apache Spark 和 Photon 提供支援,可支援兩種類型的工作負載:透過 SQL 倉儲進行的 SQL 查詢,以及透過工作區叢集進行的 SQL、Python 和 Scala 工作負載。
對資料科學 (ML 模型化和生成式 AI),Databricks AI 和機器學習平台提供適用於 AutoML 和編碼 ML 工作的特製化 ML 執行階段。 所有資料科學和 MLOps 工作流程都受到 MLflow 的最佳支援。
服務
針對 DWH 和 BI 使用案例,Databricks Lakehouse 會提供 Databricks SQL、SQL 倉儲支援的資料倉儲以及無伺服器 SQL 倉儲。
針對機器學習,模型服務是可調整、即時、企業級的模型,服務於 Databricks 控制平面中託管的功能。
操作資料庫:諸如操作資料庫等外部系統可用來儲存最終資料產品並傳遞給使用者應用程式。
共同作業:商務合作夥伴可透過 Delta Sharing 安全地存取所需的資料。 以 Delta Sharing 為基礎,Databricks Marketplace 是用於交換資料產品的開放論壇。
分析
最終的商務應用程式就在此泳道中。 範例包括自訂用戶端,例如連線至 Mosaic AI 模型服務進行即時推斷的 AI 應用程式,或存取從 Lakehouse 到操作資料庫之資料推送的應用程式。
針對 BI 使用案例,分析師通常會使用 BI 工具來存取資料倉儲。 SQL 開發人員也可以使用 Databricks SQL 編輯器 (未顯示在圖表中) 進行查詢和儀表板操作。
Data Intelligence Platform 也提供儀表板來建置資料視覺效果並共用見解。
工作負載的功能
此外,Databricks Lakehouse 隨附可支援所有工作負載的管理功能:
資料和 AI 治理
Databricks Data Intelligence Platform 中的中央資料和 AI 治理系統是 Unity Catalog。 Unity Catalog 提供單一位置來管理適用於所有工作區的資料存取原則,並支援在 Lakehouse 中建立或使用的所有資產,例如資料表、磁碟區、特徵 (特徵存放區) 和模型 (模型登錄)。 Unity Catalog 也可以用來擷取在 Databricks 上執行的查詢之間的執行階段資料譜系。
Databricks Lakehouse 監視可讓您監視帳戶中所有資料表中的資料品質。 它也可以追蹤機器學習模型和模型服務端點的效能。
為了便於觀測,系統資料表是由 Databricks 託管的帳戶操作資料的分析存放區。 系統資料表可用於整個帳戶的歷史觀測。
資料智慧引擎
Databricks Data Intelligence Platform 可讓整個組織使用資料和 AI。 它由 DatabricksIQ 提供支援,將生成式 AI 與 Lakehouse 的統一優勢相結合,以理解資料的獨特語意。
Databricks Assistant 可在 Databricks 筆記本、SQL 編輯器和檔案編輯器中使用,做為開發人員的內容感知 AI 助理。
協調流程
Databricks 工作可在 Databricks Data Intelligence Platform 中協調資料處理、機器學習和分析管線。 Delta Live Tables 可讓您使用宣告式語法來建置可靠且可維護的 ETL 管線。
Azure 上的 Data Intelligence Platform 參考架構
Azure Databricks 參考架構衍生自一般參考架構,方法是針對來源、擷取、服務、分析/輸出和儲存體元素新增 Azure 特定服務。
下載:Azure 上 Databricks Lakehouse 的參考架構
Azure 參考架構顯示下列適用於擷取、儲存體、服務和分析/輸出的 Azure 特定服務:
- 作為 Lakehouse 同盟來源系統的 Azure Synapse 和 SQL Server
- 用於串流擷取的 Azure IoT 中樞和 Azure 事件中樞
- 用於批次擷取的 Azure Data Factory
- 用作物件儲存體的 Azure Data Lake Storage Gen 2 (ADLS)
- 用作操作資料庫的 Azure SQL DB 和 Azure Cosmos DB
- 用作企業目錄的 Azure Purview,UC 會將結構描述和譜系資訊匯出到其中
- 用作 BI 工具的 Power BI
注意
- 此參考架構檢視僅著重於 Azure 服務和 Databricks Lakehouse。 Databricks 上的 Lakehouse 是一個開放平台,可與合作夥伴工具的大型生態系統整合。
- 顯示的雲端提供者服務並不詳盡。 系統選取它們來說明概念。
使用案例:批處理 ETL
下載:Azure Databricks 的批處理 ETL 參考架構
擷取工具會使用來源特定的配接器來讀取來源中的資料,然後儲存在雲端儲存體中,自動載入器可以從中讀取資料,或直接呼叫 Databricks (例如,合作夥伴擷取工具整合到 Databricks Lakehouse 中)。 若要載入資料,Databricks ETL 和處理引擎會透過 DLT 執行查詢。 單一或多任務工作流程可由 Databricks 作業協調,並由 Unity Catalog 管理 (存取控制、稽核、譜系等等)。 如果低延遲作業系統需要存取特定的黃金資料表,則可將它們匯出至操作資料庫,例如 ETL 管線結尾的 RDBMS 或索引鍵/值存放區。
使用案例:串流和異動資料擷取 (CDC)
下載:Azure Databricks 的 Spark 結構化串流架構
Databricks ETL 引擎會使用 Spark 結構化串流從 Apache Kafka 或 Azure 事件中樞等事件佇列中讀取。 下游步驟遵循上述批處理使用案例的方法。
即時異動資料擷取 (CDC) 通常會使用事件佇列來儲存擷取的事件。 從那裡開始,使用案例會遵循串流使用案例。
如果 CDC 是批量完成的,其中擷取的記錄首先儲存在雲端儲存體中,則 Databricks 自動載入器可以讀取它們,而使用案例會遵循批處理 ETL。
使用案例:機器學習和 AI
下載:適用於 Azure Databricks 的機器學習和 AI 參考架構
針對機器學習,Databricks Data Intelligence Platform 提供 Mosaic AI,其隨附有最先進的機器學習和深度學習媒體庫。 它提供的功能包括,特徵存放區和模型登錄 (兩者都整合至 Unity Catalog)、使用 AutoML 的低程式碼特徵,以及 MLflow 整合到資料科學生命週期中。
所有資料科學相關資產 (資料表、特徵和模型) 受 Unity Catalog 控管,資料科學家可以使用 Databricks Jobs 來協調其作業。
若要以可調整且企業級的方式部署模型,請使用 MLOps 功能在模型服務中發佈模型。
使用案例:擷取擴增生成 (Gen AI)
下載:適用於 Azure Databricks 的 Gen AI RAG 參考架構
針對生成式 AI 使用案例,Mosaic AI 隨附有最先進的程式庫和特定的 Gen AI 功能,從提示工程到微調現有模型,以及從頭開始預先訓練。 上述架構示範如何整合向量搜尋來建立 RAG (擷取擴增生成) AI 應用程式的範例。
若要以可調整且企業級的方式部署模型,請使用 MLOps 功能在模型服務中發佈模型。
使用案例:BI 和 SQL 分析
下載:Azure Databricks 的 BI 和 SQL 分析參考架構
針對 BI 使用案例,商務分析師可以使用儀表板、Databricks SQL 編輯器或諸如 Tableau 或 Power BI 等特定 BI 工具。 在所有情況下,引擎都是 Databricks SQL (無伺服器或非無伺服器),而且 Unity Catalog 會提供資料發現、探索和存取控制。
使用案例:Lakehouse 同盟
下載:Azure Databricks 的 Lakehouse 同盟參考架構
Lakehouse 同盟允許外部資料 SQL 資料庫 (例如 MySQL、Postgres、SQL Server 或 Azure Synapse) 與 Databricks 整合。
所有工作負載 (AI、DWH 和 BI) 可以從中受益,而不需要先將資料 ETL 到物件儲存體。 外部來源目錄會對應至 Unity Catalog,而且可套用更細緻的存取控制,以透過 Databricks 平台進行存取。
使用案例:企業資料共用
下載:Azure Databricks 的企業資料共用參考架構
企業級資料共用由 Delta Sharing 提供。 它可直接存取 Unity Catalog 所保護之物件存放區中的資料,而 Databricks Marketplace 是交換資料產品的開放論壇。