Data Lakehouse 架構:Databricks 架構完善的架構
這組 Data Lakehouse 架構文章提供使用 Azure Databricks 實作和操作 Lakehouse 的原則和最佳做法。
Lakehouse 的 Databricks 架構架構良好
架構完善的 Lakehouse 包含 7 個支柱,可描述雲端中 Data Lakehouse 實作的不同領域:
資料控管
確保數據帶來價值並支援商務策略的監督。
互操作性和可用性
Lakehouse 與使用者和其他系統互動的能力。
卓越營運
讓 Lakehouse 在生產環境中執行的所有作業程式。
安全性、隱私權和合規性
保護 Azure Databricks 應用程式、客戶工作負載和客戶數據免於威脅。
可靠性
系統從失敗中復原並繼續運作的能力。
效能效率
系統適應負載變更的能力。
成本最佳化
管理成本以最大化實現的價值。
架構完善的 Lakehouse 會將 azure 架構良好的架構Microsoft延伸至 Databricks Data Intelligence Platform,並共用「卓越營運」、「安全性」(如「安全性、隱私權及合規性」、「可靠性」、「效能效率」和「成本優化」等要素。
針對這五個要素,雲端架構的原則和最佳做法仍適用於 Lakehouse。 精心架構的 湖屋 利用湖屋特有的原則和最佳做法來擴充這些原則和最佳做法,對於建立有效且高效的湖屋來說很重要。
Lakehouse 架構中的數據控管和互操作性和可用性
「數據治理」和「互操作性與可用性」的支柱涵蓋湖屋特有的問題。
數據控管會封裝實作的原則和做法,以安全地管理組織內的數據資產。 Lakehouse 的基本層面之一是集中式數據控管:Lakehouse 會將數據倉儲和 AI 使用案例統一到單一平臺上。 這可藉由消除傳統上分隔和使數據工程、分析、BI、數據科學和機器學習複雜化的數據尋址接收器,來簡化新式數據堆疊。 為了簡化數據控管,Lakehouse 為數據、分析和 AI 提供統一的治理解決方案。 藉由將數據的複本降至最低,並移至單一數據處理層,讓所有數據控管控件可以一起執行,您可以改善保持合規性並偵測數據外泄的機會。
湖屋的另一個重要原則是為所有與湖屋合作的人提供絕佳的用戶體驗,並能夠與外部系統的廣泛生態系統互動。 Azure 已經有各種不同的資料工具,可執行數據驅動企業可能需要的大部分工作。 不過,這些工具必須正確組合,以提供所有功能,每個服務都提供不同的用戶體驗。 這種方法可能會導致高實作成本,通常不會提供與原生 Lakehouse 平臺相同的用戶體驗:使用者受限於工具與缺乏共同作業功能之間的不一致,而且通常必須經歷複雜的程式來存取系統,進而存取數據。
另一端的整合式 Lakehouse 提供所有工作負載的一致用戶體驗,因此會增加可用性。 這樣可降低訓練和上線成本,並改善函式之間的共同作業。 此外,新功能也會隨著時間自動新增,以進一步改善用戶體驗,而不需要投資內部資源和預算。
多雲端方法可以是公司的刻意策略,或是合併和收購的結果,或選取不同雲端提供者的獨立業務單位的結果。 在此情況下,使用多雲端 Lakehouse 會導致所有雲端的統一用戶體驗。 這可減少整個企業的系統激增,進而減少參與數據驅動工作的員工技能和訓練需求。
最後,在具有跨公司商務程序的網路世界中,系統必須盡可能順暢地合作。 互操作性程度是這裡的一個重要準則,而最新的數據,作為任何企業的核心資產,必須在內部和外部合作夥伴的系統之間安全地流動。