具有 Azure Databricks 的現代化分析架構

Azure Data Factory
Azure Data Lake 儲存體
Azure Databricks
Azure Synapse Analytics
Power BI

解決方案構想

本文是解決方案概念。 如果您想要使用詳細資訊來擴充內容,例如潛在的使用案例、替代服務、實作考慮或定價指引,請提供 GitHub 意見反應讓我們知道。

此解決方案概述新式數據架構。 Azure Databricks 會形成解決方案的核心。 此平臺與其他服務順暢地運作,例如 Azure Data Lake 儲存體 Gen2、Azure Data Factory、Azure Synapse Analytics 和 Power BI。

Apache 和 Apache® Spark™ 是 美國 和/或其他國家/地區的 Apache Software Foundation 註冊商標或商標。 Apache Software Foundation 不會隱含使用這些標記。

架構

Architecture diagram showing how a modern data architecture collects, processes, analyzes, and visualizes data.

下載此架構的 Visio 檔案

資料流程

  1. Azure Databricks 會從 Azure 事件中樞 內嵌原始串流數據。

  2. Data Factory 會將原始批處理數據載入 Data Lake 儲存體 Gen2。

  3. 針對資料記憶體:

    • Data Lake 儲存體 Gen2 會儲存所有類型的數據,例如結構化、非結構化和半結構化。 它也會儲存批次和串流數據。

    • Delta Lake 會形成數據湖的策劃層。 它會以開放原始碼格式儲存精簡的數據。

    • Azure Databricks 適用於 將數據組織成圖層的獎牌架構

      • 銅牌:保存未經處理的數據。
      • Silver:包含已清除、篩選的數據。
      • 黃金:儲存適用於商務分析的匯總數據。
  4. 分析平臺會從不同的批次和串流來源擷取數據。 數據科學家會針對下列工作使用此數據:

    • 數據準備。
    • 數據探索。
    • 模型準備。
    • 模型定型。

    MLflow 會管理數據科學程式碼執行中的參數、計量和模型追蹤。 程式代碼撰寫可能性具有彈性:

    • 程式代碼可以在 SQL、Python、R 和 Scala 中。
    • 程序代碼可以使用熱門的開放原始碼連結庫和架構,例如 Koalas、Pandas 和 scikit-learn,這些連結庫已預安裝並優化。
    • 從業者可以使用單一節點和多節點計算選項來優化效能和成本。
  5. 機器學習模型提供數種格式:

    • Azure Databricks 會將模型的相關信息儲存在 MLflow 模型登錄。 登錄可透過批次、串流和 REST API 提供模型。
    • 此解決方案也可以將模型部署到 Azure 機器學習 Web 服務或 Azure Kubernetes Service (AKS)。
  6. 使用數據的服務會連線到單一基礎數據源,以確保一致性。 例如,使用者可以使用 Azure Databricks SQL 分析在 Data Lake 上執行 SQL 查詢。 這個服務可以:

  7. Power BI 會從統一的數據平台產生分析和歷程記錄報表和儀錶板。 使用 Azure Databricks 時,此服務會使用這些功能:

  8. 用戶可以透過優化的 Synapse 連接器,將黃金數據集從 Data Lake 導出至 Azure Synapse。 Azure Synapse 中的 SQL 集區提供數據倉儲和計算環境。

  9. 此解決方案會使用 Azure 服務進行共同作業、效能、可靠性、治理和安全性:

    • Microsoft Purview 提供數據探索服務、敏感數據分類,以及整個數據資產的治理深入解析。

    • Azure DevOps 提供持續整合和持續部署 (CI/CD) 和其他整合版本控制功能。

    • Azure 金鑰保存庫 安全地管理秘密、金鑰和憑證。

    • Microsoft Entra ID 為 Azure Databricks 使用者提供單一登錄 (SSO)。 Azure Databricks 針對下列工作支援使用 Microsoft Entra ID 的自動化使用者布建:

      • 建立新的使用者。
      • 將每個使用者指派存取層級。
      • 拿掉使用者並拒絕他們存取權。
    • Azure 監視器會收集和分析 Azure 資源遙測。 藉由主動識別問題,此服務可最大化效能和可靠性。

    • Azure 成本管理和計費可為 Azure 工作負載提供財務治理服務。

元件

解決方案會使用下列元件。

核心元件

  • Azure Databricks 是數據分析平臺。 其完全受控的 Spark 叢集會處理來自多個來源的大型數據流。 Azure Databricks 會清理和轉換無結構化數據集。 它會結合已處理的數據與操作資料庫或數據倉儲中的結構化數據。 Azure Databricks 也會訓練和部署可調整的機器學習和深度學習模型。

  • 事件中 樞是巨量數據串流平臺。 身為平臺即服務 (PaaS),此事件擷取服務是完全受控的。

  • Data Factory 是混合式數據整合服務。 您可以使用這個完全受控、無伺服器的解決方案來建立、排程及協調數據轉換工作流程。

  • Data Lake 儲存體 Gen2 是一個可調整且安全的 Data Lake,適用於高效能分析工作負載。 此服務可以管理數 PB 的資訊,同時維持數百 GB 的輸送量。 數據可能是結構化、半結構化或非結構化。 它通常來自多個異質來源,例如記錄、檔案和媒體。

  • Azure Databricks SQL 分析 會在 Data Lake 上執行查詢。 此服務也會可視化儀錶板中的數據。

  • 機器學習 是一種雲端式環境,可協助您建置、部署及管理預測性分析解決方案。 透過這些模型,您可以預測行為、結果和趨勢。

  • AKS 是高可用性、安全且完全受控的 Kubernetes 服務。 AKS 可讓您輕鬆地部署和管理容器化應用程式。

  • Azure Synapse 是適用於數據倉儲和巨量數據系統的分析服務。 此服務會與 Power BI、機器學習 和其他 Azure 服務整合。

  • Azure Synapse 連接器 提供從 Azure Databricks 存取 Azure Synapse 的方法。 這些連接器可有效率地在 Azure Databricks 叢集與 Azure Synapse 實例之間傳輸大量數據。

  • SQL 集區 提供 Azure Synapse 中的數據倉儲和計算環境。 集區與 Azure 儲存體 和 Data Lake 儲存體 Gen2 相容。

  • Delta Lake 是使用開放式檔格式的儲存層。 此層會在雲端記憶體之上執行,例如 Data Lake 儲存體 Gen2。 Delta Lake 支援用於更新、刪除和合併數據的數據版本設定、復原和交易。

  • MLflow 是機器學習生命週期的開放原始碼平臺。 其元件會在定型和執行期間監視機器學習模型。 MLflow 也會儲存模型,並將其載入生產環境。

報告及控管元件

  • Power BI 是軟體服務和應用程式的集合。 這些服務會建立和共享報表,以連接和可視化不相關的數據源。 Power BI 與 Azure Databricks 一起,可以提供根本原因判斷和原始數據分析。

  • Microsoft Purview 會管理內部部署、多重雲端和軟體即服務 (SaaS) 數據。 此治理服務會維護數據橫向對應。 功能包括自動化數據探索、敏感數據分類和數據譜系。

  • Azure DevOps 是 DevOps 協調流程平臺。 此 SaaS 提供建置、部署及共同作業應用程式的工具和環境。

  • Azure 金鑰保存庫 會儲存及控制秘密的存取,例如令牌、密碼和 API 金鑰。 金鑰保存庫 也會建立和控制加密密鑰,並管理安全性憑證。

  • Microsoft Entra ID 提供雲端式身分識別和存取管理服務。 這些功能提供讓使用者登入和存取資源的方式。

  • Azure 監視器 會收集和分析環境和 Azure 資源上的數據。 此數據報括應用程式遙測,例如效能計量和活動記錄。

  • Azure 成本管理和計費 管理雲端費用。 此服務會使用預算和建議來組織費用,並示範如何降低成本。

案例詳細資料

新式資料架構符合下列準則:

  • 統一數據、分析和 AI 工作負載。
  • 在任何規模上有效率且可靠地執行。
  • 透過分析儀錶板、操作報告或進階分析提供深入解析。

此解決方案概述達成這些目標的新式數據架構。 Azure Databricks 會形成解決方案的核心。 此平臺可與其他服務順暢地運作。 這些服務會一起提供這些質量的解決方案:

  • 簡單:整合分析、數據科學和機器學習可簡化數據架構。
  • Open:解決方案支援開放原始碼程式代碼、開放標準和開放架構。 它也適用於熱門的整合開發環境 (IDE)、連結庫和程式設計語言。 透過原生連接器和 API,解決方案也適用於各種其他服務。
  • 共同作業:數據工程師、數據科學家和分析師會與此解決方案合作。 他們可以使用共同作業筆記本、IDE、儀錶板和其他工具來存取和分析一般基礎數據。

潛在的使用案例

瑞士再集團為其財產和傷亡再保險部門建造的系統激發了這一解決方案。 除了保險業之外,任何使用巨量數據或機器學習的領域也可以受益於此解決方案。 範例包含:

  • 能源部門
  • 零售和電子商務
  • 銀行與金融
  • 醫學和醫療保健

下一步

若要瞭解相關解決方案,請參閱此資訊: