使用 Azure Synapse 搭配企業級安全性的巨量數據分析

Azure Analysis Services
Azure Data Lake 儲存體
Azure Synapse Analytics

解決方案構想

本文是解決方案概念。 如果您想要使用詳細資訊來擴充內容,例如潛在的使用案例、替代服務、實作考慮或定價指引,請提供 GitHub 意見反應讓我們知道。

本文所述的解決方案示範如何使用 Azure Synapse Analytics 來建置新式數據平臺,以內嵌、處理、儲存、服務及可視化來自各種來源的數據。

架構

Diagram showing the data flow in this solution. For a detailed explanation, see the following article text.

下載此架構的 Visio 檔案

資料流程

資料會流經解決方案,如下所示:

  1. Synapse 管線會複製從外部關係型數據倉儲擷取原始結構化數據、記錄、一般檔案和 xml 等半結構化數據,以及其他來源系統的活動。 此擷取的數據接著會儲存在 Azure Data Lake 儲存體 Gen2 位置。 使用自我裝載整合運行時間,您也可以管理及執行內部部署環境和雲端中數據存放區之間的複製活動。

  2. Azure Data Lake 儲存體 Gen2 提供安全的記憶體。

    • 建議使用防火牆來限制對受信任 Azure 服務的帳戶存取 儲存體,以限制外部攻擊弱點。

    • Azure 儲存體 帳戶的私人端點可讓虛擬網路 (VNet) 上的用戶端透過 Private Link 安全地存取資料。 私人端點會針對記憶體帳戶服務使用 VNet 位址空間中的 IP 位址。 VNet 上的用戶端與記憶體帳戶之間的網路流量會透過 VNet 和 Microsoft 骨幹網路上的私人連結周遊,而不需要暴露在公用因特網上。

  3. 數據一旦內嵌至數據湖,就會在待用時加密。 使用您自己的客戶自控密鑰可以進一步保護您的加密金鑰,並在管理存取控制時增加更多彈性。

  4. 數據會使用 Synapse 管線內嵌,並使用 Synapse Spark 集區及其 Data Lake 功能分階段處理。 數據會使用階段特定的 Azure Data Lake 儲存體 Gen 2 目錄,儲存在 Azure 儲存體 帳戶中。 這些階段包括:

    1. Synapse 管線一開始會從來源系統擷取數據。 此擷取的數據會使用 Data Lake 的 Bronze 目錄,以原始格式儲存。

    2. Synapse Spark 集區接著會執行數據質量規則,以清理原始數據。 然後,此擴充的數據會儲存在 Data Lake 的 Silver 目錄中。

    3. 清理程序之後,Spark 集區會針對 Silver 目錄中的數據套用任何必要的正規化、數據轉換和商務規則。 然後,此轉換的數據會儲存在 Data Lake 的 Gold 目錄中。

  5. Synapse Apache Spark 至 Synapse SQL 連接器會將標準化數據推送至 Synapse SQL 集區,以供下游應用程式和 Reporting Services 例如 Power BI 取用。 此連接器的設計目的是要以最佳方式在無伺服器 Apache Spark 集區和 Azure Synapse Analytics 工作區中的 SQL 集區之間傳輸數據。

  6. Power BI 服務 會使用 DirectQuery 模式,從 Synapse SQL 集區安全地擷取數據。 在私人 VNet 上安裝在虛擬機中的數據閘道,可作為 Power BI 服務 與 Synapse SQL 集區之間的連線平臺,使用相同 VNet 中的私人端點安全地連線。

  7. 外部應用程式可以透過存取連線至 VNet 的適當私人端點,從 Synapse 無伺服器集區或專用 SQL 集區存取數據。

此範例解決方案會使用數個 Azure 服務和功能:

  • Azure Synapse Analytics 是此範例解決方案中用來提供數據擷取、處理和分析的核心服務。

  • Azure Data Lake 儲存體 (Gen2) 建置在 Azure 儲存體 服務之上,並提供此範例解決方案中其他服務在儲存和處理數據時所使用的 Data Lake 功能。

  • Synapse 管線會將 數據從原始來源複製到 Data Lake Storage 位置。

  • Azure Synapse Analytics 中的 Apache Spark 會清理、正規化,以及針對從來源位置擷取的數據執行其他處理工作。

  • 專用 SQL 集 區 (先前稱為 SQL DW) 會在數據處理和正規化後提供數據倉儲功能,並可供使用者和應用程式使用。

  • 無伺服器 SQL 集區 可讓使用者快速查詢和分析已處理和正規化的數據。

  • Azure Synapse Managed 虛擬網絡 為 Azure Synapse 工作區建立隔離的受控虛擬網路環境,並卸除管理工作區資源網路設定的需求。

  • Azure Synapse 受控私人端點會 建立 Azure 資源的私人連結,並使用 Microsoft 骨幹網路,在 Azure Synapse 工作區和其他 Azure 資源之間路由傳送流量。

  • Azure 虛擬網絡 (VNet) 為不屬於 Azure Synapse 工作區的 Azure 資源提供專用網功能。 它可讓您管理資源之間的存取、安全性和路由。

  • Azure 私人端點 提供從解決方案 VNet 到 Azure 受控服務的私人 IP 位址,有效地將服務連線到 VNet。 這可讓 Azure Synapse 工作區與其他 Azure 服務之間的安全網路,例如 Azure 儲存體、Azure Cosmos DB、Azure SQL 資料庫 或您自己的 Azure Private Link 服務

  • Power BI 可讓使用者使用解決方案的已處理數據來執行進階分析和共用見解。

元件

案例詳細資料

Azure Synapse Analytics 將數據整合、企業數據倉儲和巨量數據分析整合在一起,以協助您建置能夠處理大型組織面臨的最常見數據挑戰的新式數據平臺。 Azure 虛擬網絡 可讓您在 Azure 公用雲端和受控網路中建立自己的專用網,而 Azure 私人端點可讓您安全地將受控雲端服務整合到這些專用網中。

潛在的使用案例

本文所述的解決方案示範如何結合這些技術來建置新式數據平臺,以內嵌、處理、儲存、服務及可視化來自不同來源的數據,同時符合貴組織預期的高安全性標準。 這包括支援一般需求,例如:

  • 保護數據源。 內部部署公司網路或虛擬網路內的數據源會在防火牆後方受到保護。 在裝載於內部部署或虛擬網路的資源上安裝自我裝載整合運行時間,即可安全地存取這些資源。

  • 使用受控識別進行驗證和授權。 Azure 服務之間的通訊可以使用受控識別來保護,這可為聯機到支援 Microsoft Entra 驗證的資源時使用的應用程式提供身分識別。 在此範例中,Azure Synapse 會使用受控識別來整合管線。

  • 建立 Azure 資源私人連結的私人端點。 Azure Synapse 為 Synapse 工作區內的服務提供完全受控的私人端點功能(例如 Azure 儲存體 或 Azure Cosmos DB)。 其他 Azure 資源,例如 Azure 應用程式、Microsoft Power BI 和 Azure Synapse 服務,會使用整合至範例解決方案虛擬網路的私人端點來保護。 您的專用網與 Synapse 集區之間的網路流量會使用 Private Link,透過 Microsoft 骨幹網路移動流量,而不需要暴露在公用因特網上。

  • 加密傳輸中的數據。 傳輸中的數據會加密,因為所有數據傳輸都是透過安全通道 HTTPS 和 TLS over TCP 加密,以避免在與 Azure 服務通訊期間發生攔截式攻擊,確保端對端安全的私人數據移動。

  • 加密待用數據。 Azure Synapse Analytics 中的透明數據加密可藉由執行儲存在 Synapse 工作區內數據的即時加密和解密,協助防範惡意活動。 Azure 儲存體 也會加密待用儲存體帳戶中的所有數據。 根據預設,數據會使用 Microsoft 管理的金鑰加密,但如果您需要對加密的額外控制,您可以管理自己的密鑰。

部署此案例

您必須擁有現有的 Azure 帳戶。 如尚未擁有 Azure 訂用帳戶,請在開始之前先建立免費帳戶

您可以在 GitHub 存放庫中取得您需要部署此架構中所述的元件 Azure Resource Manager 範本。 這些範本會部署架構圖表中顯示的所有服務,除了:P ower BI 數據閘道、自我裝載整合運行時間,以及客戶管理的密鑰的 Azure 金鑰保存庫。

用戶必須建立 Data Lake 資料夾結構和 Azure Synapse Analytics 整合管線,才能連線到數據源。

按下此按鈕,直接部署ARM範本:

Deploy to Azure

參與者

本文由 Microsoft 維護。 原始投稿人如下。

主體作者:

下一步

若要瞭解如何進一步開發此方法,請完成下列教學課程來瞭解 Azure Synapse Analytics 的基本概念:

使用 Azure Synapse Analytics 規劃和部署解決方案時,請參閱下列文章: