資料倉儲和分析

Azure Data Lake 儲存體
Azure Cosmos DB
Azure Data Factory
Azure SQL Database
Azure 表格儲存體

此範例案例示範數據管線,可將來自多個來源的大量數據整合到 Azure 中的整合分析平臺。 此特定案例是以銷售和行銷解決方案為基礎,但設計模式與許多產業相關,需要對大型數據集進行進階分析,例如電子商務、零售和醫療保健。

架構

Architecture for a data warehousing and analysis scenario in Azure

下載此架構的 Visio 檔案

資料流程

資料會流經解決方案,如下所示:

  1. 針對每個數據源,任何更新都會定期匯出至 Azure Data Lake 儲存體 中的預備區域。
  2. Azure Data Factory 會以累加方式將數據從 Azure Data Lake 儲存體 載入 Azure Synapse Analytics 中的臨時表。 此程式期間會清理和轉換數據。 PolyBase 可以平行處理大型數據集的程式。
  3. 將新一批數據載入倉儲之後,會重新整理先前建立的 Azure Analysis Services 表格式模型。 此語意模型可簡化商務數據和關聯性的分析。
  4. 商務分析師會使用 Microsoft Power BI 透過 Analysis Services 語意模型來分析倉儲數據。

元件

該公司在許多不同的平臺上都有數據源:

  • 內部部署的 SQL Server
  • Oracle 內部部署
  • Azure SQL Database
  • Azure 資料表記憶體
  • Azure Cosmos DB

資料會使用數個 Azure 元件從這些不同的資料源載入:

  • Azure Data Lake 儲存體 可用來暫存源數據,再載入 Azure Synapse。
  • Data Factory 會將分段數據的轉換協調為 Azure Synapse 中的通用結構。 Data Factory 將數據載入 Azure Synapse 時會使用 PolyBase,以將輸送量最大化。
  • Azure Synapse 是用來儲存和分析大型數據集的分散式系統。 其使用大量平行處理 (MPP) 可讓它適合執行高效能分析。 Azure Synapse 可以使用 PolyBase,從 Azure Data Lake 儲存體 快速載入數據。
  • Analysis Services 會為您的數據提供語意模型。 它也可以在分析數據時提高系統效能。
  • Power BI 是一套商務分析工具,可用來分析數據並共用見解。 Power BI 可以查詢儲存在 Analysis Services 中的語意模型,也可以直接查詢 Azure Synapse。
  • Microsoft Entra ID 會透過 Power BI 驗證連線到 Analysis Services 伺服器的使用者。 Data Factory 也可以使用 Microsoft Entra ID,透過 Azure 資源的服務主體或受控識別向 Azure Synapse 進行驗證。

替代項目

  • 範例管線包含數種不同類型的數據源。 此架構可以處理各種不同的關係型和非關係型數據源。

  • Data Factory 會協調數據管線的工作流程。 如果您想要只載入一次或視需要載入數據,您可以使用 SQL Server 大量複製 (bcp) 和 AzCopy 等工具將資料複製到 Azure Data Lake 儲存體。 然後,您可以使用 PolyBase 將數據直接載入 Azure Synapse。

  • 如果您有非常大的數據集,請考慮使用 Data Lake 儲存體,這會為分析數據提供無限的記憶體。

  • Azure Synapse 不適合 OLTP 工作負載或小於 250 GB 的數據集。 在這些情況下,您應該使用 Azure SQL 資料庫 或 SQL Server。

  • 如需其他替代方案的比較,請參閱:

案例詳細資料

此範例示範建立獎勵計劃的銷售和行銷公司。 這些計劃會獎勵客戶、供應商、銷售人員及員工。 數據是這些程序的基礎,且公司想要改善透過使用 Azure 數據分析取得的見解。

公司需要新式方法來分析數據,以便在正確的時間使用正確的數據做出決策。 公司的目標包括:

  • 將不同類型的數據源結合至雲端規模平臺。
  • 將源數據轉換成常見的分類法和結構,使數據保持一致且易於比較。
  • 使用高度平行處理的方法載入數據,可支持數千個獎勵計劃,而不需要部署和維護內部部署基礎結構的高成本。
  • 大幅縮短收集和轉換數據所需的時間,讓您可以專注於分析數據。

潛在的使用案例

此方法也可以用來:

  • 建立數據倉儲,以成為數據的單一事實來源。
  • 整合關係型數據源與其他非結構化數據集。
  • 使用語意模型化和功能強大的視覺效果工具進行更簡單的數據分析。

考量

這些考慮會實作 Azure Well-Architected Framework 的支柱,這是一組指導原則,可用來改善工作負載的品質。 如需詳細資訊,請參閱 Microsoft Azure Well-Architected Framework

之所以選擇此架構中的技術,是因為其符合公司延展性和可用性的需求,同時協助他們控制成本。

成本最佳化

成本優化是考慮如何減少不必要的費用,並提升營運效率。 如需詳細資訊,請參閱 成本優化要素概觀。

透過 Azure 定價計算機檢閱數據倉儲案例的定價範例。 調整值,以查看您的需求如何影響您的成本。

  • Azure Synapse 可讓您獨立調整計算和記憶體層級。 計算資源每小時收費,您可以視需要調整或暫停這些資源。 儲存體 資源是以每 TB 計費,因此當您內嵌更多數據時,您的成本將會增加。
  • Data Factory 成本是以工作負載中執行的讀取/寫入作業、監視作業和協調流程活動數目為基礎。 您的 Data Factory 成本會隨著每個額外的數據流和每個數據流處理的數據量而增加。
  • Analysis Services 適用於開發人員、基本層和標準層。 實例會根據查詢處理單位(QCPU)和可用的記憶體來定價。 若要降低成本,請將您執行的查詢數目降到最低、其處理的數據量,以及執行的頻率。
  • Power BI 針對不同需求有不同的產品選項。 Power BI Embedded 提供 Azure 型選項,可在您的應用程式內嵌 Power BI 功能。 上述定價範例中包含Power BI Embedded實例。

參與者

本文由 Microsoft 維護。 它最初是由下列參與者所撰寫。

主體作者:

若要查看非公用LinkedIn配置檔,請登入LinkedIn。

下一步