Azure Cosmos DB 資料的分析和商業智慧 (BI)
Azure Cosmos DB 提供各種選項,可讓您對操作資料啟用大規模分析和 BI 報告。
若要取得 Azure Cosmos DB 資料的有意義深入解析,您可能需要跨多個分割區、集合或資料庫進行查詢。 在某些情況下,您可以將此資料與組織中的其他資料來源結合,例如 Azure SQL Database、Azure Data Lake Storage Gen2 等。您也可以使用 SUM、COUNT 等彙總函數進行查詢。這類查詢需要大量的計算能力,這可能會取用更多要求單位 (RU),因此這些查詢可能會影響您的任務關鍵性工作負載效能。
若要隔離交易工作負載與複雜分析查詢的效能影響,則會使用複雜的擷取、轉換、載入 (ETL) 管線以每晚將資料庫資料內嵌至中央位置。 這類以 ETL 為基礎的分析很複雜且高成本,對商業資料的深入解析也會發生延遲。
Azure Cosmos DB 透過提供零 ETL、符合成本效益的分析供應項目來解決這些挑戰。
Azure Cosmos DB 的零 ETL、近乎即時分析
Azure Cosmos DB 提供對資料的零 ETL、近乎即時分析,且不會影響交易工作負載或要求單位 (RU) 的效能。 這些供應項目可以移除複雜 ETL 管線的需求,讓您的 Azure Cosmos DB 資料可以供分析引擎順暢使用。 隨著對深入解析的延遲降低,您便可以提供增強的客戶體驗並更快速因應市場狀況或商業環境的變化。 以下是一些可以透過資料快速深入解析實現的範例案例。
您可以使用下列選項,在 Azure Cosmos DB 上啟用零 ETL 的分析和 BI 報告:
- 將資料鏡像至 Microsoft Fabric
- 啟用 Azure Synapse Link 以從 Azure Synapse Analytics 存取資料
選項 1:將 Azure Cosmos DB 資料鏡像至 Microsoft Fabric
鏡像可讓您將 Azure Cosmos DB 資料庫資料順暢帶入 Microsoft Fabric。 啟用零 ETL 後,即可使用 Fabric 的內建分析、BI 和 AI 功能,快速取得對 Azure Cosmos DB 資料的豐富商業見解。
您的 Cosmos DB 操作資料將幾乎即時累加式複製到 Fabric OneLake。 OneLake 中的資料會以開放原始碼 Delta Parquet 格式儲存,並提供給 Fabric 中的所有分析引擎使用。 透過開放式存取,您可以將其與各種 Azure 服務搭配使用,例如 Azure Databricks、Azure HDInsight 等。 OneLake 也有助於整合資料資產以滿足您的分析需求。 鏡項資料可與 OneLake 中的其他資料聯結,例如 Lakehouses、Warehouses 或捷徑。 您也可以將 Azure Cosmos DB 資料與其他鏡像資料庫來源聯結,例如 Azure SQL Database、Snowflake。 您可以跨 Azure Cosmos DB 集合或鏡像至 OneLake 的資料庫進行查詢。
使用 Fabric 中的鏡像時,您不需要將多個廠商的不同服務拼湊在一起。 相反地,您可以享受高度整合、端對端且易於使用的產品,其設計訴求是要簡化分析需求。 您可以使用 T-SQL 來執行複雜的彙總查詢和 Spark 以進行資料探索。 您可以順暢存取筆記本中的資料、使用資料科學來建置機器學習模型,以及使用豐富 Copilot 整合所提供的 Direct Lake 建置 Power BI 報告。
如果您要在 Azure Cosmos DB 中查詢操作資料的分析,鏡像提供:
- 對 Azure Cosmos DB 資料的零 ETL、符合成本效益近乎即時分析,不會影響要求單位 (RU) 使用量
- 輕鬆將各種來源的資料帶入 Fabric OneLake。
- 透過 V 順序最佳化,已改善 SQL 引擎處理差異資料表的查詢效能
- 透過與 ML/筆記本的深入整合,已改善 Spark 引擎的冷啟動時間
- 單鍵即可整合 Power BI 與 Direct Lake 及 Copilot
- 透過 GraphQL 提供更豐富的應用程式整合以存取查詢和檢視
- 其他服務的開方式存取,例如 Azure Databricks
若要開始使用鏡像,請造訪「開始使用鏡像教學課程」。
選項 2:啟用 Azure Synapse Link 以從 Azure Synapse Analytics 存取資料
適用於 Azure Cosmos DB 的 Azure Synapse Link 會在 Azure Cosmos DB 和 Azure Synapse Analytics 之間建立緊密的無縫整合,藉此對操作資料啟用零 ETL、近乎即時的分析。 交易資料會順暢同步處理至分析存放區,使用針對分析最佳化的單欄式格式儲存資料。
Azure Synapse Analytics 可以使用 Azure Synapse Link 存取分析存放區中的這項資料,不需要進一步移動。 商務分析師、資料工程師、資料科學家現在可以交換使用 Synapse Spark 或 Synapse SQL,執行近即時的商業智慧、分析和機器學習管線。
下圖顯示 Azure Synapse Link 與 Azure Cosmos DB 和 Azure Synapse Analytics 的整合:
重要
Microsoft Fabric 中的鏡像 (預覽版) 現在可在 NoSql API 中取得。 這項功能提供 Azure Synapse Link 的所有功能,具有更佳的分析效能、能夠將資料資產與 Fabric OneLake 整合,並以 Delta Parquet 格式開啟對 OneLake 資料的存取權。 如果您考慮使用 Azure Synapse Link,建議您嘗試鏡像以評估您組織的整體適合度。 若要開始使用鏡像,請按一下這裡。
若要開始使用 Azure Synapse Link,請造訪「開始使用 Azure Synapse Link」。
Azure Cosmos DB 的即時分析和 BI:其他選項
有一些其他選項可以對 Azure Cosmos DB 資料啟用即時分析:
- 使用變更摘要
- 直接在 Azure Cosmos DB 上使用 Spark 連接器
- 直接在 Azure Cosmos DB 上使用 Power BI 連接器
即使針對完整性包含這些選項並適用於即時的單一分割區查詢,這些方法仍有下列分析查詢挑戰:
對工作負載的效能影響:
分析查詢通常相當複雜,並會取用大量計算容量。 當直接針對 Azure Cosmos DB 資料執行這些查詢時,您可能會在交易查詢上遇到效能降低的情況。
成本影響:
當直接針對資料庫或集合執行分析查詢時,便會增加配置要求單位的需求,因為分析查詢通常相當複雜並需要更多計算能力。 如果您執行彙總查詢時,增加的 RU 使用量可能會在一段時間內產生大量成本影響。
除了這些選項,建議您使用 Microsoft Fabric 或 Azure Synapse Link 中的鏡像,提供零 ETL 分析,而不會影響交易工作負載效能或要求單位。