閱讀英文

共用方式為


使用 Azure Data Factory 複製和轉換 Azure Cosmos DB 分析存放區中的資料

適用於:Azure Data Factory Azure Synapse Analytics

提示

試用 Microsoft Fabric 中的 Data Factory,這是適用於企業的全方位分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告的所有項目。 了解如何免費開始新的試用

本文概述如何使用資料流程,以轉換 Azure Cosmos DB 分析存放區中的資料。 若要深入了解,請閱讀 Azure Data FactorySynapse Analytics 的介紹文章。

注意

Azure Cosmos DB 分析存放區支援 Azure Cosmos DB API for NoSQL 和 Azure Cosmos DB API for Mongo DB 的異動資料擷取,目前處於公開預覽狀態。

支援的功能

此 Azure Cosmos DB for NoSQL 連接器支援下列功能:

支援的功能 IR 受控私人端點
對應資料流程 (來源/接收) 5

① Azure 整合執行階段 ② 自我裝載整合執行階段

對應資料流程屬性

在對應資料流中轉換資料時,您可以在 Azure Cosmos DB 中讀取和寫入集合。 如需詳細資訊,請參閱對應資料流程中的來源轉換接收轉換

注意

Azure Cosmos DB 分析存放區可透過 Azure Cosmos DB for NoSQL 資料集類型找到。

來源轉換

您可以在來源轉換的 [來源選項] 索引標籤中找到 Azure Cosmos DB 的專屬設定。

包含系統資料行:如果為 true,則 id_ts 及其他系統資料行會包含在 Azure CosmosDB 的資料流程中繼資料中。 更新集合時,請務必包含此項,以便擷取現有的資料列識別碼。

頁面大小:查詢結果的每頁文件數目。 預設值為 "-1",表示最多可使用 1000 個服務動態頁面。

輸送量:為您想套用至 Azure Cosmos DB 集合的 RU 數目設定一個選用值,以供讀取作業期間此資料流程每次執行之用。 最小值為 400。

慣用的區域:為此流程選擇慣用的讀取區域。

變更摘要:如果為 true,您將從 Azure Cosmos DB 變更摘要取得資料,這是容器變更的持續性記錄,會以上次自動執行的發生順序排列。 當您將它設為 true 時,請勿同時將 [推斷漂移資料行類型] 和 [允許結構描述漂移] 設為 true。 如需詳細資訊,請參閱 Azure Cosmos DB 變更摘要

從頭開始:如果為 true,您將在首次執行中取得完整快照集資料的初始載入,接著在下一次執行中擷取變更的資料。 如果為 false,則會在第一次執行時略過初始載入,接著在下一次執行時擷取變更的資料。 設定會與 Azure Cosmos DB 參考中的相同設定名稱一致。 如需詳細資訊,請參閱 Azure Cosmos DB 變更摘要

接收轉換

您可以在接收轉換的 [設定] 索引標籤中找到 Azure Cosmos DB 的專屬設定。

Update 方法:決定您的資料庫目的地所允許的作業。 預設僅允許插入。 若要更新、upsert 或刪除資料列,必須使用 alter-row 轉換來標記這些動作的資料列。 對於更新、更新插入和刪除,必須設定索引鍵資料行,以決定要改變哪一個資料列。

集合動作:判斷是否要在寫入之前重新建立目的地集合。

  • 無:集合不會執行任何動作。
  • 重新建立:集合會卸除並重新建立

批次大小:一個整數,表示每個批次中有多少物件寫入 Azure Cosmos DB 集合。 通常,從預設批次大小開始就已足夠。 若要進一步微調此值,請注意:

  • Azure Cosmos DB 會將單一要求的大小限制為 2 MB。 公式為「要求大小 = 單一文件大小 * 批次大小」。 如果您遇到指出「要求大小太大」的錯誤,請減少批次大小值。
  • 批次大小越大,服務可以達成的輸送量就越高,同時請確定您配置足夠的 RU 來支援工作負載。

分割區索引鍵:輸入代表集合的分割區索引鍵的字串。 範例: /movies/title

輸送量:為您想套用至 Azure Cosmos DB 集合的 RU 數目設定一個選用值,以供此資料流程每次執行之用。 最小值為 400。

寫入輸送量預算:一個整數,表示您想要為此資料流程寫入作業配置的 RU,佔配置給集合的總輸送量的一部分。

Azure Cosmos DB 變更摘要

Azure Data Factory 可以從 Azure Cosmos DB 變更摘要取得資料,做法是在對應資料流來源轉換中將其啟用。 使用此連接器選項,您可以讀取變更摘要,並在將轉換資料載入您選擇的目的地資料集之前套用轉換。 您不需要使用 Azure 函式來讀取變更摘要,然後再寫入自訂轉換。 您可以使用此選項將資料從一個容器移至另一個容器、為合適的目的準備變更摘要驅動的材質檢視,或根據變更摘要將容器備份或復原自動化,並使用 Azure Data Factory 的視覺化拖放功能來啟用更多這類的使用案例。

請確定管線和活動名稱保持不變,如此 ADF 便可以為您記錄檢查點,以便自動取得上次執行的變更資料。 如果您變更管線名稱或活動名稱,檢查點便會重設,這會導致您在下次執行時得從頭開始,或是取得從現在開始的變更。

偵錯管線時,此功能的運作方式相同。 當您在偵錯執行期間重新整理瀏覽器時,檢查點會予以重設。 在您對偵錯執行的管線結果感到滿意之後,可以繼續發佈並觸發管線。 當您第一次觸發已發佈的管線時,會自動從頭重新開始,或是取得從現在開始的變更。

在監視區段中,您隨時有機會重新執行管線。 重新執行時,一律會從所選管線執行的前一個檢查點擷取變更的資料。

此外,Azure Cosmos DB 分析存放區現在支援 Azure Cosmos DB API for NoSQL 和 Azure Cosmos DB API for Mongo DB 的異動資料擷取 (CDC) (公開預覽)。 Azure Cosmos DB 分析存放區可讓您從分析存放區有效率地取用已變更 (已插入、已更新和已刪除) 資料的連續和累加摘要。

開始使用 Azure Cosmos DB 分析存放區中的異動資料擷取