事件
3月31日 下午11時 - 4月2日 下午11時
最大的網狀架構、Power BI 和 SQL 學習事件。 3 月 31 日 - 4 月 2 日。 使用程式代碼 FABINSIDER 來節省 $400 美元。
立即註冊適用於:Azure Data Factory
Azure Synapse Analytics
提示
試用 Microsoft Fabric 中的 Data Factory,這是適用於企業的全方位分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告的所有項目。 了解如何免費開始新的試用!
本文概述如何使用資料流程,以轉換 Azure Cosmos DB 分析存放區中的資料。 若要深入了解,請閱讀 Azure Data Factory 和 Synapse Analytics 的介紹文章。
注意
Azure Cosmos DB 分析存放區支援 Azure Cosmos DB API for NoSQL 和 Azure Cosmos DB API for Mongo DB 的異動資料擷取,目前處於公開預覽狀態。
此 Azure Cosmos DB for NoSQL 連接器支援下列功能:
支援的功能 | IR | 受控私人端點 |
---|---|---|
對應資料流程 (來源/接收) | 5 |
① Azure 整合執行階段 ② 自我裝載整合執行階段
在對應資料流中轉換資料時,您可以在 Azure Cosmos DB 中讀取和寫入集合。 如需詳細資訊,請參閱對應資料流程中的來源轉換和接收轉換。
注意
Azure Cosmos DB 分析存放區可透過 Azure Cosmos DB for NoSQL 資料集類型找到。
您可以在來源轉換的 [來源選項] 索引標籤中找到 Azure Cosmos DB 的專屬設定。
包含系統資料行:如果為 true,則 id
、_ts
及其他系統資料行會包含在 Azure CosmosDB 的資料流程中繼資料中。 更新集合時,請務必包含此項,以便擷取現有的資料列識別碼。
頁面大小:查詢結果的每頁文件數目。 預設值為 "-1",表示最多可使用 1000 個服務動態頁面。
輸送量:為您想套用至 Azure Cosmos DB 集合的 RU 數目設定一個選用值,以供讀取作業期間此資料流程每次執行之用。 最小值為 400。
慣用的區域:為此流程選擇慣用的讀取區域。
變更摘要:如果為 true,您將從 Azure Cosmos DB 變更摘要取得資料,這是容器變更的持續性記錄,會以上次自動執行的發生順序排列。 當您將它設為 true 時,請勿同時將 [推斷漂移資料行類型] 和 [允許結構描述漂移] 設為 true。 如需詳細資訊,請參閱 Azure Cosmos DB 變更摘要。
從頭開始:如果為 true,您將在首次執行中取得完整快照集資料的初始載入,接著在下一次執行中擷取變更的資料。 如果為 false,則會在第一次執行時略過初始載入,接著在下一次執行時擷取變更的資料。 設定會與 Azure Cosmos DB 參考中的相同設定名稱一致。 如需詳細資訊,請參閱 Azure Cosmos DB 變更摘要。
您可以在接收轉換的 [設定] 索引標籤中找到 Azure Cosmos DB 的專屬設定。
Update 方法:決定您的資料庫目的地所允許的作業。 預設僅允許插入。 若要更新、upsert 或刪除資料列,必須使用 alter-row 轉換來標記這些動作的資料列。 對於更新、更新插入和刪除,必須設定索引鍵資料行,以決定要改變哪一個資料列。
集合動作:判斷是否要在寫入之前重新建立目的地集合。
批次大小:一個整數,表示每個批次中有多少物件寫入 Azure Cosmos DB 集合。 通常,從預設批次大小開始就已足夠。 若要進一步微調此值,請注意:
分割區索引鍵:輸入代表集合的分割區索引鍵的字串。 範例: /movies/title
輸送量:為您想套用至 Azure Cosmos DB 集合的 RU 數目設定一個選用值,以供此資料流程每次執行之用。 最小值為 400。
寫入輸送量預算:一個整數,表示您想要為此資料流程寫入作業配置的 RU,佔配置給集合的總輸送量的一部分。
Azure Data Factory 可以從 Azure Cosmos DB 變更摘要取得資料,做法是在對應資料流來源轉換中將其啟用。 使用此連接器選項,您可以讀取變更摘要,並在將轉換資料載入您選擇的目的地資料集之前套用轉換。 您不需要使用 Azure 函式來讀取變更摘要,然後再寫入自訂轉換。 您可以使用此選項將資料從一個容器移至另一個容器、為合適的目的準備變更摘要驅動的材質檢視,或根據變更摘要將容器備份或復原自動化,並使用 Azure Data Factory 的視覺化拖放功能來啟用更多這類的使用案例。
請確定管線和活動名稱保持不變,如此 ADF 便可以為您記錄檢查點,以便自動取得上次執行的變更資料。 如果您變更管線名稱或活動名稱,檢查點便會重設,這會導致您在下次執行時得從頭開始,或是取得從現在開始的變更。
偵錯管線時,此功能的運作方式相同。 當您在偵錯執行期間重新整理瀏覽器時,檢查點會予以重設。 在您對偵錯執行的管線結果感到滿意之後,可以繼續發佈並觸發管線。 當您第一次觸發已發佈的管線時,會自動從頭重新開始,或是取得從現在開始的變更。
在監視區段中,您隨時有機會重新執行管線。 重新執行時,一律會從所選管線執行的前一個檢查點擷取變更的資料。
此外,Azure Cosmos DB 分析存放區現在支援 Azure Cosmos DB API for NoSQL 和 Azure Cosmos DB API for Mongo DB 的異動資料擷取 (CDC) (公開預覽)。 Azure Cosmos DB 分析存放區可讓您從分析存放區有效率地取用已變更 (已插入、已更新和已刪除) 資料的連續和累加摘要。
事件
3月31日 下午11時 - 4月2日 下午11時
最大的網狀架構、Power BI 和 SQL 學習事件。 3 月 31 日 - 4 月 2 日。 使用程式代碼 FABINSIDER 來節省 $400 美元。
立即註冊