使用異動資料擷取資源,從 Azure SQL 資料擷取具有結構描述演進的已變更資料到 Delta 接收器
適用於:Azure Data Factory Azure Synapse Analytics
提示
試用 Microsoft Fabric 中的 Data Factory,這是適用於企業的全方位分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告的所有項目。 了解如何免費開始新的試用!
在本文中,您會使用 Azure Data Factory 使用者介面來建立異動資料擷取 (CDC) 資源。 資源會從 Azure SQL Database 來源獲取已變更的資料,並將其實時新增至儲存在 Azure Data Lake Storage Gen2 中的 Delta Lake。 此活動會使用來源與接收之間的 CDC 資源來展示結構描述演進的支援。
在本文中,您將學會如何:
- 建立 CDC 資源。
- 對來源資料表進行動態結構描述變更。
- 驗證目標 Delta 接收器的結構描述變更。
您可以修改並展開本文中的設定模式。
必要條件
開始本文中的程序前,請確定您具備這些資源:
- Azure 訂用帳戶。 如果您沒有 Azure 訂用帳戶,請建立免費的 Azure 帳戶。
- SQL 資料庫 您會使用 Azure SQL Database 作爲來源資料存放區。 如果您沒有 SQL 資料庫,請在 Azure 入口網站中建立一個。
- 「儲存體帳戶」。 您可以使用儲存在 Azure Data Lake Storage Gen2 中的 Delta Lake 作為目標資料存放區。 如果您沒有儲存體帳戶,請參閱 建立儲存體帳戶,以按照步驟來建立帳戶。
建立 CDC 成品
移至資料處理站中的 [建立者] 窗格。 在 Pipelines下方,隨即出現名為 異動資料擷取 (預覽) 的新最上層成品。
將滑鼠停留在 異動資料擷取 (預覽),直到出現三個點為止。 然後選取 [異動資料擷取 (預覽) 動作]。
選取 [新 CDC (預覽)]。 此步驟會開啟飛出視窗以開始引導式流程。
系統會提示您為 CDC 資源命名。 根據預設,名稱為「adfcdc」,其數字會以 1 遞增。 您可以使用您選擇的名稱取代此預設名稱。
使用下拉式清單來選擇您的資料來源。 針對本文,請選取 [Azure SQL Database]。
系統會提示您選取連結的服務。 建立新的連結服務或選取現有服務。
選取連結服務之後,系統會提示您選取來源資料表。 使用核取方塊來選取來源資料表,然後使用下拉式清單選取 遞增資料行 值。
窗格只會列出支援遞增資料行資料類型的資料表。
注意
若要在 Azure SQL Database 來源中啟用具有結構描述演進的 CDC,請選擇以浮水印資料行為基礎的資料表,而不是啟用原生 SQL CDC 的資料表。
選取來源資料表之後,請選取 [繼續] 來設定您的資料目標。
使用下拉式清單選取 [目標類型] 值。 在本文中,選取 [Delta]。
系統會提示您選取連結的服務。 建立新的連結服務或選取現有服務。
選取目標資料資料夾。 您可以使用下列任一方法:
- [目標型路徑] 底下的 [瀏覽] 按鈕,可協助您自動填入針對來源選取的所有新資料表的瀏覽路徑。
- 外面的 [瀏覽] 按鈕,以個別選取資料夾路徑。
選取資料夾路徑之後,請選取 [繼續] 按鈕。
[擷取變更資料] 的新索引標籤隨即出現。 此索引標籤是 CDC Studio,您可以在其中設定新的資源。
系統會自動為您建立新對應。 您可以使用下拉式清單來更新 來源資料表 和 目標資料表 選取專案。
選取資料表之後,預設會透過開啟 [自動對應] 切換來對應其資料行。 自動對應 在接收器中會依名稱自動對應資料行、在來源結構描述演進時取得新的資料行變更,並將此資訊流向支援的接收類型。
注意
只有在開啟 自動對應 切換時,結構描述演進才能運作。 若要了解如何編輯資料行對應或包含轉換,請參閱 使用異動資料擷取資源擷取已變更的資料。
選取 [金鑰] 連結,然後選取要用於追蹤刪除作業的 [金鑰] 資料行。
對應完成之後,請使用 [設定延遲] 按鈕 設定 CDC 延遲。
選取 CDC 的延遲,然後選取 [套用] 以進行變更。
根據預設,延遲設定為 15 分鐘。 本文中的範例會使用 即時 選項來取得延遲。 即時延遲會以少於 1 分鐘的間隔,不斷取得來源資料的變更。
針對其他延遲 (例如,如果您選取 15 分鐘),您的異動資料擷取會處理來源資料,並獲取自上次處理時間以來的任何變更的資料。
設定 CDC 之後,請選取 [發佈所有] 以發佈變更。
注意
如果您不發佈變更,您將無法啟動 CDC 資源。 下一個步驟中將無法使用 [開始] 按鈕。
選取 [開始] 以開始執行變更資料擷取。
現在您的異動資料擷取正在執行,您可以:
使用 [監視] 頁面,查看讀取和寫入的變更次數(插入、更新或刪除),以及其他診斷資訊。
驗證變更資料是否以 Delta Lake 格式抵達儲存在 Azure Data Lake Storage Gen2 中的 Delta Lake。
驗證抵達之變更資料的結構描述。
對來源資料表進行動態結構描述層變更。
使用
ALTER TABLE
T-SQL 陳述式,將新的 PersonalEmail 資料行新增至來源資料表,如下列範例所示。驗證新的 PersonalEmail 資料行是否出現在現有的資料表中。
驗證 Delta 接收器的結構描述變更
確認新資料行 PersonalEmail 出現在 Delta 接收器中。 您現在知道具有結構描述變更的變更資料已抵達目標。