練習 - 使用資料處理站複製活動
一旦完成 Data Factory 實例的建立,您就可以按一下 [撰寫與監視]按鈕,移至您可以開始建立資料管線的資源。 這會顯示下列畫面:
管線中的第一個步驟是使用下列步驟建立複製活動,在來源與目的地之間複製資料。
按一下左側側邊欄上的鉛筆圖示開啟製作畫布,或按一下建立管線按鈕來開啟製作畫布。
建立 [管線]。 按一下 [Factory 資源] 窗格中的 + 按鈕,然後選取 [管線]。
新增 [複製活動]。 在 [活動]窗格中,開啟 [移動和轉換]Accordion,並將 [複製資料]活動拖曳至管線畫布上。
新增複製活動後,您就可以開始定義來源資料
在 [複製活動] 設定的 [來源]索引標籤中,按一下 [+ 新增]以選取資料來源。
例如,在資料存放區清單中,選取 [Amazon S3]磚,然後按一下 [繼續]
在檔案格式清單中選取 [DelimitedText] 格式圖格,然後按一下 [繼續]
在 [設定屬性] 視窗中,為您的資料集提供可理解的 [名稱],然後按一下 [連結服務] 下拉式清單。 如果您未建立 S3 連結服務,請選取 [新增]。
針對 [S3 連結服務設定] 窗格,指定您的 S3 [存取金鑰] 和 [秘密金鑰]。 Data Factory 服務會使用由 Microsoft 管理的憑證來加密認證。 如需詳細資訊,請參閱資料移動安全性考量。 若要驗證您的認證是否有效,請按一下 [測試連線]。 在完成作業後,按一下 [建立]。
一旦建立並選取了連結服務,就請指定資料集設定的其餘部分。 這些設定會指定您要在連線中提取資料的方式和位置。 完成後,請按一下 [完成]。
若要驗證是否已正確地設定您的資料集,請按一下複製活動 [來源] 索引標籤中的 [預覽資料],以取得您資料的小型快照。
定義來源資料後,您會定義將載入資料的接收器。 在此範例中,藉由執行下列步驟,接收器將會是 Azure Data Lake Storage Gen2:
在 [接收器] 索引標籤中,按一下 [+ 新增]
選取 [Azure Data Lake Storage Gen2] 圖格,然後按一下 [繼續]
在 [設定屬性] 側邊導覽列中,為您的資料集命名可理解的名稱,然後按一下 [連結服務] 下拉式清單。 如果您未建立 ADLS 連結服務,請選取 [新增]。
在 [ADLS 連結服務設定] 窗格中,選取您的 [驗證方法],然後輸入您的認證。 在下列範例中,輸入帳戶金鑰,並從下拉式清單中選取我的儲存體帳戶。
設定您的連結服務之後,請在 ADLS 資料集設定中輸入。 完成後,請按一下 [完成]。
現在您已完全設定好複製活動。
若要測試此複製活動,請按一下管線畫布頂端的 [偵錯] 按鈕。 這會啟動管線偵錯執行。
若要監視管線偵錯執行的進度,請按一下管線的 [輸出] 索引標籤
若要檢視活動輸出的詳細描述,請按一下眼鏡圖示。 這會開啟 [複製監視] 畫面,其提供有用的計量,例如:資料讀取/寫入、輸送量,以及深度持續時間統計資料。
若要驗證複製是否如預期般運作,請開啟您的 ADLS Gen2 儲存體帳戶,並查看您的檔案是否如預期般寫入