練習 - 使用資料處理站複製活動

已完成

一旦完成 Data Factory 實例的建立,您就可以按一下 [撰寫與監視]按鈕,移至您可以開始建立資料管線的資源。 這會顯示下列畫面:

Authoring in Azure Data Factory

管線中的第一個步驟是使用下列步驟建立複製活動,在來源與目的地之間複製資料。

  1. 按一下左側側邊欄上的鉛筆圖示開啟製作畫布,或按一下建立管線按鈕來開啟製作畫布。

    Screenshot that shows the Create pipeline option highlighted.

  2. 建立 [管線]。 按一下 [Factory 資源] 窗格中的 + 按鈕,然後選取 [管線]

    Screenshot that shows Factory Resources under the Data Factory tab. The plus symbol is selected, exposing Pipeline, both are highlighted.

  3. 新增 [複製活動]。 在 [活動]窗格中,開啟 [移動和轉換]Accordion,並將 [複製資料]活動拖曳至管線畫布上。

    Using the Copy Activity

新增複製活動後,您就可以開始定義來源資料

  1. 在 [複製活動] 設定的 [來源]索引標籤中,按一下 [+ 新增]以選取資料來源。

    Creating as data source

  2. 例如,在資料存放區清單中,選取 [Amazon S3]磚,然後按一下 [繼續]

    Select Amazon S3 as a data source

  3. 檔案格式清單中選取 [DelimitedText] 格式圖格,然後按一下 [繼續]

    Screenshot that shows Delimited Text selected in the Select format list.

  4. 在 [設定屬性] 視窗中,為您的資料集提供可理解的 [名稱],然後按一下 [連結服務] 下拉式清單。 如果您未建立 S3 連結服務,請選取 [新增]

    Screenshot that shows the Set Properties window, with filter highlighted under Linked service.

  5. 針對 [S3 連結服務設定] 窗格,指定您的 S3 [存取金鑰] 和 [秘密金鑰]。 Data Factory 服務會使用由 Microsoft 管理的憑證來加密認證。 如需詳細資訊,請參閱資料移動安全性考量。 若要驗證您的認證是否有效,請按一下 [測試連線]。 在完成作業後,按一下 [建立]

    Setting data source access with keys

  6. 一旦建立並選取了連結服務,就請指定資料集設定的其餘部分。 這些設定會指定您要在連線中提取資料的方式和位置。 完成後,請按一下 [完成]

    Finishing up data source settings

  7. 若要驗證是否已正確地設定您的資料集,請按一下複製活動 [來源] 索引標籤中的 [預覽資料],以取得您資料的小型快照。

    Previewing data

定義來源資料後,您會定義將載入資料的接收器。 在此範例中,藉由執行下列步驟,接收器將會是 Azure Data Lake Storage Gen2:

  1. 在 [接收器] 索引標籤中,按一下 [+ 新增]

    Defining a data sink in the Copy Activity

  2. 選取 [Azure Data Lake Storage Gen2] 圖格,然後按一下 [繼續]

    Defining the dataset

  3. 在 [設定屬性] 側邊導覽列中,為您的資料集命名可理解的名稱,然後按一下 [連結服務] 下拉式清單。 如果您未建立 ADLS 連結服務,請選取 [新增]

    Setting the dataset properties

  4. 在 [ADLS 連結服務設定] 窗格中,選取您的 [驗證方法],然後輸入您的認證。 在下列範例中,輸入帳戶金鑰,並從下拉式清單中選取我的儲存體帳戶。

    Finalizing the dataset properties

  5. 設定您的連結服務之後,請在 ADLS 資料集設定中輸入。 完成後,請按一下 [完成]

    Finish the dataset properties

現在您已完全設定好複製活動。

  1. 若要測試此複製活動,請按一下管線畫布頂端的 [偵錯] 按鈕。 這會啟動管線偵錯執行。

    Testing the Copy Activity

  2. 若要監視管線偵錯執行的進度,請按一下管線的 [輸出] 索引標籤

    Monitoring the Copy Activity

  3. 若要檢視活動輸出的詳細描述,請按一下眼鏡圖示。 這會開啟 [複製監視] 畫面,其提供有用的計量,例如:資料讀取/寫入、輸送量,以及深度持續時間統計資料。

    Viewing the Copy Activity Results

若要驗證複製是否如預期般運作,請開啟您的 ADLS Gen2 儲存體帳戶,並查看您的檔案是否如預期般寫入