共用方式為


使用 Azure Data Factory 樣本從資料庫大量複製到 Azure 數據總管

Azure 數據總管是快速、完全受控、數據分析服務。 它提供大量數據的即時分析,這些數據會從許多來源串流,例如應用程式、網站和IoT裝置。

若要將數據從 Oracle Server、Netezza、Teradata 或 SQL Server 中的資料庫複製到 Azure 數據總管,您必須從多個數據表載入大量數據。 通常,資料必須在每個資料表中進行分割,如此即可從單一資料表使用多個執行緒平行載入資料列。 本文描述要在這些案例中使用的範本。

Azure Data Factory 範本 是預先定義的 Data Factory 管線。 這些範本可協助您快速開始使用 Data Factory,並減少資料整合專案的開發時間。

您可以使用LookupForEach 活動,建立從資料庫大量複製到 Azure 資料總管範本。 若要加快資料複製的速度,您可以使用範本為每個資料庫或每個數據表建立許多管線。

重要

請務必使用適合您想要複製之數據數量的工具。

  • 使用 [ 從資料庫大量複製到 Azure 數據 總管] 範本,將大量數據從 SQL Server 和 Google BigQuery 等資料庫複製到 Azure 數據總管。
  • 使用 Data Factory 複製資料工具,將少數或適量數據的數據表複製到 Azure 數據總管。

必要條件

建立 ControlTableDataset

ControlTableDataset 指出將哪些數據從來源複製到管線中的目的地。 數據列數目表示複製數據所需的管線總數。 您應該將 ControlTableDataset 定義為源資料庫的一部分。

下列程式代碼顯示 SQL Server 來源資料表格式的範例:

CREATE TABLE control_table (
PartitionId int,
SourceQuery varchar(255),
ADXTableName varchar(255)
);

下表說明程式代碼元素:

屬性 說明 範例
PartitionId 複製順序 1
SourceQuery 查詢,指出管線運行時間期間將複製哪些數據
select * from table where lastmodifiedtime LastModifytime >= ''2015-01-01 00:00:00''>
ADXTableName 目的地數據表名稱 MyAdxTable

如果您的 ControlTableDataset 的格式不同,請為您的格式建立可比較的 ControlTableDataset。

使用從資料庫大量複製到 Azure 數據總管範本

  1. 在 [ 讓我們開始使用] 窗格中,選取 [從範本 建立管線] 以開啟 [ 範本庫 ] 窗格。

    Azure Data Factory [讓我們開始使用] 窗格

  2. 選取 [ 從資料庫大量複製到 Azure 數據總管] 範本。

    「從資料庫大量複製到 Azure 數據總管」範本

  3. 在 [從資料庫大量複製到 Azure 數據總管] 窗格的 [使用者輸入] 底下,執行下列動作來指定數據集:

    a. 在 [ControlTableDataset ] 下拉式清單中,選取控件數據表的連結服務,指出從來源複製到目的地的數據,並將數據放在目的地的位置。

    b. 在 [ SourceDataset ] 下拉式清單中,選取源資料庫的鏈接服務。

    c. 在 [ AzureDataExplorerTable ] 下拉式清單中,選取 [Azure 數據總管] 數據表。 如果數據集不存在, 請建立 Azure 數據總管連結服務 以新增數據集。

    d. 選取使用此範本

    [從資料庫大量複製到 Azure 數據總管] 窗格

  4. 在活動外部的畫布中選取區域,以存取範本管線。 選取 [ 參數] 索引標籤以輸入數據表的參數,包括 名稱 (控制數據表名稱)和 預設值(數據 行名稱)。

    管線參數。

  5. 在 [查閱]下,選取 [GetPartitionList] 以檢視默認設定。 系統會自動建立查詢。

  6. 選取 [命令] 活動[ ForEachPartition],選取 [ 設定 ] 索引卷標,然後執行下列動作:

    a. 在 [ 批次計數 ] 方塊中,輸入從 1 到 50 的數位。 此選取範圍會決定平行執行的管線數目,直到到達ControlTableDataset資料列的數目為止。

    b. 若要確保管線批次平行執行, 請勿 選取 [ 循序 ] 複選框。

    ForEachPartition 設定。

    提示

    最佳做法是平行執行許多管線,以便更快速地複製您的數據。 為了提高效率,請根據日期和數據表,分割源數據表中的數據,併為每個管線配置一個數據分割。

  7. 選取 [全部驗證] 以驗證 Azure Data Factory 管線,然後在 [管線驗證輸出] 窗格中檢視結果

    驗證範本管線。

  8. 如有必要,請選取 [ 偵錯],然後選取 [ 新增觸發程式 ] 以執行管線。

    [偵錯] 和 [執行管線] 按鈕

您現在可以使用範本,有效率地從資料庫和數據表複製大量數據。