使用 Azure Data Factory 範本從資料庫大量複製到 Azure Data Explorer

Azure Data Explorer是快速、完全受控、資料分析服務。 它提供大量資料的即時分析,這些資料會從許多來源串流,例如應用程式、網站和 IoT 裝置。

若要將資料從 Oracle Server、Netezza、Teradata 或SQL Server中的資料庫複製到 Azure Data Explorer,您必須從多個資料表載入大量資料。 通常,資料必須在每個資料表中進行分割,如此即可從單一資料表使用多個執行緒平行載入資料列。 本文描述要在這些案例中使用的範本。

Azure Data Factory範本是預先定義的 Data Factory 管線。 這些範本可協助您快速開始使用 Data Factory,並減少資料整合專案的開發時間。

您可以使用查閱ForEach活動,從資料庫建立大量複製至 Azure Data Explorer範本。 若要加快資料複製速度,您可以使用範本來建立每個資料庫或每個資料表的許多管線。

重要

請務必使用適合您想要複製之資料數量的工具。

  • 使用大量從資料庫複製到 Azure Data Explorer範本,將大量資料從 SQL Server 和 Google BigQuery 等資料庫複製到 Azure Data Explorer。
  • 使用Data Factory 複製資料工具,將少量或中等資料的幾個資料表複製到 Azure Data Explorer。

必要條件

建立 ControlTableDataset

ControlTableDataset 指出哪些資料會從來源複製到管線中的目的地。 資料列數目表示複製資料所需的管線總數。 您應該將 ControlTableDataset 定義為源資料庫的一部分。

下列程式碼顯示SQL Server來源資料表格式的範例:

CREATE TABLE control_table (
PartitionId int,
SourceQuery varchar(255),
ADXTableName varchar(255)
);

下表說明程式碼專案:

屬性 描述 範例
PartitionId 複製順序 1
SourceQuery 指出管線執行時間期間將複製哪些資料的查詢
select * from table where lastmodifiedtime LastModifytime >= ''2015-01-01 00:00:00''>
ADXTableName 目的地資料表名稱 MyAdxTable

如果您的 ControlTableDataset 的格式不同,請為您的格式建立可比較的 ControlTableDataset。

使用從資料庫大量複製到 Azure Data Explorer 範本

  1. 在 [ 開始使用] 窗格中,選取 [從範本建立管線 ] 以開啟 [ 範本庫 ] 窗格。

    Azure Data Factory [讓我們開始使用] 窗格

  2. 選取[從資料庫大量複製到 Azure Data Explorer範本]。

    「從資料庫大量複製到 Azure Data Explorer」範本

  3. [從資料庫大量複製到 Azure Data Explorer] 窗格的 [使用者輸入] 下,執行下列動作來指定資料集:

    a. 在 ControlTableDataset 下拉式清單中,選取控制項資料表的連結服務,指出從來源複製哪些資料到目的地,並將它放在目的地的位置。

    b. 在 [SourceDataset ] 下拉式清單中,選取源資料庫的連結服務。

    c. 在[AzureDataExplorerTable] 下拉式清單中,選取 [Azure Data Explorer資料表]。 如果資料集不存在,請建立 Azure Data Explorer連結服務以新增資料集。

    d. 選取 [使用此範本]。

    [從資料庫大量複製到 Azure Data Explorer] 窗格

  4. 在畫布中選取活動外部的區域,以存取範本管線。 選取 [ 參數 ] 索引標籤以輸入資料表的參數,包括 名稱 (控制項資料表名稱) 和 預設值 (資料行名稱) 。

    管線參數。

  5. [查閱]底下,選取 [GetPartitionList ] 以檢視預設設定。 系統會自動建立查詢。

  6. 選取 [命令] 活動 ForEachPartition,選取 [ 設定 ] 索引標籤,然後執行下列動作:

    a. 在 [ 批次計數] 方塊 中,輸入從 1 到 50 的數位。 此選取範圍決定平行執行的管線數目,直到到達 ControlTableDataset 資料列數目為止。

    b. 若要確保管線批次以平行方式執行, 請勿 選取 [循序 ] 核取方塊。

    ForEachPartition 設定。

    提示

    最佳做法是平行執行許多管線,以便更快速地複製您的資料。 若要提升效率,請根據日期和資料表,分割來源資料表中的資料,並為每個管線配置一個資料分割。

  7. 選取 [全部驗證]以驗證Azure Data Factory管線,然後在 [管線驗證輸出] 窗格中檢視結果。

    驗證範本管線。

  8. 如有必要,請選取 [ 偵錯],然後選取 [ 新增觸發程式 ] 以執行管線。

    [偵錯] 和 [執行管線] 按鈕

您現在可以使用範本,有效率地從資料庫和資料表複製大量資料。