使用 Azure Data Factory 樣本從資料庫大量複製到 Azure 數據總管
Azure 數據總管是快速、完全受控、數據分析服務。 它提供大量數據的即時分析,這些數據會從許多來源串流,例如應用程式、網站和IoT裝置。
若要將數據從 Oracle Server、Netezza、Teradata 或 SQL Server 中的資料庫複製到 Azure 數據總管,您必須從多個數據表載入大量數據。 通常,資料必須在每個資料表中進行分割,如此即可從單一資料表使用多個執行緒平行載入資料列。 本文描述要在這些案例中使用的範本。
Azure Data Factory 範本 是預先定義的 Data Factory 管線。 這些範本可協助您快速開始使用 Data Factory,並減少資料整合專案的開發時間。
您可以使用Lookup和 ForEach 活動,建立從資料庫大量複製到 Azure 資料總管範本。 若要加快資料複製的速度,您可以使用範本為每個資料庫或每個數據表建立許多管線。
重要
請務必使用適合您想要複製之數據數量的工具。
- 使用 [ 從資料庫大量複製到 Azure 數據 總管] 範本,將大量數據從 SQL Server 和 Google BigQuery 等資料庫複製到 Azure 數據總管。
- 使用 Data Factory 複製資料工具,將少數或適量數據的數據表複製到 Azure 數據總管。
必要條件
- Azure 訂用帳戶。 建立免費的 Azure 帳戶。
- Azure 資料總管叢集和資料庫。 建立叢集和資料庫。
- 數據處理站。 建立數據處理站。
- 數據源。
建立 ControlTableDataset
ControlTableDataset 指出將哪些數據從來源複製到管線中的目的地。 數據列數目表示複製數據所需的管線總數。 您應該將 ControlTableDataset 定義為源資料庫的一部分。
下列程式代碼顯示 SQL Server 來源資料表格式的範例:
CREATE TABLE control_table (
PartitionId int,
SourceQuery varchar(255),
ADXTableName varchar(255)
);
下表說明程式代碼元素:
屬性 | 說明 | 範例 |
---|---|---|
PartitionId | 複製順序 | 1 |
SourceQuery | 查詢,指出管線運行時間期間將複製哪些數據 | select * from table where lastmodifiedtime LastModifytime >= ''2015-01-01 00:00:00''> |
ADXTableName | 目的地數據表名稱 | MyAdxTable |
如果您的 ControlTableDataset 的格式不同,請為您的格式建立可比較的 ControlTableDataset。
使用從資料庫大量複製到 Azure 數據總管範本
在 [ 讓我們開始使用] 窗格中,選取 [從範本 建立管線] 以開啟 [ 範本庫 ] 窗格。
選取 [ 從資料庫大量複製到 Azure 數據總管] 範本。
在 [從資料庫大量複製到 Azure 數據總管] 窗格的 [使用者輸入] 底下,執行下列動作來指定數據集:
a. 在 [ControlTableDataset ] 下拉式清單中,選取控件數據表的連結服務,指出從來源複製到目的地的數據,並將數據放在目的地的位置。
b. 在 [ SourceDataset ] 下拉式清單中,選取源資料庫的鏈接服務。
c. 在 [ AzureDataExplorerTable ] 下拉式清單中,選取 [Azure 數據總管] 數據表。 如果數據集不存在, 請建立 Azure 數據總管連結服務 以新增數據集。
d. 選取使用此範本。
在活動外部的畫布中選取區域,以存取範本管線。 選取 [ 參數] 索引標籤以輸入數據表的參數,包括 名稱 (控制數據表名稱)和 預設值(數據 行名稱)。
在 [查閱] 底下,選取 [GetPartitionList] 以檢視默認設定。 系統會自動建立查詢。
選取 [命令] 活動[ ForEachPartition],選取 [ 設定 ] 索引卷標,然後執行下列動作:
a. 在 [ 批次計數 ] 方塊中,輸入從 1 到 50 的數位。 此選取範圍會決定平行執行的管線數目,直到到達ControlTableDataset資料列的數目為止。
b. 若要確保管線批次平行執行, 請勿 選取 [ 循序 ] 複選框。
提示
最佳做法是平行執行許多管線,以便更快速地複製您的數據。 為了提高效率,請根據日期和數據表,分割源數據表中的數據,併為每個管線配置一個數據分割。
選取 [全部驗證] 以驗證 Azure Data Factory 管線,然後在 [管線驗證輸出] 窗格中檢視結果。
如有必要,請選取 [ 偵錯],然後選取 [ 新增觸發程式 ] 以執行管線。
您現在可以使用範本,有效率地從資料庫和數據表複製大量數據。
相關內容
- 瞭解適用於 Azure Data Factory 的 Azure 數據總管連接器 。
- 在 Data Factory UI 中編輯連結的服務、數據集和管線。
- 在 Azure 數據總管 Web UI 中查詢數據。