Azure Data Factory テンプレートを使用してデータベースから Azure Data Explorer に一括コピーする

2025-05-08

Azure Data Explorer は、高速でフルマネージドのデータ分析サービスです。アプリケーション、Web サイト、IoT デバイスなど、多くのソースからストリーミングされる大量のデータをリアルタイムで分析できます。

Oracle Server、Netezza、Teradata、または SQL Server のデータベースから Azure Data Explorer にデータをコピーするには、複数のテーブルから大量のデータを読み込む必要があります。通常は、複数のスレッドを並列して使用して単一のテーブルから行が読み込まれるように、各テーブルでデータをパーティション化する必要があります。この記事では、これらのシナリオで使用するテンプレートについて説明します。

Azure Data Factory テンプレートは、定義済みの Data Factory パイプラインです。これらのテンプレートは、Data Factory の使用をすぐに開始し、データ統合プロジェクトの開発時間を短縮するのに役立ちます。

Lookup アクティビティと ForEach アクティビティを使用して、データベースから Azure Data Explorer への一括コピー テンプレートを作成します。データのコピーを高速化するために、テンプレートを使用して、データベースまたはテーブルごとに多数のパイプラインを作成できます。

重要

コピーするデータの量に適したツールを使用してください。

データベースから Azure Data Explorer への一括コピーテンプレートを使用して、SQL Server や Google BigQuery などのデータベースから Azure Data Explorer に大量のデータをコピーします。
Data Factory データのコピーツールを使用して、少量または中程度の量のデータを含むいくつかのテーブルを Azure Data Explorer にコピーします。

[前提条件]

Azure サブスクリプション。無料の Azure アカウントを作成します。
Azure Data Explorer クラスターとデータベース。クラスターとデータベースを作成します。
データファクトリ。データファクトリを作成します。
データのソース。

ControlTableDataset の作成

ControlTableDataset は、パイプライン内のソースからコピー先にコピーされるデータを示します。行数は、データのコピーに必要なパイプラインの合計数を示します。ソースデータベースの一部として ControlTableDataset を定義する必要があります。

SQL Server のソーステーブル形式の例を次のコードに示します。

CREATE TABLE control_table (
PartitionId int,
SourceQuery varchar(255),
ADXTableName varchar(255)
);

コード要素については、次の表で説明します。

プロパティ	説明	例
PartitionId	コピー順序	1
SourceQuery	パイプラインの実行時にコピーされるデータを示すクエリ	`select * from table where lastmodifiedtime LastModifytime >= ''2015-01-01 00:00:00''>`
ADXTableName	宛先テーブル名	MyAdxTable

ControlTableDataset の形式が異なる場合は、その形式に対応する ControlTableDataset を作成します。

データベースから Azure Data Explorer への一括コピーテンプレートを使用する

[ はじめに ] ウィンドウで、[ テンプレートからパイプラインを作成 ] を選択して、[ テンプレートギャラリー ] ウィンドウを開きます。
[データベースから Azure Data Explorer への一括コピー] テンプレートを選択します。
[ データベースから Azure Data Explorer への一括コピー ] ウィンドウの [ ユーザー入力] で、次の手順に従ってデータセットを指定します。

ある。 ControlTableDataset ドロップダウンリストで、ソースからコピー先にコピーされるデータと、コピー先の場所を示す、コントロールテーブルへのリンクされたサービスを選択します。

b。 SourceDataset ドロップダウンリストで、ソースデータベースへのリンクされたサービスを選択します。

c. AzureDataExplorerTable ドロップダウンリストで、Azure Data Explorer テーブルを選択します。データセットが存在しない場合は、 Azure Data Explorer のリンクされたサービスを作成してデータセットを追加します。

d. このテンプレートを使用する を選択します。
アクティビティの外部にあるキャンバス内の領域を選択して、テンプレートパイプラインにアクセスします。 [ パラメーター ] タブを選択して、名前 (コントロールテーブル名 ) や 既定値 (列名) など、テーブルのパラメーターを入力します。
[ 参照] で [GetPartitionList ] を選択し、既定の設定を表示します。クエリが自動的に作成されます。
コマンドアクティビティ ForEachPartition を選択し、[ 設定] タブを選択し、次の操作を行います。

ある。 [ バッチカウント ] ボックスに、1 ~ 50 の数値を入力します。この選択により、 ControlTableDataset 行の数に達するまで並列で実行されるパイプラインの数が決まります。

b。パイプラインバッチが並列で実行されるようにするには、[シーケンシャル] チェックボックスをオンにしないでください。

ヒント

ベストプラクティスは、データをより迅速にコピーできるように、多数のパイプラインを並列で実行することです。効率を高めるために、ソーステーブル内のデータをパーティション分割し、日付とテーブルに従ってパイプラインごとに 1 つのパーティションを割り当てます。
[ すべて検証 ] を選択して Azure Data Factory パイプラインを検証し、[ パイプラインの検証出力 ] ウィンドウに結果を表示します。
必要に応じて、[ デバッグ] を選択し、[ トリガーの追加] を選択してパイプラインを実行します。