Azure Data Explorer と Azure Data Factory の統合

2023-08-30

Azure Data Factory (ADF) は、異なるデータストアを統合し、データに対してアクティビティを実行できるクラウドベースのデータ統合サービスです。 ADF を使用して、データ移動とデータ変換を調整し、自動化するためのデータ駆動型ワークフローを作成できます。 Azure Data Explorer は、Azure Data Factory 内でサポートされるデータストアの 1 つです。

Azure Data Explorer に対する Azure Data Factory アクティビティ

Azure Data Explorer ユーザーは、Azure Data Factory とのさまざまな統合を利用できます。

コピーアクティビティ

Azure Data Factory コピーアクティビティは、データストア間でデータを転送するために使用されます。 Azure Data Explorer は、Azure Data Explorer からサポートされている任意のデータストアにデータがコピーされるソースとして、また、サポートされる任意のデータストアから Azure Data Explorer にデータがコピーされるシンクとしてサポートされています。詳細については、「Azure Data Factory を使用して Azure Data Explorer をコピー先またはコピー元としてデータをコピーする」を参照してください。詳細なチュートリアルについては、Azure Data Factory から Azure Data Explorer にデータ読み込む方法に関するページを参照してください。 Azure Data Explorer は、Azure 内でデータをコピーするときに使用される Azure IR (Integration Runtime) と、オンプレミス、または Azure Virtual Network などのアクセス制御が可能なネットワーク内にあるデータストアとの間でデータをコピーするときに使用されるセルフホステッド IR によってサポートされています。詳細については、「 IR を使用する方法」を参照してください。

ヒント

コピーアクティビティを使用し、リンクされたサービスまたはデータセットを作成する場合は、古いデータストア Kusto ではなく、データストア Azure Data Explorer (Kusto) を選択します。

Lookup アクティビティ

ルックアップアクティビティは、Azure Data Explorer 上でクエリを実行するために使用されます。クエリの結果は、ルックアップアクティビティの出力として返され、ADF ルックアップに関するドキュメントで説明されているように、パイプライン内の次のアクティビティで使用できます。

応答サイズの上限である 5,000 行と 2 MB に加え、アクティビティには 1 時間のクエリタイムアウト制限もあります。

コマンドアクティビティ

コマンドアクティビティを使用すると、Azure Data Explorer 管理コマンドを実行できます。クエリとは異なり、管理コマンドによってデータまたはメタデータが変更される可能性があります。一部の管理コマンドは、 .ingestor .set-or-append) などのコマンドを使用して Azure Data Explorer にデータを取り込むか、 .exportなどのコマンドを使用して Azure Data Explorer から外部データストアにデータをコピーすることを対象とします。コマンドアクティビティの詳細なチュートリアルについては、「 Azure Data Factory コマンドアクティビティを使用して Azure Data Explorer 管理コマンドを実行するを参照してください。管理コマンドを使用してデータをコピーすると、Copy アクティビティよりも高速かつ安価なオプションになる場合があります。コマンドアクティビティとコピーアクティビティのどちらを使用するかを決定するには、データをコピーするときのコピーアクティビティとコマンドアクティビティ間での選択に関するページを参照してください。

データベーステンプレートから一括コピーする

「Azure Data Factory テンプレートを使用してデータベースから Azure Data Explorer に一括コピーする」は、事前定義された Azure Data Factory パイプラインです。テンプレートを使用して、データベースまたはテーブルごとにさまざまなパイプラインを作成し、データのコピーを高速化します。

マッピングデータフロー

Azure Data Factory: マッピングデータフローは、視覚的に設計されたデータ変換であり、データエンジニアはコードを記述せずにグラフィカルなデータ変換ロジックを開発できます。データフローを作成して Azure Data Explorer にデータを取り込むには、次の方法を使用します。

マッピングデータフローを作成します。
Azure BLOB にデータをエクスポートします。
データを Azure に取り込むために、Event Grid または ADF コピーアクティビティを定義します。

データをコピーするときにコピーと Azure Data Explorer コマンドアクティビティ間で選択する

このセクションでは、データコピーのニーズに適したアクティビティを選択する際に役立ちます。

Azure Data Explorer との間でデータをコピーする場合、Azure Data Factory では次の 2 つのオプションを使用できます。

コピーアクティビティ。
Azure Data Explorer コマンドアクティビティ。Azure Data Explorer でデータを転送する管理コマンドの 1 つを実行します。

Azure Data Explorer からデータをコピーする

コピーアクティビティまたは .export コマンドを使用して、Azure Data Explorer からデータをコピーできます。 .export コマンドでは、クエリを実行してから、クエリの結果をエクスポートします。

Azure Data Explorer からデータをコピーするためのコピーアクティビティと .export コマンドの比較については、次の表を参照してください。

	コピーアクティビティ	.export コマンド
フローの説明	ADF により Kusto に対してクエリが実行され、結果が処理されてターゲットデータストアに送信されます。 (Azure Data Explorer > ADF > シンクデータストア)	ADF は、 `.export` 管理コマンドを Azure Data Explorer に送信してコマンドを実行し、データをターゲットデータストアに直接送信します。 ( Azure Data Explorer > シンクデータストア)
サポートされるターゲットデータストア	さまざまなサポートされるデータストア	ADLSv2、Azure BLOB、SQL Database
パフォーマンス	一元化	分散 (既定)。複数のノードからデータを同時にエクスポート高速で、COGS (売却済商品の原価) の効率性が高い。
サーバーの制限	クエリの制限を拡張/無効化できます。既定では、ADF クエリには次のものが含まれます。 500,000 レコードまたは 64 MB のサイズ制限。 10 分の時間制限。 `noTruncation` が false に設定されている。	既定では、クエリの制限を拡張または無効にします。サイズ制限が無効になっている。サーバータイムアウトが 1 時間に延長される。 `MaxMemoryConsumptionPerIterator` と `MaxMemoryConsumptionPerQueryPerNode` が最大値 (5 GB、TotalPhysicalMemory/2) に拡張される。

ヒント

コピー先が .export コマンドでサポートされているデータストアの 1 つであり、どのコピーアクティビティ機能もご自身のニーズにとって重要でない場合は、.export コマンドを選択します。

Azure Data Explorer へのデータのコピー

コピーアクティビティ、またはクエリからの取り込み (.set-or-append、.set-or-replace、.set、.replace) やストレージからの取り込み (.ingest) などの取り込みコマンドを使用して、Azure Data Explorer にデータをコピーできます。

Azure Data Explorer にデータをコピーするためのコピーアクティビティと取り込みコマンドの比較については、次の表を参照してください。

	コピーアクティビティ	クエリからの取り込み `.set-or-append` / `.set-or-replace` / `.set` / `.replace`	ストレージからの取り込み `.ingest`
フローの説明	ADF により、ソースデータストアからデータが取得され、それが表形式に変換されて、必要なスキーママッピング変更が行われます。その後、ADF によってデータが Azure BLOB にアップロードされてチャンクに分割され、BLOB がダウンロードされて Azure Data Explorer テーブルに取り込まれます。 ( Azure Data Explorer > Azure BLOB > ADF >ソースデータストア)	これらのコマンドは、クエリまたは `.show` コマンドを実行し、クエリの結果をテーブルに取り込むことができます (Azure Data Explorer > Azure Data Explorer)。	このコマンドでは、1 つまたは複数のクラウドストレージの成果物からデータを "プル" することで、データがテーブルに取り込まれます。
サポートされるソースデータストア	さまざまなオプション	ADLS Gen 2、Azure BLOB、SQL ( sql_request() プラグインを使用)、Azure Cosmos DB ( cosmosdb_sql_request プラグインを使用)、および HTTP または Python API を提供するその他のデータストア。	ファイルシステム、Azure Blob Storage、ADLS Gen 1、ADLS Gen 2
パフォーマンス	取り込みはキューに登録されて管理されるため、負荷分散、再試行、エラー処理を提供することで、取り込みのサイズが小さく保たれ、高可用性が保証されます。	これらのコマンドは、大量のデータをインポートするようには設計されていません。予想どおりに動作し、コストが低くなります。ただし、運用環境のシナリオでは、トラフィック速度とデータサイズが大きい場合にはコピーアクティビティを使用します。
サーバーの制限	サイズ制限はありません。最大タイムアウト制限: 取り込まれた BLOB ごとに 1 時間。	クエリ部分にはサイズ制限だけがあります。これは、`noTruncation=true` を指定することでスキップできます。最大タイムアウト制限: 1 時間。	サイズ制限はありません。最大タイムアウト制限: 1 時間。

ヒント

ADF から Azure Data Explorer にデータをコピーする場合は、ingest from query コマンドを使用します。
大規模なデータセット (>1 GB) の場合は、Copy アクティビティを使用します。

必要なアクセス許可

次の表に、Azure Data Factory との統合におけるさまざまな手順に必要なアクセス許可を示します。

Step	操作	最小レベルのアクセス許可	メモ
リンクされたサービスの作成	データベースナビゲーション	"データベース表示者" ADF を使用してログインしているユーザーには、データベースメタデータを読み取る権限が必要です。	ユーザーは、データベース名を手動で指定できます。
	接続をテスト	"データベース監視者" または "テーブル取り込み者" サービスプリンシパルには、データベースレベルの `.show` コマンドまたはテーブルレベルの取り込みを実行する権限が必要です。	TestConnection では、データベースではなく、クラスターへの接続が検証されます。データベースが存在しない場合でも成功する可能性があります。テーブル管理者のアクセス許可では不十分です。
データセットの作成	テーブルナビゲーション	"データベース監視者" ADF を使用してログインしたユーザーには、データベースレベルの `.show` コマンドを実行する権限が必要です。	ユーザーは、テーブル名を手動で指定できます。
データセットの作成またはコピーアクティビティ	データのプレビュー	"データベース表示者" サービスプリンシパルには、データベースメタデータを読み取る権限が必要です。
	Import schema	"データベース表示者" サービスプリンシパルには、データベースメタデータを読み取る権限が必要です。	Azure Data Explorer が表形式から表形式へのコピーのソースである場合、ユーザーがスキーマを明示的にインポートしなかった場合でも、ADF はスキーマを自動的にインポートします。
シンクとしての Azure Data Explorer	by-name 列マッピングの作成	"データベース監視者" サービスプリンシパルには、データベースレベルの `.show` コマンドを実行する権限が必要です。	すべての必須操作は、テーブルインジェストで動作します。一部のオプションの操作は失敗する場合があります。
	テーブルに CSV マッピングを作成するマッピングを削除する	"テーブル取り込み者" または "データベース管理者" サービスプリンシパルには、テーブルに変更を加える権限が必要です。
	データを取り込む	"テーブル取り込み者" または "データベース管理者" サービスプリンシパルには、テーブルに変更を加える権限が必要です。
ソースとしての Azure Data Explorer	クエリを実行する	"データベース表示者" サービスプリンシパルには、データベースメタデータを読み取る権限が必要です。
Kusto コマンド		各コマンドのアクセス許可レベルに従います。

パフォーマンス

Azure Data Explorer がソースであり、クエリを含むルックアップ、コピー、またはコマンドアクティビティを使用する場合、パフォーマンス情報に関する「クエリのベストプラクティス」と、コピーアクティビティに関する ADF のドキュメントを参照してください。

このセクションでは、Azure Data Explorer がシンクであるコピーアクティビティの使用について説明します。 Azure Data Explorer シンクの推定スループットは 11-13 MBps です。次の表は、Azure Data Explorer シンクのパフォーマンスに影響するパラメーターの詳細を示しています。

パラメーター	メモ
コンポーネントの地理的距離	すべてのコンポーネントを同じリージョンに配置します。ソースおよびシンクデータストア。 ADF 統合ランタイム。対象の Azure Data Explorer クラスター。少なくとも、お使いの統合ランタイムが対象の Azure Data Explorer クラスターと同じリージョンにあることを確認してください。
DIU の数	ADF によって使用される 4 つの DIU ごとに 1 つの VM。 DIU を増やすと、ソースが複数のファイルを含むファイルベースのストアである場合にのみ役立ちます。各 VM では、異なるファイルが並列に処理されます。そのため、1 つの大きなファイルをコピーすると、複数の小さなファイルをコピーするよりも待機時間が長くなります。
Azure Data Explorer クラスターの量と SKU	Azure Data Explorer ノードの数が多い場合、インジェストの処理時間が短縮されます。 dev SKU を使用すると、パフォーマンスが著しく制限されます。
並列処理	データベースから大量のデータをコピーするには、データをパーティション分割してから、各パーティションを並列にコピーする ForEach ループを使用するか、データベースから Azure Data Explorer テンプレートにコピーを使用します。注: コピーアクティビティの [設定]>[並列処理の次数] は、Azure Data Explorer には関係ありません。
データ処理の複雑さ	待ち時間は、ソースファイル形式、列マッピング、および圧縮によって異なります。
統合ランタイムを実行している VM	Azure のコピーでは、ADF VM とマシン SKU を変更することはできません。オンプレミスから Azure へのコピーの場合は、セルフホステッド IR をホストしている VM が十分に強力であることを確認します。

ヒントとよくある落とし穴

アクティビティの進行状況の監視

アクティビティの進行状況を監視する場合、 Data の書き込み プロパティは Data 読み取り プロパティよりも大きくなる可能性があります。これは、 Data の読み取り はバイナリファイルのサイズに応じて計算されますが、 Data の書き込み は、データが逆シリアル化および展開された後、メモリ内のサイズに従って計算されるためです。
アクティビティの進行状況を監視するときに、データが Azure Data Explorer シンクに書き込まれていることを確認できます。 Azure Data Explorer テーブルに対してクエリを実行すると、データが到着していないことがわかります。これは、Azure Data Explorer にコピーするときに 2 つのステージがあるためです。
- 最初のステージでは、ソースデータが読み取られ、それが 900 MB のチャンクに分割されて、各チャンクが Azure BLOB にアップロードされます。最初のステージは、ADF アクティビティの進行状況ビューに表示されます。
- 2 番目のステージは、すべてのデータが Azure BLOB にアップロードされた後に開始されます。クラスターのノードは BLOB をダウンロードし、シンクテーブルにデータを取り込みます。その後、データが Azure Data Explorer テーブルに表示されます。

不適切なエスケープ処理のために CSV ファイルの取り込みに失敗

Azure Data Explorer では、CSV ファイルが RFC 4180 に合致していることが予期されています。次のことが予期されています。

エスケープ処理 (" や改行など) を必要とする文字が含まれているフィールドの先頭と末尾は、空白を含まない " 文字にする必要があります。フィールド内のすべての " 文字は、二重の " 文字 ("") を使用してエスケープされます。たとえば、"Hello, ""World""" は、Hello, "World" という内容の 1 つの列またはフィールドを持つ 1 つのレコードを含む有効な CSV ファイルです。
ファイル内のすべてのレコードには、同じ数の列とフィールドが含まれている必要があります。

Azure Data Factory では、バックスラッシュ (エスケープ) 文字を使用できます。 Azure Data Factory を使用してバックスラッシュを含む CSV ファイルを生成すると、そのファイルの Azure Data Explorer への取り込みは失敗します。

例

次のテキスト値: Hello、"World"
ABC DEF
"ABC\D"EF
"ABC DEF

"Hello, "World"" のように適切な CSV ファイルに表示されます。
"ABC DEF"
"""ABC\D""EF"
"""ABC DEF"

既定のエスケープ文字 (バックスラッシュ) を使用すると、次の CSV は Azure Data Explorer では機能しません。"Hello, "World""
"ABC DEF"
""ABC\D"EF"
""ABC DEF"

入れ子になった JSON オブジェクト

JSON ファイルを Azure Data Explorer にコピーするときは、次の点に注意してください。

配列はサポートされません。
JSON 構造にオブジェクトのデータ型が含まれている場合、Azure Data Factory はオブジェクトの子項目をフラット化し、各子項目を Azure Data Explorer テーブル内の別の列にマップしようとします。オブジェクト項目全体を Azure Data Explorer の 1 つの列にマップする場合:
- JSON 行全体を Azure Data Explorer の 1 つの動的列に取り込みます。
- Azure Data Factory の JSON エディターを使用して、パイプライン定義を手動で編集します。 [Mappings]\(マッピング\)で、
  - 子項目ごとに作成された複数のマッピングを削除し、オブジェクトの種類をテーブル列にマップする 1 つのマッピングを追加します。
  - 終わり角かっこの後にコンマを追加し、続けて次を指定します。
    "mapComplexValuesToString": true.

Azure Data Explorer にコピーするときに追加のプロパティを指定する

その他のインジェストプロパティを追加するには、パイプラインのコピーアクティビティに指定します。

プロパティを追加するには

Azure Data Factory で、[作成] 鉛筆ツールを選択します。
[パイプライン] で、インジェストプロパティを追加するパイプラインを選びます。
[アクティビティ] キャンバスで、[データのコピー] アクティビティを選択します。
アクティビティの詳細で、[シンク] を選択し、[その他のプロパティ] を展開します。
[新規] を選択し、必要に応じて [ノードの追加] または [Add array]\(配列の追加\) を選択し、インジェストプロパティの名前と値を指定します。さらにプロパティを追加するには、この手順を繰り返します。
完了したら、パイプラインを保存して発行します。

次のステップ

Azure Data Factory を使用して Azure Data Explorer にデータをコピー。