コピーアクティビティのパフォーマンスとスケーラビリティに関するガイド

適用対象: Azure Data Factory Azure Synapse Analytics

Tip

Data Factory in Microsoft Fabric は、よりシンプルなアーキテクチャ、組み込みの AI、および新機能を備えた次世代のAzure Data Factoryです。データ統合を初めて使用する場合は、Fabric Data Factory から始めます。既存の ADF ワークロードをFabricにアップグレードして、データサイエンス、リアルタイム分析、レポートの新機能にアクセスできます。

Fabric無料試用版を開始します。
Azure Data Factory から Microsoft Fabric の Data Factory へのアップグレード

データレイクまたはエンタープライズデータウェアハウス (EDW) からAzureへの大規模なデータ移行を実行したい場合があります。ビッグデータ分析のために、さまざまなソースからAzureに大量のデータを取り込む場合もあります。いずれの場合も、最適なパフォーマンスとスケーラビリティを実現することが重要です。

Azure Data FactoryパイプラインとAzure Synapse Analytics パイプラインは、次の利点を持つデータを取り込むメカニズムを提供します。

大量のデータを処理する
パフォーマンスが高い
コスト効率が高い

これらの利点により、パフォーマンスの高いスケーラブルなデータインジェストパイプラインを構築したいデータエンジニアに最適です。

この記事を読むと、次の質問に回答できるようになります。

データ移行シナリオとデータインジェストシナリオでコピーアクティビティを使用すると、どのレベルのパフォーマンスとスケーラビリティを実現できますか。
コピーアクティビティのパフォーマンスを調整するには、どのような手順を実行する必要がありますか。
1 回のコピーアクティビティの実行には、どのようなパフォーマンスの最適化を利用できますか。
コピーのパフォーマンスを最適化するときに考慮する外的要因には何がありますか。

Note

コピーアクティビティ全般に慣れていない場合は、この記事を読む前に、コピーアクティビティの概要に関するページを参照してください。

Azure Data Factoryと Synapse パイプラインを使用して達成可能なパフォーマンスとスケーラビリティをコピーする

Azure Data Factoryパイプラインと Synapse パイプラインは、さまざまなレベルで並列処理を可能にするサーバーレスアーキテクチャを提供します。

このアーキテクチャを使用すると、お使いの環境のデータ移動スループットを最大化するパイプラインを開発できます。これらのパイプラインは、次のリソースを完全に利用します。

ソースとコピー先のデータストア間のネットワーク帯域幅
ソースとコピー先のデータストアの 1 秒あたりの入力/出力操作数 (IOPS) と帯域幅

この完全な利用は、次のリソースで使用可能な最小スループットを測定することで、全体のスループットを推定できることを意味します。

ソースデータストア
転送先データストア
ソースとコピー先のデータストア間のネットワーク帯域幅

次の表は、データ移動時間を計算したものです。各セルの期間は、特定のネットワークおよびデータストアの帯域幅と、特定のデータペイロードサイズに基づいて計算されます。

Note

以下に示す期間は、ForEach を使用したパーティションの作成や複数の同時コピーアクティビティの生成など、「コピーパフォーマンス最適化機能」で説明されている 1 つ以上のパフォーマンス最適化手法を使用して、エンドツーエンドのデータ統合ソリューションで達成可能なパフォーマンスを表すためのものです。特定のデータセットとシステム構成のコピーパフォーマンスを最適化するには、パフォーマンスチューニングの手順に記載されている手順に従うことをお勧めします。パフォーマンスチューニングテストで取得した数値は、運用環境デプロイ計画、容量計画、および請求プロジェクションに使用する必要があります。

データサイズ/ 帯域幅	50 Mbps	100 Mbps	500 Mbps	1 Gbps	5 Gbps	10 Gbps	50 Gbps
1 GB	2.7 分	1.4 分	0.3 分	0.1 分	0.03 分	0.01 分	0.0 分
10 GB	27.3 分	13.7 分	2.7 分	1.3 分	0.3 分	0.1 分	0.03 分
100 GB	4.6 時間	2.3 時間	0.5 時間	0.2 時間	0.05 時間	0.02 時間	0.0 時間
1 TB	46.6 時間	23.3 時間	4.7 時間	2.3 時間	0.5 時間	0.2 時間	0.05 時間
10 TB	19.4 日	9.7 日	1.9 日	0.9 日	0.2 日	0.1 日	0.02 日
100 TB	194.2 日	97.1 日	19.4 日	9.7 日	1.9 日	1 日	0.2 日
1 PB	64.7 mo	32.4 mo	6.5 mo	3.2 mo	0.6ヶ月	0.3ヶ月	0.06 mo
10 PB	647.3 か月	323.6 mo	64.7 mo	31.6 mo	6.5 mo	3.2 mo	0.6ヶ月

コピーはさまざまなレベルでスケーラブルです。

コピーのスケーリングのしくみ

制御フローでは、複数のコピーアクティビティを並列して開始できます。たとえば、For Each ループを使用します。
1 回のコピーアクティビティで、スケーラブルなコンピューティングリソースを利用できます。
- Azure統合ランタイム (IR) を使用する場合は最大 256 個のデータ統合ユニット (DIU)をサーバーレス方式でコピーアクティビティごとに指定できます。
- セルフホステッド IR を使用する場合は、次のいずれかの方法を使用できます。
  - マシンを手動でスケールアップします。
  - 複数のマシン (最大 4 ノード) にスケールアウトします。すると、1 回のコピーアクティビティによって、そのファイルセットがすべてのノードにわたってパーティション分割されます。
1 回のコピーアクティビティで、複数のスレッドを使用したデータストアの読み取りと書き込みが並列で行われます。

パフォーマンスチューニングの手順

コピーアクティビティを伴うサービスのパフォーマンスをチューニングするには、次の手順を実行します。

テストデータセットを選択し、ベースラインを確立します。

開発中は、代表的なデータサンプルに対してコピーアクティビティを使用して、パイプラインをテストします。選択するデータセットは、次の属性に従って一般的なデータパターンを表す必要があります。
- フォルダー構造
- ファイルパターン
- データスキーマ
また、データセットは、コピーのパフォーマンスを評価するのに十分な大きさにする必要があります。適切なサイズにすると、コピーアクティビティの完了に少なくとも 10 分かかります。コピーアクティビティの監視の後に、実行の詳細とパフォーマンス特性を収集します。
1 回のコピーアクティビティのパフォーマンスを最大化する方法:

まず、1 回のコピーアクティビティの使用におけるパフォーマンスを最大化することをお勧めします。
- コピーアクティビティが Azure 統合ランタイムで実行されている場合:
  
  データ統合単位 (DIU) と並列コピーの設定の既定値から始めます。
- コピーアクティビティが "セルフホステッド" 統合ランタイムで実行される場合:
  
  専用のマシンを使用して IR をホストすることをお勧めします。このマシンは、データストアをホストするサーバーとは別にする必要があります。並列コピー設定の既定値とセルフホステッド IR 用の単一のノードの使用から始めます。
パフォーマンステストの実行を行います。達成されたパフォーマンスをメモしておきます。使用した実際の値 (DIU や並列コピーなど) を含めます。実行結果と使用されたパフォーマンス設定を収集する方法については、コピーアクティビティの監視に関する記事を参照してください。ボトルネックを特定して解決するために、コピーアクティビティのパフォーマンスのトラブルシューティングを行う方法を学習します。

トラブルシューティングとチューニングのガイダンスに従って、反復してパフォーマンステストの実行を増やします。 1 回のコピーアクティビティの実行でスループットを向上できない場合は、複数のコピーを同時に実行して集計スループットを最大化するかどうかを検討してください。このオプションについては、次の番号付きの箇条書きで説明します。
複数のコピーを同時に実行することで合計スループットを最大化する方法:

ここまでで、1 回のコピーアクティビティのパフォーマンスを最大化しました。環境のスループット上限をまだ達成していない場合は、複数のコピーアクティビティを並列で実行できます。制御フローコンストラクトを使用することで、並列で実行できます。このようなコンストラクトの 1 つは、For Each ループです。詳細については、ソリューションテンプレートに関する次の記事を参照してください。
構成をデータセット全体まで拡張します。

実行の結果とパフォーマンスに問題がなければ、データセット全体を網羅するよう、定義とパイプラインを拡張できます。

コピーアクティビティのパフォーマンスのトラブルシューティング

パフォーマンスチューニングの手順に従って、シナリオのパフォーマンステストを計画および実施します。また、「コピーアクティビティのパフォーマンスのトラブルシューティング」で、各回のコピーアクティビティの実行のパフォーマンスに関する問題をトラブルシューティングする方法を確認します。

パフォーマンス最適化機能のコピー

このサービスには、次のパフォーマンス最適化機能があります。

データ統合単位
セルフホステッド統合ランタイムのスケーラビリティ
並列コピー
ステージされたコピー

データ統合単位

データ統合ユニット (DIU) は、Azure Data Factory および Synapse パイプライン内の 1 つのユニットの能力を表す指標です。能力は、CPU、メモリ、およびネットワークリソース割り当てを組み合わせたものです。 DIU は、Azure 統合ランタイムにのみ適用されます。 DIU は、セルフホステッド統合ランタイムには適用されません。こちらを参照してください。

セルフホステッド統合ランタイムのスケーラビリティ

増加する同時実行ワークロードをホストすることもできます。または、現在のワークロードレベルでパフォーマンスを向上させることもできます。次の方法で、処理のスケーリングを強化できます。

1 つのノードで実行できる同時実行ジョブの数を増やすことで、セルフホステッド IR をスケール "アップ" できます。
スケールアップは、ノードのプロセッサとメモリが完全に使用されていない場合にのみ機能します。
ノード (マシン) をさらに追加することで、セルフホステッド IR をスケール "アウト" できます。

詳細については、次を参照してください。

並列コピー

parallelCopies プロパティを設定して、コピーアクティビティで使用する並列処理を指定できます。このプロパティは、コピーアクティビティ内のスレッドの最大数と考えてください。スレッドは並行して動作します。スレッドは、ソースから読み取るか、シンクデータストアに書き込みます。詳細については、こちらを参照してください。

ステージングコピー

データコピー操作では、データを "直接" シンクデータストアに送信できます。または、BLOB ストレージを "中間ステージング" ストアとして使用することもできます。詳細については、こちらを参照してください。

他のコピーアクティビティの記事を参照してください。

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-04-07

コピー アクティビティのパフォーマンスとスケーラビリティに関するガイド

Azure Data Factoryと Synapse パイプラインを使用して達成可能なパフォーマンスとスケーラビリティをコピーする

パフォーマンス チューニングの手順

コピー アクティビティのパフォーマンスのトラブルシューティング