Azure Machine Learning を使用した分散トレーニング

2025-04-09

この記事では、分散トレーニングと、ディープラーニングモデルにおいて Azure Machine Learning がどのようにこれをサポートするかについて説明します。

分散トレーニングでは、モデルをトレーニングするためのワークロードが分割され、ワーカーノードと呼ばれる複数のミニプロセッサ間で共有されます。これらのワーカーノードは並行して動作し、モデルのトレーニングを高速化します。分散トレーニングは従来の機械学習モデルに使用できますが、ディープニューラルネットワークのトレーニングのためのディープラーニングなどの、コンピューティングや時間のかかるタスクにより適しています。

ディープラーニングと分散トレーニング

分散トレーニングには主に、データ並列とモデル並列の 2 つの種類があります。ディープラーニングモデルでの分散トレーニングのために、Azure Machine Learning SDK in Python は、PyTorch および TensorFlow との統合をサポートしています。どちらも人気があるフレームワークであり、分散トレーニングにデータ並列を採用していて、コンピューティング速度を最適化するために Horovod を使用できます。

分散トレーニングを必要としない機械学習モデルについては、「Azure Machine Learning を使用してモデルをトレーニングする」で Python SDK を使用してモデルをトレーニングするさまざまな方法を参照してください。

データ並列

データ並列は、2 つの分散トレーニングの内、より実装が簡単な方法で、ほとんどのユースケースに対応できます。

この方法では、データはパーティションに分割されます。パーティションの数は、コンピューティングクラスター内またはサーバーレスコンピューティング内の使用可能なノードの合計数と同じになります。モデルはこれらの各ワーカーノードにコピーされ、各ノードはそれ自体のデータのサブセットを操作します。各ノードにはトレーニング対象のモデルをサポートするための容量が必要であることに注意してください。つまり、モデル全体が各ノードに適合している必要があります。

この手法を次の図に示します。

ワーカーノードにコピーされたモデルを示すデータ並列処理の図。

各ノードは、それぞれのトレーニングサンプルとラベル付き出力の予測の間のエラーを個別に計算します。各ノードは、エラーに基づいてモデルを更新し、対応するモデルを更新するためにそのすべての変更を他のノードに伝達する必要があります。ワーカーノードは、一貫したモデルがトレーニングされるように、バッチ計算の最後にモデルパラメーター (グラデーション) を同期する必要があります。

モデル並列

モデル並列処理 (ネットワーク並列処理とも呼ばれます) では、異なるノードで同時に実行できるさまざまな部分にモデルが分割され、各ノードが同じデータに対して実行されます。この方法のスケーラビリティは、アルゴリズムのタスクの並列の程度によって異なり、データ並列処理よりも実装が複雑になります。

モデル並列の場合、ワーカーノードは共有パラメーターを同期するだけでよく、通常、各フォワードまたはバックワードプロパゲーションのステップごとに1回です。また、各ノードは同じトレーニングデータのモデルのサブセクションで動作するため、大規模なモデルは問題になりません。

次の方法で共有

Azure Machine Learning を使用した分散トレーニング

ディープ ラーニングと分散トレーニング

データ並列

モデル並列

関連するコンテンツ

フィードバック

その他のリソース

ディープラーニングと分散トレーニング