PyTorch 用 Azure コンテナー (ACPT)

PyTorch 用 Azure コンテナーは、Azure Machine Learning 上で大規模なモデルの最適化されたトレーニングを効果的に実行するために必要なコンポーネントを含む軽量のスタンドアロン環境です。 Azure Machine Learning キュレーション環境は、既定でユーザーのワークスペースで使用でき、最新バージョンの Azure Machine Learning SDK を使用するキャッシュされた Docker イメージによってバックアップされます。 これは、準備コストの削減とデプロイ時間の短縮に役立ちます。 ACPT を使用すると、Azure 上の PyTorch でさまざまなディープ ラーニング タスクをすばやく開始できます。

Note

環境とその依存関係の完全な一覧を取得するには、Python SDKCLI、または Azure Machine Learning スタジオを使用してください。 詳細については、環境に関する記事を参照してください。

ACPT を使用すべき理由

  • 柔軟性: プレインストールされたパッケージでそのまま使用するか、キュレーションされた環境上に構築します。
  • 使いやすさ: すべてのコンポーネントがインストールされ、数十の Microsoft ワークロードに対して検証され、セットアップ コストが削減され、価値を得る時間が短縮されます。
  • 効率性: 不要なイメージ ビルドを回避し、イメージ/コンテナー内で直接アクセスできる必要な依存関係のみを持ちます。
  • 最適化されたトレーニング フレームワーク: 大規模なワークロードで PyTorch モデルを設定、開発、高速化し、トレーニングとデプロイの成功率を向上させます。
  • 最新のスタック: Ubuntu、Python、PyTorch、CUDA/RocM などの互換性のある最新バージョンにアクセスします。
  • 最新のトレーニング最適化テクノロジ: ONNX ランタイム、DeepSpeedMSCCL などを利用します。
  • Azure Machine ラーニング との統合: Azure Machine Learning スタジオまたは SDK を使用して PyTorch 実験を追跡します。 Azure カスタマー サポートにより、トレーニングとデプロイの待機時間も短縮されます。
  • DSVM としての可用性: このイメージは、データ サイエンス仮想マシン (DSVM) としても使用できます。 Data Science Virtual Machine の詳細については、DSVM の概要に関するドキュメントをご覧ください。

重要

キュレートされた環境のパッケージとバージョンの詳細については、Azure Machine Learning スタジオの [環境] タブを参照してください。

PyTorch 用 Azure コンテナー (ACPT) でサポートされている構成

説明: Azure Curated Environment for PyTorch は、最新の PyTorch キュレーション環境です。 これは大規模で分散されたディープ ラーニング ワークロード用に最適化されており、高速トレーニング (Onnx Runtime Training (ORT)、DeepSpeed、MSCCL など) に最適な Microsoft テクノロジと共に事前にパッケージ化されています。

次の構成がサポートされています。

環境名 OS GPU バージョン Python バージョン PyTorch バージョン ORT-training バージョン DeepSpeed バージョン torch-ort バージョン Nebula バージョン
acpt-pytorch-2.1-cuda12.1 Ubuntu 20.04 cu121 3.8 2.1.2 1.17.1 0.13.1 1.17.0 0.16.10
acpt-pytorch-2.0-cuda11.7 Ubuntu 20.04 cu117 3.8 2.0.1 1.17.1 0.13.1 1.17.0 0.16.10
acpt-pytorch-1.13-cuda11.7 Ubuntu 20.04 cu117 3.8 1.13.1 1.17.1 0.13.1 1.17.0 0.16.10

fairscale、horovod、msccl、protobuf、pyspark、pytest、pytorch-lightning、tensorboard、NebulaML、torchvision、torchmetrics などの他のパッケージは、すべてのトレーニング ニーズをサポートするために提供されています。

詳細については、カスタム ACPT キュレーション環境の作成に関するページをご覧ください。

サポート

参照される基本イメージを含む、サポートされている環境に対するバージョン更新は、30 日間以上経過していない脆弱性に対処するために 2 週間ごとにリリースされます。 一部の環境は、使用状況に応じて、より一般的な機械学習シナリオのサポートに対して非推奨 (製品では非表示ですが使用可能) とされている可能性があります。