ディープ ラーニング (プレビュー)

Azure Synapse Analytics の Apache Spark ではビッグ データを使用した機械学習が可能であるため、大量の構造化、非構造化、および高速移動データから貴重な分析情報を得る機能が提供されます。 Azure Synapse Analytics の Azure Spark を使用して機械学習モデルをトレーニングする場合、いくつかのオプションがあります。Apache Spark MLlib、Azure Machine Learning、およびその他のさまざまなオープンソース ライブラリです。

警告

  • GPU アクセラレータのプレビューは、Azure Synapse 3.1 (サポート対象外)Apache Spark 3.2 (サポート終了のお知らせ済み) ランタイムに制限されています。
  • Azure Synapse Runtime for Apache Spark 3.1 は、2023 年 1 月 26 日でサポート終了となりました。公式サポートの提供は 2024 年 1 月 26 日をもって終了し、この日付以降、サポート チケットの処理、バグ修正、セキュリティ更新は行われません。
  • Azure Synapse Runtime for Apache Spark 3.2 は、2023 年 7 月 8 日にサポート終了になりました。バグや機能の修正はこれ以上行われませんが、リスク評価に基づいてセキュリティ修正がバックポートされる可能性があります。これは、2024 年 7 月 8 日に廃止され無効になります。

GPU 対応 Apache Spark プール

プールの作成と管理のプロセスを簡略化するために、Azure Synapse は、低レベルのライブラリをプレインストールし、コンピューティング ノード間の複雑なネットワーク要件をすべて設定します。 この統合により、ユーザーはほんの数分で GPU アクセラレータ プールを使い始めることができます。 GPU アクセラレータ プールを作成する方法の詳細については、GPU アクセラレータ プールを作成する方法のクイックスタートを参照してください。

注意

  • GPU アクセラレータ プールは、米国東部、オーストラリア東部、北ヨーロッパにあるワークスペースで作成できます。
  • GPU アクセラレータ プールが利用できるのは、Apache Spark 3.1 (サポート対象外) と 3.2 のランタイムにおいてのみです。
  • GPU 対応クラスターを作成するには、上限の引き上げを要求することが必要になる場合があります。

GPU ML 環境

Azure Synapse Analytics は、ディープ ラーニング インフラストラクチャの組み込みサポートを提供しています。 Apache Spark 3 用の Azure Synapse Analytics ランタイムには、TensorFlow や PyTorch といった最も一般的なディープ ラーニング ライブラリのサポートが含まれています。 また、Azure Synapse ランタイムには、分散トレーニングによく使われる Petastorm や Horovod などのライブラリのサポートも含まれています。

Tensorflow

TensorFlow は、すべての開発者向けのオープンソースの機械学習フレームワークです。 機械学習とディープ ラーニングのアプリケーションを実装するために使われます。

Tensorflow の詳細については、Tensorflow API のドキュメントを参照してください。

PyTorch

PyTorch は、GPU と CPU を使ったディープ ラーニングに最適化されたテンソル ライブラリです。

PyTorch の詳細については、PyTorch のドキュメントを参照してください。

Horovod

Horovod は、TensorFlow、Keras、PyTorch 向けの分散ディープ ラーニング トレーニング フレームワークです。 Horovod は、分散型ディープ ラーニングを高速かつ簡単に使用できるように開発されました。 このフレームワークを使うと、数行のコードで、数百の GPU 上で実行できるように既存のトレーニング スクリプトをスケールアップできます。 さらに、Horovod は Apache Spark 上で動作するので、データ処理とモデル トレーニングを 1 つのパイプラインに統合できます。

Azure Synapse Analytics で分散トレーニング ジョブを実行する方法の詳細については、次のチュートリアルを参照してください。チュートリアル: Horovod と PyTorch を使った分散トレーニング - チュートリアル: Horovod と Tensorflow を使った分散トレーニング

Horovod の詳細については、Horovod のドキュメントを参照してください。

Petastorm

Petastorm は、ディープ ラーニング モデルの単一ノードまたは分散トレーニングを可能にするオープンソース データ アクセス ライブラリです。 このライブラリを使用すると、Apache Parquet 形式のデータセットと、Apache Spark DataFrames として既に読み込まれているデータセットから直接トレーニングできます。 Petastorm では、Tensorflow、PyTorch などの一般的なトレーニング フレームワークがサポートされています。

Petastorm の詳細については、Petastorm の GitHub ページまたは Petastorm の API ドキュメントを参照してください。

次のステップ

この記事では、Azure Synapse Analytics の Apache Spark プール内で機械学習モデルをトレーニングするためのさまざまなオプションの概要について説明しています。 モデルのトレーニングについて理解を深めるには、下のチュートリアルに従ってください。