ディープ ラーニング

この記事では、Azure Databricks でディープ ラーニング モデルを開発および微調整するための PyTorch、Tensorflow、分散トレーニングの使用について簡単に説明します。 また、これらのツールの使用方法を示すノートブックの例を含むページへのリンクも含まれています。

PyTorch

PyTorch は Databricks Runtime ML に含まれており、GPU で高速化されたテンソル計算と、ディープ ラーニング ネットワークを構築するための高度な機能を提供します。 Databricks で PyTorch を使用して、単一ノード トレーニングまたは分散トレーニングを実行できます。 「PyTorch」を参照してください。

TensorFlow

Databricks Runtime ML には TensorFlow と TensorBoard が含まれているため、パッケージをインストールせずにこれらのライブラリを使用できます。 TensorFlow は、CPU、GPU、GPU のクラスターでのディープラーニングや、一般的な数値計算をサポートしています。 TensorBoard には、機械学習とディープ ラーニングのワークフローのデバッグと最適化に役立つ視覚化ツールが用意されています。 単一ノード トレーニングと分散トレーニングの例については、「TensorFlow」を参照してください。

分散トレーニング

ディープ ラーニング モデルはデータ集中型で計算を集中的に行うため、分散トレーニングが重要になる場合があります。 Horovod、spark-tensorflow-distributor、TorchDistributor、DeepSpeed との統合を使用した分散ディープ ラーニングの例については、「分散トレーニング」を参照してください。

ディープ ラーニング モデルの開発を追跡する

追跡は依然として MLflow エコシステムの基礎であり、ディープ ラーニングの反復的な性質にとって特に重要です。 Databricks では、MLflow を使用してディープ ラーニング トレーニングの実行とモデル開発を追跡します。 「MLflow を使用してモデル開発を追跡する」を参照してください。