ML と DL のデータと環境を準備する

[アーティクル]
03/21/2024

このセクションでは、機械学習とディープラーニングのためにデータと Azure Databricks 環境を準備する方法について説明します。

データを準備する

このセクションの記事では、ML および DL アプリケーションに固有のデータの読み込みと前処理のアスペクトについて説明します。

環境を準備する

Databricks Runtime for Machine Learning (Databricks Runtime ML) は、機械学習とデータサイエンス向けに最適化されたすぐに使用できる環境です。 Databricks Runtime ML には、TensorFlow、PyTorch、Horovod、scikit-learn、XGBoost などの多くの外部ライブラリが含まれており、XGBoost の GPU アクセラレーション、HorovodRunner を使用した分散型ディープラーニング、Databricks ファイルシステム (DBFS) の FUSE マウントを使用したモデルのチェックポイント処理など、パフォーマンスを向上させるための拡張機能が用意されています。

Databricks Runtime ML を使用するには、クラスターを作成するときに、ランタイムの ML バージョンを選択します。

Note

機械学習ワークフロー用の Unity Catalog のデータにアクセスするには、クラスターの [アクセスモード] を単一ユーザー (割り当て済み) にする必要があります。共有クラスターは、Databricks Runtime for Machine Learning に対応していません。

ライブラリのインストール

追加のライブラリをインストールして、ノートブックまたはクラスター用のカスタム環境を作成できます。

クラスターで実行されているすべてのノートブックでライブラリを使用するには、クラスターライブラリを作成します。 init スクリプトを使用して、ライブラリの作成時にクラスター上にライブラリをインストールできます。
特定のノートブックセッションでのみ使用できるライブラリをインストールするには、ノートブックスコープの Python ライブラリを使用します。

GPU クラスターを使用する

GPU クラスターを作成して、ディープラーニングタスクを高速化することができます。 Azure Databricks GPU クラスターの作成については、「GPU 対応コンピューティング」をご覧ください。 Databricks Runtime ML には、GPU ハードウェアドライバーと CUDA などの NVIDIA ライブラリが含まれています。

ML と DL のデータと環境を準備する

データを準備する

環境を準備する

ライブラリのインストール

GPU クラスターを使用する

その他のリソース