ML と DL のデータと環境を準備する
このセクションでは、機械学習とディープ ラーニングのためにデータと Azure Databricks 環境を準備する方法について説明します。
データを準備する
このセクションの記事では、ML および DL アプリケーションに固有のデータの読み込みと前処理のアスペクトについて説明します。
環境を準備する
Databricks Runtime for Machine Learning (Databricks Runtime ML) は、機械学習とデータ サイエンス向けに最適化されたすぐに使用できる環境です。 Databricks Runtime ML には、TensorFlow、PyTorch、Horovod、scikit-learn、XGBoost などの多くの外部ライブラリが含まれており、XGBoost の GPU アクセラレーション、HorovodRunner を使用した分散型ディープ ラーニング、Databricks ファイル システム (DBFS) の FUSE マウント を使用したモデルのチェックポイント処理など、パフォーマンスを向上させるための拡張機能が用意されています。
Databricks Runtime ML を使用するには、クラスターを作成するときに、ランタイムの ML バージョンを選択します。
Note
機械学習ワークフロー用の Unity Catalog のデータにアクセスするには、クラスターの [アクセス モード] を単一ユーザー (割り当て済み) にする必要があります。 共有クラスターは、Databricks Runtime for Machine Learning に対応していません。
ライブラリのインストール
追加のライブラリをインストールして、ノートブックまたはクラスター用のカスタム環境を作成できます。
- クラスターで実行されているすべてのノートブックでライブラリを使用するには、クラスター ライブラリを作成します。 init スクリプトを使用して、ライブラリの作成時にクラスター上にライブラリをインストールできます。
- 特定のノートブック セッションでのみ使用できるライブラリをインストールするには、ノートブック スコープの Python ライブラリを使用します。
GPU クラスターを使用する
GPU クラスターを作成して、ディープ ラーニング タスクを高速化することができます。 Azure Databricks GPU クラスターの作成については、「GPU 対応コンピューティング」をご覧ください。 Databricks Runtime ML には、GPU ハードウェア ドライバーと CUDA などの NVIDIA ライブラリが含まれています。