ML と DL のデータと環境を準備する

このセクションでは、機械学習とディープ ラーニングのためにデータと Azure Databricks 環境を準備する方法について説明します。

データを準備する

このセクションの記事では、ML および DL アプリケーションに固有のデータの読み込みと前処理のアスペクトについて説明します。

環境を準備する

Databricks Runtime for Machine Learning (Databricks Runtime ML) は、機械学習とデータ サイエンス向けに最適化されたすぐに使用できる環境です。 Databricks Runtime ML には、TensorFlow、PyTorch、Horovod、scikit-learn、XGBoost などの多くの外部ライブラリが含まれており、XGBoost の GPU アクセラレーション、HorovodRunner を使用した分散型ディープ ラーニング、Databricks ファイル システム (DBFS) の FUSE マウント を使用したモデルのチェックポイント処理など、パフォーマンスを向上させるための拡張機能が用意されています。

Databricks Runtime ML を使用するには、クラスターを作成するときに、ランタイムの ML バージョンを選択します。

Note

機械学習ワークフロー用の Unity Catalog のデータにアクセスするには、クラスターの [アクセス モード] を単一ユーザー (割り当て済み) にする必要があります。 共有クラスターは、Databricks Runtime for Machine Learning に対応していません。

ライブラリのインストール

追加のライブラリをインストールして、ノートブックまたはクラスター用のカスタム環境を作成できます。

GPU クラスターを使用する

GPU クラスターを作成して、ディープ ラーニング タスクを高速化することができます。 Azure Databricks GPU クラスターの作成については、「GPU 対応コンピューティング」をご覧ください。 Databricks Runtime ML には、GPU ハードウェア ドライバーと CUDA などの NVIDIA ライブラリが含まれています。