次の方法で共有


環境を設定する

Important

単一ノード タスクの AI ランタイムは パブリック プレビュー段階です。 マルチ GPU ワークロード用の分散トレーニング API は ベータ版のままです。

このページでは、環境のキャッシュ動作、カスタム モジュールのインポート、既知の制限事項など、AI ランタイム用の Python 環境を選択して構成する方法について説明します。

使用する環境は何か

AI ランタイムには、既定の基本環境と Databricks AI 環境という 2 つのマネージド Python 環境が用意されています。

環境 主な特性 いつ使用するか
既定の基本環境 最小限には、torchcuda、およびtorchvisionのみが含まれる 依存関係スタックを完全に制御し、必要なもののみをインストールする必要がある場合
Databricks AI 環境 人気のある機械学習(ML)フレームワーク(PyTorch、Transformers など)が事前にインストールされています 手動の依存関係管理を使用せずに、トレーニング、微調整、実験のための完全な環境が必要です

ワークスペースの基本環境 は、AI ランタイムではサポートされていません。 代わりに、既定の環境または AI 環境を使用し、環境サイドパネル内で追加の依存関係を直接指定するかpip install 設定します。

既定の基本環境 (最小環境)

AI ランタイム操作に必要なパッケージのみを含む、最小限の安定した環境。 環境には、互換性のために最適化された torchcuda、および torchvisionが含まれています。 特定のパッケージ バージョンの場合は、必要に応じて pip install を使用するか、必要なバージョンをピン留めします。

最適: 依存関係スタックを完全に制御し、必要なものだけをインストールするユーザー。

これは、AI ランタイム経由でサーバーレス GPU に接続する場合の既定の環境です。

さまざまなバージョンにインストールされているパッケージ バージョンの詳細については、リリース ノートを参照してください。

Databricks AI 環境

環境 4 以降で使用できます。 AI 環境は、GPU 上の機械学習に固有の共通ランタイム パッケージとパッケージを使用して、既定の基本環境の上に構築されます。 プレインストールされたパッケージには、次のものが含まれます。

  • PyTorch (CUDA サポートあり)
  • トランスフォーマー (ハギングフェイス)
  • その他の ML/DL 依存関係

最適: 手動の依存関係管理を使用せずに、ワークロードのトレーニング、微調整、実験のための完全な環境を必要とする ML 専門家。

選択するには、[ 環境 ] サイド パネルで、ベース環境として [AI v4 ] を選択します。

さまざまなバージョンにインストールされているパッケージ バージョンの詳細については、リリース ノートを参照してください。

ワークスペースの基本環境

ワークスペースの基本環境は、AI ランタイムではサポートされていません。 カスタム ワークスペース レベルの環境構成を使用することはできません。

プロジェクトのディープ ラーニング環境を構成するには、提供されている 2 つの基本環境 (既定または Databricks AI) のいずれかを使用し、ノートブック内またはトレーニング スクリプトの上部にある %pip install を使用して、プログラムで追加のパッケージをインストールします。

%pip install datasets accelerate peft bitsandbytes

追加のライブラリを AI ランタイム環境にインストールできます。 「 ノートブックへの依存関係の追加」を参照してください。

行動

環境はいつキャッシュされますか?

起動時間を短縮するために、環境はセッション間でキャッシュされます。 同じ環境構成で AI ランタイムに再接続すると、以前にインストールされたパッケージがキャッシュから使用できる可能性があり、セットアップ時間が短縮されます。

ただし、キャッシュの動作は保証されません。常に、ノートブックに再現性のために必要な %pip install コマンドが含まれていることを確認してください。

カスタム モジュールをインポートする方法

カスタム モジュールをインポートするには、 /Workspace/Shared に配置し、 sys.pathへのパスを追加します。

import sys
sys.path.append("/Workspace/Shared/my-project/src")
from my_module import my_function

モジュール ファイルをワークスペース ファイルとしてアップロードし、直接インポートすることもできます。 マルチユーザー コラボレーションの場合は、ユーザー固有のフォルダーではなく、 /Workspace/Shared に共有コードを格納します。 アクティブな開発では、ユーザー固有のフォルダーを使用し、バージョン管理のためにリモート Git リポジトリにプッシュします。

制限事項

次の機能は、AI ランタイムでは使用できません。

  • Spark 関数 - PySpark 関数を直接インポートまたは使用することはできません。 AI ランタイムは Python 専用の環境です。Spark はローカル ランタイムとして使用できません。 ただし、Spark Connect はデータの読み込みに使用できます。 AI ランタイムでのデータの読み込みを参照してください。
  • Databricks ランタイム ML ライブラリ — プレインストールされたパッケージは、Databricks Runtime ML の代わりではありません。 Databricks Runtime ML で使用できる一部の ML ライブラリは、AI ランタイムにプレインストールされない場合があります。
  • ワークスペースの基本環境 - カスタム ワークスペース レベルの環境構成はサポートされていません。
  • プライベート 成果物 — AI ランタイムは、特定の場合にプライベート成果物をサポートします。 詳細については、アカウント チームにお問い合わせください。