ワークスペース ファイルとは

ワークスペース ファイルは、Databricks ノートブックではない Azure Databricks ワークスペース内の任意のファイルです。 ワークスペース ファイルのファイルの種類には指定がありません。 たとえば、次のような場合です。

  • カスタム モジュールで使用される .py ファイル。
  • .md ファイル (例: README.md)。
  • .csv またはその他の小さなデータ ファイル。
  • .txt ファイル。
  • .whl ライブラリ。
  • ログ ファイル。

ワークスペース ファイルには、以前 "Repos 内のファイル" と呼ばれていたファイルが含まれます。

重要

Databricks Runtime バージョン 11.2 では、ワークスペース ファイルは既定であらゆる場所で有効になっていますが、REST API を使用して管理者が無効にすることができます。 運用ワークロードでは、Databricks Runtime 11.3 LTS 以降を使用してください。 この機能にアクセスできない場合は、ワークスペース管理者に問い合わせてください。

ワークスペース ファイルに対して実行できる操作

Azure Databricks では、組み込みのファイル エディターなど、多くのワークスペース ファイルの種類に対してローカル開発と同様の機能を提供します。 すべてのファイルの種類のすべてのユース ケースがサポートされているわけではありません。 たとえば、インポートされたディレクトリまたはリポジトリにイメージを含めることができますが、ノートブックにイメージを埋め込むことはできません。

ノートブックの操作から使い慣れたパターンを使用して、ワークスペース ファイルへのアクセスを作成、編集、管理できます。 ローカル開発と同様に、ワークスペース ファイルからのライブラリ インポートには相対パスを使用できます。 詳細については、次のリンクを参照してください。

ワークスペース ファイルに格納されている init スクリプトには、特別な動作があります。 どの Databricks Runtime のバージョンにおいても、ワークスペース ファイルを使用して init スクリプトを格納および参照できます。 「ワークスペース ファイルに init スクリプトを格納する」を参照してください。

Note

Databricks Runtime 14.0 以降では、ローカルで実行されるコードの既定の現在の作業ディレクトリ (CWD) は、実行されているノートブックまたはスクリプトを含むディレクトリです。 これは、Databricks Runtime 13.3 LTS 以降の動作の変更です。 「既定の現在の作業ディレクトリとは?」を参照してください。

制限事項

ワークスペース ファイルの制限事項の完全な一覧は、「ワークスペース ファイルの制限事項」にあります。

ファイルのサイズ制限

個々のワークスペース ファイルは 500 MB に制限されています。

ユーザーは、UI から最大 500 MB のファイル サイズをアップロードできます。 クラスターからの書き込み時に許容される最大ファイル サイズは 256 MB です。

Azure Databricks コンテナー サービスのクラスターで Git フォルダー内のファイルを使用する場合の Databricks バージョン

Databricks Runtime 11.3 LTS 以降を実行しているクラスターでは、既定の設定で、Git フォルダー内のワークスペース ファイルを Azure Databricks Container Services (DCS) と共に使用できます。

Databricks Runtime バージョン 10.4 LTS および 9.1 LTS を実行しているクラスターでは、DCS を使用するクラスター上の Git フォルダー内のワークスペース ファイルにアクセスするように dockerfile を構成する必要があります。 目的の Databricks Runtime バージョンについては、次の Dockerfile を参照してください。

Databricks Container Services を使用してコンテナーをカスタマイズする」を参照してください

ワークスペース ファイルを有効にする

Databricks ワークスペースでノートブック以外のファイルのサポートを有効にするには、Databricks ワークスペースにアクセスできるノートブックまたは他の環境から /api/2.0/workspace-conf REST API を呼び出します。 ワークスペース ファイルは既定で有効です。

Databricks ワークスペースでノートブック以外のファイルのサポートを有効にする、または再び有効にするには、/api/2.0/workspace-conf を呼び出して enableWorkspaceFileSystem キーの値を取得します。 true に設定されている場合、ノートブック以外のファイルはワークスペースで既に有効になっています。

次の例は、ノートブックからこの API を呼び出して、ワークスペース ファイルが無効になっているかどうかを確認し、なっている場合は再び有効にする方法を示しています。

例: Databricks ワークスペース ファイルのサポートを再度有効にするためのノートブック

ノートブックを入手