次の方法で共有


ワークスペース オブジェクトの概要

この記事では、Azure Databricks ワークスペース オブジェクトの概要について説明します。 ワークスペース ブラウザーでペルソナにわたってワークスペース オブジェクトを作成、表示、整理できます。

クラスター

Azure Databricks Data Science & Engineering および Databricks Machine Learning クラスターにより、運用 ETL パイプラインの実行、ストリーミング分析、アドホック分析、機械学習などのさまざまなユース ケースに対して統一したプラットフォームが提供されます。 クラスターは、Azure Databricks "コンピューティング リソース" の一種です。 その他のコンピューティング リソースの種類には、Azure Databricks SQL ウェアハウスがあります。

クラスターの管理と使用の詳細については、「コンピューティング」を参照してください。

ノートブック

ノートブックは、ファイルとテーブル視覚化、説明テキストを操作する一連の実行可能なセル (コマンド) を含むドキュメントに対する Web ベースのインターフェイスです。 コマンドは、以前に実行された 1 つ以上のコマンドの出力を参照して、順番に実行されます。

ノートブックは、Azure Databricks でコードを実行するためのメカニズムの 1 つです。 もう 1 つのメカニズムは ジョブです。

ノートブックの管理と使用の詳細については、「Databricks ノートブックの概要」を参照してください。

ジョブ

ジョブは、Azure Databricks でコードを実行するためのメカニズムの 1 つです。 もう 1 つのメカニズムはノートブックです。

ジョブの管理と使用の詳細については、「Azure Databricks ジョブを作成して実行する」を参照してください。

ライブラリ

ライブラリを使用すると、サードパーティ製またはローカルで構築されたコードを、クラスターで実行されているノートブックやジョブで使用できるようになります。

ライブラリの管理と使用の詳細については、「ライブラリ」を参照してください。

データ

Azure Databricks ワークスペースにマウントされた分散ファイル システムにデータをインポートし、Azure Databricks のノートブックとクラスターで操作できます。 さまざまな Apache Spark データ ソースを使用して、データにアクセスすることもできます。

データの読み込みの詳細については、「Databricks レイクハウスにデータを取り込む」を参照してください。

ファイル

重要

この機能はパブリック プレビュー段階にあります。

Databricks Runtime 11.3 LTS 以降では、Databricks ワークスペースで任意のファイルを作成して使用できます。 ファイルの種類には指定がありません。 たとえば、次のような場合です。

  • カスタム モジュールで使用される .py ファイル。
  • .md ファイル (例: README.md)。
  • .csv またはその他の小さなデータ ファイル。
  • .txt ファイル。
  • ログ ファイル。

ファイルの使用方法の詳細については、「Azure Databricks 上でファイルを使用する」を参照してください。 Databricks ノートブックを使用して開発するときにファイルを使用してコードをモジュール化する方法については、「Databricks ノートブック間でコードを共有する」を参照してください

Git フォルダー

Git フォルダーとは、リモート Git リポジトリに同期することでコンテンツが共同でバージョン管理される Azure Databricks フォルダーです。 Databricks Git フォルダーを使用することで、Azure Databricks でノートブックを開発し、コラボレーションとバージョン コントロールのためにリモート Git リポジトリを使用することができます。

リポジトリの使用の詳細については、「Git と Databricks Git フォルダーの統合」を参照してください。

モデル

モデル とは、MLflow モデル レジストリに登録されているモデルを指します。 モデル レジストリは、MLflow モデルのライフサイクル全体を管理できる一元化されたモデル ストアです。 時系列のモデル系列、モデルのバージョン管理、ステージ切り替え、モデルとモデルのバージョンの注釈と説明が提供されます。

モデルの管理と使用の詳細については、「Unity Catalog 内でモデル ライフサイクルを管理する」を参照してください。

実験

MLflow 実験は、MLflow 機械学習モデル トレーニングを実行するための組織とアクセス制御の主要な単位であり、すべての MLflow 実行は実験に属します。 各実験により、実行を視覚化、検索、比較できるだけでなく、他のツールで分析するために実行成果物またはメタデータをダウンロードできます。

実験の管理と使用の詳細については、「MLflow 実験を使用してトレーニング実行を整理する」を参照してください。

クエリ

クエリは、ユーザーがデータと対話できるようにする SQL ステートメントです。 詳細については、「保存されたクエリへのアクセスと管理」を参照してください。

ダッシュボード

ダッシュボードは、クエリの視覚化と解説を提示するものです。 「ダッシュボード」または「レガシ ダッシュボード」を参照してください。

警告

アラートは、クエリによって返されたフィールドがしきい値に達したことを示す通知です。 詳細については、「Databricks SQL アラートとは」を参照してください。

ワークスペース オブジェクトへの参照

これまで、ユーザーは一部の Databricks API (%sh) の /Workspace パス プレフィックスを含める必要がありましたが、他 (%run、REST API 入力) に対しては行いませんでした。

ユーザーは、/Workspace プレフィックス付きのワークスペース パスをどこでも使用できます。 /Workspace プレフィックスのないパスへの古い参照はリダイレクトされ、引き続き動作します。 すべてのワークスペース パスに /Workspace プレフィックスを付けて、ボリュームと DBFS パスを区別することをお勧めします。

一貫性のある /Workspace パス プレフィックスの動作の前提条件は次のとおりです。ワークスペースのルート レベルに /Workspace フォルダーを指定することはできません。 ルート レベルに /Workspace フォルダーがあり、この UX の改善を有効にする場合は、作成した /Workspace フォルダーを削除するか、その名前を変更し、Azure Databricks アカウント チームにお問い合わせください。

ファイル、フォルダー、またはノートブックの URL を共有する

Azure Databricks ワークスペースでは、ワークスペース ファイル、ノートブック、フォルダーへの URL は次の形式になります。

ワークスペース ファイルの URL

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#files/<16-digit-object-ID>

ノートブックの URL

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#notebook/<16-digit-object-ID>/command/<16-digit-command-ID>

フォルダー (ワークスペースと Git) の URL

  https://<databricks-instance>/browse/folders/<16-digit-ID>?o=<16-digit-workspace-ID>

これらのリンクは、現在のパス内のフォルダー、ファイル、またはノートブックが Git pull コマンドで更新された場合、または削除されて同じ名前で再作成された場合に切断される可能性があります。 ただし、次の形式のリンクに変更することで、適切なアクセス レベルを持つ他の Databricks ユーザーと共有するワークスペース パスに基づいてリンクを作成できます。

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#workspace/<full-workspace-path-to-file-or-folder>

フォルダー、ノートブック、ファイルへのリンクは、URL 内の ?o=<16-digit-workspace-ID> の後のすべてをワークスペース ルートのファイル、フォルダー、またはノートブックへのパスに置き換えることで共有できます。 フォルダーへの URL を共有している場合は、元の URL からも /browse/folders/<16-digit-ID> を削除します。

ファイル パスを取得するには、共有するワークスペース内のフォルダー、ノートブック、またはファイルを右クリックしてコンテキスト メニューを開き、[Copy URL/path]\(URL/パスのコピー\)>[完全なパス] を選択します。 コピーしたファイル パスの前に #workspace を追加し、結果の文字列を ?o=<16-digit-workspace-ID> の後に追加して、上記の URL 形式と一致するようにします。

ワークスペース フォルダーのコンテキスト メニューから [Copy URL/path]\(URL/パスのコピー\)、[完全なパス] の順に選択。

URL の構成例 #1: フォルダー URL

ワークスペース フォルダーの URL https://<databricks-instance>/browse/folders/1111111111111111?o=2222222222222222 を共有するには、URL から browse/folders/1111111111111111 の部分文字列を削除します。 #workspace に続いて、共有するフォルダーまたはワークスペース オブジェクトへのパスを追加します。

この場合、ワークスペースのパスはフォルダー /Workspace/Users/user@example.com/team-git/notebooks へのパスです。 ワークスペースから完全なパスをコピーした後、共有可能なリンクを作成できるようになりました。

  https://<databricks-instance>/?o=2222222222222222#workspace/Workspace/Users/user@example.com/team-git/notebooks

URL の構成例 2: ノートブックの URL

ノートブックの URL https://<databricks-instance>/?o=1111111111111111#notebook/2222222222222222/command/3333333333333333 を共有するには、#notebook/2222222222222222/command/3333333333333333 を削除します。 #workspace に続いて、フォルダーまたはワークスペース オブジェクトへのパスを追加します。

この場合、ワークスペース パスはノートブック /Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook を指します。 ワークスペースから完全なパスをコピーした後、共有可能なリンクを作成できるようになりました。

  https://<databricks-instance>/?o=1111111111111111#workspace/Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook

これで、共有するファイル、フォルダー、またはノートブック パスの安定した URL が作成されました。 URL と識別子の詳細については、「ワークスペース オブジェクトの識別子を取得する」を参照してください。