Databricks Repos の変更点

Azure Databricks で新しいユーザー インターフェイス要素がロールアウトされ、ユーザーがワークスペース UI から Git リポジトリでバックアップされたフォルダーを直接操作し、以前の個別の "Repos" 機能を効果的に置き換えられるようになりました。

この変更は自分にとってどのような意味がありますか?

プロジェクト資産の共同バージョン管理された Git ベースのソース管理に対して、Databricks Repos 機能を使用している場合、コア機能は変更されていません。 最も顕著な違いは、多くのコンテキスト UI 操作が "Repos" ではなく "Git フォルダー" を参照するようになったことです。

たとえば、UI から [新規][リポジトリ] の順に選択することで、Git リポジトリでサポートされる Databricks フォルダーを作成しました。

今は [新規] を選択し、[Git フォルダー] を選択します。 同じ操作ですが、名前が異なります。

[新規] メニュー オプションで、

この変更により、バージョン管理されたフォルダーの操作を簡略化する機能強化がいくつか提供されます。

  1. フォルダーの整理の向上: Git フォルダーは、ワークスペース ファイル ツリーのどのレベルにも作成できるため、プロジェクトに最適な方法で整理することができます。 たとえば、/Workspace/Users/<user email>/level_1/level_2/level_3/<Git folder name> に Git フォルダーを作成できます。 Repos は、/Workspace/Repos/<user email>/<Repo name> などの Repos ユーザー フォルダーのルートなど、作成できるディレクトリ レベルが固定されています。
    • 注: Git フォルダーには、Repos で現在サポートされていない他の資産を含めたり併置したりできます。 サポートされていない資産の種類、たとえば DBSQL 資産や MLflow 実験を Git フォルダーに移動できます。 今後、追加の資産に対するシリアル化サポートが追加される予定です。
  2. UI 動作の簡略化: この変更により、一般的なワークスペース操作である Git との連携が Databricks ワークスペースに直接取り込まれ、ワークスペースとバージョン管理された Git フォルダー間の移動にかかる時間が短縮されます。

具体的には何が変わりましたか?

  1. Git フォルダーを、/Repos ディレクトリの外に作成できます。
  2. Git フォルダーは、Databricks ワークスペースで [新規]>[Git フォルダー] を選択することで作成されます。 この場合、新しい Git フォルダーは /Workspace/Users/<user-email>/ の下に作成されます。
  3. Git フォルダーは、ワークスペース ファイル ツリーの /Workspace/Users/<user-email> の下であれば、さまざまな深さで作成できます。 たとえば、/Workspace/Users/<user-email>/level_1/level_2/level_3/<git-folder-name> に Git フォルダーを作成できます。 /Workspace/Users/<user-email> の下には、複数の Git フォルダーを含めることができます。
  4. Git フォルダーでは、サポートされていない資産が許可されます。 今後、他の資産の種類に対するシリアル化サポートが追加される予定です。
  5. Repos とは異なり、リモート リポジトリの URL なしで、Databricks に新しい Git フォルダーを作成することはできません。

追加情報

ユーザーが作成した既存の Repos は削除されません。 ユーザーが、既存の Repos を Git フォルダーに移行する必要はありません。 Repos はワークスペース UI に統合され、UI の個別の最上位レベル エクスペリエンスではなくなりました。

  • 既存の /Repos 参照は引き続き機能します。つまり、/Repos パスの下にあるノートブックを使用する jobsdbutils.notebook.run、および %run 参照は引き続き機能します。
  • 既存の /Repos フォルダーは、/Workspace/Repos として、/Workspace の下の通常のフォルダーに変換され、特別な処理は削除される可能性があります。 まれに、このリダイレクトを機能させるために、ワークスペースに変更を加えることが必要になる場合があります。 詳細については、「ワークスペース オブジェクトへの参照」を参照してください。

Databricks ワークスペースから Git ソース管理に接続する必要がある場合は、Repos ではなく新しい Git フォルダーを作成することをお勧めします。 Git リポジトリとその他のワークスペース資産を併置すると、Git フォルダーが Repos よりも検出しやすくなり、管理が容易になります。

Git フォルダーのアクセス許可: Git フォルダーのワークスペース フォルダーのアクセス許可は、他のワークスペース フォルダーと同じです。 ほとんどの Git 操作を実行する目的で、ユーザーには CAN_MANAGE アクセス許可が必要です。

Git フォルダーでコードを実行するには、どの DBR を使用する必要がありますか?

Git フォルダーとレガシ Repos の間で一貫したコード実行を実現するために、DBR 14.3 以降を使用して Git フォルダーでコードを実行することをお勧めします。

現在の作業ディレクトリ (CWD) の動作

Databricks Runtime (DBR) バージョン 14 以降では、すべてのノートブックに対して、同じ現在の作業ディレクトリ (CWD) エクスペリエンスが提供されます。現在の作業ディレクトリは、ノートブックの実行元のフォルダーであり、相対パスを使用できます。 それよりも前のバージョンの Databricks Runtime (DBR) では、Git フォルダーのノートブックと Git 以外のフォルダーのノートブックの間で CWD エクスペリエンスが一貫していない可能性があります。

Python sys.path の動作

Databricks Runtime (DBR) バージョン 14.3 以降では、レガシ Repos と同じ sys.path 動作が Git フォルダーでも提供されます。 それよりも前のバージョンの DBR では、Git フォルダーの sys.path にルート リポジトリ ディレクトリが自動的に追加されないため、Git フォルダーの動作は、レガシ Repos と異なります。 Python の場合、sys.path には、インタープリターがモジュールをインポートするときに検索するディレクトリの一覧が含まれています。 DBR 14.3 以降を使用できない場合は、回避策として、sys.path にフォルダー パスを手動で追加することができます。

相対パスを使用して sys.path にディレクトリを追加する方法の例については、「Python と R のモジュールをインポートする」を参照してください。

Python ライブラリの優先順位

Databricks Runtime (DBR) バージョン 14.3 以降では、レガシ Repos と同じ Python ライブラリの優先順位が Git フォルダーでも提供されます。