Git と Databricks Repos の統合

Databricks Repos は、Databricks のビジュアル Git クライアントです。 リポジトリの複製、コミットとプッシュ、プル、ブランチ管理、コミット時の差分の視覚的比較などの一般的な Git 操作がサポートされています。

Repos 内では、ノートブックやその他のファイルでコードを開発し、バージョン管理、コラボレーション、CI/CD のために Git を使用してデータ サイエンスとエンジニアリングのコード開発のベスト プラクティスに従うことができます。

Databricks Repos でできること

Databricks Repos を Git プロバイダーと統合すると、データと AI プロジェクトのソース管理が提供されます。

Databricks Repos では、Git 機能を使用して次のことができます。

  • リモート Git リポジトリを複製、プッシュ、プルする。
  • 開発作業用にブランチを作成および管理する。
  • ノートブックを作成し、ノートブックやその他のファイルを編集する。
  • コミット時に相違点を視覚的に比較する。

詳細な手順については、Git リポジトリを複製する&他の一般的な Git 操作に関するページを参照してください。 また、Databricks Repos には、CI/CD パイプラインと統合できる API も用意されています。 たとえば、Databricks リポジトリをプログラムで更新して、コードのバージョンを常に最新にすることができます。 Databricks Repos を使用したコード開発に関するベスト プラクティスの詳細については、「Git の統合と Databricks Repos を含む CI/CD ワークフロー」をご覧ください。

以下のタスクについては、Git プロバイダーで作業します。

  • pull request を作成します。
  • マージの競合を解決します。
  • ブランチをマージまたは削除する。
  • ブランチをリベースする。

サポートされている Git プロバイダー

Azure Databricks では、次の Git プロバイダーがサポートされます。

  • GitHub と GitHub AE
  • Bitbucket Cloud
  • GitLab
  • Azure DevOps

リモート リポジトリを Azure Databricks に接続する Git アクセス トークン&の取得に関するページを参照してください。

サーバーがインターネットにアクセス可能な場合、Databricks Repos は、Bitbucket サーバー、GitHub Enterprise サーバー、GitLab 自己管理型統合もサポートしています。 インターネットからアクセスできないプライベート Git サーバー インスタンスとの統合については、Databricks 担当者にお問い合わせください。

Databricks Repos 内の任意のファイルのサポートは、Databricks Runtime 8.4 以降で使用できます。 「ワークスペース ファイルとは」を参照してください。

次のステップ

Databricks Repos を設定する