Git と Databricks Repos の統合
Databricks Repos は、Databricks のビジュアル Git クライアントです。 リポジトリの複製、コミットとプッシュ、プル、ブランチ管理、コミット時の差分の視覚的比較などの一般的な Git 操作がサポートされています。
Repos 内では、ノートブックやその他のファイルでコードを開発し、バージョン管理、コラボレーション、CI/CD のために Git を使用してデータ サイエンスとエンジニアリングのコード開発のベスト プラクティスに従うことができます。
Databricks Repos でできること
Databricks Repos を Git プロバイダーと統合すると、データと AI プロジェクトのソース管理が提供されます。
Databricks Repos では、Git 機能を使用して次のことができます。
- リモート Git リポジトリを複製、プッシュ、プルする。
- 開発作業用にブランチを作成および管理する。
- ノートブックを作成し、ノートブックやその他のファイルを編集する。
- コミット時に相違点を視覚的に比較する。
詳細な手順については、Git リポジトリを複製する&他の一般的な Git 操作に関するページを参照してください。 また、Databricks Repos には、CI/CD パイプラインと統合できる API も用意されています。 たとえば、Databricks リポジトリをプログラムで更新して、コードのバージョンを常に最新にすることができます。 Databricks Repos を使用したコード開発に関するベスト プラクティスの詳細については、「Git の統合と Databricks Repos を含む CI/CD ワークフロー」をご覧ください。
以下のタスクについては、Git プロバイダーで作業します。
- pull request を作成します。
- マージの競合を解決します。
- ブランチをマージまたは削除する。
- ブランチをリベースする。
サポートされている Git プロバイダー
Azure Databricks では、次の Git プロバイダーがサポートされます。
- GitHub と GitHub AE
- Bitbucket Cloud
- GitLab
- Azure DevOps
リモート リポジトリを Azure Databricks に接続する Git アクセス トークン&の取得に関するページを参照してください。
サーバーがインターネットにアクセス可能な場合、Databricks Repos は、Bitbucket サーバー、GitHub Enterprise サーバー、GitLab 自己管理型統合もサポートしています。 インターネットからアクセスできないプライベート Git サーバー インスタンスとの統合については、Databricks 担当者にお問い合わせください。
Databricks Repos 内の任意のファイルのサポートは、Databricks Runtime 8.4 以降で使用できます。 「ワークスペース ファイルとは」を参照してください。