Git と Databricks Git フォルダーの統合

Databricks Git フォルダーは、Azure Databricks のビジュアル Git クライアントおよび API です。 リポジトリの複製、コミットとプッシュ、プル、ブランチ管理、コミット時の差分の視覚的比較などの一般的な Git 操作がサポートされています。

Git フォルダー内では、ノートブックやその他のファイルでコードを開発し、バージョン管理、コラボレーション、CI/CD のために Git を使用してデータ サイエンスとエンジニアリングのコード開発のベスト プラクティスに従うことができます。

重要

Databricks では、「Repos」機能が Databricks ワークスペース内の統合された Git フォルダー機能に置き換えられました。 この変更の詳細については、「Databricks Repos の変更点」を参照してください

この機能は、すべてのリージョンでパブリック プレビュー段階にあります。

Note

Git フォルダー (Repos) は、主に作成と共同作業のワークフロー用に設計されています。

従来の Git 統合からの移行に関する詳細については、「従来の Git から Git フォルダー (旧 Repos) への移行」を参照してください。

Databricks Git フォルダーでできること

Databricks Git フォルダーを Git プロバイダーと統合すると、データと AI プロジェクトのソース管理が提供されます。

Databricks Git フォルダーでは、Git 機能を使用して次のことができます。

  • リモート Git リポジトリを複製、プッシュ、プルする。
  • マージ、リベース、競合の解決などを含む、開発作業用のブランチを作成および管理します。
  • ノートブック (IPYNB ノートブックを含む) を作成し、それらのノートブックと他のファイルを編集します。
  • コミット時の相違点を視覚的に比較し、マージの競合を解決します。

詳細な手順については、「Databricks Git フォルダー (Repos) で Git 操作を実行する」を参照してください。

Note

また、Databricks Git フォルダーには、CI/CD パイプラインと統合できる API も用意されています。 たとえば、Databricks リポジトリをプログラムで更新して、コードのバージョンを常に最新にすることができます。 Databricks Git フォルダーを使用したコード開発に関するベスト プラクティスについて詳しくは、「Git と Databricks Repos を使用した CI/CD 手法」をご覧ください。

Azure Databricks でサポートされているノートブックの種類の詳細については、「Databricks ノートブックのエクスポートとインポート」をご覧ください。

サポートされている Git プロバイダー

Databricks Git フォルダーは、統合された Git リポジトリによって提供されています。 リポジトリは、次のセクションに示す任意のクラウドおよびエンタープライズ Git プロバイダーによってホストできます。

Note

"Git プロバイダー" とは

"Git プロバイダー" は、Git に基づくソース管理モデルをホストする特定の (名前付き) サービスです。 Git ベースのソース管理プラットフォームは、2 つの方法で (開発中の会社によってホストされるクラウド サービスとして、または自社が独自のハードウェアにインストールして管理するオンプレミス サービスとして) ホストされます。 GitHub、Microsoft、GitLab、Atlassian などの多くの Git プロバイダーは、クラウドベースの SaaS とオンプレミス ("セルフマネージド" と呼ばれることもある) Git サービスの両方を提供します。

構成中に Git プロバイダーを選択するときは、クラウド (SaaS) とオンプレミスの Git プロバイダーの違いに注意する必要があります。 オンプレミス ソリューションは通常、会社の VPN の背後でホストされ、インターネットからアクセスできない可能性があります。 通常、オンプレミスの Git プロバイダーの名前の末尾は "サーバー" または "セルフマネージド" ですが、不明な場合は、会社の管理者に問い合わせるか、Git プロバイダー’のドキュメントを確認してください。

Git プロバイダーがクラウドベースで、サポートされているプロバイダーとして一覧にない場合は、プロバイダーとして [GitHub] を選択しても動作する可能性がありますが、保証されるものではありません。

Note

"GitHub" をプロバイダーとして使用していて、クラウドとオンプレミスのバージョンのどちらを使用しているかが不明な場合は、GitHub ドキュメントの GitHub Enterprise サーバーの概要に関する記事を参照してください。

Databricks でサポートされているクラウド Git プロバイダー

  • GitHub、GitHub AE、GitHub Enterprise Cloud
  • Atlassian BitBucket Cloud
  • GitLab、GitLab EE
  • Microsoft Azure DevOps (Azure Repos)

Databricks でサポートされているオンプレミス Git プロバイダー

  • ギットハブ エンタープライズ サービス
  • Atlassian BitBucket サーバー、データ センター
  • GitLab セルフマネージド
  • Microsoft Azure DevOps Server: URL が dev.azure.com/* または visualstudio.com/* と一致しない場合、ワークスペース管理者は Microsoft Azure DevOps Server の URL ドメイン プレフィックスを明示的に許可リストに登録する必要があります。 詳細については、「許可リスト内の URL に使用を制限する」を参照してください

インターネットからアクセスできないオンプレミスの Git リポジトリを統合する場合は、Git 認証要求のプロキシも会社の VPN 内にインストールする必要があります。 詳細については、「Databricks Git フォルダー (Repos) のプライベート Git 接続を設定する」を参照してください。

Git プロバイダーでアクセス トークンを使用する方法については、「Git 資格情報を構成し、リモート リポジトリを Azure Databricks に接続する」を参照してください。

Git 統合のためのリポジトリ

Git と Azure Databricks の統合には、Databricks CLI 2.0 を使用してください。

次のリファレンス ドキュメントをお読みください。

次のステップ