Git と Databricks Repos の統合

Databricks Repos は、Azure Databricks のビジュアル Git クライアントおよび API です。 リポジトリの複製、コミットとプッシュ、プル、ブランチ管理、コミット時の差分の視覚的比較などの一般的な Git 操作がサポートされています。

Repos 内では、ノートブックやその他のファイルでコードを開発し、バージョン管理、コラボレーション、CI/CD のために Git を使用してデータ サイエンスとエンジニアリングのコード開発のベスト プラクティスに従うことができます。

Note

Git フォルダー (Repos) は、主に作成と共同作業のワークフロー用に設計されています。

Databricks Repos でできること

Databricks Repos を Git プロバイダーと統合すると、データと AI プロジェクトのソース管理が提供されます。

Databricks Repos では、Git 機能を使用して次のことができます。

  • リモート Git リポジトリを複製、プッシュ、プルする。
  • マージ、リベース、競合の解決などを含む、開発作業用のブランチを作成および管理します。
  • ノートブック (IPYNB ノートブックを含む) を作成し、それらのノートブックと他のファイルを編集します。
  • コミット時の相違点を視覚的に比較し、マージの競合を解決します。

詳細な手順については、Databricks リポジトリで Git 操作を実行する方法に関するページを参照してください。

Note

また、Databricks Repos には、CI/CD パイプラインと統合できる API も用意されています。 たとえば、Databricks リポジトリをプログラムで更新して、コードのバージョンを常に最新にすることができます。 Databricks Repos を使用したコード開発に関するベスト プラクティスについて詳しくは、「Git と Databricks Repos を使用した CI/CD 手法」をご覧ください。

Azure Databricks でサポートされているノートブックの種類の詳細については、「Databricks ノートブックのエクスポートとインポート」をご覧ください。

サポートされている Git プロバイダー

Databricks Git フォルダーは、統合された Git リポジトリによって提供されています。 リポジトリは、次のセクションに示す任意のクラウドおよびエンタープライズ Git プロバイダーによってホストできます。

Note

"Git プロバイダー" とは

"Git プロバイダー" は、Git に基づくソース管理モデルをホストする特定の (名前付き) サービスです。 Git ベースのソース管理プラットフォームは、2 つの方法で (開発中の会社によってホストされるクラウド サービスとして、または自社が独自のハードウェアにインストールして管理するオンプレミス サービスとして) ホストされます。 GitHub、Microsoft、GitLab、Atlassian などの多くの Git プロバイダーは、クラウドベースの SaaS とオンプレミス ("セルフマネージド" と呼ばれることもある) Git サービスの両方を提供します。

構成中に Git プロバイダーを選択するときは、クラウド (SaaS) とオンプレミスの Git プロバイダーの違いに注意する必要があります。 オンプレミス ソリューションは通常、会社の VPN の背後でホストされ、インターネットからアクセスできない可能性があります。 通常、オンプレミスの Git プロバイダーの名前の末尾は "サーバー" または "セルフマネージド" ですが、不明な場合は、会社の管理者に問い合わせるか、Git プロバイダー’のドキュメントを確認してください。

Note

"GitHub" をプロバイダーとして使用していて、クラウドとオンプレミスのバージョンのどちらを使用しているかが不明な場合は、GitHub ドキュメントの GitHub Enterprise サーバーの概要に関する記事を参照してください。

Databricks でサポートされているクラウド Git プロバイダー

  • GitHub、GitHub AE、GitHub Enterprise Cloud
  • Atlassian BitBucket Cloud
  • GitLab、GitLab EE
  • Microsoft Azure DevOps (Azure Repos)

Databricks でサポートされているオンプレミス Git プロバイダー

  • ギットハブ エンタープライズ サービス
  • Atlassian BitBucket サーバー、データ センター
  • GitLab セルフマネージド
  • Microsoft Azure DevOps Server: URL が dev.azure.com/* または visualstudio.com/* と一致しない場合、ワークスペース管理者は Microsoft Azure DevOps Server の URL ドメイン プレフィックスを明示的に許可リストに登録する必要があります。 詳細については、「許可リスト内の URL に使用を制限する」を参照してください

インターネットからアクセスできないオンプレミスの Git リポジトリを統合する場合は、Git 認証要求のプロキシも会社の VPN 内にインストールする必要があります。 詳細については、Databricks Repos のプライベート Git 接続の設定に関する記事を参照してください。

Git プロバイダーでアクセス トークンを使用する方法については、「Git 資格情報を構成し、リモート リポジトリを Azure Databricks に接続する」を参照してください。

Git 統合のためのリポジトリ

Git と Azure Databricks の統合には、Databricks CLI 2.0 を使用してください。

次のリファレンス ドキュメントをお読みください。

次のステップ