Intégration de Git à Databricks Repos

Databricks Repos est un client Git visuel dans Databricks. Il prend en charge les opérations Git courantes telles que le clonage d’un dépôt, la validation et le push, l’extraction, la gestion de branche et la comparaison visuelle des différences lors de la validation.

Dans Repos, vous pouvez développer du code dans des notebooks ou d’autres fichiers et suivre les meilleures pratiques de développement de code d’ingénierie et de science des données à l’aide de Git pour le contrôle de version, la collaboration et l’intégration continue.

Que pouvez-vous faire avec des Dépôt Databricks ?

Databricks Repos fournit un contrôle de code source pour les projets de données et d’IA en s’intégrant aux fournisseurs Git.

Dans Databricks Repos, vous pouvez utiliser des fonctionnalités Git pour :

  • Cloner un dépôt Git distant, pousser (push) vers celui-ci et tirer (pull) depuis celui-ci.
  • Créer et gérer des branches pour le travail de développement.
  • Créer des notebooks et modifier des notebooks et d’autres fichiers.
  • Comparer visuellement les différences lors d’un commit.

Pour obtenir des instructions pas à pas, consultez Cloner un dépôt Git &d’autres opérations Git courantes. Databricks Repos a également une API que vous pouvez intégrer à votre pipeline CI/CD. Par exemple, vous pouvez mettre à jour par programmation un dépôt Databricks afin qu’il dispose toujours de la version de code la plus récente. Pour plus d’informations sur les bonnes pratiques pour le développement de code avec Databricks Repos, consultez Workflows CI-CD avec l’intégration Git et les Databricks Repos .

Pour les tâches suivantes, travaillez dans votre fournisseur Git :

  • Créer une demande de tirage.
  • Résoudre les conflits de fusion.
  • Fusionner ou supprimer des branches.
  • Rebaser une branche.

Fournisseurs Git pris en charge

Azure Databricks prend en charge les fournisseurs Git suivants :

  • GitHub et GitHub AE
  • Bitbucket Cloud
  • GitLab
  • Azure DevOps

Consultez Obtenir un jeton d’accès Git& pour connecter un dépôt distant à Azure Databricks.

Databricks Repos prend également en charge l’intégration de Bitbucket Server, de GitHub Enterprise Server et d’une intégration auto-managée GitLab si le serveur est accessible via Internet. Pour s’intégrer à une instance Git Server privée qui n’est pas accessible via Internet, contactez votre représentant Databricks.

La prise en charge de fichiers arbitraires dans Databricks Repos est disponible dans Databricks Runtime 8.4 et versions ultérieures. Consultez Que sont les fichiers d’espace de travail ?.

Étape suivante

Configurer Databricks Repos