Intégration de Git à Databricks Repos

Databricks Repos est un client et API Git visuel dans Databricks. Il prend en charge les opérations Git courantes telles que le clonage d’un dépôt, la validation et le push, l’extraction, la gestion de branche et la comparaison visuelle des différences lors de la validation.

Dans Repos, vous pouvez développer du code dans des notebooks ou d’autres fichiers et suivre les meilleures pratiques de développement de code d’ingénierie et de science des données à l’aide de Git pour le contrôle de version, la collaboration et l’intégration continue.

Que pouvez-vous faire avec Databricks Repos ?

Databricks Repos fournit un contrôle de code source pour les projets de données et d’IA en s’intégrant aux fournisseurs Git.

Dans Databricks Repos, vous pouvez utiliser des fonctionnalités Git pour :

  • Cloner un dépôt Git distant, pousser (push) vers celui-ci et tirer (pull) depuis celui-ci.
  • Créez et gérez des branches pour le travail de développement, notamment la fusion, le rebasage et la résolution des conflits.
  • Créez des notebooks, y compris des notebooks IPYNB, et modifiez-les ainsi que d’autres fichiers.
  • Comparez visuellement les différences lors de la validation et résolvez les conflits de fusion.

Pour obtenir des instructions pas à pas, consultez Cloner un dépôt Git &d’autres opérations Git courantes. Databricks Repos a également une API que vous pouvez intégrer à votre pipeline CI/CD. Par exemple, vous pouvez mettre à jour par programmation un dépôt Databricks afin qu’il dispose toujours de la version de code la plus récente. Pour plus d’informations sur les bonnes pratiques du développement de code avec Databricks Repos, consultez Techniques CI/CD avec Git et Databricks Repos .

Pour plus d’informations sur les types de notebooks pris en charge dans Azure Databricks, consultez Exporter et importer des notebooks Databricks.

Fournisseurs Git pris en charge

Azure Databricks prend en charge les fournisseurs Git suivants :

  • GitHub et GitHub AE
  • Bitbucket Cloud
  • GitLab
  • Azure DevOps

Consultez Configurer des informations d’identification Git & connecter un référentiel distant à Azure Databricks.

Databricks Repos prend également en charge l’intégration de Bitbucket Server, de GitHub Enterprise Server et d’une intégration auto-managée GitLab si le serveur est accessible via Internet. Pour s’intégrer à une instance Git Server privée qui n’est pas accessible via Internet, contactez votre représentant Databricks.

Pour prendre en charge les fichiers arbitraires dans Databricks Repos et des fichiers de l’espace de travail, utilisez Databricks Runtime 11.3 LTS (ou une version ultérieure). Consultez l’article Que sont les fichiers d’espace de travail ?.

Étape suivante

Configurer Databricks Repos