Git-integratie met Databricks Git-mappen

Databricks Git-mappen is een visuele Git-client en API in Azure Databricks. Het biedt ondersteuning voor algemene Git-bewerkingen, zoals het klonen van een opslagplaats, doorvoeren en pushen, pullen, vertakkingsbeheer en visuele vergelijking van diffs bij het doorvoeren.

In Git-mappen kunt u code ontwikkelen in notebooks of andere bestanden en best practices voor het ontwikkelen van data science- en engineeringcode volgen met behulp van Git voor versiebeheer, samenwerking en CI/CD.

Belangrijk

Databricks heeft de functie Opslagplaatsen vervangen door geïntegreerde Functionaliteit voor Git-mappen in Databricks-werkruimten. Lees wat er is gebeurd met Databricks-opslagplaatsen voor meer informatie over deze wijziging?

Deze functie bevindt zich in openbare preview in alle regio's.

Notitie

Git-mappen (opslagplaatsen) zijn voornamelijk ontworpen voor het ontwerpen en samenwerken van werkstromen.

Zie Migreren naar Git-mappen (voorheen Opslagplaatsen) van verouderde Git-integratie voor meer informatie over het migreren van een verouderde Git-integratie.

Wat kunt u doen met Databricks Git-mappen?

Databricks Git-mappen bieden broncodebeheer voor gegevens en AI-projecten door integratie met Git-providers.

In Git-mappen van Databricks kunt u git-functionaliteit gebruiken om het volgende te doen:

  • Kloon, push naar en pull vanuit een externe Git-opslagplaats.
  • Vertakkingen maken en beheren voor ontwikkelingswerkzaamheden, waaronder samenvoegen, herbaseren en conflicten oplossen.
  • Maak notebooks (inclusief IPYNB-notebooks) en bewerk ze en andere bestanden.
  • Vergelijk visueel verschillen bij doorvoeren en samenvoegingsconflicten oplossen.

Zie Git-bewerkingen uitvoeren in Databricks Git-mappen (opslagplaatsen) voor stapsgewijze instructies.

Notitie

Databricks Git-mappen hebben ook een API die u kunt integreren met uw CI/CD-pijplijn. U kunt bijvoorbeeld programmatisch een Databricks-opslagplaats bijwerken, zodat deze altijd de meest recente versie van de code heeft. Zie CI/CD-technieken met Git- en Databricks Git-mappen (opslagplaatsen) voor informatie over aanbevolen procedures voor het ontwikkelen van code met behulp van Databricks Git-mappen.

Zie Databricks-notebooks exporteren en importeren voor informatie over de soorten notebooks die worden ondersteund in Azure Databricks.

Ondersteunde Git-providers

Databricks Git-mappen worden ondersteund door een geïntegreerde Git-opslagplaats. De opslagplaats kan worden gehost door een van de Cloud- en Enterprise Git-providers die in de volgende sectie worden vermeld.

Notitie

Wat is een 'Git-provider'?

Een 'Git-provider' is de specifieke (benoemde) service die als host fungeert voor een broncodebeheermodel op basis van Git. Git-platformen voor broncodebeheer worden op twee manieren gehost: als een cloudservice die wordt gehost door het ontwikkelende bedrijf, of als een on-premises service die door uw eigen bedrijf op zijn eigen hardware wordt geïnstalleerd en beheerd. Veel Git-providers, zoals GitHub, Microsoft, GitLab en Atlassian, bieden zowel cloudgebaseerde SaaS- als on-premises Git-services (ook wel zelfbeheerd genoemd).

Wanneer u uw Git-provider kiest tijdens de configuratie, moet u rekening houden met de verschillen tussen cloudproviders (SaaS) en on-premises Git-providers. On-premises oplossingen worden doorgaans gehost achter een bedrijfs-VPN en zijn mogelijk niet toegankelijk via internet. Normaal gesproken hebben de on-premises Git-providers een naam die eindigt op 'Server' of 'Zelfbeheerd', maar als u niet zeker weet, neemt u contact op met de beheerders van uw bedrijf of bekijkt u de documentatie van de Git-provider.

Als uw Git-provider cloudgebaseerde provider is en niet wordt vermeld als een ondersteunde provider, werkt het selecteren van 'GitHub' omdat uw provider mogelijk werkt, maar niet gegarandeerd.

Notitie

Als u 'GitHub' als provider gebruikt en nog steeds niet zeker weet of u de cloud of on-premises versie gebruikt, raadpleegt u Over GitHub Enterprise Server in de GitHub-documenten.

Cloud Git-providers die worden ondersteund door Databricks

  • GitHub, GitHub AE en GitHub Enterprise Cloud
  • Atlassian BitBucket Cloud
  • GitLab en GitLab EE
  • Microsoft Azure DevOps (Azure-opslagplaatsen)

On-premises Git-providers die worden ondersteund door Databricks

  • GitHub Enterprise Server
  • Atlassian BitBucket Server en Data Center
  • Zelfbeheerde GitLab
  • Microsoft Azure DevOps Server: een werkruimtebeheerder moet expliciet de URL-domeinvoorvoegsels voor uw Microsoft Azure DevOps-server toestaan als de URL niet overeenkomt dev.azure.com/* of visualstudio.com/*. Zie Gebruik beperken tot URL's in een acceptatielijst voor meer informatie

Als u een on-premises Git-opslagplaats integreert die niet toegankelijk is vanaf internet, moet er ook een proxy voor Git-verificatieaanvragen worden geïnstalleerd binnen de VPN van uw bedrijf. Zie Privé-Git-connectiviteit instellen voor Databricks Git-mappen (opslagplaatsen) voor meer informatie.

Zie Git-referenties configureren en een externe opslagplaats verbinden met Azure Databricks voor meer informatie over het gebruik van toegangstokens met uw Git-provider.

Resources voor Git-integratie

Gebruik de Databricks CLI 2.0 voor Git-integratie met Azure Databricks:

Lees de volgende referentiedocumenten:

Volgende stappen