Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Gebruik Databricks Git-mappen in uw CI/CD-stromen om werk in broncodebeheer te houden en te integreren met uw data engineering-werkstromen. Zie CI/CD in Azure Databricks voor een breder overzicht van CI/CD met Azure Databricks.
Gebruiksstromen
Automatisering voor Git-mappen richt zich op de initiƫle mapconfiguratie en op de Azure Databricks Repos REST API voor het automatiseren van Git-bewerkingen vanuit Azure Databricks-taken. Voordat u automatisering bouwt:
- Controleer de externe Git-opslagplaatsen die u gaat gebruiken.
- Kies de juiste repositories en branches voor elke fase (ontwikkeling, integratie, staging, productie).
Er zijn drie hoofdstromen:
- Beheerstroom: Een beheerder van een Azure Databricks-werkruimte maakt mappen op het hoogste niveau om Git-mappen voor productie te hosten. De beheerder kloont een repository en vertakking bij het maken van elke map en kan deze een naam geven op basis van het doel (bijvoorbeeld "Productie", "Test" of "Staging"). Zie Een productiemap voor Git maken.
-
Gebruikersstroom: Een gebruiker maakt een Git-map onder
/Workspace/Users/<email>/vanuit een externe opslagplaats, werkt op een gebruikersspecifieke tak en pusht commits naar de externe locatie. Zie Samenwerken met behulp van Git-mappen. - Merge Flow: Na het pushen vanuit een Git-map openen gebruikers pull requests. Wanneer een PR wordt samengevoegd, kan automatisering wijzigingen naar productiemappen in Git trekken met behulp van de Azure Databricks Repos-API.
Samenwerken met Behulp van Git-mappen
Werk samen met anderen door wijzigingen op te halen en te pushen vanuit de Gebruikersinterface van Azure Databricks. Een veelvoorkomend patroon is het gebruik van een functie- of ontwikkelingsbranch om werk samen te voegen.
Samenwerken aan een functiebranch:
- Kloon uw bestaande Git-opslagplaats naar uw Databricks-werkruimte.
- Maak in de gebruikersinterface van Git-mappen een functiebranch op basis van de hoofdbranch. U kunt indien nodig meerdere functiebranches gebruiken.
- Bewerk Azure Databricks-notebooks en andere bestanden in de opslagplaats.
- Voer uw wijzigingen door en push deze naar de externe opslagplaats.
- Andere bijdragers kunnen de repository in hun eigen gebruikersmap klonen. Ze werken aan een branch, wijzigen notebooks en bestanden in de Git-map, en committen en pushen deze vervolgens naar de remote.
- Wanneer u klaar bent, maakt u een pull request voor uw Git-provider, bespreekt u het met uw team en voegt u het samen in de deployment-branch.
Opmerking
Databricks raadt aan dat elke ontwikkelaar aan een eigen vertakking werkt. Zie Samenvoegingsconflicten oplossen voor informatie over het oplossen van samenvoegingsconflicten.
Een CI/CD-benadering kiezen
Databricks raadt Databricks Asset Bundles aan om CI/CD-werkstromen te verpakken en te implementeren. Als u liever alleen code in de werkruimte implementeert, kunt u in plaats daarvan een productiemap van Git gebruiken. Zie CI/CD in Azure Databricks voor een breder OVERZICHT van CI/CD.
Aanbeveling
Definieer resources zoals taken en pijplijnen in de bron met behulp van bundels, maak, implementeer en beheer ze vervolgens in Git-mappen van werkruimten. Zie Samenwerken aan bundels in de werkruimte.
Een productie-Git-directory maken
Git-mappen op productieniveau verschillen van Git-mappen op gebruikersniveau onder /Workspace/Users/. Mappen op gebruikersniveau zijn lokale check-outs waar gebruikers wijzigingen ontwikkelen en doorvoeren. Productie-Git-mappen worden door beheerders aangemaakt buiten gebruikersmappen, waarin implementatiebranches worden opgeslagen en die als bron dienen voor geautomatiseerde werkstromen. Ze moeten alleen worden bijgewerkt via automatisering wanneer PR's worden samengevoegd in implementatiebranches. Beperk Git-mappen in productie tot alleen leesrechten voor de meeste gebruikers. Sta alleen beheerders en Azure Databricks-service-principals toe om ze te bewerken.
Een productiemap aanmaken in Git:
Kies de Git-opslagplaats en branch voor implementatie.
Maak of gebruik een service-principal en configureer een Git-referentie zodat deze toegang heeft tot die opslagplaats.
Maak een Azure Databricks Git-map voor de repository en de branch in een submap onder Werkruimte (bijvoorbeeld per project, team of fase).
Selecteer de map en klik vervolgens op Delen (of klik met de rechtermuisknop op Delen (machtigingen) in de structuur van de werkruimte).
Machtigingsniveaus toewijzen:
- Kan worden uitgevoerd voor projectgebruikers die werkstromen moeten uitvoeren.
- Kan worden uitgevoerd voor elke Azure Databricks-service-principal die automatisering uitvoert voor deze map.
- Kan eventueel weergeven voor alle werkruimtegebruikers ter ondersteuning van detectie en delen.
Klik op Toevoegen.
Houd de Git-map voor productie gesynchroniseerd met de remote branch met behulp van een van de volgende opties:
- Externe CI/CD: gebruik hulpprogramma's zoals GitHub Actions om de meest recente doorvoeringen op te halen wanneer een pull-aanvraag wordt samengevoegd in de implementatiebranch. Zie Voer een CI/CD-werkstroom uit die een Git-map bijwerkt.
- Geplande taak: als externe CI/CD niet beschikbaar is, voert u een geplande taak uit waarmee de Git-map wordt bijgewerkt. Gebruik een eenvoudig notebook dat werkt volgens een schema.
from databricks.sdk import WorkspaceClient w = WorkspaceClient() w.repos.update(w.workspace.get_status(path="<git-folder-workspace-full-path>").object_id, branch="<branch-name>")
Zie de Databricks REST API-documentatie voor Repos voor meer informatie over het automatiseren met de Repos API.