Git-versiebeheer voor notebooks (verouderd)
Belangrijk
Ondersteuning voor Git-integratie van verouderde notebooks is verwijderd op 31 januari 2024. Databricks raadt u aan om Databricks Git-mappen te gebruiken om uw werk in Databricks te synchroniseren met een externe Git-opslagplaats.
In dit artikel wordt beschreven hoe u Git-versiebeheer instelt voor notebooks (verouderde functie). U kunt ook de Databricks CLI of Werkruimte-API gebruiken om notebooks te importeren en exporteren en Git-bewerkingen uit te voeren in uw lokale ontwikkelomgeving.
Git-versiebeheer in- en uitschakelen
Standaard is versiebeheer ingeschakeld. U kunt deze instelling als volgt in- of uitschakelen:
- Ga naar >Instellingen werkruimte-instellingen.
- Schakel in de sectie Geavanceerd de schakeloptie Git-versiebeheer voor notebook uit.
Versiebeheer configureren
Als u versiebeheer wilt configureren, maakt u toegangsreferenties in uw Git-provider en voegt u deze referenties toe aan Azure Databricks.
Werken met notebookversies
U werkt met notebookversies in het geschiedenisvenster. Open het geschiedenisvenster door in de rechterzijbalk te klikken.
Notitie
U kunt een notitieblok niet wijzigen terwijl het geschiedenisvenster is geopend.
Een notebook koppelen aan GitHub
Klik in de rechterzijbalk. Op de Git-statusbalk wordt Git: Niet gekoppeld weergegeven.
Klik op Git: niet gekoppeld.
Het dialoogvenster Git-voorkeuren wordt weergegeven. De eerste keer dat u uw notitieblok opent, is de status Ontkoppelen, omdat het notitieblok zich niet in GitHub bevindt.
Klik in het veld Status op Koppeling.
Plak in het veld Koppeling de URL van de GitHub-opslagplaats.
Klik op de vervolgkeuzelijst Branch en selecteer een vertakking of typ de naam van een nieuwe vertakking.
Geef in het veld Pad in git-map op waar in de opslagplaats het bestand moet worden opgeslagen.
Python-notebooks hebben de voorgestelde standaardbestandsextensie
.py
. Als u dit gebruikt.ipynb
, wordt uw notebook opgeslagen in de iPython-notebookindeling. Als het bestand al bestaat op GitHub, kunt u de URL van het bestand rechtstreeks kopiëren en plakken.Klik op Opslaan om het koppelen van uw notitieblok te voltooien. Als dit bestand nog niet eerder bestond, wordt er een prompt weergegeven met de optie Dit bestand opslaan in uw GitHub-opslagplaats .
Typ een bericht en klik op Opslaan.
Een notitieblok opslaan in GitHub
Hoewel de wijzigingen die u in uw notebook aanbrengt, automatisch worden opgeslagen in de versiegeschiedenis van Azure Databricks, blijven wijzigingen niet automatisch behouden in GitHub.
Klik in de rechterzijbalk om het geschiedenisvenster te openen.
Klik op Nu opslaan om uw notitieblok op te slaan in GitHub. Het dialoogvenster Notitieblokversie opslaan wordt weergegeven.
Voer desgewenst een bericht in om uw wijziging te beschrijven.
Zorg ervoor dat ook doorvoeren naar Git is geselecteerd.
Klik op Opslaan.
Een notebook herstellen of bijwerken naar een versie vanuit GitHub
Zodra u een notebook hebt gekoppeld, synchroniseert Azure Databricks uw geschiedenis met Git telkens wanneer u het geschiedenisvenster opnieuw opent. Versies die met Git worden gesynchroniseerd, hebben doorvoer-hashes als onderdeel van de vermelding.
Klik in de rechterzijbalk om het geschiedenisvenster te openen.
Kies een vermelding in het geschiedenisvenster. Azure Databricks geeft die versie weer.
Klik op Deze versie herstellen.
Klik op Bevestigen om te bevestigen dat u die versie wilt herstellen.
Een notitieblok ontkoppelen
Klik in de rechterzijbalk om het geschiedenisvenster te openen.
Op de Git-statusbalk wordt Git: Gesynchroniseerd weergegeven.
Klik op Git: gesynchroniseerd.
Klik in het dialoogvenster Git-voorkeuren op Ontkoppelen.
Klik op Opslaan.
Klik op Bevestigen om te bevestigen dat u het notitieblok wilt ontkoppelen van versiebeheer.
Vertakkingen gebruiken
U kunt aan elke vertakking van uw opslagplaats werken en nieuwe vertakkingen maken in Azure Databricks.
Een vertakking maken
Klik in de rechterzijbalk om het geschiedenisvenster te openen.
Klik op de Git-statusbalk om het GitHub-deelvenster te openen.
Klik op de vervolgkeuzelijst Vertakking .
Voer een vertakkingsnaam in.
Selecteer de optie Vertakking maken onderaan de vervolgkeuzelijst. De bovenliggende vertakking wordt aangegeven. U vertakt altijd van de huidige geselecteerde vertakking.
Een pull-aanvraag maken
Klik in de rechterzijbalk om het geschiedenisvenster te openen.
Klik op de Git-statusbalk om het GitHub-deelvenster te openen.
Klik op Pull-aanvraag maken. GitHub wordt geopend op een pagina met pull-aanvragen voor de vertakking.
Een vertakking opnieuwbaseen
U kunt uw vertakking ook opnieuw baseeren in Azure Databricks. De Koppeling Rebase wordt weergegeven als er nieuwe doorvoeringen beschikbaar zijn in de bovenliggende vertakking. Alleen herstellen boven op de standaardvertakking van de bovenliggende opslagplaats wordt ondersteund.
Stel dat u aan databricks/reference-apps
werkt. U vertakt het in uw eigen account (bijvoorbeeld brkyvz
) en begint te werken aan een vertakking met de naam my-branch
. Als er een nieuwe update naar wordt gepusht databricks:master
, wordt de Rebase
knop weergegeven en kunt u de wijzigingen in uw vertakking brkyvz:my-branch
ophalen.
Rebasing werkt iets anders in Azure Databricks. Ga ervan uit dat de volgende vertakkingsstructuur:
Na een nieuwe basis ziet de vertakkingsstructuur er als volgt uit:
Wat hier anders is, is dat Doorvoeringen C5 en C6 niet van toepassing zijn op C4. Ze worden weergegeven als lokale wijzigingen in uw notitieblok. Samenvoegingsconflicten worden als volgt weergegeven:
U kunt vervolgens opnieuw doorvoeren naar GitHub met behulp van de knop Nu opslaan.
Wat gebeurt er als iemand vertakt van mijn vertakking die ik zojuist heb herbased?
Als uw vertakking (bijvoorbeeld branch-a
) de basis was voor een andere vertakking (branch-b
) en u zich opnieuw baseert, hoeft u zich geen zorgen te maken. Zodra een gebruiker ook opnieuw wordt gebaseerd branch-b
, werkt alles goed. De aanbevolen procedure in deze situatie is het gebruik van afzonderlijke vertakkingen voor afzonderlijke notebooks.
Best practices voor codebeoordelingen
Azure Databricks biedt ondersteuning voor Git-vertakkingen.
- U kunt een notebook koppelen aan elke vertakking in een opslagplaats. Azure Databricks raadt aan om voor elk notebook een afzonderlijke vertakking te gebruiken.
- Tijdens de ontwikkeling kunt u een notebook koppelen aan een fork van een opslagplaats of aan een niet-standaardvertakking in de hoofdopslagplaats. Als u uw wijzigingen upstream wilt integreren, kunt u de koppeling Pull-aanvraag maken gebruiken in het dialoogvenster Git-voorkeuren in Azure Databricks om een GitHub-pull-aanvraag te maken. De koppeling Pull-aanvraag maken wordt alleen weergegeven als u niet werkt aan de standaardvertakking van de bovenliggende opslagplaats.
Probleemoplossing
Als u fouten ontvangt met betrekking tot de synchronisatie van de GitHub-geschiedenis, controleert u het volgende:
- U kunt een notebook alleen koppelen aan een geïnitialiseerde Git-opslagplaats die niet leeg is. Test de URL in een webbrowser.
- Het persoonlijk toegangstoken van GitHub moet actief zijn.
- Als u een privé GitHub opslagplaats wilt gebruiken, moet u zijn gemachtigd om de opslagplaats te lezen.
- Als een notebook is gekoppeld aan een GitHub-vertakking met de naam, wordt de wijziging niet automatisch doorgevoerd in Azure Databricks. U moet het notebook handmatig opnieuw koppelen aan de vertakking.
Migreren naar Git-mappen van Databricks
Gebruikers die vanuit het verouderde Git-versiebeheer naar Databricks Git-mappen moeten migreren, kunnen de volgende handleiding gebruiken: