Databricks Git-mappen instellen (opslagplaatsen)

Meer informatie over het instellen van Databricks Git-mappen (voorheen Opslagplaatsen) voor versiebeheer. Zodra u Git-mappen in uw Databricks hebt ingesteld, kunt u algemene Git-bewerkingen uitvoeren, zoals klonen, uitchecken, doorvoeren, pushen, pullen en vertakkingsbeheer vanuit de Databricks-gebruikersinterface. U kunt ook verschillen voor uw wijzigingen zien tijdens het ontwikkelen met notebooks en bestanden in Databricks.

Gebruikersinstellingen configureren

Databricks Git-mappen maken gebruik van een persoonlijk toegangstoken (PAT) of een equivalente referentie voor verificatie bij uw Git-provider om bewerkingen uit te voeren, zoals klonen, pushen, pull, enzovoort. Als u Git-mappen wilt gebruiken, moet u eerst uw gebruikersnaam voor Git PAT en Git-provider toevoegen aan Databricks. Zie Git-referenties configureren en een externe opslagplaats verbinden met Azure Databricks.

U kunt openbare externe opslagplaatsen klonen zonder Git-referenties (een persoonlijk toegangstoken en een gebruikersnaam). Als u een openbare externe opslagplaats wilt wijzigen of een persoonlijke externe opslagplaats wilt klonen of wijzigen, moet u beschikken over een gebruikersnaam van een Git-provider en pat met schrijfmachtigingen (of meer) voor de externe opslagplaats.

Git-mappen zijn standaard ingeschakeld. Zie de functie databricks Git-mappen in- of uitschakelen voor meer informatie over het in- of uitschakelen van ondersteuning voor Git-mappen.

Git-referenties toevoegen of bewerken in Databricks

Belangrijk

Databricks Git-mappen ondersteunen slechts één Git-referentie per gebruiker, per werkruimte.

  1. Selecteer de pijl-omlaag naast de accountnaam in de rechterbovenhoek van het scherm en selecteer vervolgens Instellingen.

  2. Selecteer het tabblad Gekoppelde accounts.

  3. Als u voor het eerst referenties toevoegt, volgt u de instructies op het scherm.

    Als u eerder referenties hebt ingevoerd, klikt u op Configuratie>bewerken en gaat u naar de volgende stap.

  4. Selecteer in de vervolgkeuzelijst van de Git-provider de naam van de provider.

  5. Voer uw Git-gebruikersnaam of e-mailadres in.

  6. Voeg in het veld Token een persoonlijk toegangstoken (PAT) of andere referenties van uw Git-provider toe. Zie Git-referenties configureren en een externe opslagplaats verbinden met Azure Databricks voor meer informatie

    Belangrijk

    Databricks raadt u aan een vervaldatum in te stellen voor alle persoonlijke toegangstokens.

    Als u voor Azure DevOps geen token of app-wachtwoord invoert, gebruikt Git-integratie standaard uw Microsoft Entra ID-token (voorheen Azure Active Directory). Als u een persoonlijk Azure DevOps-toegangstoken invoert, wordt dit door Git-integratie gebruikt. Zie Verbinding maken naar een Azure DevOps-opslagplaats met behulp van een token.

    Notitie

    Nadat u uw Azure-wachtwoord hebt bijgewerkt, moet u zich opnieuw verifiëren met Azure Databricks als u de nieuwe verificatie meteen nodig hebt. Als u zich niet opnieuw verifieert, wordt de Azure DevOps-verbinding mogelijk maximaal 24 uur gevalideerd.

    Als voor uw organisatie SAML SSO is ingeschakeld in GitHub, autoriseert u uw persoonlijke toegangstoken voor eenmalige aanmelding.

  7. Voer uw gebruikersnaam in het veld Gebruikersnaam van de Git-provider in.

  8. Klik op Opslaan.

U kunt ook een Git PAT-token en gebruikersnaam opslaan in Azure Databricks met behulp van de Databricks Repos-API.

Als u de opslagplaats niet kunt klonen en u Azure DevOps gebruikt met Microsoft Entra ID-verificatie, raadpleegt u Probleem met een beleid voor voorwaardelijke toegang (CAP) voor Microsoft Entra ID (voorheen Azure Active Directory).

Netwerkverbinding tussen Databricks Git-mappen en een Git-provider

Git-mappen hebben netwerkconnectiviteit met uw Git-provider nodig om te kunnen functioneren. Normaal gesproken is dit via internet en werkt dit kant-en-klare. Mogelijk hebt u echter aanvullende beperkingen ingesteld voor uw Git-provider voor het beheren van de toegang. U hebt bijvoorbeeld een ip-acceptatielijst of u kunt uw eigen on-premises Git-server hosten met behulp van services zoals GitHub Enterprise (GHE), Bitbucket Server (BBS) of Gitlab Zelfbeheer. Afhankelijk van uw netwerkhosting en -configuratie is uw Git-server mogelijk niet toegankelijk via internet.

Notitie

  • Als uw Git-server toegankelijk is voor internet, maar een IP-acceptatielijst heeft, zoals acceptatielijsten voor GitHub, moet u NAT-IP-adressen van azure Databricks-besturingsvlak toevoegen aan de IP-acceptatielijst van de Git-server. Zie Azure Databricks-regio's voor een lijst met NAT IP-adressen van het besturingsvlak per regio. Gebruik het IP-adres voor de regio waarin uw Azure Databricks-werkruimte zich bevindt.
  • Als u privé een Git-server host, leest u Privé-Git-connectiviteit instellen voor Databricks Git-mappen (opslagplaatsen) of neemt u contact op met uw Azure Databricks-accountteam voor onboarding-instructies voor toegang.

Beveiligingsfuncties in Git-mappen

Databricks Git-mappen hebben veel beveiligingsfuncties. In de volgende secties wordt u begeleid bij het instellen en gebruiken:

  • Gebruik van versleutelde Git-referenties
  • Een acceptatielijst
  • Toegangsbeheer voor werkruimten
  • Controlegebeurtenissen vastleggen
  • Detectie van geheimen

Bring Your Own Key: Git-referenties versleutelen

U kunt Azure Key Vault gebruiken om een persoonlijk Git-toegangstoken (PAT) of andere Git-referenties te versleutelen. Het gebruik van een sleutel van een versleutelingsservice wordt aangeduid als een door de klant beheerde sleutel (CMK) of bring your own key (BYOK).

Zie Door de klant beheerde sleutels voor versleuteling voor meer informatie.

Gebruik beperken tot URL's in een acceptatielijst

Als u Microsoft Entra-id gebruikt voor verificatie met Azure DevOps, beperkt de standaardlijst toestaan Git-URL's tot:

  • dev.azure.com
  • visualstudio.com

Voor AAD met aangepaste CNAMES- of Git-URL-aliassen kan uw werkruimtebeheerder een aangepaste acceptatielijst configureren, zoals wordt weergegeven in de volgende stappen. Als u een aangepaste acceptatielijst gebruikt, moet uw werkruimtebeheerder deze URL's toevoegen als u ermee wilt werken: dev.azure.com en visualstudio.com.

Een werkruimtebeheerder kan beperken van welke externe opslagplaatsen gebruikers kunnen klonen en doorvoeren en pushen naar. Dit helpt exfiltratie van uw code te voorkomen; Gebruikers kunnen bijvoorbeeld geen code pushen naar een willekeurige opslagplaats als u de beperkingen voor de acceptatielijst hebt ingeschakeld. U kunt ook voorkomen dat gebruikers niet-gelicentieerde code gebruiken door de kloonbewerking te beperken tot een lijst met toegestane opslagplaatsen.

Een acceptatielijst instellen:

  1. Ga naar de pagina Instellingen.
  2. Klik op het tabblad Werkruimtebeheerder (deze is standaard geopend).
  3. Kies in de sectie Ontwikkeling een optie uit de machtiging voor toegestane git-URL's:
    • Uitgeschakeld (geen beperkingen): er zijn geen controles op de acceptatielijst.
    • Klonen, Doorvoeren en pushen beperken tot toegestane Git-opslagplaatsen: Kloon-, doorvoer- en pushbewerkingen zijn alleen toegestaan voor opslagplaats-URL's in de acceptatielijst.
    • Alleen doorvoeren en pushen beperken tot toegestane Git-opslagplaatsen: doorvoer- en pushbewerkingen zijn alleen toegestaan voor opslagplaats-URL's in de acceptatielijst. Kloon- en pull-bewerkingen zijn niet beperkt.

Het deelvenster Ontwikkeling onder Beheer Instellingen, gebruikt om git-toegang van gebruikers in te stellen

  1. Klik op de knop Bewerken naast de lijst met toegestane Git-URL's: Lege lijst en voer een door komma's gescheiden lijst met URL-voorvoegsels in.

De knop Acceptatielijst bewerken in de instellingen van de ontwikkelingsbeheerder

  1. Klik op Opslaan.

Notitie

  • De lijst die u opslaat overschrijft de bestaande set opgeslagen URL-voorvoegsels.
  • Het kan tot 15 minuten duren voordat de wijzigingen van kracht worden.

Toegang tot alle opslagplaatsen toestaan

Een bestaande acceptatielijst uitschakelen en toegang tot alle opslagplaatsen toestaan:

  1. Ga naar de pagina Instellingen.
  2. Klik op het tabblad Werkruimtebeheerder .
  3. Selecteer in de sectie Ontwikkeling onder Machtiging voor toegestane lijst met Git-URL's de optie Uitschakelen (geen beperkingen).

Toegang beheren voor een opslagplaats in uw werkruimte

Notitie

Toegangsbeheer is alleen beschikbaar in het Premium-abonnement.

Stel machtigingen in voor een opslagplaats om de toegang te beheren. Machtigingen voor een opslagplaats zijn van toepassing op alle inhoud in die opslagplaats. U kunt vijf machtigingsniveaus toewijzen aan bestanden: GEEN MACHTIGINGEN, KAN LEZEN, KUNNEN WORDEN UITGEVOERD, KAN WORDEN BEWERKT en KAN BEHEREN.

Zie Git-map-ACL's voor meer informatie over machtigingen voor Git-mappen.

(Optioneel) Een proxy instellen voor Enterprise Git-servers

Als uw bedrijf gebruikmaakt van een on-premises Enterprise Git-service, zoals GitHub Enterprise of Azure DevOps Server, kunt u de Databricks Git Server-proxy gebruiken om uw Databricks-werkruimten te verbinden met de opslagplaatsen die worden gebruikt.

Controlegebeurtenissen vastleggen

Wanneer auditlogboekregistratie is ingeschakeld, worden controlegebeurtenissen geregistreerd wanneer u communiceert met een Git-map. Een controlegebeurtenis wordt bijvoorbeeld geregistreerd wanneer u een Git-map maakt, bijwerkt of verwijdert wanneer u alle Git-mappen vermeldt die zijn gekoppeld aan een werkruimte, en wanneer u wijzigingen synchroniseert tussen uw Git-map en de externe Git-opslagplaats.

Detectie van geheimen

Git-mappen scannen code op toegangssleutel-id's die beginnen met het voorvoegsel AKIA en waarschuwt de gebruiker voordat deze wordt doorgevoerd.

Een configuratiebestand voor opslagplaatsen gebruiken

U kunt instellingen voor elk notitieblok toevoegen aan uw opslagplaats in een .databricks/commit_outputs bestand dat u handmatig maakt.

Geef het notebook op dat u uitvoer wilt opnemen met behulp van patronen die vergelijkbaar zijn met gitignore-patronen.

Patronen voor een configuratiebestand voor een opslagplaats

Het bestand bevat positieve en negatieve bestandspadpatronen. Bestandspadpatronen bevatten de bestandsextensie notebook, zoals .ipynb.

  • Positieve patronen maken opname van uitvoer mogelijk voor overeenkomende notebooks.
  • Negatieve patronen schakelen uitvoeropname uit voor overeenkomende notebooks.

Patronen worden geëvalueerd op volgorde van alle notitieblokken. Ongeldige paden of paden die niet worden omgezet in .ipynb notebooks, worden genegeerd.

Gebruik de volgende patronen om uitvoer van een notebookpadfolder/innerfolder/notebook.ipynb op te nemen:

**/*
folder/**
folder/innerfolder/note*

Als u uitvoer voor een notebook wilt uitsluiten, controleert u of geen van de positieve patronen overeenkomt of een negatief patroon toevoegt op een juiste plek van het configuratiebestand. Negatieve patronen (uitsluiten) beginnen met !:

!folder/innerfolder/*.ipynb
!folder/**/*.ipynb
!**/notebook.ipynb

Git-map verplaatsen naar prullenbak (verwijderen)

Ga als volgt te werk om een Git-map uit uw werkruimte te verwijderen:

  1. Klik met de rechtermuisknop op de Git-map en selecteer Verplaatsen naar prullenbak.

  2. Typ in het dialoogvenster de naam van de Git-map die u wilt verwijderen. Klik vervolgens op Bevestigen en naar prullenbak gaan.

    Bevestig het dialoogvenster Verplaatsen naar Prullenbak.

Volgende stappen