Konfigurera Databricks Git-mappar (Repos)

Lär dig hur du konfigurerar Databricks Git-mappar (tidigare Repos) för versionskontroll. När du har konfigurerat Git-mappar i Dina Databricks kan du utföra vanliga Git-åtgärder som kloning, utcheckning, incheckning, push-överföring, hämtning och grenhantering på dem från Databricks-användargränssnittet. Du kan också se skillnader för dina ändringar när du utvecklar med notebook-filer och filer i Databricks.

Konfigurera användarinställningar

Databricks Git-mappar använder en personlig åtkomsttoken (PAT) eller motsvarande autentiseringsuppgifter för att autentisera med git-providern för att utföra åtgärder som kloning, push-överföring, pull osv. Om du vill använda Git-mappar måste du först lägga till ditt användarnamn för Git PAT och Git-providern i Databricks. Se Konfigurera Git-autentiseringsuppgifter och ansluta en fjärransluten lagringsplats till Azure Databricks.

Du kan klona offentliga fjärrlagringsplatser utan Git-autentiseringsuppgifter (en personlig åtkomsttoken och ett användarnamn). Om du vill ändra en offentlig fjärrlagringsplats eller klona eller ändra en privat fjärrlagringsplats måste du ha ett användarnamn för Git-providern och PAT med skrivbehörighet (eller högre) för fjärrlagringsplatsen.

Git-mappar är aktiverade som standard. Mer information om hur du aktiverar eller inaktiverar Stöd för Git-mappar finns i Aktivera eller inaktivera Git-mappfunktionen i Databricks.

Lägga till eller redigera Git-autentiseringsuppgifter i Databricks

Viktigt!

Databricks Git-mappar stöder bara en Git-autentiseringsuppgift per användare och arbetsyta.

  1. Välj nedåtpilen bredvid kontonamnet längst upp till höger på skärmen och välj sedan Inställningar.

  2. Välj fliken Länkade konton.

  3. Följ anvisningarna på skärmen om du lägger till autentiseringsuppgifter för första gången.

    Om du tidigare har angett autentiseringsuppgifter klickar du på Konfiguration>Redigera och går till nästa steg.

  4. I listrutan In the Git-provider väljer du providernamnet.

  5. Ange ditt Git-användarnamn eller e-postmeddelande.

  6. I fältet Token lägger du till en personlig åtkomsttoken (PAT) eller andra autentiseringsuppgifter från Git-providern. Mer information finns i Konfigurera Git-autentiseringsuppgifter och ansluta en fjärransluten lagringsplats till Azure Databricks

    Viktigt!

    Databricks rekommenderar att du anger ett förfallodatum för alla personliga åtkomsttoken.

    Om du inte anger ett token- eller applösenord för Azure DevOps använder Git-integreringen din Microsoft Entra-ID-token (tidigare Azure Active Directory) som standard. Om du anger en personlig åtkomsttoken för Azure DevOps använder Git-integreringen den i stället. Se Anslut till en Azure DevOps-lagringsplats med hjälp av en token.

    Kommentar

    När du har uppdaterat ditt Azure-lösenord autentiserar du igen med Azure Databricks om du behöver den nya autentiseringen för att fungera direkt. Om du inte autentiserar igen kanske Azure DevOps-anslutningen inte verifieras på upp till 24 timmar.

    Om din organisation har SAML SSO aktiverat i GitHub auktoriserar du din personliga åtkomsttoken för enkel inloggning.

  7. Ange ditt användarnamn i fältet Git-providerns användarnamn .

  8. Klicka på Spara.

Du kan också spara en Git PAT-token och ett användarnamn i Azure Databricks med hjälp av Databricks Repos-API:et.

Om du inte kan klona lagringsplatsen och du använder Azure DevOps med Microsoft Entra-ID-autentisering läser du Problem med en princip för villkorlig åtkomst (CAP) för Microsoft Entra-ID (tidigare Azure Active Directory).

Nätverksanslutning mellan Databricks Git-mappar och en Git-provider

Git-mappar behöver nätverksanslutning till git-providern för att fungera. Vanligtvis är detta över Internet och fungerar ur lådan. Du kan dock ha konfigurerat ytterligare begränsningar för git-providern för att kontrollera åtkomsten. Du kan till exempel ha en lista över TILLÅTNA IP-adresser på plats, eller så kan du vara värd för din egen lokala Git-server med hjälp av tjänster som GitHub Enterprise (GHE), Bitbucket Server (BBS) eller Gitlab Self-managed. Beroende på nätverksvärd och konfiguration kanske git-servern inte är tillgänglig via Internet.

Kommentar

  • Om git-servern är internettillgänglig men har en LISTA över TILLÅTNA IP-adresser, till exempel GitHub-tillåtna listor, måste du lägga till NAT-IP-adresser för Azure Databricks-kontrollplanet i Git-serverns IP-tillåtna lista. Se Azure Databricks-regioner för en lista över NAT IP-adresser för kontrollplan efter region. Använd IP-adressen för den region som din Azure Databricks-arbetsyta finns i.
  • Om du är privat värd för en Git-server läser du Konfigurera privat Git-anslutning för Databricks Git-mappar (Repos) eller kontaktar ditt Azure Databricks-kontoteam för att få information om åtkomstinstruktioner.

Säkerhetsfunktioner i Git-mappar

Databricks Git-mappar har många säkerhetsfunktioner. Följande avsnitt beskriver hur de konfigureras och används:

  • Användning av krypterade Git-autentiseringsuppgifter
  • En lista över tillåtna
  • Åtkomstkontroll för arbetsyta
  • Granskningsloggning
  • Identifiering av hemligheter

Ta med din egen nyckel: Kryptera Git-autentiseringsuppgifter

Du kan använda Azure Key Vault för att kryptera en personlig Åtkomsttoken för Git (PAT) eller andra Git-autentiseringsuppgifter. Att använda en nyckel från en krypteringstjänst kallas för en kundhanterad nyckel (CMK) eller BYOK (Bring Your Own Key).

Mer information finns i Kundhanterade nycklar för kryptering.

Begränsa användningen till URL:er i en lista över tillåtna

Om du använder Microsoft Entra-ID för autentisering med Azure DevOps begränsar listan över tillåtna git-url:er till:

  • dev.azure.com
  • visualstudio.com

För AAD med anpassade CNAMES- eller Git-URL-alias kan din arbetsyteadministratör konfigurera en anpassad lista över tillåtna enligt följande steg. Om du använder en anpassad lista över tillåtna måste arbetsyteadministratören lägga till dessa URL:er om du vill arbeta med dem: dev.azure.com och visualstudio.com.

En arbetsyteadministratör kan begränsa vilka fjärranslutna lagringsplatser som användare kan klona från och checka in och skicka till. Detta hjälper till att förhindra exfiltrering av din kod; Användarna kan till exempel inte skicka kod till en godtycklig lagringsplats om du har aktiverat begränsningarna för listan över tillåtna. Du kan också förhindra att användare använder olicensierad kod genom att begränsa kloningsåtgärden till en lista över tillåtna lagringsplatser.

Så här konfigurerar du en lista över tillåtna:

  1. Gå till inställningssidan.
  2. Klicka på fliken Administratör för arbetsyta (den är öppen som standard).
  3. I avsnittet Utveckling väljer du ett alternativ från git-URL:en för att tillåta listbehörighet:
    • Inaktiverad (inga begränsningar): Det finns inga kontroller mot listan över tillåtna.
    • Begränsa kloning, incheckning och push-överföring till tillåtna Git-lagringsplatser: Klona, checka in och push-åtgärder tillåts endast för lagringsplats-URL:er i listan över tillåtna.
    • Begränsa endast incheckning och push-överföring till tillåtna Git-lagringsplatser: Inchecknings- och push-åtgärder tillåts endast för lagringsplats-URL:er i listan över tillåtna. Klon- och pull-åtgärder är inte begränsade.

Fönstret Utveckling under Administratör Inställningar som används för att ange användarens Git-åtkomst

  1. Klicka på knappen Redigera bredvid listan över tillåtna Git-URL:er: Tom lista och ange en kommaavgränsad lista med URL-prefix.

Knappen Redigera lista över tillåtna i inställningarna för utvecklingsadministratör

  1. Klicka på Spara.

Kommentar

  • Listan som du sparar skriver över den befintliga uppsättningen sparade URL-prefix.
  • Det kan ta upp till 15 minuter innan ändringarna börjar gälla.

Tillåt åtkomst till alla lagringsplatser

Så här inaktiverar du en befintlig lista över tillåtna och tillåter åtkomst till alla lagringsplatser:

  1. Gå till inställningssidan.
  2. Klicka på fliken Administratör för arbetsyta.
  3. I avsnittet Utveckling går du till Tillåt listbehörighet för Git-URL: välj Inaktivera (inga begränsningar).

Kontrollera åtkomsten för en lagringsplats på din arbetsyta

Kommentar

Åtkomstkontroll är endast tillgängligt i Premium-planen.

Ange behörigheter för en lagringsplats för att styra åtkomsten. Behörigheter för en lagringsplats gäller för allt innehåll på lagringsplatsen. Du kan tilldela fem behörighetsnivåer till filer: INGA BEHÖRIGHETER, KAN LÄSA, KAN KÖRA, KAN REDIGERA och KAN HANTERA.

Mer information om Behörigheter för Git-mappar finns i ACL:er för Git-mappar.

(Valfritt) Konfigurera en proxy för företagets Git-servrar

Om ditt företag använder en lokal Git-tjänst för företag, till exempel GitHub Enterprise eller Azure DevOps Server, kan du använda Databricks Git Server Proxy för att ansluta dina Databricks-arbetsytor till de lagringsplatser som det betjänar.

Granskningsloggning

När granskningsloggning är aktiverat loggas granskningshändelser när du interagerar med en Git-mapp. En granskningshändelse loggas till exempel när du skapar, uppdaterar eller tar bort en Git-mapp, när du listar alla Git-mappar som är associerade med en arbetsyta och när du synkroniserar ändringar mellan din Git-mapp och git-fjärrdatabasen.

Identifiering av hemligheter

Git-mappar söker igenom kod för åtkomstnyckel-ID:t som börjar med prefixet AKIA och varnar användaren innan de checkar in.

Använda en konfigurationsfil för lagringsplats

Du kan lägga till inställningar för varje notebook-fil på lagringsplatsen i en .databricks/commit_outputs fil som du skapar manuellt.

Ange den notebook-fil som du vill inkludera utdata med mönster som liknar gitignore-mönster.

Mönster för en lagringsplatskonfigurationsfil

Filen innehåller mönster för positiv och negativ filsökväg. Filsökvägsmönster omfattar filnamnstillägg för notebook-filer som .ipynb.

  • Positiva mönster möjliggör inkludering av utdata för matchande notebook-filer.
  • Negativa mönster inaktiverar inkludering av utdata för matchande notebook-filer.

Mönster utvärderas i ordning för alla notebook-filer. Ogiltiga sökvägar eller sökvägar som .ipynb inte matchar notebook-filer ignoreras.

Om du vill inkludera utdata från en notebook-sökvägfolder/innerfolder/notebook.ipynb använder du följande mönster:

**/*
folder/**
folder/innerfolder/note*

Om du vill exkludera utdata för en notebook-fil kontrollerar du att inget av de positiva mönstren matchar eller lägger till ett negativt mönster på rätt plats i konfigurationsfilen. Negativa (exkludera) mönster börjar med !:

!folder/innerfolder/*.ipynb
!folder/**/*.ipynb
!**/notebook.ipynb

Flytta Git-mappen till papperskorgen (ta bort)

Så här tar du bort en Git-mapp från din arbetsyta:

  1. Högerklicka på Git-mappen och välj sedan Flytta till papperskorgen.

  2. I dialogrutan skriver du namnet på den Git-mapp som du vill ta bort. Klicka sedan på Bekräfta och flytta till papperskorgen.

    Bekräfta dialogrutan Flytta till papperskorgen.

Nästa steg