Einrichten von Databricks Git-Ordnern (Repos)

Hier erfahren Sie, wie Sie Databricks-Git-Ordner (vormals Repos) für die Versionskontrolle einrichten. Nach der Einrichtung von Git-Ordnern in Databricks können Sie gängige Git-Vorgänge wie Klonen, Auschecken, Committen, Pushen und Pullen sowie Branchverwaltungsvorgänge über die Databricks-Benutzeroberfläche ausführen. Außerdem können Sie Unterschiede für Ihre Änderungen anzeigen, wenn Sie im Zuge Ihrer Entwicklungsarbeit Notebooks und Dateien in Databricks verwenden.

Konfigurieren von Benutzereinstellungen

Databricks-Git-Ordner verwenden ein persönliches Zugriffstoken (Personal Access Token, PAT) oder entsprechende Anmeldeinformationen, um sich bei Ihrem Git-Anbieter zu authentifizieren und Vorgänge wie Klonen, Pushen, Pullen usw. auszuführen. Um Git-Ordner verwenden zu können, müssen Sie Databricks zunächst Ihr Git-PAT und den Benutzernamen Ihres Git-Anbieters hinzufügen. Siehe Abrufen eines Git-Zugriffstokens und Verbinden eines Remoterepositorys mit Azure Databricks.

Sie können öffentliche Remote-Repositories ohne Git-Anmeldeinformationen (ein persönliches Zugriffstoken und einen Benutzernamen) klonen. Zum Ändern eines öffentlichen Remoterepositorys sowie zum Klonen oder Ändern eines privaten Remoterepositorys benötigen Sie einen Benutzernamen für den Git-Anbieter und ein PAT mit Schreibberechtigung (oder umfassenderen Berechtigungen) für das Remoterepository.

Git-Ordner sind standardmäßig aktiviert. Weitere Informationen zum Aktivieren oder Deaktivieren der Git-Ordnerunterstützung finden Sie unter Aktivieren oder Deaktivieren des Features für Databricks-Git-Ordner.

Hinzufügen oder Bearbeiten von Git-Anmeldeinformationen in Databricks

Wichtig

Databricks-Git-Ordner unterstützen pro Benutzer und Arbeitsbereich nur eine Git-Anmeldeinformation.

  1. Wählen Sie den Pfeil nach unten neben dem Kontonamen oben rechts auf dem Bildschirm aus, und wählen Sie dann Benutzereinstellungen aus.

  2. Wählen Sie die Registerkarte Verknüpfte Konten aus.

  3. Wenn Sie zum ersten Mal Anmeldeinformationen hinzufügen, befolgen Sie die Anweisungen auf dem Bildschirm.

    Wenn Sie zuvor Anmeldeinformationen eingegeben haben, klicken Sie auf Konfigurieren>Bearbeiten, und fahren Sie mit dem nächsten Schritt fort.

  4. Wählen Sie im Dropdownmenü Git-Anbieter den Anbieternamen aus.

  5. Geben Sie Ihren Git-Benutzernamen oder Ihre E-Mail-Adresse ein.

  6. Fügen Sie im Feld Token ein persönliches Zugriffstoken (Personal Access Token, PAT) oder andere Anmeldeinformationen von Ihrem Git-Anbieter hinzu. Ausführliche Informationen finden Sie unter Abrufen eines Git-Zugriffstokens und Verbinden eines Remoterepositorys mit Azure Databricks.

    Wichtig

    Databricks empfiehlt, ein Ablaufdatum für alle persönlichen Zugriffstoken festzulegen.

    Wenn Sie für Azure DevOps kein Token oder App-Kennwort eingeben, verwendet die Git-Integration standardmäßig Ihr Microsoft Entra ID-Token (früher Azure Active Directory). Wenn Sie ein persönliches Azure DevOps-Zugriffstoken eingeben, wird stattdessen dieses von der Git-Integration verwendet. Siehe Herstellen einer Verbindung mit einem Azure DevOps-Repository mithilfe eines Tokens.

    Hinweis

    Nachdem Sie Ihr Azure-Kennwort aktualisiert haben, authentifizieren Sie sich erneut bei Azure Databricks, wenn die neue Authentifizierung sofort funktionieren soll. Wenn Sie die Authentifizierung nicht erneut durchführen, ist die Azure DevOps-Verbindung möglicherweise bis zu 24 Stunden lang nicht validiert.

    Wenn in Ihrer Organisation SAML SSO in GitHub aktiviert ist, autorisieren Sie Ihr persönliches Zugriffstoken für SSO.

  7. Geben Sie Ihren Benutzernamen in das Feld Benutzername des Git-Anbieters ein.

  8. Klicken Sie auf Speichern.

Sie können auch die Databricks Repos-API verwenden, um ein Git-PAT-Token und einen Benutzernamen in Azure Databricks zu speichern.

Wenn Sie das Repository nicht klonen können und Azure DevOps mit Microsoft Entra ID-Authentifizierung verwenden, finden Sie weitere Informationen unter Problem mit einer Richtlinie für bedingten Zugriff (CAP) für Microsoft Entra ID (früher Azure Active Directory).

Netzwerkverbindung zwischen Databricks-Git-Ordnern und einem Git-Anbieter

Git-Ordner benötigen eine Netzwerkverbindung mit Ihrem Git-Anbieter, um zu funktionieren. Normalerweise wird diese über das Internet hergestellt und funktioniert ohne weitere Schritte. Möglicherweise haben Sie jedoch zusätzliche Einschränkungen für Ihren Git-Anbieter eingerichtet, um den Zugriff zu steuern. Es kann beispielsweise sein, dass Sie über eine Liste zugelassener IP-Adressen verfügen oder Ihren eigenen lokalen Git-Server über Dienste wie GitHub Enterprise (GHE), Bitbucket Server (BBS) oder GitLab mit Selbstverwaltung hosten. Je nach Netzwerkhosting und -konfiguration ist Ihr Git-Server möglicherweise nicht über das Internet zugänglich.

Hinweis

  • Wenn der Git-Server über das Internet erreichbar ist, aber für ihn eine Liste zugelassener IP-Adressen eingerichtet wurde (beispielsweise GitHub-Positivlisten), müssen Sie der Liste zugelassener IP-Adressen des Git-Servers NAT-IP-Adressen der Azure Databricks-Steuerungsebene hinzufügen. Eine Liste mit den NAT-IP-Adressen der Steuerungsebene nach Region finden Sie unter Azure Databricks-Regionen. Verwenden Sie die IP-Adresse für die Region, in der sich Ihr Azure Databricks-Arbeitsbereich befindet.
  • Wenn Sie privat einen Git-Server hosten, lesen Sie Einrichten der privaten Git-Konnektivität für Databricks-Git-Ordner (Repos), oder wenden Sie sich an Ihr Azure Databricks-Kontoteam, um Onboardinganweisungen für den Zugriff zu erhalten.

Sicherheitsfeatures in Git-Ordnern

Databricks-Git-Ordner verfügen über viele Sicherheitsfeatures. In den folgenden Abschnitten erfahren Sie, wie Sie sie einrichten und verwenden:

  • Verwendung verschlüsselter Git-Anmeldeinformationen
  • Positivliste
  • Zugriffssteuerung für Arbeitsbereiche
  • Überwachungsprotokollierung
  • Erkennung von Geheimnissen

Bring Your Own Key: Verschlüsseln von Git-Anmeldeinformationen

Sie können Azure Key Vault verwenden, um ein persönliches Git-Zugriffstoken (PAT) oder andere Git-Anmeldeinformationen zu verschlüsseln. Die Verwendung eines Schlüssels von einem Verschlüsselungsdienst wird als vom Kunden verwalteter Schlüssel (CMK) oder Bring Your Own Key (BYOK) bezeichnet.

Weitere Informationen finden Sie unter Vom Kunden verwaltete Schlüssel für die Verschlüsselung.

Beschränken der Verwendung auf URLs in einer Positivliste

Wenn Sie Microsoft Entra ID für die Authentifizierung bei Azure DevOps verwenden, beschränkt die standardmäßige Zulassungsliste Git-URLs auf:

  • dev.azure.com
  • visualstudio.com

Für AAD mit benutzerdefinierten CNAMES oder Git-URL-Aliasen kann Ihr Arbeitsbereichsadministrator eine benutzerdefinierte Zulassungsliste konfigurieren, wie in den folgenden Schritten beschrieben. Wenn Sie eine benutzerdefinierte Zulassungsliste verwenden, muss Ihr Arbeitsbereichsadministrator die folgenden URLs hinzufügen, wenn Sie mit ihnen arbeiten möchten: dev.azure.com und visualstudio.com.

Ein Arbeitsbereichsadministrator kann einschränken, welche Remoterepositorys von Benutzer*innen zum Klonen, Committen und Pushen verwendet werden können. Bei aktivierten Beschränkungen der Positivliste kann Code beispielsweise von Benutzern nicht in ein beliebiges Repository gepusht werden, was zur Verhinderung von Codeexfiltration beiträgt. Außerdem können Sie die Verwendung von nicht lizenziertem Code verhindern, indem Sie Klonvorgänge auf eine Liste zulässiger Repositorys beschränken.

So richten Sie eine Positivliste ein

  1. Wechseln Sie zur Seite „Administratoreinstellungen“.
  2. Klicken Sie auf die Registerkarte Workspace admin (sie ist standardmäßig geöffnet).
  3. Wählen Sie im Abschnitt Development eine Option unter Git URL allow list permission aus:
    • Deaktiviert (keine Einschränkungen): Die Positivliste wird nicht überprüft.
    • Klonen, Committen und Pushen auf zulässige Git-Repositorys beschränken: Klon-, Commit- und Pushvorgänge sind nur für Repository-URLs in der Positivliste zulässig.
    • Nur Committen und Pushen auf zulässige Git-Repositorys beschränken: Commit- und Pushvorgänge sind nur für Repository-URLs in der Positivliste zulässig. Klon- und Pullvorgänge sind nicht eingeschränkt.

Bereich „Development“ in den Administratoreinstellungen, der zum Festlegen des Git-Benutzerzugriffs verwendet wird

  1. Klicken Sie neben Git URL Allow List: Empty list auf die Schaltfläche Edit, und geben Sie eine kommagetrennte Liste mit URL-Präfixen ein.

Schaltfläche zum Bearbeiten der Positivliste unter „Development“ in den Administratoreinstellungen

  1. Klicken Sie auf Speichern.

Hinweis

  • Die von Ihnen gespeicherte Liste überschreibt den vorhandenen Satz gespeicherter URL-Präfixe.
  • Es kann bis zu 15 Minuten dauern, bis die Änderungen wirksam werden.

Zugriff auf alle Repositorys zulassen

So deaktivieren Sie eine vorhandene Positivliste und ermöglichen den Zugriff auf alle Repositorys

  1. Wechseln Sie zur Seite „Administratoreinstellungen“.
  2. Klicken Sie auf die Registerkarte Workspace admin.
  3. Wählen Sie im Abschnitt Development unter Git URL allow list permission die Option Disable (no restrictions) aus.

Steuern des Zugriffs für ein Repository in Ihrem Arbeitsbereich

Hinweis

Die Zugriffssteuerung ist nur im Premium-Plan verfügbar.

Legen Sie Berechtigungen für ein Repository fest, um den Zugriff zu steuern. Berechtigungen für ein Repository gelten für alle Inhalte in diesem Repository. Sie können fünf Berechtigungsstufen für Dateien zuweisen: KEINE BERECHTIGUNGEN, KANN LESEN, KANN AUSFÜHREN, KANN BEARBEITEN und KANN VERWALTEN.

Ausführlichere Informationen zu Berechtigungen für Git-Ordner finden Sie unter Zugriffssteuerungslisten für Git-Ordner.

(Optional) Einrichten eines Proxys für Git-Enterprise-Server

Wenn Ihr Unternehmen einen lokalen Git-Enterprise-Dienst wie GitHub Enterprise oder Azure DevOps Server verwendet, können Sie Databricks Git Server Proxy verwenden, um Ihre Databricks-Arbeitsbereiche mit den bereitgestellten Repositorys zu verbinden.

Überwachungsprotokollierung

Wenn Überwachungsprotokollierung aktiviert ist, werden bei der Interaktion mit einem Git-Ordner Überwachungsereignisse protokolliert. Beispielsweise wird ein Überwachungsereignis protokolliert, wenn Sie einen Git-Ordner erstellen, aktualisieren oder löschen, wenn Sie alle Git-Ordner auflisten, die einem Arbeitsbereich zugeordnet sind, und wenn Sie Änderungen zwischen Ihrem Git-Ordner und dem Git-Remoterepository synchronisieren.

Erkennung von Geheimnissen

Git-Ordner scannen Code auf die Zugriffsschlüssel-IDs, die mit dem Präfix AKIA beginnen, und warnen den Benutzer vor dem Committen.

Verwenden einer Repositorykonfigurationsdatei

Sie können Ihrem Repository in einer .databricks/commit_outputs-Datei, die Sie manuell erstellen, Einstellungen für jedes Notebook hinzufügen.

Geben Sie das Notebook an, das Sie in Ausgaben aufnehmen möchten, indem Sie Muster verwenden, die gitignore-Mustern ähneln.

Muster für eine Repositorykonfigurationsdatei

Die Datei enthält positive und negative Dateipfadmuster. Dateipfadmuster umfassen eine Notebookdateierweiterung wie .ipynb.

  • Positive Muster aktivieren die Aufnahme von Ausgaben für übereinstimmende Notebooks.
  • Negative Muster deaktivieren die Aufnahme von Ausgaben für übereinstimmende Notebooks.

Muster werden der Reihe nach für alle Notebooks ausgewertet. Ungültige Pfade oder Pfade, die nicht in .ipynb-Notebooks aufgelöst werden, werden ignoriert.

Um Ausgaben aus dem Notebookpfad folder/innerfolder/notebook.ipynbeinzuschließen, verwenden Sie die folgenden Muster:

**/*
folder/**
folder/innerfolder/note*

Um Ausgaben für ein Notebook auszuschließen, stellen Sie sicher, dass keines der positiven Muster übereinstimmt, oder fügen Sie an der richtigen Stelle der Konfigurationsdatei ein negatives Muster hinzu. Negative Muster (Ausschluss) beginnen mit !:

!folder/innerfolder/*.ipynb
!folder/**/*.ipynb
!**/notebook.ipynb

Verschieben des Git-Ordners in den Papierkorb (Löschen)

So löschen Sie einen Git-Ordner aus Ihrem Arbeitsbereich

  1. Klicken Sie mit der rechten Maustaste auf den Git-Ordner, und wählen Sie dann In Papierkorb verschieben aus.

  2. Geben Sie im Dialogfeld den Namen des Git-Ordners ein, den Sie löschen möchten. Klicken Sie dann auf Bestätigen und in den Papierkorb verschieben.

    Dialogfeld zum Bestätigen des Verschiebens in den Papierkorb

Nächste Schritte