Teilen über


Einrichten von Git-Ordnern für Databricks

Auf dieser Seite erfahren Sie, wie Sie Git-Ordner für Databricks für die Versionssteuerung einrichten. Führen Sie nach Abschluss des Setups allgemeine Git-Vorgänge wie Klon, Auschecken, Commit, Push, Pull und Verzweigungsverwaltung direkt über die Databricks-Benutzeroberfläche aus. Während der Entwicklung können Sie auch Diffs für Ihre Änderungen anzeigen.

Wichtig

Verwenden Sie Git-Ordner für die interaktive Entwicklung. Verwenden Sie für CI/CD- und Produktionsbereitstellungen Databricks Asset Bundles mit versionierten Artefakten und Arbeitslast-Identitätsverbund. Siehe CI/CD mit Databricks Git-Ordnern und was sind Databricks Asset Bundles?.

Voraussetzungen

Bevor Sie beginnen, bestätigen Sie Folgendes:

  • Git-Ordner sind in Ihrem Arbeitsbereich aktiviert (standardmäßig aktiviert). Siehe Aktivieren oder Deaktivieren von Git-Ordnern für Databricks.

  • Sie verfügen über ein Git-Anbieterkonto (GitHub, GitLab, Azure DevOps, Bitbucket oder AWS CodeCommit).

  • Für private Repositorys oder Schreibvorgänge verfügen Sie über ein persönliches Zugriffstoken (PAT) oder OAuth-Anmeldeinformationen von Ihrem Git-Anbieter. Siehe Konfigurieren von Git-Anmeldedaten und Verbinden eines Remoterepositorys mit Azure Databricks.

    Hinweis

    Sie können öffentliche Remoterepositorys ohne Git-Anmeldeinformationen klonen. Um ein öffentliches Remoterepository zu ändern oder mit privaten Repositorys zu arbeiten, konfigurieren Sie Git-Anmeldeinformationen mit Schreibberechtigungen .

Hinzufügen von Git-Anmeldeinformationen

So konfigurieren Sie Git-Anmeldeinformationen in Databricks:

  1. Klicken Sie in der oberen Leiste des Azure Databricks-Arbeitsbereichs auf Ihren Benutzernamen, und wählen Sie "Einstellungen" aus.
  2. Klicken Sie auf "Verknüpfte Konten".
  3. Klicken Sie auf "Git-Anmeldeinformationen hinzufügen".
  4. Wählen Sie Ihren Git-Anbieter im Dropdownmenü aus. Einige Anbieter bieten OAuth-Kontoverknüpfung an, während andere ein persönliches Zugriffstoken (PAT) erfordern. Wenn Sie Ihr Konto mit OAuth verknüpfen, schließen Sie den Authentifizierungsvorgang ab und fahren Sie mit dem letzten Schritt fort.
  5. Geben Sie Ihre E-Mail im Feld "Git-Anbieter-E-Mail " ein.
  6. Fügen Sie Ihren PAT in das Feld "Token " ein. Anweisungen zum Erstellen eines PAT finden Sie unter Konfigurieren von Git-Anmeldeinformationen und Verbinden eines Remote-Repositorys mit Azure Databricks. Wenn in Ihrer Organisation SAML SSO in GitHub aktiviert ist, autorisieren Sie Ihr persönliches Zugriffstoken für SSO.
  7. Klicken Sie auf Speichern.

Sie können git-Anmeldeinformationen auch mithilfe der Databricks Repos-API verwalten.

Azure DevOps

Standardmäßig verwendet die Git-Integration Ihr Microsoft Entra ID-Token, wenn Sie kein Token oder App-Kennwort eingeben. Wenn Sie ein persönliches Azure DevOps-Zugriffstoken bereitstellen, verwendet git-Integration stattdessen dieses. Siehe Herstellen einer Verbindung mit einem Azure DevOps-Repository mithilfe eines Tokens.

Nachdem Sie Ihr Azure-Kennwort aktualisiert haben, authentifizieren Sie sich erneut bei Databricks. Andernfalls kann die Azure DevOps-Verbindungsüberprüfung bis zu 24 Stunden dauern.

Wenn Sie ein Repository nicht mit Azure DevOps mit der Microsoft Entra ID-Authentifizierung klonen können, lesen Sie das Problem mit einer Richtlinie für bedingten Zugriff (CAP) für Microsoft Entra ID.

Mehrere Git-Anmeldeinformationen pro Benutzer

Wichtig

Dieses Feature befindet sich in der Public Preview.

Databricks ermöglicht jedem Benutzer das Speichern mehrerer Git-Anmeldeinformationen, sodass Sie unterschiedliche Anbieter oder Konten verwenden können, ohne die Anmeldeinformationen wechseln zu müssen.

Databricks Data Intelligence Platform

Auswählen von Anmeldeinformationen für Git-Ordner

Jeder Git-Ordner kann eine bestimmte Anmeldeinformation für Git-Vorgänge verwenden. So ändern Sie die Anmeldeinformationen für einen Git-Ordner:

  1. Öffnen Sie den Git-Ordner, und wechseln Sie zur Registerkarte "Git-Einstellungen ".
  2. Wählen Sie unter Git-Anmeldeinformationen im Dropdownmenü eine Anmeldeinformationen aus.
  3. Klicken Sie auf Speichern.

Eine Anmeldeinformationen auswählen

Funktionsweise von Standardanmeldeinformationen

Jeder Git-Anbieter unterstützt eine Git-Standardanmeldeinformation pro Benutzer. Databricks verwendet diese Standardanmeldeinformationen automatisch für:

Die ersten Anmeldeinformationen, die Sie für einen Anbieter erstellen, werden automatisch zum Standard. So ändern Sie Ihre Standardanmeldeinformationen:

  1. Wechseln Sie zuverknüpften Konten für >.
  2. Klicken Sie auf das Kebab-Menüsymbol neben die Anmeldeinformationen, die Sie als Standard festlegen möchten.
  3. Wählen Sie Als Standard festlegen aus.

Einschränkungen

  • Aufträge, für die keine standardmäßigen Git-Anmeldeinformationen für einen Anbieter erforderlich sind, müssen einen Dienstprinzipal verwenden.
  • Dienstprinzipale können nur eine Git-Anmeldeinformation haben.
  • Die GitHub-App "Databricks" lässt nur eine verknüpfte Anmeldeinformation zu.
  • Jeder Benutzer kann maximal 10 Git-Anmeldeinformationen haben.

Konfigurieren der Git-Commit-Identität

Ihre Git-Commit-Identität bestimmt, wie Commits aus Databricks in Ihrem Git-Anbieter angezeigt werden. Wenn Sie einen Commit über Databricks Git-Ordner ausführen, muss Ihr Git-Anbieter Sie als Autor identifizieren. Konfigurieren Sie Ihre E-Mail-Adresse so, dass:

  • Commits werden in Ihrem Git-Anbieterprofil angezeigt
  • Ihr Profilbild und Ihr Name werden ordnungsgemäß angezeigt
  • Sie erhalten eine ordnungsgemäße Gutschrift für Beiträge
  • Teammitglieder können nachverfolgen, wer jede Änderung vorgenommen hat.

Funktionsweise der Commit-Identität

Wenn Sie Git-Anmeldeinformationen mit einer E-Mail-Adresse konfigurieren:

  • E-Mail: Wird zur Autor-E-Mail (GIT_AUTHOR_EMAIL und GIT_COMMITTER_EMAIL) für alle Commits
  • Benutzername: Wird zum Committer-Namen (GIT_AUTHOR_NAME und GIT_COMMITTER_NAME)

Wenn Sie keine E-Mail-Adresse angeben, verwendet Databricks Ihren Git-Benutzernamen als E-Mail. Dies kann die ordnungsgemäße Commit-Zuordnung in Ihrem Git-Anbieter verhindern.

Beispiel für commit im Git-Verlauf:

commit 480ee5b0214e4d46db2da401a83794c5f5c5d375 (HEAD -> main)
Author: GitHub-username <your.email@example.com>
Date:   Fri Sep 26 00:38:23 2025 -0700

    My commit message

Beispiel in Git-Anbieter:

Git-Commit, der die Autoridentität mit Benutzername und E-Mail anzeigt

Hinweis

Wenn Sie Git-Anmeldeinformationen erstellt haben, bevor die E-Mail-Konfiguration verfügbar war, wird Ihr E-Mail-Feld standardmäßig auf Ihren Benutzernamen festgelegt. Aktualisieren Sie sie auf Ihre tatsächliche E-Mail-Adresse, um eine ordnungsgemäße Commit-Zuordnung zu erhalten.

Verknüpfte GitHub-Anmeldeinformationen

Wenn Sie verknüpfte Git-Anmeldeinformationen über die Databricks GitHub-App verwenden, konfiguriert Databricks Automatisch Ihre E-Mail- und Git-Identität. Wenn Ihre Identität nicht ordnungsgemäß festgelegt ist, genehmigen Sie die erforderlichen Berechtigungen , oder verknüpfen Sie Ihr GitHub-Konto erneut, um entsprechende Berechtigungen zu erteilen.

Konfigurieren der Netzwerkkonnektivität

Git-Ordner erfordern netzwerkkonnektivität mit Ihrem Git-Anbieter. Die meisten Konfigurationen funktionieren über das Internet ohne zusätzliche Einrichtung. Möglicherweise benötigen Sie jedoch eine zusätzliche Konfiguration, wenn Sie folgendes haben:

  • IP-Erlaubnislisten bei Ihrem Git-Dienstanbieter
  • Selbst gehostete Git-Server (GitHub Enterprise, Bitbucket Server, GitLab Self-managed)
  • Privates Netzwerkhosting

Konfigurieren von IP-Zulassungslisten

Wenn Auf Ihren Git-Server über das Internet zugegriffen werden kann, aber eine IP-Zulassungsliste verwendet wird, z. B. GitHub-Zulassungslisten:

  1. Finden Sie Ihre IP-Adresse zur Netzwerkadressenübersetzung (NAT) für die Databricks-Systemsteuerung in Ihrer Region unter Azure Databricks-Regionen.
  2. Fügen Sie diese IP-Adresse zur IP-Zulassungsliste Ihres Git-Servers hinzu.

Konfigurieren privater Git-Server

Wenn Sie einen privaten Git-Server hosten, lesen Sie "Einrichten der privaten Git-Konnektivität für Git-Ordner für Azure Databricks" oder wenden Sie sich an Ihr Databricks-Kontoteam, um Anweisungen zum Einrichten zu erhalten.

Sicherheitsfeatures

Zu den Git-Ordnern von Databricks gehören die folgenden Sicherheitsfeatures zum Schutz Ihres Codes und Ihrer Anmeldeinformationen:

Verschlüsseln von Git-Anmeldeinformationen

Verwenden Sie Azure Key Vault, um Git persönliche Zugriffstoken und andere Git-Anmeldeinformationen mit Ihren eigenen Verschlüsselungsschlüsseln (vom Kunden verwaltete Schlüssel) zu verschlüsseln.

Weitere Informationen finden Sie unter vom Kunden verwaltete Schlüssel für die Verschlüsselung.

Git-URL-Zulassungslisten

Arbeitsbereichsadministratoren können einschränken, auf welche Remoterepositorys Benutzer zugreifen können. Dadurch wird die Codeexfiltration verhindert und die Verwendung genehmigter Repositorys erzwungen.

Wenn Sie die Microsoft Entra-ID-Authentifizierung mit Azure DevOps verwenden, schränkt die Standard-Zulassungsliste Git-URLs auf Folgendes ein:

  • dev.azure.com
  • visualstudio.com

Konfigurieren Sie für benutzerdefinierte CNAMEs oder Git-URL-Aliase eine benutzerdefinierte Zulassungsliste, und fügen Sie diese URLs explizit hinzu, wenn Sie mit ihnen arbeiten möchten.

Einrichten einer Git-URL-Zulassungsliste

So richten Sie eine Allowlist ein:

  1. Klicken Sie in der oberen Leiste des Azure Databricks-Arbeitsbereichs auf Ihren Benutzernamen, und wählen Sie "Einstellungen" aus.

  2. Klicken Sie auf "Entwicklung".

  3. Wählen Sie eine Berechtigungsoption für die Erlaubnisliste für Git-URL aus:

    • Deaktiviert (keine Einschränkungen): Keine Durchsetzung der Allowlist.
    • Beschränke Klonen, Commit & Push auf zulässige Git-Repositorys: Beschränkt alle Vorgänge auf URLs der Zulassungsliste.
    • Nur Commit und Push auf zulässige Git-Repositorys einschränken: Beschränkt nur Schreibvorgänge. Klonen und Abrufen bleiben ohne Einschränkungen.
  4. Klicken Sie auf das Symbol " neben der Git-URL-Zulassungsliste: Leere Liste.

  5. Geben Sie eine durch Trennzeichen getrennte Liste von URL-Präfixen ein. Stellen Sie sicher, keine URLs mit Benutzernamen oder Authentifizierungstokens einzugeben, da 1) diese global repliziert werden könnten und 2) dies Ihre Benutzer daran hindern könnte, mit Git-Ordnern zu arbeiten.

  6. Klicken Sie auf Speichern.

Beim Speichern einer neuen Liste wird die vorhandene Zulassungsliste überschrieben. Änderungen können bis zu 15 Minuten in Kraft treten.

Zugriffskontrolle

Hinweis

Nur der Premium-Plan umfasst die Zugriffssteuerung.

Steuern Sie, wer auf Git-Ordner in Ihrem Arbeitsbereich zugreifen kann, indem Sie Berechtigungen festlegen. Berechtigungen gelten für alle Inhalte in einem Git-Ordner. Weisen Sie eine der folgenden Berechtigungsstufen zu:

  • NO PERMISSIONS: Kein Zugriff auf den Git-Ordner
  • CAN READ: Nur Dateien anzeigen
  • CAN RUN: Anzeigen und Ausführen von Dateien
  • CAN EDIT: Anzeigen, Ausführen und Ändern von Dateien
  • CAN MANAGE: Vollzugriff einschließlich Freigabe und Löschen

Ausführliche Informationen zu Git-Ordnerberechtigungen finden Sie unter Git-Ordner-ACLs.

Überwachungsprotokollierung

Wenn Sie die Überwachungsprotokollierung aktivieren, protokolliert Databricks alle Git-Ordnervorgänge, einschließlich:

  • Erstellen, Aktualisieren oder Löschen von Git-Ordnern
  • Git-Verzeichnisse in einem Arbeitsbereich auflisten
  • Synchronisieren von Änderungen zwischen Git-Ordnern und Remoterepositorys

Erkennung von Geheimnissen

Git-Ordner scannen automatisch den Code auf offengelegte Anmeldeinformationen, bevor ein Commit durchgeführt wird. Sie werden gewarnt, wenn folgendes erkannt wird:

  • AWS Access Key IDs beginnend mit AKIA
  • Andere vertrauliche Zugangsdatenmuster

Nächste Schritte

Erkunden Sie nach dem Einrichten von Git-Ordnern die folgenden verwandten Themen: