Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Git-Ordner von Databricks können in Ihren CI/CD-Flüssen verwendet werden. Durch die Konfiguration von Git-Ordnern von Databricks im Arbeitsbereich können Sie die Quellcodeverwaltung für die Arbeit in Git-Repositorys verwenden und in Ihre Datentechnikworkflows integrieren. Eine umfassendere Übersicht über CI/CD mit Azure Databricks finden Sie unter CI/CD auf Azure Databricks.
Verwendungsflüsse
Die meisten Arbeiten bei der Entwicklung von Automatisierung für Git-Ordner befinden sich in der Erstkonfiguration für Ihre Ordner und im Verständnis der Azure Databricks Repos REST-API , die Sie zum Automatisieren von Git-Vorgängen aus Azure Databricks-Aufträgen verwenden. Bevor Sie mit dem Erstellen Ihrer Automatisierung und dem Einrichten von Ordnern beginnen, überprüfen Sie die Remote-Git-Repositorys, die Sie in Ihre Automatisierungsflüsse integrieren und die richtigen für die verschiedenen Phasen Ihrer Automatisierung auswählen, einschließlich Entwicklung, Integration, Staging und Produktion.
- Administratorablauf: Für Produktionsabläufe richtet ein Azure Databricks-Arbeitsbereichsadministrator Ordner auf oberster Ebene in Ihrem Arbeitsbereich ein, um die Produktions-Git-Ordner zu hosten. Der Administrator klont bei der Erstellung ein Git-Repository und einen Branch und kann diesen Ordnern aussagekräftige Namen wie z. B. „Production“, ‚Test‘ oder „Staging“ geben, die dem Zweck der Remote-Git Repositories in Ihren Flows entsprechen. Weitere Details finden Sie im Ordner "Production Git".
- Benutzer-Flow: Ein Benutzer kann einen Git-Ordner unter
/Workspace/Users/<email>/
erstellen, der auf einem entfernten Git-Repository basiert. Ein Benutzer erstellt einen lokalen, benutzerspezifischen Branch für die Arbeit, die er in diesen Branch committet und an das entfernte Repository pushen wird. Informationen zur Zusammenarbeit in benutzerspezifischen Git-Ordnern finden Sie unter "Zusammenarbeit mithilfe von Git-Ordnern". - Merge-Flow: Benutzer können Pull-Requests (PRs) nach dem Pushen aus einem Git-Ordner erstellen. Wenn der PR zusammengeführt wird, kann die Automatisierung die Änderungen mithilfe der Azure Databricks Repos API in die Git-Ordner der Produktion ziehen.
Zusammenarbeiten mithilfe von Git-Ordnern
Sie können ganz einfach mit anderen personen zusammenarbeiten, indem Sie Git-Ordner verwenden, Updates abrufen und Änderungen direkt über die Azure Databricks-Benutzeroberfläche übertragen. Verwenden Sie z. B. einen Feature- oder Entwicklungszweig, um Änderungen zusammenzuführen, die in mehreren Zweigen vorgenommen wurden.
Der folgende Flow beschreibt, wie Sie mit einer Feature-Branch zusammenarbeiten können:
- Klonen Sie Ihr vorhandenes Git-Repository in Ihren Databricks-Arbeitsbereich.
- Verwenden Sie die Benutzeroberfläche der Git-Ordner, um einen Featurezweig aus der Hauptzweigung zu erstellen . Sie können mehrere Featurebranches erstellen und verwenden, um Ihre Arbeit zu erledigen.
- Nehmen Sie Ihre Änderungen an Azure Databricks-Notizbüchern und anderen Dateien im Repository vor.
- Committen Sie und pushen Sie Ihre Änderungen in das remote Git-Repository.
- Mitwirkende können nun das Git-Repository in ihren eigenen Benutzerordner klonen.
- Bei der Arbeit an einem neuen Branch nimmt eine Person aus der Kollegschaft Änderungen an den Notebooks und anderen Dateien im Git-Ordner vor.
- Der Mitwirkende verpflichtet sich und verschiebt seine Änderungen an das Remote-Git-Repository.
- Wenn Sie oder andere Mitwirkende bereit sind, Ihren Code zusammenzuführen, erstellen Sie eine PR auf der Git-Anbieterwebsite. Überprüfen Sie mit Ihrem Team Ihren Code, bevor Sie die Änderungen in den Bereitstellungszweig zusammenführen.
Hinweis
Databricks empfiehlt, dass jeder Entwickler an einem eigenen Zweig arbeitet. Informationen zum Beheben von Zusammenführungskonflikten finden Sie unter "Auflösen von Zusammenführungskonflikten".
Auswählen eines CI/CD-Ansatzes
Databricks empfiehlt die Verwendung von Databricks Asset Bundles zum Packen und Bereitstellen Ihrer CI/CD-Workflows. Wenn Sie nur quellcodegesteuerten Code im Arbeitsbereich bereitstellen möchten, können Sie einen Git-Produktionsordner einrichten. Eine umfassendere Übersicht über CI/CD mit Azure Databricks finden Sie unter CI/CD auf Azure Databricks.
Tipp
Definieren Sie Ressourcen wie Aufträge und Pipelines in Quelldateien mithilfe von Bündeln, erstellen, bereitstellen und verwalten Sie Bündel in Arbeitsbereich-Git-Ordnern. Siehe Zusammenarbeiten an Bundles im Arbeitsbereich.
Produktions-Git-Ordner
Git-Produktionsordner dienen einem anderen Zweck als Git-Ordner auf Benutzerebene, die sich in Ihrem Benutzerordner /Workspace/Users/
befinden. Git-Ordner auf Benutzerebene dienen als lokale Checkouts, in denen Benutzer Codeänderungen entwickeln und pushen. Im Gegensatz dazu werden Git-Produktionsordner von Databricks-Administratoren außerhalb von Benutzerordnern erstellt und enthalten Produktionsbereitstellungszweige. Die Git-Ordner "Production" enthalten die Quelle für automatisierte Workflows und sollten nur programmgesteuert aktualisiert werden, wenn Pullanforderungen (PRs) in die Bereitstellungszweige zusammengeführt werden. Beschränken Sie für Git-Ordner für die Produktion den Benutzerzugriff auf die Ausführung, und lassen Sie nur Administratoren und Azure Databricks-Dienstprinzipale die Bearbeitung zu.
So erstellen Sie einen Git-Produktionsordner:
Wählen Sie ein Git-Repository und einen Branch für die Bereitstellung aus.
Holen Sie sich ein Dienstprinzipal und konfigurieren Sie eine Git-Anmeldeinformation für das Dienstprinzipal, um auf dieses Git-Repository zuzugreifen.
Erstellen Sie einen Azure Databricks Git-Ordner für das Git-Repository und den Branch in einem Unterordner unter
Workspace
, der für ein Projekt, ein Team und eine Entwicklungsstufe bestimmt ist.Wählen Sie "Freigeben" aus, nachdem Sie den Ordner oder " Freigeben" (Berechtigungen) ausgewählt haben, indem Sie mit der rechten Maustaste auf den Ordner unter der Arbeitsbereichsstruktur klicken. Konfigurieren Sie den Git-Ordner mit den folgenden Berechtigungen:
- Festlegen von Kann ausführen für alle Projektbenutzer
- Legen Sie "Can Run " für alle Azure Databricks-Dienstprinzipalkonten fest, die die Automatisierung dafür ausführen.
- Wenn es für Ihr Projekt angemessen ist, legen Sie "Kann ansehen" für alle Benutzer im Arbeitsbereich fest, um die Entdeckung und das Teilen zu fördern.
Wählen Sie Hinzufügen aus.
Richten Sie automatisierte Updates für Git-Ordner von Databricks ein. Sie können die Automatisierung verwenden, um einen Git-Produktionsordner mit der Remote-Verzweigung synchron zu halten, indem Sie eine der folgenden Aktionen ausführen:
- Verwenden Sie externe CI/CD-Tools wie z. B. GitHub Actions, um die neuesten Commits in einen Git-Ordner der Produktion zu ziehen, wenn eine Pull-Request-Anfrage in den Branch der Bereitstellung zusammengeführt wird. Ein Github-Aktionsbeispiel finden Sie unter Ausführen eines CI/CD-Workflows, der einen Git-Ordner "Production" aktualisiert.
- Wenn Sie keinen Zugriff auf externe CI/CD-Tools haben, erstellen Sie einen geplanten Job, um einen Git-Ordner in Ihrem Arbeitsbereich mit dem Remote Branch zu aktualisieren. Planen Sie ein einfaches Notizbuch mit dem folgenden Code, der regelmäßig ausgeführt werden soll:
from databricks.sdk import WorkspaceClient w = WorkspaceClient() w.repos.update(w.workspace.get_status(path=”<git-folder-workspace-full-path>”).object_id, branch=”<branch-name>”)
Weitere Informationen zur Automatisierung mit der Azure Databricks Repos-API finden Sie in der Databricks REST-API-Dokumentation für Repos.