Verwalten von Dateiressourcen in Databricks-Git-Ordnern

Artikel
05/21/2024

Databricks-Git-Ordner dienen als Git-Clients für von Databricks verwaltete Klone von Git-basierten Quellrepositorys, sodass Sie eine Teilmenge von Git-Vorgängen für deren Inhalte in Ihrem Arbeitsbereich ausführen können. Im Rahmen dieser Git-Integration werden Dateien, die im Remoterepository gespeichert sind, basierend auf ihrem Typ als „Ressourcen“ angezeigt, wobei einige Einschränkungen für ihren Typ gelten. Notebook-Dateien verfügen insbesondere über unterschiedliche Eigenschaften basierend auf ihrem Typ. Lesen Sie diesen Artikel, um zu verstehen, wie Sie mit Ressourcen, insbesondere IPYNB-Notebooks, in Git-Ordnern arbeiten.

Unterstützte Objekttypen

Nur bestimmte Azure Databricks-Ressourcentypen werden von Git-Ordnern unterstützt. In diesem Fall bedeutet „unterstützt“ „kann serialisiert, versionsgesteuert und an das sicherungsbasierte Git-Repository übertragen werden“.

Derzeit werden die folgenden Objekttypen unterstützt:

Ressourcentyp	Details
Datei	Dateien sind serialisierte Daten und können alles von Bibliotheken bis zu Binärdateien bis hin zu Code und Bildern enthalten. Weitere Informationen finden Sie unter Was sind Arbeitsbereichsdateien?
Notebook	Notebooks sind insbesondere die Notebookdateiformate, die von Databricks unterstützt werden. Notebooks werden als separater Azure Databricks-Objekttyp von Dateien betrachtet, da sie nicht serialisiert werden. Git-Ordner bestimmen ein Notebook anhand der Dateierweiterung (z. B. `.ipynb`) oder durch Dateierweiterungen in Kombination mit einer speziellen Markierung in Dateiinhalten (z. B. einen `# Databricks notebook source`-Kommentar am Anfang der `.py`-Quelldateien).
Ordner	Ein Ordner ist eine Azure Databricks-spezifische Struktur, die serialisierte Informationen zu einer logischen Gruppierung von Dateien in Git darstellt. Wie erwartet, erlebt der Benutzer ihn als „Ordner“ beim Anzeigen eines Azure Databricks-Git-Ordners oder beim Zugriff darauf mit der Azure Databricks CLI.

Derzeit werden u. a. die folgenden Azure Databricks-Ressourcentypen in Git-Ordnern nicht unterstützt:

DBSQL-Abfragen
Alerts
Dashboards (einschließlich Legacydashboards)

Beachten Sie beim Arbeiten mit Ihren Ressourcen in Git die folgenden Einschränkungen bei der Dateinamenbenennung:

Ein Ordner kann kein Notebook mit demselben Namen wie ein anderes Notebook, eine Datei oder einen Ordner im selben Git-Repository enthalten, auch wenn sich die Dateierweiterung unterscheidet. (Bei Notebooks im Quellformat ist die Erweiterung für Python .py, .scala für Scala, .sql für SQL und .r für R. Für IPYNB-Format-Notebooks ist die Erweiterung .ipynb.) Sie können beispielsweise kein Quellformat-Notebook mit dem Namen test1.py und ein IPYNB-Notebook namens test1 im selben Git-Ordner verwenden, da die Python-Notebookdatei im Quellformat (test1.py) als test1 serialisiert wird und ein Konflikt auftritt.
Das Zeichen / wird in Dateinamen nicht unterstützt. Sie können z. B. keine Datei mit dem Namen i/o.py in Ihrem Git-Ordner haben.

Wenn Sie versuchen, Git-Operationen für Dateien durchzuführen, deren Namen diese Muster aufweisen, erhalten Sie die Meldung „Fehler beim Abrufen des Git-Status“. Wenn dieser Fehler unerwartet angezeigt wird, überprüfen Sie die Dateinamen der Objekte in Ihrem Git-Repository. Wenn Sie Dateien mit Namen mit diesen widersprüchlichen Mustern finden, benennen Sie sie um, und versuchen Sie es erneut.

Hinweis

Sie können vorhandene nicht unterstützte Ressourcen in einen Git-Ordner verschieben, aber keine Änderungen an diesen Ressourcen wieder ins Repository committen. Sie können keine neuen nicht unterstützten Ressourcen in einem Git-Ordner erstellen.

Notebook-Formate

Databricks betrachtet zwei Arten von High-Level-, Databricks-spezifischen Notebook-Formaten: „Source“ und „ipynb“. Wenn ein Benutzer ein Notebook im Quellformat committed, wird von der Databricks-Plattform ein Flatfile mit einem Sprachsuffix wie .py, .sql, .scala oder .r commited. Ein „Source“-Format-Notebook enthält nur Quellcode und enthält keine Ausgaben wie Tabellenanzeigen und Visualisierungen, welche die Ergebnisse der Ausführung des Notebooks darstellen.

Das Format „ipynb“ hat jedoch Ausgaben zugeordnet, und diese Artefakte werden automatisch an das Git-Repository übertragen, wenn sie das .ipynb-Notebook übertragen, das sie generiert hat. Wenn Sie Ausgaben zusammen mit dem Code commiten möchten, verwenden Sie das Notebookformat „ipynb“ und die Setupkonfiguration, damit ein Benutzer alle generierten Ausgaben übernehmen kann. Daher unterstützt „ipynb“ auch eine bessere Anzeigeerfahrung in Databricks für Notebooks, die über Git-Remoterepositorys an Git-Ordner übertragen werden.

Notebookquellformat	Details
Quelle	Dies kann eine beliebige Codedatei mit einem Standarddateisuffix sein, welche die Codesprache signalisiert, z. B. `.py`, `.scala`, `.r` und `.sql`. „Quell“-Notebooks werden als Textdateien behandelt und enthalten keine zugehörigen Ausgaben, wenn ein Commit für ein Git-Repository erfolgt.
ipynb	„ipynb“-Dateien enden mit `.ipynb` und können, falls konfiguriert, Pushausgaben (z. B. Visualisierungen) aus dem Git-Ordner „Databricks“ an das zugrunde liegende Git-Repository übertragen. Ein `.ipnynb`-Notebook kann Code in jeder Sprache enthalten, die von Databricks-Notebooks unterstützt wird (trotz des `py`-Teils von `.ipynb`).

Wenn Ausgaben nach dem Ausführen eines Notebooks zurück in Ihr Repository verschoben werden sollen, verwenden Sie ein .ipynb-(Jupyter)-Notebook. Wenn Sie nur das Notebook ausführen und es in Git verwalten möchten, verwenden Sie ein „Quell“-Format, z. B. .py.

Weitere Informationen zu unterstützten Notebookformaten finden Sie unter Exportieren und Importieren von Databricks-Notebooks.

Hinweis

Was sind „Ausgaben“?

Ausgaben sind die Ergebnisse der Ausführung eines Notebooks auf der Databricks-Plattform, einschließlich Tabellenanzeigen und Visualisierungen.

Wie kann ich feststellen, welches Format ein Notebook verwendet, außer der Dateierweiterung?

Oben in einem Notebook, das von Databricks verwaltet wird, gibt es in der Regel einen einzeiligen Kommentar, der das Format angibt. Zum Beispiel wird bei einem .py-„Quell“-Notebook eine Zeile wie folgende angezeigt:

# Databricks notebook source

Bei .ipynb-Dateien wird das Dateisuffix verwendet, um anzugeben, dass es sich um das Notebook-Format IPYNB handelt.

IPYNB-Notebooks in Databricks-Git-Ordnern

Unterstützung für Jupyter-Notebooks (.ipynb-Dateien) ist in Git-Ordnern verfügbar. Sie können Repositorys mit .ipynb-Notizbüchern klonen, mit ihnen im Databricks-Produkt arbeiten und diese dann als .ipynb-Notebooks übernehmen und übertragen. Metadaten wie das Notebook-Dashboard werden beibehalten. Administratoren können steuern, ob Ausgaben committet werden können.

Zulassen von Commits für die Ausgabe von `.ipynb`-Notebooks

Standardmäßig lässt die Administratoreinstellung für Git-Ordner nicht zu, dass die Ausgabe von .ipynb-Notebooks committet wird. Arbeitsbereichsadministratoren können diese Einstellung ändern:

Gehen Sie zu Administratoreinstellungen > Arbeitsbereichseinstellungen.
Wählen Sie unter Git-Ordner > Zulassen, dass Git-Ordner IPYNB-Ausgaben exportieren die Option Zulassen: IPYNB-Ausgaben können aktiviert werden aus.

Wichtig

Wenn Ausgaben enthalten sind, werden die Visualisierungs- und Dashboardkonfigurationen im IPYNB-Dateiformat beibehalten.

Steuern von IPYNB-Notebook-Ausgabeartefakten

Wenn Sie einen Commit für eine .ipynb-Datei ausführen, erstellt Databricks eine Konfigurationsdatei, mit der Sie steuern können, wie Sie Ausgaben übernehmen: .databricks/commit_outputs.

Wenn Sie eine .ipynb-Notebookdatei, aber keine Konfigurationsdatei in Ihrem Repository haben, öffnen Sie das Modal Git-Status.
Klicken Sie im Benachrichtigungsdialog auf commit_outputs-Datei erstellen.

Sie können auch Konfigurationsdateien aus dem Datei-Menü generieren. Das Datei-Menü verfügt über ein Steuerelement, mit dem Sie die Konfigurationsdatei automatisch aktualisieren können, um die Aufnahme oder den Ausschluss von Ausgaben für ein bestimmtes Notebook anzugeben.

Wählen Sie im Datei-Menü die Option Notebookausgaben committen aus.
Bestätigen Sie im Dialogfeld, dass Sie Notebookausgaben commiten möchten.

Konvertieren eines Quell-Notebooks in IPYNB

Sie können ein vorhandenes Quell-Notebook in einem Git-Ordner über die Azure Databricks-Benutzeroberfläche in ein IPYNB-Notebook konvertieren.

Öffnen Sie ein Quellnotizbuch in Ihrem Arbeitsbereich.
Wählen Sie Datei aus dem Arbeitsbereichsmenü aus und wählen Sie dann Notebook-Format ändern [Quelle] aus. Wenn sich das Notebook bereits im IPYNB-Format befindet, wird [source] im Menüelement [ipynb] sein.
Wählen Sie im modalen Dialogfeld „Jupyter-Notebook-Format (IPYNB)“ aus, und klicken Sie auf Ändern.

Weitere Funktionen:

Erstellen von .ipynb-Notebooks
Anzeigen von Diffs als Code diff (Codeänderungen in Zellen) oder Raw diff (Codeänderungen werden als JSON-Syntax dargestellt, die Notebookausgabe als Metadaten enthält).

Weitere Informationen zu den in Azure Databricks unterstützten Notebooks finden Sie unter Exportieren und Importieren von Databricks-Notebooks.

Freigeben über

Verwalten von Dateiressourcen in Databricks-Git-Ordnern

Unterstützte Objekttypen

Notebook-Formate

IPYNB-Notebooks in Databricks-Git-Ordnern

Zulassen von Commits für die Ausgabe von `.ipynb`-Notebooks

Steuern von IPYNB-Notebook-Ausgabeartefakten

Konvertieren eines Quell-Notebooks in IPYNB

Feedback

Feedback

Zusätzliche Ressourcen

Freigeben über

Verwalten von Dateiressourcen in Databricks-Git-Ordnern

Unterstützte Objekttypen

Notebook-Formate

IPYNB-Notebooks in Databricks-Git-Ordnern

Zulassen von Commits für die Ausgabe von .ipynb-Notebooks

Steuern von IPYNB-Notebook-Ausgabeartefakten

Konvertieren eines Quell-Notebooks in IPYNB

Feedback

Feedback

Zusätzliche Ressourcen

Zulassen von Commits für die Ausgabe von `.ipynb`-Notebooks