Teilen über


Was sind Arbeitsbereichsdateien?

Arbeitsbereichsdateien sind die Dateien, die im Databricks-Arbeitsbereich-Dateisystem gespeichert und verwaltet werden. Arbeitsbereichsdateien können fast jede Art von Datei sein. Zu den gängigen Beispielen gehören:

  • Notizbücher (.ipynb)
  • Quellnotizbücher (.py, .sql, .rund .scala)
  • SQL-Abfragen (.dbquery.ipynb)
  • Dashboards (.lvdash.json)
  • Warnungen (.dbalert.json)
  • Python-Dateien (.py), die in benutzerdefinierten Modulen verwendet werden
  • YAML-Konfiguration (.yaml oder .yml)
  • Markdown(.md)-Dateien, z. B. README.md
  • Textdateien (.txt) oder andere kleine Datendateien (.csv)
  • Bibliotheken (.whl, .jar)
  • Protokolldateien (.log)

Hinweis

Genie-Räume und Experimente können keine Arbeitsbereichsdateien sein.

Empfehlungen zum Arbeiten mit Dateien finden Sie unter Empfehlungen für Dateien in Volumes und Arbeitsbereichsdateien.

Ihre Azure Databricks-Arbeitsbereich-Dateistruktur kann Ordner enthalten, die an ein Git-Repository mit dem Namen "Databricks Git-Ordner" angefügt sind. Git-Ordner haben einige zusätzliche Dateitypbeschränkungen. Eine Liste der in Git-Ordnern unterstützten Dateitypen (früher "Repos") finden Sie unter Ressourcentypen, die von Git-Ordnern unterstützt werden.

Wichtig

Arbeitsbereichsdateien sind für Databricks Runtime 11.2 standardmäßig überall aktiviert. Verwenden Sie für Produktionsworkloads Databricks Runtime 11.3 LTS oder höher. Wenden Sie sich an den Arbeitsbereichsadministrator, wenn Sie nicht auf diese Funktionalität zugreifen können.

Was können Sie mit Arbeitsbereichsdateien tun?

Azure Databricks bietet Funktionen, die der lokalen Entwicklung für viele Arbeitsbereichsdateitypen ähneln, einschließlich eines integrierten Datei-Editors. Nicht alle Anwendungsfälle für alle Dateitypen werden unterstützt.

Sie können den Zugriff auf Arbeitsbereichsdateien mithilfe vertrauter Muster aus Notebookinteraktionen erstellen, bearbeiten und verwalten. Sie können relative Pfade für Bibliotheksimporte aus Arbeitsbereichsdateien verwenden, ähnlich wie bei der lokalen Entwicklung. Weitere Informationen finden Sie unter:

In Arbeitsbereichsdateien gespeicherte Initskripts weisen ein besonderes Verhalten auf. Mithilfe von Arbeitsbereichsdateien können Sie Initskripts in jeder Databricks Runtime-Version speichern und darauf verweisen. Weitere Informationen finden Sie unter Speichern von Initialisierungsskripts in Arbeitsbereichsdateien.

Hinweis

In Databricks Runtime 14.0 und höher ist das aktuelle Standardarbeitsverzeichnis (CWD) für lokal ausgeführten Code das Verzeichnis, das das ausgeführte Notebook oder Skript enthält. Dies ist eine Verhaltensänderung von Databricks Runtime 13.3 LTS und niedriger. Weitere Informationen finden Sie unter Was ist das aktuelle Standardarbeitsverzeichnis?.

Einschränkungen

  • Wenn Ihr Workflow Quellcode verwendet, der sich in einem Remote-Git-Repository befindet, können Sie nicht in das aktuelle Verzeichnis schreiben oder mithilfe eines relativen Pfads schreiben. Schreiben Sie Daten in andere Speicherortoptionen.
  • Sie können beim Speichern von Arbeitsbereichsdateien keine git Befehle verwenden. Das Erstellen von .git-Verzeichnissen ist in Arbeitsbereichsdateien nicht zulässig.
  • Das Auslesen von Dateien im Arbeitsbereich mit Spark-Executoren (z. B. spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")) wird auf serverlosen Rechenressourcen nicht unterstützt.
  • Executoren dürfen nicht auf die Dateien im Arbeitsbereich zugreifen.
  • Symlinks werden nur für Zielverzeichnisse unter dem /Workspace Stammordner unterstützt, z. B. os.symlink("/Workspace/Users/someone@example.com/Testing", "Testing").
  • Auf Arbeitsbereichsdateien kann nicht über benutzerdefinierte Funktionen (UDFs) auf Clustern mit Standardzugriffsmodus auf Databricks Runtime 14.2 und darunter zugegriffen werden.
  • Notebooks werden in Databricks Runtime 16.2 und höher und in der serverlosen Umgebung 2 und höher ausschließlich als Arbeitsbereichsdateien unterstützt.
  • Ein Notizbuch kann nicht als Python-Modul auf Databricks Runtime 16.0 und höher importiert werden. Ändern Sie stattdessen das Notizbuchformat, oder wenn der Code importiert werden soll, umgestalten Sie das Notizbuch in eine Python-Datei.
  • Abfragen, Warnungen und Dashboards werden nur als Arbeitsbereichsdateien in Databricks Runtime 16.4 und höher und in serverloser Umgebung 2 und höher unterstützt. Darüber hinaus können diese Arbeitsbereichsdateien nicht umbenannt werden.
  • Nur Notizbücher und Dateien unterstützen das Anzeigen und Bearbeiten mithilfe von Dateisystembefehlen wie z. B. %sh ls.
  • Die Verwendung von dbutils.fs Befehlen für den Zugriff auf Arbeitsbereichsdateien wird auf serverloser Berechnung nicht unterstützt. Verwenden Sie eine %sh Zelle in Notizbüchern oder sprachspezifische Befehle wie shutil in Python, wenn Notizbücher auf serverlosem Compute ausgeführt werden.

Dateigrößenbeschränkung

  • Die Größe der Arbeitsbereichdatei ist auf 500 MB beschränkt. Vorgänge, die versuchen, Dateien herunterzuladen oder zu erstellen, die größer als dieser Grenzwert sind, schlagen fehl.

Zugriffsberechtigungsbeschränkung für Dateizugriff

Die Berechtigung zum Zugriff auf Dateien in Ordnern unter /Workspace läuft nach 36 Stunden für interaktive Berechnungen und nach 30 Tagen für Aufträge ab. Databricks empfiehlt, lange Ausführungen als Aufträge auszuführen, wenn sie /Workspace-Dateizugriff benötigen.

Arbeitsbereichsdateien aktivieren

Um die Unterstützung für Nicht-Notebook-Dateien in Ihrem Databricks-Arbeitsbereich zu aktivieren, rufen Sie die REST-API /api/2.0/workspace-conf von einem Notebook oder einer anderen Umgebung mit Zugriff auf Ihren Databricks-Arbeitsbereich auf. Arbeitsbereichsdateien sind standardmäßig aktiviert.

Um die Unterstützung für Nicht-Notebook-Dateien in Ihrem Databricks-Arbeitsbereich zu aktivieren oder wieder zu aktivieren, rufen Sie /api/2.0/workspace-conf auf und erhalten den Wert des Schlüssels enableWorkspaceFileSystem. Wenn diese Option auf true festgelegt ist, sind Nicht-Notebook-Dateien bereits für Ihren Arbeitsbereich aktiviert.

Im folgenden Beispiel wird gezeigt, wie Sie diese API von einem Notebook aus aufrufen können, um zu prüfen, ob Arbeitsbereichsdateien deaktiviert sind und sie gegebenenfalls wieder zu aktivieren.

Beispiel: Notebook für die erneute Aktivierung der Unterstützung für Databricks-Arbeitsbereichsdateien

Notebook abrufen