Anmerkung
Der Zugriff auf diese Seite erfordert eine Genehmigung. Du kannst versuchen, dich anzumelden oder die Verzeichnisse zu wechseln.
Der Zugriff auf diese Seite erfordert eine Genehmigung. Du kannst versuchen , die Verzeichnisse zu wechseln.
Arbeitsbereichsdateien sind die Dateien, die im Databricks-Arbeitsbereich-Dateisystem gespeichert und verwaltet werden. Arbeitsbereichsdateien können fast jede Art von Datei sein. Zu den gängigen Beispielen gehören:
- Notizbücher (
.ipynb) - Quellnotizbücher (
.py,.sql,.rund.scala) - SQL-Abfragen (
.dbquery.ipynb) - Dashboards (
.lvdash.json) - Warnungen (
.dbalert.json) - Python-Dateien (
.py), die in benutzerdefinierten Modulen verwendet werden - YAML-Konfiguration (
.yamloder.yml) - Markdown(
.md)-Dateien, z. B.README.md - Textdateien (
.txt) oder andere kleine Datendateien (.csv) - Bibliotheken (
.whl,.jar) - Protokolldateien (
.log)
Hinweis
Genie-Räume und Experimente können keine Arbeitsbereichsdateien sein.
Empfehlungen zum Arbeiten mit Dateien finden Sie unter Empfehlungen für Dateien in Volumes und Arbeitsbereichsdateien.
Ihre Azure Databricks-Arbeitsbereich-Dateistruktur kann Ordner enthalten, die an ein Git-Repository mit dem Namen "Databricks Git-Ordner" angefügt sind. Git-Ordner haben einige zusätzliche Dateitypbeschränkungen. Eine Liste der in Git-Ordnern unterstützten Dateitypen (früher "Repos") finden Sie unter Ressourcentypen, die von Git-Ordnern unterstützt werden.
Wichtig
Arbeitsbereichsdateien sind für Databricks Runtime 11.2 standardmäßig überall aktiviert. Verwenden Sie für Produktionsworkloads Databricks Runtime 11.3 LTS oder höher. Wenden Sie sich an den Arbeitsbereichsadministrator, wenn Sie nicht auf diese Funktionalität zugreifen können.
Was können Sie mit Arbeitsbereichsdateien tun?
Azure Databricks bietet Funktionen, die der lokalen Entwicklung für viele Arbeitsbereichsdateitypen ähneln, einschließlich eines integrierten Datei-Editors. Nicht alle Anwendungsfälle für alle Dateitypen werden unterstützt.
Sie können den Zugriff auf Arbeitsbereichsdateien mithilfe vertrauter Muster aus Notebookinteraktionen erstellen, bearbeiten und verwalten. Sie können relative Pfade für Bibliotheksimporte aus Arbeitsbereichsdateien verwenden, ähnlich wie bei der lokalen Entwicklung. Weitere Informationen finden Sie unter:
- Grundlegende Verwendung von Arbeitsbereichsdateien
- Programmgesteuertes Interagieren mit Arbeitsbereichsdateien
- Arbeiten mit Python- und R-Modulen
- Anzeigen von Bildern
- Verwalten von Notebooks
- Zugriffssteuerungslisten für Dateien
In Arbeitsbereichsdateien gespeicherte Initskripts weisen ein besonderes Verhalten auf. Mithilfe von Arbeitsbereichsdateien können Sie Initskripts in jeder Databricks Runtime-Version speichern und darauf verweisen. Weitere Informationen finden Sie unter Speichern von Initialisierungsskripts in Arbeitsbereichsdateien.
Hinweis
In Databricks Runtime 14.0 und höher ist das aktuelle Standardarbeitsverzeichnis (CWD) für lokal ausgeführten Code das Verzeichnis, das das ausgeführte Notebook oder Skript enthält. Dies ist eine Verhaltensänderung von Databricks Runtime 13.3 LTS und niedriger. Weitere Informationen finden Sie unter Was ist das aktuelle Standardarbeitsverzeichnis?.
Einschränkungen
- Wenn Ihr Workflow Quellcode verwendet, der sich in einem Remote-Git-Repository befindet, können Sie nicht in das aktuelle Verzeichnis schreiben oder mithilfe eines relativen Pfads schreiben. Schreiben Sie Daten in andere Speicherortoptionen.
- Sie können beim Speichern von Arbeitsbereichsdateien keine
gitBefehle verwenden. Das Erstellen von.git-Verzeichnissen ist in Arbeitsbereichsdateien nicht zulässig. - Das Auslesen von Dateien im Arbeitsbereich mit Spark-Executoren (z. B.
spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")) wird auf serverlosen Rechenressourcen nicht unterstützt. - Executoren dürfen nicht auf die Dateien im Arbeitsbereich zugreifen.
- Symlinks werden nur für Zielverzeichnisse unter dem
/WorkspaceStammordner unterstützt, z. B.os.symlink("/Workspace/Users/someone@example.com/Testing", "Testing"). - Auf Arbeitsbereichsdateien kann nicht über benutzerdefinierte Funktionen (UDFs) auf Clustern mit Standardzugriffsmodus auf Databricks Runtime 14.2 und darunter zugegriffen werden.
- Notebooks werden in Databricks Runtime 16.2 und höher und in der serverlosen Umgebung 2 und höher ausschließlich als Arbeitsbereichsdateien unterstützt.
- Ein Notizbuch kann nicht als Python-Modul auf Databricks Runtime 16.0 und höher importiert werden. Ändern Sie stattdessen das Notizbuchformat, oder wenn der Code importiert werden soll, umgestalten Sie das Notizbuch in eine Python-Datei.
- Abfragen, Warnungen und Dashboards werden nur als Arbeitsbereichsdateien in Databricks Runtime 16.4 und höher und in serverloser Umgebung 2 und höher unterstützt. Darüber hinaus können diese Arbeitsbereichsdateien nicht umbenannt werden.
- Nur Notizbücher und Dateien unterstützen das Anzeigen und Bearbeiten mithilfe von Dateisystembefehlen wie z. B.
%sh ls. - Die Verwendung von
dbutils.fsBefehlen für den Zugriff auf Arbeitsbereichsdateien wird auf serverloser Berechnung nicht unterstützt. Verwenden Sie eine%shZelle in Notizbüchern oder sprachspezifische Befehle wieshutilin Python, wenn Notizbücher auf serverlosem Compute ausgeführt werden.
Dateigrößenbeschränkung
- Die Größe der Arbeitsbereichdatei ist auf 500 MB beschränkt. Vorgänge, die versuchen, Dateien herunterzuladen oder zu erstellen, die größer als dieser Grenzwert sind, schlagen fehl.
Zugriffsberechtigungsbeschränkung für Dateizugriff
Die Berechtigung zum Zugriff auf Dateien in Ordnern unter /Workspace läuft nach 36 Stunden für interaktive Berechnungen und nach 30 Tagen für Aufträge ab. Databricks empfiehlt, lange Ausführungen als Aufträge auszuführen, wenn sie /Workspace-Dateizugriff benötigen.
Arbeitsbereichsdateien aktivieren
Um die Unterstützung für Nicht-Notebook-Dateien in Ihrem Databricks-Arbeitsbereich zu aktivieren, rufen Sie die REST-API /api/2.0/workspace-conf von einem Notebook oder einer anderen Umgebung mit Zugriff auf Ihren Databricks-Arbeitsbereich auf. Arbeitsbereichsdateien sind standardmäßig aktiviert.
Um die Unterstützung für Nicht-Notebook-Dateien in Ihrem Databricks-Arbeitsbereich zu aktivieren oder wieder zu aktivieren, rufen Sie /api/2.0/workspace-conf auf und erhalten den Wert des Schlüssels enableWorkspaceFileSystem. Wenn diese Option auf true festgelegt ist, sind Nicht-Notebook-Dateien bereits für Ihren Arbeitsbereich aktiviert.
Im folgenden Beispiel wird gezeigt, wie Sie diese API von einem Notebook aus aufrufen können, um zu prüfen, ob Arbeitsbereichsdateien deaktiviert sind und sie gegebenenfalls wieder zu aktivieren.