Teilen über


Empfehlungen für Dateien in Volumes und Arbeitsbereichsdateien

Wenn Sie Daten oder Dateien in Azure Databricks hochladen oder speichern, können Sie diese Dateien mit Unity Catalog-Volumes oder -Arbeitsbereichsdateien speichern. Dieser Artikel enthält Empfehlungen und Anforderungen für die Verwendung dieser Speicherorte. Weitere Informationen zu Volumes und Arbeitsbereich-Dateien finden Sie unter Was sind Unity Catalog Volumes? und Was sind Arbeitsbereich-Dateien?.

Databricks empfiehlt die Verwendung von Unity Catalog-Volumes zum Speichern von Daten, Bibliotheken und Buildartefakten. Speichern Sie Notebooks, SQL-Abfragen und Codedateien als Arbeitsbereichsdateien. Sie können Arbeitsbereichsdateiverzeichnisse als Git-Ordner für die Synchronisierung mit Remote-Git-Repositorys konfigurieren. Siehe Azure Databricks Git-Ordner. Kleine Datendateien, die für Testszenarien verwendet werden, können auch als Arbeitsbereichsdateien gespeichert werden.

Die folgenden Tabellen enthalten spezifische Empfehlungen für Dateien, je nach Dateityp oder erforderlichen Funktionen.

Dateitypen

In der folgenden Tabelle finden Sie Speicherempfehlungen für Dateitypen. Außer den Beispielen in dieser Tabelle unterstützt Databricks viele weitere Dateiformate.

Dateityp Recommendation
Databricks-Objekte wie Notebooks und Abfragen Als Arbeitsbereichsdateien speichern
Strukturierte Datendateien wie Parquet-Dateien und ORC-Dateien In Unity Catalog-Volumes speichern
Halbstrukturierte Datendateien wie Textdateien (.csv, .txt) und JSON-Dateien (.json) In Unity Catalog-Volumes speichern
Unstrukturierte Datendateien wie Bilddateien (.png, .svg), Audiodateien (.mp3) und Dokumentdateien (.pdf, .docx) In Unity Catalog-Volumes speichern
Rohdatendateien, die für die Ad-hoc- oder frühzeitige Untersuchung von Daten verwendet werden In Unity Catalog-Volumes speichern
Operative Daten wie Protokolldateien In Unity Catalog-Volumes speichern
Große Archivdateien wie ZIP-Dateien (.zip) In Unity Catalog-Volumes speichern
Quellcodedateien wie Python-Dateien (.py), Java-Dateien (.java) und Scala-Dateien (.scala) Ggf. als Arbeitsbereichsdateien mit anderen verwandten Objekten speichern, z. B. Notebooks und Abfragen.
Databricks empfiehlt, diese Dateien in einem Git-Ordner für die Versionssteuerung und Änderungsnachverfolgung dieser Dateien zu verwalten.
Buildartefakte und Bibliotheken wie Python-Wheels (.whl) und JAR-Dateien (.jar) In Unity Catalog-Volumes speichern
Konfigurationsdateien Speichern Sie Konfigurationsdateien, die für arbeitsbereichsübergreifende Arbeitsbereiche in Unity-Katalogvolumes erforderlich sind, speichern Sie sie jedoch als Arbeitsbereichsdateien, wenn sie Projektdateien in einem Git-Ordner sind.

Feature-Vergleich

In der folgenden Tabelle werden die Featureangebote von Arbeitsbereichsdateien und Unity-Katalogvolumes verglichen.

Feature Arbeitsbereichsdateien Unity Catalog-Volumes
Dateizugriff Der gegenseitige Zugriff auf Arbeitsbereichsdateien ist nur innerhalb desselben Arbeitsbereichs möglich. Der Zugriff auf Dateien ist global über Arbeitsbereiche möglich.
Programmgesteuerter Zugriff Der Zugriff auf Dateien ist folgendermaßen möglich:
Der Zugriff auf Dateien ist folgendermaßen möglich:
Databricks-Ressourcenbündel Standardmäßig werden alle Dateien in einem Bundle, die Bibliotheken und Databricks-Objekte wie Notebooks und Abfragen umfassen, sicher als Arbeitsbereichsdateien bereitgestellt. Die Berechtigungen werden in der Bundlekonfiguration definiert. Bundles können so angepasst werden, dass Bibliotheken bereits in Volumes eingeschlossen werden, wenn die Bibliotheken den Grenzwert für die Größe von Arbeitsbereichsdateien überschreiten. Weitere Informationen finden Sie unter Bibliotheksabhängigkeiten für Databricks-Ressourcenbundles.
Dateiberechtigungsebene Berechtigungen befinden sich auf Git-Ordnerebene, wenn sich die Datei in einem Git-Ordner befindet, andernfalls werden Berechtigungen auf Dateiebene festgelegt. Berechtigungen gelten auf Volumeebene.
Berechtigungsverwaltung Berechtigungen werden von Arbeitsbereichs-ACLs verwaltet und sind auf den enthaltenden Arbeitsbereich beschränkt. Metadaten und Berechtigungen werden von Unity Catalog verwaltet. Diese Berechtigungen gelten für alle Arbeitsbereiche, die Zugriff auf den Katalog haben.
Einbinden von externem Speicher Das Einbinden von externem Speicher wird nicht unterstützt Bietet die Möglichkeit, auf bereits vorhandene Datasets im externen Speicher zu verweisen, indem ein externes Volume erstellt wird. Siehe Was sind Unity Catalog-Volumes?.
UDF-Unterstützung Nicht unterstützt Das Schreiben von UDFs wird mithilfe von FUSE für Volumes unterstützt.
Dateigröße Kleinere Dateien mit weniger als 500 MB wie Quellcodedateien (.py, .md, .yml) neben Notebooks speichern. Sehr große Datendateien mit Grenzwerten speichern, die von Clouddienstanbietern bestimmt werden.
Upload & Download Unterstützung für Upload und Download von bis zu 10 MB. Unterstützung für Upload und Download von bis zu 5 MB.
Unterstützung für Tabellenerstellung Tabellen können nicht mit Arbeitsbereichsdateien als Speicherort erstellt werden. Tabellen können aus Dateien in einem Volume erstellt werden, indem COPY INTO, der Autoloader oder andere Optionen ausgeführt werden, die in Standardconnectors in Lakeflow Connect beschrieben sind.
Verzeichnisstruktur & Dateipfade Dateien werden in geschachtelten Verzeichnissen organisiert, die jeweils über ein eigenes Berechtigungsmodell verfügen:
  • Benutzerstammverzeichnisse, eines für jede benutzende Person und jeden Dienstprinzipal im Arbeitsbereich
  • Git-Ordner
  • Shared
Dateien werden in geschachtelten Verzeichnissen innerhalb eines Volumes organisiert
Siehe Access-Daten im Unity-Katalog.
Dateiverlauf Verwenden Sie den Git-Ordner in Arbeitsbereichen, um Dateiänderungen nachzuverfolgen. Überwachungsprotokolle sind verfügbar.