Anmerkung
Der Zugriff auf diese Seite erfordert eine Genehmigung. Du kannst versuchen, dich anzumelden oder die Verzeichnisse zu wechseln.
Der Zugriff auf diese Seite erfordert eine Genehmigung. Du kannst versuchen , die Verzeichnisse zu wechseln.
Wenn Sie Daten oder Dateien in Azure Databricks hochladen oder speichern, können Sie diese Dateien mit Unity Catalog-Volumes oder -Arbeitsbereichsdateien speichern. Dieser Artikel enthält Empfehlungen und Anforderungen für die Verwendung dieser Speicherorte. Weitere Informationen zu Volumes und Arbeitsbereich-Dateien finden Sie unter Was sind Unity Catalog Volumes? und Was sind Arbeitsbereich-Dateien?.
Databricks empfiehlt die Verwendung von Unity Catalog-Volumes zum Speichern von Daten, Bibliotheken und Buildartefakten. Speichern Sie Notebooks, SQL-Abfragen und Codedateien als Arbeitsbereichsdateien. Sie können Arbeitsbereichsdateiverzeichnisse als Git-Ordner für die Synchronisierung mit Remote-Git-Repositorys konfigurieren. Siehe Azure Databricks Git-Ordner. Kleine Datendateien, die für Testszenarien verwendet werden, können auch als Arbeitsbereichsdateien gespeichert werden.
Die folgenden Tabellen enthalten spezifische Empfehlungen für Dateien, je nach Dateityp oder erforderlichen Funktionen.
Dateitypen
In der folgenden Tabelle finden Sie Speicherempfehlungen für Dateitypen. Außer den Beispielen in dieser Tabelle unterstützt Databricks viele weitere Dateiformate.
| Dateityp | Recommendation |
|---|---|
| Databricks-Objekte wie Notebooks und Abfragen | Als Arbeitsbereichsdateien speichern |
| Strukturierte Datendateien wie Parquet-Dateien und ORC-Dateien | In Unity Catalog-Volumes speichern |
Halbstrukturierte Datendateien wie Textdateien (.csv, .txt) und JSON-Dateien (.json) |
In Unity Catalog-Volumes speichern |
Unstrukturierte Datendateien wie Bilddateien (.png, .svg), Audiodateien (.mp3) und Dokumentdateien (.pdf, .docx) |
In Unity Catalog-Volumes speichern |
| Rohdatendateien, die für die Ad-hoc- oder frühzeitige Untersuchung von Daten verwendet werden | In Unity Catalog-Volumes speichern |
| Operative Daten wie Protokolldateien | In Unity Catalog-Volumes speichern |
Große Archivdateien wie ZIP-Dateien (.zip) |
In Unity Catalog-Volumes speichern |
Quellcodedateien wie Python-Dateien (.py), Java-Dateien (.java) und Scala-Dateien (.scala) |
Ggf. als Arbeitsbereichsdateien mit anderen verwandten Objekten speichern, z. B. Notebooks und Abfragen. Databricks empfiehlt, diese Dateien in einem Git-Ordner für die Versionssteuerung und Änderungsnachverfolgung dieser Dateien zu verwalten. |
Buildartefakte und Bibliotheken wie Python-Wheels (.whl) und JAR-Dateien (.jar) |
In Unity Catalog-Volumes speichern |
| Konfigurationsdateien | Speichern Sie Konfigurationsdateien, die für arbeitsbereichsübergreifende Arbeitsbereiche in Unity-Katalogvolumes erforderlich sind, speichern Sie sie jedoch als Arbeitsbereichsdateien, wenn sie Projektdateien in einem Git-Ordner sind. |
Feature-Vergleich
In der folgenden Tabelle werden die Featureangebote von Arbeitsbereichsdateien und Unity-Katalogvolumes verglichen.
| Feature | Arbeitsbereichsdateien | Unity Catalog-Volumes |
|---|---|---|
| Dateizugriff | Der gegenseitige Zugriff auf Arbeitsbereichsdateien ist nur innerhalb desselben Arbeitsbereichs möglich. | Der Zugriff auf Dateien ist global über Arbeitsbereiche möglich. |
| Programmgesteuerter Zugriff | Der Zugriff auf Dateien ist folgendermaßen möglich: |
Der Zugriff auf Dateien ist folgendermaßen möglich: |
| Databricks-Ressourcenbündel | Standardmäßig werden alle Dateien in einem Bundle, die Bibliotheken und Databricks-Objekte wie Notebooks und Abfragen umfassen, sicher als Arbeitsbereichsdateien bereitgestellt. Die Berechtigungen werden in der Bundlekonfiguration definiert. | Bundles können so angepasst werden, dass Bibliotheken bereits in Volumes eingeschlossen werden, wenn die Bibliotheken den Grenzwert für die Größe von Arbeitsbereichsdateien überschreiten. Weitere Informationen finden Sie unter Bibliotheksabhängigkeiten für Databricks-Ressourcenbundles. |
| Dateiberechtigungsebene | Berechtigungen befinden sich auf Git-Ordnerebene, wenn sich die Datei in einem Git-Ordner befindet, andernfalls werden Berechtigungen auf Dateiebene festgelegt. | Berechtigungen gelten auf Volumeebene. |
| Berechtigungsverwaltung | Berechtigungen werden von Arbeitsbereichs-ACLs verwaltet und sind auf den enthaltenden Arbeitsbereich beschränkt. | Metadaten und Berechtigungen werden von Unity Catalog verwaltet. Diese Berechtigungen gelten für alle Arbeitsbereiche, die Zugriff auf den Katalog haben. |
| Einbinden von externem Speicher | Das Einbinden von externem Speicher wird nicht unterstützt | Bietet die Möglichkeit, auf bereits vorhandene Datasets im externen Speicher zu verweisen, indem ein externes Volume erstellt wird. Siehe Was sind Unity Catalog-Volumes?. |
| UDF-Unterstützung | Nicht unterstützt | Das Schreiben von UDFs wird mithilfe von FUSE für Volumes unterstützt. |
| Dateigröße | Kleinere Dateien mit weniger als 500 MB wie Quellcodedateien (.py, .md, .yml) neben Notebooks speichern. |
Sehr große Datendateien mit Grenzwerten speichern, die von Clouddienstanbietern bestimmt werden. |
| Upload & Download | Unterstützung für Upload und Download von bis zu 10 MB. | Unterstützung für Upload und Download von bis zu 5 MB. |
| Unterstützung für Tabellenerstellung | Tabellen können nicht mit Arbeitsbereichsdateien als Speicherort erstellt werden. | Tabellen können aus Dateien in einem Volume erstellt werden, indem COPY INTO, der Autoloader oder andere Optionen ausgeführt werden, die in Standardconnectors in Lakeflow Connect beschrieben sind. |
| Verzeichnisstruktur & Dateipfade | Dateien werden in geschachtelten Verzeichnissen organisiert, die jeweils über ein eigenes Berechtigungsmodell verfügen:
|
Dateien werden in geschachtelten Verzeichnissen innerhalb eines Volumes organisiert Siehe Access-Daten im Unity-Katalog. |
| Dateiverlauf | Verwenden Sie den Git-Ordner in Arbeitsbereichen, um Dateiänderungen nachzuverfolgen. | Überwachungsprotokolle sind verfügbar. |