Anmerkung
Der Zugriff auf diese Seite erfordert eine Genehmigung. Du kannst versuchen, dich anzumelden oder die Verzeichnisse zu wechseln.
Der Zugriff auf diese Seite erfordert eine Genehmigung. Du kannst versuchen , die Verzeichnisse zu wechseln.
Diese Seite konzentriert sich auf das Suchen und Untersuchen von Verzeichnissen und Datendateien, die mit Unity-Katalogvolumes verwaltet werden, einschließlich UI-basierter Anweisungen zum Untersuchen von Volumes mit Dem Katalog-Explorer. Sie enthält Beispiele für die programmgesteuerte Untersuchung von Daten im Cloudobjektspeicher mithilfe von Volumepfaden und Cloud-URIs.
Databricks empfiehlt die Verwendung von Volumes zum Verwalten des Zugriffs auf Daten im Cloudobjektspeicher. Weitere Informationen zum Herstellen einer Verbindung mit Daten im Cloudobjektspeicher finden Sie unter Herstellen einer Verbindung mit Datenquellen und externen Diensten.
Eine vollständige exemplarische Vorgehensweise zur Interaktion mit Dateien an allen Speicherorten finden Sie unter Arbeiten mit Dateien auf Azure Databricks.
Wichtig
Wenn Sie in der Arbeitsbereich-Benutzeroberfläche nach Files suchen, entdecken Sie möglicherweise Datendateien, die als Arbeitsbereichsdateien gespeichert sind. Databricks empfiehlt die Verwendung von Arbeitsbereichsdateien in erster Linie für Code (z. B. Skripts und Bibliotheken), Initialisierungsskripts oder Konfigurationsdateien. Idealerweise sollten Sie die als Arbeitsbereichsdateien gespeicherten Daten auf kleine Datensätze beschränken, die für Aufgaben wie das Testen während der Entwicklung und Qualitätssicherung verwendet werden können. Weitere Informationen finden Sie unter Was sind Arbeitsbereichsdateien?.
Volumes im Vergleich zu älteren Cloudobjektkonfigurationen
Wenn Sie Volumes verwenden, um den Zugriff auf Daten im Cloudobjektspeicher zu verwalten, können Sie nur den Volume-Pfad für den Zugriff auf die Daten verwenden, und diese Pfade sind bei allen Unity Catalog-fähigen Rechnern verfügbar. Sie können keine Datendateien registrieren, die Unity Catalogtabellen mit Volumes sichern. Databricks empfiehlt die Verwendung von Tabellennamen anstelle von Dateipfaden, um mit strukturierten Daten zu interagieren, die als Unity Catalogtabellen registriert sind. Siehe Pfadregeln und Zugriff in Unity-Katalogvolumes.
Wenn Sie eine Legacy-Methode zur Konfiguration des Zugriffs auf Daten im Cloudobjektspeicher verwenden, greift Azure Databricks auf ältere Tabellen-ACLs zurück. Benutzer, die auf Daten zugreifen möchten, indem sie Cloud-URIs aus SQL-Warehouses verwenden oder mit dem Standardzugriffsmodus (ehemals freigegeben) konfiguriert sind, benötigen die ANY FILE Berechtigung. Siehe Hive-Metastore-Tabellenzugriffssteuerung (Legacy).
Azure Databricks bietet mehrere APIs zum Auflisten von Dateien im Cloudobjektspeicher. Die meisten Beispiele in diesem Artikel konzentrieren sich auf die Verwendung von Volumes. Beispiele für die Interaktion mit Daten im Objektspeicher, die ohne Volumes konfiguriert sind, finden Sie unter Listendateien mit URIs.
Untersuchen von Volumes
Sie können den Catalog-Explorer verwenden, um Daten in Volumes zu durchsuchen und die Details eines Volumes zu überprüfen. Sie können nur Volumes sehen, für die Sie über Leseberechtigungen verfügen, sodass Sie alle auf diese Weise ermittelten Daten abfragen können.
Sie können SQL verwenden, um Volumes und deren Metadaten zu untersuchen. Um Dateien in Volumes aufzulisten, können Sie SQL, den %fs Magic-Befehl oder Databricks Dienstprogramme verwenden. Wenn Sie mit Daten in Volumes interagieren, verwenden Sie den von Unity Catalog bereitgestellten Pfad, der immer das folgende Format aufweist:
/Volumes/catalog_name/schema_name/volume_name/path/to/data
Anzeigen von Volumes
SQL
Führen Sie den folgenden Befehl aus, um eine Liste von Volumes in einem bestimmten Schema anzuzeigen.
SHOW VOLUMES IN catalog_name.schema_name;
Siehe SHOW VOLUMES.
Katalog-Explorer
Gehen Sie wie folgt vor, um Volumes in einem bestimmten Schema mit dem Katalog-Explorer anzuzeigen:
- Wählen Sie das
Katalogsymbol .
- Wählen Sie einen Katalog aus.
- Wählen Sie ein Schema aus.
- Klicken Sie auf Volumes, um alle Volumes im Schema zu erweitern.
Hinweis
Wenn keine Volumes in einem Schema registriert sind, wird die Option Volumes nicht angezeigt. Stattdessen wird eine Liste der verfügbaren Tabellen angezeigt.
Anzeigen von Volumendetails
SQL
Führen Sie den folgenden Befehl aus, um ein Volume zu beschreiben.
DESCRIBE VOLUME volume_name
Siehe DESCRIBE VOLUME.
Katalog-Explorer
Klicken Sie auf den Volumenamen, und wählen Sie die Registerkarte Details aus, um die Volumedetails zu überprüfen.
Anzeigen von Dateien in Volumes
SQL
Führen Sie den folgenden Befehl aus, um die Dateien auf einem Volume aufzulisten.
LIST '/Volumes/catalog_name/schema_name/volume_name/'
Katalog-Explorer
Klicken Sie auf den Volumenamen, und wählen Sie die Registerkarte Details aus, um die Volumedetails zu überprüfen.
%fs
Führen Sie den folgenden Befehl aus, um die Dateien auf einem Volume aufzulisten.
%fs ls /Volumes/catalog_name/schema_name/volume_name/
Databricks-Dienstprogramme
Führen Sie den folgenden Befehl aus, um die Dateien auf einem Volume aufzulisten.
dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")
Vorschau von Dateien in Volumes
Klicken Sie im Katalog-Explorer auf den Namen einer Datei in einem Volume, um eine Vorschau der Datei anzuzeigen.
Wichtig
Benutzer müssen über die READ VOLUME Berechtigung für das enthaltende Volume verfügen, um Dateien in der Vorschau anzuzeigen.
Textdateien zeigen Inhalt in Nur-Text an.
Unterstützte Bilddateien rendern Bilder.
Die Vorschauumgebung versucht, Syntaxhervorhebung für Dateien wie .yml, .yaml und .json bereitzustellen.
Hinweis
Vorschauen können möglicherweise nicht ordnungsgemäß gerendert werden, wenn Dateien beschädigt sind, Inhalte falsch formatiert sind oder die falsche Erweiterung verwendet wird.
Die folgenden Dateiformate werden unterstützt:
- Bilddateien: jpg, jpeg, png, gif, bmp, webp, ico
- Textdateien: txt, log, md
- Videodateien: mp4, webm, ogg, mov, avi, df, m4v
- Audiodateien: Alle Dateitypen (je nach Browser)
- Semistrukturierte Datendateien: json, csv
- Konfigurationsdateien: yaml, yml
Listendateien mit URIs
Sie können Cloudobjektspeicher abfragen, der mit anderen Methoden als Volumes mit URIs konfiguriert ist. Sie müssen mit Compute verbunden sein und über die entsprechenden Berechtigungen verfügen, um auf den Cloud-Speicherort zuzugreifen. Die ANY FILE Berechtigung ist erforderlich für SQL-Lager und Rechner, die im Standardzugriffsmodus konfiguriert sind (ehemals gemeinsam genutzter Zugriffsmodus).
Hinweis
Der URI-Zugriff auf Objektspeicher, der mit Volumes konfiguriert ist, wird nicht unterstützt. Sie können den Katalog-Explorer nicht verwenden, um den Inhalt des Objektspeichers zu überprüfen, der nicht mit Volumes konfiguriert ist.
Die folgenden Beispiele umfassen Beispiel-URIs für Daten, die mit Azure Data Lake Storage, S3 und GCS gespeichert sind.
SQL
Führen Sie den folgenden Befehl aus, um Dateien im Cloudobjektspeicher auflisten.
-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'
-- S3
LIST 's3://bucket-name/path/to/data'
-- GCS
LIST 'gs://bucket-name/path/to/data'
%fs
Führen Sie den folgenden Befehl aus, um Dateien im Cloudobjektspeicher auflisten.
# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data
# S3
%fs ls s3://bucket-name/path/to/data
# GCS
%fs ls gs://bucket-name/path/to/data
Databricks-Dienstprogramme
Führen Sie den folgenden Befehl aus, um Dateien im Cloudobjektspeicher auflisten.
# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")
# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")
# GCS
dbutils.fs.ls("bucket-name/path/to/data")