Durchsuchen von Speicher- und Datendateien
Dieser Artikel befasst sich mit dem Auffinden und Durchsuchen von Verzeichnissen und Datendateien, die mit Unity Catalogvolumes verwaltet werden, einschließlich benutzeroberflächenbasierter Anleitungen zum Erkunden von Volumes mit dem Catalog Explorer. Dieser Artikel enthält auch Beispiele für die programmgesteuerte Untersuchung von Daten im Cloudobjektspeicher mithilfe von Volumepfaden und Cloud-URIs.
Databricks empfiehlt die Verwendung von Volumes zum Verwalten des Zugriffs auf Daten im Cloudobjektspeicher. Weitere Informationen zum Herstellen einer Verbindung mit Daten im Cloudobjektspeicher finden Sie unter Herstellen einer Verbindung mit Datenquellen.
Eine vollständige exemplarische Vorgehensweise zur Interaktion mit Dateien an allen Speicherorten finden Sie unter Arbeiten mit Dateien auf Azure Databricks.
Wichtig
Wenn Sie in der Arbeitsbereich-Benutzeroberfläche nach Files suchen, entdecken Sie möglicherweise Datendateien, die als Arbeitsbereichsdateien gespeichert sind. Databricks empfiehlt die Verwendung von Arbeitsbereichsdateien in erster Linie für Code (z. B. Skripts und Bibliotheken), Initialisierungsskripts oder Konfigurationsdateien. Idealerweise sollten Sie die als Arbeitsbereichsdateien gespeicherten Daten auf kleine Datensätze beschränken, die für Aufgaben wie das Testen während der Entwicklung und Qualitätssicherung verwendet werden können. Weitere Informationen finden Sie unter Was sind Arbeitsbereichsdateien?.
Volumes im Vergleich zu älteren Cloudobjektkonfigurationen
Wenn Sie Volumes verwenden, um den Zugriff auf Daten im Cloudobjektspeicher zu verwalten, können Sie nur den Volume-Pfad für den Zugriff auf die Daten verwenden, und diese Pfade sind bei allen Unity Catalog-fähigen Rechnern verfügbar. Sie können keine Datendateien registrieren, die Unity Catalogtabellen mit Volumes sichern. Databricks empfiehlt die Verwendung von Tabellennamen anstelle von Dateipfaden, um mit strukturierten Daten zu interagieren, die als Unity Catalogtabellen registriert sind. Siehe Wie funktionieren Pfade für Daten, die vom Unity Catalog verwaltet werden?.
Wenn Sie eine Legacy-Methode zur Konfiguration des Zugriffs auf Daten im Cloudobjektspeicher verwenden, greift Azure Databricks auf ältere Tabellen-ACLs zurück. Benutzer, die über SQL-Warehouses auf Daten zugreifen oder mit freigegebenem Zugriffsmodus konfigurierte Daten berechnen möchten, erfordern die ANY FILE
Berechtigung. Siehe Hive-Metastore-Tabellenzugriffssteuerung (Legacy).
Azure Databricks bietet mehrere APIs zum Auflisten von Dateien im Cloudobjektspeicher. Die meisten Beispiele in diesem Artikel konzentrieren sich auf die Verwendung von Volumes. Beispiele für die Interaktion mit Daten im Objektspeicher, die ohne Volumes konfiguriert sind, finden Sie unter Listendateien mit URIs.
Untersuchen von Volumes
Sie können den Catalog-Explorer verwenden, um Daten in Volumes zu durchsuchen und die Details eines Volumes zu überprüfen. Sie können nur Volumes sehen, für die Sie über Leseberechtigungen verfügen, sodass Sie alle auf diese Weise ermittelten Daten abfragen können.
Sie können SQL verwenden, um Volumes und deren Metadaten zu untersuchen. Um Dateien in Volumes aufzulisten, können Sie SQL, den %fs
Magic-Befehl oder Databricks Dienstprogramme verwenden. Wenn Sie mit Daten in Volumes interagieren, verwenden Sie den von Unity Catalog bereitgestellten Pfad, der immer das folgende Format aufweist:
/Volumes/catalog_name/schema_name/volume_name/path/to/data
Anzeigen von Volumes
SQL
Führen Sie den folgenden Befehl aus, um eine Liste von Volumes in einem bestimmten Schema anzuzeigen.
SHOW VOLUMES IN catalog_name.schema_name;
Siehe SHOW VOLUMES.
Katalog-Explorer
Gehen Sie wie folgt vor, um Volumes in einem bestimmten Schema mit dem Katalog-Explorer anzuzeigen:
- Wählen Sie das Symbol Katalog aus.
- Wählen Sie einen Katalog aus.
- Wählen Sie ein Schema aus.
- Klicken Sie auf Volumes, um alle Volumes im Schema zu erweitern.
Hinweis
Wenn keine Volumes in einem Schema registriert sind, wird die Option Volumes nicht angezeigt. Stattdessen wird eine Liste der verfügbaren Tabellen angezeigt.
Anzeigen von Volumendetails
SQL
Führen Sie den folgenden Befehl aus, um ein Volume zu beschreiben.
DESCRIBE VOLUME volume_name
Siehe DESCRIBE VOLUMES.
Katalog-Explorer
Klicken Sie auf den Volumenamen, und wählen Sie die Registerkarte Details aus, um die Volumedetails zu überprüfen.
Anzeigen von Dateien in Volumes
SQL
Führen Sie den folgenden Befehl aus, um die Dateien auf einem Volume aufzulisten.
LIST '/Volumes/catalog_name/schema_name/volume_name/'
Katalog-Explorer
Klicken Sie auf den Volumenamen, und wählen Sie die Registerkarte Details aus, um die Volumedetails zu überprüfen.
%fs
Führen Sie den folgenden Befehl aus, um die Dateien auf einem Volume aufzulisten.
%fs ls /Volumes/catalog_name/schema_name/volume_name/
Databricks-Dienstprogramme
Führen Sie den folgenden Befehl aus, um die Dateien auf einem Volume aufzulisten.
dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")
Listendateien mit URIs
Sie können Cloudobjektspeicher abfragen, der mit anderen Methoden als Volumes mit URIs konfiguriert ist. Sie müssen mit Compute verbunden sein und über die entsprechenden Berechtigungen verfügen, um auf den Cloud-Speicherort zuzugreifen. Die ANY FILE
Berechtigung ist für SQL-Warehouses erforderlich und wird mit dem Modus für gemeinsam genutzten Zugriff konfiguriert.
Hinweis
Der URI-Zugriff auf Objektspeicher, der mit Volumes konfiguriert ist, wird nicht unterstützt. Sie können den Catalog-Explorer nicht verwenden, um den Inhalt des Objektspeichers zu überprüfen, der nicht mit Volumes konfiguriert ist.
Die folgenden Beispiele umfassen Beispiel-URIs für Daten, die mit Azure Data Lake Storage Gen2, S3 und GCS gespeichert sind.
SQL
Führen Sie den folgenden Befehl aus, um Dateien im Cloudobjektspeicher auflisten.
-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'
-- S3
LIST 's3://bucket-name/path/to/data'
-- GCS
LIST 'gs://bucket-name/path/to/data'
%fs
Führen Sie den folgenden Befehl aus, um Dateien im Cloudobjektspeicher auflisten.
# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data
# S3
%fs ls s3://bucket-name/path/to/data
# GCS
%fs ls gs://bucket-name/path/to/data
Databricks-Dienstprogramme
Führen Sie den folgenden Befehl aus, um Dateien im Cloudobjektspeicher auflisten.
# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")
# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")
# GCS
dbutils.fs.ls("bucket-name/path/to/data")