Utforska lagring och hitta datafiler
Den här artikeln fokuserar på att upptäcka och utforska kataloger och datafiler som hanteras med Unity Catalog-volymer, inklusive användargränssnittsbaserade instruktioner för att utforska volymer med Catalog Explorer. Den här artikeln innehåller också exempel på programmatisk utforskning av data i molnobjektlagring med hjälp av volymsökvägar och moln-URI:er.
Databricks rekommenderar att du använder volymer för att hantera åtkomst till data i molnobjektlagring. Mer information om hur du ansluter till data i molnobjektlagring finns i Ansluta till datakällor.
En fullständig genomgång av hur du interagerar med filer på alla platser finns i Arbeta med filer på Azure Databricks.
Viktigt!
När du söker efter filer i arbetsytans användargränssnitt kan du identifiera datafiler som lagras som arbetsytefiler. Databricks rekommenderar att du använder arbetsytefiler främst för kod (till exempel skript och bibliotek), init-skript eller konfigurationsfiler. Du bör helst begränsa data som lagras som arbetsytefiler till små datauppsättningar som kan användas för uppgifter som testning under utveckling och QA. Se Vad är arbetsytefiler?.
Volymer jämfört med äldre molnobjektkonfigurationer
När du använder volymer för att hantera åtkomst till data i molnobjektlagring kan du bara använda volymsökvägen för att komma åt data, och dessa sökvägar är tillgängliga med all Unity Catalog-aktiverad beräkning. Du kan inte registrera datafiler som stöder Unity Catalog-tabeller med hjälp av volymer. Databricks rekommenderar att du använder tabellnamn i stället för filsökvägar för att interagera med strukturerade data som registrerats som Unity Catalog-tabeller. Se Hur fungerar sökvägar för data som hanteras av Unity Catalog?.
Om du använder en äldre metod för att konfigurera åtkomst till data i molnobjektlagring återgår Azure Databricks till äldre ACL-behörigheter för tabeller. Användare som vill komma åt data med hjälp av moln-URI:er från SQL-lager eller beräkning som konfigurerats med läget för delad åtkomst kräver behörigheten ANY FILE
. Se Åtkomstkontroll för Hive-metaarkivtabell (äldre).
Azure Databricks innehåller flera API:er för att visa filer i molnobjektlagring. De flesta exempel i den här artikeln fokuserar på att använda volymer. Exempel på hur du interagerar med data på objektlagring som konfigurerats utan volymer finns i Lista filer med URI:er.
Utforska volymer
Du kan använda Catalog Explorer för att utforska data i volymer och granska information om en volym. Du kan bara se volymer som du har behörighet att läsa, så du kan köra frågor mot alla data som identifieras på det här sättet.
Du kan använda SQL för att utforska volymer och deras metadata. Om du vill visa filer i volymer kan du använda SQL, det %fs
magiska kommandot eller Databricks-verktygen. När du interagerar med data i volymer använder du sökvägen som tillhandahålls av Unity Catalog, som alltid har följande format:
/Volumes/catalog_name/schema_name/volume_name/path/to/data
Visa volymer
SQL
Kör följande kommando för att se en lista över volymer i ett visst schema.
SHOW VOLUMES IN catalog_name.schema_name;
Se VISA VOLYMER.
Katalogutforskaren
Om du vill visa volymer i ett visst schema med Catalog Explorer gör du följande:
- Välj katalogikonen.
- Välj en katalog.
- Välj ett schema.
- Klicka på Volymer för att expandera alla volymer i schemat.
Kommentar
Om inga volymer är registrerade i ett schema visas inte alternativet Volymer . I stället visas en lista över tillgängliga tabeller.
Se volyminformation
SQL
Kör följande kommando för att beskriva en volym.
DESCRIBE VOLUME volume_name
Se BESKRIVA VOLYM.
Katalogutforskaren
Klicka på volymnamnet och välj fliken Information för att granska volyminformation.
Se filer i volymer
SQL
Kör följande kommando för att visa filerna i en volym.
LIST '/Volumes/catalog_name/schema_name/volume_name/'
Katalogutforskaren
Klicka på volymnamnet och välj fliken Information för att granska volyminformation.
%fs
Kör följande kommando för att visa filerna i en volym.
%fs ls /Volumes/catalog_name/schema_name/volume_name/
Databricks-verktyg
Kör följande kommando för att visa filerna i en volym.
dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")
Visa en lista över filer med URI:er
Du kan köra frågor mot molnobjektlagring som konfigurerats med andra metoder än volymer med hjälp av URI:er. Du måste vara ansluten till beräkning med behörighet att komma åt molnplatsen. Behörigheten ANY FILE
krävs på SQL-lager och beräkning som konfigurerats med läget för delad åtkomst.
Kommentar
URI-åtkomst till objektlagring som konfigurerats med volymer stöds inte. Du kan inte använda Katalogutforskaren för att granska innehållet i objektlagring som inte har konfigurerats med volymer.
Följande exempel är exempel-URI:er för data som lagras med Azure Data Lake Storage Gen2, S3 och GCS.
SQL
Kör följande kommando för att lista filer i molnobjektlagring.
-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'
-- S3
LIST 's3://bucket-name/path/to/data'
-- GCS
LIST 'gs://bucket-name/path/to/data'
%fs
Kör följande kommando för att lista filer i molnobjektlagring.
# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data
# S3
%fs ls s3://bucket-name/path/to/data
# GCS
%fs ls gs://bucket-name/path/to/data
Databricks-verktyg
Kör följande kommando för att lista filer i molnobjektlagring.
# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")
# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")
# GCS
dbutils.fs.ls("bucket-name/path/to/data")