Partilhar via


Explore o armazenamento e encontre arquivos de dados

Este artigo se concentra em descobrir e explorar diretórios e arquivos de dados gerenciados com volumes do Catálogo Unity, incluindo instruções baseadas na interface do usuário para explorar volumes com o Catalog Explorer. Este artigo também fornece exemplos de exploração programática de dados no armazenamento de objetos em nuvem usando caminhos de volume e URIs de nuvem.

O Databricks recomenda o uso de volumes para gerenciar o acesso a dados no armazenamento de objetos na nuvem. Para obter mais informações sobre como se conectar a dados no armazenamento de objetos na nuvem, consulte Conectar-se a fontes de dados.

Para obter um passo a passo completo de como interagir com arquivos em todos os locais, consulte Trabalhar com arquivos no Azure Databricks.

Importante

Ao pesquisar Arquivos na interface do usuário do espaço de trabalho, você pode descobrir arquivos de dados armazenados como arquivos do espaço de trabalho. O Databricks recomenda o uso de arquivos de espaço de trabalho principalmente para código (como scripts e bibliotecas), scripts de inicialização ou arquivos de configuração. Idealmente, você deve limitar os dados armazenados como arquivos de espaço de trabalho a pequenos conjuntos de dados que podem ser usados para tarefas como testes durante o desenvolvimento e controle de qualidade. Consulte O que são arquivos de espaço de trabalho?.

Volumes versus configurações de objetos de nuvem herdados

Quando você usa volumes para gerenciar o acesso a dados no armazenamento de objetos na nuvem, só pode usar o caminho dos volumes para acessar os dados, e esses caminhos estão disponíveis com toda a computação habilitada para Unity Catalog. Não é possível registrar arquivos de dados que suportam tabelas do Catálogo Unity usando volumes. O Databricks recomenda o uso de nomes de tabelas em vez de caminhos de arquivo para interagir com dados estruturados registrados como tabelas do Catálogo Unity. Consulte Como funcionam os caminhos para dados gerenciados pelo Unity Catalog?.

Se você usar um método herdado para configurar o acesso a dados no armazenamento de objetos na nuvem, o Azure Databricks será revertido para permissões de ACLs de tabela herdadas. Os usuários que desejam acessar dados usando URIs de nuvem de armazéns SQL ou computação configurada com modo de acesso compartilhado exigem a ANY FILE permissão. Consulte Controle de acesso à tabela de metastore do Hive (legado).

O Azure Databricks fornece várias APIs para listar arquivos no armazenamento de objetos na nuvem. A maioria dos exemplos neste artigo concentra-se no uso de volumes. Para obter exemplos sobre como interagir com dados no armazenamento de objetos configurado sem volumes, consulte Listar arquivos com URIs.

Explore volumes

Você pode usar o Gerenciador de Catálogos para explorar dados em volumes e revisar os detalhes de um volume. Você só pode ver volumes que tem permissões para ler, para que possa consultar todos os dados descobertos dessa maneira.

Você pode usar SQL para explorar volumes e seus metadados. Para listar arquivos em volumes, você pode usar SQL, o %fs comando magic ou utilitários Databricks. Ao interagir com dados em volumes, você usa o caminho fornecido pelo Unity Catalog, que sempre tem o seguinte formato:

/Volumes/catalog_name/schema_name/volume_name/path/to/data

Volumes de exibição

SQL

Execute o seguinte comando para ver uma lista de volumes em um determinado esquema.

SHOW VOLUMES IN catalog_name.schema_name;

Consulte MOSTRAR VOLUMES.

Explorador de Catálogos

Para exibir volumes em um determinado esquema com o Gerenciador de Catálogos, faça o seguinte:

  1. Selecione o Ícone do catálogo ícone Catálogo .
  2. Selecione um catálogo.
  3. Selecione um esquema.
  4. Clique em Volumes para expandir todos os volumes no esquema.

Nota

Se nenhum volume for registrado em um esquema, a opção Volumes não será exibida. Em vez disso, você verá uma lista de tabelas disponíveis.

Ver detalhes do volume

SQL

Execute o seguinte comando para descrever um volume.

DESCRIBE VOLUME volume_name

Consulte DESCREVER VOLUME.

Explorador de Catálogos

Clique no nome do volume e selecione a guia Detalhes para revisar os detalhes do volume.

Ver ficheiros em volumes

SQL

Execute o seguinte comando para listar os arquivos em um volume.

LIST '/Volumes/catalog_name/schema_name/volume_name/'

Explorador de Catálogos

Clique no nome do volume e selecione a guia Detalhes para revisar os detalhes do volume.

%fs

Execute o seguinte comando para listar os arquivos em um volume.

%fs ls /Volumes/catalog_name/schema_name/volume_name/

Utilitários Databricks

Execute o seguinte comando para listar os arquivos em um volume.

dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")

Listar arquivos com URIs

Você pode consultar o armazenamento de objetos na nuvem configurado com métodos diferentes de volumes usando URIs. Você deve estar conectado à computação com privilégios para acessar o local na nuvem. A ANY FILE permissão é necessária em armazéns SQL e computação configurada com o modo de acesso compartilhado.

Nota

Não há suporte para acesso URI ao armazenamento de objetos configurado com volumes. Não é possível usar o Catalog Explorer para revisar o conteúdo do armazenamento de objetos não configurado com volumes.

Os exemplos a seguir incluem exemplos de URIs para dados armazenados com o Azure Data Lake Storage Gen2, S3 e GCS.

SQL

Execute o seguinte comando para listar arquivos no armazenamento de objetos na nuvem.

-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'

-- S3
LIST 's3://bucket-name/path/to/data'

-- GCS
LIST 'gs://bucket-name/path/to/data'

%fs

Execute o seguinte comando para listar arquivos no armazenamento de objetos na nuvem.

# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data

# S3
%fs ls s3://bucket-name/path/to/data

# GCS
%fs ls gs://bucket-name/path/to/data

Utilitários Databricks

Execute o seguinte comando para listar arquivos no armazenamento de objetos na nuvem.


# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")

# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")

# GCS
dbutils.fs.ls("bucket-name/path/to/data")