Compartilhar via


Explorar o armazenamento e encontrar arquivos de dados

Este artigo se concentra na descoberta e exploração de diretórios e arquivos de dados gerenciados com volumes do Catálogo do Unity, incluindo instruções baseadas em interface do usuário para explorar volumes com o Catalog Explorer. Este artigo também fornece exemplos de uma exploração programática de dados no armazenamento de objetos na nuvem usando caminhos de volume e URIs de nuvem.

O Databricks recomenda o uso de volumes para gerenciar o acesso aos dados no armazenamento de objetos na nuvem. Para obter mais informações sobre como se conectar aos dados no armazenamento de objetos na nuvem, confira Conectar-se a fontes de dados.

Para obter uma descrição completa de como interagir com arquivos em todos os locais, confira Trabalhar com arquivos no Azure Databricks.

Importante

Ao pesquisar Arquivos na interface do usuário do workspace, você poderá descobrir arquivos de dados armazenados como arquivos do workspace. O Databricks recomenda usar arquivos do workspace principalmente para código (como scripts e bibliotecas), scripts de inicialização ou arquivos de configuração. Idealmente, você deve limitar os dados armazenados como arquivos do workspace a pequenos conjuntos de dados que podem ser usados para tarefas como testes, durante o desenvolvimento e garantia de qualidade (QA). Consulte O que são Arquivos de workspace?.

Volumes x configurações herdadas de objetos na nuvem

Quando você usa volumes para gerenciar o acesso a dados no armazenamento de objetos na nuvem, você só pode usar o caminho de volumes para acessar dados e esses caminhos estão disponíveis com toda a computação habilitada para o Catálogo do Unity. Você não pode registrar arquivos de dados que corroboram tabelas do Catálogo do Unity usando volumes. O Databricks recomenda usar nomes de tabela em vez de caminhos de arquivo para interagir com os dados estruturados registrados como tabelas do Catálogo do Unity. Confira Como funcionam os caminhos para os dados gerenciados pelo Catálogo do Unity?.

Se você usar um método herdado para configurar o acesso aos dados no armazenamento de objetos na nuvem, o Azure Databricks reverterá as permissões de ACLs de tabelas para as versões herdadas. Os usuários que quiserem acessar dados usando URIs de nuvem de SQL warehouses ou computação configurados com o modo de acesso compartilhado precisam de uma permissão ANY FILE. Confira Controle de acesso à tabela no metastore do Hive (herdado).

O Azure Databricks fornece várias APIs para listar arquivos no armazenamento de objetos na nuvem. A maioria dos exemplos neste artigo se concentra no uso de volumes. Para obter exemplos sobre como interagir com dados no armazenamento de objetos configurados sem volumes, confira Listar arquivos com URIs.

Explorar volumes

Você pode usar o Catalog Explorer para explorar dados em volumes e examinar os detalhes de um volume. Você só pode ver os volumes para cuja leitura tiver permissões, então você pode consultar todos os dados descobertos dessa forma.

Você pode usar o SQL para explorar os volumes e seus metadados. Para listar arquivos em volumes, você pode usar o SQL, o comando mágico %fs ou os utilitários do Databricks. Ao interagir com dados em volumes, use o caminho fornecido pelo Catálogo do Unity, que sempre tem o seguinte formato:

/Volumes/catalog_name/schema_name/volume_name/path/to/data

Exibir volumes

SQL

Execute o comando a seguir para ver uma lista de volumes em um determinado esquema.

SHOW VOLUMES IN catalog_name.schema_name;

Confira SHOW VOLUMES.

Explorador do Catálogo

Para exibir os volumes em um determinado esquema com o Catalog Explorer, faça o seguinte:

  1. Selecione o ícone Ícone do catálogo Catálogo.
  2. Selecionar um catálogo.
  3. Selecione um esquema.
  4. Clique em Volumes para expandir todos os volumes no esquema.

Observação

Se nenhum volume estiver registrado em um esquema, a opção Volumes não será exibida. Em vez disso, você verá uma lista de tabelas disponíveis.

Conferir os detalhes de um volume

SQL

Execute o comando a seguir para descrever um volume.

DESCRIBE VOLUME volume_name

Confira DESCRIBE VOLUME.

Explorador do Catálogo

Clique no nome do volume e selecione a guia Detalhes para examinar os detalhes do volume.

Conferir arquivos em volumes

SQL

Execute o comando a seguir para listar os arquivos em um volume.

LIST '/Volumes/catalog_name/schema_name/volume_name/'

Explorador do Catálogo

Clique no nome do volume e selecione a guia Detalhes para examinar os detalhes do volume.

%fs

Execute o comando a seguir para listar os arquivos em um volume.

%fs ls /Volumes/catalog_name/schema_name/volume_name/

Utilitários do Databricks

Execute o comando a seguir para listar os arquivos em um volume.

dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")

Listar arquivos com URIs

Você pode consultar um armazenamento de objetos na nuvem configurado com métodos que não sejam volumes usando URIs. Você precisa estar conectado à computação com privilégios para acessar a localização na nuvem. A permissão ANY FILE é necessária em SQL warehouses e computação configurados com o modo de acesso compartilhado.

Observação

O acesso por URI ao armazenamento de objetos configurado com volumes não tem suporte. Você não pode usar o Catalog Explorer para examinar o conteúdo do armazenamento de objetos não configurado com volumes.

Os exemplos a seguir incluem exemplos de URIs para dados armazenados com o Azure Data Lake Storage Gen2, S3 e GCS.

SQL

Execute o comando a seguir para listar arquivos no armazenamento de objetos na nuvem.

-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'

-- S3
LIST 's3://bucket-name/path/to/data'

-- GCS
LIST 'gs://bucket-name/path/to/data'

%fs

Execute o comando a seguir para listar arquivos no armazenamento de objetos na nuvem.

# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data

# S3
%fs ls s3://bucket-name/path/to/data

# GCS
%fs ls gs://bucket-name/path/to/data

Utilitários do Databricks

Execute o comando a seguir para listar arquivos no armazenamento de objetos na nuvem.


# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")

# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")

# GCS
dbutils.fs.ls("bucket-name/path/to/data")