Partilhar via


Explore o armazenamento e encontre arquivos de dados

Este artigo se concentra em descobrir e explorar diretórios e arquivos de dados gerenciados com volumes do Catálogo Unity, incluindo instruções baseadas na interface do usuário para explorar volumes com o Catalog Explorer. Este artigo também fornece exemplos de exploração programática de dados no armazenamento de objetos em nuvem usando caminhos de volume e URIs de nuvem.

O Databricks recomenda o uso de volumes para gerenciar o acesso a dados no armazenamento de objetos na nuvem. Para obter mais informações sobre como se conectar a dados no armazenamento de objetos na nuvem, consulte Conectar-se a fontes de dados e serviços externos.

Para obter um passo a passo completo de como interagir com arquivos em todos os locais, consulte Trabalhar com arquivos no Azure Databricks.

Importante

Ao pesquisar Arquivos na interface do usuário do espaço de trabalho, você pode descobrir arquivos de dados armazenados como arquivos do espaço de trabalho. O Databricks recomenda o uso de arquivos de espaço de trabalho principalmente para código (como scripts e bibliotecas), scripts de inicialização ou arquivos de configuração. Idealmente, você deve limitar os dados armazenados como arquivos de espaço de trabalho a pequenos conjuntos de dados que podem ser usados para tarefas como testes durante o desenvolvimento e controle de qualidade. Consulte O que são arquivos de espaço de trabalho?.

Volumes versus configurações de objetos de nuvem herdados

Quando você usa volumes para gerenciar o acesso a dados no armazenamento de objetos na nuvem, só pode usar o caminho dos volumes para acessar os dados, e esses caminhos estão disponíveis com toda a computação habilitada para Unity Catalog. Não é possível registar ficheiros de dados que suportam tabelas do Catálogo Unity usando volumes. O Databricks recomenda o uso de nomes de tabelas em vez de caminhos de arquivo para interagir com dados estruturados registrados como tabelas do Catálogo Unity. Consulte Como funcionam os caminhos para dados gerenciados pelo Unity Catalog?.

Se você usar um método herdado para configurar o acesso a dados no armazenamento de objetos na nuvem, o Azure Databricks será revertido para permissões de ACLs de tabela herdadas. Os utilizadores que desejam aceder a dados usando URIs cloud de armazéns SQL ou de computação configurada com modo de acesso padrão (anteriormente partilhado) precisam da permissão ANY FILE. Consulte o controle de acesso à tabela do metastore do Hive (legado).

O Azure Databricks fornece várias APIs para listar arquivos no armazenamento de objetos na nuvem. A maioria dos exemplos neste artigo concentra-se no uso de volumes. Para obter exemplos sobre como interagir com dados no armazenamento de objetos configurado sem volumes, consulte Listar arquivos com URIs.

Explorar volumes

Você pode usar o Gerenciador de Catálogos para explorar dados em volumes e revisar os detalhes de um volume. Você só pode ver volumes que tem permissões para ler, para que possa consultar todos os dados descobertos dessa maneira.

Você pode usar SQL para explorar volumes e seus metadados. Para listar ficheiros em volumes, pode usar SQL, o comando mágico %fs ou as ferramentas Databricks. Ao interagir com dados em volumes, você usa o caminho fornecido pelo Unity Catalog, que sempre tem o seguinte formato:

/Volumes/catalog_name/schema_name/volume_name/path/to/data

Volumes de exibição

SQL

Execute o seguinte comando para ver uma lista de volumes em um determinado esquema.

SHOW VOLUMES IN catalog_name.schema_name;

Ver SHOW VOLUMES.

Explorador de Catálogos

Para exibir volumes em um determinado esquema com o Gerenciador de Catálogos, faça o seguinte:

  1. Selecione o ícone Dados.Ícone do catálogo .
  2. Selecione um catálogo.
  3. Selecione um esquema.
  4. Clique em Volumes para expandir todos os volumes no esquema.

Nota

Se nenhum volume for registrado em um esquema, a opção Volumes não será exibida. Em vez disso, você verá uma lista de tabelas disponíveis.

Ver detalhes do volume

SQL

Execute o seguinte comando para descrever um volume.

DESCRIBE VOLUME volume_name

Ver DESCRIBE VOLUME.

Explorador de Catálogos

Clique no nome do volume e selecione a guia Detalhes para revisar os detalhes do volume.

Ver ficheiros em volumes

SQL

Execute o seguinte comando para listar os arquivos em um volume.

LIST '/Volumes/catalog_name/schema_name/volume_name/'

Explorador de Catálogos

Clique no nome do volume e selecione a guia Detalhes para revisar os detalhes do volume.

%fs

Execute o seguinte comando para listar os arquivos em um volume.

%fs ls /Volumes/catalog_name/schema_name/volume_name/

Utilitários Databricks

Execute o seguinte comando para listar os arquivos em um volume.

dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")

Visualizar arquivos em volumes

Clique no nome de um arquivo em um volume do Catalog Explorer para ver uma visualização do arquivo.

Importante

Os usuários devem ter a permissão READ VOLUME no volume que contém para visualizar arquivos.

Os arquivos de texto exibem o conteúdo em texto sem formatação.

Os arquivos de imagem suportados renderizam imagens.

A experiência de visualização tenta fornecer realce de sintaxe para arquivos como .yml, .yamle .json.

Nota

As visualizações podem falhar na renderização correta se os arquivos estiverem corrompidos, o conteúdo estiver malformado ou a extensão errada for usada.

Os seguintes formatos de ficheiro são suportados:

  • Arquivos de imagem: jpg, jpeg, png, gif, bmp, webp, ico
  • Arquivos de texto: txt, log, md
  • Arquivos de dados semi-estruturados: json, csv
  • Arquivos de configuração: yaml, yml

Listar arquivos com URIs

Você pode consultar o armazenamento de objetos na nuvem configurado com métodos diferentes de volumes usando URIs. Você deve estar conectado à computação com privilégios para acessar o local na nuvem. A permissão ANY FILE é necessária em armazéns SQL e computação configurada com o modo de acesso padrão (anteriormente modo de acesso compartilhado).

Nota

Não há suporte para acesso URI ao armazenamento de objetos configurado com volumes. Não é possível usar o Catalog Explorer para revisar o conteúdo do armazenamento de objetos não configurado com volumes.

Os exemplos a seguir incluem exemplos de URIs para dados armazenados com o Armazenamento Azure Data Lake, S3 e GCS.

SQL

Execute o seguinte comando para listar arquivos no armazenamento de objetos na nuvem.

-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'

-- S3
LIST 's3://bucket-name/path/to/data'

-- GCS
LIST 'gs://bucket-name/path/to/data'

%fs

Execute o seguinte comando para listar arquivos no armazenamento de objetos na nuvem.

# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data

# S3
%fs ls s3://bucket-name/path/to/data

# GCS
%fs ls gs://bucket-name/path/to/data

Utilitários Databricks

Execute o seguinte comando para listar arquivos no armazenamento de objetos na nuvem.


# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")

# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")

# GCS
dbutils.fs.ls("bucket-name/path/to/data")