Compartilhar via


Recomendações para arquivos em volumes e arquivos de workspace

Ao carregar ou salvar dados ou arquivos no Azure Databricks, você pode optar por armazenar esses arquivos usando volumes do Catálogo do Unity ou arquivos de workspace. Este artigo contém recomendações e requisitos para usar esses locais. Para obter mais detalhes sobre volumes e arquivos de workspace, consulte O que são volumes do Catálogo do Unity? e O que são arquivos de workspace?.

O Databricks recomenda usar volumes do Catálogo do Unity para armazenar dados, bibliotecas e artefatos de build. Armazene notebooks, consultas SQL e arquivos de código como arquivos de workspace. Você pode configurar diretórios de arquivos do workspace como pastas Git para sincronizar com repositórios Git remotos. Confira Integração do Git para pastas Git do Databricks. Arquivos de dados pequenos usados para cenários de teste também podem ser armazenados como arquivos de workspace.

As tabelas abaixo fornecem recomendações específicas para arquivos, dependendo do tipo de arquivo ou das necessidades do recurso.

Importante

O DBFS (Sistema de Arquivos do Databricks) também está disponível para armazenamento de arquivos, mas não é recomendado, pois todos os usuários do workspace têm acesso a arquivos no DBFS. Consulte DBFS.

Tipos de arquivo

A tabela a seguir fornece recomendações de armazenamento para tipos de arquivo. O Databricks dá suporte a muitos formatos de arquivo além do que são fornecidos nesta tabela como exemplos.

Tipo de arquivo Recomendação
Objetos do Databricks, como notebooks e consultas Armazenar como arquivos de workspace
Arquivos de dados estruturados, como arquivos Parquet e arquivos ORC Armazenar em volumes do Catálogo do Unity
Arquivos de dados semiestruturados, como arquivos de texto (.csv, .txt) e arquivos JSON (.json) Armazenar em volumes do Catálogo do Unity
Arquivos de dados não estruturados, como arquivos de imagem (.png, .svg), arquivos de áudio (.mp3) e arquivos de documento (.pdf, .docx) Armazenar em volumes do Catálogo do Unity
Arquivos de dados brutos usados para exploração de dados iniciais ou de adesivos Armazenar em volumes do Catálogo do Unity
Dados operacionais, como arquivos de log Armazenar em volumes do Catálogo do Unity
Arquivos de arquivos grandes, como arquivos ZIP (.zip) Armazenar em volumes do Catálogo do Unity
Arquivos de código-fonte, como arquivos Python (.py), arquivos Java (.java) e arquivos Scala (.scala) Armazene como arquivos de workspace, se aplicável, com outros objetos relacionados, como notebooks e consultas.

O Databricks recomenda o gerenciamento desses arquivos em uma pasta Git para controle de versão e controle de alterações desses arquivos.
Compilar artefatos e bibliotecas, como rodas Python (.whl) e arquivos JAR (.jar) Armazenar em volumes do Catálogo do Unity
Arquivos de configuração Armazene os arquivos de configuração necessários em workspaces em volumes do Catálogo do Unity, mas armazene-os como arquivos de workspace se forem arquivos de projeto em uma pasta git.

Comparação de recursos

A tabela a seguir compara as ofertas de recursos de arquivos de workspace e volumes do Catálogo do Unity.

Recurso Arquivos de workspace Volumes do Catálogo do Unity
Acesso a arquivos Os arquivos de workspace só podem ser acessados entre si no mesmo workspace. Os arquivos são acessíveis globalmente entre workspaces.
Acesso de programação Os arquivos podem ser acessados usando:

- APIs do Spark
- FUSE
- dbutils
- REST API
- SDKs do Databricks
- CLI do Databricks
Os arquivos podem ser acessados usando:

- APIs do Spark
- FUSE
- dbutils
- REST API
- SDKs do Databricks
- Conectores SQL do Databricks
- CLI do Databricks
- Provedor Terraform do Databricks
Pacotes de Ativos do Databricks Por padrão, todos os arquivos em um pacote, que inclui bibliotecas e objetos do Databricks como notebooks e consultas, são implantados com segurança como arquivos do workspace. As permissões são definidas na configuração do pacote. Os pacotes podem ser personalizados para incluir bibliotecas que já estejam em volumes quando as bibliotecas excederem o limite de tamanho dos arquivos do workspace. Confira Dependências da biblioteca de Pacotes de Ativos do Databricks.
Nível de permissão de arquivo As permissões estarão no nível da pasta Git se o arquivo estiver em uma pasta Git, caso contrário, as permissões serão definidas no nível do arquivo. As permissões estão no nível do volume.
Gerenciamento de permissões As permissões são gerenciadas pelo workspace ACLs e são limitadas ao workspace que contém. Metadados e permissões são gerenciados pelo Catálogo do Unity. Essas permissões são aplicáveis em todos os workspaces que têm acesso ao catálogo.
Montagem de armazenamento externo Não dá suporte à montagem de armazenamento externo Fornece a opção de apontar para conjuntos de dados pré-existentes no armazenamento externo criando um volume externo. Confira O que são os volumes do Catálogo do Unity?.
Suporte à UDF Sem suporte Há suporte para gravação de UDFs usando o FUSE de Volumes
Tamanho do arquivo Armazene arquivos menores com menos de 500 MB, como arquivos de código-fonte (.py, .md, .yml) necessários junto com notebooks. Armazene arquivos de dados muito grandes em limites determinados pelos provedores de serviços de nuvem.
Carregar e baixar Suporte para upload e download de até 10 MB. Suporte para upload e download de até 5 GB.
Suporte à criação de tabela As tabelas não podem ser criadas com arquivos de workspace como o local. As tabelas podem ser criadas a partir de arquivos em um volume executando COPY INTO, carregador automático ou outras opções descritas em Ingerir dados em um databricks lakehouse.
Estrutura de diretório e caminhos de arquivo Os arquivos são organizados em diretórios aninhados, cada um com seu próprio modelo de permissão:

- Diretórios domésticos do usuário, um para cada usuário e entidade de serviço no workspace
- Pastas do Git
- Compartilhado
Os arquivos são organizados em diretórios aninhados dentro de um volume

Veja Como você pode acessar dados no Catálogo do Unity?.
Histórico de arquivos Use a pasta do Git nos workspaces para controlar as alterações de arquivo. Os logs de auditoria estão disponíveis.