Partilhar via


Compare os modos de deteção de arquivos do Auto Loader

Auto Loader suporta dois modos para detetar novos arquivos: listagem de diretório e notificação de arquivos. Você pode mudar os ajustes de descoberta de arquivos durante os reinícios de fluxo e ainda garantir o processamento de dados exatamente uma vez.

Modo de listagem de diretórios

No modo de listagem de diretórios, o Auto Loader identifica novos arquivos listando o diretório de entrada. O modo de listagem de diretórios permite que você inicie rapidamente fluxos do Auto Loader sem nenhuma configuração de permissão além do acesso aos seus dados no armazenamento em nuvem.

No Databricks Runtime 9.1 e superior, o Auto Loader pode detetar automaticamente se os arquivos estão chegando com pedidos lexicais ao seu armazenamento em nuvem e reduzir significativamente a quantidade de chamadas de API necessárias para detetar novos arquivos. Consulte Fluxos do carregador automático com o modo de listagem de diretórios para obter mais detalhes.

O modo de notificação de arquivos aproveita os serviços de notificação de arquivos e filas em sua conta de infraestrutura de nuvem. O Auto Loader pode configurar automaticamente um serviço de notificação e um serviço de fila que subscrevem eventos de ficheiros a partir do diretório de entrada. Se você habilitar eventos de arquivo no local externo que contém os arquivos em questão, não precisará fornecer permissões adicionais ao configurar o fluxo do Carregador Automático.

O modo de notificação de arquivo com eventos de arquivo é mais eficiente e escalável do que a listagem de diretórios. O Databricks recomenda o modo de notificação de arquivo usando eventos de arquivo em vez do modo de listagem de diretório para a maioria das cargas de trabalho. Se você estiver usando o Auto Loader no modo de listagem de diretórios hoje, o Databricks recomenda que você migre para o modo de notificação de arquivo usando eventos mfile para ver melhorias significativas de desempenho. Consulte Configurar fluxos do carregador automático no modo de notificação de arquivo.

Armazenamento na nuvem suportado em diferentes modos

Esta tabela lista a computação suportada para cada modo de deteção de ficheiros, por fornecedor de armazenamento na nuvem.

Se migrar de um local externo ou de um ponto de montagem do DBFS para um volume do Catálogo Unity, o Auto Loader continuará a fornecer garantias de execução única.

Armazenamento na nuvem Lista de diretórios Notificações de ficheiros sem eventos de ficheiros Notificações de ficheiro com eventos associados a ficheiro
AWS S3 Todas as versões Todas as versões Databricks Runtime 14.3 LTS ou posterior
ADLS Todas as versões Todas as versões Databricks Runtime 14.3 LTS ou posterior
GCS Todas as versões Todas as versões Databricks Runtime 14.3 LTS ou posterior
Armazenamento de Blobs do Azure Todas as versões Todas as versões Não suportado
DBFS Todas as versões Apenas para pontos de montagem Databricks Runtime 14.3 LTS e superior, se o ponto de montagem do DBFS tiver um local externo definido no Unity Catalog
Volume do catálogo Unity Databricks Runtime 13.3 LTS e versões posteriores Não suportado Databricks Runtime 14.3 LTS ou posterior