Comparar modos de detecção de arquivo do Carregador Automático
O Carregador automático é compatível com dois modos de detecção de novos arquivos: listagem de diretórios e notificação de arquivo. Você pode alternar os modos de descoberta de arquivos nas reinicializações de fluxo e obter garantias de processamento de dados apenas uma vez.
Modo de listagem de diretório
No modo de listagem de diretório, o Carregador Automático identifica novos arquivos listando o diretório de entrada. O modo de listagem de diretórios permite que se inicie rapidamente fluxos do Carregador automático sem nenhuma configuração de permissão, além do acesso aos dados no armazenamento em nuvem.
No Databricks Runtime 9.1 e superiores, o Carregador automático pode detectar automaticamente se os arquivos estão vindo com ordenação lexical no armazenamento em nuvem e reduz significativamente a quantidade de chamadas à API necessárias para detectar novos arquivos. Consulte O que é o modo de listagem de diretório do Carregador Automático? para obter mais detalhes.
Modo de notificação de arquivo
O modo de notificação de arquivo aproveita os serviços de fila e notificação de arquivo na sua conta de infraestrutura de nuvem. O Carregador Automático pode configurar automaticamente um serviço de notificação e um serviço de fila que assinam eventos de arquivo do diretório de entrada.
O modo de notificação de arquivos é mais eficaz e escalonável para grandes diretórios de entrada ou alto volume de arquivos, mas requer permissões adicionais de nuvem para configuração. Para obter mais informações, confira O que é o modo de notificação de arquivo do Carregador Automático?.
Armazenamento em nuvem com suporte dos modos
A disponibilidade para esses modos está listada abaixo.
Se você migrar de um local externo ou uma montagem do DBFS para um volume do Catálogo do Unity, o Carregador Automático continuará fornecendo garantias de exatamente uma vez.
Armazenamento em nuvem | Listagem de diretório | Notificações de arquivos |
---|---|---|
AWS S3 | Todas as versões | Todas as versões |
ADLS Gen2 | Todas as versões | Todas as versões |
GCS | Todas as versões | Databricks Runtime 9.1 e superiores |
Armazenamento do Blobs do Azure | Todas as versões | Todas as versões |
ADLS Gen1 | Todas as versões | Sem suporte |
DBFS | Todas as versões | Somente para pontos de montagem |
Volume do Catálogo do Unity | Databricks Runtime 13.3 LTS e superior | Sem suporte |