Disparar trabalhos quando novos arquivos chegarem

É possível usar gatilho de chegada de arquivo para disparar uma execução do seu trabalho no Azure Databricks quando novos arquivos chegarem em um local externo, como o Armazenamento do Microsoft Azure, o Amazon S3 ou o Google Cloud Storage. Você pode usar esse recurso quando um trabalho agendado pode ser ineficiente porque novos dados chegam em um agendamento irregular.

Os gatilhos de chegada de arquivo fazem um melhor esforço para verificar novos arquivos a cada minuto, embora isso possa ser afetado pelo desempenho do armazenamento em nuvem subjacente. Os gatilhos de chegada de arquivos não incorrem em custos adicionais além dos custos do provedor de nuvem associados à listagem de arquivos no local de armazenamento.

Um gatilho de chegada de arquivo pode ser configurado para monitorar a raiz de um local ou volume externo do Catálogo do Unity ou um subcaminho de um local ou volume externo. Por exemplo, para o volume raiz do Catálogo do Unity /Volumes/mycatalog/myschema/myvolume/, os seguintes são caminhos válidos para um gatilho de chegada de arquivo:

/Volumes/mycatalog/myschema/myvolume/
/Volumes/mycatalog/myschema/myvolume/mydirectory/

Requisitos

Para usar os gatilhos de chegada de arquivos, é necessário ter os seguintes requisitos:

Limitações

  • Um máximo de cinquenta trabalhos pode ser configurado com um gatilho de chegada de arquivo em um workspace do Azure Databricks.
  • Um local de armazenamento configurado para um gatilho de chegada de arquivo pode conter até 10 mil arquivos. Os locais com mais arquivos não podem ser monitorados quanto à chegada de novos arquivos. Se o local de armazenamento configurado for um subcaminho de um local ou volume externo do Catálogo do Unity, o limite de 10 mil arquivos se aplicará ao subcaminho e não à raiz do local de armazenamento. Por exemplo, a raiz do local de armazenamento pode conter mais de 10 mil arquivos em seus subdiretórios, mas o subdiretório configurado não pode exceder o limite de 10 mil arquivos.
  • O caminho usado para um gatilho de chegada de arquivo não deve conter tabelas externas ou locais gerenciados de catálogos e esquemas.

Adicionar um gatilho de chegada de arquivo

Para adicionar um gatilho de chegada de arquivo para um trabalho:

  1. Na barra lateral, clique em Workflows.
  2. Na coluna Nome na guia Trabalhos, clique no nome do trabalho.
  3. No painel Detalhes do trabalho à direita, clique em Adicionar gatilho.
  4. Em Tipo de gatilho, selecione Chegada do arquivo.
  5. Em local de armazenamento, insira a URL da raiz ou um subcaminho de um local externo do Catálogo do Unity ou a raiz ou um subcaminho de um volume do Catálogo do Unity a ser monitorado.
  6. (Opcional) Configurar as opções avançadas:
    • Tempo mínimo entre acionamentos em segundos: o tempo mínimo de espera para disparar uma execução após a conclusão de uma execução anterior. Os arquivos que chegam nesse período disparam uma execução somente após a expiração do tempo de espera. Use essa configuração para controlar a frequência da criação de execuções.
    • Aguardar após a última alteração em segundos: o tempo de espera para disparar uma execução após a chegada do arquivo. A chegada de outro arquivo dentro desse período redefine o temporizador. Essa configuração pode ser usada quando os arquivos chegam em lotes e o lote inteiro precisa ser processado após a chegada de todos os arquivos.
  7. Para validar a configuração, clique em Testar conexão.
  8. Clique em Save (Salvar).

Receber notificações de gatilhos de chegada de arquivo com falha

Para ser notificado se um gatilho de chegada de arquivo não for avaliado, configure notificações de destino do sistema ou email em caso de falha no trabalho. Confira Adicionar notificações de email e sistema para eventos de trabalho.