Definir configurações para trabalhos do Azure Databricks

Esse artigo fornece detalhes sobre como configurar trabalhos do Azure Databricks e tarefas de trabalho individuais na interface do usuário de trabalhos. Para saber mais sobre como usar a CLI do Databricks para editar as configurações do trabalho, execute o comando CLI databricks jobs update -h. Para saber mais sobre como usar a API de Trabalhos, consulte a API de Trabalhos.

Algumas opções de configuração estão disponíveis no trabalho e outras estão disponíveis em tarefas individuais. Por exemplo, o máximo de execuções simultâneas pode ser definido somente no trabalho, enquanto os parâmetros precisam ser definidos para cada tarefa.

Editar um trabalho

Para alterar a configuração de um trabalho:

  1. Clique no ícone TrabalhosFluxos de Trabalho na barra lateral.
  2. Na coluna Nome, clique no nome do trabalho.

O painel lateral exibe os Detalhes do trabalho. Você pode alterar o gatilho para o trabalho, configuração de computação, notificações, o número máximo de execuções simultâneas, configurar limites de duração e adicionar ou alterar marcas. Se o controle de acesso do trabalho estiver habilitado, você também poderá editar as permissões de trabalho.

Adicionar parâmetros para todas as tarefas de trabalho

Você pode configurar parâmetros em um trabalho que são passados para qualquer uma das tarefas do trabalho que aceitam parâmetros de valor-chave, incluindo arquivos de roda Python configurados para aceitar argumentos de palavras-chave. Os parâmetros definidos no nível do trabalho são adicionados aos parâmetros de nível de tarefa configurados. Os parâmetros de trabalho passados para tarefas são visíveis na configuração da tarefa, juntamente com todos os parâmetros configurados na tarefa.

Você também pode passar parâmetros de trabalho para tarefas que não estão configuradas com parâmetros chave-valor, como tarefas JAR ou Spark Submit. Para passar parâmetros de trabalho para essas tarefas, formate argumentos como {{job.parameters.[name]}}, substituindo [name] pelo key que identifica o parâmetro.

Os parâmetros de trabalho têm precedência sobre os parâmetros de tarefa. Se um parâmetro de trabalho e um parâmetro de tarefa tiverem a mesma chave, o parâmetro de trabalho substituirá o parâmetro de tarefa.

Você pode substituir parâmetros de trabalho configurados ou adicionar novos parâmetros de trabalho ao executar um trabalho com parâmetros diferentes ou reparar uma execução de trabalho.

Você também pode compartilhar o contexto sobre trabalhos e tarefas usando um conjunto de referências de valor dinâmico.

Para adicionar parâmetros de trabalho, clique em Editar parâmetros no painel lateral Detalhes do trabalho e especifique a chave e o valor padrão de cada parâmetro. Para exibir uma lista de referências de valor dinâmico disponíveis, clique em Procurar valores dinâmicos.

Adicionar marcas a um trabalho

Para adicionar rótulos ou atributos chave:valor ao seu trabalho, você pode adicionar marcas ao editar o trabalho. Você pode usar marcas para filtrar trabalhos na Lista de trabalhos; por exemplo, você pode usar uma marca department para filtrar todos os trabalhos que pertencem a um departamento específico.

Observação

Como as marcas de trabalho não foram projetadas para armazenar informações confidenciais, como informações de identificação pessoal ou senhas, o Databricks recomenda usar marcas somente para valores não confidenciais.

As marcas também se propagam para clusters de trabalho criados quando um trabalho é executado, permitindo que você use marcas com o monitoramento de cluster existente.

Para adicionar ou editar marcas, clique em + Marca no painel lateral Detalhes do trabalho. Você pode adicionar a marca como uma chave e um valor ou um rótulo. Para adicionar um rótulo, insira o rótulo no campo Chave e deixe o campo Valor vazio.

Configurar clusters compartilhados

Para ver as tarefas associadas a um cluster, clique na guia Tarefas e passe o mouse sobre o cluster no painel lateral. Para alterar a configuração de cluster de todas as tarefas associadas, clique em Configurar no cluster. Para configurar um novo cluster para todas as tarefas associadas, clique em Trocar no cluster.

Controlar o acesso a um arquivo

O controle de acesso ao trabalho permite que os proprietários e administradores do trabalho concedam permissões granulares em seus trabalhos. Os proprietários de trabalho podem escolher quais outros usuários ou grupos podem exibir os resultados do trabalho. Os proprietários também podem escolher quem pode gerenciar suas execuções de trabalho (permissões Executar agora e Cancelar execução).

Para obter informações sobre níveis de permissão de trabalho, veja ACLs de trabalho.

Você deve ter a permissão PODE GERENCIAR ou É PROPRIETÁRIO no trabalho para gerenciar permissões nele.

  1. Na barra lateral, clique em Execuções de trabalho.

  2. Clique no nome de um trabalho.

  3. No painel Detalhes do trabalho, clique em Editar permissões.

  4. Em Configurações de permissão, clique no menu suspenso Selecionar usuário, grupo ou entidade de serviço... e selecione um usuário, grupo ou entidade de serviço.

    Caixa de diálogo das configurações de permissões

  5. Clique em Adicionar.

  6. Clique em Save (Salvar).

Gerenciar o proprietário do trabalho

Por padrão, o criador de um trabalho tem a permissão É PROPRIETÁRIO e é o usuário na configuração Executar como do trabalho. O trabalho é executado como a identidade do usuário na configuração Executar como. Para obter mais informações sobre a configuração Executar como, confira Executar um trabalho como uma entidade de serviço.

Os administradores do workspace podem alterar o proprietário do trabalho para si mesmos. Quando a propriedade é transferida, o proprietário anterior recebe a permissão CAN MANAGE

Observação

Quando a configuração RestrictWorkspaceAdmins em um workspace é definida como ALLOW ALL, os administradores do workspace podem alterar um proprietário de trabalho para qualquer usuário ou entidade de serviço em seu workspace. Para restringir os administradores do workspace a alterarem apenas um proprietário de trabalho para si mesmos, confira Restringir administradores do workspace.

Configurar o máximo de execuções simultâneas

Clique em Editar execuções simultâneas em Configurações avançadas para definir o número máximo de execuções paralelas para este trabalho. O Azure Databricks ignorará a execução se o trabalho já tiver atingido seu número máximo de execuções ativas ao tentar iniciar uma nova execução. Defina esse valor como maior que o padrão de 1 para realizar várias execuções do mesmo trabalho simultaneamente. Isso é útil, por exemplo, se você dispara seu trabalho em um agendamento frequente e quer permitir que as execuções consecutivas se sobreponham ou se quer disparar várias execuções que tenham diferença nos parâmetros de entrada.

Habilitar fila de execuções de trabalho

Para permitir que as execuções de um trabalho sejam colocadas em uma fila para execução posterior quando não puderem ser executadas imediatamente devido aos limites de simultaneidade, clique no botão de alternância Fila em Configurações avançadas. Consulte E se meu trabalho não puder ser executado devido aos limites de simultaneidade?.

Observação

O enfileiramento está habilitado por padrão para trabalhos criados por meio da IU após 15 de abril de 2024.

Configurar um tempo de conclusão esperado ou um tempo limite para uma tarefa

Você pode configurar limites de duração opcionais para um trabalho, incluindo um tempo de conclusão esperado para o trabalho e um tempo máximo de conclusão para o trabalho. Para configurar limites de duração, clique em Definir limites de duração.

Para configurar um tempo de conclusão esperado para o trabalho, insira a duração esperada no campo Aviso. Se o trabalho exceder esse limite, você poderá configurar notificações para o trabalho de execução lenta. Consulte Configurar notificações para trabalhos lentos ou em atraso.

Para configurar um tempo máximo de conclusão para um trabalho, insira a duração máxima no campo Tempo limite. Se o trabalho não for concluído nesse tempo, o Azure Databricks definirá seu status como “Tempo Limite Atingido”.

Editar uma tarefa

Para definir opções de configuração de tarefa:

  1. Clique no ícone TrabalhosFluxos de Trabalho na barra lateral.
  2. Na coluna Nome, clique no nome do trabalho.
  3. Clique na guia Tarefas e selecione a tarefa a ser editada.

Definir dependências de tarefas

É possível definir a ordem de execução das tarefas em um trabalho usando o menu suspenso Depende de. Você pode definir esse campo como uma ou mais tarefas no trabalho.

Editar dependências da tarefa

Observação

Depende de não fica visível se o trabalho consiste em apenas uma tarefa única.

A configuração de dependências da tarefa cria um DAG (Grafo Direcionado Acíclico) da execução da tarefa, uma maneira comum de representar a ordem de execução em agendadores de trabalho. Por exemplo, considere o seguinte trabalho que consiste em quatro tarefas:

Diagrama de exemplo de dependências de tarefa

  • A Tarefa 1 é a tarefa raiz e não depende de nenhuma outra tarefa.
  • As Tarefas 2 e 3 dependem da conclusão da Tarefa 1.
  • Por fim, a Tarefa 4 depende da conclusão bem-sucedida das Tarefas 2 e 3.

O Azure Databricks executa tarefas upstream antes de executar tarefas downstream e as executa o máximo em paralelo possível. O diagrama abaixo ilustra a ordem de processamento dessas tarefas:

Fluxo de exemplo de dependências de tarefa

Configurar um cluster para uma tarefa

Para configurar o cluster em que uma tarefa é executada, clique no menu suspenso Cluster. Você pode editar um cluster de trabalho compartilhado, mas não pode excluir um cluster compartilhado se ele ainda é usado por outras tarefas.

Para saber mais sobre como selecionar e configurar clusters para executar tarefas, confira Usar a computação do Azure Databricks com seus trabalhos.

Configurar bibliotecas dependentes

As bibliotecas dependentes serão instaladas no cluster antes que a tarefa seja executada. Você precisa definir todas as dependências da tarefa para garantir que elas sejam instaladas antes do início da execução. Siga as recomendações em Gerenciar dependências da biblioteca para especificar as dependências.

Configurar um tempo de conclusão esperado ou um tempo limite para uma tarefa

Você pode configurar limites de duração opcionais para uma tarefa, incluindo um tempo de conclusão esperado para a tarefa e um tempo máximo de conclusão para a tarefa. Para configurar limites de duração, clique em Definir limites de duração.

Para configurar o tempo de conclusão esperado da tarefa, insira a duração no campo Aviso. Se a tarefa exceder esse limite, um evento será disparado. Você pode usar esse evento para notificar quando uma tarefa está sendo executada lentamente. Consulte Configurar notificações para trabalhos lentos ou em atraso.

Para configurar um tempo máximo de conclusão para um trabalho, insira a duração máxima no campo Tempo limite. Se o trabalho não for concluído nesse tempo, o Azure Databricks definirá seu status como “Tempo Limite Atingido”.

Configurar uma política de repetição para uma tarefa

Para configurar uma política que determina quando e quantas vezes as execuções de tarefas com falha são repetidas, clique em + Adicionar ao lado de Repetições. O intervalo de repetição é calculado em milissegundos entre o início da execução com falha e a repetição subsequente.

Observação

Se você configurar Tempo Limite e Novas Tentativas, o tempo limite se aplicará a cada tentativa.