Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Você pode criar e executar um trabalho usando a interface do usuário Jobs ou ferramentas de desenvolvedor, como a CLI do Databricks ou a API REST. Usando a interface do usuário ou a API, você pode reparar e executar novamente um trabalho com falha ou cancelado. Este artigo mostra como criar, configurar e editar trabalhos usando a interface do usuário do espaço de trabalho Jobs & Pipelines . Para obter informações sobre outras ferramentas, consulte o seguinte:
- Para saber mais sobre como usar a CLI do Databricks para criar e executar trabalhos, consulte O que é a CLI do Databricks?.
- Para saber mais sobre como usar a API de Trabalhos para criar e executar trabalhos, consulte Trabalhos na referência da API REST.
- Se preferir uma abordagem de infraestrutura como código (IaC) para configurar trabalhos, você pode usar o Databricks Asset Bundles. Para saber mais sobre como usar pacotes para configurar e orquestrar seus trabalhos, consulte Databricks Asset Bundles.
- Para saber como executar e agendar trabalhos diretamente em um bloco de anotações Databricks, consulte Criar e gerenciar trabalhos agendados do bloco de anotações.
Gorjeta
Para exibir um trabalho como YAML, clique no menu de opções à esquerda de Executar agora para o trabalho e, em seguida, clique em Alternar para a versão de código (YAML).
Qual é a configuração mínima necessária para um trabalho?
Todos os trabalhos no Azure Databricks exigem o seguinte:
- Uma tarefa que contém lógica a ser executada, como um bloco de anotações Databricks. Consulte Configurar e editar tarefas no Lakeflow Jobs
- Um recurso de computação para executar a lógica. O recurso de computação pode ser computação sem servidor, computação de trabalhos clássicos ou computação multiuso. Consulte Configurar computação para trabalhos.
- Um cronograma especificado para quando o trabalho deve ser executado. Opcionalmente, você pode omitir a definição de uma agenda e acionar o trabalho manualmente.
- Um nome único.
Criar uma nova tarefa
Esta secção descreve os passos para criar uma nova tarefa com um notebook e agendar utilizando a interface do utilizador do espaço de trabalho.
Os trabalhos contêm uma ou mais tarefas. Você cria um novo trabalho configurando a primeira tarefa para esse trabalho.
Nota
Cada tipo de tarefa tem opções de configuração dinâmica na interface do usuário do espaço de trabalho. Consulte Configurar e editar tarefas no Lakeflow Jobs.
- No espaço de trabalho, clique no
Jobs & Pipelines na barra lateral.
- Em Novo, clique em Trabalho.
- Insira um nome de tarefa.
- Selecione um bloco de anotações para o campo Caminho.
- Clique em Criar tarefa.
Se o espaço de trabalho não estiver habilitado para computação sem servidor para trabalhos, selecione uma opção Computação . O Databricks recomenda sempre usar a computação de trabalhos ao configurar tarefas.
Um novo trabalho aparece na lista de trabalhos do espaço de trabalho com o nome padrão New Job <date> <time>
.
Você pode continuar a adicionar mais tarefas dentro do mesmo trabalho, se necessário para seu fluxo de trabalho. Trabalhos com mais de 100 tarefas podem ter requisitos especiais. Para obter mais informações, consulte Trabalhos com um grande número de tarefas.
Agendar um trabalho
Você pode decidir quando seu trabalho será executado. Por padrão, ele só será executado quando você iniciá-lo manualmente, mas você também pode configurá-lo para ser executado automaticamente. Pode criar um gatilho para executar um trabalho numa agenda ou com base num evento.
Controlando o fluxo de tarefas dentro do trabalho
Ao configurar várias tarefas em trabalhos, você pode usar tarefas especializadas para controlar como as tarefas são executadas. Consulte Controlar o fluxo de tarefas no Lakeflow Jobs.
Selecione um trabalho para editar no espaço de trabalho
Para editar um trabalho existente com a interface do usuário do espaço de trabalho, faça o seguinte:
- Na barra lateral do espaço de trabalho do Azure Databricks, clique em Trabalhos & Pipelines.
- Opcionalmente, selecione os filtros Trabalhos e Propriedade de mim .
- Clique no link Nome da sua vaga.
Utilize a interface de tarefas para fazer o seguinte:
- Editar configurações de trabalho
- Renomear, clonar ou excluir um trabalho
- Adicionar novas tarefas a um trabalho existente
- Editar configurações de tarefas
Nota
Você também pode exibir as definições JSON para uso com a API REST get, create, e reset endpoints.
Editar configurações de trabalho
O painel lateral contém os detalhes do trabalho. Você pode alterar o gatilho de trabalho, a configuração de computação, as notificações, o número máximo de execuções simultâneas, configurar limites de duração e adicionar ou alterar tags. Você também pode editar permissões de trabalho se o controle de acesso ao trabalho estiver habilitado.
Adicionar parâmetros para todas as tarefas de trabalho
Os parâmetros configurados no nível do trabalho são passados para as tarefas do trabalho que aceitam parâmetros chave-valor, incluindo arquivos de roda Python configurados para aceitar argumentos de palavra-chave. Consulte Parametrizar trabalhos.
Adicionar tags a um trabalho
Para adicionar rótulos ou atributos de chave-valor ao seu trabalho, você pode adicionar tags ao editá-lo. Pode usar tags para filtrar empregos na lista de Empregos . Por exemplo, você pode usar uma department
tag para filtrar todos os trabalhos que pertencem a um departamento específico.
Nota
Como as tags de trabalho não são projetadas para armazenar informações confidenciais, como informações de identificação pessoal ou senhas, a Databricks recomenda o uso de tags apenas para valores não confidenciais.
As etiquetas também se propagam para clusters de tarefas criados quando uma tarefa é executada, permitindo que use as etiquetas com o seu monitoramento de cluster existente.
Clique em + Marcar no painel lateral Detalhes do trabalho para adicionar ou editar tags. Você pode adicionar a etiqueta como um rótulo ou um par chave-valor. Para adicionar um rótulo, insira o rótulo no campo Chave e deixe o campo Valor vazio.
Adicionar uma política de orçamento sem servidor a um trabalho
Se o espaço de trabalho usar políticas de orçamento serverless para atribuir o uso serverless, pode selecionar a política de orçamento serverless dos seus trabalhos usando a configuração de Política de orçamento no painel lateral de Detalhes do trabalho. Consulte Uso de atributos com políticas de orçamento sem servidor.
Renomear, clonar ou excluir um trabalho
Para renomear um trabalho, vá para a interface do usuário de trabalhos e clique no nome do trabalho.
Você pode criar rapidamente um novo trabalho clonando um trabalho existente. A clonagem de um trabalho cria uma cópia idêntica do trabalho, exceto para a ID do trabalho. Para clonar um trabalho, faça o seguinte:
- Vá para a interface da aplicação de empregos.
- Clique no
ao lado do botão Executar agora .
- Selecione tarefa de clonagem no menu suspenso.
- Insira um nome para o trabalho clonado.
- Clique em Clonar.
Excluir uma tarefa
Para excluir um trabalho, vá para a página do trabalho, clique no ao lado do nome do trabalho e selecione Excluir trabalho no menu suspenso.
Usar o Git com tarefas
Se o seu trabalho contiver tarefas que ofereçam suporte ao uso de um provedor Git remoto, a interface do usuário do trabalho conterá um campo Git e a opção de adicionar ou editar configurações do Git.
Você pode configurar os seguintes tipos de tarefa para usar um repositório Git remoto:
- Cadernos
- Scripts de Python
- Arquivos SQL
- DBT
Todas as tarefas num processo devem fazer referência ao mesmo commit no repositório remoto. Você deve especificar apenas uma das seguintes opções para um trabalho que usa um repositório remoto:
-
ramo: O nome do ramo, por exemplo,
main
. -
tag: o nome da tag, por exemplo,
release-1.0.0
. -
commit: o hash de uma confirmação específica, por exemplo,
e0056d01
.
Quando uma execução de uma tarefa começa, o Databricks tira um commit instantâneo do repositório remoto para assegurar que toda a tarefa seja executada na mesma versão do código.
Quando você visualiza o histórico de execução de uma tarefa que executa código armazenado em um repositório Git remoto, o painel Detalhes da execução da tarefa inclui detalhes do Git, incluindo o SHA de confirmação associado à execução. Consulte Ver histórico de execução de tarefas.
Nota
As tarefas configuradas para usar um repositório Git remoto não podem gravar em arquivos de espaço de trabalho. Essas tarefas devem gravar dados temporários em armazenamento efémero anexado ao nó condutor da computação configurada para executar a tarefa e dados persistentes em um volume ou tabela.
O Databricks recomenda referenciar caminhos de espaço de trabalho em pastas Git apenas para iteração e teste rápidos durante o desenvolvimento. À medida que você move trabalhos para preparação e produção, o Databricks recomenda configurá-los para fazer referência a um repositório Git remoto. Para saber mais sobre como usar um repositório Git remoto com um trabalho Databricks, consulte a seção a seguir.
Configurar um provedor Git
A interface do usuário de trabalhos tem uma caixa de diálogo para configurar um repositório Git remoto. Esta caixa de diálogo pode ser acessada a partir do painel Detalhes do trabalho sob o título Git ou em qualquer tarefa configurada para usar um provedor Git.
As opções exibidas para acessar a caixa de diálogo variam de acordo com o tipo de tarefa e se uma referência git já foi configurada para o trabalho. Os botões para iniciar a caixa de diálogo incluem Adicionar configurações do Git, Editar ou Adicionar uma referência do git.
Na caixa de diálogo Informações do Git (apenas rotulada como Git se for acessada pelo painel Detalhes do trabalho ), insira os seguintes detalhes:
- A URL do repositório Git.
- Selecione o seu fornecedor de Git a partir da lista suspensa.
- No campo de referência do Git, insira o identificador de uma ramificação, tag ou confirmação que corresponda à versão do código-fonte que você deseja executar.
- Selecione a ramificação , a tag ou o commit na lista suspensa.
Nota
A caixa de diálogo pode solicitar o seguinte: As credenciais do Git para esta conta estão faltando. Adicione credenciais. Você deve configurar um repositório Git remoto antes de usá-lo como referência. Consulte Configurar pastas Git do Databricks.
Configurar limites para a duração da execução de tarefas ou métricas de acumulação de streaming
Importante
A observabilidade de streaming para Lakeflow Jobs está em Visualização Pública.
Pode configurar limites opcionais para a duração da execução de trabalhos ou para métricas de atraso de streaming. Para configurar limites de duração ou de métricas de streaming, clique em Limites de duração e lista de pendências de streaming no painel Detalhes do trabalho.
Para configurar os limites de tempo de execução, incluindo os tempos de conclusão esperados e máximos para o trabalho, selecione Duração da execução no menu suspenso Métrica. Insira uma duração no campo Aviso para configurar o tempo esperado de conclusão do trabalho. Se o trabalho exceder esse limite, um evento será acionado. Você pode usar esse evento para notificar quando um trabalho está sendo executado lentamente. Consulte Configurar notificações para trabalhos lentos. Para configurar um tempo máximo de conclusão de um trabalho, insira a duração máxima no campo Tempo limite . Se o trabalho não for concluído neste período, o Azure Databricks altera o estado para "Tempo Esgotado".
Para configurar um limite para uma métrica de lista de pendências de streaming, selecione a métrica no menu suspenso Métrica e insira um valor para o limite. Para saber mais sobre as métricas específicas suportadas por uma fonte de streaming, consulte Exibir métricas para tarefas de streaming.
Se um evento for acionado porque um limite é excedido, você pode usar o evento para enviar uma notificação. Consulte Configurar notificações para trabalhos lentos.
Opcionalmente, você pode especificar limites de duração para tarefas. Consulte Configurar os limiares para a duração da execução da tarefa ou as métricas de atraso de transmissão.
Habilitar o enfileiramento de tarefas
Nota
O enfileiramento é habilitado por padrão para trabalhos criados por meio da interface do usuário após 15 de abril de 2024.
Para evitar que execuções de um trabalho sejam ignoradas devido a limites de simultaneidade, pode-se habilitar a colocação em fila para o trabalho. Quando a fila está habilitada, a execução permanece na fila até 48 horas, caso os recursos não estejam disponíveis para a execução de uma tarefa. Quando há capacidade, a tarefa é retirada da fila e executada. As execuções em fila são exibidas na lista de execuções para o trabalho e na lista de execuções recentes de trabalho.
Uma execução é enfileirada quando um dos seguintes limites é atingido:
- O máximo de ativos simultâneos é executado no espaço de trabalho.
- A tarefa simultânea
Run Job
máxima é executada no espaço de trabalho. - O número máximo de execuções simultâneas da tarefa.
O enfileiramento é uma propriedade de nível de tarefa que organiza a execução apenas para essa tarefa.
Para habilitar ou desabilitar a fila, clique em Configurações avançadas e clique no botão de alternância Fila no painel lateral Detalhes do trabalho .
Configurar o máximo de execuções simultâneas
Por padrão, o máximo de execuções simultâneas para todos os novos trabalhos é 1.
Clique em Editar execuções simultâneas em Configurações avançadas para definir o número máximo de execuções paralelas deste trabalho.
O Azure Databricks ignora a execução se o trabalho já tiver atingido seu número máximo de execuções ativas ao tentar iniciar uma nova execução.
Defina esse valor como maior que 1 para permitir várias execuções simultâneas do mesmo trabalho. Isso é útil, por exemplo, se o utilizador acionar o seu trabalho numa agenda frequente e quiser permitir que execuções consecutivas se sobreponham ou que sejam acionadas várias execuções com diferentes parâmetros de entrada.