Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Você pode criar e executar um trabalho usando a interface do usuário de trabalhos ou ferramentas de desenvolvedor, como a CLI do Databricks ou a API REST. Usando a interface do usuário ou a API, você pode reparar e executar novamente um trabalho com falha ou cancelado. Este artigo mostra como criar, configurar e editar trabalhos usando a interface do usuário do workspace Jobs &Pipelines . Para obter informações sobre outras ferramentas, consulte o seguinte:
- Para saber mais sobre como usar a CLI do Databricks para criar e executar trabalhos, consulte O que é a CLI do Databricks?.
- Para saber mais sobre como usar a API de Trabalhos para criar e executar trabalhos, consulte Trabalhos na referência da API REST.
- Se você preferir uma abordagem de IaC (infraestrutura como código) para configurar trabalhos, poderá usar pacotes de ativos do Databricks. Para saber mais sobre como usar pacotes para configurar e orquestrar seus trabalhos, consulte Pacotes de Ativos do Databricks.
- Para saber como executar e agendar trabalhos diretamente em um bloco de anotações Databricks, consulte Criar e gerenciar trabalhos de bloco de anotações agendados.
Dica
Para ver um trabalho como YAML, clique no menu de kebab à esquerda de Executar agora do trabalho e clique em Alternar para a versão de código (YAML).
Qual é a configuração mínima necessária para um trabalho?
Todos os trabalhos no Azure Databricks exigem o seguinte:
- Uma tarefa que contém lógica a ser executada, como um notebook do Databricks. Consulte Configurar e editar tarefas em Trabalhos do Lakeflow
- Um recurso de computação para executar a lógica. O recurso de computação pode ser computação sem servidor, computação de trabalhos clássica ou computação para todas as finalidades. Consulte Configurar a computação para trabalhos.
- Um agendamento especificado para quando o trabalho deverá ser executado. Opcionalmente, você pode omitir a configuração de um agendamento e acionar o trabalho manualmente.
- Um nome exclusivo.
Criar um novo trabalho
Esta seção descreve as etapas para criar um novo trabalho com uma tarefa de notebook e agendá-la usando a interface do usuário do espaço de trabalho.
Os trabalhos contêm uma ou mais tarefas. Você cria um novo trabalho configurando a primeira tarefa desse trabalho.
Observação
Cada tipo de tarefa tem opções dinâmicas de configuração na interface do usuário do workspace. Consulte Configurar e editar tarefas em Trabalhos do Lakeflow.
- No seu espaço de trabalho, clique no
Tarefas e Pipelines na barra lateral.
- Em Novo, clique em Trabalho.
- Insira um Nome de tarefa.
- Selecione um notebook para o campo Caminho.
- Clique em Criar tarefa.
Se o workspace não estiver habilitado para computação sem servidor para trabalhos, você deverá selecionar uma opção Computação. O Databricks sempre recomenda usar a computação de trabalhos ao configurar tarefas.
Um novo trabalho aparecerá na lista de trabalhos do workspace com o nome padrão New Job <date> <time>
.
Você pode continuar a adicionar mais tarefas no mesmo trabalho, se necessário para o fluxo de trabalho. Trabalhos com mais de 100 tarefas podem ter requisitos especiais. Para obter mais informações, consulte Trabalhos com um grande número de tarefas.
Agendando um trabalho
Você pode decidir quando seu trabalho é executado. Por padrão, ele só será executado quando você iniciá-lo manualmente, mas você também pode configurá-lo para ser executado automaticamente. Você pode criar um gatilho para executar uma tarefa de acordo com um agendamento ou com base em um evento.
Controlando o fluxo de tarefas dentro do trabalho
Ao configurar várias tarefas em trabalhos, você pode usar tarefas especializadas para controlar como as tarefas são executadas. Veja Controle o fluxo de tarefas dentro dos Lakeflow Jobs.
Selecione um trabalho para editar no espaço de trabalho
Para editar um trabalho existente com a interface do usuário do workspace, faça o seguinte:
- Na barra lateral do workspace do Azure Databricks, clique em
Jobs & Pipelines . - Opcionalmente, selecione os filtros Trabalhos e Propriedade minha .
- Clique no link Nome do seu trabalho.
Utilize a interface de usuário de tarefas para fazer o seguinte:
- Editar configurações de trabalho
- Renomear, clonar ou excluir um trabalho
- Adicionar novas tarefas a um trabalho existente
- Editar as configurações de tarefa
Observação
Você também pode ver as definições JSON para uso com os pontos de extremidade get, create e reset da API REST.
Editar configurações de trabalho
O painel lateral contém os Detalhes do trabalho. Você pode alterar o gatilho de trabalho, configuração de computação, notificações, o número máximo de execuções simultâneas, configurar limites de duração e adicionar ou alterar tags. Você também pode editar permissões de trabalho quando o controle de acesso ao trabalho está habilitado.
Adicionar parâmetros para todas as tarefas de trabalho
Os parâmetros configurados no nível do trabalho são passados para as tarefas do trabalho que aceitam parâmetros chave-valor, incluindo arquivos de roda do Python configurados para aceitar argumentos de palavra-chave. Confira Parametrizar trabalhos.
Adicionar etiquetas a uma tarefa
Para adicionar rótulos ou atributos de chave-valor ao seu trabalho, você pode adicionar tags ao editar o trabalho. Você pode usar tags para filtrar trabalhos na lista Trabalhos. Por exemplo, você pode usar uma tag department
para filtrar todos os trabalhos que pertencem a um departamento específico.
Observação
Como as marcas de trabalho não foram projetadas para armazenar informações confidenciais, como informações de identificação pessoal ou senhas, o Databricks recomenda usar marcas somente para valores não confidenciais.
As marcas também se propagam para clusters de trabalho criados quando um trabalho é executado, permitindo que você use marcas com o monitoramento de cluster existente.
Para adicionar ou editar tags, clique em + Tag no painel lateral Detalhes do trabalho. É possível adicionar a tag como um rótulo ou um par chave-valor. Para adicionar um rótulo, insira o rótulo no campo Chave e deixe o campo Valor vazio.
Adicionar uma política de orçamento sem servidor a um trabalho
Importante
Esse recurso está em Visualização Pública.
Se o workspace usar políticas de orçamento sem servidor para atribuir o uso sem servidor, você poderá selecionar a política de orçamento sem servidor de seus trabalhos usando a configuração de política de orçamento no painel de detalhes do trabalho . Consulte o uso de atributos com políticas de orçamento sem servidor.
Renomear, clonar ou excluir um trabalho
Para renomear um trabalho, acesse a interface do usuário dos trabalhos e clique no nome do trabalho.
Você pode criar rapidamente um novo trabalho clonando um trabalho existente. A clonagem de um trabalho cria uma cópia idêntica do trabalho, exceto pela ID do trabalho. Para clonar um trabalho, faça o seguinte:
- Acesse a interface do usuário do trabalho.
- Clique no
Ao lado do botão Executar agora .
- Selecione Clonar trabalho no menu suspenso.
- Insira um nome para o trabalho clonado.
- Clique em Clonar.
Excluir um trabalho
Para excluir um trabalho, vá para a página do trabalho, clique no ao lado do nome do trabalho e selecione Excluir trabalho no menu suspenso.
Usar o Git com tarefas
Se o trabalho contiver tarefas com suporte ao uso de um provedor Git remoto, a interface do usuário dos trabalhos conterá um campo Git e a opção de adicionar ou editar configurações do Git.
Você pode configurar os seguintes tipos de tarefa para usar um repositório Git remoto:
- Cadernos
- Scripts em Python
- Arquivos SQL
- dbt
Todas as tarefas de um trabalho precisam referenciar o mesmo commit no repositório remoto. Você deve especificar apenas uma das seguintes opções para um trabalho que use um repositório remoto:
-
branch: o nome do branch, por exemplo,
main
. -
tag: o nome da etiqueta, por exemplo,
release-1.0.0
. -
commit: o hash de um commit específico, por exemplo,
e0056d01
.
Quando a execução de um trabalho começa, o Databricks faz uma confirmação de instantâneo do repositório remoto para garantir que todo o trabalho seja executado na mesma versão do código.
Quando você visualiza o histórico de execução de uma tarefa que executa o código armazenado em um repositório Git remoto, o painel Detalhes da execução da tarefa inclui detalhes do Git, incluindo o SHA de confirmação associado à execução. Veja Ver histórico de execução da tarefa.
Observação
As tarefas configuradas para usar um repositório Git remoto não podem gravar em arquivos de workspace. Essas tarefas precisam gravar dados temporários no armazenamento efêmero conectado ao nó do driver da computação configurado para executar a tarefa e os dados persistentes em um volume ou uma tabela.
O Databricks recomenda referenciar caminhos de workspace em pastas Git apenas para iteração e teste rápidos durante o desenvolvimento. À medida que você move trabalhos para preparo e produção, o Databricks recomenda configurar esses trabalhos para fazer referência a um repositório Git remoto. Para saber mais sobre como usar um repositório Git remoto com um trabalho do Databricks, consulte a seção a seguir.
Configurar um provedor Git
A interface do usuário de trabalhos tem uma caixa de diálogo para configurar um repositório Git remoto. Essa caixa de diálogo pode ser acessada no painel Detalhes do trabalho sob o título Git ou em qualquer tarefa configurada para usar um provedor Git.
As opções exibidas para acessar a caixa de diálogo variam de acordo com o tipo de tarefa e se já existe ou não uma referência git configurada para o trabalho. Os botões para iniciar a caixa de diálogo incluem Adicionar configurações do Git, Editar ou Adicionar uma referência do Git.
Na caixa de diálogo Informações do Git (rotulada apenas como Git se for acessada pelo painel Detalhes do trabalho), insira os seguintes detalhes:
- URL do repositório Git.
- Selecione seu provedor Git na lista suspensa.
- No campo Referência do Git, insira o identificador de um branch, tag ou commit que corresponda à versão do código-fonte que você deseja executar.
- Selecione branch, tagou commit na lista suspensa.
Observação
A caixa de diálogo pode solicitar o seguinte: As credenciais do Git para esta conta estão ausentes. Adicione as credenciais. Você deve configurar um repositório Git remoto antes de usá-lo como referência. Consulte Configurar pastas Git do Databricks.
Configurar limites para a duração da execução de tarefas ou métricas da lista de pendências de streaming
Importante
A observabilidade de streaming para Trabalhos do Lakeflow está em Visualização Pública.
Você pode configurar limites opcionais para o tempo de execução do trabalho ou métricas de acúmulo de streaming. Para configurar os limites de duração ou de métrica de streaming, clique em Duração e limites da lista de pendências de streaming no painel Detalhes do trabalho.
Para configurar os limites de duração do trabalho, incluindo os tempos de conclusão esperados e máximos para o trabalho, selecione Duração da execução no menu suspenso Métrica. Insira uma duração no campo Aviso para configurar o tempo de conclusão esperado do trabalho. Um evento será disparado se o trabalho exceder esse limite. Você pode usar esse evento para notificar quando um trabalho estiver sendo executado lentamente. Consulte Configurar notificações para trabalhos lentos. Para configurar um tempo máximo de conclusão para um trabalho, insira a duração máxima no campo Tempo limite. Se o trabalho não for concluído nesse tempo, o Azure Databricks definirá seu status como “Tempo Limite Atingido”.
Para configurar um limite para uma métrica de lista de pendências de streaming, selecione a métrica no menu suspenso Métrica e insira um valor para o limite. Para saber mais sobre as métricas específicas compatíveis com uma fonte de streaming, confira Exibir métricas para tarefas de streaming.
Se um evento for disparado porque um limite é excedido, você poderá usar o evento para enviar uma notificação. Consulte Configurar notificações para trabalhos lentos.
Opcionalmente, você pode especificar limites de duração para tarefas. Veja Configurar limites para a duração da execução de tarefas ou métricas da lista de pendências de streaming.
Habilitar fila de execuções de trabalho
Observação
O enfileiramento é habilitado por padrão para trabalhos criados por meio da interface do usuário após 15 de abril de 2024.
Para evitar que execuções de um trabalho sejam ignoradas devido a limites de simultaneidade, você pode habilitar o enfileiramento para o trabalho. Quando a fila está ativada, a execução é enfileirada por até 48 horas se os recursos não estiverem disponíveis para uma execução de trabalho. Quando a capacidade está disponível, a execução do trabalho é desenfileirada e executada. As execuções em fila são exibidas na lista de execuções do trabalho e na lista de execuções de trabalho recentes.
Uma execução é enfileirada quando um dos seguintes limites é atingido:
- O máximo de ativos simultâneos é executado no espaço de trabalho.
- O máximo de
Run Job
tarefas simultâneas é executado no espaço de trabalho. - O número máximo de execuções simultâneas da tarefa.
O enfileiramento é uma propriedade de nível de trabalho que enfileira execuções apenas para esse trabalho.
Para habilitar ou desabilitar o enfileiramento, clique em Configurações avançadas e clique no botão Alternar Fila no painel lateral detalhes do trabalho .
Configurar execuções simultâneas máximas
Por padrão, o máximo de execuções simultâneas para todos os novos trabalhos é 1.
Clique em Editar execuções simultâneas em Configurações avançadas para definir o número máximo de execuções paralelas deste trabalho.
O Azure Databricks ignora a execução se o trabalho já atingiu seu número máximo de execuções ativas ao tentar iniciar uma nova execução.
Defina esse valor acima de 1 para permitir várias execuções simultâneas do mesmo trabalho. Isso é útil, por exemplo, se você iniciar seu trabalho em um agendamento frequente e quiser habilitar execuções consecutivas para ocorrerem simultaneamente ou executar várias execuções que se diferenciam por seus parâmetros de entrada.