Compartilhar via


Monitorar pipelines na interface do usuário

Esta seção descreve o uso de recursos internos de monitoramento e observabilidade para o Lakeflow Spark Declarative Pipelines na interface do usuário do Azure Databricks. Esses recursos dão suporte a tarefas como:

Adicionar notificações por email para eventos de pipeline

Você pode configurar um ou mais endereços de email para receber notificações quando o seguinte ocorrer:

  • Uma atualização de pipeline for concluída com êxito.
  • Falha na atualização do pipeline, com um erro que pode ou não ser repetido. Selecione esta opção para receber uma notificação para todas as falhas de pipeline.
  • Uma atualização do pipeline falha com um erro que pode ou não ser repetido (fatal). Selecione esta opção para receber uma notificação somente quando ocorrer um erro não retível.
  • Um único fluxo de dados falha.

Para definir notificações por email, edite as configurações de um pipeline. Consulte Notificações.

Observação

Crie respostas personalizadas a eventos, incluindo notificações ou manipulação personalizada, usando ganchos de evento do Python.

Exibir pipelines na interface do usuário

Localize seu pipeline no ícone Fluxos de Trabalho. Opção Trabalhos & Pipelines na barra lateral do espaço de trabalho. Isso abre a página Trabalhos e pipelines, na qual você pode exibir informações sobre cada trabalho e pipeline ao qual tem acesso. Clique no nome de um pipeline para abrir a página de monitoramento dele. Para editar o trabalho ou pipeline, clique no ícone do menu Kebab. e escolha Editar.

Observação

Postos de trabalho e tipos de pipeline diferentes têm editores distintos. A opção Editar abrirá o editor correto para o objeto selecionado.

Usar a lista de Trabalhos e pipelines

Para exibir a lista de pipelines aos quais você tem acesso, clique no ícone Fluxos de Trabalho.Trabalhos &pipelines na barra lateral. A guia Trabalhos e pipelines lista informações sobre todos os trabalhos e pipelines disponíveis, como o criador, o gatilho (se houver) e o resultado das últimas cinco execuções.

Clicar no nome de um pipeline ou tarefa leva você à página de monitoramento desse pipeline ou tarefa. Para editar o pipeline ou o trabalho, clique no ícone de menu Kebab. Em seguida, selecione Editar.

Para alterar as colunas exibidas na lista, clique no ícone Configurações de coluna e selecione ou desmarque colunas. Por exemplo, para adicionar a Pipeline Type coluna como uma, selecione essa coluna para exibir.

Você pode filtrar trabalhos na lista de Trabalhos e pipelines conforme mostrado na captura de tela a seguir.

Exibição de lista de pipelines com chamadas.

  1. Pesquisa de texto: há suporte para a pesquisa de palavra-chave para os campos Nome e ID . Para pesquisar uma marca criada com uma chave e um valor, você pode pesquisar pela chave, pelo valor ou pela chave e pelo valor. Por exemplo, para uma marca com a chave department e o valor finance, você pode pesquisar department ou finance para encontrar trabalhos correspondentes. Para pesquisar pela chave e pelo valor, insira a chave e o valor separados por dois-pontos (por exemplo, department:finance).
  2. Tipo: filtrar por Trabalhos, Pipelines ou Todos. Se você selecionar Pipelines, poderá também filtrar pelo tipo de pipeline, que abrange os pipelines de ETL e de ingestão.
  3. Proprietário: mostre apenas os trabalhos que você possui.
  4. Favoritos: mostrar trabalhos que você marcou como favoritos.
  5. Marcas: Use marcas. Para pesquisar por marca, você pode usar o menu suspenso de marcas para filtrar até cinco marcas ao mesmo tempo ou usar diretamente a pesquisa de palavras-chave.
  6. Executar como: filtrar por até dois valores run as.

Para iniciar um trabalho ou um pipeline, clique no botão Ícone de Reprodução de reprodução. Para parar um trabalho ou um pipeline, clique no botão Ícone de Parada de parada. Para acessar outras ações, clique no ícone do menu Kebab.. Por exemplo, você pode editar ou excluir o trabalho ou o pipeline, ou acessar as configurações de um pipeline a partir desse menu.

Detalhes do pipeline disponíveis na página de monitoramento

Observação

Há várias previsões que podem afetar o que você vê ao monitorar pipelines na interface de usuário.

Clicar no nome de um pipeline na página Trabalhos &Pipelines mostra a página de monitoramento desse pipeline. A partir daqui, você pode iniciar uma execução de pipeline e exibir os detalhes da execução anterior.

O grafo de pipeline (também chamado de DAG) é exibido assim que uma atualização para um pipeline é iniciada com êxito. As setas representam dependências entre conjuntos de dados em seu pipeline. Por padrão, a página de monitoramento de pipeline mostra a atualização mais recente da tabela, mas você pode selecionar atualizações mais antigas em um menu suspenso.

Os detalhes incluem a ID do pipeline, o código-fonte, o custo de computação, a edição do produto e o canal configurado para o pipeline.

Para ver uma visualização tabular de conjuntos de dados, clique na guia Lista. A visualização Lista permite que você veja todos os conjuntos de dados em seu pipeline representados como uma linha em uma tabela e é útil quando o grafo de pipeline é muito grande para visualizar na visualização Graph. Você pode controlar os conjuntos de dados exibidos na tabela usando vários filtros, como nome, tipo e status do conjunto de dados. Para alternar de volta para a visualização do DAG, clique em Graph.

O usuário Executar como é o proprietário do pipeline e as atualizações de pipeline são executadas com as permissões desse usuário. Para alterar o run as usuário, clique em Permissões e altere o proprietário do pipeline.

Quais são as alterações no Editor do Lakeflow Pipelines?

Se você optou pela prévia do Editor do Lakeflow Pipelines e pela nova interface de monitoramento de pipeline, algumas informações estarão dispostas em locais diferentes dentro da interface. Para obter informações sobre o Editor do Lakeflow Pipelines e optar por ambas as versões prévias, consulte Habilitar o Editor do Lakeflow Pipelines e o monitoramento atualizado.

Importante

Esse recurso está em Visualização Pública.

As seguintes alterações no monitoramento com a página de monitoramento de pipeline são exibidas quando aceitas em ambas as versões prévias:

  • Os detalhes do Pipeline e as guias detalhes de atualização no painel direito foram mesclados com detalhes do pipeline na parte superior, seguidos pelos detalhes da atualização.

  • Clicar em uma tabela no grafo não mostra os detalhes da tabela no painel direito. O painel direito continua mostrando o pipeline e atualizando os detalhes. Em vez disso, o painel inferior mostra as informações da tabela.

  • As regras para executar um pipeline no modo de desenvolvimento são ligeiramente atualizadas. Para obter informações sobre o modo de desenvolvimento, consulte o modo de desenvolvimento.

    • Executar um pipeline por meio de um agendamento ou gatilho segue a configuração de pipeline para usar o modo de desenvolvimento. Você pode alterar o padrão de um pipeline nas configurações do Pipeline.
    • Executar um pipeline por meio da interface do usuário de monitoramento usará o modo definido nas configurações do pipeline. Você pode escolher se deseja usar o modo de desenvolvimento usando a opção Executar com configurações diferentes na lista suspensa.
    • A execução de um pipeline do editor de pipeline será o padrão para o modo de desenvolvimento. Você pode optar por não usar o modo de desenvolvimento usando a opção Executar com configurações diferentes na lista suspensa.
  • Não há mais um link para o código-fonte nos detalhes do pipeline. Em vez disso, escolha Editar pipeline na parte superior. Para ir para o código de uma tabela específica, passe o mouse sobre a tabela no DAG e clique no ícone de código de arquivo.Navegue até o botão de código .

  • O log de eventos não é mais mostrado por padrão em cada atualização da página de monitoramento do pipeline. Quando há um erro durante o processamento, os erros são mostrados no painel inferior e um botão Exibir logs é mostrado para exibir o log de eventos para essa execução. O log de eventos também está disponível selecionando o ícone de modo Leitor.Exiba o log de eventos dos detalhes da execução no painel direito.

    Para acessar o log de eventos ao executar uma atualização no novo Editor do Lakeflow Pipelines, navegue até o painel Problemas e Insights na parte inferior do editor, clique em Exibir logs ou no botão Abrir em logs ao lado de qualquer erro. Para obter mais detalhes, consulte o Editor de pipelines do Lakeflow e a Configuração de pipeline para o log de eventos.

  • As informações de esquema de tabela estão disponíveis escolhendo a tabela na guia Tabelas do painel inferior e selecionando Colunas.

  • O histórico de consultas está disponível escolhendo Desempenho no painel inferior.

  • Os comentários da tabela não estão disponíveis na página de detalhes do pipeline. Para ver os comentários da tabela, exiba a tabela do Gerenciador de Catálogos. Para ir diretamente para a tabela no Gerenciador de Catálogos, passe o mouse sobre a tabela no DAG, clique no ícone de menu Kebab e, em seguida, no ícone Dados.Exibir no catálogo. Você também pode acessar as informações no Gerenciador de Catálogos na lista de tabelas no painel inferior clicando no ícone Dados.

Quais alterações estão na versão prévia da Lista de Execuções Unificadas?

Se você tiver a visualização da Lista de Execuções Unificadas habilitada, você poderá ver atualizações de execução de pipeline na página Trabalhos & Pipelines.

Importante

A lista de execuções unificadas está na Visualização Pública.

Para habilitar a Lista de Execuções Unificadas, um administrador do workspace deve aderir ao preview. Para obter detalhes sobre como aceitar uma versão prévia, consulte Gerenciar visualizações no nível da conta.

Para acessar a lista de execuções unificadas, selecione o ícone de Checklist. Execuções na barra lateral do espaço de trabalho ou clique no ícone de Fluxos de Trabalho.Trabalhos & Pipelines e escolha a guia Execuções.

A aba mostra uma lista de execuções recentes ao longo dos últimos 60 dias. Um gráfico mostrando as execuções bem-sucedidas e falhas nas últimas 48 horas é exibido primeiro, nos seguintes casos:

  • Você está filtrado apenas para Tarefas ou Pipelines.
  • Você é um administrador ou deve filtrar somente para execuções Run as: Me
  • Execuções podem levar até uma hora para serem exibidas no gráfico.

Você pode filtrar a lista e o grafo:

  • Nome da tarefa ou pipeline.
  • Todos, trabalhos ou pipelines.
  • Tipo de pipeline (ETL, Ingestão, MV/ST ou Sincronização de Tabela de Banco de Dados).
  • O Executar como usuário.
  • A hora de início da execução (nas últimas 48 horas).
  • O Status de execução.
  • O código de erro para execuções com falha.

Além do indicado acima, você pode exibir as seguintes colunas na lista:

  • Hora de término
  • ID de Execução
  • Se a execução foi iniciada manualmente ou por um agendamento.
  • Duração da execução.
  • Executar parâmetros.

Para alterar as colunas exibidas na lista de execuções, clique no ícone Colunas e selecione ou desmarque colunas.

Clicar na hora de início, hora de término ou nome de uma execução de pipeline leva você para a página de monitoramento do pipeline.

Quando um pipeline está em execução ativamente, você pode interromper a execução clicando no botão Parar. A qualquer momento, você também pode clicar no ícone de menu Kebab. Botão de menu na linha para a execução e escolher Editar pipeline para exibir o pipeline no editor.

Como você pode exibir detalhes do conjunto de dados?

Clicar em um conjunto de dados no gráfico de pipeline ou na lista de conjuntos de dados mostra detalhes sobre o conjunto de dados. Os detalhes incluem o esquema do conjunto de dados, as métricas de qualidade de dados e um link para o código-fonte que define o conjunto de dados.

Exibir o histórico de atualizações

Para exibir o histórico e o status das atualizações do pipeline, clique no menu suspenso do histórico de atualizações na barra superior.

Selecione a atualização no menu suspenso para exibir o grafo, detalhes e eventos de uma atualização. Para retornar à atualização mais recente, clique em Mostrar a atualização mais recente.

Exibir métricas de streaming

Importante

A observabilidade de streaming para pipelines está em Visualização Pública.

Você pode exibir métricas de streaming das fontes de dados compatíveis com o Streaming Estruturado do Spark, como o Apache Kafka, o Amazon Kinesis, o Carregador Automático e as tabelas Delta, para cada fluxo de streaming em seu pipeline. As métricas são exibidas como gráficos no painel direito da interface do usuário do pipeline e incluem segundos de backlog, bytes de backlog, registros de backlog e arquivos de backlog. Os gráficos exibem o valor máximo agregado por minuto e uma dica de ferramenta mostra os valores máximos quando você passa o mouse sobre o gráfico. Os dados são limitados às últimas 48 horas a partir do horário atual.

As tabelas em seu pipeline com métricas de streaming disponíveis exibem o ícone ícone de gráfico LDP ao exibir o DAG do pipeline no modo de exibição gráfico da interface do usuário. Para exibir as métricas de streaming, clique no Ícone do Gráfico LDP para exibir o gráfico de métricas de streaming na guia Fluxos no painel direito. Você também pode aplicar um filtro para exibir apenas tabelas com métricas de streaming clicando em Lista e clicando em Há métricas de streaming.

Cada fonte de streaming dá suporte apenas a métricas específicas. As métricas não compatíveis com uma fonte de streaming não estão disponíveis para exibição na interface do usuário. A tabela a seguir mostra as métricas disponíveis para fontes de streaming com suporte:

fonte bytes da lista de pendências registros de lista de pendências segundos da lista de pendências arquivos de lista de pendências
Kafka
Kinesis
Delta
Carregador Automático
Google Pub/Sub