Compartilhar via


Desenvolver e depurar pipelines com um notebook (herdado)

Importante

Esse recurso está em Visualização Pública.

Este artigo descreve como usar um notebook no Lakeflow Spark Declarative Pipelines para desenvolver e depurar pipelines ETL.

Observação

Esta página descreve a experiência de edição do notebook legado. A experiência padrão recomendada é o Editor do Lakeflow Pipelines. Você pode usar o Editor do Lakeflow Pipelines para editar notebooks ou arquivos de código Python ou SQL para um pipeline. Para obter mais informações, consulte Desenvolva e depure pipelines ETL com o Editor de Pipelines do Lakeflow.

Para configurar a experiência do notebook descrita nesta página, desative o Editor do Lakeflow Pipelines. Consulte a Habilitação do Editor de Lakeflow Pipelines e o monitoramento atualizado.

Visão geral dos notebooks no Lakeflow Spark Declarative Pipelines

Ao trabalhar em um notebook Python ou SQL configurado como código-fonte para um pipeline existente, você pode conectar o notebook diretamente ao pipeline. Quando o notebook estiver conectado ao pipeline, os seguintes recursos estarão disponíveis:

  • Inicie e valide o pipeline do notebook.
  • Veja o gráfico do fluxo de dados do pipeline e o log de eventos da atualização mais recente no notebook.
  • Veja o diagnóstico do pipeline diretamente no editor do notebook.
  • Visualize o status do cluster do pipeline no notebook.
  • Acesse a interface Lakeflow Spark Declarative Pipelines a partir do notebook.

Pré-requisitos

  • É preciso ter um pipeline do DLT existente com um notebook do Python ou do SQL configurado como o código-fonte.
  • Você precisa ser o proprietário do pipeline ou ter o privilégio CAN_MANAGE.

Limitações

  • Os recursos abordados neste artigo só estão disponíveis nos notebooks do Azure Databricks. Não há suporte para arquivos de workspace.
  • O terminal web não está disponível quando ligado a um pipeline. Como resultado, ele não é visível como uma aba no painel inferior.

Conectar um notebook a um pipeline

No notebook, clique no menu suspenso usado para selecionar a computação. O menu suspenso exibe todos os Pipelines Declarativos do Lakeflow Spark que utilizam este notebook como código-fonte. Para conectar o notebook a um pipeline, selecione-o na lista.

Ver o status do cluster do pipeline.

Para entender facilmente o estado do cluster do pipeline, seu status é mostrado no menu suspenso de computação em verde para indicar que o cluster está em execução.

Validar o código do pipeline

Você pode validar o pipeline para verificar se há erros de sintaxe no código-fonte sem processar dados.

Para validar um pipeline, siga um destes procedimentos:

  • No canto superior direito do notebook, clique em Validar.
  • Pressione Shift+Enter em qualquer célula do notebook.
  • No menu suspenso de uma célula, clique em Validar pipeline.

Observação

Se você tentar validar o pipeline enquanto uma atualização existente já estiver em execução, uma caixa de diálogo será exibida perguntando se você quer encerrar a atualização existente. Se você clicar em Sim, a atualização existente será interrompida e uma atualização de validação será iniciada automaticamente.

Iniciar uma atualização de pipeline

Para iniciar uma atualização do seu pipeline, clique no botão Iniciar no canto superior direito do notebook. Consulte Como executar uma atualização de pipeline.

Exibir o status de uma atualização

O painel superior do notebook mostra se uma atualização do pipeline está:

  • Iniciando
  • Validando
  • Parar

Ver erros e diagnóstico

Depois que você iniciar uma atualização ou uma validação de pipeline, todos os erros serão exibidos em linha com um sublinhado vermelho. Passe o mouse sobre um erro para ver mais informações.

Ver eventos de pipeline

Quando conectado a um pipeline, há uma aba de log de eventos do Lakeflow Spark Declarative Pipelines na parte inferior do notebook.

Log de eventos

Ver o grafo do fluxo de dados do pipeline

Para visualizar o grafo de fluxo de dados de um pipeline, utilize a guia de grafo das Pipelines Declarativas do Spark no Lakeflow, localizada na parte inferior do notebook. Selecionar um nó no grafo exibe o esquema no painel direito.

Grafo do Fluxo de Dados

Como acessar a interface do usuário do Lakeflow Spark Declarative Pipelines no notebook

Para acessar facilmente a interface do usuário do Lakeflow Spark Declarative Pipelines, use o menu no canto superior direito do caderno.

Abrir na interface do usuário do LDP no notebook

Acessar os logs de driver e a interface do usuário do Spark no notebook

Os registros do driver e a interface de usuário do Spark associadas ao pipeline que está sendo desenvolvido podem ser facilmente acessados no menu Exibir do notebook.

Logs de driver de acesso e interface do usuário do Spark