Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Este artigo descreve o uso do Lakeflow Pipelines Editor para desenvolver e depurar pipelines ETL (extrair, transformar e carregar) em Lakeflow Spark Declarative Pipelines (SDP).
Observação
O Lakeflow Pipelines Editor está habilitado por padrão. Você pode desativá-lo ou reativá-lo se ele tiver sido desativado. Ver Ativar o Lakeflow Pipelines Editor e monitorização atualizada.
O que é o Lakeflow Pipelines Editor?
O Lakeflow Pipelines Editor é um IDE construído para o desenvolvimento de pipelines. Ele combina todas as tarefas de desenvolvimento de pipeline numa única superfície, suportando fluxos de trabalho em que primeiro vem o código, organização do código baseada em pastas, execução seletiva, pré-visualizações de dados e gráficos de pipeline. Integrado com a plataforma Azure Databricks, também permite o controlo de versão, revisões de código e execuções agendadas.
Visão geral da interface do usuário do Lakeflow Pipelines Editor
A imagem a seguir mostra o Lakeflow Pipelines Editor:
A imagem mostra as seguintes características:
- Explorador de ativos de pipeline: crie, elimine, renomeie e organize ativos de pipeline. Também inclui atalhos para a configuração do pipeline.
- Editor de código de vários arquivos com guias: trabalhe em vários arquivos de código associados a um pipeline.
- Barra de ferramentas específica do pipeline: inclui opções de configuração de pipeline e tem ações de execução no nível do pipeline.
- Gráfico acíclico direcionado interativo (DAG): obtenha uma visão geral de suas tabelas, abra a barra inferior de visualizações de dados e execute outras ações relacionadas à tabela.
- Pré-visualização de dados: Inspecione os dados das suas tabelas de streaming e vistas materializadas.
- Perceções de execução ao nível de tabela: obtenha perceções de execução para todas as tabelas ou para uma única tabela num pipeline. As informações referem-se à execução mais recente do pipeline.
- Painel Problemas: esse recurso resume os erros em todos os arquivos no pipeline e você pode navegar até onde o erro ocorreu dentro de um arquivo específico. Complementa os indicadores de erro codificados.
- Execução seletiva: O editor de código tem recursos para desenvolvimento passo a passo, como a capacidade de atualizar tabelas somente no arquivo atual usando a ação Executar arquivo ou uma única tabela.
- Estrutura de pastas de pipeline padrão: os novos pipelines incluem uma estrutura de pastas predefinida e um código de exemplo que você pode usar como ponto de partida para seu pipeline.
- Criação simplificada de pipeline: forneça um nome, catálogo e esquema onde as tabelas devem ser criadas por padrão e um pipeline é criado usando as configurações padrão. Mais tarde, você pode ajustar Configurações na barra de ferramentas do editor de pipeline.
Criar um novo pipeline de ETL
Para criar um novo pipeline ETL usando o Lakeflow Pipelines Editor, siga estas etapas:
Na parte superior da barra lateral, clique no
Novo e, em seguida, selecione
Pipeline ETL.
Na parte superior, você pode dar ao seu pipeline um nome exclusivo.
Logo abaixo do nome, você pode ver o catálogo padrão e o esquema que foram escolhidos para você. Modifique-os para dar ao seu pipeline predefinições diferentes.
O catálogo padrão e o esquema padrão são onde os conjuntos de dados são lidos ou gravados quando você não qualifica conjuntos de dados com um catálogo ou esquema em seu código. Consulte Objetos de banco de dados no Azure Databricks para obter mais informações.
Selecione sua opção preferida para criar um pipeline, escolhendo uma das seguintes opções:
- Comece com código de exemplo em SQL para criar um novo pipeline e estrutura de pastas, incluindo código de exemplo em SQL.
- Comece com código de exemplo em Python para criar um novo pipeline e estrutura de pastas, incluindo código de exemplo em Python.
- Comece com uma única transformação para criar um novo pipeline e estrutura de pastas, com um novo arquivo de código em branco.
- Adicione ativos existentes para criar um pipeline que você pode associar a arquivos de código existentes em seu espaço de trabalho.
Você pode ter arquivos de código-fonte SQL e Python em seu pipeline ETL. Ao criar um novo pipeline e escolher um idioma para o código de exemplo, o idioma é apenas para o código de exemplo incluído no pipeline por padrão.
Ao fazer sua seleção, você é redirecionado para o pipeline recém-criado.
O pipeline ETL é criado com as seguintes configurações padrão:
- Catálogo Unity
- Canal atual
- Computação sem servidor
- Modo de desenvolvimento desativado. Essa configuração afeta apenas as execuções agendadas do pipeline. A execução do pipeline a partir do editor sempre assume como padrão o uso do modo de desenvolvimento.
Você pode ajustar essas configurações na barra de ferramentas do pipeline.
Como alternativa, você pode criar um pipeline ETL a partir do navegador de espaço de trabalho:
- Clique em Espaço de trabalho no painel do lado esquerdo.
- Selecione qualquer pasta, incluindo pastas Git.
- Clique em Criar no canto superior direito e clique em Pipeline ETL.
Você também pode criar um pipeline de ETL na página de trabalhos e pipelines:
- No espaço de trabalho, clique no
Jobs & Pipelines na barra lateral.
- Em Novo, clique em Pipeline ETL.
Abrir um pipeline ETL existente
Há várias maneiras de abrir um pipeline ETL existente no Lakeflow Pipelines Editor:
Abra qualquer arquivo de origem associado ao pipeline:
- Clique em Espaço de trabalho no painel lateral.
- Navegue até uma pasta com arquivos de código-fonte para seu pipeline.
- Clique no arquivo de código-fonte para abrir o pipeline no editor.
Abra um pipeline de dados editado recentemente:
- No editor, você pode navegar para outros pipelines editados recentemente clicando no nome do pipeline na parte superior do navegador de ativos e escolhendo outro pipeline na lista de recentes exibida.
- De fora do editor, na página Recentes na barra lateral esquerda, abra um pipeline ou um arquivo configurado como o código-fonte de um pipeline.
Ao visualizar um pipeline em todo o produto, você pode optar por editá-lo:
- Na página de monitorização de pipeline, clique no
Editar pipeline.
- Na página Job Runs na barra lateral esquerda, clique na guia Jobs & pipelines e clique no
e Editar pipeline.
- Ao editar um trabalho e adicionar uma tarefa de pipeline, você pode clicar no botão
ao escolher um pipeline em Pipeline.
- Na página de monitorização de pipeline, clique no
Se estiver a navegar Todos os arquivos no navegador de ativos e abrir um arquivo de código-fonte de outro pipeline, um banner é exibido no topo do editor, solicitando que abra o pipeline associado.
Navegador de recursos de pipeline
Quando estás a editar um pipeline, a barra lateral do espaço de trabalho à esquerda usa um modo especial chamado navegador de ativos do pipeline. Por padrão, o navegador de recursos do pipeline foca-se na raiz do pipeline, assim como nas pastas e ficheiros dentro da raiz. Você também pode optar por exibir Todos os arquivos para ver os arquivos fora da raiz do pipeline. As abas abertas no editor de pipeline durante a edição de um pipeline específico são guardadas e, quando se muda para outro pipeline, as abas da última vez que esse pipeline foi editado são restauradas.
Observação
O editor também tem contextos para editar ficheiros SQL (chamado Editor SQL Databricks) e um contexto geral para editar ficheiros de espaço de trabalho que não sejam ficheiros SQL ou ficheiros de pipeline. Cada um desses contextos lembra e restaura as abas que tinhas abertas da última vez que utilizaste esse contexto. Você pode alternar o contexto na parte superior da barra lateral esquerda. Clique no cabeçalho para escolher entre Espaço de trabalho, Editor SQL ou pipelines editados recentemente.
Quando você abre um arquivo na página do navegador Espaço de trabalho, ele é aberto no editor correspondente para esse arquivo. Se o arquivo estiver associado a um pipeline, esse é o Lakeflow Pipelines Editor.
Para abrir um arquivo que não faz parte do pipeline, mas mantém o contexto do pipeline, abra o arquivo na guia Todos os arquivos do navegador de ativos.
O navegador de ativos de pipeline tem duas guias:
- Pipeline: é onde você pode encontrar todos os arquivos associados ao pipeline. Você pode criá-los, excluí-los, renomeá-los e organizá-los em pastas. Esta guia também inclui atalhos para configuração de pipeline e uma exibição gráfica de execuções recentes.
- Todos os arquivos: Todos os outros ativos do espaço de trabalho estão disponíveis aqui. Isso pode ser útil para localizar arquivos a serem adicionados ao pipeline ou exibir outros arquivos relacionados ao pipeline, como um arquivo YAML que define um Databricks Asset Bundles.
Você pode ter os seguintes tipos de arquivos em seu pipeline:
- Arquivos de código-fonte: esses arquivos fazem parte da definição de código-fonte do pipeline, que pode ser vista em Configurações. O Databricks recomenda sempre armazenar arquivos de código-fonte dentro da pasta raiz do pipeline; caso contrário, eles são mostrados em uma seção de arquivo externo na parte inferior do navegador e têm um conjunto de recursos menos rico.
- Arquivos sem código-fonte: esses arquivos são armazenados dentro da pasta raiz do pipeline, mas não fazem parte da definição do código-fonte do pipeline.
Importante
Você deve usar o navegador de recursos do pipeline na guia Pipeline para gerenciar arquivos e pastas do seu pipeline. Isso atualiza as configurações do pipeline corretamente. Mover ou renomear arquivos e pastas do navegador do espaço de trabalho ou da guia Todos os arquivos quebra a configuração do pipeline e você deve resolver isso manualmente em Configurações.
Pasta raiz
O navegador de recursos de pipeline está ancorado numa pasta raiz de pipeline. Quando você cria um novo pipeline, a pasta raiz do pipeline é criada na pasta base do usuário e tem o mesmo nome que o nome do pipeline.
Você pode alterar a pasta raiz no explorador de recursos do pipeline. Isso é útil se você criou um pipeline em uma pasta e depois deseja mover tudo para uma pasta diferente. Por exemplo, você criou o pipeline em uma pasta normal e deseja mover o código-fonte para uma pasta Git para controle de versão.
- Clique no
para o menu suspenso da pasta raiz.
- Clique em Configurar nova pasta raiz.
- Em Pasta raiz do pipeline , clique em
e escolha outra pasta como a pasta raiz do pipeline. - Clique em Salvar.
No para a pasta raiz, você também pode clicar em Renomear pasta raiz para renomear o nome da pasta. Aqui, você também pode clicar em Mover pasta raiz para mover a pasta raiz, por exemplo, para uma pasta Git.
Você também pode alterar a pasta raiz do pipeline nas configurações:
- Clique em Configurações.
- Em Ativos de código , clique em Configurar caminhos.
- Clique em
para alterar a pasta em Pasta raiz do pipeline. - Clique em Salvar.
Observação
Se você alterar a pasta raiz do pipeline, a lista de arquivos exibida pelo navegador de ativos do pipeline será afetada, pois os arquivos na pasta raiz anterior serão mostrados como arquivos externos.
Pipeline existente sem pasta raiz
Um pipeline existente criado usando a experiência de edição de notebook legado não terá uma pasta raiz configurada. Ao abrir um pipeline que não tenha uma pasta raiz configurada, você será solicitado a criar uma pasta raiz e organizar os arquivos de origem dentro dela.
Você pode descartar isso e continuar editando o pipeline sem definir uma pasta raiz.
Se, mais tarde, desejar configurar a pasta raiz para seu pipeline, siga estas etapas:
- No navegador de ativos de pipeline, clique em Configurar.
- Clique em
para selecionar a pasta raiz em Pasta raiz do pipeline. - Clique em Salvar.
Estrutura de pastas padrão
Quando você cria um novo pipeline, uma estrutura de pastas padrão é criada. Essa é a estrutura recomendada para organizar seus arquivos de código-fonte e não código-fonte do pipeline, conforme descrito abaixo.
Um pequeno número de arquivos de código de exemplo são criados nesta estrutura de pastas.
| Nome da pasta | Localização recomendada para estes tipos de ficheiros |
|---|---|
<pipeline_root_folder> |
Pasta raiz que contém todas as pastas e arquivos para seu pipeline. |
transformations |
Arquivos de código-fonte, como arquivos de código Python ou SQL com definições de tabela. |
explorations |
Arquivos que não são de código-fonte, como blocos de anotações, consultas e arquivos de código usados para análise exploratória de dados. |
utilities |
Arquivos sem código-fonte com módulos Python que podem ser importados de outros arquivos de código. Se você escolher SQL como seu idioma para código de exemplo, essa pasta não será criada. |
Você pode renomear os nomes das pastas ou alterar a estrutura para se adequar ao seu fluxo de trabalho. Para adicionar uma nova pasta de código-fonte, siga estes passos:
- Clique em Adicionar no visualizador de ativos da pipeline.
- Clique em Criar pasta de código-fonte do pipeline.
- Insira um nome de pasta e clique em Criar.
Arquivos de código-fonte
Os arquivos de código-fonte fazem parte da definição de código-fonte do pipeline. Quando você executa o pipeline, esses arquivos são avaliados. Arquivos e pastas que fazem parte da definição do código-fonte têm um ícone especial com um mini ícone de Pipeline sobreposto.
Para adicionar um novo ficheiro de código-fonte, siga estes passos:
- Clique em Adicionar no visualizador de ativos da pipeline.
- Clique em Transformação.
- Insira um Nome para o arquivo e selecione Python ou SQL como a Linguagem.
- Clique em Criar.
Você também pode clicar no em qualquer pasta no navegador de ativos do pipeline para adicionar um arquivo de código-fonte.
Uma transformations pasta para código-fonte é criada por padrão quando você cria um novo pipeline. Esta pasta é o local recomendado para o código-fonte do pipeline, como arquivos de código Python ou SQL com definições de tabela de pipeline.
Arquivos que não são de código-fonte
Os arquivos que não são de código-fonte são armazenados dentro da pasta raiz do pipeline, mas não fazem parte da definição do código-fonte do pipeline. Esses arquivos não são avaliados quando você executa o pipeline. Os ficheiros que não sejam de código-fonte não podem ser ficheiros externos.
Você pode usar isso para arquivos relacionados ao seu trabalho no pipeline que você gostaria de armazenar junto com o código-fonte. Por exemplo:
- Os blocos de anotações que você usa para explorações ad hoc executadas em pipelines declarativos não Lakeflow Spark calculam fora do ciclo de vida de um pipeline.
- Módulos Python que não devem ser avaliados com seu código-fonte, a menos que você importe explicitamente esses módulos dentro de seus arquivos de código-fonte.
Para adicionar um novo ficheiro que não seja de código-fonte, siga estes passos:
- Clique em Adicionar no visualizador de ativos da pipeline.
- Clique em Exploração ou Utilitário.
- Insira um Nome para o arquivo.
- Clique em Criar.
Você também pode clicar no para a pasta raiz do pipeline ou um arquivo de código não-fonte para adicionar arquivos que não sejam de código-fonte à pasta.
Quando você cria um novo pipeline, as seguintes pastas para arquivos que não são de código-fonte são criadas por padrão:
| Nome da pasta | Description |
|---|---|
explorations |
Esta pasta é o local recomendado para blocos de anotações, consultas, painéis e outros arquivos, podendo posteriormente executá-los em ambientes de computação que não utilizam as Pipelines Declarativas de Lakeflow Spark, tal como seria feito habitualmente fora do ciclo de vida de execução de um pipeline. |
utilities |
Esta pasta é o local recomendado para módulos Python que podem ser importados de outros arquivos por meio de importações diretas expressas como from <filename> import, desde que sua pasta pai esteja hierarquicamente sob a pasta raiz. |
Você também pode importar módulos Python localizados fora da pasta raiz, mas nesse caso, você deve acrescentar o caminho da pasta em sys.path seu código Python:
import sys, os
sys.path.append(os.path.abspath('<alternate_path_for_utilities>/utilities'))
from utils import \*
Ficheiros externos
A seção Arquivos externos do navegador de pipeline mostra os arquivos de código-fonte fora da pasta raiz.
Para mover um arquivo externo para a pasta raiz, como a pasta transformations, siga estas etapas:
- Clique no
do ficheiro no gestor de ativos e clique em Mover.
- Escolha a pasta para a qual deseja mover o arquivo e clique em Mover.
Ficheiros associados a vários pipelines
Um selo é mostrado no cabeçalho do arquivo se um arquivo estiver associado a mais de um pipeline. Tem uma contagem de pipelines associados e permite alternar entre os outros pipelines.
Todos os ficheiros da secção
Além da seção Pipeline , há uma seção Todos os arquivos , onde você pode abrir qualquer arquivo em seu espaço de trabalho. Aqui você pode:
- Abra arquivos fora da pasta raiz em uma guia sem sair do Lakeflow Pipelines Editor.
- Navegue até os arquivos de código-fonte de outro pipeline e abra-os. Isso abre o arquivo no editor e apresenta um banner com a opção de alterar o foco do editor para este segundo pipeline.
- Mova os arquivos para a pasta raiz do pipeline.
- Inclua arquivos fora da pasta raiz na definição do código-fonte do pipeline.
Editar ficheiros de origem do pipeline
Quando abres um ficheiro de origem de pipeline a partir do navegador do espaço de trabalho ou do navegador de ativos de pipeline, ele é aberto numa aba do editor no Lakeflow Pipelines Editor. Ao abrir mais ficheiros, são abertos separadores distintos, permitindo a edição de vários ficheiros simultaneamente.
Observação
Abrir um arquivo que não está associado a um pipeline a partir do navegador de espaço de trabalho abrirá o editor em um contexto diferente (o editor de espaço de trabalho geral ou, para arquivos SQL, o Editor SQL).
Quando se abre um arquivo que não seja de pipeline na guia Todos os arquivos do navegador de ativos de pipeline, ele abre-se numa nova guia no contexto do pipeline.
O código-fonte do pipeline inclui vários arquivos. Por padrão, os arquivos de origem estão na pasta transformações no navegador de ativos do pipeline. Os ficheiros de código-fonte podem ser ficheiros Python (*.py) ou SQL (*.sql). Sua fonte pode incluir uma mistura de arquivos Python e SQL em um único pipeline, e o código em um arquivo pode fazer referência a uma tabela ou exibição definida em outro arquivo.
Você também pode incluir arquivos de marcação (*.md) em sua pasta tranformações . Os arquivos Markdown podem ser usados para documentação ou anotações, mas são ignorados ao executar uma atualização de pipeline.
Os seguintes recursos são específicos do Lakeflow Pipelines Editor:
Conectar - Conecte-se à computação sem servidor ou clássica para executar o pipeline. Todos os arquivos associados ao pipeline usam a mesma conexão de computação, portanto, depois de se conectar, você não precisa se conectar para outros arquivos no mesmo pipeline. Para obter mais informações sobre opções de computação, consulte Opções de configuração de computação.
Para arquivos que não sejam de pipeline, como um bloco de anotações exploratório, a opção de conexão está disponível, mas se aplica apenas a esse arquivo individual.
Executar arquivo - Execute o código para atualizar as tabelas definidas neste arquivo de origem. A próxima seção descreve diferentes maneiras de executar seu código de pipeline.
Editar - Use o Assistente Databricks para editar ou adicionar código no arquivo.
Correção rápida - Quando houver um erro no seu código, use o Assistente para corrigir o erro.
O painel inferior também se ajusta, com base na aba atual. As informações do pipeline no painel inferior estão sempre disponíveis para visualização. pt-PT: Arquivos não associados a pipelines, como arquivos do editor SQL, também mostram a sua saída no painel inferior, numa guia separada. A imagem a seguir mostra um seletor de guias vertical para alternar o painel inferior entre a visualização das informações do pipeline ou do notebook selecionado.
Executar código de pipeline
Você tem quatro opções para executar o código do pipeline:
Execute todos os arquivos de código-fonte no pipeline
Clique em Executar pipeline ou Executar pipeline com atualização completa da tabela para executar todas as definições de tabela em todos os arquivos definidos como código-fonte do pipeline. Para obter detalhes sobre tipos de atualização, consulte Semântica de atualização de pipeline.
Você também pode clicar em Execução seca para validar o pipeline sem atualizar nenhum dado.
Execute o código em um único arquivo
Clique em Executar arquivo ou Executar arquivo com atualização completa da tabela para executar todas as definições de tabela no arquivo atual. Outros ficheiros no fluxo de trabalho não são avaliados.
Essa opção é útil para depuração ao editar e iterar rapidamente um ficheiro. Há efeitos colaterais ao executar apenas o código em um único arquivo.
- Quando outros arquivos não são avaliados, erros nesses arquivos não são encontrados.
- Tabelas materializadas em outros arquivos usam a materialização mais recente da tabela, mesmo que haja dados de origem mais recentes.
- Você pode encontrar erros se uma tabela referenciada ainda não tiver sido materializada.
- O DAG pode estar incorreto ou desarticulado para tabelas em outros arquivos que não foram materializados. O Azure Databricks faz um esforço melhor para manter o gráfico correto, mas não avalia outros arquivos para fazer isso.
Quando terminares de depurar e editar um ficheiro, a Databricks recomenda executar todos os ficheiros de código fonte no pipeline para verificar se o pipeline funciona do início ao fim antes de o colocar em produção.
Executar o código para uma única tabela
Ao lado da definição de uma tabela no arquivo de código-fonte, clique no ícone de Execução de Tabela
e escolha Atualizar tabela ou Atualização completa da tabela na lista suspensa. A execução do código para uma única tabela tem efeitos colaterais semelhantes aos da execução do código em um único arquivo.
Observação
A execução do código para uma única tabela está disponível para streaming de tabelas e exibições materializadas. Não há suporte para funções de coleta e visualizações.
Executar o código para um conjunto de tabelas
Você pode selecionar tabelas do DAG para criar uma lista de tabelas a serem executadas. Passe o cursor sobre a tabela no DAG, clique no
e escolha Selecionar tabela para atualização. Depois de escolher as tabelas a serem atualizadas, escolha a opção Executarou Executar com atualização completa na parte inferior do DAG.
Gráfico de pipeline, gráfico acíclico direcionado (DAG)
Depois de executar ou validar todos os arquivos de código-fonte no pipeline, você verá um gráfico acíclico direcionado (DAG), chamado gráfico de pipeline. O gráfico mostra o gráfico de dependência da tabela. Cada nó possui diferentes estados ao longo do ciclo de vida do processo, tais como validado, em execução ou em erro.
Você pode ativar e desativar o gráfico clicando no ícone do gráfico no painel do lado direito. Você também pode maximizar o gráfico. Há opções adicionais no canto inferior direito, incluindo opções de zoom e Mais opções para exibir o gráfico em um layout vertical ou horizontal.
Passar o mouse sobre um nó exibe uma barra de ferramentas com opções, incluindo atualizar a consulta. Clicar com o botão direito do mouse em um nó oferece as mesmas opções, em um menu de contexto.
Clicar num nó mostra a visualização de dados e a definição da tabela. Quando você edita um arquivo, as tabelas definidas nesse arquivo são realçadas no gráfico.
Pré-visualizações de dados
A seção de visualização de dados mostra dados de exemplo para uma tabela selecionada.
Você vê uma visualização dos dados da tabela quando clica em um nó no gráfico acíclico direcionado (DAG).
Se nenhuma tabela tiver sido selecionada, vá para a seção Tabelas e clique em Exibir visualização de dados
. Se tiver escolhido uma tabela, clique em Todas as tabelas para regressar a todas as tabelas.
Ao visualizar os dados da tabela, você pode filtrar ou classificar os dados no local. Se quiser fazer análises mais complexas, você pode usar ou criar um bloco de anotações na pasta Explorações (supondo que você manteve a estrutura de pastas padrão). Por padrão, o código-fonte nesta pasta não é executado durante uma atualização de pipeline, portanto, você pode criar consultas sem afetar a saída do pipeline.
Insights de execução
Pode ver as informações de execução em forma tabular sobre a atualização mais recente do pipeline nos painéis na parte inferior do editor.
| Panel | Description |
|---|---|
| Tables | Lista todas as tabelas com seus status e métricas. Se você selecionar uma tabela, verá as métricas e o desempenho dessa tabela e uma guia para a visualização de dados. |
| Performance | Histórico de consultas e perfis para todos os fluxos de dados neste pipeline. Você pode acessar métricas de execução e planos de consulta detalhados durante e após a execução. Consulte Histórico de consultas do Access para pipelines para obter mais informações. |
| Painel de questões | Clique no painel para uma vista simplificada dos erros e avisos do pipeline. Você pode clicar em uma entrada para ver mais detalhes e, em seguida, navegar até o local no código onde o erro ocorreu. Se o erro estiver em um arquivo diferente do exibido no momento, isso redirecionará você para o arquivo onde o erro está. Clique em Exibir detalhes para ver a entrada de log de eventos correspondente para obter detalhes completos. Clique em Ver registos para ver o registo de eventos completo. Os indicadores de erro afixados por código são mostrados para erros associados a uma parte específica do código. Para obter mais detalhes, clique no ícone de erro ou passe o mouse sobre a linha vermelha. É apresentado um pop-up com mais informações. Em seguida, você pode clicar em Correção rápida para revelar um conjunto de ações para solucionar o erro. |
| Registo de eventos | Todos os eventos acionados durante a última execução do pipeline. Clique em Exibir logs ou qualquer entrada na bandeja de problemas. |
Configuração do pipeline
Você pode configurar seu pipeline a partir do editor de pipeline. Você pode fazer alterações nas configurações, na programação ou nas permissões do pipeline.
Cada um deles pode ser acessado a partir de um botão no cabeçalho do editor, ou a partir de ícones no navegador de ativos (a barra lateral esquerda).
Configurações (ou escolha
no navegador de recursos):
Você pode editar as configurações do pipeline no painel de configurações, incluindo informações gerais, configuração da pasta raiz e do código-fonte, configuração de computação, notificações, configurações avançadas e muito mais.
Agendar (ou escolha
no navegador de ativos):
Na caixa de diálogo de agendamento, você pode criar um ou mais cronogramas para o seu pipeline. Por exemplo, se você quiser executá-lo diariamente, você pode definir isso aqui. Cria uma tarefa para executar o pipeline no horário que escolher. Você pode adicionar uma nova agenda ou remover uma agenda existente da caixa de diálogo de agendamento.
Partilhar (ou, no
no gestor de recursos, escolha
):
Você pode gerenciar permissões no pipeline para usuários e grupos na caixa de diálogo de permissões do pipeline.
Registo de Eventos
Você pode publicar o log de eventos de um pipeline no Unity Catalog. Por padrão, o log de eventos do pipeline é mostrado na interface do usuário e acessível para consulta pelo proprietário.
- Abra Configurações.
- Clique no
seta ao lado de Configurações avançadas.
- Clique em Editar configurações avançadas.
- Em Logs de eventos, clique em Publicar no catálogo.
- Forneça um nome, catálogo e esquema para o log de eventos.
- Clique em Salvar.
Os eventos de pipeline são publicados na tabela que você especificou.
Para saber mais sobre como usar o log de eventos do pipeline, consulte Consultar o log de eventos.
Ambiente de pipeline
Você pode criar um ambiente para seu código-fonte adicionando dependências em Configurações.
- Abra Configurações.
- Em Ambiente, clique em Editar ambiente.
- Selecione
Adicione dependência para adicionar uma dependência, como se você a estivesse adicionando a um
requirements.txtarquivo. Para obter mais informações sobre dependências, consulte Adicionar dependências ao bloco de anotações.
O Databricks recomenda que você fixe a versão com ==. Consulte o pacote PyPI.
O ambiente se aplica a todos os arquivos de código-fonte em seu pipeline.
Notificações
Você pode adicionar notificações usando as configurações do Pipeline.
- Abra Configurações.
- Na seção Notificações , clique em Adicionar notificação.
- Adicione um ou mais endereços de e-mail e os eventos para os quais pretende que sejam enviados.
- Clique em Adicionar notificação.
Observação
Crie respostas personalizadas para eventos, incluindo notificações ou manipulação personalizada , usando ganchos de eventos do Python.
Monitorização de pipelines
O Azure Databricks também fornece recursos para monitorar pipelines em execução. O editor mostra os resultados e insights de execução sobre a execução mais recente. É otimizado para ajudá-lo a iterar de forma eficiente enquanto desenvolve o seu pipeline interativamente.
A página de monitorização de pipeline permite-lhe visualizar execuções históricas, o que é útil quando um pipeline está a ser executado num cronograma utilizando um Job.
Observação
Há uma experiência de monitorização padrão e uma experiência de monitorização pré-visualizada atualizada. A seção a seguir descreve como ativar ou desativar a experiência de monitorização de pré-visualização. Para obter informações sobre ambas as experiências, consulte Monitorar pipelines na interface do usuário.
A experiência de monitoramento está disponível no botão Jobs & Pipelines no lado esquerdo do seu espaço de trabalho. Você também pode saltar diretamente para a página de monitoramento a partir do editor clicando nos resultados da execução no navegador dos ativos do pipeline.
Para obter mais informações sobre a página de monitoramento, consulte Monitorar pipelines na interface do usuário. A interface do usuário de monitoramento inclui a capacidade de retornar ao Lakeflow Pipelines Editor selecionando Editar pipeline no cabeçalho da interface do usuário.
Habilite o Lakeflow Pipelines Editor e o monitoramento atualizado
A visualização do Lakeflow Pipelines Editor está habilitada por padrão. Você pode desativá-lo ou reativá-lo com as seguintes instruções. Quando a visualização do Lakeflow Pipelines Editor estiver ativada, você também poderá habilitar a experiência de monitoramento atualizada (visualização).
A visualização deve ser habilitada definindo a opção Lakeflow Pipelines Editor para seu espaço de trabalho. Consulte Gerenciar visualizações do Azure Databricks para obter mais informações sobre como editar opções.
Depois que a visualização estiver ativada, você poderá habilitar o Lakeflow Pipelines Editor de várias maneiras:
Ao criar um novo pipeline ETL, habilite o editor em Lakeflow Spark Declarative Pipelines com a alternância Lakeflow Pipelines Editor .
A página de configurações avançadas para o pipeline é usada na primeira vez que você habilita o editor. A janela de criação de pipeline simplificada é usada na próxima vez que você criar um novo pipeline.
Para um pipeline existente, abra um bloco de anotações usado em um pipeline e habilite o Lakeflow Pipelines Editor no cabeçalho. Você também pode ir para a página de monitoramento de pipeline e clicar em Configurações para ativar o Lakeflow Pipelines Editor.
Você pode ativar o Lakeflow Pipelines Editor nas configurações do usuário:
- Clique no selo de usuário na área superior direita do espaço de trabalho e, em seguida, clique em Configurações e Desenvolvedor.
- Habilite Lakeflow Pipelines Editor.
Depois de ativar o botão de alternância do Lakeflow Pipelines Editor, todos os pipelines ETL usam este editor por padrão. Você pode ativar e desativar o Lakeflow Pipelines Editor a partir do editor.
Observação
Se você desativar o novo editor de pipeline, é útil deixar comentários descrevendo por que você o desativou. Há um botão Enviar feedback na alternância para qualquer feedback que você tenha sobre o novo editor.
Habilitar a nova página de monitorização de pipeline
Como parte da visualização do Lakeflow Pipelines Editor, você também pode habilitar uma nova página de monitoramento de pipeline para um pipeline. A pré-visualização do Editor de Pipelines do Lakeflow deve ser ativada para permitir a página de monitorização dos pipelines. Quando a visualização do editor está habilitada, a nova página de monitoramento também é habilitada por padrão.
Clique em Jobs & Pipelines.
Clique no nome de qualquer pipeline para exibir os detalhes do pipeline.
Na parte superior da página, habilite a interface do usuário de monitoramento atualizada com a alternância da página Novo pipeline .
Limitações e problemas conhecidos
Consulte as seguintes limitações e problemas conhecidos para o editor de pipeline ETL em Lakeflow Spark Declarative Pipelines:
A barra lateral do navegador de espaço de trabalho não se concentra no pipeline se você começar abrindo um arquivo na
explorationspasta ou em um bloco de anotações, pois esses arquivos ou blocos de anotações não fazem parte da definição do código-fonte do pipeline.Para entrar no modo de foco do pipeline no navegador do espaço de trabalho, abra um arquivo associado ao pipeline.
As pré-visualizações de dados não são suportadas para vistas normais.
Os módulos Python não são encontrados de dentro de um UDF, mesmo que estejam na sua pasta raiz ou no seu
sys.path. Você pode acessar esses módulos anexando o caminho para osys.pathde dentro do UDF, por exemplo:sys.path.append(os.path.abspath(“/Workspace/Users/path/to/modules”))%pip installnão é suportado a partir de ficheiros (o tipo de ativo predefinido com o novo editor). Você pode adicionar dependências nas configurações. Consulte Ambiente de pipeline.Como alternativa, você pode continuar a usar
%pip installa partir de um bloco de anotações associado a um pipeline, em sua definição de código-fonte.
FAQ
Por que usar arquivos e não blocos de anotações para código-fonte?
A execução baseada em células de notebooks não é compatível com pipelines. Os recursos padrão dos cadernos são desativados ou alterados quando se trabalha com pipelines, o que gera confusão para os usuários familiarizados com o comportamento dos cadernos.
No Lakeflow Pipelines Editor, o editor de arquivos é usado como base para um editor de primeira classe para pipelines. Os recursos são direcionados explicitamente para pipelines, como Executar tabela
, em vez de sobrecarregar recursos familiares com comportamento diferente.
Posso continuar a utilizar blocos de notas como código-fonte?
Sim, pode. No entanto, alguns recursos, como Executar tabela,
Executar arquivo, não estão presentes.
Se você tiver um pipeline existente usando blocos de anotações, ele ainda funcionará no novo editor. No entanto, a Databricks recomenda utilizar arquivos para novos pipelines.
Como posso adicionar código existente a um pipeline recém-criado?
Você pode adicionar arquivos de código-fonte existentes a um novo pipeline. Para adicionar uma pasta com ficheiros existentes, siga estes passos:
- Clique em Configurações.
- Em Código-fonte , clique em Configurar caminhos.
- Clique em Adicionar caminho e escolha a pasta para os arquivos existentes.
- Clique em Salvar.
Você também pode adicionar arquivos individuais:
- Clique em Todos os ficheiros no navegador de recursos da linha de processamento.
- Navegue até o seu ficheiro, clique no
e clique no Incluir no fluxo de trabalho.
Considere mover esses arquivos para a pasta raiz do pipeline. Se deixados fora da pasta raiz do pipeline, eles são mostrados na seção Arquivos externos .
Posso gerenciar o código-fonte do Pipeline no Git?
Você pode gerenciar sua origem de pipeline no Git escolhendo uma pasta Git ao criar inicialmente o pipeline.
Observação
Gerenciar seu código-fonte em uma pasta Git adiciona controle de versão para seu código-fonte. No entanto, para controlar a versão de sua configuração, o Databricks recomenda o uso do Databricks Asset Bundles para definir a configuração do pipeline em arquivos de configuração de pacote que podem ser armazenados no Git (ou em outro sistema de controle de versão). Para obter mais informações, consulte O que são Databricks Asset Bundles?.
Se você não criou o pipeline em uma pasta Git inicialmente, você pode mover seu código-fonte para uma pasta Git. O Databricks recomenda usar a ação do editor para mover toda a pasta raiz para uma pasta Git. Isso atualiza todas as configurações de acordo. Consulte Pasta raiz.
Para mover a pasta raiz para uma pasta Git no explorador de ativos do pipeline:
- Clique no
para a pasta raiz.
- Clique em Mover pasta raiz.
- Escolha um novo local para sua pasta raiz e clique em Mover.
Consulte a seção Pasta raiz para obter mais informações.
Após a mudança, você verá o ícone familiar do Git ao lado do nome da pasta raiz.
Importante
Para mover a pasta raiz do pipeline, use o explorador de recursos do pipeline e siga as etapas acima. Movê-lo de qualquer outra forma quebra as configurações do pipeline e você deve configurar manualmente o caminho correto da pasta em Configurações.
- Clique no
Posso ter vários Pipelines na mesma pasta raiz?
Você pode, mas o Databricks recomenda ter apenas um único Pipeline por pasta raiz.
Quando devo fazer uma corrida seca?
Clique em Execução de teste para verificar o código sem atualizar as tabelas.
Quando devo usar Visualizações temporárias e quando devo usar exibições materializadas no meu código?
Use exibições temporárias quando não quiser materializar os dados. Por exemplo, esta é uma etapa numa sequência de passos para preparar os dados antes que eles estejam prontos para serem materializados usando uma tabela de fluxo contínuo ou vista materializada registada no Catálogo.