Desenvolvimento iterativo e depuração com pipelines do Azure Data Factory e Synapse Analytics

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!

O Azure Data Factory e o Synapse Analytics dão suporte ao desenvolvimento iterativo e à depuração de pipelines. Esses recursos permitem que você teste suas alterações antes de criar uma solicitação pull ou publicá-las no serviço.

Para uma introdução e demonstração de oito minutos desse recurso, assista ao seguinte vídeo:

Depurar um pipeline

À medida que você cria usando a tela de pipeline, você pode testar suas atividades usando o recurso Depurar . Quando você executa execuções de teste, não precisa publicar suas alterações no serviço antes de selecionar Depurar. Esse recurso é útil em cenários em que você deseja garantir que as alterações funcionem conforme o esperado antes de atualizar o fluxo de trabalho.

Debug capability on the pipeline canvas

À medida que o pipeline está em execução, você pode ver os resultados de cada atividade na guia Saída da tela do pipeline.

Exiba os resultados de suas execuções de teste na janela Saída da tela do pipeline.

Output window of the pipeline canvas

Depois que uma execução de teste for bem-sucedida, adicione mais atividades ao seu pipeline e continue a depuração de maneira iterativa. Você também pode Cancelar uma execução de teste enquanto ela estiver em andamento.

Importante

Selecionar Depurar realmente executa o pipeline. Por exemplo, se o pipeline contiver atividade de cópia, a execução de teste copiará dados da origem para o destino. Como resultado, recomendamos que você use pastas de teste em suas atividades de cópia e outras atividades ao depurar. Depois de depurar o pipeline, alterne para as pastas reais que deseja usar em operações normais.

Definição de pontos de interrupção

O serviço permite depurar um pipeline até chegar a uma atividade específica na tela do pipeline. Coloque um ponto de interrupção na atividade até o qual você deseja testar e selecione Depurar. O serviço garante que o teste seja executado somente até a atividade do ponto de interrupção na tela do pipeline. Esse recurso Debug Until é útil quando você não deseja testar todo o pipeline, mas apenas um subconjunto de atividades dentro do pipeline.

Breakpoints on the pipeline canvas

Para definir um ponto de interrupção, selecione um elemento na tela do pipeline. Uma opção Depurar até aparece como um círculo vermelho vazio no canto superior direito do elemento.

Before setting a breakpoint on the selected element

Depois de selecionar a opção Depurar até , ela muda para um círculo vermelho preenchido para indicar que o ponto de interrupção está habilitado.

After setting a breakpoint on the selected element

Monitoramento de execuções de depuração

Quando você executa uma execução de depuração de pipeline, os resultados aparecerão na janela Saída da tela de pipeline. A guia de saída conterá apenas a execução mais recente que ocorreu durante a sessão atual do navegador.

Output window of the pipeline canvas

Para exibir uma exibição histórica das execuções de depuração ou ver uma lista de todas as execuções de depuração ativas, você pode entrar na experiência do Monitor .

Nota

O serviço só persiste o histórico de execução de depuração por 15 dias.

Depurando fluxos de dados de mapeamento

O mapeamento de fluxos de dados permite criar uma lógica de transformação de dados sem código que é executada em escala. Ao criar sua lógica, você pode ativar uma sessão de depuração para trabalhar interativamente com seus dados usando um cluster do Spark ao vivo. Para saber mais, leia sobre o mapeamento do modo de depuração de fluxo de dados.

Você pode monitorar sessões de depuração de fluxo de dados ativas na experiência do Monitor .

View data flow debug sessions

A visualização de dados no designer de fluxo de dados e a depuração de pipeline de fluxos de dados destinam-se a funcionar melhor com pequenas amostras de dados. No entanto, se você precisar testar sua lógica em um pipeline ou fluxo de dados em relação a grandes quantidades de dados, aumente o tamanho do Tempo de Execução de Integração do Azure que está sendo usado na sessão de depuração com mais núcleos e um mínimo de computação de uso geral.

Depurando um pipeline com uma atividade de fluxo de dados

Ao executar um pipeline de depuração executado com um fluxo de dados, você tem duas opções sobre qual computação usar. Você pode usar um cluster de depuração existente ou criar um novo cluster just-in-time para seus fluxos de dados.

O uso de uma sessão de depuração existente reduzirá consideravelmente o tempo de inicialização do fluxo de dados, pois o cluster já está em execução, mas não é recomendado para cargas de trabalho complexas ou paralelas, pois pode falhar quando vários trabalhos são executados ao mesmo tempo.

O uso do tempo de execução da atividade criará um novo cluster usando as configurações especificadas no tempo de execução de integração de cada atividade de fluxo de dados. Isso permite que cada trabalho seja isolado e deve ser usado para cargas de trabalho complexas ou testes de desempenho. Você também pode controlar o TTL no IR do Azure para que os recursos de cluster usados para depuração ainda estejam disponíveis por esse período de tempo para atender a solicitações de trabalho adicionais.

Nota

Se você tiver um pipeline com fluxos de dados em execução em paralelo ou fluxos de dados que precisam ser testados com grandes conjuntos de dados, escolha "Usar tempo de execução de atividade" para que o serviço possa usar o tempo de execução de integração selecionado em sua atividade de fluxo de dados. Isso permitirá que os fluxos de dados sejam executados em vários clusters e pode acomodar suas execuções de fluxo de dados paralelo.

Running a pipeline with a dataflow

Depois de testar suas alterações, promova-as para ambientes mais altos usando integração e implantação contínuas.