Modo de Depuração do fluxo de dados de mapeamento

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Descrição Geral

Azure Data Factory e o modo de depuração do fluxo de dados de mapeamento do Synapse Analytics permite-lhe ver interativamente a transformação da forma de dados enquanto cria e depura os fluxos de dados. A sessão de depuração pode ser utilizada tanto em sessões de design Fluxo de Dados como durante a execução de fluxos de dados de depuração do pipeline. Para ativar o modo de depuração, utilize o botão Fluxo de Dados Depurar na barra superior da tela do fluxo de dados ou da tela do pipeline quando tiver atividades de fluxo de dados.

Captura de ecrã que mostra onde está o controlo de deslize Depurar 1

Captura de ecrã que mostra onde está o controlo de deslize Depurar 2

Depois de ativar o controlo de deslize, ser-lhe-á pedido que selecione a configuração do runtime de integração que pretende utilizar. Se For escolhido AutoResolveIntegrationRuntime, será criado um cluster com oito núcleos de computação geral com um tempo de vida predefinido de 60 minutos. Se quiser permitir uma equipa mais inativa antes de a sua sessão exceder o limite de tempo, pode escolher uma definição de TTL superior. Para obter mais informações sobre os runtimes de integração do fluxo de dados, veja desempenho Integration Runtime.

Depurar seleção de IR

Quando o modo de Depuração estiver ativado, irá criar interativamente o fluxo de dados com um cluster do Spark ativo. A sessão será fechada assim que desativar a depuração. Deve estar ciente dos custos por hora incorridos pelo Data Factory durante o tempo em que a sessão de depuração está ativada.

Na maioria dos casos, é uma boa prática criar os Fluxos de Dados no modo de depuração para que possa validar a lógica de negócio e ver as transformações de dados antes de publicar o seu trabalho. Utilize o botão "Depurar" no painel do pipeline para testar o fluxo de dados num pipeline.

Nota

Cada sessão de depuração iniciada por um utilizador a partir da IU do browser é uma nova sessão com o seu próprio cluster do Spark. Pode utilizar a vista de monitorização para sessões de depuração acima para ver e gerir sessões de depuração. É-lhe cobrada a cada hora que cada sessão de depuração está a ser executada, incluindo a hora do TTL.

Este clip de vídeo fala sobre sugestões, truques e boas práticas para o modo de depuração do fluxo de dados

Estado do cluster

O indicador de estado do cluster na parte superior da superfície de estrutura fica verde quando o cluster está pronto para depuração. Se o cluster já estiver quente, o indicador verde aparecerá quase instantaneamente. Se o cluster ainda não estava em execução quando entrou no modo de depuração, o cluster do Spark executará um arranque a frio. O indicador irá girar até que o ambiente esteja pronto para depuração interativa.

Quando terminar a depuração, desative a depuração para que o cluster do Spark possa terminar e deixe de ser cobrado pela atividade de depuração.

Definições de depuração

Depois de ativar o modo de depuração, pode editar a forma como um fluxo de dados pré-visualiza os dados. As definições de depuração podem ser editadas ao clicar em "Definições de Depuração" na barra de ferramentas de tela Fluxo de Dados. Pode selecionar o limite de linhas ou a origem de ficheiros a utilizar para cada uma das transformações de Origem aqui. Os limites de linha nesta definição destinam-se apenas à sessão de depuração atual. Também pode selecionar o serviço ligado de teste a ser utilizado para uma origem do Azure Synapse Analytics.

Definições de depuração

Se tiver parâmetros no seu Fluxo de Dados ou em qualquer um dos respetivos conjuntos de dados referenciados, pode especificar os valores a utilizar durante a depuração ao selecionar o separador Parâmetros.

Utilize as definições de amostragem aqui para apontar para ficheiros de exemplo ou tabelas de exemplo de dados para que não tenha de alterar os conjuntos de dados de origem. Ao utilizar um ficheiro ou tabela de exemplo aqui, pode manter as mesmas definições de lógica e propriedade no fluxo de dados enquanto testa num subconjunto de dados.

Parâmetros das definições de depuração

O IR predefinido utilizado para o modo de depuração nos fluxos de dados é um pequeno nó de trabalho único de 4 núcleos com um nó de controlador único de 4 núcleos. Isto funciona bem com amostras de dados mais pequenas ao testar a lógica do fluxo de dados. Se expandir os limites de linhas nas definições de depuração durante a pré-visualização de dados ou definir um número mais elevado de linhas amostradas na sua origem durante a depuração do pipeline, poderá considerar definir um ambiente de computação maior num novo Integration Runtime do Azure. Em seguida, pode reiniciar a sessão de depuração com o ambiente de computação maior.

Pré-visualização dos dados

Com a depuração ativada, o separador Pré-visualização de Dados acende-se no painel inferior. Sem o modo de depuração ativado, Fluxo de Dados mostrará apenas os metadados atuais dentro e fora de cada uma das suas transformações no separador Inspecionar. A pré-visualização de dados só irá consultar o número de linhas que definiu como limite nas definições de depuração. Clique em Atualizar para atualizar a pré-visualização de dados com base nas suas transformações atuais. Se a origem de dados tiver sido alterada, clique em Atualizar > Refetch a partir da origem.

Pré-visualização dos dados

Pode ordenar colunas na pré-visualização de dados e reorganizar colunas com arrastar e largar. Além disso, existe um botão de exportação na parte superior do painel de pré-visualização de dados que pode utilizar para exportar os dados de pré-visualização para um ficheiro CSV para exploração de dados offline. Pode utilizar esta funcionalidade para exportar até 1000 linhas de dados de pré-visualização.

Nota

As origens de ficheiros limitam apenas as linhas que vê e não as linhas que estão a ser lidas. Para conjuntos de dados muito grandes, recomenda-se que utilize uma pequena parte desse ficheiro para o teste. Pode selecionar um ficheiro temporário em Definições de Depuração para cada origem que seja um tipo de conjunto de dados de ficheiro.

Ao executar no Modo de Depuração no Fluxo de Dados, os seus dados não serão escritos na transformação sink. Uma sessão de Depuração destina-se a servir de aproveitamento de teste para as suas transformações. Os sinks não são necessários durante a depuração e são ignorados no fluxo de dados. Se quiser testar a escrita dos dados no Sink, execute o Fluxo de Dados a partir de um pipeline e utilize a execução de Depuração a partir de um pipeline.

A Pré-visualização de Dados é um instantâneo dos seus dados transformados através de limites de linhas e amostragem de dados de pacotes de dados na memória do Spark. Por conseguinte, os controladores de sink não são utilizados ou testados neste cenário.

Testar condições de associação

Quando testar unidades associações, existe ou transformações de pesquisa, certifique-se de que utiliza um pequeno conjunto de dados conhecidos para o teste. Pode utilizar a opção Definições de Depuração acima para definir um ficheiro temporário a utilizar para o teste. Isto é necessário porque, ao limitar ou amostrar linhas de um grande conjunto de dados, não pode prever quais as linhas e as chaves que serão lidas no fluxo para teste. O resultado não é determinista, o que significa que as condições de associação podem falhar.

Ações rápidas

Assim que vir a pré-visualização de dados, pode gerar uma transformação rápida para escrever, remover ou efetuar uma modificação numa coluna. Clique no cabeçalho da coluna e, em seguida, selecione uma das opções na barra de ferramentas de pré-visualização de dados.

Captura de ecrã a mostrar a barra de ferramentas de pré-visualização de dados com opções: Typecast, Modify, Statistics e Remove.

Depois de selecionar uma modificação, a pré-visualização de dados será atualizada imediatamente. Clique em Confirmar no canto superior direito para gerar uma nova transformação.

Captura de ecrã a mostrar o botão Confirmar.

Typecast e Modify irão gerar uma transformação de Coluna Derivada e Remover irá gerar uma transformação Selecionar.

Captura de ecrã a mostrar as Definições da Coluna Derivada.

Nota

Se editar a sua Fluxo de Dados, terá de obter novamente a pré-visualização de dados antes de adicionar uma transformação rápida.

Criação de perfis de dados

Selecionar uma coluna no separador pré-visualização de dados e clicar em Estatísticas na barra de ferramentas de pré-visualização de dados irá apresentar um gráfico na extremidade direita da grelha de dados com estatísticas detalhadas sobre cada campo. O serviço fará uma determinação com base na amostragem de dados do tipo de gráfico a apresentar. Os campos de cardinalidade elevada serão predefinidos para gráficos NULL/NOT NULL, enquanto os dados categóricos e numéricos com baixa cardinalidade apresentarão gráficos de barras que mostram a frequência do valor dos dados. Também verá o comprimento máximo/núm de campos de cadeia, valores min/max em campos numéricos, dev padrão, percentis, contagens e média.

Estatísticas de colunas

Passos seguintes