Fluxos de dados no Azure Synapse Analytics

O que são fluxos de dados?

Os fluxos de dados são transformações de dados concebidas visualmente no Azure Synapse Analytics. Os fluxos de dados permitem que os engenheiros de dados desenvolvam lógica de transformação de dados sem escrever código. Os fluxos de dados resultantes são executados como atividades nos pipelines do Azure Synapse Analytics que utilizam clusters do Apache Spark de escalamento horizontal. As atividades de fluxo de dados podem ser operacionalizadas com as capacidades de agendamento, controlo, fluxo e monitorização do Azure Synapse Analytics existentes.

Os fluxos de dados proporcionam uma experiência totalmente visual sem necessidade de codificação. Os fluxos de dados são executados em clusters de execução geridos pelo Synapse para processamento de dados de escalamento horizontal. Azure Synapse Analytics processa toda a tradução de código, otimização de caminhos e execução das suas tarefas de fluxo de dados.

Introdução

Os fluxos de dados são criados a partir do painel Desenvolver no Synapse Studio. Para criar um fluxo de dados, selecione o sinal de adição junto a Desenvolver e, em seguida, selecione Fluxo de Dados.

Novo fluxo de dados

Esta ação leva-o para a tela do fluxo de dados, onde pode criar a sua lógica de transformação. Selecione Adicionar origem para começar a configurar a sua transformação de origem. Para obter mais informações, veja Transformação de origem.

Criar fluxos de dados

O fluxo de dados tem uma tela de criação exclusiva concebida para facilitar a criação da lógica de transformação. A tela do fluxo de dados está separada em três partes: a barra superior, o gráfico e o painel de configuração.

Captura de ecrã a mostrar a tela do fluxo de dados com a barra superior, o gráfico e o painel de configuração etiquetados.

Graph

O gráfico apresenta o fluxo de transformação. Mostra a linhagem dos dados de origem à medida que fluem para um ou mais sinks. Para adicionar uma nova origem, selecione Adicionar origem. Para adicionar uma nova transformação, selecione o sinal de adição no canto inferior direito de uma transformação existente. Saiba mais sobre como gerir o gráfico de fluxo de dados.

Captura de ecrã a mostrar a parte do gráfico da tela com uma caixa de texto Procurar.

Painel de configuração

O painel de configuração mostra as definições específicas da transformação atualmente selecionada. Se não for selecionada nenhuma transformação, mostra o fluxo de dados. Na configuração geral do fluxo de dados, pode adicionar parâmetros através do separador Parâmetros . Para obter mais informações, veja Parâmetros do fluxo de dados.

Cada transformação contém, pelo menos, quatro separadores de configuração.

Definições de transformação

O primeiro separador no painel de configuração de cada transformação contém as definições específicas dessa transformação. Para obter mais informações, veja a página de documentação dessa transformação.

Separador Definições de origem

Otimização

O separador Otimizar contém definições para configurar esquemas de criação de partições. Para saber mais sobre como otimizar os fluxos de dados, veja o guia de desempenho do fluxo de dados de mapeamento.

Captura de ecrã a mostrar o separador Otimizar

Inspecionar

O separador Inspecionar fornece uma vista para os metadados do fluxo de dados que está a transformar. Pode ver as contagens de colunas, as colunas alteradas, as colunas adicionadas, os tipos de dados, a ordem das colunas e as referências de colunas. Inspecionar é uma vista só de leitura dos metadados. Não precisa de ter o modo de depuração ativado para ver metadados no painel Inspecionar .

Separador Inspecionar

À medida que altera a forma dos seus dados através de transformações, verá o fluxo de alterações de metadados no painel Inspecionar . Se não existir um esquema definido na sua transformação de origem, os metadados não estarão visíveis no painel Inspecionar . A falta de metadados é comum em cenários de desvio de esquema.

Pré-visualização dos dados

Se o modo de depuração estiver ativado, o separador Pré-visualização de Dados fornece-lhe um instantâneo interativo dos dados em cada transformação. Para obter mais informações, veja Pré-visualização de dados no modo de depuração.

Barra superior

A barra superior contém ações que afetam todo o fluxo de dados, como definições de validação e depuração. Também pode ver o código JSON subjacente e o script de fluxo de dados da sua lógica de transformação.

Transformações disponíveis

Veja a descrição geral da transformação do fluxo de dados de mapeamento para obter uma lista de transformações disponíveis.

Atividade do fluxo de dados

Os fluxos de dados são operacionalizados nos pipelines do Azure Synapse Analytics com a atividade do fluxo de dados. Tudo o que um utilizador tem de fazer é especificar o runtime de integração a utilizar e transmitir valores de parâmetros. Para obter mais informações, saiba mais sobre o runtime de integração do Azure.

Modo de depuração

O modo de depuração permite-lhe ver interativamente os resultados de cada passo de transformação enquanto cria e depura os fluxos de dados. A sessão de depuração pode ser utilizada tanto na criação da lógica do fluxo de dados como na execução da depuração do pipeline com atividades de fluxo de dados. Para saber mais, veja a documentação do modo de depuração.

Monitorizar fluxos de dados

O fluxo de dados integra-se com as capacidades de monitorização do Azure Synapse Analytics existentes. Para saber como compreender a saída da monitorização do fluxo de dados, veja Monitorizar fluxos de dados de mapeamento.

A equipa do Azure Synapse Analytics criou um guia de otimização de desempenho para o ajudar a otimizar o tempo de execução dos fluxos de dados após a criação da lógica de negócio.

Passos seguintes