Mapeamento de fluxos de dados em Azure Data Factory

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

O que são fluxos de dados de mapeamento?

Os fluxos de dados de mapeamento são transformações de dados visualmente projetadas em Azure Data Factory. Os fluxos de dados permitem que os engenheiros de dados desenvolvam lógicas de transformação de dados sem escrever código. Os fluxos de dados resultantes são executados como atividades dentro de Azure Data Factory oleodutos que utilizam clusters Apache Spark escalonados. As atividades de fluxo de dados podem ser operacionalizadas utilizando as capacidades de agendamento, controlo, fluxo e monitorização existentes Azure Data Factory.

Os fluxos de dados de mapeamento proporcionam uma experiência inteiramente visual sem necessidade de codificação. Os fluxos de dados são executados em clusters de execução geridos pela ADF para processamento de dados em escala. Azure Data Factory trata de toda a tradução de código, otimização de caminhos e execução dos seus trabalhos de fluxo de dados.

Introdução

Os fluxos de dados são criados a partir do painel de recursos de fábrica, como oleodutos e conjuntos de dados. Para criar um fluxo de dados, selecione o sinal de mais ao lado dos Recursos de Fábrica e, em seguida, selecione Fluxo de Dados.

Screenshot mostrando um novo fluxo de dados. Esta ação leva-o à tela do fluxo de dados, onde pode criar a sua lógica de transformação. Selecione Adicionar fonte para começar a configurar a sua transformação de origem. Para mais informações, consulte a transformação de Fonte.

Fluxos de dados de autoria

Mapear o fluxo de dados tem uma tela de autoria única projetada para tornar a lógica de transformação de construção fácil. A tela de fluxo de dados é separada em três partes: a barra superior, o gráfico e o painel de configuração.

A screenshot mostra a tela de fluxo de dados com barra superior, gráfico e painel de configuração rotulado.

Graph

O gráfico mostra o fluxo de transformação. Mostra a linhagem de dados de origem à medida que flui para um ou mais sumidouros. Para adicionar uma nova fonte, selecione Adicionar fonte. Para adicionar uma nova transformação, selecione o sinal de mais no canto inferior direito de uma transformação existente. Saiba mais sobre como gerir o gráfico de fluxo de dados.

A screenshot mostra a parte do gráfico da tela com uma caixa de texto de pesquisa.

Painel de configuração

O painel de configuração mostra as definições específicas da transformação atualmente selecionada. Se nenhuma transformação for selecionada, mostra o fluxo de dados. Na configuração geral do fluxo de dados, pode adicionar parâmetros através do separador Parâmetros . Para obter mais informações, consulte os parâmetros de fluxo de dados de mapeamento.

Cada transformação contém pelo menos quatro separadores de configuração.

Definições de transformação

O primeiro separador no painel de configuração de cada transformação contém as definições específicas dessa transformação. Para mais informações, consulte a página de documentação da transformação.

Screenshot mostrando o separador definições de origem.

Otimização

O separador Otimize contém configurações para configurar esquemas de partição. Para saber mais sobre como otimizar os fluxos de dados, consulte o guia de desempenho do fluxo de dados de mapeamento.

O screenshot mostra o separador Otimize, que inclui a opção de partição, o tipo de partição e o número de divisórias.

Inspecione

O separador Inspect fornece uma visão dos metadados do fluxo de dados que está a transformar. Pode ver as contagens de colunas, as colunas alteradas, as colunas adicionadas, os tipos de dados, a ordem da coluna e as referências de colunas. Inspecione-se uma visão apenas de leitura dos seus metadados. Não é necessário ter o modo de depuragem habilitado para ver metadados no painel de inspeção .

Inspecione

À medida que altera a forma dos seus dados através de transformações, verá as alterações dos metadados fluem no painel de inspeção . Se não houver um esquema definido na sua transformação de origem, então os metadados não serão visíveis no painel de inspeção . A falta de metadados é comum em cenários de deriva de esquemas.

Pré-visualização dos dados

Se o modo de depuração estiver ligado, o separador Data Preview dá-lhe uma imagem interativa dos dados em cada transformação. Para obter mais informações, consulte a pré-visualização de Dados no modo de depuragem.

Barra superior

A barra superior contém ações que afetam todo o fluxo de dados, como a poupança e validação. Também pode ver o código JSON subjacente e o roteiro do fluxo de dados da sua lógica de transformação. Para mais informações, saiba mais sobre o script do fluxo de dados.

Transformações disponíveis

Veja a visão geral da transformação do fluxo de dados de mapeamento para obter uma lista de transformações disponíveis.

Tipos de dados de fluxo de dados

  • matriz
  • binary
  • boolean
  • complexo
  • decimal (inclui precisão)
  • data
  • float
  • número inteiro
  • long
  • mapa
  • curto
  • string
  • carimbo de data/hora

Atividade de fluxo de dados

Os fluxos de dados de mapeamento são operacionalizados dentro dos oleodutos ADF utilizando a atividade de fluxo de dados. Tudo o que um utilizador tem de fazer é especificar qual o tempo de integração a utilizar e passar em valores de parâmetros. Para mais informações, saiba mais sobre o tempo de integração do Azure.

Modo de depuração

O modo Debug permite-lhe ver interativamente os resultados de cada passo de transformação enquanto constrói e depura os fluxos de dados. A sessão de depuragem pode ser usada tanto na construção da sua lógica de fluxo de dados como na depuragem do pipeline de execução corre com atividades de fluxo de dados. Para saber mais, consulte a documentação do modo de depuração.

Monitorizar fluxos de dados

O fluxo de dados de mapeamento integra-se com as capacidades de monitorização existentes do Azure Data Factory. Para aprender a compreender a produção de monitorização do fluxo de dados, consulte a monitorização dos fluxos de dados de mapeamento.

A equipa Azure Data Factory criou um guia de afinação de desempenho para o ajudar a otimizar o tempo de execução dos seus fluxos de dados após a construção da sua lógica de negócio.

Regiões disponíveis

Os fluxos de dados de mapeamento estão disponíveis nas seguintes regiões em ADF:

Região do Azure Fluxos de dados em ADF
Austrália Central
Austrália Central 2
Leste da Austrália
Austrália Sudeste
Sul do Brasil
Canadá Central
Índia Central
E.U.A. Central
Leste da China
China Leste 2
China Não-Regional
Norte da China
China Norte 2
Ásia Leste
E.U.A. Leste
E.U.A. Leste 2
França Central
Sul de França
Alemanha Central (Soberano)
Alemanha Não Regional (Soberana)
Alemanha Norte (Público)
Nordeste da Alemanha (Soberano)
Alemanha Central Ocidental (Público)
Leste do Japão
Oeste do Japão
Coreia do Sul Central
Sul da Coreia do Sul
E.U.A. Centro-Norte
Europa do Norte
Leste da Noruega
Oeste da Noruega
Norte da África do Sul
Oeste da África do Sul
E.U.A. Centro-Sul
Sul da Índia
Sudeste Asiático
Norte da Suíça
Suíça Oeste
E.A.U. Central
Norte dos E.A.U.
Sul do Reino Unido
Oeste do Reino Unido
US DoD Centro
US DoD - Leste
US Gov - Arizona
Gov não-regional dos EUA
US Gov - Texas
US Gov - Virginia
E.U.A. Centro-Oeste
Europa Ocidental
Oeste da Índia
E.U.A. Oeste
E.U.A. Oeste 2
EUA Oeste 3

Passos seguintes