Compartilhar via


Módulo 2: Transformar dados com um fluxo de dados no Data Factory

Este módulo leva cerca de 25 minutos para ser concluído. Você cria um fluxo de dados, aplica transformações e move os dados brutos da tabela de camada de dados bronze para uma tabela de camada de dados de ouro .

Com os dados brutos carregados na tabela Bronze Lakehouse do último módulo, agora você pode enriquecê-los. Você a combinará com outra tabela que contém descontos para cada fornecedor e suas viagens durante um dia específico. Em seguida, a tabela final gold Lakehouse é carregada e fica pronta para consumo.

As etapas de alto nível no fluxo de dados são:

Pré-requisitos

Módulo 1 desta série de tutoriais: Criar um pipeline com o Data Factory

Obter dados de uma tabela Lakehouse

  1. Na barra lateral, selecione seu workspace, selecione Novo item e, em seguida, Dataflow Gen2 para criar um novo Fluxo de Dados Gen2.

    Captura de tela mostrando a página Criar malha com o botão Fluxo de Dados Gen2 realçado.

  2. No novo menu de fluxo de dados, selecione Obter dados e, em seguida, Mais....

    Captura de tela mostrando o menu Fluxo de dados com o botão Obter dados realçado e o Mais... opção realçada em seu menu.

  3. Procure e selecione o conector lakehouse .

    Captura de tela mostrando a seleção da fonte de dados lakehouse no menu Escolher fonte de dados.

  4. A caixa de diálogo Conectar à fonte de dados é exibida e uma nova conexão é criada automaticamente para você com base no usuário conectado no momento. Selecione Próximo.

    Captura de tela mostrando a configuração das configurações da fonte de dados para o novo Lakehouse com o usuário conectado atual e o botão Avançar selecionado.

  5. A caixa de diálogo Escolher dados é exibida. Use o painel de navegação para localizar o Lakehouse que você criou para o destino no módulo anterior e selecione a tabela de dados Tutorial_Lakehouse . Em seguida, selecione Criar.

    Captura de tela mostrando o navegador Lakehouse com o workspace, o lakehouse e a tabela criados com a atividade Copy no módulo 1.

  6. (Opcional) Depois que a tela for preenchida com os dados, você poderá definir informações de perfil de coluna , pois isso é útil para criação de perfil de dados. Você pode aplicar a transformação certa e direcionar os valores de dados certos com base nela.

    Para fazer isso, selecione Opções no painel da faixa de opções, selecione as três primeiras opções no perfil Coluna e selecione OK.

    Captura de tela mostrando a seleção de opções de coluna para seus dados.

Transformar os dados importados do Lakehouse

  1. Selecione o ícone de tipo de dado no cabeçalho da segunda coluna, IpepPickupDatetime, para exibir um menu suspenso e selecione o tipo de dado no menu para converter a coluna do tipo Data/Hora para o tipo Data.

    Captura de tela mostrando a seleção do tipo de dados Date para a coluna IpepPickupDatetime.

  2. (Opcional) Na guia Página Inicial da faixa de opções, selecione a opção Escolher colunas no grupo Gerenciar colunas .

    Captura de tela mostrando o botão Escolher colunas na guia Página Inicial do editor de fluxo de dados.

  3. (Opcional) Na caixa de diálogo Escolher colunas , desmarque algumas colunas listadas aqui e selecione OK.

    • lpepDropoffDatetime
    • puLocationId
    • doLocationId
    • pickupLatitude
    • longitudePontoDeEntrega
    • rateCodeID

    Captura de tela mostrando a caixa de diálogo Escolher colunas com as colunas identificadas desmarcadas.

  4. Selecione o filtro da coluna storeAndFwdFlag e classifique o menu suspenso. (Se você vir que uma lista de avisos pode estar incompleta, selecione Carregar mais para ver todos os dados.)

    Captura de tela mostrando a caixa de diálogo de filtro e de classificação para a coluna.

  5. Selecione 'Y' para mostrar apenas as linhas em que um desconto foi aplicado e selecione OK.

    Captura de tela mostrando o filtro de valores com apenas 'Y' selecionado.

  6. Selecione o menu suspenso de classificação e filtro da coluna IpepPickupDatetime, depois selecione Filtros de data e escolha o filtro Entre... fornecido para os tipos Data e Data/Hora.

    Captura de tela mostrando a seleção da opção Filtros de data na classificação da coluna e na lista suspensa de formato.

  7. Na caixa de diálogo Filtrar linhas , selecione datas entre 1º de janeiro de 2015 e 31 de janeiro de 2015 e selecione OK.

    Captura de tela mostrando a seleção das datas em janeiro de 2015.

Conectar-se a um arquivo CSV que contém dados de desconto

Com os dados das viagens em mãos, queremos carregar os dados que contêm os respectivos descontos para cada dia e VendorID, e preparar adequadamente os dados antes de combiná-los com os dados das viagens.

  1. Na guia Página Inicial no menu editor de fluxo de dados, selecione a opção Obter dados e escolha Texto/CSV.

    Captura de tela mostrando a seleção do menu Obter dados da guia Página Inicial, com Texto/CSV realçado.

  2. Na caixa de diálogo Conectar à fonte de dados , forneça os seguintes detalhes:

    • Caminho do arquivo ou URL - https://raw.githubusercontent.com/ekote/azure-architect/master/Generated-NYC-Taxi-Green-Discounts.csv
    • Tipo de autenticação – Anônimo

    Em seguida, selecione Avançar.

    Captura de tela mostrando as configurações de Texto/CSV para a conexão.

  3. Na caixa de diálogo Visualizar dados do arquivo , selecione Criar.

    Captura de tela mostrando a caixa de diálogo Visualizar dados do arquivo com o botão Criar realçado.

Transforme os dados de desconto

  1. Examinando os dados, vemos que os cabeçalhos parecem estar na primeira linha. Promova-os para cabeçalhos selecionando o menu de contexto da tabela no canto superior esquerdo da área de grade de visualização para selecionar Usar a primeira linha como cabeçalhos.

    Captura de tela mostrando a seleção da opção Usar primeira linha como cabeçalhos no menu de contexto da tabela.

    Observação

    Depois de promover os cabeçalhos, você pode ver uma nova etapa adicionada ao painel Etapas Aplicadas na parte superior do editor de fluxo de dados para os tipos de dados de suas colunas.

  2. Clique com o botão direito do mouse na coluna VendorID e, no menu de contexto exibido, selecione a opção Despivotar outras colunas. Isso permite que você transforme colunas em pares de atributo-valor, em que as colunas se tornam linhas.

    Captura de tela mostrando o menu de contexto da coluna VendorID com a seleção Unpivot de outras colunas realçada.

  3. Com a tabela desemparelhada, renomeie as colunas Atributo e Valor clicando duas vezes nelas e alterando Atributo para Data e Valor para Desconto.

    Captura de tela mostrando as colunas da tabela depois de renomear Atributo para Data e Valor para Desconto.

  4. Altere o tipo de dados da coluna Data selecionando o menu de tipo de dados à esquerda do nome da coluna e escolhendo Data.

    Captura de tela mostrando a seleção do tipo de dados Date para a coluna Data.

  5. Selecione a coluna Desconto e, em seguida, selecione a guia Transformar no menu. Selecione Coluna Número, em seguida, selecione Transformações Numéricas Padrão no submenu e escolha Dividir.

    Captura de tela mostrando a seleção da opção Dividir para transformar dados na coluna Desconto.

  6. Na caixa de diálogo Dividir , insira o valor 100.

    Captura de tela mostrando a caixa de diálogo Dividir com o valor 100 inserido e o botão OK realçado.

Combinar dados de viagens e descontos

A próxima etapa é combinar ambas as tabelas em uma única tabela que tenha o desconto que deve ser aplicado à viagem e o total ajustado.

  1. Primeiro, alterne o botão Modo de exibição Diagrama na parte inferior direita da janela, para que você possa ver as duas consultas.

    Captura de tela mostrando o botão Desativar exibição de diagrama com ambas as consultas criadas neste tutorial exibidas.

  2. Selecione sua consulta de dados original (em nosso exemplo, chamada Bronze) e, na guia Página Inicial, selecione o menu Combinar e escolha Mesclar consultas e, em seguida, Mesclar consultas como novas.

    Captura de tela mostrando Mesclar consultas como nova seleção para a consulta nyc_taxi.

  3. Na caixa de diálogo Mesclagem, selecione uma mesclagem externa esquerda e então selecione Generated-NYC-Taxi-Green-Discounts da lista suspensa Direita para mesclagem, e então selecione o ícone de "lâmpada" no canto superior direito da caixa de diálogo para ver o mapeamento sugerido de colunas entre as duas tabelas.

    Captura de tela mostrando a configuração da caixa de diálogo de Mesclagem com mapeamentos de coluna sugeridos exibidos.

    Escolha o mapeamento sugerido para mapear a VendorID e as colunas de data de ambas as tabelas. Quando ambos os mapeamentos são adicionados, os cabeçalhos de coluna correspondentes são realçados em cada tabela.

  4. Uma mensagem é mostrada solicitando que você permita a combinação de dados de várias fontes de dados para exibir os resultados. Selecione OK na caixa de diálogo Mesclagem .

    Captura de tela mostrando a solicitação para aprovar a combinação de dados de várias fontes de dados, com o botão OK realçado.

  5. Na área da tabela, você verá inicialmente um aviso de que "As informações são necessárias sobre a privacidade dos dados". Selecione Continuar para endereçar o aviso.

    Captura de tela mostrando o aviso sobre como combinar dados de várias fontes de dados com o botão Continuar realçado.

  6. Para este tutorial, selecione Ignorar Verificações de Níveis de Privacidade para este documento, pois são dados de exemplo que não têm informações confidenciais. Para suas próprias fontes de dados, defina os níveis de privacidade apropriados para proteger seus dados confidenciais.

    Captura de tela mostrando o diálogo em nível de privacidade com a opção Ignorar níveis de privacidade selecionada.

  7. Clique em Salvar.

  8. Observe como uma nova consulta foi criada na visualização de Diagrama mostrando a relação da nova consulta Merge com as duas consultas que você criou anteriormente. Olhando para o painel de tabela do editor, role para a direita na lista de colunas de consulta mesclada para ver que está presente uma nova coluna com valores de tabela. Esta é a coluna "Generated NYC Taxi-Green-Discounts" e seu tipo é [Table]. No cabeçalho da coluna, há um ícone com duas setas indo em direções opostas, permitindo que você selecione colunas da tabela. Desmarque todas as colunas, exceto Desconto, e selecione OK.

    Captura de tela mostrando a consulta mesclada com o menu de seleção de coluna exibido para a nova coluna chamada Generated-NYC-Taxi-Green-Discounts.

  9. Com o valor de desconto agora no nível da linha, podemos criar uma nova coluna para calcular o valor total após o desconto. Para fazer isso, selecione a guia Adicionar coluna na parte superior do editor e escolha a coluna Personalizada no grupo Geral .

    Captura de tela mostrando o botão Adicionar coluna personalizada realçado na seção Geral da guia Adicionar coluna.

  10. Na caixa de diálogo Coluna personalizada , você pode usar a linguagem de fórmula do Power Query (também conhecida como M) para definir como sua nova coluna deve ser calculada. Insira TotalAfterDiscount para o novo nome da coluna, selecione Moeda para o tipo de dados e forneça a seguinte expressão M para a fórmula de coluna personalizada:

    se [totalAmount] > 0 então [totalAmount] * (1 - [Discount]) senão [totalAmount]

    Em seguida, selecione OK.

    Captura de tela mostrando a tela de configuração de coluna personalizada com o nome da nova coluna, o tipo de dados e a fórmula de coluna personalizada realçadas.

  11. Selecione a coluna TotalAfterDiscount recém-criada e, em seguida, selecione a guia Transformar na parte superior da janela do editor. No grupo Coluna Número, selecione a lista suspensa Arredondamento e, em seguida, escolha Arredondar....

    Captura de tela mostrando a opção Round... na guia Transform do editor.

  12. Na caixa de diálogo Round, insira 2 para o número de casas decimais e selecione OK.

    Captura de tela mostrando a caixa de diálogo Arredondar, com o número de casas decimais configurado para 2, e o botão OK realçado.

  13. Altere o tipo de dados do IpepPickupDatetime de Data para Data/Hora.

    Captura de tela mostrando a seleção do tipo de dados Data/Hora para a coluna IpepPickupDatetime.

  14. Por fim, expanda o painel configurações de consulta do lado direito do editor se ele ainda não estiver expandido e renomeie a consulta de Mesclagem para Saída.

    Captura de tela mostrando a renomeação da consulta de Mesclagem para Saída.

Carregar a consulta de saída em uma tabela no Lakehouse

Com a consulta de saída agora totalmente preparada e com os dados prontos para saída, podemos definir o destino de saída para a consulta.

  1. Selecione a consulta de mesclagem saída criada anteriormente. Em seguida, selecione a guia Página Inicial no editor e adicione o destino de dados do agrupamento Consultas para selecionar um destino Lakehouse.

    Captura de tela mostrando o botão Adicionar destino de dados com Lakehouse realçado.

  2. Na caixa de diálogo Conectar ao destino de dados , sua conexão já deve estar selecionada. Selecione Avançar para continuar.

  3. Na caixa de diálogo Escolher destino, navegue até o Lakehouse onde deseja carregar os dados, nomeie a nova tabela como nyc_taxi_with_discounts e, em seguida, selecione Avançar novamente.

    Captura de tela mostrando a caixa de diálogo Escolher destino com o nome da tabela nyc_taxi_with_discounts.

  4. Na caixa de diálogo Escolher configurações de destino , você pode usar as configurações automáticas ou desmarcar as configurações automáticas e deixar o método de atualização De substituição padrão, verificar se as colunas estão mapeadas corretamente e selecionar Salvar configurações.

    Captura de tela mostrando a caixa de diálogo Escolher configurações de destino com o botão Salvar configurações realçado.

  5. Na janela principal do editor, confirme se você vê seu destino de saída no painel de configurações de consulta para a tabela Saída em Destino de dados e, em seguida, selecione Salvar*.

    Importante

    Quando o primeiro Fluxo de Dados Gen2 for criado em um espaço de trabalho, os itens do Lakehouse e Warehouse serão provisionados junto com seus modelos semânticos e do ponto de extremidade de análise SQL relacionados. Esses itens são compartilhados por todos os fluxos de dados no espaço de trabalho e são necessários para a operação do Fluxo de Dados Gen2, não devem ser excluídos e não devem ser usados diretamente pelos usuários. Os itens são um detalhe de implementação do Fluxo de Dados Gen2. Os itens não são visíveis no espaço de trabalho, mas podem estar acessíveis em outras experiências, como as experiências de Notebook, ponto de extremidade do SQL, Lakehouse e Warehouse. Você pode reconhecer os itens pelo prefixo no nome. O prefixo dos itens é "DataflowsStaging".

  6. (Opcional) Na página da área de trabalho, você pode renomear seu fluxo de dados clicando nos três pontos ao lado do nome do fluxo de dados que aparece após selecionar a linha e escolhendo Configurações. Neste exemplo, renomeamos-o para nyc_taxi_with_discounts.

    Captura de tela mostrando a opção Propriedades selecionada no menu para um fluxo de dados em que ela pode ser renomeada.

  7. Selecione o ícone de atualização para o fluxo de dados sob as reticências Mais opções e, quando concluído, você deverá ver sua nova tabela Lakehouse criada conforme configurada nas configurações de Destino de Dados.

    Captura de tela mostrando a seleção do botão atualizar para atualizar o fluxo de dados.

  8. Verifique seu Lakehouse e veja a nova tabela carregada lá.

Próxima etapa

Avance para a próxima seção para integrar o pipeline de dados.