Compartilhar via


Módulo 1: criar um pipeline com o Data Factory

Esse módulo leva 10 minutos, ingerindo dados brutos do armazenamento de origem na tabela Bronze de um data lakehouse usando a atividade Copy em um pipeline.

As etapas de alto nível no módulo 1 são as seguintes:

  1. Criar um pipeline de dados.
  2. Usar uma atividade Copy no pipeline para carregar dados de exemplo em um data lakehouse.

Criar um pipeline de dados

  1. É necessária uma conta de locatário do Microsoft Fabric com uma assinatura ativa. Criar uma conta gratuita.

  2. Certifique-se que você tenha um workspace habilitado para o Microsoft Fabric: Criar um workspace.

  3. Entre no Power BI.

  4. Selecione o ícone padrão do Power BI na parte inferior esquerda da tela e alterne para a experiência do Data Factory.

    Screenshot showing the selection of the Data Factory experience.

  5. Selecione Pipeline de dados e forneça um nome de pipeline. Em seguida, selecione Criar.

    Screenshot of the Data Factory start page with the button to create a new data pipeline selected.

    Screenshot showing the dialog to give the new pipeline a name.

Use uma atividade Copy no pipeline para carregar dados de exemplo em um data lakehouse

Etapa 1: use o assistente de cópia para configurar uma atividade Copy.

Selecione Copiar dados para abrir a ferramenta do assistente de cópia.

Screenshot showing the selection of the Copy data activity from the new pipeline start page.

Etapa 2: Defina suas configurações no assistente de cópia.

  1. A caixa de diálogo Copiar dados é exibida com a primeira etapa, Escolher fonte de dados, realçada. Role para baixo, se necessário, até a seção Fontes de dados e selecione o tipo de fonte de dados Armazenamento de Blobs do Azure. Em seguida, selecione Avançar.

    Screenshot showing the selection of the Azure Blob Storage data source type in the copy assistant on the Choose data source tab.

  2. Na próxima etapa, selecione Criar nova conexão e, em seguida, forneça a URL do armazenamento de blob que hospeda os dados de exemplo fornecidos para este tutorial, em https://nyctaxisample.blob.core.windows.net/sample. O tipo de autenticação é Anônimo. Selecione Avançar depois de fornecer a URL.

    Screenshot showing the creation of a new Azure Blob Storage connection with the URL for the sample data in the tutorial.

  3. A etapa Conectar-se à fonte de dados é exibida e, inicialmente, você vê um erro Não é possível listar arquivos porque as permissões só foram concedidas à pasta de exemplo no armazenamento de blobs. Forneça o nome da pasta, amostra, e selecione Repetir.

    Screenshot showing the Unable to list files error with the folder name Sample provided.

    Observação

    A pasta de armazenamento de blobs diferencia maiúsculas de minúsculas e deve estar em letras minúsculas.

  4. O navegador de armazenamento de blobs é exibido em seguida. Selecione o arquivo NYC-Taxi-Green-2015-01.parquet e aguarde até que a versão prévia dos dados seja exibida. Em seguida, selecione Avançar.

    Screenshot showing the preview data for the NYC-Taxi-Green-2015-01.parquet file.

  5. Na etapa Escolher destino dos dados do assistente de cópia, selecione Lakehouse e, em seguida, Avançar.

    Screenshot showing the selection of the Lakehouse destination on the Choose data destination tab of the Copy data assistant.

  6. Selecione Criar novo Lakehouse na página de configuração do destino de dados exibida e insira um nome para o novo Lakehouse. Em seguida, selecione Avançar novamente.

    Screenshot showing the data destination configuration page of the Copy assistant, choosing the Create new Lakehouse option and providing a Lakehouse name.

  7. Agora, configure os detalhes do destino do Lakehouse na página Selecionar e mapear para o caminho da pasta ou tabela. Selecione Tabelas para a Pasta raiz, forneça um nome de tabela e escolha a ação Substituir. Não marque a caixa de seleção Habilitar partição que aparece depois que você seleciona a ação Substituir tabela.

    Screenshot showing the Connect to data destination tab of the Copy data assistant, on the Select and map to folder path or table step.

  8. Por fim, na página Revisar + salvar do assistente de cópia de dados, revise a configuração. Para este tutorial, desmarque a caixa de seleção Iniciar transferência de dados imediatamente, pois executaremos a atividade manualmente na próxima etapa. Depois, selecione OK.

    Screenshot showing the Copy data assistant on the Review + save page.

Etapa 3: Execute e exiba os resultados de sua atividade Copy.

  1. Selecione a guia Executar no editor de pipeline. Em seguida, selecione o botão Executar e, em seguida, Salvar e executar no prompt, para executar a atividade Copy.

    Screenshot showing the pipeline Run tab with the Run button highlighted.

    Screenshot showing the Save and run dialog with the Save and run button highlighted.

  2. Você pode monitorar a execução e verificar os resultados na guia Saída abaixo da tela do pipeline. Selecione o botão de detalhes da execução (o ícone de "óculos" que aparece quando você passa o mouse sobre a execução do pipeline em andamento) para exibir os detalhes da execução.

    Screenshot showing the run details button in the pipeline Output tab.

  3. Os detalhes da execução mostram 1.508.501 linhas lidas e gravadas.

    Screenshot of the Copy data details for the pipeline run.

  4. Expanda a seção Detalhamento da duração para ver a duração de cada fase da atividade Copy. Após revisar os detalhes da cópia, selecione Fechar.

    Screenshot showing the duration breakdown of the Copy activity run.

Neste primeiro módulo do nosso tutorial de ponta a ponta para a sua primeira integração de dados usando o Data Factory no Microsoft Fabric, você aprendeu a:

  • Criar um pipeline de dados.
  • Adicionar uma atividade Copy ao seu pipeline.
  • Usar dados de exemplo e criar um Lakehouse de dados para armazenar os dados em uma nova tabela.
  • Executar o pipeline e exibir seus detalhes e o detalhamento da duração.

Vá para a próxima seção para criar seu fluxo de dados.