Ingerir dados no Azure Data Lake Storage Gen2

Neste artigo, você aprenderá a ingerir dados de um local para outro em uma conta de armazenamento do Azure Data Lake Gen2 usando o Azure Synapse Analytics.

Pré-requisitos

  • Assinatura do Azure: Caso você não tenha uma assinatura do Azure, crie uma conta gratuita do Azure antes de começar.
  • Conta de Armazenamento do Azure: Use o Azure Data Lake Gen 2 como uma fonte de armazenamento de dados. Se você não tiver uma conta de armazenamento, consulte Criar uma conta de armazenamento do Azure para obter as etapas para criar uma.

Criar serviços vinculados

No Azure Synapse Analytics, um serviço vinculado é onde você define as informações de conexão com outros serviços. Nesta seção, você adicionará o Azure Synapse Analytics e o Azure Data Lake Gen 2 como serviços vinculados.

  1. Abra a UX do Azure Synapse Analytics e vá para a guia Gerenciar.
  2. Em Conexões externas, selecione Serviços vinculados.
  3. Para adicionar um serviço vinculado, selecione Novo.
  4. Selecione o bloco do Azure Data Lake Storage Gen2 na lista e clique em Continuar.
  5. Insira as credenciais de autenticação. A chave de conta, a entidade de serviço e a identidade gerenciada são tipos de autenticação atualmente suportados. Selecione testar conexão para verificar se suas credenciais estão corretas.
  6. Selecione Criar quando terminar.

Criar um pipeline

Um pipeline contém o fluxo lógico para uma execução de um conjunto de atividades. Nesta seção, você criará um pipeline que contém uma atividade de cópia que ingere dados do Azure Data Lake Gen 2 para um pool de SQL dedicado.

  1. Vá para a guia Orquestrar. Selecione o ícone de adição ao lado do cabeçalho de pipelines e selecione Pipeline.
  2. Em Mover e Transformar no painel atividades, arraste Copiar dados no painel da tela do pipeline.
  3. Selecione a atividade de cópia e acesse a guia Origem. Selecione Novo para criar um conjunto de dados de origem.
  4. Selecione Azure Data Lake Storage Gen2 como seu armazenamento de dados e clique em continuar.
  5. Selecione DelimitedText como seu formato e clique em continuar.
  6. No painel definir propriedades, selecione o serviço vinculado ADLS que você criou. Especifique o caminho do arquivo dos dados de origem e especifique se a primeira linha tem um cabeçalho. Você pode importar o esquema do repositório de arquivos ou de um arquivo de exemplo. Selecione OK quando terminar.
  7. Vá para a guia Coletor. Selecione em Novo para criar um novo conjunto de dados do coletor.
  8. Selecione Azure Data Lake Storage Gen2 como seu armazenamento de dados e clique em continuar.
  9. Selecione DelimitedText como seu formato e clique em continuar.
  10. No painel definir propriedades, selecione o serviço vinculado ADLS que você criou. Especifique o caminho da pasta na qual você deseja gravar os dados. Selecione OK quando terminar.

Depurar e publicar o pipeline

Depois de concluir a configuração do pipeline, você poderá efetuar uma execução de depuração antes de publicar seus artefatos para verificar se tudo está correto.

  1. Para depurar o pipeline, selecione Depurar na barra de ferramentas. Você verá o status da execução do pipeline na guia Saída na parte inferior da janela.
  2. Depois que o pipeline for executado corretamente, na barra de ferramentas superior, selecione Publicar Tudo. Esta ação publica as entidades (conjuntos de dados e pipelines) criadas por você anteriormente no Synapse Analytics.
  3. Aguarde até que você veja a mensagem Publicado com êxito. Para ver as mensagens de notificação, selecione o botão de sino no canto superior direito.

Acionar e monitorar o pipeline

Nesta etapa, você aciona manualmente o pipeline publicado na etapa anterior.

  1. Selecione Adicionar gatilho na barra de ferramentas e selecione Disparar Agora. Na página Execução de Pipeline, selecione Concluir.
  2. Vá para a guia Monitorar localizada na barra lateral esquerda. Você verá uma execução do pipeline que é disparada por um gatilho manual. Você pode usar os links na coluna Ações para exibir detalhes da atividade e executar o pipeline novamente.
  3. Selecione o link Exibir atividades em execução na coluna Ações para ver a atividade em execução associada à execução do pipeline. Neste exemplo, há apenas uma atividade, então você vê apenas uma entrada na lista. Para obter detalhes sobre a operação de cópia, selecione o link Detalhes (ícone de óculos) na coluna Ações. Para voltar ao modo de exibição Execuções de Pipeline, selecione Execuções de Pipeline na parte superior. Para atualizar a exibição, selecione Atualizar.
  4. Verifique se os dados estão gravados corretamente no pool de SQL dedicado.

Próximas etapas

Para saber mais sobre a integração de dados do Azure Synapse Analytics, confira o artigo Ingerir dados em um pool de SQL dedicado.