Ingerir dados em Azure Data Lake Storage Gen2

Neste artigo, irá aprender a ingerir dados de uma localização para outra numa conta de armazenamento do Azure Data Lake Gen 2 (Azure Data Lake Gen2) com o Azure Synapse Analytics.

Pré-requisitos

  • Subscrição do Azure: se não tiver uma subscrição do Azure, crie uma conta gratuita do Azure antes de começar.
  • Conta de Armazenamento do Azure: utiliza o Azure Data Lake Gen2 como arquivo de dados de origem . Se não tiver uma conta de armazenamento, veja Criar uma conta de Armazenamento do Azure para obter os passos para criar uma.

Criar serviços ligados

No Azure Synapse Analytics, um serviço ligado é onde define as suas informações de ligação a outros serviços. Nesta secção, irá adicionar Azure Synapse Analytics e Azure Data Lake Gen2 como serviços ligados.

  1. Abra o Azure Synapse Analytics UX e aceda ao separador Gerir.
  2. Em Ligações externas, selecione Serviços ligados.
  3. Para adicionar um serviço ligado, selecione Novo.
  4. Selecione o mosaico Azure Data Lake Storage Gen2 na lista e selecione Continuar.
  5. Introduza as suas credenciais de autenticação. A chave de conta, o principal de serviço e a identidade gerida são atualmente tipos de autenticação suportados. Selecione a ligação de teste para verificar se as suas credenciais estão corretas.
  6. Quando terminar, selecione Criar.

Criar pipeline

Um pipeline contém o fluxo lógico para uma execução de um conjunto de atividades. Nesta secção, irá criar um pipeline que contém uma atividade de cópia que ingere dados do Azure Data Lake Gen2 num conjunto de SQL dedicado.

  1. Aceda ao separador Orquestrar . Selecione no ícone de adição junto ao cabeçalho dos pipelines e selecione Pipeline.
  2. Em Mover e Transformar no painel de atividades, arraste Copiar dados para a tela do pipeline.
  3. Selecione na atividade de cópia e aceda ao separador Origem . Selecione Novo para criar um novo conjunto de dados de origem.
  4. Selecione Azure Data Lake Storage Gen2 como arquivo de dados e selecione Continuar.
  5. Selecione Texto Delimitado como o seu formato e selecione Continuar.
  6. No painel de propriedades do conjunto, selecione o serviço ligado ADLS que criou. Especifique o caminho do ficheiro dos dados de origem e especifique se a primeira linha tem um cabeçalho. Pode importar o esquema do arquivo de ficheiros ou de um ficheiro de exemplo. Selecione OK quando terminar.
  7. Aceda ao separador Sink . Selecione Novo para criar um novo conjunto de dados de sink.
  8. Selecione Azure Data Lake Storage gen2 como arquivo de dados e selecione Continuar.
  9. Selecione Texto Delimitado como o seu formato e selecione Continuar.
  10. No painel de propriedades do conjunto, selecione o serviço ligado ADLS que criou. Especifique o caminho da pasta onde pretende escrever dados. Selecione OK quando terminar.

Depurar e publicar pipeline

Depois de concluir a configuração do pipeline, pode executar uma execução de depuração antes de publicar os artefactos para verificar se está tudo correto.

  1. Para depurar o pipeline, selecione Depurar na barra de ferramentas. Verá o estado da execução do pipeline no separador Saída, na parte inferior da janela.
  2. Assim que o pipeline puder ser executado com êxito, na barra de ferramentas superior, selecione Publicar Tudo. Esta ação publica entidades (conjuntos de dados e pipelines) que criou no serviço Synapse Analytics.
  3. Aguarde até ver a mensagem Publicação com êxito. Para ver mensagens de notificação, selecione o botão de campainha no canto superior direito.

Acionar e monitorizar o pipeline

Neste passo, vai acionar manualmente o pipeline publicado no passo anterior.

  1. Selecione Adicionar Acionador na barra de ferramentas e, em seguida, selecione Acionar Agora. Na página Executar Pipeline, selecione Concluir.
  2. Aceda ao separador Monitor localizado na barra lateral esquerda. Verá uma execução de pipeline que é acionada por um acionador manual. Pode utilizar ligações na coluna Ações para ver os detalhes da atividade e voltar a executar o pipeline.
  3. Para ver as execuções de atividade associadas à execução do pipeline, selecione a ligação Ver Execuções de Atividade na coluna Ações. Neste exemplo, existe apenas uma atividade, pelo que vê apenas uma entrada na lista. Para ver os detalhes da operação de cópia, selecione a ligação Detalhes (ícone de óculos), na coluna Ações. Selecione Execuções de Pipeline na parte superior para voltar à vista Execuções de Pipeline. Para atualizar a vista, selecione Atualizar.
  4. Verifique se os seus dados estão escritos corretamente no conjunto de SQL dedicado.

Passos seguintes

Para obter mais informações sobre a integração de dados do Azure Synapse Analytics, veja o artigo Ingestão de dados num conjunto de SQL dedicado.