Carregue dados no Azure Data Lake Storage Gen2 com o Azure Data Factory

Artigo
05/15/2024

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!

O Azure Data Lake Storage Gen2 é um conjunto de recursos dedicados à análise de big data, incorporados ao armazenamento de Blob do Azure. Ele permite que você interaja com seus dados usando paradigmas de sistema de arquivos e armazenamento de objetos.

O Azure Data Factory (ADF) é um serviço de integração de dados baseado na nuvem totalmente gerido. Você pode usar o serviço para preencher o lago com dados de um rico conjunto de armazenamentos de dados locais e baseados em nuvem e economizar tempo ao criar suas soluções de análise. Para obter uma lista detalhada dos conectores suportados, consulte a tabela de Armazenamentos de dados suportados.

O Azure Data Factory oferece uma solução de movimentação de dados gerenciada em expansão. Devido à arquitetura de expansão do ADF, ele pode ingerir dados em uma alta taxa de transferência. Para obter detalhes, consulte Copiar desempenho da atividade.

Este artigo mostra como usar a ferramenta Data Factory Copy Data para carregar dados do serviço Amazon Web Services S3 no Azure Data Lake Storage Gen2. Você pode seguir etapas semelhantes para copiar dados de outros tipos de armazenamentos de dados.

Gorjeta

Para copiar dados do Azure Data Lake Storage Gen1 para o Gen2, consulte este passo a passo específico.

Pré-requisitos

Assinatura do Azure: se você não tiver uma assinatura do Azure, crie uma conta gratuita antes de começar.
Conta de Armazenamento do Azure com o Data Lake Storage Gen2 habilitado: se você não tiver uma conta de Armazenamento, crie uma conta.
Conta da AWS com um bucket do S3 que contém dados: este artigo mostra como copiar dados do Amazon S3. Você pode usar outros armazenamentos de dados seguindo etapas semelhantes.

Criar uma fábrica de dados

Se você ainda não criou sua fábrica de dados, siga as etapas em Guia de início rápido: criar uma fábrica de dados usando o portal do Azure e o Azure Data Factory Studio para criar uma. Depois de criá-lo, navegue até o data factory no portal do Azure.
Selecione Abrir no bloco Abrir o Azure Data Factory Studio para iniciar o aplicativo Integração de Dados em uma guia separada.

Carregar dados para o Azure Data Lake Storage Gen2

Na home page do Azure Data Factory, selecione o bloco Ingest para iniciar a ferramenta Copiar Dados.
Na página Propriedades, escolha Tarefa de cópia interna em Tipo de tarefa, escolha Executar uma vez agora em Cadência da tarefa ou agenda de tarefas e, em seguida, selecione Avançar.
Na página Armazenamento de dados de origem, conclua as seguintes etapas:
1. Selecione + Nova ligação. Selecione Amazon S3 na galeria de conectores e selecione Continuar.
2. Na página Nova conexão (Amazon S3), execute as seguintes etapas:
  1. Especifique o valor de ID da Chave de Acesso.
  2. Especifique o valor da Chave de Acesso Secreta.
  3. Selecione Testar conexão para validar as configurações e, em seguida, selecione Criar.
3. Na página Armazenamento de dados de origem, verifique se a conexão recém-criada do Amazon S3 está selecionada no bloco Conexão.
4. Na seção Arquivo ou pasta, navegue até a pasta e o arquivo que você deseja copiar. Selecione a pasta/arquivo e, em seguida, selecione OK.
5. Especifique o comportamento de cópia marcando as opções de cópia recursiva e binária. Selecione Seguinte.
Na página Armazenamento de dados de destino, conclua as etapas a seguir.
1. Selecione + Nova conexão e, em seguida, selecione Azure Data Lake Storage Gen2 e selecione Continuar.
2. Na página Nova conexão (Azure Data Lake Storage Gen2), selecione sua conta compatível com o Data Lake Storage Gen2 na lista suspensa "Nome da conta de armazenamento" e selecione Criar para criar a conexão.
3. Na página Armazenamento de dados de destino, selecione a conexão recém-criada no bloco Conexão. Em seguida, em Caminho da pasta, digite copyfroms3 como o nome da pasta de saída e selecione Avançar. O ADF criará o sistema de arquivos ADLS Gen2 correspondente e as subpastas durante a cópia, se ele não existir.
Na página Configurações, especifique CopyFromAmazonS3ToADLS para o campo Nome da tarefa e selecione Avançar para usar as configurações padrão.
Na página Resumo, revise as configurações e selecione Avançar.
Na Página de implementação, selecione Monitorizar para monitorizar o pipeline (tarefa).
Quando a execução do pipeline é concluída com êxito, você vê uma execução de pipeline que é acionada por um gatilho manual. Você pode usar links na coluna Nome do pipeline para exibir detalhes da atividade e executar novamente o pipeline.
Para ver as execuções de atividade associadas à execução do pipeline, selecione o link CopyFromAmazonS3ToADLS na coluna Nome do pipeline . Para obter detalhes sobre a operação de cópia, selecione o link Detalhes (ícone de óculos) na coluna Nome da atividade. Você pode monitorar detalhes como o volume de dados copiados da origem para o coletor, taxa de transferência de dados, etapas de execução com duração correspondente e configuração usada.
Para atualizar a vista, selecione Atualizar. Selecione Todas as execuções de pipeline na parte superior para voltar à visualização "Execuções de pipeline".
Verifique se os dados foram copiados para sua conta do Data Lake Storage Gen2.