Carregar dados no Azure Data Lake Storage Gen1 usando o Azure Data Factory

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!

O Azure Data Lake Storage Gen1 (anteriormente conhecido como Azure Data Lake Store) é um repositório de hiperescala em toda a empresa para cargas de trabalho analíticas de big data. O Data Lake Storage Gen1 permite capturar dados de qualquer tamanho, tipo e velocidade de ingestão. Os dados são capturados em um único local para análises operacionais e exploratórias.

O Azure Data Factory é um serviço de integração de dados baseado na nuvem totalmente gerido. Você pode usar o serviço para preencher o lago com dados do seu sistema existente e economizar tempo ao criar suas soluções de análise.

O Azure Data Factory oferece os seguintes benefícios para carregar dados no Data Lake Storage Gen1:

  • Fácil de configurar: Um assistente intuitivo de 5 passos sem necessidade de scripts.
  • Suporte avançado a armazenamento de dados: suporte integrado para um conjunto avançado de armazenamentos de dados locais e baseados em nuvem. Para obter uma lista detalhada, consulte a tabela de Armazenamentos de dados suportados.
  • Seguro e compatível: os dados são transferidos por HTTPS ou ExpressRoute. A presença do serviço global garante que seus dados nunca saiam do limite geográfico.
  • Alto desempenho: velocidade de carregamento de dados de até 1 GB/s no Data Lake Storage Gen1. Para obter detalhes, consulte Copiar desempenho da atividade.

Este artigo mostra como usar a ferramenta Data Factory Copy Data para carregar dados do Amazon S3 no Data Lake Storage Gen1. Você pode seguir etapas semelhantes para copiar dados de outros tipos de armazenamentos de dados.

Pré-requisitos

  • Assinatura do Azure: se você não tiver uma assinatura do Azure, crie uma conta gratuita antes de começar.
  • Conta do Data Lake Storage Gen1: se você não tiver uma conta do Data Lake Storage Gen1, consulte as instruções em Criar uma conta do Data Lake Storage Gen1.
  • Amazon S3: este artigo mostra como copiar dados do Amazon S3. Você pode usar outros armazenamentos de dados seguindo etapas semelhantes.

Criar uma fábrica de dados

  1. Se você ainda não criou sua fábrica de dados, siga as etapas em Guia de início rápido: criar uma fábrica de dados usando o portal do Azure e o Azure Data Factory Studio para criar uma. Depois de criá-lo, navegue até o data factory no portal do Azure.

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

  2. Selecione Abrir no bloco Abrir o Azure Data Factory Studio para iniciar o aplicativo Integração de Dados em uma guia separada.

Carregue dados no Data Lake Storage Gen1

  1. Na página inicial, selecione o bloco Ingest para iniciar a ferramenta Copiar dados:

    Screenshot that shows the ADF home page.

  2. Na página Propriedades, especifique CopyFromAmazonS3ToADLS para o campo Nome da tarefa e selecione Avançar:

    Properties page

  3. Na página Armazenamento de dados de origem, selecione + Criar nova conexão:

    Source data store page

    Selecione Amazon S3 e selecione Continue

    Source data store s3 page

  4. Na página Especificar conexão do Amazon S3, execute as seguintes etapas:

    1. Especifique o valor de ID da Chave de Acesso.

    2. Especifique o valor da Chave de Acesso Secreta.

    3. Selecione Concluir.

      Screenshot shows the New Linked Service pane where you can enter values.

    4. Você verá uma nova conexão. Selecione Seguinte.

    Screenshot shows your new connection.

  5. Na página Escolher o ficheiro ou pasta de entrada, navegue até à pasta ou ficheiro que pretende copiar. Selecione a pasta/arquivo, selecione Escolher e, em seguida, selecione Avançar:

    Choose input file or folder

  6. Escolha o comportamento de cópia selecionando as opções Copiar arquivos recursivamente e Cópia binária (copiar arquivos como estão). Selecione Seguinte:

    Screenshot shows the Choose the input file or folder where you can select Copy file recursively and Binary Copy.

  7. Na página Armazenamento de dados de destino, selecione + Criar nova conexão e, em seguida, selecione Azure Data Lake Storage Gen1 e selecione Continuar:

    Destination data store page

  8. Na página Novo Serviço Vinculado (Azure Data Lake Storage Gen1), execute as seguintes etapas:

    1. Selecione sua conta do Data Lake Storage Gen1 para o nome da conta do Repositório Data Lake.
    2. Especifique o Locatário e selecione Concluir.
    3. Selecione Seguinte.

    Importante

    Nesta explicação passo a passo, você usa uma identidade gerenciada para recursos do Azure para autenticar sua conta do Data Lake Storage Gen1. Certifique-se de conceder ao MSI as permissões adequadas no Data Lake Storage Gen1 seguindo estas instruções.

    Specify Data Lake Storage Gen1 account

  9. Na página Escolha o arquivo ou pasta de saída, digite copyfroms3 como o nome da pasta de saída e selecione Avançar:

    Screenshot shows the folder path you enter.

  10. Na página Configurações, selecione Avançar:

    Settings page

  11. Na página Resumo, revise as configurações e selecione Avançar:

    Summary page

  12. Na página Implantação, selecione Monitor para monitorar o pipeline (tarefa):

    Deployment page

  13. Tenha em atenção que o separador Monitorização à esquerda é selecionado automaticamente. A coluna Ações inclui links para exibir detalhes da execução da atividade e executar novamente o pipeline:

    Monitor pipeline runs

  14. Para exibir as execuções de atividade associadas à execução do pipeline, selecione o link Exibir execuções de atividade na coluna Ações. Há apenas uma atividade (atividade copiar) no pipeline, pelo que só vai ver uma entrada. Para voltar para a visualização de execuções de pipeline, selecione o link Pipelines na parte superior. Selecione Atualizar para atualizar a lista.

    Monitor activity runs

  15. Para monitorar os detalhes de execução de cada atividade de cópia, selecione o link Detalhes em Ações na exibição de monitoramento de atividades. Você pode monitorar detalhes como o volume de dados copiados da origem para o coletor, taxa de transferência de dados, etapas de execução com duração correspondente e configurações usadas:

    Monitor activity run details

  16. Verifique se os dados foram copiados para sua conta do Data Lake Storage Gen1:

    Verify Data Lake Storage Gen1 output

Avance para o seguinte artigo para saber mais sobre o suporte ao Data Lake Storage Gen1: