Ferramenta Copiar Dados no Azure Data Factory e Synapse Analytics

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!

A ferramenta Copiar dados facilita e otimiza o processo de ingestão de dados em um data lake, que geralmente é uma primeira etapa em um cenário de integração de dados de ponta a ponta. Ele economiza tempo, especialmente quando você usa o serviço para ingerir dados de uma fonte de dados pela primeira vez. Alguns dos benefícios de usar esta ferramenta são:

  • Ao usar a ferramenta Copiar dados, você não precisa entender as definições de serviço para serviços vinculados, conjuntos de dados, pipelines, atividades e gatilhos.
  • O fluxo da ferramenta Copiar dados é intuitivo para carregar dados em um data lake. A ferramenta cria automaticamente todos os recursos necessários para copiar dados do armazenamento de dados de origem selecionado para o armazenamento de dados de destino/coletor selecionado.
  • A ferramenta Copiar dados ajuda a validar os dados que estão sendo ingeridos no momento da criação, o que ajuda a evitar possíveis erros no próprio início.
  • Se você precisar implementar uma lógica de negócios complexa para carregar dados em um data lake, ainda poderá editar os recursos criados pela ferramenta Copiar Dados usando a criação por atividade na interface do usuário.

A tabela a seguir fornece orientação sobre quando usar a ferramenta Copiar Dados versus a criação por atividade na interface do usuário:

Ferramenta Copiar Dados Criação por atividade (atividade de cópia)
Você deseja criar facilmente uma tarefa de carregamento de dados sem aprender sobre entidades (serviços vinculados, conjuntos de dados, pipelines, etc.) Você deseja implementar uma lógica complexa e flexível para carregar dados no lago.
Você deseja carregar rapidamente um grande número de artefatos de dados em um data lake. Você deseja encadear a atividade de cópia com atividades subsequentes para limpeza ou processamento de dados.

Para iniciar a ferramenta Copiar Dados, clique no bloco Ingestão na página inicial da interface do usuário do Data Factory ou do Synapse Studio.

Depois de iniciar a ferramenta de cópia de dados, você verá dois tipos de tarefas: uma é tarefa de cópia interna e outra é tarefa de cópia orientada por metadados. A tarefa de cópia interna leva você a criar um pipeline em cinco minutos para replicar dados sem aprender sobre entidades. A tarefa de cópia orientada por metadados para facilitar sua jornada de criação de pipelines parametrizados e tabela de controle externo, a fim de gerenciar a cópia de grandes quantidades de objetos (por exemplo, milhares de tabelas) em escala. Você pode ver mais detalhes em dados de cópia controlados por metadados.

Fluxo intuitivo para carregar dados em um data lake

Esta ferramenta permite que você mova facilmente dados de uma ampla variedade de fontes para destinos em minutos com um fluxo intuitivo:

  1. Defina as configurações para a origem.

  2. Defina as configurações para o destino.

  3. Configure configurações avançadas para a operação de cópia, como mapeamento de coluna, configurações de desempenho e configurações de tolerância a falhas.

  4. Especifique um agendamento para a tarefa de carregamento de dados.

  5. Rever o resumo das entidades a criar.

  6. Edite o pipeline para atualizar as configurações da atividade de cópia conforme necessário.

    A ferramenta foi projetada com big data em mente desde o início, com suporte para diversos tipos de dados e objetos. Você pode usá-lo para mover centenas de pastas, arquivos ou tabelas. A ferramenta suporta visualização automática de dados, captura de esquema e mapeamento automático, além de filtragem de dados.

Copy Data tool

Pré-visualização automática de dados

Você pode visualizar parte dos dados do armazenamento de dados de origem selecionado, o que permite validar os dados que estão sendo copiados. Além disso, se os dados de origem estiverem em um arquivo de texto, a ferramenta Copiar dados analisará o arquivo de texto para detetar automaticamente os delimitadores de linha e coluna e o esquema.

File settings

Após a deteção, selecione Visualizar dados:

Detected file settings and preview

Captura de esquema e mapeamento automático

O esquema da fonte de dados pode não ser o mesmo que o esquema de destino de dados em muitos casos. Nesse cenário, você precisa mapear colunas do esquema de origem para colunas do esquema de destino.

A ferramenta Copiar dados monitora e aprende seu comportamento quando você está mapeando colunas entre armazenamentos de origem e destino. Depois de escolher uma ou algumas colunas do armazenamento de dados de origem e mapeá-las para o esquema de destino, a ferramenta Copiar Dados começa a analisar o padrão para pares de colunas escolhidos de ambos os lados. Em seguida, aplica o mesmo padrão ao resto das colunas. Portanto, você vê que todas as colunas foram mapeadas para o destino da maneira que você deseja logo após vários cliques. Se não estiver satisfeito com a escolha do mapeamento de colunas fornecido pela ferramenta Copiar Dados, pode ignorá-lo e continuar com o mapeamento manual das colunas. Enquanto isso, a ferramenta Copiar dados aprende e atualiza constantemente o padrão e, finalmente, atinge o padrão certo para o mapeamento de coluna que você deseja alcançar.

Nota

Ao copiar dados do SQL Server ou do Banco de Dados SQL do Azure para o Azure Synapse Analytics, se a tabela não existir no repositório de destino, a ferramenta Copiar Dados dá suporte à criação da tabela automaticamente usando o esquema de origem.

Filtrar dados

Você pode filtrar os dados de origem para selecionar apenas os dados que precisam ser copiados para o armazenamento de dados do coletor. A filtragem reduz o volume dos dados a serem copiados para o armazenamento de dados do coletor e, portanto, melhora a taxa de transferência da operação de cópia. A ferramenta Copiar Dados fornece uma maneira flexível de filtrar dados em um banco de dados relacional usando a linguagem de consulta SQL ou arquivos em uma pasta de blob do Azure.

Filtrar dados em um banco de dados

A captura de tela a seguir mostra uma consulta SQL para filtrar os dados.

Filter data in a database

Filtrar dados em uma pasta de blob do Azure

Você pode usar variáveis no caminho da pasta para copiar dados de uma pasta. As variáveis suportadas são: {ano}, {mês}, {dia}, {hora} e {minuto}. Por exemplo: inputfolder/{year}/{month}/{day}.

Suponha que você tenha pastas de entrada no seguinte formato:

2016/03/01/01
2016/03/01/02
2016/03/01/03
...

Clique no botão Procurar arquivo ou pasta, navegue até uma dessas pastas (por exemplo, 2016-03-01-02>>>) e clique em Escolher. Deverá ver 2016/03/01/02 na caixa de texto.

Em seguida, substitua 2016 por {ano}, 03 por {mês}, 01 por {dia} e 02 por {hora} e pressione a tecla Tab. Ao selecionar Carga incremental: nomes de pasta/arquivo particionados por tempo na seção Comportamento de carregamento de arquivo e selecionar Agendarou janela Tumbling na página Propriedades, você verá listas suspensas para selecionar o formato para estas quatro variáveis:

Filter file or folder

A ferramenta Copiar dados gera parâmetros com expressões, funções e variáveis do sistema que podem ser usados para representar {ano}, {mês}, {dia}, {hora} e {minuto} ao criar pipeline.

Opções de agendamento

Você pode executar a operação de cópia uma vez ou em um cronograma (por hora, diariamente e assim por diante). Essas opções podem ser usadas para os conectores em diferentes ambientes, incluindo área de trabalho local, na nuvem e local.

Uma operação de cópia única permite a movimentação de dados de uma origem para um destino apenas uma vez. Aplica-se a dados de qualquer tamanho e qualquer formato suportado. A cópia agendada permite copiar dados sobre uma recorrência que você especificar. Você pode usar configurações avançadas (como repetir, tempo limite e alertas) para configurar a cópia agendada.

Scheduling options

Experimente estes tutoriais que usam a ferramenta Copiar dados: