Partilhar via


Capturar dados alterados do Azure Data Lake Storage Gen2 para o Banco de Dados SQL do Azure usando um recurso de captura de dados de alteração

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!

Neste artigo, você usa a interface do usuário do Azure Data Factory para criar um recurso CDC (captura de dados de alteração). O recurso pega dados alterados de uma fonte do Azure Data Lake Storage Gen2 e os adiciona ao Banco de Dados SQL do Azure em tempo real.

Neste artigo, vai aprender a:

  • Crie um recurso CDC.
  • Monitore a atividade do CDC.

Você pode modificar e expandir o padrão de configuração neste artigo.

Pré-requisitos

Antes de iniciar os procedimentos neste artigo, certifique-se de que possui estes recursos:

  • Subscrição do Azure. Se você não tiver uma assinatura do Azure, crie uma conta gratuita do Azure.
  • Banco de dados SQL. Você usa o Banco de Dados SQL do Azure como um armazenamento de dados de origem. Se você não tiver um banco de dados SQL, crie um no portal do Azure.
  • Conta de armazenamento. Você usa o Delta Lake armazenado no Azure Data Lake Storage Gen2 como um armazenamento de dados de destino. Se você não tiver uma conta de armazenamento, consulte Criar uma conta de armazenamento para conhecer as etapas para criar uma.

Criar um artefato CDC

  1. Vá para o painel Autor no seu data factory. Abaixo de Pipelines, um novo artefato de nível superior chamado Change Data Capture (visualização) é exibido.

    Captura de tela de um novo artefato de nível superior para captura de dados de alteração no painel Recursos de fábrica.

  2. Passe o cursor sobre Alterar captura de dados (visualização) até que três pontos apareçam. Em seguida, selecione Alterar ações de captura de dados (visualização).

    Captura de tela do botão para alterar ações de captura de dados que aparecem sobre o novo artefato de nível superior.

  3. Selecione Novo CDC (visualização). Esta etapa abre um submenu para iniciar o processo guiado.

    Captura de ecrã de uma lista de ações de captura de dados de alteração.

  4. Você será solicitado a nomear seu recurso CDC. Por padrão, o nome é "adfcdc" com um número que aumenta em 1. Você pode substituir esse nome padrão por um nome que você escolher.

    Captura de ecrã da caixa de texto para atualizar o nome de um recurso.

  5. Use a lista suspensa para escolher sua fonte de dados. Para este artigo, selecione DelimitedText.

    Captura de tela do submenu processo guiado com opções de origem em uma lista suspensa.

  6. Você será solicitado a selecionar um serviço vinculado. Crie um novo serviço vinculado ou selecione um existente.

    Captura de tela da caixa para escolher ou criar um serviço vinculado.

  7. Use a área Configurações de origem para, opcionalmente, definir configurações avançadas de origem, incluindo delimitadores de coluna e linha.

    Captura de tela de configurações avançadas de origem para definir delimitadores.

    Se você não editar manualmente essas configurações de origem, elas serão definidas como padrão.

  8. Use o botão Procurar para selecionar sua pasta de dados de origem.

    Captura de ecrã de um ícone de pasta para procurar um caminho de pasta.

  9. Depois de selecionar um caminho de pasta, selecione Continuar para definir o destino de dados.

    Captura de tela do botão Continuar no processo guiado para selecionar destinos de dados.

    Você pode optar por adicionar várias pastas de origem usando o botão de adição (+). As outras fontes também devem usar o mesmo serviço vinculado que você já selecionou.

  10. Selecione um valor de Tipo de destino usando a lista suspensa. Para este artigo, selecione Banco de Dados SQL do Azure.

    Captura de tela de um menu suspenso de todos os tipos de destino de dados.

  11. Você será solicitado a selecionar um serviço vinculado. Crie um novo serviço vinculado ou selecione um existente.

    Captura de ecrã da caixa para escolher ou criar um serviço ligado ao seu destino de dados.

  12. Para tabelas de destino, você pode criar uma nova tabela de destino ou selecionar uma existente:

    • Para criar uma tabela de destino, selecione a guia Novas entidades e, em seguida, selecione Editar novas tabelas.

      Captura de ecrã do separador para criar novas tabelas para o seu destino.

    • Para selecionar uma tabela existente, selecione a guia Entidades existentes e use a caixa de seleção para escolher uma tabela. Use o botão Visualizar para exibir os dados da tabela.

      Captura de ecrã do separador para escolher tabelas para o seu alvo.

    Se as tabelas existentes no destino tiverem nomes correspondentes, elas serão selecionadas por padrão em Entidades existentes. Caso contrário, novas tabelas com nomes correspondentes são criadas em Novas entidades. Além disso, você pode editar novas tabelas usando o botão Editar novas tabelas .

  13. Você pode usar as caixas de seleção para escolher várias tabelas de destino do seu banco de dados SQL. Depois de terminar de escolher as tabelas de destino, selecione Continuar.

    Captura de ecrã do botão Continuar no processo guiado para avançar para o passo seguinte.

  14. Uma nova guia para capturar dados de alteração é exibida. Esta guia é o estúdio CDC, onde você pode configurar seu novo recurso.

    Captura de tela do estúdio de captura de dados de alteração.

    Um novo mapeamento é criado automaticamente para você. Você pode atualizar as seleções Tabela de origem e Tabela de destino para seu mapeamento usando as listas suspensas.

    Captura de tela do mapeamento de origem para destino no estúdio de captura de dados de alteração.

  15. Depois de selecionar as tabelas, as colunas delas são mapeadas por padrão com a alternância de mapa automático ativada. O mapa automático mapeia automaticamente as colunas por nome no coletor, seleciona novas alterações de coluna quando o esquema de origem evolui e flui essas informações para os tipos de coletor suportados.

    Se você quiser usar o mapa automático e não alterar nenhum mapeamento de coluna, vá diretamente para a etapa 18.

    Captura de tela da alternância para mapeamento automático ativada.

    Se quiser habilitar os mapeamentos de coluna, selecione os mapeamentos e desative a alternância de mapa automático. Em seguida, selecione o botão Mapeamentos de coluna para exibir os mapeamentos.

    Captura de tela da seleção de mapeamento, a alternância para mapeamento automático desativada e o botão para mapeamentos de coluna.

    Você pode voltar para o mapeamento automático a qualquer momento, ativando a alternância de mapa automático.

  16. Veja os mapeamentos de coluna. Use as listas suspensas para editar os mapeamentos de coluna para o método Mapeamento, a coluna Origem e a coluna Destino.

    Captura de tela da página para editar mapeamentos de coluna.

    Nesta página, pode:

    • Adicione mais mapeamentos de coluna usando o botão Novo mapeamento . Use as listas suspensas para fazer seleções para o método Mapeamento, a coluna Origem e a coluna Destino.
    • Selecione a coluna Chaves se quiser controlar a operação de exclusão para tipos de coletor suportados.
    • Selecione o botão Atualizar em Visualização de dados para visualizar a aparência dos dados no destino.

    Captura de tela do botão para adicionar mapeamentos de coluna, da lista suspensa para métodos de mapeamento, da coluna Teclas e do botão Atualizar.

  17. Quando o mapeamento estiver concluído, selecione o botão de seta para retornar à tela CDC principal.

    Captura de ecrã do botão para voltar à página de mapeamento da tabela.

  18. Você pode adicionar mais mapeamentos de origem para destino em um artefato CDC. Use o botão Editar para adicionar mais fontes de dados e destinos. Em seguida, selecione Novo mapeamento e use as listas suspensas para definir uma nova origem e destino. Você pode ativar ou desativar o Mapa automático para cada um desses mapeamentos de forma independente.

    Captura de tela do botão para adicionar novas fontes e do botão para definir um novo mapeamento de origem para destino.

  19. Após a conclusão dos mapeamentos, defina a latência CDC usando o botão Definir latência .

    Captura de tela do botão Definir latência na parte superior da tela.

  20. Selecione a latência do CDC e, em seguida, selecione Aplicar para fazer as alterações.

    Por padrão, a latência é definida como 15 minutos. O exemplo neste artigo usa a opção em tempo real para latência. A latência em tempo real capta continuamente as alterações nos dados de origem em intervalos inferiores a 1 minuto.

    Para outras latências (por exemplo, se você selecionar 15 minutos), a captura de dados de alteração processará os dados de origem e coletará todos os dados alterados desde o último tempo processado.

    Captura de ecrã das opções para definir a latência.

    Nota

    Se o suporte for estendido à integração de dados de streaming (Hubs de Eventos do Azure e fontes de dados Kafka), a latência será definida como Tempo real por padrão.

  21. Depois de concluir a configuração do CDC, selecione Publicar tudo para publicar as alterações.

    Captura de tela do botão de publicação na parte superior da tela.

    Nota

    Se você não publicar suas alterações, não poderá iniciar seu recurso CDC. O botão Iniciar na próxima etapa não estará disponível.

  22. Selecione Iniciar para começar a executar a captura de dados de alteração.

    Captura de tela do botão Iniciar na parte superior da tela.

Monitore sua captura de dados de alteração

  1. Abra o painel Monitor usando um destes métodos:

    • Selecione Monitor no portal do Azure.

      Captura de ecrã do botão Monitor no portal do Azure.

    • Selecione o ícone de monitoramento no designer CDC.

      Captura de tela do ícone de monitoramento na parte superior da tela CDC.

  2. Selecione Alterar captura de dados (visualização) para visualizar seus recursos CDC.

    Captura de ecrã do botão Alterar Captura de Dados.

    O painel Captura de Dados de Alteração mostra as informações de Origem, Destino, Status e Última captura de dados para sua captura de dados de alteração.

    Captura de tela de uma visão geral da página de monitoramento de captura de dados de alteração.

  3. Selecione o nome do seu CDC para ver mais detalhes. Você pode ver quantas alterações (inserir, atualizar ou excluir) foram lidas e gravadas, juntamente com outras informações de diagnóstico.

    Captura de tela do monitoramento detalhado de uma captura de dados de alteração selecionada.

    Se você configurar vários mapeamentos na captura de dados de alteração, cada mapeamento aparecerá como uma cor diferente. Selecione a barra para ver detalhes específicos para cada mapeamento ou use as informações de diagnóstico na parte inferior do painel.

    Captura de tela das informações detalhadas de monitoramento para uma captura de dados de alteração com vários mapeamentos de origem para destino.

    Captura de tela de um detalhamento detalhado de cada mapeamento em um artefato de captura de dados de alteração.