Partilhar via


Atualização incremental para origens de dados do Power Query e do Azure Data Lake Storage

A atualização incremental para origens de dados baseada no Power Query (pré-visualização) ou no Azure Data Lake Storage fornece as seguintes vantagens:

  • Atualizações mais rápidas – apenas os dados alterados são atualizados. Por exemplo, poderá atualizar apenas os últimos cinco dias de um conjunto de dados histórico.
  • Maior fiabilidade – com atualizações menores, não é necessário manter ligações com sistemas de origem voláteis por tanto tempo, reduzindo o risco de problemas de ligação.
  • Consumo de recursos reduzida – a atualização de apenas um subconjunto de dados proporciona uma utilização mais eficiente dos recursos informáticos e reduz a pegada ambiental.

Configurar a atualização incremental para origens de dados baseadas no Power Query (pré-visualização)

[Este artigo é uma documentação de pré-lançamento e está sujeito a alterações.]

Configure qualquer origem de dados do Power Query no Customer Insights - Data para atualizar dados de forma incremental. A origem de dados tem de ter uma coluna de chave primária que identifique exclusivamente registos e uma coluna de data e hora que indique quando os dados foram atualizados pela última vez.

Importante

  • Esta é uma funcionalidade de pré-visualização.
  • As funcionalidades de pré-visualização não se destinam à produção e poderão ter funcionalidades restritas. Estas caraterísticas estão disponíveis antes do lançamento oficial, para que os clientes possam ter acesso antecipadamente e enviar comentários.
  1. Criar uma nova origem de dados baseada no Power Query.

  2. Selecione uma origem de dados que suporte a atualização incremental, tal como a base de dados do Azure SQL.

  3. Selecione as tabelas a ingerir.

  4. Conclua os passos de transformação e selecione Seguinte.

  5. Na caixa de diálogo Configurar atualização incremental, selecione Configurar para abrir as Definições de atualização incremental. Se selecionar Ignorar, a origem de dados atualiza todo o conjunto de dados.

    Sugestão

    Também pode aplicar a atualização incremental mais tarde editando uma origem de dados existente.

  6. Nas Definições de atualização incremental, configura a atualização incremental para todas as tabelas que tiver selecionado ao criar a origem de dados.

    Configurar definições de atualização incremental.

  7. Selecione uma tabela e forneça os seguintes detalhes:

    • Definir a chave primária: selecione uma chave primária para a tabela.
    • Definir o campo "última atualização": este campo só mostra atributos do tipo data ou hora. Selecione um atributo que indique quando os registos foram atualizados pela última vez. Este atributo identifica os registos que se encontram no período de tempo de atualização incremental.
    • Pesquisar atualizações a cada: especifique o intervalo de tempo pretendido da atualização incremental.
  8. Selecione Guardar para concluir a criação do origem de dados. A atualização de dados inicial é uma atualização completa. Posteriormente, a atualização de dados incremental acontece conforme configurado no passo anterior.

Configurar a atualização incremental para origens de dados do Azure Data Lake Storage

A Microsoft recomenda o formato Delta Lake para obter o melhor desempenho e resultados para trabalhar com conjuntos de dados grandes. O Customer Insights - Data fornece um conector otimizado para dados formatados em Delta Lake. Processos internos, como a unificação, são otimizados para processar de forma incremental apenas os dados alterados, o que resulta em tempos de processamento mais curtos.

Para utilizar a gestão incremental e atualizar para uma tabela do Data Lake, configure essa tabela ao adicionar ou editar a origem de dados do Azure Data Lake. A pasta de dados da tabela tem de conter as seguintes pastas:

  • FullData: pasta com ficheiros de dados que contêm registos iniciais
  • IncrementalData: pasta com pastas de hierarquia de data/hora no formato aaaa/mm/dd/hh que contêm as atualizações incrementais. Espera-se que as pastas de ano, mês, dia e hora tenham quatro e dois dígitos, respetivamente. hh representa a hora UTC das atualizações e contém as pastas Upserts e Eliminações. Upserts contém ficheiros de dados com atualizações para registos existentes ou registos novos. Eliminações contém ficheiros de dados com os registos a remover.

Ordem de processamento de dados incrementais

O sistema processa os ficheiros na pasta IncrementalData depois da hora UTC especificada. Por exemplo, se o sistema começar a processar a atualização incremental a 21 de janeiro de 2023 às 08h15, todos os ficheiros na pasta 2023/01/21/07 (que representam ficheiros de dados armazenados das 07h às 08h) são processados. Quaisquer ficheiros na pasta 2023/01/21/08 (que representa a hora atual em que os ficheiros ainda estão a ser gerados) não serão processados até à próxima execução.

Se existirem dois registos para uma chave primária, um upsert e eliminação, o Customer Insights - Data utiliza o registo com a data de modificação mais recente. Por exemplo, se o carimbo de data/hora da eliminação for 2023-01-21T08:00:00 e o carimbo de data/hora do upsert for 2023-01-21T08:30:00, utilizará o registo do upsert. Se a eliminação ocorreu depois do upsert, o sistema assume que o registo foi eliminado.

Configurar a atualização incremental para origens de dados do Azure Data Lake

  1. Quando adicionar ou editar uma origem de dados, navegue para o painel Atributos da tabela.

  2. Reveja os atributos. Certifique-se de que um atributo de data criado ou atualizado pela última vez está configurado com um Formato de dados de dateTime e um Tipo de semântica de Calendar.Date. Edite o atributo, se necessário, e selecione Concluído.

  3. No painel Selecionar Tabelas, edite a tabela. A caixa de verificação Ingestão incremental está selecionada.

    Configurar tabelas numa origem de dados para atualização incremental.

    1. Navegue para a pasta raiz que contém os ficheiros .csv ou .parquet para dados completos, upserts de dados incrementais e eliminações de dados incrementais.
    2. Introdução à extensão para os dados completos e ambos os ficheiros incrementais (.csv ou .parquet).
    3. Para os ficheiro .csv, selecione o delimitador de colunas e, se quiser que a primeira linha do ficheiro seja um cabeçalho de coluna.
    4. Selecione Guardar.
  4. Para Última atualização, selecione o atributo de data carimbo de data/hora.

  5. Se a Chave primária não estiver selecionada, selecione a chave primária. A chave primária é um atributo exclusivo da tabela. Para que um atributo seja uma chave primária válida, não deve incluir valores duplicados, valores em falta ou valores nulos. Os atributos de cadeia, número inteiro e tipo de dados GUID são suportados como chaves primárias.

  6. Selecione Fechar para guardar e fechar o painel.

  7. Continue a adicionar ou a editar a origem de dados.

Executar uma atualização total única para origens de dados do Azure Data Lake

Depois de configurar uma atualização incremental para origens de dados do Azure Data Lake, há momentos em que os dados precisam de ser processados com uma atualização completa. A configuração da pasta de dados completa para a atualização incremental tem de conter a localização dos dados completos.

  1. Quando editar a origem de dados, navegue para o painel Selecionar Tabelas e edite a tabela que pretende atualizar.

  2. No painel Editar tabela, desloque-se para a caixa de verificação Executar atualização total única e selecione-a.

    Configurar tabela numa origem de dados para atualização única.

  3. Para Processar ficheiros incrementais de, especifique a data e a hora para reter os ficheiros incrementais. Os dados completos, para além dos dados incrementais, começam a ser processados depois da data e hora especificadas. Por exemplo, se pretender efetuar uma atualização/retroatividade parcial de dados até o final de novembro, mantendo os dados incrementais do início de dezembro até hoje (30 de dezembro), introduza 1 de dezembro. Para substituir todos os dados e ignorar os dados na pasta incremental, especifique uma data futura.

  4. Selecione Fechar para guardar e fechar o painel.

  5. Selecione Guardar para aplicar as alterações e regressar à página Origens de dados. A origem de dados está no estado A atualizar, a efetuar uma atualização total.