Definir configurações de registros duplicados

Concluído

Não é incomum que um cliente exista em uma única fonte de dados mais de uma vez. Ter vários registros para um cliente pode afetar o processo de unificação. O sistema pode não ser capaz de identificar corretamente o registro a ser usado quando as regras de correspondência são executadas. É importante identificar e remover quaisquer registros duplicados que possam existir no sistema. A eliminação de duplicação identifica registros duplicados e os mescla em um registro.

Definir regras de eliminação de duplicação

Você pode definir regras de registro duplicadas para quaisquer fontes de dados definidas durante a fase da coluna de origem. Por exemplo, se tiver incluído uma fonte de dados chamada Contacts: eCommerce e outra chamada LoyCustomers: Loyalty, você poderá definir regras duplicadas para cada uma delas. Isso é feito na página Definir regras de eliminação de duplicação selecionando o botão Adicionar regra abaixo da tabela à qual você deseja adicionar a regra.

Ao definir regras duplicadas, você precisará definir condições que serão usadas para avaliar se há registros duplicados no conjunto de dados. No painel Adicionar regra, você precisará fazer o seguinte:

  • Selecionar o campo: especifique o campo da tabela em que deseja procurar duplicatas. Você deve tentar escolher os campos que provavelmente são exclusivos para cada cliente, como um endereço de email.

  • Normalização: a normalização dos dados pode ajudar a garantir correspondências, como remover pontuação, não considerar espaços em branco e tratar os valores como um tipo de dados, como endereço ou número de telefone.

  • Método de precisão: indica o nível de precisão que a regra deve usar ao determinar se pode encontrar um registro correspondente na outra tabela. Isso pode ser definido como Básico ou Personalizado.

    • Básico: escolha entre Baixo (30%), Médio (60%), Alto (80%) e Exato (100%).

    • Personalizado: defina uma porcentagem à qual os registros precisam corresponder. O sistema fará a correspondência apenas para os registros que ultrapassarem esse limite.

Às vezes, apenas uma coluna não é suficiente para identificar registros exclusivos. Nesses casos, você pode optar por adicionar outras condições. Todas as condições são combinadas para identificar registros exclusivos. Por exemplo, talvez você queira examinar o nome e o número de telefone completos de uma pessoa. As condições podem ser adicionadas com a seleção de Adicionar>Adicionar condição para adicionar mais condições à regra. Todas as condições adicionadas são avaliadas juntas; portanto, só serão executadas se todas as condições forem atendidas. Opcionalmente, você pode adicionar exceções à regra. As exceções são usadas para tratar casos raros de falsos positivos e falsos negativos.

Depois de concluir a regra, selecione Concluído para criá-la. Se necessário, você pode adicionar outras regras para acomodar diferentes cenários.

Definir preferências de mesclagem

Depois de identificar os registros duplicados, você precisará decidir como eles devem ser mesclados em um único registro. Por exemplo, um registro pode ter mais dados preenchidos do que outro.

Para cada tabela, você pode selecionar Editar preferências de mesclagem para determinar qual registro manter. Você pode escolher entre três opções:

  • Mais preenchido: identifica o registro com as colunas mais preenchidas como o registro vencedor. É a opção de mesclagem padrão.

  • Mais recente: identifica o registro vencedor com base no maior nível de atualização. Requer uma data ou uma coluna numérica para definir o nível de atualização.

  • Menos recente: identifica o registro vencedor com base no menor nível de atualização. Requer uma data ou uma coluna numérica para definir o nível de atualização.

Como alternativa, para definir preferências de mesclagem em colunas individuais de uma tabela, selecione Avançado na parte inferior do painel. Por exemplo, você pode optar por manter os emails mais recentes E o endereço mais completo de registros diferentes. Expanda a entidade para ver todas as suas colunas e defina a opção a ser usada para colunas individuais. Se você escolher uma opção baseada em nível de atualização, também será necessário especificar uma coluna de data/hora que define o nível de atualização.