Precisão e correspondência difusa

Artigo
06/26/2024

A correspondência difusa permite remover duplicados e corresponder dados de cadeia quando os dados não correspondem exatamente. Dados de cadeia com erros de digitação e outras pequenas diferenças são bons candidatos a correspondência difusa.

Cada condição numa regra tem uma definição chamada Precisão onde seleciona quão próximas as duas cadeias devem estar para serem consideradas uma correspondência. A definição de precisão predefinida requer uma correspondência exata para que as cadeias sejam comparadas para correspondência. A seleção de qualquer outro valor para precisão permite a correspondência difusa para essa condição.

A precisão pode ser definida como baixa (30% de correspondência), média (60% de correspondência) e alta (80% de correspondência). Também pode selecionar o menu pendente e alterar Básico para Personalizado, permitindo definir a precisão em. incrementos de 1%.

Nota

Só as colunas de tipo de dados de cadeia podem usar correspondência difusa. Para colunas com outros tipos de dados, como número inteiro, duplo ou datetime, o campo de precisão é definido para correspondência exata e é só de leitura.

Cálculos de correspondência difusa

As correspondências difusas são feitas calculando a classificação da distância de edição para duas cadeias. Se a classificação atingir ou exceder o limiar de precisão, as sequências serão consideradas uma correspondência.

A distância de edição é o número de edições necessárias para transformar uma cadeia noutra cadeia ao adicionar, eliminar ou alterar um caráter.

Por exemplo, as cadeias "Jacqueline" e "Jaclyne" têm uma distância de edição de 5 quando removemos os carateres q, u, e, i, e, inserindo também o caráter y.

O cálculo básico para determinar a classificação da distância de edição é: (Comprimento da cadeia base — Distância de Edição) / Comprimento da cadeia base

Cadeia base	Cadeia de comparação	Pontuação
Jacqueline	Jaclyne	(10-4)/10=,6
fred@gmail.com	fred@gmal.cm	(14-2) / 14 = 0,857
franklin	frank	(8-3) / 8 = 0,625

Normalização e correspondência difusa

Customer Insights - Data fornece rotinas poderosas de normalização de dados que podem processar muitas discrepâncias de dados com mais eficiência do que a correspondência difusa. Pode selecionar um ou mais padrões de normalização de dados para uma coluna. A normalização não altera os seus dados na saída final. Os dados normalizados são usados apenas para fins de comparação para corresponder os registos do cliente de forma mais eficaz.

Normalização	Exemplos
Números	Converte representações Unicode de números para o número. Exemplos: □ e Ⅷ são ambos normalizados para o número 8. Nota: Os símbolos têm de ser codificados no Formato Unicode Point.
Símbolos	Remove os símbolos e carateres especiais. Exemplos: !?"#$%&'( )+,.-/:;<=>@^~{}`[ ]
Texto para minúsculas	Converte os carateres em letra maiúscula para minúscula. Exemplo: "ISTO É uM EXemplO" é convertido em "isto é um exemplo"
Tipo — Telefone	Converte telefones em vários formatos em dígitos e considera variações na forma como os indicativos e extensões são apresentados. Exemplo: +01 425.555.1212 = 1 (425) 555-1212
Tipo — Nome	Converte mais de 500 variações comuns de nomes e títulos. Exemplos: "debby" -> "deborah" "prof" e "professor" -> "Prof."
Tipo — Endereço	Converte partes comuns de endereços Exemplos: "rua" -> "R" and "noroeste" -> "no"
Tipo — Organização	Remove cerca de 50 "palavras irrelevantes" de nomes de empresas, como "lda", "sa", "corporação" e "ltd".
Unicode para ASCII	Converte carateres Unicode para o respetivo equivalente de tipo de letra ASCII Exemplo: Os carateres "à" "á" "â" "À" "Á" "Â" "Ã" "Ä" "Ⓐ" e "Ａ" são todos convertidos para "a."
Espaço em branco	Remove todos os espaços em branco
Mapeamento de aliases	Permite carregar uma lista personalizada de pares de cadeias que podem ser usadas para indicar cadeias que devem ser sempre consideradas como uma correspondência exata. Use o mapeamento de alias quando tiver exemplos de dados específicos que acha que deveriam corresponder e não correspondem usando um dos outros padrões de normalização. Exemplo: Scott e Scooter, ou IBM e International Business Machines.
Ignorar personalizado	Permite carregar uma lista personalizada de cadeias que podem ser usadas para indicar cadeias que nunca devem ser correspondidas. A omissão personalizada é útil quando tem dados com valores comuns que devem ser ignorados, como um número de telefone ou e-mail fictício. Exemplo: Nunca corresponda o telefone 555-1212 ou test@example.com

Desempenho — use condições de correspondência exata

A correspondência difusa é poderosa, mas usa mais tempo e recursos do que a correspondência exata. É melhor usar a normalização de dados como a sua primeira abordagem para irregularidades de dados e usar a correspondência difusa estrategicamente.

Importante

Use, pelo menos, uma condição de correspondência exata em cada regra.

As condições de correspondência exata são executadas primeiro para obter um conjunto menor de valores que precisam de ser correspondência difusa. Para serem eficazes, as condições de correspondência exata devem ter um grau razoável de exclusividade. Por exemplo, se todos os seus clientes morarem no mesmo país/região, ter uma correspondência exata por país/região provavelmente não ajudaria a restringir o âmbito.

Colunas, como campos de nome completo, e-mail, telefone ou endereço, têm boa exclusividade e são colunas ótimas para usar como correspondência exata.

Partilhar via

Precisão e correspondência difusa

Cálculos de correspondência difusa

Normalização e correspondência difusa

Desempenho — use condições de correspondência exata

Recursos adicionais