Eliminar duplicados en cada táboa para a unificación de datos

A deduplicación atopa e elimina os rexistros duplicados dun cliente dunha táboa de orixe para que cada cliente estea representado por unha única fila en cada táboa. Cada táboa é desduplicada por separado usando regras para identificar os rexistros dun determinado cliente.

Cada regra de deduplicación execútase en todas as filas. Se a primeira regra coincide coas filas 1 e 2, e a regra 2 coincide coas filas 2 e 3, as filas 1, 2 e 3 coinciden. Cando se atopan as filas correspondentes, seleccionase unha fila gañadora para representar a ese cliente en función das preferencias de fusión (Máis reche,Máis recente ou Menos recente). Use a opción Avanzado para crear unha fila gañador seleccionando campos entre as distintas filas correspondentes, como o correo electrónico máis recente, pero o enderezo máis cheo.

Customer Insights - Os datos realizan automaticamente as seguintes accións:

  • Deduplicar os rexistros co mesmo valor da chave primaria, seleccionando a primeira fila do conxunto de datos como gañadora.
  • Deduplicar os rexistros usando as regras de correspondencia definidas para a táboa ao coincidir as filas entre táboas.

Definir as regras de desduplicación

Unha boa regra identifica a un cliente único. Considera os teus datos. Pode ser suficiente para identificar os clientes en función dun campo como o correo electrónico. Non obstante, se queres diferenciar os clientes que comparten un correo electrónico, podes optar por ter unha regra con dúas condicións, coincidindo en Correo electrónico + Nome. Para máis información, consulte Boas prácticas de desduplicación.

  1. Na páxina Regras de desduplicación , seleccione unha táboa e seleccione Engadir regra para definir as regras de deduplicación.

    Tip

    Se enriqueceu as táboas a nivel de fonte de datos para mellorar os resultados da unificación, seleccione Usar táboas enriquecidas na parte superior da páxina. Para máis información, consulte Enriquecemento para fontes de datos.

    Captura de pantalla da páxina das regras de desduplicación coa táboa destacada e Engadir regra mostrada

  2. No panel Engadir regra, introduza a seguinte información:

    • Seleccionar campo: Escolla da lista de campos dispoñibles da táboa que desexa comprobar se hai duplicados. Escolle campos que probablemente sexan únicos para cada cliente. Por exemplo, un enderezo de correo electrónico ou a combinación de nome, cidade e número de teléfono.

      • Normalizar: Seleccione as opcións de normalización para a columna. A normalización só afecta ao paso de coincidencia e non cambia os datos.

        Normalización Exemplos
        Números Converte moitos símbolos Unicode que representan números en números simples.
        Exemplos: ❽ e VIII. están normalizados ao número 8.
        Nota: Os símbolos deben estar codificados en formato de punto Unicode.
        Símbolos Elimina símbolos e caracteres especiais.
        Exemplos: !?" #$%&'( )+,.-/:;<=>@^~{}'[ ]
        Texto en minúscula Converte os caracteres maiúsculas en minúsculas. 
        Exemplo: "THIS Is aN EXamplE" convértese en "isto é un exemplo"
        Tipo - Teléfono Converte os teléfonos en varios formatos en díxitos e ten en conta as variacións na forma en que se presentan os códigos de país e as extensións. Os símbolos e os espazos en branco son ignorados. Os díxitos "0" iniciais nos códigos de país son ignorados, coincidindo con +1 e +01. As extensións significadas por un prefixo con letras son ignoradas (X 123). O código de país normalizado é significativo, polo que un teléfono cun código de país non coincidirá cun teléfono sen código de país.
        Exemplo: +01 425.555.1212 coincide 1 (425) 555-1212
        +01 425.555.1212 non coincidirá (425) 555-1212
        Tipo - Nome Converte máis de 500 variantes e títulos de nomes comúns. 
        Exemplos: "debby" -> "deborah" "profesor" e "profesor" -> "profesor".
        Tipo - Enderezo Converte partes comúns de enderezos
        Exemplos: "street" -> "st" e "northwest" -> "nw"
        Tipo - Organización Elimina ao redor de 50 "palabras de ruído" como "co", "corp", "corporación" e "ltd".
        Unicode para ASCII Converte os caracteres Unicode no equivalente de letra ASCII
        Exemplo: Os caracteres "à", "á", "â", "À", "Á", "Â", "Ã", "Ä", "(A)" e "A" convértense todos en "a".
        Espazos en branco Elimina todos os espazos en branco
        Mapeo de alias Permite cargar unha lista personalizada de pares de cadeas que poden ser usadas para indicar cadeas que sempre deben considerarse unha coincidencia exacta. 
        Use mapeo de alias cando tes exemplos de datos específicos que cres que deberían coincidir e non coinciden usando un dos outros patróns de normalización. 
        Exemplo: Scott e Scooter, ou MSFT e Microsoft.
        Bypass personalizado Permite cargar unha lista personalizada de cadeas que se poden usar para indicar cadeas que nunca deberían coincidir.
        O bypass personalizado é útil cando tes datos con valores comúns que deben ser ignorados, como un número de teléfono falso ou un correo electrónico falso. 
        Exemplo: Nunca coincidir co teléfono 555-1212 ou test@contoso.com
    • Precisión: Establece o nivel de precisión. A precisión utilízase para a coincidencia exacta e a coincidencia borrosa, e determina o preto que deben estar dúas cadeas para ser consideradas unha coincidencia.

      • Básico: Escolle entre Baixo (30%),Medio (60%), Alto (80%) e Exacto (100%). Seleccione Exacto para coincidir só cos rexistros que coinciden ao 100%.
      • Personalizado: Establece unha porcentaxe que deben coincidir cos rexistros. O sistema só coincide cos rexistros que superan este limiar.
    • Nome: Nome da regra.

      Captura de pantalla do panel de engadir regras para eliminar duplicados.

  3. Opcionalmente, seleccione Engadir>condición para engadir máis condicións á regra. As condicións están conectadas cun operador lóxico AND e, polo tanto, só se executan se cumpren todas as condicións.

  4. Opcionalmente, Engadir Engadir>excepción para engadir excepcións á regra. Utilízanse excepcións para abordar casos raros de falsos positivos e falsos negativos.

  5. Seleccione Feito para crear a regra.

  6. Opcionalmente, engadir máis regras.

Escoller as preferencias de fusión

Cando se executan regras e se identifican rexistros duplicados para un cliente, seleccionase unha "fila gañadora" en función da política de fusión. A fila gañador representa ao cliente no seguinte paso de unificación que coincide cos rexistros entre táboas. Os datos nas filas non gañadoras ("alternativas") utilízanse no paso Unificación de regras de coincidencia para coincidir os rexistros doutras táboas coa fila gañadora. Este enfoque mellora os resultados de coincidencia permitindo que información como números de teléfono anteriores axude a identificar rexistros de coincidencia. A fila gañador pode configurarse para que sexa a máis chea, a máis recente ou a menos recente dos rexistros duplicados atopados.

  1. Seleccione unha táboa e, a continuación, Editar as preferencias de fusión. Aparece o panel de preferencias de fusión .

  2. Escolla unha das tres opcións para determinar que rexistro gardar se se atopa un duplicado:

    • Máis enchido: Identifica o rexistro coas columnas máis poboadas como o rexistro gañador. É a opción de fusión predeterminada.
    • Máis recente: Identifica o rexistro gañador en función da maior recencia. Require unha data ou un campo numérico para definir a recencia.
    • Menos recente: Identifica o rexistro do gañador en función da menor recencia. Require unha data ou un campo numérico para definir a recencia.

    Se hai un empate, o rexistro gañador é o que ten o valor de MAX (PK) ou o valor da clave primaria maior.

  3. Opcionalmente, para definir preferencias de fusión en columnas individuais dunha táboa, seleccione Avanzado na parte inferior do panel. Por exemplo, pode optar por manter o correo electrónico máis recente e o enderezo máis completo de diferentes rexistros. Expande a táboa para ver todas as súas columnas e definir que opción usar para columnas individuais. Se escolle unha opción baseada na recencia, tamén ten que especificar un campo de data / hora que defina a recencia.

    Panel avanzado de preferencias de fusión que mostra o correo electrónico recente e o enderezo completo

  4. Seleccione Feito para aplicar as preferencias de fusión.

Despois de definir as regras de deduplicación e as preferencias de fusión, seleccione Seguinte.