Compartir a través de


Eliminar duplicados en cada tabla para unificar datos

El paso de reglas de duplicación busca y elimina registros duplicados de un cliente de una tabla de origen para que cada cliente esté representado por una sola fila en cada tabla. Cada tabla se deduplica por separado mediante reglas para identificar los registros de un cliente determinado.

Las reglas se procesan en orden. Después de que se hayan ejecutado todas las reglas en todos los registros de una tabla, los grupos de coincidencias que comparten una fila común se combinan en un único grupo de coincidencias.

Definir reglas de desduplicación

Una buena regla identifica a un cliente único. Considere sus datos. Puede ser suficiente identificar a los clientes basándose en un campo como el correo electrónico. Sin embargo, si desea diferenciar a los clientes que comparten un correo electrónico, puede optar por tener una regla con dos condiciones, que coincidan con Correo electrónico + Nombre. Para más información, consulte Conceptos y escenarios de desduplicación.

  1. En la página Reglas de deduplicación, seleccione una tabla y seleccione Agregar regla para definir las reglas de deduplicación.

    Propina

    Si enriqueció tablas en el nivel origen de datos para ayudar a mejorar sus resultados de unificación, seleccione Usar tablas enriquecidas en la parte superior de la página. Para obtener más información, consulte Enriquecimiento de orígenes de datos.

    Captura de pantalla de la página de reglas de deduplicación con la tabla resaltada y Agregar regla mostrada

    1. En el panel Agregar regla, introduzca la siguiente información:

      • Seleccionar campo: elija de la lista de campos disponibles de la tabla que desea verificar si hay duplicados. Elija campos que probablemente sean únicos para cada cliente. Por ejemplo, una dirección de correo electrónico o la combinación de nombre, ciudad y número de teléfono.
      • Normalizar: seleccione entre las opciones de normalización para la columna. La normalización solo afecta el paso de coincidencia y no cambia los datos.
        • Numerales: convierte muchos símbolos Unicode que representan números en números simples.
        • Símbolos: Elimina muchos símbolos comunes como !"#$%&'()*+,-./:;<=>?@[]^_`{|}~. Por ejemplo, Cabeza&hombro se convierte en Cabezahombros.
        • Texto a minúsculas: convierte todos los caracteres a minúsculas. "TODAS LAS MAYÚSCULAS y el título" se convierte en "todas las mayúsculas y el título".
        • Tipo (Teléfono, Nombre, Dirección, Organización): estandariza nombres, títulos, números de teléfono, direcciones, etc.
        • Unicode a ASCII: convierte los caractertes Unicode en su equivalente ASCII. Por ejemplo, la ề acentuada se convierte en el carácter e.
        • Espacio en blanco: elimina todos los espacios. Hola Mundo se convierte en HolaMundo.
      • Precisión: establezca el nivel de precisión. La precisión se utiliza con la coincidencia difusa y determina qué tan cerca deben estar dos cadenas para que se consideren una coincidencia.
        • Básico: se escoge entre Bajo (30 %), Medio (60 %), Alto (80 %) y Exacto (100 %). Seleccione Exacto para hacer coincidir solo los registros que coincidan al 100 por ciento.
        • Personalizado: establezca el porcentaje con el que los registros deben coincidir. El sistema solo hace coincidir los registros que superen este umbral.
      • Nombre: Nombre de la regla.

      Captura de pantalla del panel Agregar regla para eliminar duplicados.

    2. Opcionalmente, seleccione Agregar>Agregar condición para agregar más condiciones a la regla. Las condiciones están conectadas con un operador AND lógico y, por lo tanto, solo se ejecutan si se cumplen todas las condiciones.

    3. Opcionalmente, Agregar>Añadir excepción para añadir excepciones a la regla. Las excepciones se utilizan para abordar casos raros de falsos positivos y falsos negativos.

    4. Seleccione Hecho para crear la regla.

  2. Opcionalmente, agregue más reglas.

  3. Seleccione una tabla y luego Editar preferencias de combinación.

  4. En el panel Combinar preferencias:

    1. Elija una de las tres opciones para determinar qué registro conservar si se encuentra un duplicado:

      • Más lleno: identifica el registro con las columnas más rellenadas como el registro ganador. Es la opción de combinación predeterminada.
      • Más reciente: identifica el registro ganador basado en el más reciente. Requiere una fecha o un campo numérico para definir la antigüedad.
      • Menos reciente: identifica el registro ganador basado en el menos reciente. Requiere una fecha o un campo numérico para definir la antigüedad.

      Si hay empate, el registro ganador es el que tiene el valor de clave principal MAX(PK) o mayor.

    2. Opcionalmente, para definir preferencias de combinación en columnas individuales de una tabla, seleccione Avanzado en la parte inferior del panel. Por ejemplo, puede optar por mantener el correo electrónico más reciente Y la dirección más completa de diferentes registros. Expanda la tabla para ver todas sus columnas y defina qué opción usar para columnas individuales.. Si elige una opción basada en la antigüedad, también debe especificar un campo de fecha/hora que defina la antigüedad.

      Panel de preferencias de combinación avanzadas con el correo electrónico más reciente y la dirección completa

    3. Seleccione Listo para aplicar las preferencias de combinación.

  5. Después de definir las reglas de deduplicación y las preferencias de combinación, seleccione Siguiente.