Eliminar duplicados en cada tabla para unificar datos

Artículo
07/23/2024

El paso de reglas de duplicación busca y elimina registros duplicados de un cliente de una tabla de origen para que cada cliente esté representado por una sola fila en cada tabla. Cada tabla se deduplica por separado mediante reglas para identificar los registros de un cliente determinado.

Las reglas se procesan en orden. Después de que se hayan ejecutado todas las reglas en todos los registros de una tabla, los grupos de coincidencias que comparten una fila común se combinan en un único grupo de coincidencias.

Definir reglas de desduplicación

Una buena regla identifica a un cliente único. Considere sus datos. Puede ser suficiente identificar a los clientes basándose en un campo como el correo electrónico. Sin embargo, si desea diferenciar a los clientes que comparten un correo electrónico, puede optar por tener una regla con dos condiciones, que coincidan con Correo electrónico + Nombre. Para obtener más información, consulte Prácticas recomendadas de deduplicación.

En la página Reglas de deduplicación, seleccione una tabla y seleccione Agregar regla para definir las reglas de deduplicación.

Propina

Si enriqueció tablas en el nivel origen de datos para ayudar a mejorar sus resultados de unificación, seleccione Usar tablas enriquecidas en la parte superior de la página. Para obtener más información, consulte Enriquecimiento de orígenes de datos.
1. En el panel Agregar regla, introduzca la siguiente información:
  - Seleccionar campo: elija de la lista de campos disponibles de la tabla que desea verificar si hay duplicados. Elija campos que probablemente sean únicos para cada cliente. Por ejemplo, una dirección de correo electrónico o la combinación de nombre, ciudad y número de teléfono.
  - Normalizar: Seleccionar opciones de normalización para la columna. La normalización solo afecta el paso de coincidencia y no cambia los datos.
    - Numerales: convierte símbolos Unicode que representan números en números simples.
    - Símbolos: Elimina símbolos y caracteres especiales como !"#$%&'()*+,-./:;<=>? @[]^_`{|}~. Por ejemplo, Cabeza&hombro se convierte en Cabezahombros.
    - Texto a minúsculas: convierte caracteres en mayúsculas a minúsculas. "TODAS LAS MAYÚSCULAS y el título" se convierte en "todas las mayúsculas y el título".
    - Tipo (teléfono, nombre, dirección, organización): estandariza nombres, cargos, números de teléfono y direcciones.
    - Unicode a ASCII: convierte caracteres Unicode a su equivalente en letras ASCII. Por ejemplo, la ề acentuada se convierte en el carácter e.
    - Espacio en blanco: elimina todos los espacios. Hola Mundo se convierte en HolaMundo.
    - Alias asignación: le permite cargar una lista personalizada de pares de cadenas para indicar cadenas que siempre deben considerarse una coincidencia exacta.
    - Omisión personalizada: le permite cargar una lista personalizada de cadenas para indicar cadenas que nunca deben coincidir.
  - Precisión: establezca el nivel de precisión. La precisión se utiliza para la coincidencia exacta y la coincidencia aproximada, y determina qué tan cerca deben estar dos cadenas para que se consideren una coincidencia.
    - Básico: se escoge entre Bajo (30 %), Medio (60 %), Alto (80 %) y Exacto (100 %). Seleccione Exacto para hacer coincidir solo los registros que coincidan al 100 por ciento.
    - Personalizado: establezca el porcentaje con el que los registros deben coincidir. El sistema solo hace coincidir los registros que superen este umbral.
  - Nombre: Nombre de la regla.
2. Opcionalmente, seleccione Agregar>Agregar condición para agregar más condiciones a la regla. Las condiciones están conectadas con un operador AND lógico y, por lo tanto, solo se ejecutan si se cumplen todas las condiciones.
3. Opcionalmente, Agregar>Añadir excepción para añadir excepciones a la regla. Las excepciones se utilizan para abordar casos raros de falsos positivos y falsos negativos.
4. Seleccione Hecho para crear la regla.
Opcionalmente, agregue más reglas.
Seleccione una tabla y luego Editar preferencias de combinación.
En el panel Combinar preferencias:
1. Elija una de las tres opciones para determinar qué registro conservar si se encuentra un duplicado:
  - Más lleno: identifica el registro con las columnas más rellenadas como el registro ganador. Es la opción de combinación predeterminada.
  - Más reciente: identifica el registro ganador basado en el más reciente. Requiere una fecha o un campo numérico para definir la antigüedad.
  - Menos reciente: identifica el registro ganador basado en el menos reciente. Requiere una fecha o un campo numérico para definir la antigüedad.
  Si hay empate, el registro ganador es el que tiene el valor de clave principal MAX(PK) o mayor.
2. Opcionalmente, para definir preferencias de combinación en columnas individuales de una tabla, seleccione Avanzado en la parte inferior del panel. Por ejemplo, puede optar por mantener el correo electrónico más reciente Y la dirección más completa de diferentes registros. Expanda la tabla para ver todas sus columnas y defina qué opción usar para columnas individuales.. Si elige una opción basada en la antigüedad, también debe especificar un campo de fecha/hora que defina la antigüedad.
3. Seleccione Listo para aplicar las preferencias de combinación.
Después de definir las reglas de deduplicación y las preferencias de combinación, seleccione Siguiente.

Siguiente paso para una sola tabla: ver datos unificados

Siguiente paso para varias tablas: definir reglas de coincidencia

Compartir a través de

Eliminar duplicados en cada tabla para unificar datos

Definir reglas de desduplicación

Recursos adicionales