Partager via


Définir des règles de correspondance pour l’unification des données

Cette étape de l’unification définit l’ordre de correspondance et les règles pour la mise en correspondance entre tables. Cette étape nécessite au moins deux tables. Lorsque les enregistrements correspondent, ils sont concaténés en un seul enregistrement avec tous les champs de chaque table. Les lignes alternatives (lignes non gagnantes de l’étape de déduplication) sont prises en compte lors de la mise en correspondance. Mais si une ligne correspond à une autre ligne d’un tableau, l’enregistrement est mis en correspondance avec la ligne gagnante.

Note

Une fois que vous avez créé vos conditions de correspondance et sélectionné Suivant, vous ne pouvez pas supprimer une table ou une colonne sélectionnée. Si nécessaire, sélectionnez Retour pour passer en revue les tables et les colonnes sélectionnées avant de continuer.

Les étapes et les images suivantes illustrent la première fois que vous passez par le processus d’unification. Pour modifier les paramètres d’unification existants, consultez Mettre à jour les paramètres d’unification.

Inclure les tables enrichies (version préliminaire)

Si vous avez enrichi des tables au niveau source de données pour améliorer vos résultats d’unification, sélectionnez-les. Pour plus d’informations, voir Enrichissement des sources de données. Si vous avez sélectionné des tables enrichies sur la page Règles de déduplication, vous n’avez pas besoin de les sélectionner à nouveau.

  1. Sur la page Règles de correspondance, sélectionnez Utiliser les tables enrichies en haut de la page.

  2. Dans le volet Utiliser les entités enrichies, choisissez une ou plusieurs entités enrichies.

  3. Cliquez sur Terminé.

Indiquer l’ordre de mise en correspondance

Chaque correspondance unifie deux tables ou plus en une seule table consolidée. Dans le même temps, elle conserve les enregistrements de client uniques. L’ordre de correspondance indique l’ordre dans lequel le système essaie de faire correspondre les enregistrements.

Important

La première table est appelée la table principale, qui sert de base pour vos profils unifiés. Les tables supplémentaires sélectionnées seront ajoutées à cette table.

Remarques importantes :

  • Choisissez la table ayant les données de profil les plus complètes et les plus fiables sur vos clients comme table principale.
  • Choisissez la table qui a plusieurs colonnes en commun avec d’autres tables (par exemple, nom, numéro de téléphone ou adresse de messagerie) comme table principale.
  • Les tables ne peuvent correspondre qu’à d’autres tables ayant une priorité plus élevée. Ainsi, Table2 ne peut correspondre qu’à Table1, et Table3 peut correspondre à Table2 ou Table1.
  1. Sur la page Règles de correspondance, utilisez les flèches de déplacement vers le haut et vers le bas pour déplacer les tables dans l’ordre que vous souhaitez, ou faites-les glisser et déposez-les. Par exemple, sélectionnez eCommerceContacts en tant que table principale et loyCustomers comme deuxième table.

  2. Pour chaque enregistrement de la table comme client unique (qu’une correspondance soit trouvée ou non), sélectionnez Inclure tous les enregistrements. Tous les enregistrements de cette table qui ne correspondent pas aux enregistrements d’autres tables sont inclus dans le profil unifié. Les enregistrements qui n’ont pas de correspondance sont appelés singletons.

La table principale eCommerceContacts correspond à la table suivante loyCustomer. Le jeu de données issue de la première étape de correspondance est mis en correspondance avec la table suivante si vous avez plus de deux tables. Si des doublons existent toujours dans eCommerceContacts, lorsque loyCustomer est comparé à eCommerceContacts, eCommerceContacts les lignes en double ne sont pas réduites à un seul enregistrement client. Toutefois, si des lignes en double dans loyCustomer correspondent à une ligne dans eCommerceContacts, elles sont réduites à un seul enregistrement client. .

Capture d’écran de l’ordre de correspondance sélectionné pour les tables.

Définir les règles pour les paires de correspondance

Les règles de correspondance spécifient la logique par laquelle une paire spécifique de tables sera mise en correspondance. Une règle se compose d’une ou plusieurs conditions.

L’avertissement à côté d’un nom de table signifie qu’aucune règle de correspondance n’est définie pour une paire de correspondance.

  1. Sélectionnez Ajouter une règle pour une paire de tables afin de définir des règles de correspondance.

  2. Dans le volet Ajouter une règle, configurez les conditions de la règle.

    Capture d’écran du volet Ajouter une règle.

    • Sélectionner Table/Champ (première ligne) : choisissez une table et une colonne susceptibles d’être uniques pour un client. Par exemple, un numéro de téléphone ou une adresse e-mail. Évitez les correspondances en fonction des colonnes de type Activité. Par exemple, un ID d’achat ne trouvera probablement aucune correspondance dans d’autres types d’enregistrement.

    • Sélectionner Table/Champ (deuxième ligne) : choisissez une colonne liée à la colonne de la table spécifiée dans la première ligne.

    • Normaliser : sélectionnez l’une des options de normalisation suivantes pour les colonnes sélectionnées.

      • Valeurs numériques : convertit d’autres systèmes numériques, tels que les chiffres romains, en chiffres arabes. VIII devient 8.
      • Symboles : supprime tous les symboles et caractères spéciaux. Head&Shoulder devient HeadShoulder.
      • Texte en minuscules : Convertit tous les caractères en minuscules. TOUT EN MAJUSCULE et Casse du titre devient tout en majuscule et casse du titre.
      • Type (Téléphone, Nom, Adresse, Organisation) : Normalise les noms, les fonctions, les numéros de téléphone, les adresses, et les organisations.
      • Unicode en ASCII : convertit la notation Unicode en caractères ASCII. /u00B2 devient 2.
      • Espace blanc : supprime tous les espaces. Hello World devient HelloWorld.
    • Précision : Définissez le niveau de précision à appliquer pour cette condition. La précision est utilisée avec la correspondance approximative et détermine à quel point deux chaînes doivent être proches pour être considérées comme une correspondance.

      • De base : Choisissez parmi : Faible (30 %), Moyen (60 %), Élevé (80 %) et Exact (100 %). Sélectionnez Exact pour faire correspondre uniquement les enregistrements qui correspondent à 100 %.
      • Personnalisé : Définissez un pourcentage auquel les enregistrements doivent correspondre. Le système ne fera correspondre que les enregistrements dépassant ce seuil.
    • Nom : Le nom de la règle.

  3. Pour mettre en correspondre les tables uniquement si les colonnes remplissent plusieurs conditions, sélectionnez Ajouter>Ajouter une condition pour ajouter plus de conditions à une règle de correspondance. Les conditions sont connectées avec un opérateur ET logique et ne sont donc exécutées que si toutes les conditions sont remplies.

  4. Vous pouvez, si vous le souhaitez, choisir des options avancées telles que exceptions ou conditions de correspondance personnalisées.

  5. Sélectionnez Terminé pour finaliser la règle.

  6. Vous pouvez également ajouter d’autres règles.

  7. Sélectionnez Suivant.

Ajouter des règles à une paire de correspondance

Les règles de correspondance représentent des ensembles de conditions. Pour mettre en correspondre des tables en fonction de conditions basées sur plusieurs colonnes, ajoutez d’autres règles.

  1. Sélectionnez Ajouter une règle sur la table à laquelle vous souhaitez ajouter des règles.

  2. Suivez les étapes de la section Définir les règles pour les paires de correspondance.

Note

L’ordre des règles est important. L’algorithme de mise en correspondance tente d’effectuer une mise en correspondance en fonction d’un enregistrement de client sur la base de la première règle et passe à la seconde règle si aucune correspondance n’est identifiée en vertu de la première règle.

Options avancées

Ajouter des exceptions à une règle

Dans la plupart des cas, la mise en correspondance des tables conduit à des profils client uniques avec des données consolidées. Pour traiter les rares cas de faux positifs et de faux négatifs, vous pouvez définir des exceptions pour une règle de correspondance. Les exceptions sont appliquées après le traitement des règles de correspondance et évitent la correspondance de tous les enregistrements qui répondent aux critères d’exception.

Par exemple, si votre règle de correspondance combine le nom, la ville et la date de naissance, le système identifiera les jumeaux portant le même nom qui vivent dans la même ville que le même profil. Vous pouvez spécifier une exception qui ne correspond pas aux profils si les prénoms des tables que vous combinez ne sont pas les mêmes.

  1. Dans le volet Modifier la règle, sélectionnez Ajouter>Ajouter une exception.

  2. Spécifiez les critères d’exception.

  3. Sélectionnez Terminé pour enregistrer la règle.

Spécifier des conditions de correspondance personnalisées

Spécifier des conditions qui remplacent la logique de correspondance par défaut. Il existe quatre options disponibles :

Option Description Exemple
Toujours correspondre Définit des valeurs pour les clés primaires qui trouvent toujours une correspondance. Fait toujours correspondre la ligne avec la clé primaire 12345 à la ligne avec la clé primaire 54321.
Jamais correspondre Définit des valeurs pour les clés primaires qui ne trouvent jamais de correspondance. Ne fait jamais correspondre la ligne avec la clé primaire 12345 à la ligne avec la clé primaire 54321.
Contourner Définit les valeurs que le système doit toujours ignorer dans la phase de correspondance. Ignorer les valeurs 11111 et Inconnu pendant la correspondance.
Mise en correspondance d’alias Définit des valeurs que le système doit considérer comme identiques. Considérer Joe comme égal à Joseph.
  1. Sélectionnez Personnalisé.

    Bouton personnalisé

  2. Choisissez le Type personnalisé et sélectionnez Télécharger le modèle. Renommez le modèle sans utiliser d’espaces. Utilisez un modèle distinct pour chaque option de correspondance.

  3. Ouvrez le fichier de modèle téléchargé et remplissez les détails. Le modèle contient des champs pour spécifier la table et les valeurs de clé primaire de table à utiliser dans la correspondance personnalisée. Les noms de table respectent la casse. Par exemple, si vous souhaitez que la clé primaire 12345 de la table Ventes corresponde toujours à la clé primaire 34567 de la table Contact, remplissez le modèle :

    • Table1: Ventes
    • Table1Key : 12345
    • Table2 : Contact
    • Table2Key : 34567

    Le même fichier modèle peut spécifier des enregistrements de correspondance personnalisés à partir de plusieurs tables.

    Si vous souhaitez spécifier une correspondance personnalisée pour la déduplication sur une table, fournissez la même table que Table1 et Table2 et définissez les différentes valeurs de clé primaire. Vous devez définir au moins une règle de déduplication sur la table pour utiliser la correspondance personnalisée.

  4. Après avoir ajouté tous les remplacements, enregistrez le modèle de fichier.

  5. Accédez à Données>Sources de données et ingérez les fichiers de modèle en tant que nouvelles tables.

  6. Après avoir téléchargé les fichiers, sélectionnez à nouveau l’option Personnalisé. Sélectionnez les tables requises dans le menu déroulant et sélectionnez Terminé.

    Capture d’écran de la boîte de dialogue pour choisir les remplacements pour un scénario de correspondance personnalisée.

  7. L’application de la correspondance personnalisée dépend de l’option de correspondance que vous souhaitez utiliser.

    • Pour Toujours correspondre ou Jamais correspondre, passez à l’étape suivante.
    • Pour Contournement ou Mappage d’alias, sélectionnez Modifier sur une règle de correspondance existante ou créez une règle. Dans la liste déroulante Standardisations, choisissez l’option Contournement personnalisé ou Mappage d’alias et sélectionnez Terminé.
  8. Sélectionnez Terminé sur le volet Personnalisé pour appliquer la configuration de correspondance personnalisée.

    Chaque fichier de modèle ingéré est sa propre source de données. Si des enregistrements nécessitant un traitement de correspondance spécial sont découverts, mettez à jour la source de données appropriée. La mise à jour sera utilisée lors du prochain processus d’unification. Par exemple, vous identifiez des jumeaux ayant presque le même nom et habitant à la même adresse qui ont été fusionnés en une seule personne. Mettez à jour la source de données pour identifier les jumeaux en tant qu’enregistrements distincts et uniques.