Teilen über


Duplikate in jeder Tabelle entfernen, um die Daten zu vereinheitlichen

Der Schritt „Deduplizierungsregeln“ der Vereinheitlichung sucht und entfernt doppelte Datensätze für einen Kunden aus einer Quelltabelle, sodass die einzelnen Kunden bzw. Kundinnen in jeder Tabelle durch eine einzelne Zeile dargestellt werden. Jede Tabelle wird mithilfe von Regeln separat dedupliziert, um die Datensätze für einen bestimmten Kunden bzw. eine bestimmte Kundin zu identifizieren.

Die Regeln werden der Reihe nach verarbeitet. Nachdem alle Regeln für alle Datensätze in einer Tabelle ausgeführt wurden, werden Übereinstimmungsgruppen, die eine gemeinsame Zeile haben, zu einer einzigen Übereinstimmungsgruppe zusammengefasst.

Definieren von Deduplizierungsregeln

Eine gute Regel identifiziert einen eindeutigen Kunden bzw. eine eindeutige Kundin. Betrachten Sie Ihre Daten. Es kann ausreichen, die Kundschaft anhand eines Felds wie „E-Mail“ zu identifizieren. Wenn Sie jedoch einzelne Kunden bzw. Kundinnen unterscheiden möchten, die eine E-Mail-Adresse teilen, können Sie sich für eine Regel mit zwei Bedingungen entscheiden, nämlich für den Abgleich von „E-Mail“ + „FirstName“. Weitere Informationen finden Sie unter Bewährte Methoden zur Deduplizierung.

  1. Wählen Sie auf der Seite Deduplizierungsregeln eine Tabelle aus und wählen Sie Regel hinzufügen, um die Deduplizierungsregeln zu definieren.

    Tipp

    Wenn Sie Tabellen auf der Ebene der Datenquelle angereichert haben, um Ihre Vereinheitlichungsergebnisse zu verbessern, wählen Sie oben auf der Seite Angereicherte Tabellen verwenden aus. Weitere Informationen finden Sie unter Anreicherungen für Datenquellen.

    Screenshot der Seite „Deduplizierungsregeln“ mit hervorgehobener Tabelle und angezeigter Regel „Regel hinzufügen“

    1. Geben Sie im Bereich Regel hinzufügen die folgenden Informationen ein:

      • Feld auswählen: Wählen Sie aus der Liste der verfügbaren Felder der Tabelle aus, die Sie auf Duplikate prüfen möchten. Wählen Sie Felder aus, die wahrscheinlich für jeden einzelnen Kunden eindeutig sind. Zum Beispiel eine E-Mail-Adresse oder die Kombination aus Name, Stadt und Telefonnummer.

      • Normalisieren: Auswählen Normalisierungsoptionen für die Spalte. Die Normalisierung wirkt sich nur auf den Abgleichsschritt aus und verändert die Daten nicht.

        • Ziffern: Wandelt Unicode-Symbole, die Zahlen darstellen, in einfache Zahlen um.
        • Symbole: Entfernt Symbole und Sonderzeichen wie !"#$%&'()*+,-./:;<=>?@[]^_`{|}~. Zum Beispiel wird Head&Shoulder zu HeadShoulder.
        • Text in Kleinbuchstaben: Wandelt Großbuchstaben in Kleinbuchstaben um. „ALL CAPS und Erster Buchstabe groß“ wird zu „all caps und erster buchstabe groß.“
        • Typ (Telefon, Name, Adresse, Organisation): Standardisiert Namen, Titel, Telefonnummern und Adressen.
        • Unicode zu ASCII: Wandelt Unicode-Zeichen in ihre ASCII-Buchstabenäquivalente um. Beispielsweise wird das akzentuierte „ề“ in das Zeichen „e“ umgewandelt.
        • Leerzeichen: Entfernt alle Leerzeichen. Hallo Welt wird HalloWelt.
        • Alias ​​Zuordnung: Ermöglicht Ihnen, eine benutzerdefinierte Liste von Zeichenfolgenpaaren hochzuladen, um Zeichenfolgen anzugeben, die immer als exakte Übereinstimmung betrachtet werden sollen.
        • Benutzerdefinierter Bypass: Ermöglicht Ihnen das Hochladen einer benutzerdefinierten Liste von Zeichenfolgen, um Zeichenfolgen anzugeben, die niemals abgeglichen werden sollten.
      • Präzision: Hier können Sie die Ebene der Präzision festlegen. Die Genauigkeit wird für exakte Übereinstimmungen und unscharfe Übereinstimmungen verwendet und legt fest, wie nahe zwei Zeichenfolgen beieinander liegen müssen, um als Übereinstimmung betrachtet zu werden.

        • Basic: Wählen Sie Niedrig (30 %%), Mittel (60 %%), Hoch (80 %%) und Genau (100 %%). Wählen Sie Genau, um nur Datensätze abzugleichen, die zu 100 Prozent übereinstimmen.
        • Benutzerdefiniert: Legen Sie einen Prozentsatz fest, mit dem Datensätze übereinstimmen müssen. Das System stimmt nur mit Datensätzen überein, die diesen Schwellenwert überschreiten.
      • Name: Der Name für die Regel.

      Screenshot des Bereichs „Regel hinzufügen“ zum Entfernen von Duplikaten.

    2. Wählen Sie optional Hinzufügen>Bedingung hinzufügen aus, um der Regel weitere Bedingungen hinzuzufügen. Bedingungen sind mit einem logischen UND-Operator verbunden und werden daher nur ausgeführt, wenn alle Bedingungen erfüllt sind.

    3. Wählen Sie optional Hinzufügen>Ausnahme hinzufügen, um Ausnahmen zur Regel hinzuzufügen. Ausnahmen werden verwendet, um seltene Fälle von falsch positiven und falsch negativen Ergebnissen zu behandeln.

    4. Wählen Sie Fertig, um die Regel zu erstellen.

  2. Optional weitere Regeln hinzufügen.

  3. Wählen Sie eine Tabelle und dann Einstellungen für die Zusammenführung bearbeiten.

  4. Im Bereich Einstellungen für die Zusammenführunng:

    1. Wählen Sie eine von drei Optionen aus, um zu bestimmen, welcher Datensatz aufbewahrt werden soll, wenn ein Duplikat gefunden wird:

      • Am häufigsten: Identifiziert den Datensatz mit den meisten ausgefüllten Spalten als Gewinner-Datensatz. Dies ist die standardmäßige Zusammenführungsoption.
      • Aktuell: Identifiziert den Gewinner-Datensatz auf der Basis der größten Aktualität. Erfordert ein Datum oder ein numerisches Feld, um die Aktualität zu definieren.
      • Letzer: Identifiziert den Gewinner-Datensatz basierend auf der besten Aktualität. Erfordert ein Datum oder ein numerisches Feld, um die Aktualität zu definieren.

      Im Falle eines Unentschiedens ist der Gewinnerdatensatz derjenige mit dem MAX(PK)-Wert oder dem größeren Primärschlüsselwert.

    2. Um optional Zusammenführungseinstellungen für einzelne Spalten einer Tabelle zu definieren, wählen Sie Erweitert am unteren Rand des Bereichs. Sie können beispielsweise wählen, ob Sie die neueste E-Mail UND die vollständigste Adresse aus verschiedenen Datensätzen behalten möchten. Erweitern Sie die Tabelle, um alle ihre Spalten anzuzeigen, und definieren Sie, welche Option für einzelne Spalten verwendet werden soll. Wenn Sie eine auf Aktualität basierende Option wählen, müssen Sie auch ein Datums-/Uhrzeitfeld angeben, das die Aktualität definiert.

      Bereich „Voreinstellungen für die erweiterte Zusammenführung“ mit der neuesten E-Mail und der vollständigen Adresse

    3. Wählen Sie Fertig aus, um Ihre Einstellungen zusammenzuführen.

  5. Nachdem Sie die Deduplizierungsregeln und Zusammenführungseinstellungen definiert haben, wählen Sie Weiter.