Einstellungen für doppelte Datensätze definieren

Abgeschlossen 100 XP

Es ist nicht ungewöhnlich, dass ein Debitor mehr als einmal in einer einzigen Datenquelle vorhanden ist. Das Vorhandensein mehrerer Datensätze für einen Debitor kann sich auf den Vereinheitlichungsprozess auswirken. Das System ist möglicherweise nicht in der Lage, den zu verwendenden Datensatz korrekt zu erkennen, wenn die Abgleichsregeln ausgeführt werden. Es ist wichtig, alle möglicherweise im System vorhandenen doppelten Datensätze zu finden und zu entfernen. Deduplizierung identifiziert doppelte Datensätze und führt sie zu einem Datensatz zusammen.

Deduplizierungsregeln definieren

Sie können Regeln für doppelte Datensätze für alle Datenquellen festlegen, die Sie während der Quellspaltenphase definiert haben. Wenn Sie zum Beispiel eine Datenquelle mit dem Namen Contacts: eCommerce und ein andere mit den Namen LoyCustomers: Loyalty einschließen, können Sie jeweils Duplikatsregeln festlegen. Dies erfolgt auf der Seite Deduplizierungsregeln definieren durch Auswahl der Schaltfläche Regel hinzufügen unter der Tabelle, der Sie die Regel hinzufügen möchten.

Beim Definieren von Duplikatsregeln müssen Sie Bedingungen festlegen, die verwendet werden, um auszuwerten, ob Sie doppelte Datensätze im Dataset haben. Im Bereich Regel hinzufügen müssen Sie Folgendes tun:

  • Feld auswählen: Geben Sie das Feld von der Tabelle an, in der Sie nach Duplikaten suchen möchten. Sie sollten versuchen, Felder auszuwählen, die wahrscheinlich für jeden einzelnen Debitor einzigartig sind, z. B. eine E-Mail-Adresse.

  • Normalisierung: Mit der Normalisierung der Daten können Übereinstimmungen sichergestellt werden, beispielsweise das Entfernen von Satzzeichen, das Nichtberücksichtigen von Leerzeichen und das Behandeln der Werte als Datentyp wie z. B. eine Adresse oder Telefonnummer.

  • Genauigkeitsmethode: Gibt den von der Regel zu verwendenden Genauigkeitsgrad an, um zu ermitteln, ob in der anderen Tabellen ein übereinstimmender Datensatz gefunden wird. Diese kann entweder auf „Basic“ oder „Custom“ gesetzt werden.

    • Basic: Wählen Sie aus Niedrig (30 %), Mittel (60 %), Hoch (80 %) und Genau (100 %) aus.

    • Custom: Legen Sie einen Prozentsatz fest, mit dem Datensätze übereinstimmen müssen. Das System gleicht nur Datensätze ab, die diesen Schwellenwert überschreiten.

Es kann vorkommen, dass nur eine Spalte nicht genug ist, um eindeutige Datensätze zu identifizieren. In diesen Fällen können Sie weitere Bedingungen hinzufügen. Zum Identifizieren eindeutiger Datensätze werden alle Bedingungen kombiniert. Sie möchten zum Beispiel möglicherweise den vollständigen Namen und die Telefonnummer einer Person anzeigen. Bedingungen können durch Auswählen von Hinzufügen>Bedingung hinzufügen hinzugefügt werden, um der Regel weitere Bedingungen hinzuzufügen. Alle hinzugefügten Bedingungen werden zusammen ausgewertet und so ausgeführt, wenn alle Bedingungen erfüllt sind. Optional können Sie der Regel Ausnahmen hinzufügen. Ausnahmen werden verwendet, um seltene Fälle von falsch positiven und falsch negativen Ergebnissen zu verarbeiten.

Wählen Sie Fertig aus, um die Regel zu erstellen, wenn Ihre Regel vollständig ist. Wenn nötig können Sie weitere Regeln hinzufügen, um unterschiedliche Szenarien zu berücksichtigen.

Zusammenführungseinstellungen definieren

Sobald Sie doppelte Datensätze identifiziert haben, müssen Sie entscheiden, wie diese Datensätze zu einem Datensatz zusammengeführt werden sollen. Es können zum Beispiel in einen Datensatz mehr Daten eingetragen werden als in einen anderen Datensatz.

Für jede Tabelle können Sie Einstellungen für die Zusammenführung bearbeiten auswählen, um festzulegen, welcher Datensatz aufbewahrt werden soll. Sie können aus drei Optionen auswählen:

  • Am häufigsten: Identifiziert den Datensatz mit den meisten ausgefüllten Spalten als Gewinnerdatensatz. Dies ist die standardmäßige Zusammenführungsoption.

  • Am neuesten: Identifiziert den Gewinnerdatensatz basierend auf der größten Aktualität. Erfordert ein Datum oder eine numerische Spalte, um die Aktualität zu definieren.

  • Am ältesten: Identifiziert den Gewinnerdatensatz basierend auf der geringsten Aktualität. Erfordert ein Datum oder eine numerische Spalte, um die Aktualität zu definieren.

Wählen Sie optional Erweitert am unteren Rand des Bereichs aus, um Zusammenführungspräferenzen für einzelne Spalten einer Tabelle zu definieren. Sie können zum Beispiel auswählen, ob Sie die neueste E-Mail UND die vollständige Adresse aus verschiedenen Datensätzen behalten möchten. Erweitern Sie die Entität, um alle ihre Spalten anzuzeigen, und legen Sie fest, welche Option für einzelne Spalten verwendet werden soll. Wenn Sie eine auf Aktualität basierende Option auswählen, müssen Sie auch eine Datums-/Uhrzeitspalte angeben, die die Aktualität definiert.


Nächste Lektion: Abgleichsregeln definieren

Vorherige Nächste