Präzision und Fuzzyübereinstimmung

Artikel
01/02/2024

Mit der Fuzzyübereinstimmung können Sie Zeichenfolgendaten deduplizieren und abgleichen, wenn die Daten nicht genau übereinstimmen. Zeichenfolgendaten mit Tippfehlern und anderen kleinen Unterschieden sind gute Kandidaten für die Fuzzyübereinstimmung.

Jede Bedingung in einer Regel verfügt über eine Einstellung namens Präzision, in der Sie auswählen, wie nahe zwei Zeichenfolgen beieinander liegen sollen, damit sie als Übereinstimmung gelten. Die Standardeinstellung für die Genauigkeit erfordert eine exakte Übereinstimmung der zu vergleichenden Zeichenfolgen. Wenn Sie einen anderen Wert für die Genauigkeit auswählen, wird eine Fuzzyübereinstimmung für diese Bedingung aktiviert.

Die Präzision kann auf niedrig (30 % Übereinstimmung), mittel (60 % Übereinstimmung) und hoch (80 % Übereinstimmung) eingestellt werden. Sie können auch das Dropdown-Menü auswählen und Basis in Benutzerdefiniert ändern, sodass Sie die Genauigkeit in 1-%%-Schritten festlegen können.

Anmerkung

Nur Spalten vom Datentyp „Zeichenfolge“ können die Fuzzyübereinstimmung verwenden. Für Spalten mit anderen Datentypen wie „Integer“, „Doppel“ oder „datetime“ ist das Genauigkeitsfeld auf „Genaue Übereinstimmung“ eingestellt und schreibgeschützt.

Fuzzyübereinstimmungs-Berechnungen

Fuzzyübereinstimmungen werden durch Berechnen der Bearbeitungsdistanzbewertung für zwei Zeichenfolgen erstellt. Wenn die Punktzahl den Genauigkeitsschwellenwert erreicht oder überschreitet, gelten die Zeichenfolgen als Übereinstimmung.

Der Bearbeitungsabstand ist die Anzahl der Bearbeitungen, die erforderlich sind, um eine Zeichenfolge in eine andere Zeichenfolge umzuwandeln, indem ein Zeichen hinzugefügt, gelöscht oder geändert wird.

Beispielsweise haben die Zeichenfolgen „Jacqueline“ und „Jaclyne“ eine Bearbeitungsdistanz von 5, wenn wir die Zeichen q, u, e, i und e entfernen und das Zeichen y einfügen.

Die grundlegende Berechnung zur Bestimmung der Bearbeitungsdistanz-Bewertung lautet: (Basis-Zeichenfolgenlänge – Bearbeitungsdistanz)/Basis-Zeichenfolgenlänge

Basis-Zeichenfolge	Vergleichszeichenfolge	Ergebnis
Jacqueline	Jaclyne	(10-5)/10=,5
fred@gmail.com	fred@gmal.cm	(14-2)/14 = 0,857
Franklin	frank	(8-2)/8 = 0,75

Normalisierung und Fuzzyübereinstimmung

Customer Insights – Data bietet leistungsstarke Datennormalisierungsroutinen, die viele Datendiskrepanzen effizienter verarbeiten können als Fuzzyübereinstimmung. Sie können eines oder mehrere Datennormalisierungsmuster für eine Spalte auswählen. Durch die Normalisierung werden Ihre Daten in der endgültigen Ausgabe nicht geändert. Die normalisierten Daten werden nur zu Vergleichszwecken verwendet, um Kundendatensätze effektiver abzugleichen.

Normalisierung	Beispiele
Ziffern	Konvertiert Unicode-Darstellungen von Zahlen in die Zahl. Beispiele: □ und Ⅷ sind beide auf die Zahl 8 normalisiert. Hinweis: Die Symbole müssen im Unicode-Punktformat codiert sein.
Symbole	Entfernt Symbole und Sonderzeichen. Beispiele: !?„“#$%&‚‘( )+,.-/:;<=>@^~{}`[ ]
Text in Kleinbuchstaben	Konvertiert Großbuchstaben in Kleinbuchstaben. Beispiel: „DAS IsT eIN BEispIEL“ wird in „dies ist ein beispiel“ umgewandelt
Typ – Telefon	Konvertiert Telefone in verschiedenen Formaten in Ziffern und berücksichtigt Unterschiede in der Darstellung von Landeskennzahlen und Durchwahlen. Beispiel: +01 425.555.1212 = 1 (425) 555-1212
Typ – Name	Konvertiert über 500 gebräuchliche Namensvariationen und Titel. Beispiele: „debby“ -> „deborah“ „prof“ und „professor“ -> „Prof.“
Typ – Adresse	Konvertiert gemeinsame Teile von Adressen Beispiele: „Straße“ -> „st“ und „nordwesten“ -> „nw“
Typ – Organisation	Entfernt etwa 50 Füllwörter von Firmennamen wie „co“, „corp“, „corporation“ und „ltd“.
Unicode in ASCII	Konvertiert die Unicode-Zeichen in ihr ASCII-Buchstabenäquivalent Beispiel: Die Zeichen „à“, „á“, „â“, „À“, „Á“, „Â“, „Ã“, „Ä“, „Ⓐ“ und „Ａ“ werden alle in „a“ konvertiert.
Leerzeichen	Entfernt alle Leerzeichen
Alias-Zuordnung	Ermöglicht das Hochladen einer benutzerdefinierten Liste von Zeichenfolgenpaaren, die dann verwendet werden kann, um Zeichenfolgen anzugeben, die immer als exakte Übereinstimmung betrachtet werden sollten. Verwenden Sie die Aliaszuordnung, wenn Sie über bestimmte Datenbeispiele verfügen, die Ihrer Meinung nach übereinstimmen sollten, aber nicht mit einem der anderen Normalisierungsmuster abgeglichen werden. Beispiel: Scott und Scooter oder IBM und International Business Machines.
Benutzerdefinierte Umgehung	Ermöglicht das Hochladen einer benutzerdefinierten Liste von Zeichenfolgen, die dann verwendet werden kann, um Zeichenfolgen anzugeben, die niemals abgeglichen werden sollten. Die benutzerdefinierte Umgehung ist nützlich, wenn Sie Daten haben, die gemeinsame Werte haben, die ignoriert werden sollten, z. B. eine Pseudo-Telefonnummer oder eine Pseudo-E-Mail-Adresse. Beispiel: Entspricht niemals dem Telefon 555-1212 oder test@example.com

Leistung – exakte Vergleichsbedingungen verwenden

Die Fuzzyübereinstimmung ist leistungsstark, erfordert jedoch mehr Zeit und Ressourcen als eine exakte Übereinstimmung. Es ist am besten, die Datennormalisierung als ersten Ansatz für Datenunregelmäßigkeiten zu verwenden und die Fuzzyübereinstimmung strategisch einzusetzen.

Wichtig

Verwenden Sie in jeder Regel mindestens eine genaue Vergleichsbedingung.

Zuerst werden die genauen Vergleichsbedingungen ausgeführt, um eine kleinere Menge von Werten zu erhalten, die einer Fuzzyübereinstimmung unterzogen werden müssen. Um effektiv zu sein, sollten die genauen Vergleichsbedingung einen angemessenen Grad an Eindeutigkeit aufweisen. Wenn beispielsweise Ihre gesamte Kundschaft im selben Land lebt, würde eine genaue Übereinstimmung des Landes wahrscheinlich nicht dazu beitragen, den Umfang einzugrenzen.

Spalten wie die Felder „Vollständiger Name“, „E-Mail“, „Telefon“ oder „Adresse“ weisen eine gute Eindeutigkeit auf und eignen sich hervorragend als exakte Übereinstimmung.

Freigeben über

Präzision und Fuzzyübereinstimmung

Fuzzyübereinstimmungs-Berechnungen

Normalisierung und Fuzzyübereinstimmung

Leistung – exakte Vergleichsbedingungen verwenden

Zusätzliche Ressourcen