Präzision und Fuzzyübereinstimmung
Mit der Fuzzyübereinstimmung können Sie Zeichenfolgendaten deduplizieren und abgleichen, wenn die Daten nicht genau übereinstimmen. Zeichenfolgendaten mit Tippfehlern und anderen kleinen Unterschieden sind gute Kandidaten für die Fuzzyübereinstimmung.
Jede Bedingung in einer Regel verfügt über eine Einstellung namens Präzision, in der Sie auswählen, wie nahe zwei Zeichenfolgen beieinander liegen sollen, damit sie als Übereinstimmung gelten. Die Standardeinstellung für die Genauigkeit erfordert eine exakte Übereinstimmung der zu vergleichenden Zeichenfolgen. Wenn Sie einen anderen Wert für die Genauigkeit auswählen, wird eine Fuzzyübereinstimmung für diese Bedingung aktiviert.
Die Präzision kann auf niedrig (30 % Übereinstimmung), mittel (60 % Übereinstimmung) und hoch (80 % Übereinstimmung) eingestellt werden. Sie können auch das Dropdown-Menü auswählen und Basis in Benutzerdefiniert ändern, sodass Sie die Genauigkeit in 1-%%-Schritten festlegen können.
Anmerkung
Nur Spalten vom Datentyp „Zeichenfolge“ können die Fuzzyübereinstimmung verwenden. Für Spalten mit anderen Datentypen wie „Integer“, „Doppel“ oder „datetime“ ist das Genauigkeitsfeld auf „Genaue Übereinstimmung“ eingestellt und schreibgeschützt.
Fuzzyübereinstimmungs-Berechnungen
Fuzzyübereinstimmungen werden durch Berechnen der Bearbeitungsdistanzbewertung für zwei Zeichenfolgen erstellt. Wenn die Punktzahl den Genauigkeitsschwellenwert erreicht oder überschreitet, gelten die Zeichenfolgen als Übereinstimmung.
Der Bearbeitungsabstand ist die Anzahl der Bearbeitungen, die erforderlich sind, um eine Zeichenfolge in eine andere Zeichenfolge umzuwandeln, indem ein Zeichen hinzugefügt, gelöscht oder geändert wird.
Beispielsweise haben die Zeichenfolgen „Jacqueline“ und „Jaclyne“ eine Bearbeitungsdistanz von 5, wenn wir die Zeichen q, u, e, i und e entfernen und das Zeichen y einfügen.
Die grundlegende Berechnung zur Bestimmung der Bearbeitungsdistanz-Bewertung lautet: (Basis-Zeichenfolgenlänge – Bearbeitungsdistanz)/Basis-Zeichenfolgenlänge
Basis-Zeichenfolge | Vergleichszeichenfolge | Ergebnis |
---|---|---|
Jacqueline | Jaclyne | (10-5)/10=,5 |
fred@gmail.com | fred@gmal.cm | (14-2)/14 = 0,857 |
Franklin | frank | (8-2)/8 = 0,75 |
Normalisierung und Fuzzyübereinstimmung
Customer Insights – Data bietet leistungsstarke Datennormalisierungsroutinen, die viele Datendiskrepanzen effizienter verarbeiten können als Fuzzyübereinstimmung. Sie können eines oder mehrere Datennormalisierungsmuster für eine Spalte auswählen. Durch die Normalisierung werden Ihre Daten in der endgültigen Ausgabe nicht geändert. Die normalisierten Daten werden nur zu Vergleichszwecken verwendet, um Kundendatensätze effektiver abzugleichen.
Normalisierung | Beispiele |
---|---|
Ziffern | Konvertiert Unicode-Darstellungen von Zahlen in die Zahl. Beispiele: □ und Ⅷ sind beide auf die Zahl 8 normalisiert. Hinweis: Die Symbole müssen im Unicode-Punktformat codiert sein. |
Symbole | Entfernt Symbole und Sonderzeichen. Beispiele: !?„“#$%&‚‘( )+,.-/:;<=>@^~{}`[ ] |
Text in Kleinbuchstaben | Konvertiert Großbuchstaben in Kleinbuchstaben. Beispiel: „DAS IsT eIN BEispIEL“ wird in „dies ist ein beispiel“ umgewandelt |
Typ – Telefon | Konvertiert Telefone in verschiedenen Formaten in Ziffern und berücksichtigt Unterschiede in der Darstellung von Landeskennzahlen und Durchwahlen. Beispiel: +01 425.555.1212 = 1 (425) 555-1212 |
Typ – Name | Konvertiert über 500 gebräuchliche Namensvariationen und Titel. Beispiele: „debby“ -> „deborah“ „prof“ und „professor“ -> „Prof.“ |
Typ – Adresse | Konvertiert gemeinsame Teile von Adressen Beispiele: „Straße“ -> „st“ und „nordwesten“ -> „nw“ |
Typ – Organisation | Entfernt etwa 50 Füllwörter von Firmennamen wie „co“, „corp“, „corporation“ und „ltd“. |
Unicode in ASCII | Konvertiert die Unicode-Zeichen in ihr ASCII-Buchstabenäquivalent Beispiel: Die Zeichen „à“, „á“, „â“, „À“, „Á“, „“, „Ó, „Ä“, „Ⓐ“ und „A“ werden alle in „a“ konvertiert. |
Leerzeichen | Entfernt alle Leerzeichen |
Alias-Zuordnung | Ermöglicht das Hochladen einer benutzerdefinierten Liste von Zeichenfolgenpaaren, die dann verwendet werden kann, um Zeichenfolgen anzugeben, die immer als exakte Übereinstimmung betrachtet werden sollten. Verwenden Sie die Aliaszuordnung, wenn Sie über bestimmte Datenbeispiele verfügen, die Ihrer Meinung nach übereinstimmen sollten, aber nicht mit einem der anderen Normalisierungsmuster abgeglichen werden. Beispiel: Scott und Scooter oder IBM und International Business Machines. |
Benutzerdefinierte Umgehung | Ermöglicht das Hochladen einer benutzerdefinierten Liste von Zeichenfolgen, die dann verwendet werden kann, um Zeichenfolgen anzugeben, die niemals abgeglichen werden sollten. Die benutzerdefinierte Umgehung ist nützlich, wenn Sie Daten haben, die gemeinsame Werte haben, die ignoriert werden sollten, z. B. eine Pseudo-Telefonnummer oder eine Pseudo-E-Mail-Adresse. Beispiel: Entspricht niemals dem Telefon 555-1212 oder test@example.com |
Leistung – exakte Vergleichsbedingungen verwenden
Die Fuzzyübereinstimmung ist leistungsstark, erfordert jedoch mehr Zeit und Ressourcen als eine exakte Übereinstimmung. Es ist am besten, die Datennormalisierung als ersten Ansatz für Datenunregelmäßigkeiten zu verwenden und die Fuzzyübereinstimmung strategisch einzusetzen.
Wichtig
Verwenden Sie in jeder Regel mindestens eine genaue Vergleichsbedingung.
Zuerst werden die genauen Vergleichsbedingungen ausgeführt, um eine kleinere Menge von Werten zu erhalten, die einer Fuzzyübereinstimmung unterzogen werden müssen. Um effektiv zu sein, sollten die genauen Vergleichsbedingung einen angemessenen Grad an Eindeutigkeit aufweisen. Wenn beispielsweise Ihre gesamte Kundschaft im selben Land lebt, würde eine genaue Übereinstimmung des Landes wahrscheinlich nicht dazu beitragen, den Umfang einzugrenzen.
Spalten wie die Felder „Vollständiger Name“, „E-Mail“, „Telefon“ oder „Adresse“ weisen eine gute Eindeutigkeit auf und eignen sich hervorragend als exakte Übereinstimmung.