Precyzja i dopasowanie rozmyte

Artykuł
02/07/2024

Dopasowanie rozmyte umożliwia deduplikację i dopasowywanie danych w postaci ciągów, gdy dane nie są dokładnie zgodne. Dane łańcuchowe z literówkami i innymi niewielkimi różnicami są dobrymi kandydatami do dopasowywania rozmytego.

Każdy warunek w regule ma ustawienie o nazwie Precyzja w którym wybierasz, jak blisko powinny być dwa ciągi znaków, aby można je było uznać za zgodne. Domyślne ustawienie precyzji wymaga dokładnego dopasowania porównywanych ciągów. Wybranie dowolnej innej wartości precyzji umożliwia dopasowanie rozmyte dla tego warunku.

Precyzję można ustawić na niską (30% dopasowania), średnią (60% dopasowania) i wysoką (80% dopasowania). Możesz także wybrać menu i zmienić Podstawowy na Niestandardowy, co pozwala ustawić dokładność w 1% przyrostu.

Uwaga

Tylko kolumny typu danych typu ciąg mogą używać dopasowania rozmytego. W przypadku kolumn z innymi typami danych, takimi jak liczba całkowita, podwójne lub data/godzina, pole precyzji jest ustawione na dokładne dopasowanie i jest tylko do odczytu.

Rozmyte obliczenia dopasowujące

Dopasowania rozmyte są tworzone poprzez obliczenie wyniku odległości edycji dla dwóch ciągów. Jeśli wynik spełnia lub przekracza próg precyzji, ciągi uważa się za zgodne.

Odległość edycji to liczba edycji wymaganych do zamiany jednego ciągu na inny poprzez dodanie, usunięcie lub zmianę znaku.

Na przykład ciągi „Jacqueline” i „Jaclyne” mają odległość edycji wynoszącą 5, gdy usuniemy znaki q, u, e, i oraz e i wstawimy znak y.

Podstawowe obliczenia służące do określenia wyniku edycji odległości to: (Podstawowa długość łańcucha – Edytuj odległość) / Podstawowa długość łańcucha

Ciąg podstawowy	Ciąg do porównania	Ocena
Jacqueline	Jaclyne	(10-5)/10=0,5
fred@gmail.com	fred@gmal.cm	(14-2) / 14 = 0,857
franklin	frank	(8-2) / 8 = 0,75

Normalizacja i dopasowanie rozmyte

Customer Insights – Data udostępnia zaawansowane procedury normalizacji danych, które radzą sobie z wieloma rozbieżnościami danych skuteczniej niż dopasowywanie rozmyte. Dla kolumny można wybrać jeden lub więcej wzorców normalizacji danych. Normalizacja nie zmienia danych w końcowym wyniku. Znormalizowane dane są wykorzystywane wyłącznie do celów porównawczych, aby skuteczniej dopasować zapisy klientów.

Normalizacja	Przykłady
Cyfry	Konwertuje reprezentację liczb w formacie Unicode na liczbę. Przykłady: □ i Ⅷ są znormalizowane do liczby 8. Uwaga: symbole muszą być zakodowane w formacie punktowym Unicode.
Symbole	Usuwa symbole i znaki specjalne. Przykłady: !?"#$%&'( )+,.-/:;<=>@^~{}`[ ]
Tekst na małe litery	Konwertuje wielkie litery na małe litery. Przykład: „TO JeSt PRzYKŁad” jest konwertowane na „to jest przykład”
Typ — telefon	Konwertuje telefony w różnych formatach na cyfry i uwzględnia różnice w sposobie prezentowania kodów krajów i rozszerzeń. Przykład: +01 425.555.1212 = 1 (425) 555-1212
Typ — nazwa	Konwertuje ponad 500 odmian nazw zwyczajowych i tytułów. Przykłady: „debby” -> „Deborah”, „prof” i „profesor” -> „Prof.”
Typ — adres	Konwertuje wspólne części adresów Przykłady: „ulica” -> „st” i „północny-zachód” -> „pn.-zach.”
Typ — organizacja	Usuwa około 50 „szumiących słów” z nazwy firmy, takich jak „co”, „corp”, „corporation” i „ltd”.
Unicode na ASCII	Unicode na ASCII: konwertowanie znaków Unicode na ich odpowiednika literowego ASCII Przykład: znaki „à”, „á”, „â”, „À”, „Á”, „Â”, „Ã”, „Ę”, „Ⓐ” i „Ａ” są konwertowane na „a”.
Znak odstępu	Usuwa wszystkie białe znaki
Mapowanie aliasu	Umożliwia przesłanie niestandardowej listy par ciągów, których można następnie użyć do wskazania ciągów, które zawsze należy uważać za dopasowanie dokładne. Użyj mapowania aliasów, jeśli masz konkretne przykłady danych, które Twoim zdaniem powinny pasować, a które nie są dopasowane przy użyciu jednego z pozostałych wzorców normalizacji. Przykład: Scott i Scooter lub IBM i International Business Machines.
Obejście niestandardowe	Umożliwia przesłanie niestandardowej listy ciągów, których można następnie użyć do wskazania ciągów, których nigdy nie należy uważać za dopasowanie. Niestandardowe obejście jest przydatne, gdy masz dane zawierające wspólne wartości, które należy zignorować, takie jak fałszywy numer telefonu lub fałszywy adres e-mail. Przykład: nigdy nie dopasowuj numeru telefonu 555-1212 lub test@example.com

Wydajność — użyj warunków dokładnego dopasowania

Dopasowanie rozmyte jest potężne, ale wymaga więcej czasu i zasobów niż dopasowanie dokładne. Najlepiej zastosować normalizację danych jako pierwsze podejście do nieprawidłowości w danych i strategicznie zastosować dopasowywanie rozmyte.

Ważne

W każdej regule użyj co najmniej jednego warunku dopasowania ścisłego.

Najpierw uruchamiane są warunki dopasowania dokładnego, aby uzyskać mniejszy zestaw wartości, które wymagają dopasowania rozmytego. Aby warunki dokładnego dopasowania były skuteczne, powinny charakteryzować się rozsądnym stopniem niepowtarzalności. Na przykład, jeśli wszyscy Twoi klienci mieszkają w tym samym kraju, dokładne dopasowanie do kraju prawdopodobnie nie pomoże zawęzić zakresu.

Kolumny takie jak imię i nazwisko, adres e-mail, telefon lub adres mają dobrą niepowtarzalność i świetnie nadają się do wykorzystania jako dokładne dopasowanie.

Udostępnij za pośrednictwem

Precyzja i dopasowanie rozmyte

Rozmyte obliczenia dopasowujące

Normalizacja i dopasowanie rozmyte

Wydajność — użyj warunków dokładnego dopasowania

Dodatkowe zasoby