Udostępnij za pośrednictwem


Precyzja i dopasowanie rozmyte

Dopasowanie rozmyte umożliwia deduplikację i dopasowywanie danych w postaci ciągów, gdy dane nie są dokładnie zgodne. Dane łańcuchowe z literówkami i innymi niewielkimi różnicami są dobrymi kandydatami do dopasowywania rozmytego.

Każdy warunek w regule ma ustawienie o nazwie Precyzja w którym wybierasz, jak blisko powinny być dwa ciągi znaków, aby można je było uznać za zgodne. Domyślne ustawienie precyzji wymaga dokładnego dopasowania porównywanych ciągów. Wybranie dowolnej innej wartości precyzji umożliwia dopasowanie rozmyte dla tego warunku.

Precyzję można ustawić na niską (30% dopasowania), średnią (60% dopasowania) i wysoką (80% dopasowania). Możesz także wybrać menu i zmienić Podstawowy na Niestandardowy, co pozwala ustawić dokładność w 1% przyrostu.

Uwaga

Tylko kolumny typu danych typu ciąg mogą używać dopasowania rozmytego. W przypadku kolumn z innymi typami danych, takimi jak liczba całkowita, podwójne lub data/godzina, pole precyzji jest ustawione na dokładne dopasowanie i jest tylko do odczytu.

Rozmyte obliczenia dopasowujące

Dopasowania rozmyte są tworzone poprzez obliczenie wyniku odległości edycji dla dwóch ciągów. Jeśli wynik spełnia lub przekracza próg precyzji, ciągi uważa się za zgodne.

Odległość edycji to liczba edycji wymaganych do zamiany jednego ciągu na inny poprzez dodanie, usunięcie lub zmianę znaku.

Na przykład ciągi „Jacqueline” i „Jaclyne” mają odległość edycji wynoszącą 5, gdy usuniemy znaki q, u, e, i oraz e i wstawimy znak y.

Podstawowe obliczenia służące do określenia wyniku edycji odległości to: (Podstawowa długość łańcucha – Edytuj odległość) / Podstawowa długość łańcucha

Ciąg podstawowy Ciąg do porównania Ocena
Jacqueline Jaclyne (10-5)/10=0,5
fred@gmail.com fred@gmal.cm (14-2) / 14 = 0,857
franklin frank (8-2) / 8 = 0,75

Normalizacja i dopasowanie rozmyte

Customer Insights – Data udostępnia zaawansowane procedury normalizacji danych, które radzą sobie z wieloma rozbieżnościami danych skuteczniej niż dopasowywanie rozmyte. Dla kolumny można wybrać jeden lub więcej wzorców normalizacji danych. Normalizacja nie zmienia danych w końcowym wyniku. Znormalizowane dane są wykorzystywane wyłącznie do celów porównawczych, aby skuteczniej dopasować zapisy klientów.

Normalizacja Przykłady
Cyfry Konwertuje reprezentację liczb w formacie Unicode na liczbę.
Przykłady: □ i Ⅷ są znormalizowane do liczby 8.
Uwaga: symbole muszą być zakodowane w formacie punktowym Unicode.
Symbole Usuwa symbole i znaki specjalne.
Przykłady: !?"#$%&'( )+,.-/:;<=>@^~{}`[ ]
Tekst na małe litery Konwertuje wielkie litery na małe litery. 
Przykład: „TO JeSt PRzYKŁad” jest konwertowane na „to jest przykład”
Typ — telefon Konwertuje telefony w różnych formatach na cyfry i uwzględnia różnice w sposobie prezentowania kodów krajów i rozszerzeń. 
Przykład: +01 425.555.1212 = 1 (425) 555-1212
Typ — nazwa Konwertuje ponad 500 odmian nazw zwyczajowych i tytułów. 
Przykłady: „debby” -> „Deborah”, „prof” i „profesor” -> „Prof.”
Typ — adres Konwertuje wspólne części adresów
Przykłady: „ulica” -> „st” i „północny-zachód” -> „pn.-zach.”
Typ — organizacja Usuwa około 50 „szumiących słów” z nazwy firmy, takich jak „co”, „corp”, „corporation” i „ltd”.
Unicode na ASCII Unicode na ASCII: konwertowanie znaków Unicode na ich odpowiednika literowego ASCII
Przykład: znaki „à”, „á”, „â”, „À”, „Á”, „”, „Ô, „Ę”, „Ⓐ” i „A” są konwertowane na „a”.
Znak odstępu Usuwa wszystkie białe znaki
Mapowanie aliasu Umożliwia przesłanie niestandardowej listy par ciągów, których można następnie użyć do wskazania ciągów, które zawsze należy uważać za dopasowanie dokładne. 
Użyj mapowania aliasów, jeśli masz konkretne przykłady danych, które Twoim zdaniem powinny pasować, a które nie są dopasowane przy użyciu jednego z pozostałych wzorców normalizacji. 
Przykład: Scott i Scooter lub IBM i International Business Machines.
Obejście niestandardowe Umożliwia przesłanie niestandardowej listy ciągów, których można następnie użyć do wskazania ciągów, których nigdy nie należy uważać za dopasowanie.
Niestandardowe obejście jest przydatne, gdy masz dane zawierające wspólne wartości, które należy zignorować, takie jak fałszywy numer telefonu lub fałszywy adres e-mail. 
Przykład: nigdy nie dopasowuj numeru telefonu 555-1212 lub test@example.com

Wydajność — użyj warunków dokładnego dopasowania

Dopasowanie rozmyte jest potężne, ale wymaga więcej czasu i zasobów niż dopasowanie dokładne. Najlepiej zastosować normalizację danych jako pierwsze podejście do nieprawidłowości w danych i strategicznie zastosować dopasowywanie rozmyte.

Ważne

W każdej regule użyj co najmniej jednego warunku dopasowania ścisłego.

Najpierw uruchamiane są warunki dopasowania dokładnego, aby uzyskać mniejszy zestaw wartości, które wymagają dopasowania rozmytego. Aby warunki dokładnego dopasowania były skuteczne, powinny charakteryzować się rozsądnym stopniem niepowtarzalności. Na przykład, jeśli wszyscy Twoi klienci mieszkają w tym samym kraju, dokładne dopasowanie do kraju prawdopodobnie nie pomoże zawęzić zakresu.

Kolumny takie jak imię i nazwisko, adres e-mail, telefon lub adres mają dobrą niepowtarzalność i świetnie nadają się do wykorzystania jako dokładne dopasowanie.