Usuwanie duplikatów w każdej tabeli w celu ich ujednolicenia

Krok reguł deduplikowania rekordów w ramach procesu ujednolicenia powoduje znalezienie i usunięcie zduplikowanych rekordów klienta z tabeli źródłowej, dzięki czemu każdy klient jest reprezentowany przez jeden wiersz w każdej tabeli. Każda tabela jest oddzielnie powtarzana przy użyciu reguł w celu zidentyfikowania rekordów danego klienta.

Reguły są przetwarzane w kolejności. Po uruchomieniu wszystkich reguł dla wszystkich rekordów w tabeli grupy dopasowania, które współużytują wspólny wiersz, są połączone w jedną grupę dopasowania.

Zdefiniuj reguły deduplikacji

Dobrym regułą jest zidentyfikowanie unikatowego klienta. Rozważ swoje dane. Wystarczy identyfikować klientów na podstawie pola takiego jak adres e-mail. Jeśli jednak chcemy rozróżniać klientów współkorzystających z poczty e-mail, można określić regułę z dwoma warunkami, porównującą adres e-mail + Imię. Więcej informacji znajdziesz w artykule Koncepcje i scenariusze dotyczące deduplikacji.

  1. Na stronie Reguły deduplikacji wybierz tabelę i wybierz Dodaj regułę w celu zdefiniowania reguł deduplikacji.

    Porada

    Jeśli wzbogacono tabele na poziomie źródła danych, aby poprawić wyniki ujednolicenia, zaznacz Użyj wzbogaconych tabel na górze strony. Aby uzyskać więcej informacji, zobacz Wzbogacanie dla źródeł danych.

    Zrzut ekranu przedstawiający stronę reguł deduplikacji z podświetloną tabelą i wyświetloną opcją Dodaj regułę

    1. W okienku Dodaj regułę wprowadź następujące informacje:

      • Wybierz pole: Wybierz z listy dostępne pola tabeli, które chcesz sprawdzić pod kątem duplikatów. Wybierz pola, które będą unikatowe dla każdego pojedynczego klienta. Może to być na przykład adres e-mail lub kombinacja imienia i nazwiska, miasta oraz numeru telefonu.
      • Normalizowanie: wybór opcji normalizowania kolumny. Normalizowanie wpływa jedynie na pasujący krok i nie zmienia danych.
        • Wartości numerowane: wiele symboli Unicode reprezentujących liczby na liczby proste.
        • Symbole: usuwa wiele typowych symboli, takich jak !"#$%&'()*+,-./:;<=>?@[]^_`{|}~. Na przykład, Head&Shoulder zmienia się w HeadShoulder.
        • Tekst na małe litery: konwertuje wszystkie znaki na małe litery. „WIELKIE LITERY i Tytuł” konwertuje na „wielkie litery i tytuł”.
        • Typ (telefon, nazwa, adres, organizacja): standaryzuje nazwy, tytuły, numery telefonów, adresy itp.
        • Unicode na ASCII: konwertowanie znaków Unicode na ich odpowiednika ASCII. Na przykład akcenty ề są konwertowane na znak e.
        • Biały znak: usuwa wszystkie spacje. Ciąg Hello World staje się ciągiem HelloWorld.
      • Dokładność: Ustaw poziom dokładności. Dokładność jest używana podczas dopasowywania rozmytego i określa, jak bardzo należy zamknąć dwa ciągi, aby można było uznać je za pasujące.
        • Podstawowa: wybierz opcję Niska (30%), Średnia (60%), Wysoka (80%) i Dokładnie (100%). Wybierz opcję Dokładnie, aby dopasować tylko rekordy zgodne w 100 procentach.
        • Niestandardowa: ustaw procent, do którego należy dopasować rekordy. System będzie dopasowywać tylko rekordy przekraczające ten próg.
      • Nazwa: Nazwa reguły.

      Zrzut ekranu okienka dodawania reguł do usuwania duplikatów.

    2. Opcjonalnie wybierz Dodaj>Dodaj warunek, aby dodać więcej warunków do reguły. Warunki są połączone z operatorem logicznym AND i dlatego są wykonywane tylko wtedy, gdy zostaną spełnione wszystkie warunki.

    3. Opcjonalnie, Dodaj>Dodaj wyjątek, aby dodać wyjątki do reguły. Wyjątki są stosowane w rzadkich przypadkach fałszywych pozytywów i fałszywych negatywów.

    4. Wybierz opcję Gotowe, aby utworzyć regułę.

  2. Opcjonalnie dodaj więcej reguł.

  3. Wybierz tabelę, a następnie Edytuj preferencje scalania.

  4. W panelu Preferencje łączenia:

    1. Wybierz jedną z trzech opcji, aby określić, który rekord ma zostać zachowany, jeśli zostanie znaleziony duplikat:

      • Większość wypełniona : identyfikuje rekord z najbardziej zapełnionymi kolumnami jako rekord zwyciężający. Jest to opcja domyślna scalania.
      • Najnowsze: Identyfikuje rekord zwycięzcy na podstawie aktualności. Wymaga daty lub pola liczbowego do zdefiniowania aktualności.
      • Najstarsze: Identyfikuje rekord zwycięzcy na podstawie najmniejszej aktualności. Wymaga daty lub pola liczbowego do zdefiniowania aktualności.

      Jeśli dostępne są wyniki, rekord zwycięzcy to ten z wartością MAX(PK) lub większą wartością klucza podstawowego.

    2. Opcjonalnie, aby zdefiniować preferencje scalania dla poszczególnych kolumn tabeli, wybierz opcję Zaawansowane u dołu okienka. Można na przykład zachować najnowszą wiadomość e-mail ORAZ najbardziej pełny adres z różnych rekordów. Rozwiń tabelę, aby zobaczyć wszystkie jej kolumny i określ, której opcji użyć dla poszczególnych kolumn. Jeśli wybierzesz opcję opartą na niedawności, musisz również określić pole daty/czasu definiujące niedawność.

      Panel zaawansowanych preferencji scalania pokazujący ostatni e-mail i pełny adres

    3. Wybierz Gotowe, aby zastosować swoje preferencje scalania.

  5. Po określeniu reguł deduplikacji i preferencji scalania wybierz Dalej.