Sdílet prostřednictvím


Odstranění duplikátů v každé tabulce pro sjednocení dat

Krok sjednocení pravidel odstranění duplicit najde a odstraní duplicitní záznamy pro zákazníka ze zdrojové tabulky, takže každý zákazník je reprezentován jedním řádkem v každé tabulce. Každá tabulka je deduplikována samostatně pomocí pravidel pro identifikaci záznamů pro daného zákazníka.

Pravidla jsou zpracována v pořadí. Poté, co byla všechna pravidla spuštěna na všech záznamech v tabulce, jsou skupiny shody, které sdílejí společný řádek, spojeny do jedné skupiny.

Definování odstranění duplicit

Dobré pravidlo identifikuje jedinečného zákazníka. Zvažte svá data. Může postačit identifikovat zákazníky na základě pole, jako je e-mail. Pokud však chcete odlišit zákazníky, kteří sdílejí e-mail, můžete zvolit pravidlo se dvěma podmínkami, které se shodují s e-mailem a křestním jménem. Další informace viz Koncepty a scénáře deduplikace.

  1. Na stránce Pravidla odstranění duplicit vyberte tabulku a vyberte Přidat pravidlo k definování pravidel odstranění duplicit.

    Tip

    Pokud jste rozšířili tabulky na úrovni zdroje dat, abyste pomohli zlepšit výsledky sjednocení, Použít rozšířené tabulky v horní části stránky. Další informace najdete v tématu Rozšíření zdrojů dat.

    Screenshot stránky pravidel odstranění duplicit se zvýrazněnou tabulkou a zobrazeným tlačítkem Přidat pravidlo

    1. V podokně Přidat pravidlo zadejte následující informace:

      • Vyberte pole: Vyberte ze seznamu dostupných polí tabulky, u které chcete zkontrolovat duplikáty. Vyberte pole, která jsou potenciálně jedinečná pro každého jednotlivého zákazníka. Například e-mailová adresa nebo kombinace jména, města a telefonního čísla.
      • Normalizovat: Vyberte možnosti normalizace pro sloupec. Normalizace ovlivní pouze krok shody a nemění data.
        • Číslice: Převede mnoho symbolů Unicode, které představují čísla, na jednoduchá čísla.
        • Symboly: Odstraní mnoho běžných symbolů, jako je !"#$%&'()*+,-./:;<=>?@[]^_`{|}~. Například z Head&Shoulder se stane HeadShoulder.
        • Text na malá písmena: Převede všechny znaky na malá písmena. Z „VŠECHNA PÍSMENA VELKÁ“ a Velká Počáteční“ se stane „všechna písmena velká a velká počáteční“.
        • Typ (telefon, jméno, adresa, organizace): Standardizuje jména, tituly, telefonní čísla, adresy atd.
        • Unicode na ASCII: Převede znaky Unicode na jejich ekvivalent ASCII. Například ề s diakritikou se převede na znak e.
        • Mezera: Odebere všechny mezery. Z Ahoj světe se stane Ahojsvěte.
      • Přesnost: Nastavte úroveň přesnosti. Přesnost se používá u přibližné shody a určuje, jak blízko si musí být dva řetězce, aby byly považovány za shodu.
        • Základní: Vyberte jednu z možností Nízká (30 %), Střední (60 %), Vysoká (80 %) a Přesná (100 %). Vyberte Přesný, aby se shodovaly pouze záznamy, které se stoprocentně shodují.
        • Vlastní: Nastaví procento, kterému musí záznamy odpovídat. Systém páruje pouze záznamy splňující tuto prahovou hodnotu.
      • Název: Název pravidla.

      Screenshot Přidat pravidlo pro odstranění duplikátů.

    2. Volitelně vyberte Přidat>Přidat podmínku pro přidání dalších podmínek do pravidla. Podmínky jsou spojeny s logickým operátorem AND a jsou tedy prováděny pouze tehdy, jsou-li všechny splněny.

    3. Volitelně Přidat>Přidat výjimku na přidat výjimky do pravidla. Výjimky se používají k řešení vzácných případů falešně pozitivních a falešně negativních výsledků.

    4. Vyberte Hotovo pro vytvoření pravidla.

  2. Volitelně přidejte další pravidla.

  3. Vyberte tabulku a poté Upravit předvolby sloučení.

  4. V podokně Sloučit předvolby:

    1. Vyberte jednu ze tří možností, jak určit, který záznam se má ponechat, pokud je nalezen duplikát:

      • Nejvíce vyplněný: Identifikuje záznam s nejvíce vyplněnými sloupci jako vítězný. Toto je výchozí možnost sloučení.
      • Nejnovější: Identifikuje vítězný záznam na základě největší aktuálnosti. Vyžaduje datum nebo číselné pole pro definování aktuálnosti.
      • Nejdřívější: Identifikuje vítězný záznam na základě nejmenší aktuálnosti. Vyžaduje datum nebo číselné pole pro definování aktuálnosti.

      V případě nerozhodného výsledku je vítězem záznam s hodnotou MAX(PK) nebo vyšší hodnotou primárního klíče.

    2. Volitelně, chcete-li definovat předvolby sloučení pro jednotlivé sloupce tabulky, vyberte Rozšířené ve spodní části podokna. Můžete se například rozhodnout zachovat nejnovější e-mail A nejúplnější adresu z různých záznamů. Rozbalte tabulku, abyste viděli všechny její sloupce a definujte, kterou možnost mají použít jednotlivé sloupce. Pokud zvolíte možnost založenou na aktuálnosti, musíte také zadat pole data/času, které definuje aktuálnost.

      Panel rozšířených předvoleb sloučení zobrazující poslední e-mail a úplnou adresu

    3. Výběrem možnosti Hotovo použijte předvolby sloučení.

  5. Po definování pravidel deduplikace a předvoleb sloučení vyberte Další.