Odstráňte duplikáty v každej tabuľke na zjednotenie údajov
Pravidlá deduplikácie krok zjednotenia vyhľadajú a odstránia duplicitné záznamy pre zákazníka zo zdrojovej tabuľky, takže každý zákazník je reprezentovaný jedným riadkom v každej tabuľke. Každá tabuľka sa deduplikuje samostatne pomocou pravidiel na identifikáciu záznamov pre daného zákazníka.
Pravidlá sú spracované v poradí. Po spustení všetkých pravidiel na všetkých záznamoch v tabuľke sa skupiny zápasov, ktoré zdieľajú spoločný riadok, spoja do jednej skupiny zhôd.
Definovanie pravidiel deduplikácie
Dobré pravidlo identifikuje jedinečného zákazníka. Zvážte svoje údaje. Môže stačiť identifikovať zákazníkov na základe poľa, ako je e-mail. Ak však chcete odlíšiť zákazníkov, ktorí zdieľajú e-mail, môžete si zvoliť pravidlo s dvoma podmienkami, ktoré sa zhodujú s e-mailom a menom. Ďalšie informácie nájdete v časti Osvedčené postupy pri deduplikácii.
Na stránke Pravidlá deduplikácie vyberte tabuľku a výberom možnosti Pridať pravidlo definujte pravidlá deduplikácie.
Prepitné
Ak ste obohatili tabuľky na úrovni zdroj údajov, aby ste pomohli zlepšiť výsledky zjednotenia, vyberte možnosť Použiť obohatené tabuľky v hornej časti stránky. Ďalšie informácie nájdete v časti Obohatenie zdrojov údajov.
Na table Pridať pravidlo zadajte nasledujúce informácie:
Vybrať pole: Vyberte si zo zoznamu dostupných polí z tabuľky, v ktorých chcete skontrolovať duplikáty. Vyberte polia, ktoré sú pravdepodobne jedinečné pre každého zákazníka. Napríklad e-mailová adresa alebo kombinácia mena, mesta a telefónneho čísla.
Normalizovať: Vyberte možnosti normalizácie pre stĺpec. Normalizácia ovplyvní iba zhodné krok a nemení údaje.
- Číslice: Konvertuje symboly Unicode, ktoré predstavujú čísla, na jednoduché čísla.
- Symboly: odstráni symboly a špeciálne znaky, ako napríklad !"#$%&'()*+,-./:;<=>? @[]^_`{|}~. Napríklad Head&Shoulder sa zmení na HeadShoulder.
- Text na malé písmená: Skonvertuje veľké písmená na malé. „Všetky veľké písmená a veľké písmená“ sa stanú „veľkými veľkými písmenami a veľkými písmenami“.
- Typ (telefón, meno, adresa, organizácia): Štandardizuje mená, tituly, telefónne čísla a adresy.
- Unicode na ASCII: Skonvertuje znaky Unicode na ekvivalent písmen ASCII. Napríklad ề s diakritikou sa skonvertuje na znak e.
- Medzera: Odstráni všetky medzery. Hello World sa stáva HelloWorld.
- Alias mapovanie: Umožňuje vám nahrať vlastný zoznam párov reťazcov na označenie reťazcov, ktoré by sa mali vždy považovať za presnú zhodu.
- Vlastné vynechanie: Umožňuje vám nahrať vlastný zoznam reťazcov na označenie reťazcov, ktoré by sa nikdy nemali zhodovať.
Presnosť: Nastavte úroveň presnosti. Presnosť sa používa na presnú zhodu a fuzzy zhodu a určuje, ako blízko musia byť dva reťazce, aby sa považovali za zhodu.
- Základné: Vyberte si z možností Nízka (30 %), Stredná (60 %), Vysoká (80 %) a Presná (100 %). Vyberte Presne , ak chcete, aby sa zhodovali iba záznamy, ktoré sa stopercentne zhodujú.
- Vlastné: Nastavte percento, ktoré sa záznamy musia zhodovať. Systém porovnáva iba záznamy, ktoré prekračujú túto hranicu.
Názov: Názov pravidla.
Voliteľne vyberte Pridať>Pridať podmienku , ak chcete do pravidla pridať ďalšie podmienky. Podmienky sú spojené s logickým operátorom AND a tak sa vykonávajú iba vtedy, ak sú splnené všetky podmienky.
Voliteľne Pridať>Pridať výnimku a pridať výnimky do pravidla. Výnimky sa používajú na riešenie zriedkavých prípadov falošne pozitívnych a falošne negatívnych výsledkov.
Ak chcete vytvoriť pravidlo, vyberte Hotovo.
Voliteľne pridajte ďalšie pravidlá.
Vyberte tabuľku a potom Upraviť predvoľby zlúčenia.
Na table Predvoľby zlúčenia :
Vyberte jednu z troch možností na určenie, ktorý záznam sa má ponechať, ak sa nájde duplikát:
- Najviac vyplnené: identifikuje záznam s najviac vyplnenými stĺpcami ako víťazný záznam. Toto je predvolená možnosť zlučovania.
- Najnovšie: Identifikuje víťazný záznam na základe najaktuálnejšieho. Na definovanie aktuálnosti sa vyžaduje dátum alebo číselné pole.
- Najmenej aktuálne: identifikuje víťazný záznam na základe najmenšej aktuálnosti. Na definovanie aktuálnosti sa vyžaduje dátum alebo číselné pole.
Ak je nerozhodný výsledok, víťazným záznamom je záznam s MAX(PK) alebo vyššou hodnotou primárneho kľúča.
Voliteľne, ak chcete definovať preferencie zlúčenia pre jednotlivé stĺpce tabuľky, vyberte Rozšírené v spodnej časti tably. Môžete sa napríklad rozhodnúť ponechať najnovší e-mail A najkompletnejšiu adresu z rôznych záznamov. Rozbaľte tabuľku, aby ste videli všetky jej stĺpce a definujte, ktorá možnosť sa má použiť pre jednotlivé stĺpce. Ak vyberiete možnosť založenú na aktuálnosti, musíte tiež zadať pole dátumu a času, ktoré definuje aktuálnosť.
Ak chcete použiť predvoľby zlúčenia, vyberte Hotovo .
Po definovaní pravidiel deduplikácie a preferencií zlúčenia vyberte Ďalej.