Odstranite dvojnike v vsaki tabeli za poenotenje podatkov
Pravila deduplikacije korak poenotenja najdejo in odstranijo podvojene zapise za stranko iz izvorne tabele, tako da je vsaka stranka predstavljena z eno vrstico v vsaki tabeli. Vsaka tabela je ločeno deduplicirana s pravili za identifikacijo zapisov za dano stranko.
Pravila se obdelujejo po vrstnem redu. Ko so bila vsa pravila izvedena za vse zapise v tabeli, so skupine ujemanja, ki imajo skupno vrstico, združene v eno skupino ujemanja.
Določanje pravil za odstranjevanje podvojenih elementov
Dobro pravilo identificira edinstveno stranko. Upoštevajte svoje podatke. Morda bo dovolj, da stranke identificirate na podlagi polja, kot je e-pošta. Če pa želite razlikovati med strankami, ki si delijo e-pošto, se lahko odločite za pravilo z dvema pogojema, ki se ujemata na E-pošta + FirstName. Za več informacij glejte Najboljše prakse odstranjevanja podvojitev.
Na strani Pravila za odstranjevanje dvojnikov izberite tabelo in izberite Dodaj pravilo , da definirate pravila za odstranjevanje dvojnikov.
Nasvet
Če ste obogatili tabele na ravni vir podatkov, da bi izboljšali rezultate poenotenja, izberite Uporabi obogatene tabele na vrhu strani. Za več informacij glejte Obogatitev za vire podatkov.
V podokno Dodaj pravilo vnesite naslednje podatke:
Izberite polje: s seznama razpoložljivih polj iz tabele izberite, za katera želite preveriti dvojnike. Izberite polja, ki so verjetno edinstvena vsaki stranki. Na primer e-poštni naslov ali kombinacija imena, mesta in telefonske številke.
Normaliziraj: Izberite možnosti normalizacije za stolpec. Normalizacija vpliva le na ujemajoči se korak in ne spremeni podatkov.
- Številke: pretvori simbole Unicode, ki predstavljajo števila, v preprosta števila.
- Simboli: Odstrani simbole in posebne znake, kot je !"#$%&'()*+,-./:;<=>? @[]^_`{|}~. Na primer, glava in rama postane HeadShoulder.
- Besedilo v male črke: Pretvori velike črke v male črke. »VSE VELIKE ČRKE in MLAKE V NASLOVU« postanejo »VSE VELIKE VELIKE IN MALKE V NASLOVU«.
- Tip (telefon, ime, naslov, organizacija): standardizira imena, nazive, telefonske številke in naslove.
- Unicode v ASCII: Pretvori znake Unicode v njihov ekvivalent črk ASCII. Na primer, naglašeni ề se pretvori v znak e.
- Presledek: Odstrani vse presledke. Hello World postane HelloWorld.
- Vzdevek preslikava: Omogoča nalaganje prilagojenega seznama parov nizov za označevanje nizov, ki jih je treba vedno šteti za natančno ujemanje.
- Obhod po meri: Omogoča nalaganje seznama nizov po meri za označevanje nizov, ki se nikoli ne smejo ujemati.
Natančnost: nastavite stopnjo natančnosti. Natančnost se uporablja za natančno in mehko ujemanje ter določa, kako blizu morata biti dva niza, da se štejeta za ujemanje.
- Osnovno: Izberite med nizkim (30 %), srednjim (60 %), Visoko (80 %) in Natančno (100 %). Izberite Natančno za ujemanje samo zapisov, ki se ujemajo 100 odstotkov.
- Po meri: Nastavite odstotek, s katerim se morajo zapisi ujemati. Sistem ujema samo zapise, ki presegajo ta prag.
Ime: ime za pravilo.
Če želite pravilu dodati več pogojev, lahko izberete Dodaj>Dodaj pogoj . Pogoji so povezani z logičnim operatorjem AND in se izvedejo le, če so izpolnjeni vsi pogoji.
Po želji Dodaj>Dodaj izjemo za dodaj izjeme pravilu. Izjeme se uporabljajo za obravnavanje redkih primerov lažno pozitivnih in lažno negativnih rezultatov.
Izberite Končano, da ustvarite pravilo.
Po želji dodajte več pravil.
Izberite tabelo in nato Uredite nastavitve spajanja.
V podoknu Nastavitve spajanja :
Izberite eno od treh možnosti, da določite, kateri zapis obdržati, če je najden dvojnik:
- Najbolj zapolnjen: Označi zapis z največ zapolnjenimi stolpci kot zmagovalni zapis. To je privzeta možnost spajanja.
- Najnovejši: Identificira zmagovalni zapis na podlagi najnovejšega. Zahteva datum ali številsko polje za določitev najnovejše izkušnje.
- Najmanj nedavni: Identificira zmagovalni zapis na podlagi najmanjše nedavnosti. Zahteva datum ali številsko polje za določitev najnovejše izkušnje.
Če je rezultat izenačen, je zmagovalni zapis tisti z MAX(PK) ali večjo vrednostjo primarnega ključa.
Če želite določiti nastavitve združevanja za posamezne stolpce tabele, lahko izberete Napredno na dnu podokna. Izberete lahko na primer, da obdržite najnovejšo e-pošto IN najpopolnejši naslov iz različnih zapisov. Razširite tabelo, da vidite vse njene stolpce in določite, katero možnost uporabiti za posamezne stolpce. Če izberete možnost, ki temelji na nedavnosti, morate določiti tudi polje za datum/čas, ki določa nedavnost.
Izberite Končano , da uporabite svoje nastavitve spajanja.
Ko določite pravila za odstranjevanje podvojitev in nastavitve spajanja, izberite Naprej.