Najboljše prakse za poenotenje podatkov

Članek
08/09/2024

Ko nastavite pravila za poenotenje podatkov v profil stranke, upoštevajte te najboljše prakse:

Uravnotežite čas za poenotenje in popolno ujemanje. Poskus zajeti vsako možno tekmo vodi do številnih pravil in poenotenja, ki traja dolgo časa.
Postopoma dodajte pravila in spremljajte rezultate. Odstranite pravila, ki ne izboljšajo rezultata ujemanja.
Odstranite dvojnike vsake tabele tako da je vsaka stranka predstavljena v eni vrstici.
Uporabite normalizacijo za standardizacijo variacij pri tem, kako so bili vneseni podatki, na primer Street vs. St vs. St vs.
Uporabite mehko ujemanje strateško za popravljanje tipkarskih napak in napak kot sta bob@contoso.com in bob@contoso.cm. Mehka ujemanja trajajo dlje kot natančna ujemanja. Vedno preverite, ali je dodatni čas, porabljen za mehko ujemanje, vreden dodatne stopnje ujemanja.
Zožite obseg ujemanj z natančnim ujemanjem. Prepričajte se, da ima vsako pravilo z mehkimi pogoji vsaj en pogoj natančnega ujemanja.
Ne ujemajte se s stolpci, ki vsebujejo pogosto ponavljajoče se podatke. Prepričajte se, da se vrednosti v stolpcih z mehkim ujemanjem ne ponavljajo pogosto, kot je privzeta vrednost obrazca »Ime«.

Uspešnost združevanja

Za izvajanje vsakega pravila je potreben čas. Vzorci, kot je primerjava vsake tabele z vsako drugo tabelo ali poskus zajetja vsakega možnega ujemanja zapisa, lahko povzročijo dolge čase obdelave poenotenja. Prav tako vrne nekaj ujemanj, če sploh kaj več, v načrtu, ki vsako tabelo primerja z osnovno tabelo.

Najboljši pristop je, da začnete z osnovnim nizom pravil, za katera veste, da so potrebna, kot je primerjava vsake tabele z vašo primarno tabelo. Vaša primarna tabela mora biti tabela z najbolj popolnimi in točnimi podatki. Ta tabela mora biti urejena na vrhu v poenotenju pravil ujemanja korak.

Postopoma dodajte več pravil in si oglejte, kako dolgo trajajo spremembe in ali se vaši rezultati izboljšajo. Pojdite na Nastavitve>Sistem>Stanje in izberite Ujemanje da vidite, kako dolgo sta trajala deduplikacija in ujemanje za vsak zagon združevanja.

Posnetek zaslona strani s stanjem, ki prikazuje čase tekem.

Oglejte si statistične podatke o pravilih na straneh Pravila za odstranjevanje dvojnikov in Pravila za ujemanje , da vidite, ali je število Edinstvene evidence spremembe. Če se novo pravilo ujema z nekaterimi zapisi in se enolično število zapisov ne spremeni, potem prejšnje pravilo identificira ta ujemanja.

Posnetek zaslona strani s pravili ujemanja, ki poudarja edinstvene zapise.

Deduplikacija

Uporabite pravila za odstranjevanje dvojnikov, da odstranite podvojene zapise strank v tabeli, tako da posamezna vrstica v vsaki tabeli predstavlja vsako stranko. Dobro pravilo identificira edinstveno stranko.

V tem preprostem primeru imajo zapisi 1, 2 in 3 skupno e-pošto ali telefonsko številko in predstavljajo isto osebo.

ID	Imenu	Telefonska številka	E-poštni naslov
1	Oseba 1	(425) 555-1111	AAA@A.com
2	Oseba 1	(425) 555-1111	BBB@B.com
3	Oseba 1	(425) 555-2222	BBB@B.com
4	Oseba 2	(206) 555-9999	Person2@contoso.com

Ne želimo se ujemati samo po imenu, saj bi se tako ujemali različni ljudje z istim imenom.

Ustvarite pravilo 1 z uporabo imena in telefona, ki se ujema z zapisoma 1 in 2.
Ustvarite pravilo 2 z uporabo imena in e-pošte, ki se ujema z zapisoma 2 in 3.

Kombinacija 1. in 2. pravila ustvari eno skupino ujemanja, ker imata skupen zapis 2.

Vi odločate o številu pravil in pogojev, ki enolično identificirajo vaše stranke. Natančna pravila so odvisna od podatkov, ki jih imate na voljo za ujemanje, kakovosti vaših podatkov in tega, kako izčrpen želite, da je postopek deduplikacije.

Zmagovalec in nadomestni rekordi

Ko so pravila zagnana in so identificirani podvojeni zapisi, postopek deduplikacije izbere »Zmagovalno vrstico«. Nezmagovalne vrste se imenujejo "Nadomestne vrstice." Nadomestne vrstice se uporabljajo v poenotenju pravil ujemanja korak za ujemanje zapisov iz drugih tabel z zmagovalno vrstico. Vrstice se ujemajo s podatki v nadomestnih vrsticah poleg zmagovalne vrstice.

Ko v tabelo dodate pravilo, lahko prek Nastavitve združevanja konfigurirate, katero vrstico želite izbrati kot zmagovalno. Nastavitve spajanja so nastavljene za vsako tabelo. Ne glede na to, kateri pravilnik združevanja je izbran, če je zmagovalna vrstica izenačena, se prva vrstica v vrstnem redu podatkov uporabi kot izločilec izenačenja.

Normalizacija

Uporabite normalizacijo za standardizacijo podatkov za boljše ujemanje. Normalizacija se dobro obnese pri velikih nizih podatkov.

Normalizirani podatki se uporabljajo samo za namene primerjave, da se učinkoviteje ujemajo z zapisi strank. Ne spremeni podatkov v končnem izhodu poenotenega profila stranke.

Normalizacija	Primeri
Številke	Pretvori številne simbole Unicode, ki predstavljajo števila, v preprosta števila. Primeri: ❽ in Ⅷ sta normalizirana na število 8. Opomba: Simboli morajo biti kodirani v obliki točke Unicode.
Simboli	Odstrani simbole in posebne znake. Primeri: !?"#$%&'( )+,.-/:;<=>@^~{}`[ ]
Besedilo v male črke	Pretvori velike črke v male črke. Primer: »TO JE PRIMER« se pretvori v »to je primer«
Vrsta – telefon	Pretvori telefone v različnih formatih v številke in upošteva razlike v tem, kako so predstavljene državne kode in razširitve. Primer: +01 425.555.1212 = 1 (425) 555-1212
Vrsta - ime	Pretvori več kot 500 pogostih različic imen in naslovov. Primeri: "debby" -> "deborah" "prof" in "profesor" -> "Prof."
Vrsta – naslov	Pretvori skupne dele naslovov Primeri: "ulica" -> "st" in "severozahod" -> "nw"
Vrsta - Organizacija	Odstrani okoli 50 "šumnih besed" imena podjetja, kot so "co", "corp", "corporation" in "ltd."
Unicode v ASCII	Pretvori znake Unicode v njihov ekvivalent črk ASCII Primer: znaki 'à,' 'á,' 'â,' 'À,' 'Á,' 'Â,' 'Ã,' 'Ä,' 'Ⓐ,' in 'Ａ' so vsi pretvorjeni v 'a .'
Presledek	Odstrani ves prazen prostor
Preslikava vzdevka	Omogoča nalaganje prilagojenega seznama parov nizov, ki jih je nato mogoče uporabiti za označevanje nizov, ki jih je treba vedno šteti za natančno ujemanje. Uporabite vzdevek preslikava, ko imate določene primere podatkov, za katere menite, da bi se morali ujemati, in se ne ujemajo z enim od drugih vzorcev normalizacije. Primer: Scott in Scooter ali MSFT in Microsoft.
Zaobitje po meri	Omogoča nalaganje seznama nizov po meri, ki se nato lahko uporabijo za označevanje nizov, ki se nikoli ne smejo ujemati. Obhod po meri je uporaben, ko imate podatke s skupnimi vrednostmi, ki jih je treba prezreti, na primer navidezno telefonsko številko ali navidezno e-pošto. Primer: Nikoli ne ujemaj telefona 555-1212, oz test@contoso.com

Natančno ujemanje

Z natančnostjo določite, kako blizu naj bosta dva niza, da se štejeta za ujemanje. Privzeta nastavitev natančnosti zahteva natančno ujemanje. Katera koli druga vrednost omogoča mehko ujemanje za ta pogoj.

Natančnost je mogoče nastaviti na nizko (30 % ujemanje), srednjo (60 % ujemanje) in visoko (80 % ujemanje). Lahko pa prilagodite in nastavite natančnost v korakih po 1 %.

Pogoji natančnega ujemanja

Najprej se izvedejo pogoji natančnega ujemanja, da se pridobi manjši niz vrednosti za mehka ujemanja. Da bi bili pogoji natančnega ujemanja učinkoviti, morajo imeti razumno stopnjo edinstvenosti. Na primer, če vse vaše stranke živijo v isti državi/regiji, potem natančno ujemanje v državi/regiji ne bi pomagalo zožiti obsega.

Stolpci, kot so polja s polnim imenom, e-pošto, telefonsko številko ali naslovom, imajo dobro edinstvenost in so odlični stolpci za uporabo kot natančno ujemanje.

Zagotovite, da stolpec, ki ga uporabljate za pogoj natančnega ujemanja, nima nobenih vrednosti, ki se pogosto ponavljajo, kot je privzeta vrednost »Ime«, ki jo zajame obrazec. Vpogledi strank lahko profilirajo podatkovne stolpce, da zagotovijo vpogled v največje ponavljajoče se vrednosti. Omogočite lahko profiliranje podatkov na povezavah Azure Data Lake (z uporabo skupnega podatkovnega modela ali formata Delta) in Synapse. Podatkovni profil se zažene, ko je vir podatkov naslednjič osvežen. Za več informacij pojdite na Profiliranje podatkov.

Mehko ujemanje

Uporabite mehko ujemanje za ujemanje nizov, ki so blizu, vendar niso natančni zaradi tipkarskih napak ali drugih majhnih variacij. Strateško uporabite mehko ujemanje, saj je počasnejše od natančnih ujemanj. Zagotovite vsaj en pogoj natančnega ujemanja v katerem koli pravilu, ki ima mehke pogoje.

Mehko ujemanje ni namenjeno zajemanju različic imen, kot sta Suzzie in Suzanne. Te različice so bolje zajete z vzorcem normalizacije Type: Name ali prilagojenim Alias matching kamor lahko stranke vnesejo svoje seznam različic imen, ki jih želijo obravnavati kot ujemanja.

Pravilu lahko dodate pogoje, na primer ujemanje FirstName in Phone. Pogoji znotraj danega pravila so pogoji "IN". Vsak pogoj se mora ujemati, da se vrstice ujemajo. Ločena pravila so pogoji "ALI". Če se 1. pravilo ne ujema z vrsticami, se vrstice primerjajo z 2. pravilom.

opomba,

Samo stolpci podatkovnega tipa niz lahko uporabljajo mehko ujemanje. Za stolpce z drugimi vrstami podatkov, kot so celo število, dvojno število ali datum in čas, je polje natančnosti samo za branje in nastavljeno na natančno ujemanje.

Izračuni mehkega ujemanja

Mehka ujemanja se določijo z izračunom ocene razdalje urejanja med dvema nizoma. Če rezultat doseže ali preseže prag natančnosti, se strune štejejo za ujemanje.

Razdalja urejanja je število urejanj, potrebnih za pretvorbo enega niza v drugega z dodajanjem, brisanjem ali spreminjanjem znaka.

Na primer, niza "Jacqueline" in "Jaclyne" imata razdaljo urejanja pet, ko odstranimo znake q, u, e, i in e ter vstavimo znak y.

Za izračun rezultata urejanja razdalje uporabite to formulo: (Osnovna dolžina niza – Uredi razdaljo) / Osnovna dolžina niza.

Osnovni niz	Primerjalni niz	Rezultat
Jacqueline	Jaclyne	(10-4)/10=.6
fred@contoso.com	fred@contso.cm	(14-2) / 14 = 0,857
franklin	odkrito	(8-3) / 8 = 0,625

Deli z drugimi prek