Dijeli putem


Najbolje prakse za objedinjavanje podataka

Kada postavljate pravila za objedinjavanje podataka u korisnički profil, uzmite u obzir ove najbolje primjere iz prakse:

  • Uravnotežite vrijeme za ujedinjenje i potpuno podudaranje. Pokušaj snimanja svakog mogućeg podudaranja dovodi do mnogih pravila i ujedinjenja koja traju dugo.

  • Postupno dodajte pravila i pratite rezultate. Uklonite pravila koja ne poboljšavaju rezultat utakmice.

  • Deduplicirajte svaku tablicu tako da je svaki klijent predstavljen u jednom retku.

  • Koristite normalizaciju za standardizaciju varijacija u načinu unosa podataka, kao što su Street vs. St vs. St. vs. st.

  • Koristite neizrazito podudaranje strateški za ispravljanje pogrešaka pri upisu i pogrešaka kao što su bob@contoso.com i bob@contoso.cm. Nejasnim podudaranjima potrebno je više vremena nego točnim podudaranjima. Uvijek testirajte je li dodatno vrijeme provedeno na nejasnom podudaranju vrijedno dodatne stope podudaranja.

  • Suzite opseg podudaranja s točnim podudaranjem. Provjerite ima li svako pravilo s neizrazitim uvjetima barem jedan točan uvjet podudaranja.

  • Nemojte podudarati stupce koji sadrže podatke koji se često ponavljaju. Provjerite da se u stupcima s nejasno podudaranjem vrijednosti ne ponavljaju često, kao što je zadana vrijednost obrasca "Ime".

Performanse objedinjavanja

Za svako pravilo potrebno je vrijeme da se pokrene. Obrasci kao što je usporedba svake tablice sa svakom drugom tablicom ili pokušaj snimanja svakog mogućeg podudaranja zapisa mogu dovesti do dugog vremena obrade objedinjavanja. Također vraća nekoliko ili više podudaranja u odnosu na plan koji uspoređuje svaku tablicu s osnovnom tablicom.

Najbolji pristup je započeti s osnovnim skupom pravila za koja znate da su potrebna, kao što je usporedba svake tablice s primarnom tablicom. Primarna tablica trebala bi biti tablica s najpotpunijim i najtočnijim podacima. Ovu tablicu treba poredati na vrhu u korak objedinjavanja pravila podudaranja.

Postupno dodajte nekoliko pravila i pogledajte koliko je vremena potrebno da se promjene pokrenu i hoće li se vaši rezultati poboljšati. Idite na Postavke>Status>sustava i odaberite Podudaranje da biste vidjeli koliko je vremena trajalo deduplikacija i podudaranje za svako pokretanje objedinjavanja.

Snimka zaslona stranice Status koja prikazuje vrijeme izvođenja utakmice.

Pregledajte statistiku pravila na stranicama Pravila uklanjanja dupliciranja i Pravila podudaranja da biste vidjeli mijenja li se broj jedinstvenih zapisa . Ako se novo pravilo podudara s nekim zapisima, a jedinstveni broj zapisa se ne promijeni, tada je prethodno pravilo identificiralo ta podudaranja.

Snimka zaslona stranice Pravila podudaranja na kojoj se ističu jedinstveni zapisi.

Uklanjanje dupliciranja

Koristite pravila uklanjanja dupliciranih zapisa klijenata unutar tablice tako da jedan redak u svakoj tablici predstavlja svakog klijenta. Dobro pravilo identificira jedinstvenog kupca.

U ovom jednostavnom primjeru zapisi 1, 2 i 3 dijele e-poštu ili telefon i predstavljaju istu osobu.

ID Ime/naziv telefona E-adresa
1 Osoba 1 (425) 555-1111 AAA@A.com
2 Osoba 1 (425) 555-1111 BBB@B.com
3 Osoba 1 (425) 555-2222 BBB@B.com
4 Osoba 2 (206) 555-9999 Person2@contoso.com

Ne želimo se podudarati samo po imenu jer bi to odgovaralo različitim ljudima s istim imenom.

  • Stvorite pravilo 1 koristeći Ime i telefon, koje odgovara zapisima 1 i 2.

  • Stvorite pravilo 2 pomoću imena i e-pošte, koje odgovara zapisima 2 i 3.

Kombinacija pravila 1 i pravila 2 stvara jednu grupu podudaranja jer dijele zapis 2.

Vi odlučujete o broju pravila i uvjetima koji jedinstveno identificiraju vaše klijente. Točna pravila ovise o podacima koje imate na raspolaganju za podudaranje, kvaliteti vaših podataka i tome koliko iscrpan želite da proces deduplikacije bude.

Pobjednik i alternativni rekordi

Nakon pokretanja pravila i identificiranja dupliciranih zapisa, postupak deduplikacije odabire "redak pobjednika". Redovi koji nisu pobjednici nazivaju se "Alternativni redovi". Zamjenski reci koriste se u koraku objedinjavanja pravila podudaranja za usklađivanje zapisa s drugih tablica s pobjedničkim redom. Redovi se podudaraju s podacima u zamjenskim redovima uz pobjednički redak.

Nakon što dodate pravilo u tablicu, možete konfigurirati koji ćete redak odabrati kao pobjednički redak putem postavki spajanja. Postavke spajanja postavljaju se po tablici. Bez obzira na odabrano pravilo spajanja, ako postoji izjednačenje za redak pobjednika, tada se prvi redak u redoslijedu podataka koristi kao izjednačenje.

Normalizacija

Koristite normalizaciju za standardizaciju podataka radi boljeg podudaranja. Normalizacija se dobro ponaša na velikim skupovima podataka.

Normalizirani podaci koriste se samo u svrhu usporedbe kako bi se učinkovitije uskladili zapisi klijenata. Ne mijenja podatke u konačnom izlasku objedinjenog profila klijenta.

Normalizacija Primjeri
Brojke Pretvara mnoge Unicode simbole koji predstavljaju brojeve u jednostavne brojeve.
Primjeri: ❽ i VIII. su oboje normalizirani na broj 8.
Napomena: Simboli moraju biti kodirani u Unicode Point formatu.
Simboli Uklanja simbole i posebne znakove.
Primjeri: !?" #$%&'( )+,.-/:;<=@>^~{}'[ ]
Tekst u mala slova Pretvara velika slova u mala slova. 
Primjer: "OVO je EXamplE" pretvara se u "ovo je primjer"
Vrsta – Telefon Pretvara telefone u različitim formatima u znamenke i uzima u obzir varijacije u načinu prikaza kodova zemalja i proširenja. 
Primjer: +01 425.555.1212 = 1 (425) 555-1212
Vrsta - Ime Pretvara više od 500 uobičajenih varijacija imena i naslova. 
Primjeri: "debby" -> "deborah" "prof" i "profesor" -> "prof."
Vrsta - Adresa Pretvara uobičajene dijelove adresa
Primjeri: "ulica" -> "st" i "sjeverozapad" -> "nw"
Vrsta - organizacija Uklanja oko 50 naziva tvrtke "riječi buke" kao što su "co", "corp", "corporation" i "ltd".
Unicode u ASCII Pretvara Unicode znakove u njihov ASCII ekvivalent slova
Primjer: znakovi 'à', 'á', 'â', 'À', 'Á', 'Â', 'Ã', 'Ä', 'Ⓐ,' i 'A' pretvaraju se u 'a'.
Razmaknica Uklanja sav razmak
Mapiranje pseudonima Omogućuje vam prijenos prilagođenog popisa parova nizova koji se zatim mogu koristiti za označavanje nizova koji bi se uvijek trebali smatrati točnim podudaranjem. 
Koristite mapiranje aliasa kada imate određene primjere podataka za koje mislite da bi se trebali podudarati, a ne podudaraju se pomoću jednog od drugih uzoraka normalizacije. 
Primjer: Scott i Scooter ili MSFT i Microsoft.
Prilagođeno zaobilaženje Omogućuje vam prijenos prilagođenog popisa nizova koji se zatim mogu koristiti za označavanje nizova koji se nikada ne bi trebali podudarati.
Prilagođeno zaobilaženje korisno je kada imate podatke koji imaju uobičajene vrijednosti koje treba zanemariti, kao što je lažni telefonski broj ili lažna e-pošta. 
Primjer: Nikada ne podudarajte telefon 555-1212 ili test@contoso.com

Točno podudaranje

Koristite preciznost kako biste odredili koliko bi dvije žice trebale biti blizu da bi se smatrale podudaranjem. Zadana postavka preciznosti zahtijeva točno podudaranje. Bilo koja druga vrijednost omogućuje neizrazito podudaranje za taj uvjet.

Preciznost se može postaviti na nisku (30% podudaranja), srednju (60% podudaranja) i visoku (80% podudaranja). Ili možete prilagoditi i postaviti preciznost u koracima od 1%.

Uvjeti točnog podudaranja

Točni uvjeti podudaranja prvo se pokreću kako bi se dobio manji skup vrijednosti za neizrazito podudaranje. Da bi bili učinkoviti, točni uvjeti podudaranja trebali bi imati razuman stupanj jedinstvenosti. Na primjer, ako svi vaši klijenti žive u istoj zemlji, točno podudaranje zemlje ne bi pomoglo u sužavanju opsega.

Stupci kao što su polja s punim imenom, e-poštom, telefonom ili adresom imaju dobru jedinstvenost i izvrsni su stupci za korištenje kao točno podudaranje.

Osigurajte da stupac koji koristite za uvjet točnog podudaranja nema vrijednosti koje se često ponavljaju, kao što je zadana vrijednost "Ime" koju bilježi obrazac. Uvidi kupaca mogu profilirati stupce podataka kako bi pružili uvid u najčešće ponavljajuće vrijednosti. Možete omogućiti profiliranje podataka na Azure Data Lake (koristeći Common Data Model ili Delta format) veze i Synapse. Podatkovni profil pokreće se prilikom sljedećeg osvježavanja izvora podataka. Dodatne informacije potražite u članku Profiliranje podataka.

Neizrazito podudaranje

Koristite neizrazito podudaranje za podudaranje nizova koji su blizu, ali nisu točni zbog pravopisnih pogrešaka ili drugih malih varijacija. Koristite neizrazito podudaranje strateški jer je sporije od točnih podudaranja. Provjerite je li barem jedan točno uvjet podudaranja u bilo kojem pravilu koje ima neizrazite uvjete.

Nejasno podudaranje nije namijenjeno hvatanju varijacija imena kao što su Suzzie i Suzanne. Te se varijacije bolje bilježe pomoću uzorka normalizacije Vrsta: Naziv ili prilagođenog podudaranja aliasa gdje korisnici mogu unijeti vlastiti popis varijacija imena koje žele smatrati podudarnima.

Pravilu možete dodati uvjete, kao što su podudaranje Ime i Telefon. Uvjeti unutar određenog pravila su uvjeti "I"; Svaki uvjet mora se podudarati da bi se redovi podudarali. Ali odvojena pravila su "ILI" uvjeti. Ako se pravilo 1 ne podudara s redovima, tada se redovi uspoređuju s pravilom 2.

Napomena

Samo stupci vrste podataka niza mogu koristiti neizrazito podudaranje. Za stupce s drugim vrstama podataka, kao što su cijeli broj, dvostruko ili datum i vrijeme, polje preciznosti postavljeno je na točno podudaranje i samo je za čitanje.

Izračuni neizrazitog podudaranja

Neizrazita podudaranja se postižu izračunavanjem rezultata udaljenosti uređivanja za dvije žice. Ako rezultat zadovoljava ili premašuje prag preciznosti, tada se žice smatraju podudaranjem.

Udaljenost uređivanja je broj uređivanja potrebnih za pretvaranje jednog niza u drugi dodavanjem, brisanjem ili promjenom znaka.

Na primjer, nizovi "Jacqueline" i "Jaclyne" imaju udaljenost uređivanja od pet kada uklonimo znakove q, u, e, i i e i umetnemo znak y.

Osnovni izračun za određivanje rezultata udaljenosti uređivanja je: (Osnovna duljina niza – Uredi udaljenost) / Osnovna duljina žice.

Osnovni niz Usporedni niz Rezultat
Jacqueline Jaclyne (10-4)/10=.6
fred@contoso.com fred@contso.cm (14-2) / 14 = 0,857
Franklin otvoren (8-3) / 8 = 0,625