Osvedčené postupy zjednotenia údajov

Článok
07/23/2024

Pri nastavovaní pravidiel na zjednotenie údajov do profilu zákazníka zvážte tieto osvedčené postupy:

Zostatok času na zjednotenie vs. kompletné párovanie. Pokus zachytiť každú možnú zhodu vedie k tomu, že veľa pravidiel a zjednotenie trvá dlho.
Postupne pridávajte pravidlá a sledujte výsledky. Odstráňte pravidlá, ktoré nezlepšujú výsledok zápasu.
Deduplikujte každú tabuľku , aby bol každý zákazník zastúpený v jednom riadku.
Použite normalizáciu na štandardizáciu variácií v spôsobe zadávania údajov, ako napríklad ulica vs. ul. vs. ul. vs.
Použite fuzzy párovanie strategicky na opravu preklepov a chýb ako napríklad bob@contoso.com a bob@contoso.cm. Fuzzy zhody trvajú dlhšie ako presné zhody. Vždy otestujte, či čas navyše strávený fuzzy párovaním stojí za dodatočnú mieru zhody.
Zúžte rozsah zhôd pomocou presnej zhody. Uistite sa, že každé pravidlo s nejasnými podmienkami má aspoň jednu podmienku presnej zhody.
Nepriraďujte stĺpce, ktoré obsahujú často sa opakujúce údaje. Uistite sa, že v stĺpcoch s fuzzy zhodou sa často neopakujú hodnoty, ako je napríklad predvolená hodnota formulára „Krstné meno“.

Výkon zjednotenia

Každé pravidlo trvá nejaký čas, kým sa spustí. Vzory ako porovnávanie každej tabuľky s každou inou tabuľkou alebo pokus o zachytenie každej možnej zhody záznamov môžu viesť k dlhým časom spracovania zjednotenia. Vracia tiež niekoľko, ak vôbec viac, zhôd s plánom, ktorý porovnáva každú tabuľku so základnou tabuľkou.

Najlepší prístup je začať so základným súborom pravidiel, o ktorých viete, že sú potrebné, ako je porovnanie každej tabuľky s vašou primárnou tabuľkou. Vašou primárnou tabuľkou by mala byť tabuľka s najúplnejšími a najpresnejšími údajmi. Táto tabuľka by mala byť usporiadaná v hornej časti zjednotenia pravidiel zhody krok.

Postupne pridajte niekoľko pravidiel a zistite, ako dlho trvá vykonanie zmien a či sa vaše výsledky zlepšia. Prejdite na Nastavenia>Systém>Stav a vyberte Zhoda aby ste videli, ako dlho trvala deduplikácia a párovanie pri každom spustení zjednotenia.

Snímka obrazovky stránky Stav zobrazujúca časy spustenia zápasu.

Pozrite si štatistiku pravidiel na stránkach Pravidlá deduplikácie a Pravidlá zhody a zistite, či počet Jedinečné záznamy zmeny. Ak sa nové pravidlo zhoduje s niektorými záznamami a počet jedinečných záznamov sa nezmení, predchádzajúce pravidlo identifikuje tieto zhody.

Snímka obrazovky stránky s pravidlami zhody so zvýraznením Jedinečných záznamov.

Deduplikácia

Pomocou pravidiel deduplikácie odstráňte duplicitné záznamy zákazníkov v tabuľke tak, aby jeden riadok v každej tabuľke predstavoval každého zákazníka. Dobré pravidlo identifikuje jedinečného zákazníka.

V tomto jednoduchom príklade záznamy 1, 2 a 3 zdieľajú buď e-mail alebo telefónne číslo a predstavujú tú istú osobu.

Identifikátor	Name	telefónne	Email
1	Osoba 1	(425) 555-1111	AAA@A.com
2	Osoba 1	(425) 555-1111	BBB@B.com
3	Osoba 1	(425) 555-2222	BBB@B.com
4	Osoba 2	(206) 555-9999	Person2@contoso.com

Nechceme sa zhodovať len na základe mena, pretože by to znamenalo zhodu rôznych ľudí s rovnakým menom.

Vytvorte pravidlo 1 pomocou mena a telefónu, ktoré zodpovedá záznamom 1 a 2.
Vytvorte pravidlo 2 pomocou mena a e-mailu, ktoré zodpovedá záznamom 2 a 3.

Kombinácia pravidla 1 a pravidla 2 vytvorí jednu zápasovú skupinu, pretože zdieľajú záznam 2.

Vy rozhodujete o počte pravidiel a podmienok, ktoré jednoznačne identifikujú vašich zákazníkov. Presné pravidlá závisia od údajov, ktoré máte k dispozícii na porovnávanie, od kvality vašich údajov a od toho, do akej miery chcete, aby bol proces deduplikácie vyčerpávajúci.

Víťaz a náhradné záznamy

Po spustení pravidiel a identifikácii duplicitných záznamov proces deduplikácie vyberie riadok víťaza. Nevýherné riadky sa nazývajú „Alternatívne riadky“. Alternatívne riadky sa používajú v zjednotení pravidiel zhody krok na priradenie záznamov z iných tabuliek k víťaznému riadku. Riadky sa porovnávajú s údajmi v alternatívnych riadkoch okrem víťazného riadku.

Po pridaní pravidla do tabuľky môžete nakonfigurovať, ktorý riadok sa má vybrať ako víťazný riadok, prostredníctvom Predvoľby zlúčenia. Predvoľby zlúčenia sú nastavené pre každú tabuľku. Bez ohľadu na zvolenú politiku zlúčenia, ak je nerozhodný výsledok pre víťazný riadok, potom sa ako nerozhodný výsledok použije prvý riadok v poradí údajov.

Normalizácia

Použite normalizáciu na štandardizáciu údajov pre lepšiu zhodu. Normalizácia funguje dobre na veľkých súboroch údajov.

Normalizované údaje sa používajú iba na účely porovnania, aby sa efektívnejšie porovnávali záznamy zákazníkov. Nezmení údaje v konečnom výstupe jednotného zákazníckeho profilu.

Normalizácia	Príklady
Číslice	Konvertuje mnoho Unicode symbolov, ktoré predstavujú čísla, na jednoduché čísla. Príklady: ❽ a Ⅷ sú normalizované na číslo 8. Poznámka: Symboly musia byť zakódované vo formáte bodu Unicode.
Symboly	Odstraňuje symboly a špeciálne znaky. Príklady: !?"#$%&'( )+,.-/:;<=>@^~{}`[ ]
Text na malé písmená	Skonvertuje veľké písmená na malé. Príklad: „THIS Is aN EXamplE“ sa skonvertuje na „toto je príklad“
Typ – telefón	Konvertuje telefóny v rôznych formátoch na číslice a zohľadňuje variácie v spôsobe prezentácie kódov krajín a rozšírení. Príklad: +01 425.555.1212 = 1 (425) 555-1212
Typ - Názov	Konvertuje viac ako 500 bežných variácií mien a názvov. Príklady: "debby" -> "deborah" "prof" a "profesor" -> "Prof."
Typ - Adresa	Konvertuje bežné časti adries Príklady: "ulica" -> "st" a "severozápad" -> "nw"
Typ - Organizácia	Odstráni približne 50 „hlukových slov“ názvov spoločností, ako sú „co“, „corp“, „corporation“ a „ltd“.
Kódovanie Unicode na ASCII	Konvertuje znaky Unicode na ekvivalent písmen ASCII Príklad: Znaky 'à,' 'á, 'â,' 'À, 'Á, 'Â, 'Ã, 'Ä, 'Ⓐ a 'Ａ' sú všetky skonvertované na 'a .'
Prázdny znak	Odstráni všetky biele miesta
Mapovanie aliasu	Umožňuje vám nahrať vlastný zoznam párov reťazcov, ktoré potom možno použiť na označenie reťazcov, ktoré by sa mali vždy považovať za presnú zhodu. Ak máte konkrétne príklady údajov, o ktorých si myslíte, že by sa mali zhodovať, použite alias mapovanie a nie sú priradené pomocou žiadneho z iných vzorov normalizácie. Príklad: Scott a Scooter alebo MSFT a Microsoft.
Vlastné obídenie	Umožňuje vám nahrať vlastný zoznam reťazcov, ktoré potom možno použiť na označenie reťazcov, ktoré by sa nikdy nemali zhodovať. Vlastné vynechanie je užitočné, keď máte údaje s bežnými hodnotami, ktoré by ste mali ignorovať, ako napríklad falošné telefónne číslo alebo falošný e-mail. Príklad: Nikdy sa nezhodujte s telefónom 555-1212, alebo test@contoso.com

Presná zhoda

Použite presnosť na určenie toho, ako blízko by mali byť dva reťazce, aby sa považovali za zhodu. Predvolené nastavenie presnosti vyžaduje presnú zhodu. Akákoľvek iná hodnota umožňuje fuzzy párovanie pre danú podmienku.

Presnosť možno nastaviť na nízku (30 % zhoda), strednú (60 % zhodu) a vysokú (80 % zhodu). Alebo si môžete prispôsobiť a nastaviť presnosť v krokoch po 1 %.

Presné podmienky zápasu

Najprv sa spustia presné podmienky zhody, aby sa získala menšia množina hodnôt pre fuzzy zhody. Aby boli podmienky presnej zhody účinné, mali by mať primeraný stupeň jedinečnosti. Ak napríklad všetci vaši zákazníci žijú v rovnakej krajine/regióne, potom by presná zhoda pre krajinu/región nepomohla zúžiť rozsah.

Stĺpce ako celé meno, e-mail, telefón alebo pole s adresou majú dobrú jedinečnosť a sú skvelé na použitie ako presná zhoda.

Uistite sa, že stĺpec, ktorý používate pre podmienku presnej zhody, neobsahuje žiadne hodnoty, ktoré sa často opakujú, ako napríklad predvolenú hodnotu „Krstné meno“ zachytenú formulárom. Štatistiky zákazníkov môžu profilovať stĺpce údajov, aby poskytli prehľad o najčastejšie sa opakujúcich hodnotách. Môžete povoliť profilovanie údajov na pripojeniach Azure Data Lake (pomocou formátu Common Data Model alebo Delta) a Synapse. Dátový profil sa spustí pri ďalšom obnovení zdroj údajov. Ďalšie informácie nájdete na Profilovanie údajov.

Fuzzy párovanie

Použite fuzzy párovanie na priradenie reťazcov, ktoré sú blízko, ale nie sú presné z dôvodu preklepov alebo iných malých variácií. Rozmazané zhody používajte strategicky, pretože je pomalšie ako presné zhody. Uistite sa, že v každom pravidle, ktoré obsahuje nejasné podmienky, je aspoň jedna podmienka presnej zhody.

Fuzzy párovanie nie je určené na zachytenie variácií mien ako Suzzie a Suzanne. Tieto variácie sú lepšie zachytené vzorom normalizácie Typ: Názov alebo vlastným Zhoda aliasov kde môžu zákazníci zadať svoje zoznam variácií mien, ktoré chcú považovať za zhody.

K pravidlu môžete pridať podmienky, ako je zhoda mena a telefónu. Podmienky v rámci daného pravidla sú podmienky „A“. Každá podmienka sa musí zhodovať, aby sa riadky zhodovali. Samostatnými pravidlami sú podmienky „ALEBO“. Ak sa pravidlo 1 nezhoduje s riadkami, potom sa riadky porovnajú s pravidlom 2.

Poznámka

Iba stĺpce typu údajov typu reťazec môžu používať fuzzy párovanie. Pre stĺpce s inými typmi údajov, ako je celé číslo, dvojité číslo alebo dátum a čas, je pole presnosti len na čítanie a je nastavené na presnú zhodu.

Fuzzy párovacie výpočty

Fuzzy zhody sa určujú výpočtom skóre upravovanej vzdialenosti medzi dvoma reťazcami. Ak skóre dosiahne alebo prekročí prah presnosti, reťazce sa považujú za zhodu.

Vzdialenosť úprav je počet úprav potrebných na premenu jedného reťazca na druhý pridaním, odstránením alebo zmenou znaku.

Napríklad reťazce „Jacqueline“ a „Jaclyne“ majú vzdialenosť úprav päť, keď odstránime znaky q, u, e, i a e a vložíme znak y.

Na výpočet skóre upravovanej vzdialenosti použite tento vzorec: (Dĺžka základného reťazca – Upraviť vzdialenosť) / Dĺžka základného reťazca.

Základný reťazec	Porovnávací reťazec	Skóre
Jacqueline	Jaclyne	(10-4)/10 = 0,6
fred@contoso.com	fred@contso.cm	(14-2)/14 = 0,857
franklin	úprimný	(8-3)/8 = 0,625

Zdieľať cez