Osvedčené postupy zjednotenia údajov
Pri nastavovaní pravidiel na zjednotenie údajov do profilu zákazníka zvážte tieto osvedčené postupy:
Zostatok času na zjednotenie vs. kompletné párovanie. Pokus zachytiť každú možnú zhodu vedie k tomu, že veľa pravidiel a zjednotenie trvá dlho.
Postupne pridávajte pravidlá a sledujte výsledky. Odstráňte pravidlá, ktoré nezlepšujú výsledok zápasu.
Deduplikujte každú tabuľku , aby bol každý zákazník zastúpený v jednom riadku.
Použite normalizáciu na štandardizáciu variácií v spôsobe zadávania údajov, ako napríklad ulica vs. ul. vs. ul. vs.
Použite fuzzy párovanie strategicky na opravu preklepov a chýb ako napríklad bob@contoso.com a bob@contoso.cm. Fuzzy zhody trvajú dlhšie ako presné zhody. Vždy otestujte, či čas navyše strávený fuzzy párovaním stojí za dodatočnú mieru zhody.
Zúžte rozsah zhôd pomocou presnej zhody. Uistite sa, že každé pravidlo s nejasnými podmienkami má aspoň jednu podmienku presnej zhody.
Nepriraďujte stĺpce, ktoré obsahujú často sa opakujúce údaje. Uistite sa, že v stĺpcoch s fuzzy zhodou sa často neopakujú hodnoty, ako je napríklad predvolená hodnota formulára „Krstné meno“.
Výkon zjednotenia
Každé pravidlo trvá nejaký čas, kým sa spustí. Vzory ako porovnávanie každej tabuľky s každou inou tabuľkou alebo pokus o zachytenie každej možnej zhody záznamov môžu viesť k dlhým časom spracovania zjednotenia. Vracia tiež niekoľko, ak vôbec viac, zhôd s plánom, ktorý porovnáva každú tabuľku so základnou tabuľkou.
Najlepší prístup je začať so základným súborom pravidiel, o ktorých viete, že sú potrebné, ako je porovnanie každej tabuľky s vašou primárnou tabuľkou. Vašou primárnou tabuľkou by mala byť tabuľka s najúplnejšími a najpresnejšími údajmi. Táto tabuľka by mala byť usporiadaná v hornej časti zjednotenia pravidiel zhody krok.
Postupne pridajte niekoľko pravidiel a zistite, ako dlho trvá vykonanie zmien a či sa vaše výsledky zlepšia. Prejdite na Nastavenia>Systém>Stav a vyberte Zhoda aby ste videli, ako dlho trvala deduplikácia a párovanie pri každom spustení zjednotenia.
Pozrite si štatistiku pravidiel na stránkach Pravidlá deduplikácie a Pravidlá zhody a zistite, či počet Jedinečné záznamy zmeny. Ak sa nové pravidlo zhoduje s niektorými záznamami a počet jedinečných záznamov sa nezmení, predchádzajúce pravidlo identifikuje tieto zhody.
Deduplikácia
Pomocou pravidiel deduplikácie odstráňte duplicitné záznamy zákazníkov v tabuľke tak, aby jeden riadok v každej tabuľke predstavoval každého zákazníka. Dobré pravidlo identifikuje jedinečného zákazníka.
V tomto jednoduchom príklade záznamy 1, 2 a 3 zdieľajú buď e-mail alebo telefónne číslo a predstavujú tú istú osobu.
Identifikátor | Name | telefónne | |
---|---|---|---|
1 | Osoba 1 | (425) 555-1111 | AAA@A.com |
2 | Osoba 1 | (425) 555-1111 | BBB@B.com |
3 | Osoba 1 | (425) 555-2222 | BBB@B.com |
4 | Osoba 2 | (206) 555-9999 | Person2@contoso.com |
Nechceme sa zhodovať len na základe mena, pretože by to znamenalo zhodu rôznych ľudí s rovnakým menom.
Vytvorte pravidlo 1 pomocou mena a telefónu, ktoré zodpovedá záznamom 1 a 2.
Vytvorte pravidlo 2 pomocou mena a e-mailu, ktoré zodpovedá záznamom 2 a 3.
Kombinácia pravidla 1 a pravidla 2 vytvorí jednu zápasovú skupinu, pretože zdieľajú záznam 2.
Vy rozhodujete o počte pravidiel a podmienok, ktoré jednoznačne identifikujú vašich zákazníkov. Presné pravidlá závisia od údajov, ktoré máte k dispozícii na porovnávanie, od kvality vašich údajov a od toho, do akej miery chcete, aby bol proces deduplikácie vyčerpávajúci.
Víťaz a náhradné záznamy
Po spustení pravidiel a identifikácii duplicitných záznamov proces deduplikácie vyberie riadok víťaza. Nevýherné riadky sa nazývajú „Alternatívne riadky“. Alternatívne riadky sa používajú v zjednotení pravidiel zhody krok na priradenie záznamov z iných tabuliek k víťaznému riadku. Riadky sa porovnávajú s údajmi v alternatívnych riadkoch okrem víťazného riadku.
Po pridaní pravidla do tabuľky môžete nakonfigurovať, ktorý riadok sa má vybrať ako víťazný riadok, prostredníctvom Predvoľby zlúčenia. Predvoľby zlúčenia sú nastavené pre každú tabuľku. Bez ohľadu na zvolenú politiku zlúčenia, ak je nerozhodný výsledok pre víťazný riadok, potom sa ako nerozhodný výsledok použije prvý riadok v poradí údajov.
Normalizácia
Použite normalizáciu na štandardizáciu údajov pre lepšiu zhodu. Normalizácia funguje dobre na veľkých súboroch údajov.
Normalizované údaje sa používajú iba na účely porovnania, aby sa efektívnejšie porovnávali záznamy zákazníkov. Nezmení údaje v konečnom výstupe jednotného zákazníckeho profilu.
Normalizácia | Príklady |
---|---|
Číslice | Konvertuje mnoho Unicode symbolov, ktoré predstavujú čísla, na jednoduché čísla. Príklady: ❽ a Ⅷ sú normalizované na číslo 8. Poznámka: Symboly musia byť zakódované vo formáte bodu Unicode. |
Symboly | Odstraňuje symboly a špeciálne znaky. Príklady: !?"#$%&'( )+,.-/:;<=>@^~{}`[ ] |
Text na malé písmená | Skonvertuje veľké písmená na malé. Príklad: „THIS Is aN EXamplE“ sa skonvertuje na „toto je príklad“ |
Typ – telefón | Konvertuje telefóny v rôznych formátoch na číslice a zohľadňuje variácie v spôsobe prezentácie kódov krajín a rozšírení. Príklad: +01 425.555.1212 = 1 (425) 555-1212 |
Typ - Názov | Konvertuje viac ako 500 bežných variácií mien a názvov. Príklady: "debby" -> "deborah" "prof" a "profesor" -> "Prof." |
Typ - Adresa | Konvertuje bežné časti adries Príklady: "ulica" -> "st" a "severozápad" -> "nw" |
Typ - Organizácia | Odstráni približne 50 „hlukových slov“ názvov spoločností, ako sú „co“, „corp“, „corporation“ a „ltd“. |
Kódovanie Unicode na ASCII | Konvertuje znaky Unicode na ekvivalent písmen ASCII Príklad: Znaky 'à,' 'á, 'â,' 'À, 'Á, 'Â, 'Ã, 'Ä, 'Ⓐ a 'A' sú všetky skonvertované na 'a .' |
Prázdny znak | Odstráni všetky biele miesta |
Mapovanie aliasu | Umožňuje vám nahrať vlastný zoznam párov reťazcov, ktoré potom možno použiť na označenie reťazcov, ktoré by sa mali vždy považovať za presnú zhodu. Ak máte konkrétne príklady údajov, o ktorých si myslíte, že by sa mali zhodovať, použite alias mapovanie a nie sú priradené pomocou žiadneho z iných vzorov normalizácie. Príklad: Scott a Scooter alebo MSFT a Microsoft. |
Vlastné obídenie | Umožňuje vám nahrať vlastný zoznam reťazcov, ktoré potom možno použiť na označenie reťazcov, ktoré by sa nikdy nemali zhodovať. Vlastné vynechanie je užitočné, keď máte údaje s bežnými hodnotami, ktoré by ste mali ignorovať, ako napríklad falošné telefónne číslo alebo falošný e-mail. Príklad: Nikdy sa nezhodujte s telefónom 555-1212, alebo test@contoso.com |
Presná zhoda
Použite presnosť na určenie toho, ako blízko by mali byť dva reťazce, aby sa považovali za zhodu. Predvolené nastavenie presnosti vyžaduje presnú zhodu. Akákoľvek iná hodnota umožňuje fuzzy párovanie pre danú podmienku.
Presnosť možno nastaviť na nízku (30 % zhoda), strednú (60 % zhodu) a vysokú (80 % zhodu). Alebo si môžete prispôsobiť a nastaviť presnosť v krokoch po 1 %.
Presné podmienky zápasu
Najprv sa spustia presné podmienky zhody, aby sa získala menšia množina hodnôt pre fuzzy zhody. Aby boli podmienky presnej zhody účinné, mali by mať primeraný stupeň jedinečnosti. Ak napríklad všetci vaši zákazníci žijú v rovnakej krajine/regióne, potom by presná zhoda pre krajinu/región nepomohla zúžiť rozsah.
Stĺpce ako celé meno, e-mail, telefón alebo pole s adresou majú dobrú jedinečnosť a sú skvelé na použitie ako presná zhoda.
Uistite sa, že stĺpec, ktorý používate pre podmienku presnej zhody, neobsahuje žiadne hodnoty, ktoré sa často opakujú, ako napríklad predvolenú hodnotu „Krstné meno“ zachytenú formulárom. Štatistiky zákazníkov môžu profilovať stĺpce údajov, aby poskytli prehľad o najčastejšie sa opakujúcich hodnotách. Môžete povoliť profilovanie údajov na pripojeniach Azure Data Lake (pomocou formátu Common Data Model alebo Delta) a Synapse. Dátový profil sa spustí pri ďalšom obnovení zdroj údajov. Ďalšie informácie nájdete na Profilovanie údajov.
Fuzzy párovanie
Použite fuzzy párovanie na priradenie reťazcov, ktoré sú blízko, ale nie sú presné z dôvodu preklepov alebo iných malých variácií. Rozmazané zhody používajte strategicky, pretože je pomalšie ako presné zhody. Uistite sa, že v každom pravidle, ktoré obsahuje nejasné podmienky, je aspoň jedna podmienka presnej zhody.
Fuzzy párovanie nie je určené na zachytenie variácií mien ako Suzzie a Suzanne. Tieto variácie sú lepšie zachytené vzorom normalizácie Typ: Názov alebo vlastným Zhoda aliasov kde môžu zákazníci zadať svoje zoznam variácií mien, ktoré chcú považovať za zhody.
K pravidlu môžete pridať podmienky, ako je zhoda mena a telefónu. Podmienky v rámci daného pravidla sú podmienky „A“. Každá podmienka sa musí zhodovať, aby sa riadky zhodovali. Samostatnými pravidlami sú podmienky „ALEBO“. Ak sa pravidlo 1 nezhoduje s riadkami, potom sa riadky porovnajú s pravidlom 2.
Poznámka
Iba stĺpce typu údajov typu reťazec môžu používať fuzzy párovanie. Pre stĺpce s inými typmi údajov, ako je celé číslo, dvojité číslo alebo dátum a čas, je pole presnosti len na čítanie a je nastavené na presnú zhodu.
Fuzzy párovacie výpočty
Fuzzy zhody sa určujú výpočtom skóre upravovanej vzdialenosti medzi dvoma reťazcami. Ak skóre dosiahne alebo prekročí prah presnosti, reťazce sa považujú za zhodu.
Vzdialenosť úprav je počet úprav potrebných na premenu jedného reťazca na druhý pridaním, odstránením alebo zmenou znaku.
Napríklad reťazce „Jacqueline“ a „Jaclyne“ majú vzdialenosť úprav päť, keď odstránime znaky q, u, e, i a e a vložíme znak y.
Na výpočet skóre upravovanej vzdialenosti použite tento vzorec: (Dĺžka základného reťazca – Upraviť vzdialenosť) / Dĺžka základného reťazca.
Základný reťazec | Porovnávací reťazec | Skóre |
---|---|---|
Jacqueline | Jaclyne | (10-4)/10 = 0,6 |
fred@contoso.com | fred@contso.cm | (14-2)/14 = 0,857 |
franklin | úprimný | (8-3)/8 = 0,625 |