Tietojen yhtenäistämisen parhaat käytännöt
Kun määrität sääntöjä tietojen yhdistämiseksi asiakasprofiiliksi, ota huomioon seuraavat parhaat käytännöt:
Tasapainota yhdistämisaika ja täydellinen vastaavuus. Jokaisen mahdollisen ottelun kaappaaminen johtaa moniin sääntöihin ja yhdistyminen kestää kauan.
Lisää sääntöjä asteittain ja seuraa tuloksia. Poista säännöt, jotka eivät paranna ottelun tulosta.
Poista kunkin taulukon kaksoiskappaleet niin, että jokainen asiakas on edustettuna yhdellä rivillä.
Normalisoinnin avulla voit standardoida tietojen syöttötavan muunnelmia , kuten Katu vs. St. vs. St. vs. st.
Käytä sumeaa vastaavuuksien hakua strategisesti korjataksesi kirjoitusvirheet ja virheet , kuten bob@contoso.com ja bob@contoso.cm. Sumeat ottelut kestävät kauemmin kuin tarkat ottelut. Testaa aina, onko sumeaan vastaavuuksien hakuun käytetty ylimääräinen aika ylimääräisen vastaavuusprosentin arvoinen.
Kavenna osumien laajuutta tarkan vastaavuuden avulla. Varmista, että jokaisella säännöllä, jossa on epämääräisiä ehtoja, on vähintään yksi tarkka vastaavuusehto.
Älä vastaa sarakkeita, jotka sisältävät voimakkaasti toistuvia tietoja. Varmista, että sumeiden vastineiden sarakkeissa ei toisteta usein arvoja, kuten lomakkeen oletusarvoa "Etunimi".
Yhdistämisen suorituskyky
Jokaisen säännön suorittaminen vie aikaa. Kuviot, kuten jokaisen taulukon vertaaminen kaikkiin muihin taulukoihin tai yritys tallentaa kaikki mahdolliset tietuevastaavuudet, voivat johtaa pitkiin yhdistämisen käsittelyaikoihin. Se palauttaa myös vain vähän tai ei lainkaan vastaavuuksia suunnitelmassa, jossa kutakin taulukkoa verrataan perustaulukkoon.
Paras tapa on aloittaa perussäännöillä, joiden tiedät olevan tarpeen, kuten vertaamalla kutakin taulukkoa ensisijaiseen taulukkoon. Ensisijaisen taulukon tulisi olla taulukko, jossa on täydellisimmät ja tarkimmat tiedot. Tämä taulukko on järjestettävä Vastaavuussääntöjen yhdistäminen -vaihe ylimpänä.
Lisää asteittain useita sääntöjä ja katso, kuinka kauan muutosten suorittaminen kestää ja paranevatko tulokset. Siirry Settings System Status (Asetukset ) System Status (>Asetukset) ->kohtaan ja valitse Match nähdäksesi, kuinka kauan deduplikoinnin ja vastaavuuksien poistaminen kesti kullakin yhdistämisajolla.
Tarkastele säännön tilastotietoja Kaksoiskappaleiden poistosäännöt - ja Vastaavuussäännöt -sivuilla nähdäksesi, muuttuuko yksilöllisten tietueiden määrä. Jos uusi sääntö vastaa joitakin tietueita eikä yksilöllinen tietueiden määrä muutu, kyseiset vastaavuudet tunnistetaan aiemmassa säännössä.
Deduplication
Poista kaksoiskappaleiden poistosäännöt asiakastietueiden kaksoiskappaleiden poistamisesta taulukosta siten, että kunkin taulukon yksi rivi edustaa kutakin asiakasta. Hyvä sääntö tunnistaa yksilöllisen asiakkaan.
Tässä yksinkertaisessa esimerkissä tietueet 1, 2 ja 3 jakavat joko sähköpostiosoitteen tai puhelinnumeron ja edustavat samaa henkilöä.
Tunnus | Name | Puhelinnumero | |
---|---|---|---|
1 | Henkilö 1 | (425) 555 1111 | AAA@A.com |
2 | Henkilö 1 | (425) 555 1111 | BBB@B.com |
3 | Henkilö 1 | (425) 555 2222 | BBB@B.com |
4 | Henkilö 2 | (206) 555 9999 | Person2@contoso.com |
Vastaavuutta ei halua tehdä vain nimellä, joka vastaisi eri henkilöitä, joilla on sama nimi.
Luo sääntö 1 käyttämällä Nimi ja puhelin -toimintoa, joka vastaa tietueita 1 ja 2.
Luo sääntö 2 käyttämällä Nimi ja sähköpostiosoite -kohtaa, joka vastaa tietueita 2 ja 3.
Säännön 1 ja säännön 2 yhdistelmä luo yhden vastaavuusryhmän, sillä ne jakavat tietueen 2.
Sinä päätät, kuinka monta sääntöä ja ehtoa asiakkaasi yksilöidään. Tarkat säännöt riippuvat käytettävissä olevista tiedoista, tietojesi laadusta ja siitä, kuinka kattava haluat deduplikaatioprosessin olevan.
Voittavat ja vaihtoehtoiset tietueet
Kun säännöt on suoritettu ja tietueiden kaksoiskappaleet on tunnistettu, deduplikaatioprosessi valitsee voittajarivin. Ei-voittajarivejä kutsutaan vaihtoehtoisiksi riveiksi. Vaihtoehtoisia rivejä käytetään vastaavuussääntöjen yhdistämisessä vaihe muiden pöytien tietueiden yhdistämiseen voittajariviin. Riveille etsitään vastineita vaihtoehtoisten tietojen perusteella voittavan rivin lisäksi.
Kun olet lisännyt säännön taulukkoon, voit määrittää voittajariviksi valittavan rivin yhdistämisasetuksissa. Yhdistämisasetukset määritetään taulukkokohtaisesti. Riippumatta valitusta yhdistämiskäytännöstä, jos voittajarivin tulos on tasan, tietojärjestyksen ensimmäistä riviä käytetään tiebreakerina.
Normalisointi
Käytä normalisointia tietojen standardoimiseen vastaavuuden parantamiseksi. Normalisointi toimii hyvin suurille tietojoukoille.
Normalisoituja tietoja käytetään vain vertailutarkoituksissa, jotta asiakastietojen vastaavuus voidaan määrittää aiempaa paremmin. Se ei muuta tietoja lopullisessa yhdistetyssä asiakasprofiilituloksessa.
Normalisointi | Esimerkkejä |
---|---|
Numerot | Muuntaa monet numeroita edustavat Unicode-symbolit yksinkertaisiksi luvuiksi. Esimerkit:ja VIII. ❽ normalisoidaan molemmat numeroon 8. Huomautus: Symbolit on koodattava Unicode-pistemuodossa. |
Symbolit | Poistaa symbolit ja erikoismerkit. Esimerkit: !?"#$%&'( )+,.-/:;<=>@^~{}`[ ] |
Teksti pienillä kirjaimilla | Muuntaa isot kirjaimet pieniksi kirjaimiksi. Esimerkki: "THIS Is aN EXamplE" muunnetaan muotoon "tämä on esimerkki" |
Tyyppi – Puhelin | Muuntaa eri muodoissa olevat puhelinnumerot numeroiksi ja ottaa huomioon maakoodit ja laajennukset. Esimerkki: +358 9 1234 567 |
Tyyppi – Nimi | Muuntaa yli 500 yleistä nimimuunnelmaa ja otsikkoa. Esimerkit: "debby" -> "deborah" "prof" ja "professori" -> "Prof." |
Tyyppi – Osoite | Muuntaa osoitteiden yleiset osat Esimerkit: "kadunnimi" -> "katu" ja "postilokero" -> "PL" |
Tyyppi – Organisaatio | Poistaa noin 50 yrityksen nimeä "melusanat", kuten "co", "corp", "corporation" ja "ltd". |
ASCII:n Unicode | Muuntaa Unicode-merkit vastaaviksi ASCII-merkeiksi Esimerkki: Merkit à, á, â, À, Á, Â, Ã, Ä, Ⓐ jaAmuunnetaan kaikki a-kirjaimeksi' |
Tyhjä tila | Poistaa kaikki välilyönnit |
Aliaksen yhdistämismääritys | Voit ladata mukautetun merkkijonoparien luettelon, jota käytetään osoittamaan merkkijonoja, joita tulisi aina pitää tarkkoina vastineina. Käytä aliaksen yhdistämismääritystä, jos tiettyjen tietojen esimerkkejä tulisi pitää vastineina, mutta normalisointimallit eivät löydä niitä vastaavuushaussa. Esimerkki: Scott ja Scooter tai MSFT ja Microsoft. |
Mukautettu ohitus | Voit ladata mukautettujen merkkijonojen luettelon, jota käytetään osoittamaan merkkijonoja, joita ei koskaan tule pitää vastineina. Mukautettu ohitus on hyödyllinen, kun sinulla on tietoja, joilla on yleisiä arvoja, jotka tulisi ohittaa, kuten valepuhelinnumero tai valesähköposti. Esimerkki: Älä koskaan vastaa puhelinta 555-1212 tai test@contoso.com |
Tarkka vastaavuus
Määritä tarkkuudella, kuinka lähellä kahta merkkijonoa on oltava, jotta niitä voidaan pitää vastaavina. Tarkkuuden oletusasetus edellyttää tarkkaa vastaavuutta. Mikä tahansa muu arvo mahdollistaa kyseisen ehdon sumeavastaavuuden.
Tarkkuus voidaan asettaa alhaiseksi (vastaavuus 30 %), keskitasoiseksi (vastaavuus 60 %) ja korkeaksi (vastaavuus 80 %). Tai voit mukauttaa ja asettaa tarkkuuden 1%: n välein.
Tarkat otteluehdot
Tarkat otteluehdot suoritetaan ensin, jotta saadaan pienempi arvojoukko sumeille otteluille. Tärmällisten vastaavuusehtojen on oltava suhteellisen yksilöllisiä, jotta ne ovat tehokkaita. Jos esimerkiksi kaikki asiakkaasi asuvat samassa maassa tai samalla alueella, tarkan vastaavuuden saaminen maassa tai alueella ei auta rajaamaan kohdetta.
Sarakkeet, kuten koko nimi-, sähköposti-, puhelin- tai osoitekentät, ovat hyvin yksilöllisiä, ja ne ovat hyviä sarakkeita käytettäväksi tarkkana hakuna.
Varmista, että tarkassa vastaavuusehdossa käyttämässäsi sarakkeessa ei ole usein toistuvia arvoja, kuten lomakkeen tallentamaa oletusarvoa "Etunimi". Customer Insights voi profiloida tietosarakkeita ja antaa merkityksellisiä tietoja eniten toistuvista arvoista. Voit ottaa tietojen profiloinnin käyttöön Azure Data Lake -yhteyksissä (Common Data Model- tai Delta-muodossa) ja Synapsessa. Tietoprofiili suoritetaan, kun tietolähde päivitetään seuraavan kerran. Lisätietoja on kohdassa Tietojen profilointi.
Sumea sovitus
Käytä sumeaa vastaavuuksien hakua sellaisten merkkijonojen vastaavuuteen, jotka ovat lähellä mutta eivät tarkkoja kirjoitusvirheiden tai muiden pienten muunnelmien vuoksi. Käytä sumeaa vastaavuuksien hakua strategisesti, koska se on hitaampaa kuin tarkat vastaavuudet. Varmista, että jokaisessa säännössä, jossa on epämääräisiä ehtoja, on vähintään yksi tarkka vastaavuusehto.
Sumean vastaavuuden ei ole tarkoitus kaapata nimimuunnelmia, kuten Suzzie ja Suzanne. Nämä muunnelmat tallennetaan paremmin normalisointimallin tyypillä: Nimi tai mukautetulla aliaksen vastaavuudella , johon asiakkaat voivat syöttää luettelon nimimuunnelmista, joita he haluavat pitää vastaavina.
Sääntöön voi lisätä ehtoja, kuten vastaavuus etunimen tai puhelinnumeron perusteella. Tietyn säännön ehdot ovat "AND"-ehtoja. Kaikkien ehtojen on täsmättävä, jotta rivit täsmäävät. Erilliset säännöt ovat "TAI" -ehtoja. Jos sääntö 1 ei vastaa rivejä, rivejä verrataan sääntöön 2.
Muistiinpano
Vain merkkijonon tietotyyppiset sarakkeet voivat käyttää sumeaa vastaavuutta. Sarakkeissa, joissa on muita tietotyyppejä, kuten kokonaisluku, kaksinkertainen tai päivämäärä, tarkkuuskenttä on vain luku -muotoinen ja määritetty tarkkaan vastaavuuteen.
Sumean vastaavuuden laskelmat
Sumeat osumat määritetään laskemalla kahden merkkijonon välinen muokkausetäisyyden pistemäärä. Jos pisteet saavuttavat tai ylittävät tarkkuuskynnyksen, merkkijonoja pidetään vastaavina.
Muokkausetäisyys on niiden muokkausten määrä, jotka tarvitaan merkkijonon muuttamiseksi toiseksi lisäämällä, poistamalla tai muuttamalla merkkiä.
Esimerkiksi merkkijonojen "Jacqueline" ja "Jaclyne" muokkausetäisyys on viisi, kun poistamme merkit q, u, e, i ja e ja lisäämme y-merkin.
Voit laskea muokkausetäisyyden pistemäärän käyttämällä seuraavaa kaavaa: (Perusmerkkijonon pituus – Muokkaa etäisyyttä) / Perusmerkkijonon pituus.
Perusmerkkijono | Vertailumerkkijono | Pisteet |
---|---|---|
Jacqueline | Jaclyne | (10–4)/10= 0,6 |
fred@contoso.com | fred@contso.cm | (14-2) / 14 = 0,857 |
franklin | frank | (8-3) / 8 = 0,625 |