Tietojen yhtenäistämisen parhaat käytännöt
Kun määrität sääntöjä tietojen yhdistämiseksi asiakasprofiiliksi, ota huomioon seuraavat parhaat käytännöt:
Tasapainota yhdistämisaika ja täydellinen vastaavuus. Jokaisen mahdollisen ottelun kaappaaminen johtaa moniin sääntöihin ja yhdistyminen kestää kauan.
Lisää sääntöjä asteittain ja seuraa tuloksia. Poista säännöt, jotka eivät paranna ottelun tulosta.
Poista kunkin taulukon kaksoiskappaleet niin, että jokainen asiakas on edustettuna yhdellä rivillä.
Normalisoinnin avulla voit standardoida tietojen syöttötavan muunnelmia , kuten Katu vs. St. vs. St. vs. st.
Käytä sumeaa vastaavuuksien hakua strategisesti korjataksesi kirjoitusvirheet ja virheet , kuten bob@contoso.com ja bob@contoso.cm. Sumeat ottelut kestävät kauemmin kuin tarkat ottelut. Testaa aina, onko sumeaan vastaavuuksien hakuun käytetty ylimääräinen aika ylimääräisen vastaavuusprosentin arvoinen.
Kavenna osumien laajuutta tarkan vastaavuuden avulla. Varmista, että jokaisella säännöllä, jossa on epämääräisiä ehtoja, on vähintään yksi tarkka vastaavuusehto.
Älä vastaa sarakkeita, jotka sisältävät voimakkaasti toistuvia tietoja. Varmista, että sumeiden vastineiden sarakkeissa ei toisteta usein arvoja, kuten lomakkeen oletusarvoa "Etunimi".
Yhdistämisen suorituskyky
Jokaisen säännön suorittaminen vie aikaa. Kuviot, kuten jokaisen taulukon vertaaminen kaikkiin muihin taulukoihin tai yritys tallentaa kaikki mahdolliset tietuevastaavuudet, voivat johtaa pitkiin yhdistämisen käsittelyaikoihin. Se palauttaa myös vain vähän tai ei lainkaan vastaavuuksia suunnitelmassa, jossa kutakin taulukkoa verrataan perustaulukkoon.
Paras tapa on aloittaa perussäännöillä, joiden tiedät olevan tarpeen, kuten vertaamalla kutakin taulukkoa ensisijaiseen taulukkoon. Ensisijaisen taulukon tulisi olla taulukko, jossa on täydellisimmät ja tarkimmat tiedot. Tämä taulukko on järjestettävä Vastaavuussääntöjen yhdistäminen -vaihe ylimpänä.
Lisää asteittain useita sääntöjä ja katso, kuinka kauan muutosten suorittaminen kestää ja paranevatko tulokset. Siirry Settings System Status (Asetukset ) System Status (>Asetukset) ->kohtaan ja valitse Match nähdäksesi, kuinka kauan deduplikoinnin ja vastaavuuksien poistaminen kesti kullakin yhdistämisajolla.
Tarkastele säännön tilastotietoja Kaksoiskappaleiden poistosäännöt - ja Vastaavuussäännöt -sivuilla nähdäksesi, muuttuuko yksilöllisten tietueiden määrä. Jos uusi sääntö vastaa joitakin tietueita eikä yksilöllinen tietueiden määrä muutu, edellinen sääntö tunnisti kyseiset vastaavuudet.
Deduplication
Poista kaksoiskappaleiden poistosäännöt asiakastietueiden kaksoiskappaleiden poistamisesta taulukosta siten, että kunkin taulukon yksi rivi edustaa kutakin asiakasta. Hyvä sääntö tunnistaa yksilöllisen asiakkaan.
Seuraavassa yksinkertaisessa esimerkissä tietueet 1, 2 ja 3 jakavat joko sähköpostiosoitteen tai puhelinnumeron, ja ne vastaavat samaa henkilöä.
Tunnus | Name | Puhelinnumero | |
---|---|---|---|
1 | Henkilö 1 | (425) 555 1111 | AAA@A.com |
2 | Henkilö 1 | (425) 555 1111 | BBB@B.com |
3 | Henkilö 1 | (425) 555 2222 | BBB@B.com |
4 | Henkilö 2 | (206) 555 9999 | Person2@contoso.com |
Vastaavuutta ei halua tehdä vain nimellä, joka vastaisi eri henkilöitä, joilla on sama nimi.
Luo sääntö 1 käyttämällä Nimi ja puhelin -toimintoa, joka vastaa tietueita 1 ja 2.
Luo sääntö 2 käyttämällä Nimi ja sähköpostiosoite -kohtaa, joka vastaa tietueita 2 ja 3.
Säännön 1 ja säännön 2 yhdistelmä luo yhden vastaavuusryhmän, sillä ne jakavat tietueen 2.
Sääntöjen määrä ja asiakkaat yksilöivästi tunnistavat ehdot ovat itse päätettävissä. Tarkka sääntö määräytyy vastaavuuteen käytettävien tietojen ja tietojen laadun perusteella sekä sen perusteella, kuinka kattavaa kaksoiskappaleiden poistoprosessia halutaan käyttää.
Voittavat ja vaihtoehtoiset tietueet
Kun säännöt on suoritettu ja tietueiden kaksoiskappaleet on tunnistettu, deduplikaatioprosessi valitsee voittajarivin. Ei-voittajarivejä kutsutaan vaihtoehtoisiksi riveiksi. Vaihtoehtoisia rivejä käytetään vastaavuussääntöjen yhdistämisessä vaihe muiden pöytien tietueiden yhdistämiseen voittajariviin. Riveille etsitään vastineita vaihtoehtoisten tietojen perusteella voittavan rivin lisäksi.
Kun olet lisännyt säännön taulukkoon, voit määrittää voittajariviksi valittavan rivin yhdistämisasetuksissa. Yhdistämisasetukset määritetään taulukkokohtaisesti. Valitusta yhdistämiskäytännöstä riippumatta voittava rivi ratkaistaan sen perusteella, mikä rivi on ensimmäisenä tietojärjestyksessä.
Normalisointi
Käytä normalisointia tietojen standardoimiseen vastaavuuden parantamiseksi. Normalisointi toimii hyvin suurille tietojoukoille.
Normalisoituja tietoja käytetään vain vertailutarkoituksissa, jotta asiakastietojen vastaavuus voidaan määrittää aiempaa paremmin. Se ei muuta tietoja lopullisessa yhdistetyssä asiakasprofiilituloksessa.
Normalisointi | Esimerkkejä |
---|---|
Numerot | Muuntaa monet numeroita edustavat Unicode-symbolit yksinkertaisiksi luvuiksi. Esimerkit:ja VIII. ❽ normalisoidaan molemmat numeroon 8. Huomautus: Symbolit on koodattava Unicode-pistemuodossa. |
Symbolit | Poistaa symbolit ja erikoismerkit. Esimerkit: !?"#$%&'( )+,.-/:;<=>@^~{}`[ ] |
Teksti pienillä kirjaimilla | Muuntaa isot kirjaimet pieniksi kirjaimiksi. Esimerkki: "THIS Is aN EXamplE" muunnetaan muotoon "tämä on esimerkki" |
Tyyppi – Puhelin | Muuntaa eri muodoissa olevat puhelinnumerot numeroiksi ja ottaa huomioon maakoodit ja laajennukset. Esimerkki: +358 9 1234 567 |
Tyyppi – Nimi | Muuntaa yli 500 yleistä nimimuunnelmaa ja otsikkoa. Esimerkit: "debby" -> "deborah" "prof" ja "professori" -> "Prof." |
Tyyppi – Osoite | Muuntaa osoitteiden yleiset osat Esimerkit: "kadunnimi" -> "katu" ja "postilokero" -> "PL" |
Tyyppi – Organisaatio | Poistaa noin 50 yrityksen nimeä "melusanat", kuten "co", "corp", "corporation" ja "ltd". |
ASCII:n Unicode | Muuntaa Unicode-merkit vastaaviksi ASCII-merkeiksi Esimerkki: Merkit à, á, â, À, Á, Â, Ã, Ä,Ⓐ ja A muunnetaan kaikki a:ksi. |
Tyhjä tila | Poistaa kaikki välilyönnit |
Aliaksen yhdistämismääritys | Voit ladata mukautetun merkkijonoparien luettelon, jota käytetään osoittamaan merkkijonoja, joita tulisi aina pitää tarkkoina vastineina. Käytä aliaksen yhdistämismääritystä, jos tiettyjen tietojen esimerkkejä tulisi pitää vastineina, mutta normalisointimallit eivät löydä niitä vastaavuushaussa. Esimerkki: Scott ja Scooter tai MSFT ja Microsoft. |
Mukautettu ohitus | Voit ladata mukautettujen merkkijonojen luettelon, jota käytetään osoittamaan merkkijonoja, joita ei koskaan tule pitää vastineina. Mukautettu ohitus on hyödyllinen, jos joillakin tiedoilla on yhteisiä arvoja, jotka tulisi jättää huomiotta. Esimerkkinä tästä on esimerkiksi täytepuhelinnumero ja -sähköpostiosoite. Esimerkki: Älä koskaan vastaa puhelinta 555-1212 tai test@contoso.com |
Tarkka vastaavuus
Määritä tarkkuudella, kuinka lähellä kahta merkkijonoa on oltava, jotta niitä voidaan pitää vastaavina. Tarkkuuden oletusasetus edellyttää tarkkaa vastaavuutta. Mikä tahansa muu arvo mahdollistaa kyseisen ehdon sumeavastaavuuden.
Tarkkuus voidaan asettaa alhaiseksi (vastaavuus 30 %), keskitasoiseksi (vastaavuus 60 %) ja korkeaksi (vastaavuus 80 %). Tai voit mukauttaa ja asettaa tarkkuuden 1%: n välein.
Tarkat otteluehdot
Tarkat vastaavuusehdot suoritetaan ensin, jotta saadaan pienempi arvojoukko sumeaan otteluun. Tärmällisten vastaavuusehtojen on oltava suhteellisen yksilöllisiä, jotta ne ovat tehokkaita. Jos esimerkiksi kaikki asiakkaasi asuvat samassa maassa, tarkan maakohtaisen vastaavuuden määrittäminen ei auta rajaamaan kohdetta.
Sarakkeet, kuten koko nimi-, sähköposti-, puhelin- tai osoitekentät, ovat hyvin yksilöllisiä, ja ne ovat hyviä sarakkeita käytettäväksi tarkkana hakuna.
Varmista, että tarkassa vastaavuusehdossa käyttämässäsi sarakkeessa ei ole usein toistuvia arvoja, kuten lomakkeen tallentamaa oletusarvoa "Etunimi". Customer Insights voi profiloida tietosarakkeita ja antaa merkityksellisiä tietoja eniten toistuvista arvoista. Voit ottaa tietojen profiloinnin käyttöön Azure Data Lake -yhteyksissä (Common Data Model- tai Delta-muodossa) ja Synapsessa. Tietoprofiili suoritetaan, kun tietolähde päivitetään seuraavan kerran. Lisätietoja on kohdassa Tietojen profilointi.
Sumea sovitus
Käytä sumeaa vastaavuuksien hakua sellaisten merkkijonojen vastaavuuteen, jotka ovat lähellä mutta eivät tarkkoja kirjoitusvirheiden tai muiden pienten muunnelmien vuoksi. Käytä sumeaa vastaavuuksien hakua strategisesti, koska se on hitaampaa kuin tarkat vastaavuudet. Varmista, että jokaisessa säännössä, jossa on epämääräisiä ehtoja, on vähintään yksi tarkka vastaavuusehto.
Sumean vastaavuuden ei ole tarkoitus kaapata nimimuunnelmia, kuten Suzzie ja Suzanne. Nämä muunnelmat tallennetaan paremmin normalisointikuvion tyypillä: Nimi tai mukautetulla aliaksen vastaavuudella , johon asiakkaat voivat kirjoittaa oman luettelon nimimuunnelmista, joita he haluavat pitää vastaavina.
Sääntöön voi lisätä ehtoja, kuten vastaavuus etunimen tai puhelinnumeron perusteella. Tietyssä säännössä olevat ehdot ovat JA-ehtoja, joten rivin vastaavuus edellyttää kaikkien ehtojen vastaavuutta. Erilliset säännöt ovat TAI-ehtoja. Jos sääntö 1 ei vastaa rivejä, rivejä verrataan sääntöön 2.
Muistiinpano
Vain merkkijonon tietotyyppiset sarakkeet voivat käyttää sumeaa vastaavuutta. Muita tietotyyppejä, kuten kokonaisluku, kaksoisluku tai päivämäärä-aika, sisältävissä sarakkeissa tarkkuuskentän on oltava tarkka vastine, ja se on vain luku -tilassa.
Sumean vastaavuuden laskelmat
Sumea vastaavuus tehdään laskemalla kahden merkkijonon muokkausetäisyyden pisteet. Jos pistemäärä vastaa tarkkuusrajaa tai ylittää sen, merkkijonoja pidetään vastaavina.
Muokkausetäisuus on niiden muokkausten vaadittu määrä, jotka tarvitaan yhden merkkijonon muuttamisessa toiseksi merkkijonoksi lisäämällä, poistamalla tai muuttamalla merkkejä.
Esimerkiksi merkkijonojen "Jacqueline" ja "Jaclyne" muokkausetäisyys on viisi, kun poistamme merkit q, u, e, i ja e ja lisäämme y-merkin.
Peruslaskelma muokkausetäisyyden pistemäärän määrittämiseksi on: (Perusmerkkijonon pituus – Muokkaa etäisyyttä) / Perusmerkkijonon pituus.
Perusmerkkijono | Vertailumerkkijono | Pisteet |
---|---|---|
Jacqueline | Jaclyne | (10–4)/10= 0,6 |
fred@contoso.com | fred@contso.cm | (14-2) / 14 = 0,857 |
franklin | frank | (8-3) / 8 = 0,625 |