Jaa


Tietojen yhtenäistämisen parhaat käytännöt

Kun määrität sääntöjä tietojen yhdistämiseksi asiakasprofiiliksi, ota huomioon seuraavat parhaat käytännöt:

  • Tasapainota yhdistämisaika ja täydellinen vastaavuus. Jokaisen mahdollisen ottelun kaappaaminen johtaa moniin sääntöihin ja yhdistyminen kestää kauan.

  • Lisää sääntöjä asteittain ja seuraa tuloksia. Poista säännöt, jotka eivät paranna ottelun tulosta.

  • Poista kunkin taulukon kaksoiskappaleet niin, että jokainen asiakas on edustettuna yhdellä rivillä.

  • Normalisoinnin avulla voit standardoida tietojen syöttötavan muunnelmia , kuten Katu vs. St. vs. St. vs. st.

  • Käytä sumeaa vastaavuuksien hakua strategisesti korjataksesi kirjoitusvirheet ja virheet , kuten bob@contoso.com ja bob@contoso.cm. Sumeat ottelut kestävät kauemmin kuin tarkat ottelut. Testaa aina, onko sumeaan vastaavuuksien hakuun käytetty ylimääräinen aika ylimääräisen vastaavuusprosentin arvoinen.

  • Kavenna osumien laajuutta tarkan vastaavuuden avulla. Varmista, että jokaisella säännöllä, jossa on epämääräisiä ehtoja, on vähintään yksi tarkka vastaavuusehto.

  • Älä vastaa sarakkeita, jotka sisältävät voimakkaasti toistuvia tietoja. Varmista, että sumeiden vastineiden sarakkeissa ei toisteta usein arvoja, kuten lomakkeen oletusarvoa "Etunimi".

Yhdistämisen suorituskyky

Jokaisen säännön suorittaminen vie aikaa. Kuviot, kuten jokaisen taulukon vertaaminen kaikkiin muihin taulukoihin tai yritys tallentaa kaikki mahdolliset tietuevastaavuudet, voivat johtaa pitkiin yhdistämisen käsittelyaikoihin. Se palauttaa myös vain vähän tai ei lainkaan vastaavuuksia suunnitelmassa, jossa kutakin taulukkoa verrataan perustaulukkoon.

Paras tapa on aloittaa perussäännöillä, joiden tiedät olevan tarpeen, kuten vertaamalla kutakin taulukkoa ensisijaiseen taulukkoon. Ensisijaisen taulukon tulisi olla taulukko, jossa on täydellisimmät ja tarkimmat tiedot. Tämä taulukko on järjestettävä Vastaavuussääntöjen yhdistäminen -vaihe ylimpänä.

Lisää asteittain useita sääntöjä ja katso, kuinka kauan muutosten suorittaminen kestää ja paranevatko tulokset. Siirry Settings System Status (Asetukset ) System Status (>Asetukset) ->kohtaan ja valitse Match nähdäksesi, kuinka kauan deduplikoinnin ja vastaavuuksien poistaminen kesti kullakin yhdistämisajolla.

Näyttökuva Tila-sivusta, jossa näkyy Vastaavuuden suoritusajat.

Tarkastele säännön tilastotietoja Kaksoiskappaleiden poistosäännöt - ja Vastaavuussäännöt -sivuilla nähdäksesi, muuttuuko yksilöllisten tietueiden määrä. Jos uusi sääntö vastaa joitakin tietueita eikä yksilöllinen tietueiden määrä muutu, edellinen sääntö tunnisti kyseiset vastaavuudet.

Näyttökuva vastaavuussääntöjen sivusta, jossa näkyvät korostettuna yksilölliset tietueet.

Deduplication

Poista kaksoiskappaleiden poistosäännöt asiakastietueiden kaksoiskappaleiden poistamisesta taulukosta siten, että kunkin taulukon yksi rivi edustaa kutakin asiakasta. Hyvä sääntö tunnistaa yksilöllisen asiakkaan.

Seuraavassa yksinkertaisessa esimerkissä tietueet 1, 2 ja 3 jakavat joko sähköpostiosoitteen tai puhelinnumeron, ja ne vastaavat samaa henkilöä.

Tunnus Name Puhelinnumero Email
1 Henkilö 1 (425) 555 1111 AAA@A.com
2 Henkilö 1 (425) 555 1111 BBB@B.com
3 Henkilö 1 (425) 555 2222 BBB@B.com
4 Henkilö 2 (206) 555 9999 Person2@contoso.com

Vastaavuutta ei halua tehdä vain nimellä, joka vastaisi eri henkilöitä, joilla on sama nimi.

  • Luo sääntö 1 käyttämällä Nimi ja puhelin -toimintoa, joka vastaa tietueita 1 ja 2.

  • Luo sääntö 2 käyttämällä Nimi ja sähköpostiosoite -kohtaa, joka vastaa tietueita 2 ja 3.

Säännön 1 ja säännön 2 yhdistelmä luo yhden vastaavuusryhmän, sillä ne jakavat tietueen 2.

Sääntöjen määrä ja asiakkaat yksilöivästi tunnistavat ehdot ovat itse päätettävissä. Tarkka sääntö määräytyy vastaavuuteen käytettävien tietojen ja tietojen laadun perusteella sekä sen perusteella, kuinka kattavaa kaksoiskappaleiden poistoprosessia halutaan käyttää.

Voittavat ja vaihtoehtoiset tietueet

Kun säännöt on suoritettu ja tietueiden kaksoiskappaleet on tunnistettu, deduplikaatioprosessi valitsee voittajarivin. Ei-voittajarivejä kutsutaan vaihtoehtoisiksi riveiksi. Vaihtoehtoisia rivejä käytetään vastaavuussääntöjen yhdistämisessä vaihe muiden pöytien tietueiden yhdistämiseen voittajariviin. Riveille etsitään vastineita vaihtoehtoisten tietojen perusteella voittavan rivin lisäksi.

Kun olet lisännyt säännön taulukkoon, voit määrittää voittajariviksi valittavan rivin yhdistämisasetuksissa. Yhdistämisasetukset määritetään taulukkokohtaisesti. Valitusta yhdistämiskäytännöstä riippumatta voittava rivi ratkaistaan sen perusteella, mikä rivi on ensimmäisenä tietojärjestyksessä.

Normalisointi

Käytä normalisointia tietojen standardoimiseen vastaavuuden parantamiseksi. Normalisointi toimii hyvin suurille tietojoukoille.

Normalisoituja tietoja käytetään vain vertailutarkoituksissa, jotta asiakastietojen vastaavuus voidaan määrittää aiempaa paremmin. Se ei muuta tietoja lopullisessa yhdistetyssä asiakasprofiilituloksessa.

Normalisointi Esimerkkejä
Numerot Muuntaa monet numeroita edustavat Unicode-symbolit yksinkertaisiksi luvuiksi.
Esimerkit:ja VIII. ❽ normalisoidaan molemmat numeroon 8.
Huomautus: Symbolit on koodattava Unicode-pistemuodossa.
Symbolit Poistaa symbolit ja erikoismerkit.
Esimerkit: !?"#$%&'( )+,.-/:;<=>@^~{}`[ ]
Teksti pienillä kirjaimilla Muuntaa isot kirjaimet pieniksi kirjaimiksi. 
Esimerkki: "THIS Is aN EXamplE" muunnetaan muotoon "tämä on esimerkki"
Tyyppi – Puhelin Muuntaa eri muodoissa olevat puhelinnumerot numeroiksi ja ottaa huomioon maakoodit ja laajennukset. 
Esimerkki: +358 9 1234 567
Tyyppi – Nimi Muuntaa yli 500 yleistä nimimuunnelmaa ja otsikkoa. 
Esimerkit: "debby" -> "deborah" "prof" ja "professori" -> "Prof."
Tyyppi – Osoite Muuntaa osoitteiden yleiset osat
Esimerkit: "kadunnimi" -> "katu" ja "postilokero" -> "PL"
Tyyppi – Organisaatio Poistaa noin 50 yrityksen nimeä "melusanat", kuten "co", "corp", "corporation" ja "ltd".
ASCII:n Unicode Muuntaa Unicode-merkit vastaaviksi ASCII-merkeiksi
Esimerkki: Merkit à, á, â, À, Á, Â, Ã, Ä,Ⓐ ja A muunnetaan kaikki a:ksi.
Tyhjä tila Poistaa kaikki välilyönnit
Aliaksen yhdistämismääritys Voit ladata mukautetun merkkijonoparien luettelon, jota käytetään osoittamaan merkkijonoja, joita tulisi aina pitää tarkkoina vastineina. 
Käytä aliaksen yhdistämismääritystä, jos tiettyjen tietojen esimerkkejä tulisi pitää vastineina, mutta normalisointimallit eivät löydä niitä vastaavuushaussa. 
Esimerkki: Scott ja Scooter tai MSFT ja Microsoft.
Mukautettu ohitus Voit ladata mukautettujen merkkijonojen luettelon, jota käytetään osoittamaan merkkijonoja, joita ei koskaan tule pitää vastineina.
Mukautettu ohitus on hyödyllinen, jos joillakin tiedoilla on yhteisiä arvoja, jotka tulisi jättää huomiotta. Esimerkkinä tästä on esimerkiksi täytepuhelinnumero ja -sähköpostiosoite. 
Esimerkki: Älä koskaan vastaa puhelinta 555-1212 tai test@contoso.com

Tarkka vastaavuus

Määritä tarkkuudella, kuinka lähellä kahta merkkijonoa on oltava, jotta niitä voidaan pitää vastaavina. Tarkkuuden oletusasetus edellyttää tarkkaa vastaavuutta. Mikä tahansa muu arvo mahdollistaa kyseisen ehdon sumeavastaavuuden.

Tarkkuus voidaan asettaa alhaiseksi (vastaavuus 30 %), keskitasoiseksi (vastaavuus 60 %) ja korkeaksi (vastaavuus 80 %). Tai voit mukauttaa ja asettaa tarkkuuden 1%: n välein.

Tarkat otteluehdot

Tarkat vastaavuusehdot suoritetaan ensin, jotta saadaan pienempi arvojoukko sumeaan otteluun. Tärmällisten vastaavuusehtojen on oltava suhteellisen yksilöllisiä, jotta ne ovat tehokkaita. Jos esimerkiksi kaikki asiakkaasi asuvat samassa maassa, tarkan maakohtaisen vastaavuuden määrittäminen ei auta rajaamaan kohdetta.

Sarakkeet, kuten koko nimi-, sähköposti-, puhelin- tai osoitekentät, ovat hyvin yksilöllisiä, ja ne ovat hyviä sarakkeita käytettäväksi tarkkana hakuna.

Varmista, että tarkassa vastaavuusehdossa käyttämässäsi sarakkeessa ei ole usein toistuvia arvoja, kuten lomakkeen tallentamaa oletusarvoa "Etunimi". Customer Insights voi profiloida tietosarakkeita ja antaa merkityksellisiä tietoja eniten toistuvista arvoista. Voit ottaa tietojen profiloinnin käyttöön Azure Data Lake -yhteyksissä (Common Data Model- tai Delta-muodossa) ja Synapsessa. Tietoprofiili suoritetaan, kun tietolähde päivitetään seuraavan kerran. Lisätietoja on kohdassa Tietojen profilointi.

Sumea sovitus

Käytä sumeaa vastaavuuksien hakua sellaisten merkkijonojen vastaavuuteen, jotka ovat lähellä mutta eivät tarkkoja kirjoitusvirheiden tai muiden pienten muunnelmien vuoksi. Käytä sumeaa vastaavuuksien hakua strategisesti, koska se on hitaampaa kuin tarkat vastaavuudet. Varmista, että jokaisessa säännössä, jossa on epämääräisiä ehtoja, on vähintään yksi tarkka vastaavuusehto.

Sumean vastaavuuden ei ole tarkoitus kaapata nimimuunnelmia, kuten Suzzie ja Suzanne. Nämä muunnelmat tallennetaan paremmin normalisointikuvion tyypillä: Nimi tai mukautetulla aliaksen vastaavuudella , johon asiakkaat voivat kirjoittaa oman luettelon nimimuunnelmista, joita he haluavat pitää vastaavina.

Sääntöön voi lisätä ehtoja, kuten vastaavuus etunimen tai puhelinnumeron perusteella. Tietyssä säännössä olevat ehdot ovat JA-ehtoja, joten rivin vastaavuus edellyttää kaikkien ehtojen vastaavuutta. Erilliset säännöt ovat TAI-ehtoja. Jos sääntö 1 ei vastaa rivejä, rivejä verrataan sääntöön 2.

Muistiinpano

Vain merkkijonon tietotyyppiset sarakkeet voivat käyttää sumeaa vastaavuutta. Muita tietotyyppejä, kuten kokonaisluku, kaksoisluku tai päivämäärä-aika, sisältävissä sarakkeissa tarkkuuskentän on oltava tarkka vastine, ja se on vain luku -tilassa.

Sumean vastaavuuden laskelmat

Sumea vastaavuus tehdään laskemalla kahden merkkijonon muokkausetäisyyden pisteet. Jos pistemäärä vastaa tarkkuusrajaa tai ylittää sen, merkkijonoja pidetään vastaavina.

Muokkausetäisuus on niiden muokkausten vaadittu määrä, jotka tarvitaan yhden merkkijonon muuttamisessa toiseksi merkkijonoksi lisäämällä, poistamalla tai muuttamalla merkkejä.

Esimerkiksi merkkijonojen "Jacqueline" ja "Jaclyne" muokkausetäisyys on viisi, kun poistamme merkit q, u, e, i ja e ja lisäämme y-merkin.

Peruslaskelma muokkausetäisyyden pistemäärän määrittämiseksi on: (Perusmerkkijonon pituus – Muokkaa etäisyyttä) / Perusmerkkijonon pituus.

Perusmerkkijono Vertailumerkkijono Pisteet
Jacqueline Jaclyne (10–4)/10= 0,6
fred@contoso.com fred@contso.cm (14-2) / 14 = 0,857
franklin frank (8-3) / 8 = 0,625