Megosztás a következőn keresztül:


Ajánlott eljárások az adategyesítéshez

Amikor szabályokat állít be az adatok ügyfélprofilba való egyesítéséhez, vegye figyelembe az alábbi ajánlott eljárásokat:

  • Egyensúlyba hozhatja az egyesítéshez szükséges időt a teljes egyeztetéshez. Az összes lehetséges mérkőzés megörökítése sok szabályhoz vezet, és az egyesítés hosszú időt vesz igénybe.

  • Fokozatosan adjon hozzá szabályokat, és kövesse nyomon az eredményeket. Távolítsa el azokat a szabályokat, amelyek nem javítják az egyezés eredményét.

  • Szüntesse meg az egyes táblák ismétlődését, hogy minden vevő egyetlen sorban jelenjen meg.

  • A normalizálással szabványosíthatja az adatbevitel változatait , például utca vs. utca vs. utca vs. utca vs.

  • Használja stratégiailag az fuzzy egyeztetést az elírások és hibák (például bob@contoso.com és bob@contoso.cm) kijavításához. Az fuzzy meccsek futása hosszabb időt vesz igénybe, mint a pontos egyezéseké. Mindig tesztelje, hogy az fuzzy egyeztetésre fordított extra idő megéri-e a további egyezési arányt.

  • Szűkítse az egyezések hatókörét a pontos egyezéssel. Győződjön meg arról, hogy minden fuzzy feltételekkel rendelkező szabálynak van legalább egy pontos egyezési feltétele.

  • Ne egyezzen olyan oszlopokkal, amelyek erősen ismétlődő adatokat tartalmaznak. Győződjön meg arról, hogy az fuzzy egyező oszlopokban nincsenek gyakran ismétlődő értékek, például az űrlap alapértelmezett "Keresztnév" értéke.

Egyesítési teljesítmény

Minden szabály futtatása időbe telik. Az olyan minták, mint például az összes tábla összehasonlítása az összes többi táblával, vagy az összes lehetséges rekordegyezés rögzítése, hosszú egyesítési feldolgozási időt eredményezhetnek. Emellett kevés, ha egyáltalán több egyezést ad vissza egy olyan tervhez képest, amely az egyes táblákat egy alaptáblához hasonlítja.

A legjobb módszer az, ha egy olyan alapvető szabálykészlettel kezdi, amelyről tudja, hogy szükség van rá, például az egyes táblák összehasonlítása az elsődleges táblával. Az elsődleges táblának a legteljesebb és legpontosabb adatokat tartalmazó táblának kell lennie. Ezt a táblázatot az Egyeztetési szabályok egységesítése lépés felül kell rendezni.

Fokozatosan adjon hozzá több szabályt, és nézze meg, mennyi ideig tart a módosítások futtatása, és javulnak-e az eredmények. Nyissa meg a Beállítások Rendszerállapot>>lapot , és válassza az Egyezés lehetőséget annak megtekintéséhez, hogy mennyi ideig tartott a deduplikáció és az egyeztetés az egyes egyesítési futtatások során.

Képernyőkép az Állapot lapról, amelyen az egyezési futási idők láthatók.

Tekintse meg a szabálystatisztikákat a Deduplikációs szabályok és az Egyeztetési szabályok lapokon, és ellenőrizze, hogy változik-e az egyedi rekordok száma. Ha egy új szabály megfelel néhány rekordnak, és az egyedi rekordok száma nem változik, akkor egy korábbi szabály azonosítja ezeket az egyezéseket.

Képernyőkép az Egyedi rekordokat kiemelő Egyező szabályok lapról.

Deduplikáció

A deduplikációs szabályok használatával eltávolíthatja az ismétlődő vevőrekordokat egy táblán belül, hogy minden táblában egyetlen sor képviselje az egyes ügyfeleket. Egy jó szabály azonosítja az egyedi ügyfelet.

Ebben az egyszerű példában az 1., 2. és 3. rekord egy e-mail-címet vagy telefonszámot oszt meg, és ugyanazt a személyt képviseli.

Azonosító Name Telefon Email
0 Személy 1 (425) 555-1111 AAA@A.com
2 Személy 1 (425) 555-1111 BBB@B.com
3 Személy 1 (425) 555-2222 BBB@B.com
4 Személy 2 (206) 555-9999 Person2@contoso.com

Nem csak a név alapján szeretnénk egyezni, mivel ez különböző embereket illetne ugyanazzal a névvel.

  • Hozza létre az 1. szabályt a Név és a Telefonszám használatával, amely megfelel az 1. és a 2. rekordnak.

  • Hozza létre a 2. szabályt a Név és az E-mail cím használatával, amely megfelel a 2. és a 3. rekordnak.

Az 1. szabály és a 2. szabály kombinációja egyetlen egyezési csoportot hoz létre, mert osztoznak a 2. rekordon.

Ön dönti el, hogy hány szabály és feltétel azonosítja egyedileg az ügyfeleket. A pontos szabályok az egyeztetéshez rendelkezésre álló adatoktól, az adatok minőségétől és attól függnek, hogy mennyire teljes körűnek szeretné beállítani a deduplikációs folyamatot.

Győztes és alternatív rekordok

A szabályok futtatása és az ismétlődő rekordok azonosítása után a deduplikációs folyamat kiválaszt egy "Győztes sort". A nem győztes sorokat "Alternatív soroknak" nevezzük. Az Egyeztetési szabályok egységesítése lépés alternatív sorokat használ más táblák rekordjainak a győztes sorral való egyeztetéséhez. A rendszer a nyertes sor mellett a sorokat is egyezteti az alternatív sorok adataival.

Miután hozzáadott egy szabályt egy táblához, az Egyesítési beállításokban beállíthatja, hogy melyik sort válassza ki győztes sorként. Az egyesítési beállítások táblázatonként vannak megadva. Függetlenül attól, hogy milyen egyesítési szabályzat van kiválasztva, ha a győztes sorhoz holtverseny tartozik, akkor az adatsorrend első sora lesz a kötőjel.

Normalizálás

A normalizálás használatával szabványosíthatja az adatokat a jobb megfeleltetés érdekében. A normalizálás nagy adatkészletek esetén jól teljesít.

A normalizált adatokat csak összehasonlítási célokra használjuk az ügyfélrekordok hatékonyabb egyeztetése érdekében. Nem módosítja a végső egyesített ügyfélprofil kimenetének adatait.

Normalizálás Példák
Számok A számokat jelölő Unicode-szimbólumok egyszerű számokká alakítása.
Példák: ❽ és VIII. egyaránt normalizálva van a 8-as számra.
Megjegyzés: A szimbólumokat Unicode pontformátumban kell kódolni.
Szimbólumok Eltávolítja a szimbólumokat és a speciális karaktereket.
Példák: !?" #$%&'( )+,.-/:;<=>@^~{}'[ ]
Szöveget kisbetűkre A nagybetűket kisbetűssé alakítja. 
Példa: A "THIS Is aN EXamplE" átalakul "ez egy példa" kifejezéssé
Típus – Telefon A különböző formátumú telefonokat számjegyekké alakítja, és figyelembe veszi az országkódok és -mellékek megjelenítésének változatait. 
Példa: +01 425.555.1212 = 1 (425) 555-1212
Típus - Név Több mint 500 köznapi névváltozatot és címet konvertál. 
Példák: "debby" -"deborah" "> prof" és "professor" -> "Prof".
Típus - Cím A címek gyakori részeinek konvertálása
Példák: "utca" -> "st" és "északnyugat" -> "nw"
Típus - Szervezet Körülbelül 50 "zajos szó" cégnevet távolít el, például "co", "corp", "corporation" és "ltd".
Unicode-ot ASCII-ra A Unicode-karaktereket ASCII betűs megfelelőjükké alakítja
Példa: Az "à", "á", "â", "À", "Á", "Â", "Ã", "Ä", "(A)" és "A" karakterek mind "a" karakterekké alakulnak.
Térközkarakter Eltávolítja az összes üres helyet
Aliasleképezés Lehetővé teszi a karakterláncpárok egyéni listájának feltöltését, amelyek segítségével aztán jelezheti azokat a karakterláncokat, amelyeket mindig pontos egyezésnek kell tekinteni. 
Akkor használjon alias leképezés, ha olyan konkrét adatpéldákkal rendelkezik, amelyekről úgy gondolja, hogy egyezniük kellene, és nem egyeznek a többi normalizálási minta egyikével. 
Példa: Scott és Scooter, vagy MSFT és Microsoft.
Egyéni megkerülő Lehetővé teszi a karakterláncok egyéni listájának feltöltését, amelyek ezután olyan karakterláncok jelzésére használhatók, amelyeket soha nem szabad egyeztetni.
Az egyéni megkerülés akkor hasznos, ha olyan általános értékekkel rendelkező adatokkal rendelkezik, amelyeket figyelmen kívül kell hagyni, például egy üres telefonszámmal vagy egy üres e-mail-címmel. 
Példa: Soha ne egyezzen a 555-1212 telefonszámmal, vagy test@contoso.com

Pontos egyezés

Pontossággal határozza meg, hogy két karakterláncnak milyen közel kell lennie ahhoz, hogy egyezésnek minősüljön. Az alapértelmezett pontossági beállítás pontos egyezést igényel. Bármely más érték lehetővé teszi az adott feltétel fuzzy egyeztetését.

A pontosság alacsony (30% egyezés), közepes (60% egyezés) és magas (80% egyezés) értékre állítható. Vagy testreszabhatja és beállíthatja a pontosságot 1% -os lépésekben.

Pontos egyezési feltételek

A rendszer először a pontos egyezési feltételeket futtatja, hogy kisebb értékkészletet kapjon az fuzzy egyezésekhez. Ahhoz, hogy hatékonyak legyenek, a pontos megfeleltetési feltételeknek ésszerű mértékű egyediséggel kell rendelkezniük. Ha például az összes ügyfél ugyanabban az országban/régióban él, akkor az ország/régió pontos egyezése nem segít szűkíteni a hatókört.

Az olyan oszlopok, mint a teljes név, e-mail, telefonszám vagy cím mezők jó egyediséggel rendelkeznek, és nagyszerű oszlopok a pontos egyezéshez.

Győződjön meg arról, hogy a pontos egyezési feltételhez használt oszlop nem tartalmaz gyakran ismétlődő értékeket, például az űrlap által rögzített alapértelmezett "Keresztnév" értéket. A Customer Insights profilba sorolhatja az adatoszlopokat, hogy betekintést nyújtson a leggyakrabban ismétlődő értékekbe. Engedélyezheti az adatprofil-készítést Azure Data Lake (Common Data Model vagy Delta formátum használatával) kapcsolatokon és a szinapszisban. Az adatprofil a adatforrás következő frissítésekor fut. További információ: Adatprofil-készítés.

Fuzzy illesztés

Az fuzzy egyeztetés segítségével egyeztetheti a közel álló, de elírások vagy más apró eltérések miatt nem pontos karakterláncokat. Használja stratégiailag az fuzzy egyeztetést, mivel lassabb, mint a pontos egyezések. Győződjön meg arról, hogy legalább egy pontos egyezési feltétel minden olyan szabályban, amely homályos feltételekkel rendelkezik.

Az fuzzy egyeztetés nem célja az olyan névváltozatok rögzítése, mint a Suzzie és a Suzanne. Ezek a változatok jobban rögzíthetők a Normalizálási minta típusa: Név vagy az egyéni Alias-egyeztetéssel , ahol az ügyfelek megadhatják az egyezésként figyelembe venni kívánt névváltozatok listáját.

A szabályokhoz feltételeket adhat hozzá, például az Utónév és a Telefon egyeztetését. Egy adott szabályon belüli feltételek "ÉS" feltételek. Minden feltételnek egyeznie kell ahhoz, hogy a sorok egyezzenek. Külön szabályok a "VAGY" feltételek. Ha az 1. szabály nem egyezik a sorokkal, akkor a rendszer összehasonlítja a sorokat a 2. szabállyal.

Feljegyzés

Csak sztring adattípusú oszlopok használhatnak fuzzy egyeztetést. Más adattípusú oszlopok (például egész szám, dupla vagy dátum/idő) esetén a pontossági mező csak olvasható, és a pontos egyezésre van beállítva.

Fuzzy egyeztetési számítások

Az fuzzy egyezések meghatározása két karakterlánc közötti szerkesztési távolság pontszámának kiszámításával történik. Ha a pontszám eléri vagy meghaladja a pontossági küszöbértéket, a sztringek egyezésnek számítanak.

A szerkesztési távolság azoknak a szerkesztéseknek a száma, amelyek ahhoz szükségesek, hogy egy karakterláncot egy karakter hozzáadásával, törlésével vagy módosításával egy másikká alakítsanak.

Például a "Jacqueline" és a "Jaclyne" karakterláncok szerkesztési távolsága öt, ha eltávolítjuk a q, u, e, i és e karaktereket, és beillesztjük az y karaktert.

A szerkesztési távolság pontszámának kiszámításához használja a következő képletet: (Alapkarakterlánc hossza – Távolság szerkesztése) / Alapkarakterlánc hossza.

Alap karakterlánc Összehasonlítási sztring Pontszám
Jacqueline Jaclyne (10-4)/10=.6
fred@contoso.com fred@contso.cm (14-2) / 14 = 0,857
Franklin nyílt (8-3) / 8 = 0,625