Share via


Best practices voor gegevensharmonisatie

Wanneer u regels instelt om uw gegevens te verenigen in een klantprofiel, kunt u het beste rekening houden met de volgende best practices:

  • Houd rekening met de tijd die nodig is om te unificeren versus de tijd die nodig is om te matchen. Als je probeert om elke mogelijke match te vangen, ontstaan er veel regels en duurt het lang om de combinatie te maken.

  • Voeg geleidelijk regels toe en houd de resultaten bij. Verwijder regels die het wedstrijdresultaat niet verbeteren.

  • Dedupliceer elke tabel zodat elke klant in één rij wordt weergegeven.

  • gebruik normalisatie om variaties te standaardiseren in de manier waarop gegevens zijn ingevoerd, zoals Straat versus St versus St. versus st.

  • gebruik fuzzy matching strategisch om typefouten en fouten zoals bob@contoso.com en bob@contoso.cm te corrigeren. Fuzzy matches duren langer dan exacte matches. Controleer altijd of de extra tijd die u aan fuzzy matching besteedt, de hogere match rate waard is.

  • Beperk het bereik van overeenkomsten met exacte overeenkomst. Zorg ervoor dat elke regel met fuzzy-voorwaarden ten minste één exacte match-voorwaarde heeft.

  • Koppel geen kolommen met veelvuldig herhaalde gegevens. Zorg ervoor dat fuzzy-match-kolommen geen waarden bevatten die vaak worden herhaald, zoals de standaardwaarde 'Voornaam' in een formulier.

Unificatieprestaties

Elke regel heeft tijd nodig om uit te voeren. Patronen zoals het vergelijken van elke tabel met elke andere tabel of het proberen vast te leggen van elke mogelijke recordmatch kunnen leiden tot lange verwerkingstijden voor unificatie. Het retourneert ook weinig tot geen matches meer via een plan dat elke tabel vergelijkt met een basistabel.

De beste aanpak is om te beginnen met een basisset regels waarvan u weet dat ze nodig zijn, zoals het vergelijken van elke tabel met uw primaire tabel. Uw primaire tabel moet de tabel zijn met de meest volledige en nauwkeurige gegevens. Deze tabel moet bovenaan in de Matching rules unification stap worden geplaatst.

Voeg geleidelijk meerdere regels toe en kijk hoe lang het duurt om de wijzigingen door te voeren en of uw resultaten verbeteren. Ga naar instellingen>Systeem>Status en selecteer Match om te zien hoe lang deduplicatie en matching duurden voor elke unificatierun.

Schermafbeelding van de statuspagina met de wedstrijdduur.

Bekijk de regelstatistieken op de pagina's Deduplicatieregels en Overeenkomende regels om te zien of het aantal Unieke records verandert. Als een nieuwe regel overeenkomt met bepaalde records en het unieke recordaantal verandert niet, dan identificeert een eerdere regel die overeenkomsten.

Schermafbeelding van de pagina Matching rules, met de nadruk op unieke records.

Deduplicatie

Gebruik deduplicatieregels om dubbele klantrecords in een tabel te verwijderen, zodat elke klant in één rij staat. Een goede regel identificeert een unieke klant.

In dit eenvoudige voorbeeld zijn de records 1, 2 en 3 Delen een e-mailadres of telefoonnummer en vertegenwoordigen ze dezelfde persoon.

Id Meting Telefoon Email
0 Persoon 1 (425) 555-1111 AAA@A.com
2 Persoon 1 (425) 555-1111 BBB@B.com
5 Persoon 1 (425) 555-2222 BBB@B.com
4 Persoon 2 (206) 555-9999 Person2@contoso.com

We willen niet alleen op naam matchen, omdat hierdoor verschillende mensen met dezelfde naam zouden worden gematcht.

  • Maak regel 1 met naam en telefoonnummer, die overeenkomt met record 1 en 2.

  • Maak regel 2 met naam en e-mailadres, die overeenkomt met records 2 en 3.

De combinatie van Regel 1 en Regel 2 creëert een enkele afstemmingsgroep omdat ze record 2 delen.

U bepaalt het aantal regels en voorwaarden waarmee u uw klanten eenduidig identificeert. De exacte regels zijn afhankelijk van de gegevens waarover u beschikt, de kwaliteit van uw gegevens en hoe uitgebreid u het deduplicatieproces wilt laten zijn.

Winnaar en alternatieve records

Zodra de regels zijn uitgevoerd en dubbele records zijn geïdentificeerd, selecteert het deduplicatieproces een 'Winnaarrij'. De rijen die niet de winnaar zijn, worden 'Alternatieve rijen' genoemd. Alternatieve rijen worden gebruikt in de unificatie van de overeenkomende regels stap om records uit andere tabellen te matchen met de winnaarrij. Rijen worden naast de winnende rij vergeleken met de gegevens in de alternatieve rijen.

Nadat u een regel aan een tabel hebt toegevoegd, kunt u via Voorkeuren voor samenvoegen configureren welke rij u als winnende rij wilt selecteren. Samenvoegvoorkeuren worden per tabel ingesteld. Ongeacht welk samenvoegbeleid u selecteert, als er een gelijkspel is voor een winnende rij, wordt de eerste rij in de gegevensvolgorde gebruikt als tiebreaker.

Normalisatie

Gebruik normalisatie om gegevens te standaardiseren voor betere matching. Normalisatie presteert goed bij grote hoeveelheden gegevens.

De genormaliseerde gegevens worden alleen gebruikt voor vergelijkingsdoeleinden om klantgegevens beter op elkaar af te stemmen. De gegevens in de uiteindelijke geharmoniseerde klantprofieluitvoer worden hierdoor niet gewijzigd.

Normalisatie Voorbeelden
Cijfers Converteert veel Unicode-symbolen die getallen voorstellen naar eenvoudige getallen.
Voorbeelden: ❽ en Ⅷ zijn beide genormaliseerd naar het getal 8.
Opmerking: De symbolen moeten gecodeerd zijn in Unicode Point Format.
Symbolen Verwijdert symbolen en speciale tekens.
Voorbeelden: !?"#$%&'( )+,.-/:;<=>@^~{}`[ ]
Tekst in kleine letters Converteert hoofdlettertekens naar kleine letters. 
Voorbeeld: "DIT IS EEN VOORBEELD" wordt omgezet naar "dit is een voorbeeld"
Type - Telefoonnummer Converteert telefoonnummers in verschillende indelingen naar cijfers en houdt rekening met variaties in de manier waarop landcodes en toestelnummers worden weergegeven. 
Voorbeeld: +01 425.555.1212 = 1 (425) 555-1212
Type - Naam Converteert meer dan 500 veelvoorkomende naamvariaties en titels. 
Voorbeelden: "debby" -> "deborah" "prof" en "professor" -> "Prof."
Type - Adres Converteert veelvoorkomende delen van adressen
Voorbeelden: "straat" -> "st" en "noordwest" -> "nw"
Type - Organisatie Verwijdert ongeveer 50 'ruiswoorden' in bedrijfsnamen, zoals 'co', 'corp', 'corporation' en 'ltd'.
Van Unicode naar ASCII Converteert Unicode-tekens naar hun ASCII-letterequivalent
Voorbeeld: de tekens 'à', 'á', 'â', 'À', 'Á', 'Â', 'Ã', 'Ä', 'Ⓐ' en 'A' worden allemaal geconverteerde naar 'a'.
Spatie Verwijdert alle spaties
Aliastoewijzing Hiermee kunt u een aangepaste lijst met tekenreeksparen uploaden die vervolgens kan worden gebruikt om tekenreeksen aan te geven die altijd als een exacte overeenkomst moeten worden beschouwd. 
Gebruik aliastoewijzing als u specifieke gegevensvoorbeelden hebt waarvan u denkt dat ze moeten overeenkomen, en die niet overeenkomen met een van de andere normalisatiepatronen. 
Bijvoorbeeld: Scott en Scooter, of MSFT en Microsoft.
Aangepaste omleiding Hiermee kunt u een aangepaste lijst met tekenreeksen uploaden die vervolgens kan worden gebruikt om tekenreeksen aan te geven die nooit als een overeenkomst moeten worden beschouwd.
Een aangepaste bypass is handig als u gegevens hebt met algemene waarden die genegeerd moeten worden, zoals een dummytelefoonnummer of een dummy-e-mailadres. 
Voorbeeld: koppel nooit de telefoon 555-1212, of test@contoso.com

Exacte overeenkomst

Gebruik precisie om te bepalen hoe Sluiten twee strings moeten zijn om als een match te worden beschouwd. De standaardinstelling voor precisie vereist een exacte overeenkomst. Elke andere waarde maakt fuzzy matching voor die voorwaarde mogelijk.

De precisie kan worden ingesteld op laag (30% overeenkomst), gemiddeld (60% overeenkomst) en hoog (80% overeenkomst). U kunt de precisie ook aanpassen en instellen in stappen van 1%.

Exacte matchvoorwaarden

Eerst worden de exacte matchvoorwaarden uitgevoerd om een kleinere set waarden voor fuzzy matches te verkrijgen. Om effectief te zijn, moeten de exacte overeenkomstvoorwaarden in redelijke mate uniek zijn. Als al uw klanten bijvoorbeeld in hetzelfde land/dezelfde regio wonen, helpt een exacte match op basis van het land/de regio niet om het bereik te beperken.

Kolommen zoals volledige naam, e-mailadres, telefoonnummer of adresvelden hebben een goede uniciteit en zijn geweldige kolommen om te gebruiken als exacte match.

Zorg ervoor dat de kolom die u gebruikt voor een exacte overeenkomstvoorwaarde geen waarden bevat die vaak worden herhaald, zoals de standaardwaarde 'Voornaam' die door een formulier wordt vastgelegd. Met klantinzichten kunt u gegevenskolommen profileren om inzicht te krijgen in de meest voorkomende waarden. U kunt gegevensprofilering inschakelen voor Azure Data Lake-verbindingen (met behulp van Common Data Model of Delta-indeling) en Synapse. Het gegevensprofiel wordt uitgevoerd wanneer gegevensbron de volgende keer wordt vernieuwd. Voor meer informatie, ga naar Gegevensprofilering.

Fuzzy-matching

Gebruik fuzzy matching om strings te matchen die Sluiten zijn, maar niet exact zijn vanwege typefouten of andere kleine variaties. Gebruik fuzzy matching strategisch, omdat het langzamer is dan exacte matches. Zorg ervoor dat er in elke regel met fuzzy-voorwaarden minimaal één exacte match-voorwaarde is.

Fuzzy matching is niet bedoeld om naamvarianten zoals Suzzie en Suzanne vast te leggen. Deze variaties worden beter vastgelegd met het normalisatiepatroon Type: Naam of de aangepaste Alias-matching waarbij klanten hun lijst met naamvariaties kunnen invoeren die ze als matches willen beschouwen.

U kunt voorwaarden aan een regel toevoegen, zoals het matchen van FirstName en Telefoon. Voorwaarden binnen een bepaalde regel zijn "EN"-voorwaarden. Alle voorwaarden moeten overeenkomen, anders komen de rijen niet overeen. Afzonderlijke regels zijn 'OF'-voorwaarden. Als regel 1 niet overeenkomt met de rijen, dan worden de rijen vergeleken met regel 2.

Notitie

Alleen kolommen met het gegevenstype tekenreeks kunnen fuzzy overeenkomst gebruiken. Voor kolommen met andere gegevenstypen, zoals integer, double of datetime, is het precisieveld alleen-lezen en ingesteld op de exacte match.

Berekeningen bij fuzzy overeenkomst

Fuzzy matches worden bepaald door de bewerkingsafstandsscore tussen twee strings te berekenen. Als de score de nauwkeurigheidsdrempel haalt of overschrijdt, worden de snaren als overeenkomend beschouwd.

De bewerkingsafstand is het aantal bewerkingen dat nodig is om de ene tekenreeks om te zetten in een andere tekenreeks, door een teken toe te voegen, te verwijderen of te wijzigen.

De strings "Jacqueline" en "Jaclyne" hebben bijvoorbeeld een bewerkingsafstand van vijf wanneer we de tekens q, u, e, i en e verwijderen en het teken y invoegen.

Om de bewerkingsafstandsscore te berekenen, gebruikt u deze formule: (basissnaarlengte – bewerkingsafstand) / basissnaarlengte.

Basistekenreeks Vergelijkingstekenreeks Score
Jacqueline Jaclyne (10-4)/10=0,6
fred@contoso.com fred@contso.cm (14-2) / 14 = 0,857
franklin frank (8-3) / 8 = 0,625