Duplicaten verwijderen in elke tabel voor gegevensharmonisatie
Met de stap Ontdubbelingsregels van harmonisatie worden dubbele records voor een klant uit een brontabel gevonden en verwijderd, zodat elke klant in elke tabel door één rij wordt vertegenwoordigd. Elke tabel wordt afzonderlijk ontdubbeld met behulp van regels om de records voor een bepaalde klant te identificeren.
Regels worden op volgorde verwerkt. Nadat alle regels zijn toegepast op alle records in een tabel, worden overeenkomstgroepen die een gemeenschappelijke rij delen, gecombineerd tot een enkele overeenkomstgroep.
Ontdubbelingsregels definiëren
Een goede regel identificeert een unieke klant. Bekijk uw gegevens. Het kan voldoende zijn om klanten te identificeren op basis van een veld zoals e-mail. Als u echter onderscheid wilt maken tussen klanten die een e-mailadres delen, kunt u ervoor kiezen om een regel te hebben met twee voorwaarden, overeenkomend met Email + FirstName. Zie Praktische tips voor ontdubbeling voor meer informatie.
Selecteer op de pagina Ontdubbelingsregels een tabel en selecteer Regel toevoegen om de ontdubbelingsregels te definiëren.
Tip
Als u tabellen op gegevensbronniveau hebt verrijkt om uw harmonisatieresultaten te verbeteren, selecteert u Verrijkte tabellen gebruiken boven aan de pagina. Zie Verrijking voor gegevensbronnen voor meer informatie.
Vul in het deelvenster Regel toevoegen de volgende gegevens in:
Veld selecteren: maak uw keuze in de lijst met beschikbare velden van de tabel die u op duplicaten wilt controleren. Kies velden die waarschijnlijk uniek zijn voor elke afzonderlijke klant, bijvoorbeeld een e-mailadres of de combinatie van naam, plaats en telefoonnummer.
Normaliseren: Selecteer normalisatieopties voor de kolom. Normalisatie heeft alleen invloed op de afstemmingsstap en verandert de gegevens niet.
- Cijfers: Converteert Unicode-symbolen die getallen vertegenwoordigen naar eenvoudige getallen.
- Symbolen: Verwijdert symbolen en speciale tekens zoals !"#$%&'()*+,-./:;<=>? @[]^_`{|}~. Zo wordt Hoofd&Schouder bijvoorbeeld HoofdSchouder.
- Tekst naar kleine letters: Converteert hoofdletters naar kleine letters. "HOOFDLETTERS en Beginhoofdletters" wordt "hoofdletters en beginhoofdletters".
- Type (telefoon, naam, adres, organisatie): standaardiseert namen, titels, telefoonnummers en adressen.
- Unicode naar ASCII: Converteert Unicode-tekens naar hun ASCII-letterequivalent. De geaccentueerde ề wordt bijvoorbeeld omgezet in het e-teken.
- Spatie: verwijdert alle spaties. Hallo wereld wordt Hallowereld.
- Alias toewijzing: Hiermee kunt u een aangepaste lijst met tekenreeksparen uploaden om tekenreeksen aan te geven die altijd als een exacte overeenkomst moeten worden beschouwd.
- Aangepaste bypass: Hiermee kunt u een aangepaste lijst met tekenreeksen uploaden om tekenreeksen aan te geven die nooit mogen worden gematcht.
Precisie: stel het precisieniveau in. precisie wordt gebruikt voor exacte overeenkomsten en fuzzy overeenkomsten, en bepaalt hoe Sluiten twee tekenreeksen moeten zijn om als overeenkomst te worden beschouwd.
- Basis: kies uit Laag (30%), Gemiddeld (60%), Hoog (80%) en Exact (100%). Selecteer Exact om alleen records af te stemmen die voor 100 procent overeenkomen.
- Aangepast: stel een percentage in waaraan records moeten voldoen. Alleen records die deze drempel halen, worden vergeleken.
Naam: naam voor de regel.
Selecteer desgewenst Toevoegen>Voorwaarde toevoegen om meer voorwaarden aan de regel toe te voegen. Voorwaarden zijn verbonden met een logische EN-operator en worden dus alleen uitgevoerd als aan alle voorwaarden is voldaan.
Kies desgewenst Toevoegen>Uitzondering toevoegen om uitzonderingen aan de regel toe te voegen. Uitzonderingen worden gebruikt om zeldzame gevallen van valse positieven en valse negatieven aan te pakken.
Selecteer Gereed om de regel te maken.
U kunt ook meer regels toevoegen.
Selecteer een tabel en vervolgens Voorkeuren voor samenvoegen bewerken.
In het deelvenster Voorkeuren voor samenvoegen:
Kies een van de drie opties om te bepalen welke record moet worden bewaard als er een duplicaat wordt gevonden:
- Meest gevuld: identificeert de record met de meeste gevulde kolommen als de winnende record. Dit is de standaard samenvoegingsoptie.
- Meest recent: identificeert het winnende record op basis van recentheid. Vereist een datum of een numeriek veld om de recentheid te definiëren.
- Minst recent: identificeert het winnende record op basis van minst recent zijn. Vereist een datum of een numeriek veld om de recentheid te definiëren.
Bij een gelijke stand is de winnende record degene met de MAX(PK) of de grotere primaire-sleutelwaarde.
Selecteer om samenvoegvoorkeuren te definiëren voor individuele kolommen van een tabel desgewenst Geavanceerd onder aan het deelvenster. U kunt er bijvoorbeeld voor kiezen om de meest recente e-mail EN het meest volledige adres uit verschillende records te bewaren. Vouw de tabel uit om alle kolommen ervan te bekijken en definieer welke optie moet worden gebruikt voor afzonderlijke kolommen. Als u een op recentheid gebaseerde optie kiest, moet u ook een datum-/tijdveld opgeven dat de recentheid definieert.
Selecteer Gereed om uw samenvoegvoorkeuren toe te passen.
Na het definiëren van de ontdubbelingsregels en samenvoegvoorkeuren, selecteert u Volgende.