Fjerne duplikater i hver tabell for dataforening
Trinnet for dedupliseringsregler for samling finner og fjerner duplikatoppføringer for en kunde fra en kildetabell, slik at hver kunde representeres med én rad i hver tabell. Hver tabell dedupliseres separat ved hjelp av regler for å identifisere oppføringene for en gitt kunde.
Regler behandles i rekkefølge. Når alle reglene er kjørt på alle oppføringene i en tabell, kombineres grupper som deler en felles rad, til én enkelt samsvarsgruppe.
Definer dedupliseringsregler
En god regel identifiserer en unik kunde. Vurder dataene dine. Det kan være nok til å identifisere kunder basert på et felt, for eksempel e-post. Hvis du vil skille mellom kunder som deler en e-post, kan du imidlertid velge å ha en regel med to betingelser som samsvarer med Email + FirstName. Hvis du vil ha mer informasjon, kan du se Dedupliseringskonsepter og -scenarioer.
Velg en tabell på siden Dedupliseringsregler, og velg Legg til regel for å definere dedupliseringsreglene.
Tips
Hvis du supplerte tabeller på datakildenivå for å forbedre foreningsresultatene, velger du Bruk supplerte tabeller på toppen av siden. Hvis du vil ha mer informasjon, kan du se Supplering for datakilder.
Angi følgende informasjon i ruten Legg til regel:
- Velg felt: Velg fra listen over tilgjengelige felter fra tabellen du vil søke etter duplikater for. Velg felter som sannsynligvis er unike for hver enkelt kunde. For eksempel en e-postadresse eller en kombinasjon av navn, poststed og telefonnummer.
- Normaliser: Velg normaliseringsalternativer for kolonnen. Normalisering påvirker bare det samsvarstrinnet og endrer ikke dataene.
- Tall: Konverterer mange Unicode-symboler som representerer tall til enkle tall.
- Symboler: Fjerner mange vanlige symboler, for eksempel !"#$%&'()*+,-./:;<=>?@[]^_`{|}~. For eksempel Head&Shoulder blir HeadShoulder.
- Tekst til små bokstaver: Konverterer alle tegn til små bokstaver. BARE STORE BOKSTAVER og Store forbokstaver blir bare store bokstaver og store forbokstaver.
- Type (telefon, navn, adresse, organisasjon): standardiserer navn, titler, telefonnumre, adresser osv.
- Unicode til ASCII: Konverterer Unicode-tegn til tilsvarende ASCII-tegn. Den aksenterte ề konverteres for eksempel til e-tegnet.
- Mellomrom: Fjerner alle mellomrom. Hello World blir HelloWorld.
- Presisjon: Angir presisjonsnivået. Presisjon brukes med tilnærmet samsvar, og avgjør hvor nært to strenger må være for å bli betraktet som et samsvar.
- Grunnleggende: Velg mellom Lav (30 %), Middels (60 %), Høy (80 %) og Nøyaktig (100 %). Velg Eksakt for å samsvare bare med oppføringer som samsvarer med 100 prosent.
- Egendefinert: Angi en prosentandel som oppføringer må samsvare med. Systemet samsvarer bare med oppføringer som passerer denne terskelen.
- Navn: Navn for regelen.
Du kan eventuelt velge Legg til>Legg til betingelse for å legge til flere betingelser i regelen. Betingelser er koblet til en logisk OG-operator og kjøres derfor bare hvis alle betingelser er oppfylt.
Legg til>Legg til unntak for å legge til unntak i regelen. Unntak brukes til å løse sjeldne tilfeller av falske positive og falske negativer.
Velg Ferdig for å opprette regelen.
Du kan eventuelt legge til flere regler.
Velg en tabell og deretter Rediger fletteinnstillinger.
I ruten Fletteinnstillinger:
Velg et av tre alternativer for å bestemme hvilken oppføring som skal beholdes hvis det blir funnet et duplikat:
- Mest fylte: Identifiserer oppføringen med de mest utfylte kolonnene som vinneroppføringen. Dette er standardalternativet for sammenslåing.
- Nyeste: Identifiserer vinneroppføringen, basert på den nyeste oppføringen. Krever en dato eller et numerisk felt for å definere den nyeste.
- Minst nylig: Identifiserer vinneroppføringen, basert på den minst nye oppføringen. Krever en dato eller et numerisk felt for å definere den nyeste.
Ved uavgjort er vinneroppføringen den med MAX(PK) eller den største primærnøkkelverdien.
Hvis du eventuelt vil definere fletteinnstillinger for individuelle kolonner for en tabell, velger du Avansert nederst i ruten. Du kan for eksempel velge å beholde den nyeste e-postadressen OG den mest fullstendige adressen fra forskjellige oppføringer. Utvid tabellen for å vise alle kolonnene, og definer hvilket alternativ som skal brukes for enkeltkolonner. Hvis du velger et besøksbasert alternativ, må du også angi et dato-/klokkeslettfelt som definerer ventetiden.
Velg Ferdig for å ta i bruk fletteinnstillingene.
Når du har definert dedupliseringsreglene og fletteinnstillingene, velger du Neste.