Fjerne duplikater i hver tabell for dataforening

Artikkel
07/23/2024

Trinnet for dedupliseringsregler for samling finner og fjerner duplikatoppføringer for en kunde fra en kildetabell, slik at hver kunde representeres med én rad i hver tabell. Hver tabell dedupliseres separat ved hjelp av regler for å identifisere oppføringene for en gitt kunde.

Regler behandles i rekkefølge. Når alle reglene er kjørt på alle oppføringene i en tabell, kombineres grupper som deler en felles rad, til én enkelt samsvarsgruppe.

Definer dedupliseringsregler

En god regel identifiserer en unik kunde. Vurder dataene dine. Det kan være nok til å identifisere kunder basert på et felt, for eksempel e-post. Hvis du vil skille mellom kunder som deler en e-post, kan du imidlertid velge å ha en regel med to betingelser som samsvarer med Email + FirstName. Hvis du vil ha mer informasjon, kan du se Anbefalte fremgangsmåter for deduplisering.

Velg en tabell på siden Dedupliseringsregler, og velg Legg til regel for å definere dedupliseringsreglene.

Tips

Hvis du supplerte tabeller på datakildenivå for å forbedre foreningsresultatene, velger du Bruk supplerte tabeller på toppen av siden. Hvis du vil ha mer informasjon, kan du se Supplering for datakilder.
1. Angi følgende informasjon i ruten Legg til regel:
  - Velg felt: Velg fra listen over tilgjengelige felter fra tabellen du vil søke etter duplikater for. Velg felter som sannsynligvis er unike for hver enkelt kunde. For eksempel en e-postadresse eller en kombinasjon av navn, poststed og telefonnummer.
  - Normaliser: Velg normaliseringsalternativer for kolonnen. Normalisering påvirker bare det samsvarstrinnet og endrer ikke dataene.
    - Tall: Konverterer Unicode-symboler som representerer tall, til enkle tall.
    - Symboler: Fjerner symboler og spesialtegn som !" #$%&'()*+,-./:;<=>?@[]^_'{|}~. For eksempel Head&Shoulder blir HeadShoulder.
    - Tekst til små bokstaver: Konverterer store bokstaver til små bokstaver. BARE STORE BOKSTAVER og Store forbokstaver blir bare store bokstaver og store forbokstaver.
    - Type (Telefon, Navn, Adresse, Organisasjon): Standardiserer navn, titler, telefonnumre og adresser.
    - Unicode til ASCII: Konverterer Unicode-tegn til ASCII-bokstavekvivalent. Den aksenterte ề konverteres for eksempel til e-tegnet.
    - Mellomrom: Fjerner alle mellomrom. Hello World blir HelloWorld.
    - Alias-tildeling: Lar deg laste opp en egendefinert liste over strengpar for å indikere strenger som alltid skal betraktes som et eksakt samsvar.
    - Egendefinert omgåelse: Lar deg laste opp en egendefinert liste over strenger for å indikere strenger som aldri skal samsvare.
  - Presisjon: Angir presisjonsnivået. Presisjon brukes for eksakt samsvar og fuzzy-matching, og bestemmer hvor nærme to strenger må være for å bli ansett som et samsvar.
    - Grunnleggende: Velg mellom Lav (30 %), Middels (60 %), Høy (80 %) og Nøyaktig (100 %). Velg Eksakt for å samsvare bare med oppføringer som samsvarer med 100 prosent.
    - Egendefinert: Angi en prosentandel som oppføringer må samsvare med. Systemet samsvarer bare med oppføringer som passerer denne terskelen.
  - Navn: Navn for regelen.
2. Du kan eventuelt velge Legg til>Legg til betingelse for å legge til flere betingelser i regelen. Betingelser er koblet til en logisk OG-operator og kjøres derfor bare hvis alle betingelser er oppfylt.
3. Legg til>Legg til unntak for å legge til unntak i regelen. Unntak brukes til å løse sjeldne tilfeller av falske positive og falske negativer.
4. Velg Ferdig for å opprette regelen.
Du kan eventuelt legge til flere regler.
Velg en tabell og deretter Rediger fletteinnstillinger.
I ruten Fletteinnstillinger:
1. Velg et av tre alternativer for å bestemme hvilken oppføring som skal beholdes hvis det blir funnet et duplikat:
  - Mest fylte: Identifiserer oppføringen med de mest utfylte kolonnene som vinneroppføringen. Dette er standardalternativet for sammenslåing.
  - Nyeste: Identifiserer vinneroppføringen, basert på den nyeste oppføringen. Krever en dato eller et numerisk felt for å definere den nyeste.
  - Minst nylig: Identifiserer vinneroppføringen, basert på den minst nye oppføringen. Krever en dato eller et numerisk felt for å definere den nyeste.
  Ved uavgjort er vinneroppføringen den med MAX(PK) eller den største primærnøkkelverdien.
2. Hvis du eventuelt vil definere fletteinnstillinger for individuelle kolonner for en tabell, velger du Avansert nederst i ruten. Du kan for eksempel velge å beholde den nyeste e-postadressen OG den mest fullstendige adressen fra forskjellige oppføringer. Utvid tabellen for å vise alle kolonnene, og definer hvilket alternativ som skal brukes for enkeltkolonner. Hvis du velger et besøksbasert alternativ, må du også angi et dato-/klokkeslettfelt som definerer ventetiden.
3. Velg Ferdig for å ta i bruk fletteinnstillingene.
Når du har definert dedupliseringsreglene og fletteinnstillingene, velger du Neste.

Neste trinn for en enkelt tabell: Se enhetlige data

Neste trinn for flere tabeller: Definer samsvarsregler

Del via

Fjerne duplikater i hver tabell for dataforening

Definer dedupliseringsregler

Flere ressurser