Del via


Fjerne duplikater i hver tabell for dataforening

Trinnet for dedupliseringsregler for samling finner og fjerner duplikatoppføringer for en kunde fra en kildetabell, slik at hver kunde representeres med én rad i hver tabell. Hver tabell dedupliseres separat ved hjelp av regler for å identifisere oppføringene for en gitt kunde.

Regler behandles i rekkefølge. Når alle reglene er kjørt på alle oppføringene i en tabell, kombineres grupper som deler en felles rad, til én enkelt samsvarsgruppe.

Definer dedupliseringsregler

En god regel identifiserer en unik kunde. Vurder dataene dine. Det kan være nok til å identifisere kunder basert på et felt, for eksempel e-post. Hvis du vil skille mellom kunder som deler en e-post, kan du imidlertid velge å ha en regel med to betingelser som samsvarer med Email + FirstName. Hvis du vil ha mer informasjon, kan du se Dedupliseringskonsepter og -scenarioer.

  1. Velg en tabell på siden Dedupliseringsregler, og velg Legg til regel for å definere dedupliseringsreglene.

    Tips

    Hvis du supplerte tabeller på datakildenivå for å forbedre foreningsresultatene, velger du Bruk supplerte tabeller på toppen av siden. Hvis du vil ha mer informasjon, kan du se Supplering for datakilder.

    Skjermbilde av siden for dedupliseringsregler med tabell uthevet og Legg til regel vist

    1. Angi følgende informasjon i ruten Legg til regel:

      • Velg felt: Velg fra listen over tilgjengelige felter fra tabellen du vil søke etter duplikater for. Velg felter som sannsynligvis er unike for hver enkelt kunde. For eksempel en e-postadresse eller en kombinasjon av navn, poststed og telefonnummer.
      • Normaliser: Velg normaliseringsalternativer for kolonnen. Normalisering påvirker bare det samsvarstrinnet og endrer ikke dataene.
        • Tall: Konverterer mange Unicode-symboler som representerer tall til enkle tall.
        • Symboler: Fjerner mange vanlige symboler, for eksempel !"#$%&'()*+,-./:;<=>?@[]^_`{|}~. For eksempel Head&Shoulder blir HeadShoulder.
        • Tekst til små bokstaver: Konverterer alle tegn til små bokstaver. BARE STORE BOKSTAVER og Store forbokstaver blir bare store bokstaver og store forbokstaver.
        • Type (telefon, navn, adresse, organisasjon): standardiserer navn, titler, telefonnumre, adresser osv.
        • Unicode til ASCII: Konverterer Unicode-tegn til tilsvarende ASCII-tegn. Den aksenterte ề konverteres for eksempel til e-tegnet.
        • Mellomrom: Fjerner alle mellomrom. Hello World blir HelloWorld.
      • Presisjon: Angir presisjonsnivået. Presisjon brukes med tilnærmet samsvar, og avgjør hvor nært to strenger må være for å bli betraktet som et samsvar.
        • Grunnleggende: Velg mellom Lav (30 %), Middels (60 %), Høy (80 %) og Nøyaktig (100 %). Velg Eksakt for å samsvare bare med oppføringer som samsvarer med 100 prosent.
        • Egendefinert: Angi en prosentandel som oppføringer må samsvare med. Systemet samsvarer bare med oppføringer som passerer denne terskelen.
      • Navn: Navn for regelen.

      Skjermbilde av ruten Legg til regel for fjerning av duplikater.

    2. Du kan eventuelt velge Legg til>Legg til betingelse for å legge til flere betingelser i regelen. Betingelser er koblet til en logisk OG-operator og kjøres derfor bare hvis alle betingelser er oppfylt.

    3. Legg til>Legg til unntak for å legge til unntak i regelen. Unntak brukes til å løse sjeldne tilfeller av falske positive og falske negativer.

    4. Velg Ferdig for å opprette regelen.

  2. Du kan eventuelt legge til flere regler.

  3. Velg en tabell og deretter Rediger fletteinnstillinger.

  4. I ruten Fletteinnstillinger:

    1. Velg et av tre alternativer for å bestemme hvilken oppføring som skal beholdes hvis det blir funnet et duplikat:

      • Mest fylte: Identifiserer oppføringen med de mest utfylte kolonnene som vinneroppføringen. Dette er standardalternativet for sammenslåing.
      • Nyeste: Identifiserer vinneroppføringen, basert på den nyeste oppføringen. Krever en dato eller et numerisk felt for å definere den nyeste.
      • Minst nylig: Identifiserer vinneroppføringen, basert på den minst nye oppføringen. Krever en dato eller et numerisk felt for å definere den nyeste.

      Ved uavgjort er vinneroppføringen den med MAX(PK) eller den største primærnøkkelverdien.

    2. Hvis du eventuelt vil definere fletteinnstillinger for individuelle kolonner for en tabell, velger du Avansert nederst i ruten. Du kan for eksempel velge å beholde den nyeste e-postadressen OG den mest fullstendige adressen fra forskjellige oppføringer. Utvid tabellen for å vise alle kolonnene, og definer hvilket alternativ som skal brukes for enkeltkolonner. Hvis du velger et besøksbasert alternativ, må du også angi et dato-/klokkeslettfelt som definerer ventetiden.

      Ruten Avanserte fletteinnstillinger som viser den nyeste e-posten og den mest fullstendige adressen

    3. Velg Ferdig for å ta i bruk fletteinnstillingene.

  5. Når du har definert dedupliseringsreglene og fletteinnstillingene, velger du Neste.