Ta bort dubbletter i varje tabell för dataidentifiering

Artikel
01/31/2024

Steget Dedupliceringsregler av sammanslagningen hittar och tar bort dubblettposter för en kund från en källtabell så att varje kund representeras av en enda rad i varje tabell. Varje tabell avgränsas separat med hjälp av regler för att identifiera posterna för en viss kund.

Regler bearbetas i ordning. När alla regler har körts på alla poster i en tabell kombineras matchningsgrupper som delar en gemensam rad till en enskild matchningsgrupp.

Definiera regler för deduplicering

En bra regel identifierar en unik kund. Tänk på dina uppgifter. Det kan räcka att identifiera kunder baserat på ett fält som e-post. Om du vill särskilja kunder som delar ett e-postmeddelande kan du välja att ha en regel med två villkor som matchar i E-post + FirstName. Mer information finns i Begrepp och scenarier för deduplicering.

På sidan Dedupliceringsregler markerar du en tabell och väljer Lägg till regel för att definiera dubblettreglerna.

Dricks

Om du har förädlat tabeller på datakälla nivå för att förbättra resultaten markerar du Använd berikade tabeller längst upp på sidan. Mer information: Berikande för datakällor.
1. I fönstret Lägg till regel, ange följande information:
  - Välj fält: Välj i listan över tillgängliga fält från den tabell som du vill söka efter dubbletter i. Välj fält som troligen är unika för varje enskild kund. Till exempel en e-postadress eller kombinationen av namn, ort och telefonnummer.
  - Normalisera: Välj normaliseringsalternativ för kolumn. Normaliseringen påverkar endast det matchande steget och data ändras inte.
    - Numeriska: Konverterar många Unicode-symboler som representerar tal till enkla tal.
    - Symboler: Tar bort många vanliga symboler, till exempel !"#$%&'()*+,-./:;<=>?@[]^_`{|}~. Till exempel, Head&Shoulder blir HeadShoulder.
    - Text till gemener: Konverterar alla tecken till gemener. "ALLA VERSALER och rubriker" blir "alla versaler och rubriker."
    - Typ (telefon, namn, adress, organisation): Standardiserar namn, titlar, telefonnummer, adresser osv.
    - Unicode till ASCII: Konverterar Unicode-tecken till deras ASCII-motsvarighet. Exempelvis konverteras ề till e-tecknet.
    - Tomt utrymme: Tar bort alla blanksteg. Hello World blir HelloWorld.
  - Precision: Ställ in precisionsnivån. Precision används med fuzzy matchning och bestämmer hur nära två strängar måste vara för att betraktas som en matchning.
    - Grundläggande: Välj mellan Låg (30 %), Medel (60 %), Hög (80 %) och Exakt (100 %). Välj Exakt om du endast vill matcha poster som matchar 100 procent.
    - Anpassad: Ange en procentandel som posterna måste matcha. Systemet matchar endast poster som passerar tröskelvärdet.
  - Namn: Namn för regeln.
2. Alternativt väljer du Lägg till>Lägg till villkor om du vill lägga till fler villkor i regeln. Villkoren är kopplade till en logisk OCH-operator och körs därför endast om alla villkor uppfylls.
3. Alternativt Lägg till>Lägg till undantag till lägga till undantag till regeln. Undantag används för att hantera få fall av falskt positiva och falskt negativa.
4. Välj Klar för att skapa regeln.
Alternativt kan du lägga till fler regler.
Välj en tabellen och redigera inställningarna för kopplade dokument.
I rutan Kopplingsinställningar:
1. Välj ett av tre alternativ för att avgöra vilken post som ska behållas om en dubblett påträffas:
  - Mest ifylld: Identifierar posten med flest befolkade kolumner som vinnarpost. Det här är standardalternativet för sammanfogning.
  - Senaste: Identifierar vinnarpost baserat på aktualitet. Kräver ett datum eller ett numeriskt fält för att definiera aktualitet.
  - Minst aktuell: Identifierar vinnarpost baserat på lägsta aktualitet. Kräver ett datum eller ett numeriskt fält för att definiera aktualitet.
  Vid händelse av en händelse är posten den med MAX(PK) eller det större primärnyckelns värde.
2. Om du vill definiera kopplingsinställningar för enskilda kolumner för en tabell väljer du Avancerat längst ned i fönstret. Du kan till exempel välja att behålla den senaste e-postadressen OCH den mest fullständiga adressen från olika poster. Expandera tabellen för att se alla dess kolumner och definiera vilket alternativ som ska användas för enskilda kolumner. Om du väljer ett recency-baserat alternativ måste du också ange ett datum- och tidsfält som definierar recency.
3. Välj Klart för att tillämpa kopplingsinställningar.
När du har definierat dedupliceringsreglerna och sammanslagningsinställningarna väljer du Nästa.

Nästa steg för en enskild tabell: Visa enhetlig data

Nästa steg för flera tabeller: Definiera matchningsregler

Dela via

Ta bort dubbletter i varje tabell för dataidentifiering

Definiera regler för deduplicering

Ytterligare resurser