Dijeli putem


Uklanjanje duplikata u svakoj tablici radi objedinjavanja podataka

Korak objedinjavanja pravila uklanjanja dupliciranja pronalazi i uklanja duplicirane zapise za klijenta iz izvorne tablice tako da je svaki klijent predstavljen jednim retkom u svakoj tablici. Svaka se tablica zasebno uklanja pomoću pravila za identifikaciju zapisa za određenog klijenta.

Pravila se obrađuju redom. Nakon što se sva pravila pokrenu na svim zapisima u tablici, grupe podudaranja koje dijele zajednički redak spajaju se u jednu grupu podudaranja.

Definirajte pravila uklanjanja duplikata

Dobro pravilo identificira jedinstvenog kupca. Razmotrite svoje podatke. Možda će biti dovoljno identificirati kupce na temelju polja kao što je e-pošta. Međutim, ako želite razlikovati klijente koji dijele e-poštu, možete odabrati pravilo s dva uvjeta, koji se podudaraju na e-pošta + ime. Dodatne informacije potražite u članku Najbolje prakse za uklanjanje dupliciranja.

  1. Na stranici Pravila uklanjanja duplikata odaberite tablicu i odaberite Dodaj pravilo da biste definirali pravila uklanjanja štete.

    Savjet

    Ako ste obogatili tablice na razini izvora podataka da biste poboljšali rezultate objedinjavanja, odaberite Koristi obogaćene tablice pri vrhu stranice. Dodatne informacije potražite u članku Obogaćivanje izvora podataka.

    Snimka zaslona stranice s pravilima deduplikacije s istaknutom tablicom i prikazanim dodavanjem pravila

    1. U oknu Dodavanje pravila unesite sljedeće podatke:

      • Odabir polja: Odaberite s popisa dostupnih polja iz tablice za koje želite provjeriti ima li duplikata. Odaberite polja koja su vjerojatno jedinstvena za svakog pojedinog klijenta. Na primjer, adresa e-pošte ili kombinacija imena, grada i telefonskog broja.

      • Normalizacija: Odaberite mogućnosti normalizacije za stupac. Normalizacija utječe samo na korak podudaranja i ne mijenja podatke.

        • Brojevi: pretvara Unicode simbole koji predstavljaju brojeve u jednostavne brojeve.
        • Simboli: Uklanja simbole i posebne znakove kao što su !" #$%&'()*+,-./:;<=>?@[]^_'{|}~. Na primjer, Head&Shoulder postaje HeadShoulder.
        • Tekst u mala slova: pretvara velika slova u mala. "SVA VELIKA SLOVA i Title Case" postaju "sva velika slova i naslov".
        • Vrsta (Telefon, Ime, Adresa, Organizacija): Standardizira imena, titule, telefonske brojeve i adrese.
        • Unicode u ASCII: pretvara Unicode znakove u njihov ASCII ekvivalent slova. Na primjer, naglašeni ề pretvara se u znak e.
        • Razmak: Uklanja sve razmake. Hello World postaje HelloWorld.
        • mapiranje aliasa: omogućuje vam prijenos prilagođenog popisa parova nizova kako biste označili nizove koji bi se uvijek trebali smatrati točnim podudaranjem.
        • Prilagođeno zaobilaženje: omogućuje vam prijenos prilagođenog popisa nizova kako biste označili nizove koji se nikada ne bi trebali podudarati.
      • Preciznost: Postavite razinu preciznosti. Preciznost se koristi za točno podudaranje i neizrazito podudaranje i određuje koliko blizu moraju biti dva niza da bi se smatrala podudaranjem.

        • Osnovno: Odaberite između niske (30%), srednje (60%), visoke (80%) i točne (100%). Odaberite Točno da biste podudarali samo zapise koji se podudaraju sa 100 posto.
        • Prilagođeno: postavite postotak koji se zapisi moraju podudarati. Sustav odgovara samo zapisima koji prelaze ovaj prag.
      • Naziv: Naziv pravila.

      Snimka zaslona okna Dodaj pravilo za uklanjanje duplikata.

    2. Po želji odaberite Dodaj>uvjet Dodaj da biste dodali više uvjeta pravilu. Uvjeti su povezani logičkim operatorom AND i stoga se izvršavaju samo ako su ispunjeni svi uvjeti.

    3. Po želji,Dodaj > Dodaj iznimku da biste dodali iznimke pravilu. Iznimke se koriste za rješavanje rijetkih slučajeva lažno pozitivnih i lažno negativnih rezultata.

    4. Odaberite Gotovo da biste stvorili pravilo.

  2. Po želji dodajte još pravila.

  3. Odaberite tablicu, a zatim Uredi postavke spajanja.

  4. U oknu preferenci spajanja:

    1. Odaberite jednu od tri mogućnosti da biste odredili koji zapis zadržati ako se pronađe duplikat:

      • Najpopunjeniji: identificira zapis s najviše popunjenih stupaca kao pobjednički zapis. To je zadana mogućnost spajanja.
      • Najnoviji: identificira pobjednički rekord na temelju najnovijeg datuma. Zahtijeva datum ili numeričko polje za definiranje nedavnosti.
      • Najmanje nedavno: identificira pobjednički rekord na temelju najmanje nedavnosti. Zahtijeva datum ili numeričko polje za definiranje nedavnosti.

      Ako je izjednačeno, pobjednički zapis je onaj s MAX(PK) ili većom vrijednošću primarnog ključa.

    2. Po želji, da biste definirali postavke spajanja za pojedinačne stupce tablice, odaberite Napredno pri dnu okna. Na primjer, možete odabrati zadržavanje najnovije e-pošte I najpotpunije adrese iz različitih zapisa. Proširite tablicu da biste vidjeli sve njezine stupce i definirajte koju ćete mogućnost koristiti za pojedinačne stupce. Ako odaberete mogućnost koja se temelji na nedavnosti, morate navesti i polje datuma/vremena koje definira nedavnost.

      Okno s naprednim postavkama spajanja koje prikazuje nedavnu e-poštu i potpunu adresu

    3. Odaberite Gotovo da biste primijenili postavke spajanja.

  5. Nakon definiranja pravila deduplikacije i preferenci spajanja, odaberite Dalje .