Deli putem


Uklanjanje duplikata u svakoj tabeli radi ujedinjenja podataka

Pravila Deduplikacije korak ujedinjenja pronalazi i uklanja duplirane zapise za kupca iz izvorne tabele tako da svaki kupac bude predstavljen jednim redom u svakoj tabeli. Svaka tabela se posebno dedulikuje pomoću pravila za identifikaciju zapisa za datog kupca.

Pravila se obrađuju redom. Nakon što su sva pravila pokrenuti na svim zapisima u tabeli, grupe podudaranja koje dele zajednički red kombinuju se u jednu grupu podudaranja.

Definisanje pravila deduplikacije

Dobro pravilo identifikuje jedinstvenog kupca. Razmislite o svojim podacima. To može biti dovoljno da identifikujete kupce na osnovu polja kao što je e-pošta. Međutim, ako želite da razlikujete klijente koji dele e-poruku, možda ćete odabrati da imate pravilo pod dva uslova, koje se podudaraju na e-poruci + Ime. Više informacija potražite u članku Deduplication koncepti i scenariji.

  1. Na stranici Pravila Deduplikacije izaberite tabelu i izaberite opciju Dodaj pravilo da biste definisali pravila deduplikacije.

    Napojnica

    Ako ste obogatili tabele na izvor podataka nivou da biste poboljšali rezultate ujedinjenja, izaberite opciju Korišćenje obogaćenih tabela na vrhu stranice. Više informacija potražite u članku Obogaćivanje izvora podataka.

    Prikazan je snimak ekrana stranice sa pravilima Deduplication sa istaknutom tabelom i prikazanim pravilom

    1. U okno "Dodavanje pravila" unesite sledeće informacije:

      • Polje izaberite: Odaberite sa liste dostupnih polja iz tabele za koja želite da proverite da li postoje duplikati. Odaberite polja koja su verovatno jedinstvena za svakog klijenta. Na primer, adresa e-pošte ili kombinacija imena, grada i broja telefona.
      • Normalizacija: Izaberite opcije normalizacije za kolonu. Normalizacija utiče samo na korak podudaranja i ne menja podatke.
        • Brojevi: Konvertuje mnoge Unikod simbole koji predstavljaju brojeve u jednostavne brojeve.
        • Simboli: Uklanja mnoge uobičajene simbole kao što su !" #$%&'()*+,-./:;<=>?@[]^_'{|}~. Na primer, Head&Shoulder postaje HeadShoulder.
        • Tekst u manju sloћenja: Konvertuje sve znakove u niћa sliиna sloћenja. "SVA VELIKA SLOVA i predmeti naslova" postaju "sva velika slova i predmet naslova".
        • Tip (Telefon, Ime, Adresa, Organizacija): Standardizuje imena, naslove, brojeve telefona, adrese itd.
        • Unikod u ASCII: Konvertuje Unikod znakove u ASCII ekvivalent. Na primer, naglašeni ề pretvara u e znak.
        • Razmak: Uklanja sve razmake. Hello World postaje HelloWorld.
      • Preciznost: Podesite nivo preciznosti. Preciznost se koristi sa nejasnim podudaranjem i određuje koliko dve niske treba da budu blizu da bi se smatrale podudaranjem.
        • Osnovno: Odaberitesa niskih (30%) ,Srednje (60%) ,High (80%) , iExact (100%) . Izaberite opciju Tačno da bi se podudarali samo sa zapisima koji se podudaraju sa 100 procenata.
        • Prilagođeno: Postavite procenat koji zapisi treba da se podudaraju. Sistem se podudara samo sa zapisima koji prelaze ovaj prag.
      • Ime: Ime za pravilo.

      Snimak ekrana okna za dodavanje pravila za uklanjanje duplikata.

    2. Opcionalno, izaberite opciju>Dodaj uslov da biste u pravilo dodali još uslova. Uslovi su povezani sa logičkim operatorom I, pa se stoga izvršavaju samo ako su ispunjeni svi uslovi.

    3. Opcionalno, dodaj>izuzetak da bi se u pravilo dodali izuzeci. Izuzeci se koriste za rešavanje retkih slučajeva lažnih pozitivnih i lažnih negativnosti.

    4. Kliknite na dugme "Gotovo" da biste kreirali pravilo.

  2. Opcionalno, dodajte još pravila.

  3. Izaberite tabelu, a zatim uredite željene opcije objedinjavanja.

  4. U oknu " Objedini željene postavke":

    1. Odaberite jednu od tri opcije da biste odredili koji zapis ćete voditi ako je pronađen duplikat:

      • Najizapunjeniji: Identifikuje zapis sa većinom naseljenih kolona kao zapis pobednika. To je podrazumevana opcija objedinjavanja.
      • Najnovije: Identifikuje zapis pobednika na osnovu najviše ponovne posledice. Zahteva datum ili numeričko polje za definisanje skorašnjosti.
      • Najmanje skorašnje: identifikuje zapis pobednika na osnovu najmanjeg ponovne posledice. Zahteva datum ili numeričko polje za definisanje skorašnjosti.

      Ako postoji nerešen rezultat, zapis pobednika je onaj sa MAKS(PK) ili većom vrednošću primarnog ključa.

    2. Opcionalno, da biste definisali željene opcije objedinjavanja u pojedinačnim kolonama tabele , kliknite na dugme "Više opcija" na dnu okna. Na primer, možete odabrati da zadržite najnoviju e-poštu i najdetaljiviju adresu iz različitih zapisa. Razvijte tabelu da biste videli sve njene kolone i definisali koju opciju da koristite za pojedinačne kolone. Ako odaberete opciju zasnovanu na recenciji, potrebno je da navedete i polje datuma/vremena koje definiše recenciont.

      Okno sa više opcija za objedinjavanje koje prikazuje nedavnu e-poštu i kompletnu adresu

    3. Kliknite na dugme " Gotovo" da biste primenili željene postavke objedinjavanja.

  5. Nakon definisanja pravila deduplikacije i željenih opcija objedinjavanja, kliknite na dugme Dalje .