Bendrinti naudojant


Dublikatų šalinimas kiekvienoje lentelėje, kad būtų galima suvienodinti duomenis

Suvienijimo taisyklių dublikatų šalinimo veiksmas randa ir pašalina besidubliuojančius kliento įrašus iš šaltinio lentelės, kad kiekvienas klientas būtų pavaizduotas viena kiekvienos lentelės eilute. Kiekviena lentelė dubliuojama atskirai, naudojant taisykles, skirtas konkretaus kliento įrašams identifikuoti.

Taisyklės tvarkomos tvarkingai. Paleidus visas taisykles visiems lentelės įrašams, atitikmenų grupės, kurios turi bendrą eilutę, sujungiamos į vieną atitikties grupę.

Apibrėžkite dublikatų naikinimo taisykles

Gera taisyklė identifikuoja unikalų klientą. Apsvarstykite savo duomenis. Gali pakakti identifikuoti klientus pagal lauką, pvz., el. paštą. Tačiau, jei norite atskirti el. paštą bendrinančius klientus, galite pasirinkti taisyklę su dviem sąlygomis, atitinkančiomis el. paštas + vardas. Norėdami gauti daugiau informacijos, žiūrėkite Geriausios praktikos dublikatų šalinimas.

  1. Puslapyje Taisyklių dublikatų panaikinimas pasirinkite lentelę ir pasirinkite Įtraukti taisyklę , kad apibrėžtumėte dublikatų šalinimo taisykles.

    Arbatpinigiai

    Jei papildėte duomenų šaltinis lygio lenteles, kad pagerintumėte suvienijimo rezultatus, puslapio viršuje pasirinkite Naudoti papildytas lenteles . Daugiau informacijos ieškokite Duomenų šaltinių papildymas.

    Taisyklių dublikatų šalinimo puslapio su paryškinta lentele ir rodoma taisyklės įtraukimo ekrano nuotrauka

    1. Srityje Įtraukti taisyklę įveskite šią informaciją:

      • Pasirinkite lauką: pasirinkite iš galimų laukų sąrašo iš lentelės, kurioje norite tikrinti, ar nėra dublikatų. Pasirinkite laukus, kurie, tikėtina, yra unikalūs kiekvienam klientui. Pavyzdžiui, el. pašto adresas ar vardo, miesto ir telefono numerio derinys.

      • Normalizuoti: pasirinkite stulpelio normalizavimo parinktis . Normalizavimas turi įtakos tik atitikimo veiksmui ir nekeičia duomenų.

        • Skaitmenys: konvertuoja skaičius reiškiančius Unicode simbolius į paprastus skaičius.
        • Simboliai: pašalina simbolius ir specialiuosius simbolius, tokius kaip !" #$%&'()*+,-./:;<=>?@[]^_'{|}~. Pavyzdžiui,Head &Shoulder tampa HeadShoulder.
        • Tekstas į mažąsias raides: konvertuoja didžiąsias raides į mažąsias. "ALL CAPS and Title Case" tampa "all caps and title case".
        • Tipas (telefonas, vardas, adresas, organizacija): standartizuoja vardus, pareigas, telefono numerius ir adresus.
        • Unicode į ASCII: konvertuoja Unicode simbolius į jų ASCII raidžių ekvivalentą. Pavyzdžiui, kirčiuotas ề konvertuojamas į e simbolį.
        • Tarpas: pašalinami visi tarpai. "Hello World" tampa "HelloWorld".
        • Pseudonimas susiejimas: leidžia įkelti pasirinktinį eilučių porų sąrašą, nurodantį eilutes, kurios visada turėtų būti laikomos tiksliu atitikmeniu.
        • Pasirinktinis apėjimas: leidžia įkelti pasirinktinį eilučių sąrašą, nurodantį eilutes, kurios niekada neturėtų būti suderintos.
      • Tikslumas: nustatykite tikslumo lygį. Tikslumas naudojamas tiksliam atitikimui ir neaiškiam atitikimui ir nustato, kiek arti turi būti dvi eilutės, kad jas būtų galima laikyti atitikmeniu.

        • Pagrindinis: rinkitės iš žemo (30%), vidutinio (60%), aukšto (80%) ir tikslaus (100%). Pasirinkite Tikslus, kad atitiktų tik 100 procentų atitinkančius įrašus.
        • Tinkinta: nustatykite procentą, kurį įrašai turi atitikti. Sistema atitinka tik šį slenkstį peržengiančius įrašus.
      • Pavadinimas: taisyklės pavadinimas.

      Dublikatų šalinimo srities Įtraukti taisyklę ekrano nuotrauka.

    2. Pasirinktinai pasirinkite Įtraukti>sąlygą , kad į taisyklę įtrauktumėte daugiau sąlygų. Sąlygos yra susijusios su loginiu IR operatoriumi ir todėl vykdomos tik tuo atveju, jeigu įvykdomos visos sąlygos.

    3. Pasirinktinai,Pridėti išimtį>, kad į taisyklę įtrauktumėteišimčių. Išimtys naudojamos retiems klaidingai teigiamų ir klaidingai neigiamų rezultatų atvejams spręsti.

    4. Pasirinkite Atlikta , kad sukurtumėte taisyklę.

  2. Pasirinktinai, pridėkite daugiau taisyklių.

  3. Pasirinkite lentelę, tada – Redaguoti suliejimo nuostatas.

  4. Srityje Suliejimo nuostatos :

    1. Pasirinkite vieną iš trijų parinkčių, kad nustatytumėte, kurį įrašą išsaugoti, jei randamas dublikatas:

      • Labiausiai užpildyta: identifikuoja įrašą su daugiausiai užpildytais stulpeliais kaip nugalėtojo įrašą. Tai yra numatytoji suliejimo parinktis.
      • Naujausias: identifikuoja nugalėtojo įrašą pagal naujiausią naujieną. Reikalauja datos ar skaičių laukelio, skirto nustatyti naujumą.
      • Mažiausiai naujausias: nustato nugalėtojo įrašą pagal mažiausią naujumą. Reikalauja datos ar skaičių laukelio, skirto nustatyti naujumą.

      Jei balsai pasiskirsto po lygiai, nugalėtojo įrašas yra tas, kuriame yra MAX(PK) arba didesnė pirminio rakto reikšmė.

    2. Pasirinktinai, norėdami apibrėžti suliejimo nuostatas atskiruose lentelės stulpeliuose, srities apačioje pasirinkite Išsamiau . Pavyzdžiui, galite pasirinkti išsaugoti naujausią el. laišką IR išsamiausią adresą iš skirtingų įrašų. Išplėskite lentelę, kad pamatytumėte visus jos stulpelius, ir nustatykite, kurią parinktį naudoti atskiriems stulpeliams. Jei pasirinksite naujumu pagrįstą parinktį, taip pat turėsite nurodyti datos / laiko lauką, kuris apibrėžia naujumą.

      Išplėstinių suliejimo nuostatų sritis, kurioje rodomas naujausias el. laiškas ir visas adresas

    3. Pasirinkite Atlikta , kad pritaikytumėte suliejimo nuostatas.

  5. Apibrėžę dublikatų šalinimo taisykles ir sulieję nuostatas, pasirinkite Pirmyn.