Делите путем


Уклоните дупликате у свакој табели за уједињење података

Правила дедупликације корак уједињења проналазе и уклањају дупле записе за купца из изворне табеле, тако да је сваки купац представљен једним редом у свакој табели. Свака табела се дедупликује одвојено користећи правила за идентификацију записа за датог купца.

Правила се обрађују по реду. Након што су сва правила покренута на свим записима у табели, групе мечева које деле заједнички ред се комбинују у једну групу мечева.

Дефинисање правила дедупликације

Добро правило идентификује јединственог купца. Размотрите своје податке. Можда би било довољно да се идентификују купци на основу поља као што је е-пошта. Међутим, ако желите да разликујете купце који деле е-пошту, можете изабрати да имате правило са два услова, која се подударају на е-пошту + име. За више информација, погледајте најбоље праксе дедупликације.

  1. На страници Правила дедупликације, изаберите табелу и изаберите Додај правило да дефинишете правила дедупликације.

    Савет

    Ако сте обогатили табеле на < ДИЦТ__извор података > дата соурце нивоу да бисте побољшали резултате обједињавања, изаберите Користи обогаћене табеле на врху странице. За више информација, погледајте Обогаћивање за изворе података.

    Снимак екрана странице са правилима дедупликације са истакнутом табелом и приказаним додавањем правила

    1. У окну Додај правило унесите следеће информације:

      • Изаберите поље : Изаберите са листе доступних поља из табеле за коју желите да проверите дупликате. Одаберите поља која су вероватно јединствена за сваког клијента. На пример, адреса е-поште или комбинација имена, града и броја телефона.

      • Нормализе : Изаберите опције нормализације за колону. Нормализација утиче само на подударање корак и не мења податке.

        • Бројеви : Претвара Уницоде симболе који представљају бројеве у једноставне бројеве.
        • Симболи : Уклања симболе и специјалне знакове као што су!" #$%&'()*+,-./:;<=>?@[]^_'{|}~. На пример, Хеад&Схоулдер постаје ХеадСхоулдер.
        • Текст у малим словима : Претвара велика слова у мала слова. "АЛЛ ЦАПС и Титле Цасе" постају "сва велика слова и наслов случаја."
        • Тип (телефон, име, адреса, организација): Стандардизује имена, титуле, бројеве телефона и адресе.
        • Уницоде у АСЦИИ: Претвара Уницоде знакове у њихов АСЦИИ еквивалент слова. На пример, наглашени ề претвара у е карактер.
        • Размак : Уклања све размаке. Хелло Ворлд постаје ХеллоВорлд.
        • Мапирање алиаса: Омогућава вам да отпремите прилагођену листу парова низова како бисте означили низове који се увек сматрају тачним подударањем.
        • Прилагођени бајпас : Омогућава вам да отпремите прилагођену листу низова да бисте означили низове који никада не би требало да се поклапају.
      • Прецизност : Подесите ниво прецизности. Прецизност се користи за тачно подударање и нејасно подударање , и одређује колико близу два низа треба да буду да би се сматрало мечем.

        • Основни : Изаберите ниску ( 30%), средњу (60%), високу (80%) и тачну (100%). Изаберите Тачно да бисте се подударали само са записима који одговарају 100 процената.
        • Прилагођено : Подесите проценат који записи треба да се подударају. Систем одговара само записима који прелазе овај праг.
      • Име : Назив за правило.

      Снимак екрана Додајте окно правила за уклањање дупликата.

    2. Опционо, изаберите Додај > Додај услов да додате још услова у правило. Услови су повезани са логичким оператором И, па се стога извршавају само ако су испуњени сви услови.

    3. Опционо, додајте > Додајте изузетак да додате изузетке правилу. Изузеци се користе за решавање ретких случајева лажно позитивних и лажно негативних резултата.

    4. Изаберите Готово да бисте креирали правило.

  2. Опционо, додајте још правила.

  3. Изаберите табелу и затим Измени подешавања стопања.

  4. У окну Стопи преференције :

    1. Изаберите једну од три опције да одредите који запис да задржи ако се пронађе дупликат:

      • Најпопуњенији : Идентификује запис са најпопуњенијим колонама као победнички запис. То је подразумевана опција обједињавања.
      • Најновији : Идентификује победнички запис на основу најрецентнијег. Захтева датум или нумеричко поље за дефинисање скорашњости.
      • Најмање недавно : Идентификује рекорд победника на основу најмање рецентности. Захтева датум или нумеричко поље за дефинисање скорашњости.

      Ако постоји нерешено, победнички рекорд је онај са МАКС(ПК) или већом примарном кључном вредношћу.

    2. Опционо, да дефинишете жеље стапања на појединачним колонама табеле, изаберите Напредно на дну окна. На пример, можете да изаберете да задржите најновију е-пошту и најпотпунију адресу из различитих записа. Проширите табелу да бисте видели све њене колоне и дефинишите коју опцију да користите за појединачне колоне. Ако изаберете опцију засновану на рецентности, такође морате навести поље датум/време које дефинише рецентност.

      Напредно окно преференција спајања које приказује недавну е-пошту и комплетну адресу

    3. Изаберите Готово да примените ваше жеље стапања.

  5. Након дефинисања правила дедупликације и преференција спајања, изаберите Даље .