Делите путем


Прецизност и делимично подударање

Нејасно подударање вам омогућава да дедуплилирате и подударате податке ниске када се подаци не подударају баш. Подаци о ниски са грешкама у куцању и друге мале разлике су добри кандидати за нејасно подударање.

Сваки услов у правилу има поставку "Прецизност " у којој бирате колико би две ниске требало да буду близу да би се сматрале подударањем. Подразумевана поставка прецизности захтева потпуно подударање ниски које се пореде са подударањем. Избор било које друге вредности за прецизност омогућава нејасно подударање за тај услов.

Прецизност се може подесити на низак (30% подударања), средњи (60% подударања) и висок (80% подударање). Такође можете да изаберете падајућу листу и промените основни у прилагођени , што вам омогућава да прецизност поставите у корацима од 1%.

Белешка

Само колоне типа података ниске могу да користе нејасно подударање. За колоне са другим типовима података као што су цео број, двоструки или датум, поље прецизности је подешено на тачно подударање и само за читање.

Нејасна израчунавања подударања

Нејасна подударања се праве израчунавањем резултата растојања уређивања за две ниске. Ако резултат задовољава или премашује праг прецизности, онда се ниске сматрају подударањем.

Растојање за уређивање је број уређивања потребан да би се једна ниска претворила у другу ниску, додавањем, брисањем или променом знака.

На пример, ниске"Јацqуелине" и "Јацлyне" имају растојање уређивања од 5 када уклонимо q, у, е, и и е знакове и убацимо y знак.

Основно израчунавање за одређивање резултата растојања уређивања је: (Дужина основне ниске – Уређивање растојања) / Дужина основне ниске

Основна ниска Ниска поређења Оцена
Ћаклин Јацлyне (10-5)/10=.5
fred@gmail.com fred@gmal.cm (14 -2 ) / 14 = 0.857
Френклин Френк (8 -2 ) / 8 = 0,75

Нормализација и нејасно подударање

Увиди клијената – Подаци обезбеђују моћне рутине нормализације података које могу ефикасније да поднесу многе неусклађености података од нејасног подударања. Можете да изаберете један или више образаца нормализације података за колону. Нормализација не мења податке у коначном излазу. Нормализовани подаци се користе само у сврхе поређења да би се ефикасније подударали са записима клијената.

Нормализације Примери
Цифре Претвара Уникод репрезентације бројева у број.
Примери : □ и ВИИИ. нормализовани су на број 8.
Напомена : Симболи морају бити кодирани у Уникод Поинт Формату.
Симболи Уклања симболе и специјалне знакове.
Примери : !?" #$ %&амп ;'( )+,.- /:; <= > @^ ~ {} '[ ]
Пребаци текст у мала слова Конвертује знакове великих слова у велика слова. 
Пример : 'ОВО је АН ЕXамплЕ' се конвертује у "ово је пример"
Тип – Телефон Претвара телефоне у различитим форматима у цифре и чини варијације у начину представљања шифара и проширења током земље. 
Пример : #пии_ајхфххфјз = #пии_ајхфххгјз
Тип - име Конвертује преко 500 уобичајених варијација имена и наслова. 
Примери : "деби" - > "деборах" "проф" и "професор" - > "Проф."
Тип - адреса Конвертује уобичајене делове адреса
Примери : "стреет" - > "ст" и "нортхwест" - > "нw"
Тип - организација Уклања око 50 имена предузећа 'бука речи' као што су "цо", "цорп", "цорпоратион" и "лтд".
Из Уникода у ASCII Конвертује Уникод знакове у еквивалент њиховог АСЦИИ писма
Пример : Ликови 'à,' 'б,' 'в,' 'А,' 'Б,' 'В,' 'Ј,' 'Д,' '(А),' и 'А' су претворени у 'а.'
Белина Уклања сав бели простор
Мапирање псеудонима Омогућава вам да отпремите прилагођену листу парова ниски који се затим могу користити за означавање ниски које увек треба сматрати тачним подударањем. 
Користите мапирање псеудонима када имате одређене примере података за које мислите да би требало да се подударају и не подударају се користећи неки од других образаца нормализације. 
Пример : Скот и Скутер, или ИБМ и Интернационалне пословне машине.
Прилагођено заобилажење Омогућава вам да отпремите прилагођену листу ниски које се затим могу користити за означавање ниски које никада не би требало да се подударају.
Прилагођени бајпас је користан када имате податке који имају уобичајене вредности које би требало занемарити, као што су лажни број телефона или лажна е-пошта. 
Пример : Никада се не подударају са телефоном #пии_ајхфхххјз или test@example.com

Перформансе – користите тачне услове подударања

Нејасно подударање је моћно, али захтева више времена и ресурса него тачно подударање. Најбоље је да користите нормализацију података као свој први приступ неправилностима у подацима и да стратешки користите нејасно подударање.

Важно

Користите најмање један тачан услов подударања у сваком правилу.

Прво се покрећу тачни услови подударања да би се добио мањи скуп вредности које треба да се подударају. Да би били ефикасни, тачни услови подударања треба да имају разуман степен јединствености. На пример, ако сви ваши купци живе у истој земљи, онда потпуно подударање са земљом вероватно неће помоћи да се сузи опсег.

Колоне као што су пуно име, е-пошта, поље телефона или адресе имају добру јединственост и одличне су колоне које се користе као потпуно подударање.