Baca dalam bahasa Inggris

Bagikan melalui


Cara kerja pencocokan fuzzy di Power Query

Fitur Power Query seperti penggabungan fuzzy, nilai kluster, dan pengelompokan fuzzy menggunakan mekanisme yang sama untuk bekerja sebagai pencocokan fuzzy.

Artikel ini menjelaskan banyak skenario yang menunjukkan cara memanfaatkan opsi yang dimiliki pencocokan fuzzy, dengan tujuan membuat 'fuzzy' jelas.

Menyesuaikan ambang kesamaan

Skenario terbaik untuk menerapkan algoritma kecocokan fuzzy adalah ketika semua string teks dalam kolom hanya berisi string yang perlu dibandingkan dan tidak ada komponen tambahan. Misalnya, membandingkan dengan 4ppl3s Apples menghasilkan skor kesamaan yang lebih tinggi daripada dibandingkan dengan Apples My favorite fruit, by far, is Apples. I simply love them!.

Karena kata Apples dalam string kedua hanyalah bagian kecil dari seluruh string teks, perbandingan tersebut menghasilkan skor kesamaan yang lebih rendah.

Misalnya, himpunan data berikut terdiri dari respons dari survei yang hanya memiliki satu pertanyaan—"Apa buah favorit Anda?"

Buah
Blueberry
Berry biru hanyalah yang terbaik
Stroberi
Stroberi = <3
Apel
'sples
4ppl3s
Pisang
fav fruit adalah pisang
Banas
Buah kesukaanku, sejauh ini, adalah Apel. Aku hanya mencintai mereka!

Survei menyediakan satu kotak teks tunggal untuk memasukkan nilai dan tidak memiliki validasi.

Sekarang Anda ditugaskan untuk mengklusterkan nilai. Untuk melakukan tugas tersebut, muat tabel buah sebelumnya ke Power Query, pilih kolom, lalu pilih opsi Nilai kluster di tab Tambahkan kolom di pita.

Cuplikan layar dengan opsi nilai kluster di dalam tab Tambahkan kolom di pita yang tersedia setelah memilih kolom Buah dari tabel.

Kotak dialog Nilai kluster muncul, tempat Anda bisa menentukan nama kolom baru. Beri nama kluster kolom baru ini dan pilih OK.

Cuplikan layar kotak dialog nilai kluster setelah memilih kolom Buah. Bidang nama kolom baru diatur ke Kluster.

Secara default, Power Query menggunakan ambang kesamaan 0,8 (atau 80%). Nilai minimum 0,00 menyebabkan semua nilai dengan tingkat kesamaan satu sama lain, dan nilai maksimum 1,00 hanya memungkinkan kecocokan yang tepat. "Kecocokan persis" fuzzy mungkin mengabaikan perbedaan seperti casing, urutan kata, dan tanda baca. Hasil operasi sebelumnya menghasilkan tabel berikut dengan kolom Kluster baru.

Cuplikan layar output default dengan kolom Kluster baru setelah melakukan operasi Nilai kluster pada kolom Buah dengan nilai default.

Saat pengklusteran dilakukan, pengklusteran tidak memberi Anda hasil yang diharapkan untuk semua baris. Baris nomor dua (2) masih memiliki nilai Blue berries are simply the best, tetapi harus diklusterkan ke Blueberries, dan sesuatu yang mirip terjadi pada string Strawberries = <3teks , , fav fruit is bananasdan My favorite fruit, by far, is Apples. I simply love them!.

Untuk menentukan apa yang menyebabkan pengklusteran ini, klik dua kali Nilai terkluster di panel Langkah yang diterapkan untuk mengembalikan kotak dialog Nilai kluster. Di dalam kotak dialog ini, perluas opsi kluster Fuzzy. Aktifkan opsi Perlihatkan skor kesamaan , lalu pilih OK.

Cuplikan layar jendela nilai kluster dengan opsi kluster fuzzy ditampilkan dan opsi tampilkan skor kesamaan dipilih.

Mengaktifkan opsi Perlihatkan skor kesamaan membuat kolom baru di tabel Anda. Kolom ini menunjukkan skor kesamaan yang tepat antara kluster yang ditentukan dan nilai aslinya.

Cuplikan layar tabel dengan kolom skor kesamaan baru bernama Fruit_Cluster_Similarity.

Setelah inspeksi lebih dekat, Power Query tidak dapat menemukan nilai lain dalam ambang kesamaan Blue berries are simply the bestuntuk string teks ,Strawberries = <3 , fav fruit is bananas, dan My favorite fruit, by far, is Apples. I simply love them!.

Kembali ke kotak dialog Nilai kluster sekali lagi dengan mengklik dua kali nilai Terkluster di panel Langkah yang diterapkan. Ubah ambang kesamaan dari 0,8 menjadi 0,6, lalu pilih OK.

Cuplikan layar dialog nilai kluster dengan opsi kluster fuzzy ditampilkan dan ambang kesamaan diatur pada 0,6.

Perubahan ini membuat Anda lebih dekat dengan hasil yang Anda cari, kecuali untuk string My favorite fruit, by far, is Apples. I simply love them!teks . Saat Anda mengubah nilai ambang kesamaan dari 0,8 menjadi 0,6, Power Query sekarang dapat menggunakan nilai dengan skor kesamaan yang dimulai dari 0,6 hingga 1.

Cuplikan layar tabel setelah menentukan ambang kesamaan pada 0,6 dengan nilai baru yang ditetapkan di kolom Kluster.

Catatan

Power Query selalu menggunakan nilai yang paling dekat dengan ambang batas untuk menentukan kluster. Ambang menentukan batas bawah skor kesamaan yang dapat diterima untuk menetapkan nilai ke kluster.

Anda dapat mencoba lagi dengan mengubah skor Kesamaan dari 0,6 ke angka yang lebih rendah hingga Anda mendapatkan hasil yang Anda cari. Dalam hal ini, ubah Skor kesamaan menjadi 0,5. Perubahan ini menghasilkan hasil yang tepat yang Anda harapkan dengan string My favorite fruit, by far, is Apples. I simply love them! teks yang sekarang ditetapkan ke kluster Apples.

Cuplikan layar tabel dengan semua nilai yang benar di kolom Kluster.

Catatan

Saat ini, hanya fitur Nilai kluster di Power Query Online yang menyediakan kolom baru dengan skor kesamaan.

Pertimbangan khusus untuk tabel transformasi

Tabel transformasi membantu Anda memetakan nilai dari kolom Anda ke nilai baru sebelum melakukan algoritma pencocokan fuzzy.

Beberapa contoh bagaimana tabel transformasi dapat digunakan:

Penting

Saat tabel transformasi digunakan, skor kesamaan maksimum untuk nilai dari tabel transformasi adalah 0,95. Hukuman sengaja 0,05 ini diberlakukan untuk membedakan bahwa nilai asli dari kolom tersebut tidak sama dengan nilai yang dibandingkan dengan sejak transformasi terjadi.

Untuk skenario di mana Anda pertama kali ingin memetakan nilai Anda lalu melakukan pencocokan fuzzy tanpa penalti 0,05, kami sarankan Anda mengganti nilai dari kolom Anda lalu melakukan pencocokan fuzzy.