Pelatihan
Modul
Pengantar model pengklusteran menggunakan R dan tidymodels - Training
Pengantar model pengklusteran dengan menggunakan R dan tidymodels.
Browser ini sudah tidak didukung.
Mutakhirkan ke Microsoft Edge untuk memanfaatkan fitur, pembaruan keamanan, dan dukungan teknis terkini.
Nilai kluster secara otomatis membuat grup dengan nilai serupa menggunakan algoritma pencocokan fuzzy, lalu memetakan nilai setiap kolom ke grup yang paling cocok. Transformasi ini berguna saat Anda bekerja dengan data yang memiliki banyak variasi berbeda dari nilai yang sama dan Anda perlu menggabungkan nilai ke dalam grup yang konsisten.
Pertimbangkan tabel sampel dengan kolom id yang berisi sekumpulan ID dan kolom Orang yang berisi sekumpulan versi nama Miguel, Mike, William, dan Bill yang dieja dan dikapitalisasi.
Dalam contoh ini, hasil yang Anda cari adalah tabel dengan kolom baru yang memperlihatkan grup nilai yang tepat dari kolom Orang dan bukan semua variasi berbeda dari kata yang sama.
Catatan
Fitur Nilai kluster hanya tersedia untuk Power Query Online.
Untuk nilai kluster, pertama-tama pilih kolom Orang, masuk ke tab Tambahkan kolom di pita, lalu pilih opsi Nilai kluster.
Dalam kotak dialog Nilai kluster, konfirmasikan kolom yang ingin Anda gunakan untuk membuat kluster, dan masukkan nama baru kolom. Untuk kasus ini, beri nama kluster kolom baru ini.
Hasil operasi tersebut ditampilkan dalam gambar berikut.
Catatan
Untuk setiap kluster nilai, Power Query memilih instans yang paling sering dari kolom yang dipilih sebagai instans "kanonis". Jika beberapa instans terjadi dengan frekuensi yang sama, Power Query akan memilih instans pertama.
Opsi berikut ini tersedia untuk nilai pengklusteran di kolom baru:
Untuk contoh ini, tabel transformasi baru dengan nama Tabel transformasi saya digunakan untuk menunjukkan bagaimana nilai dapat dipetakan. Tabel transformasi ini memiliki dua kolom:
Penting
Penting bahwa tabel transformasi memiliki nama kolom dan kolom yang sama seperti yang ditunjukkan pada gambar sebelumnya (tabel tersebut harus diberi nama "Dari" dan "Ke"), jika tidak Power Query tidak akan mengenali tabel ini sebagai tabel transformasi, dan tidak ada transformasi yang akan terjadi.
Menggunakan kueri yang dibuat sebelumnya, klik dua kali langkah Nilai terkluster, lalu dalam kotak dialog Nilai kluster, perluas opsi kluster Fuzzy. Di bawah Opsi kluster Fuzzy, aktifkan opsi Tampilkan skor kesamaan . Untuk tabel Transformasi (opsional), pilih kueri yang memiliki tabel transformasi.
Setelah memilih tabel transformasi Anda dan mengaktifkan opsi Perlihatkan skor kesamaan , pilih OK. Hasil operasi tersebut memberi Anda tabel yang berisi id dan kolom Orang yang sama dengan tabel asli, tetapi juga menyertakan dua kolom baru yang disebut Kluster dan Person_Cluster_Similarity. Kolom Kluster berisi versi nama Miguel dan Mike yang dieja dengan benar dan bermodal untuk versi Miguel dan Mike, dan William untuk versi Bill, Billy, dan William. Kolom Person_Cluster_Similarity berisi skor kesamaan untuk setiap nama.
Anda mungkin melihat bahwa tabel transformasi di bagian sebelumnya tampaknya menunjukkan bahwa instans Mike diubah menjadi Miguel dan instans William diubah menjadi Bill. Namun, dalam tabel yang dihasilkan, instans Bill dan "billy" malah diubah menjadi William. Dalam tabel transformasi, daripada menjadi jalur Dari ke Ke langsung, tabel transformasi simetris selama pengklusteran, yang berarti bahwa "mike" setara dengan "Miguel" dan sebaliknya. Hasil yang setara yang diberikan dalam tabel transformasi tergantung pada aturan berikut:
Misalnya, dalam tabel asli yang digunakan dalam artikel ini, versi Miguel (baik "miguel" dan Miguel) di kolom Orang membentuk sebagian besar instans nama Miguel dan Mike. Selain itu, nama Miguel dengan topi awal membentuk mayoritas nama Miguel. Jadi mengaitkan Miguel dan turunannya dan Mike dan turunannya dalam tabel transformasi menghasilkan nama Miguel yang digunakan di kolom Kluster .
Namun, untuk nama William, Bill, dan "billy", tidak ada mayoritas nilai karena ketiganya unik. Sejak William muncul pertama kali, William digunakan di kolom Kluster . Jika "billy" muncul terlebih dahulu dalam tabel, maka "billy" akan digunakan di kolom Kluster . Selain itu, karena tidak ada sebagian besar nilai, kasus yang digunakan oleh nama individu digunakan. Artinya, jika William pertama kali, William dengan huruf besar "W" digunakan sebagai nilai hasil; jika "billy" adalah yang pertama, "billy" dengan huruf kecil "b" digunakan.
Pelatihan
Modul
Pengantar model pengklusteran menggunakan R dan tidymodels - Training
Pengantar model pengklusteran dengan menggunakan R dan tidymodels.