Bagikan melalui


Mengidentifikasi Baris Data Serupa dengan Transformasi Pengelompokan Fuzzy

Berlaku untuk: SQL Server SSIS Integration Runtime di Azure Data Factory

Untuk menambahkan dan mengonfigurasi transformasi Pengelompokan Fuzzy, paket harus sudah menyertakan setidaknya satu tugas Aliran Data dan sumber.

Untuk menerapkan transformasi Pengelompokan Fuzzy dalam aliran data

  1. Di SQL Server Data Tools (SSDT), buka proyek Integration Services yang berisi paket yang Anda inginkan.

  2. Di Penjelajah Solusi, klik dua kali paket untuk membukanya.

  3. Klik tab Aliran Data, lalu, dari Kotak Alat, seret transformasi Pengelompokan Fuzzy ke permukaan desain.

  4. Sambungkan transformasi Pengelompokan Fuzzy ke aliran data dengan menyeret konektor dari sumber data atau transformasi sebelumnya ke transformasi Pengelompokan Fuzzy.

  5. Klik dua kali transformasi Pengelompokan Fuzzy.

  6. Dalam kotak dialog Editor Transformasi Pengelompokan Fuzzy, pada tab Pengelola Sambungan, pilih manajer koneksi OLE DB yang tersambung ke database SQL Server.

    Catatan

    Transformasi memerlukan koneksi ke database SQL Server untuk membuat tabel dan indeks sementara.

  7. Klik tab Kolom dan, di daftar Kolom Input yang Tersedia, pilih kotak centang kolom input yang akan digunakan untuk mengidentifikasi baris serupa dalam himpunan data.

  8. Pilih kotak centang di kolom Pass Through untuk mengidentifikasi kolom input untuk diteruskan ke output transformasi. Kolom pass-through tidak disertakan dalam proses identifikasi baris duplikat.

    Catatan

    Kolom input yang digunakan untuk pengelompokan secara otomatis dipilih sebagai kolom pass-through, dan tidak dapat dipilih saat digunakan untuk pengelompokan.

  9. Secara opsional, perbarui nama kolom output di kolom Alias Output.

  10. Secara opsional, perbarui nama kolom yang dibersihkan di kolom OutputAlias Grup.

    Catatan

    Nama default kolom adalah nama kolom input dengan akhiran "_clean".

  11. Secara opsional, perbarui jenis kecocokan yang akan digunakan di kolom Cocokkan Jenis .

    Catatan

    Setidaknya satu kolom harus menggunakan pencocokan fuzzy.

  12. Tentukan kolom tingkat kesamaan minimum di kolom Kesamaan Minimum. Nilai harus antara 0 dan 1. Semakin dekat nilainya dengan 1, semakin mirip nilai dalam kolom input harus membentuk grup. Kesamaan minimum 1 menunjukkan kecocokan yang tepat.

  13. Secara opsional, perbarui nama kolom kesamaan di kolom Alias Output Kesamaan.

  14. Untuk menentukan penanganan angka dalam nilai data, perbarui nilai di kolom Angka .

  15. Untuk menentukan bagaimana transformasi membandingkan data string dalam kolom, ubah pilihan default opsi perbandingan di kolom Bendera Perbandingan .

  16. Klik tab Tingkat Lanjut untuk mengubah nama kolom yang ditambahkan transformasi ke output untuk pengidentifikasi baris unik (_key_in), pengidentifikasi baris duplikat (_key_out), dan nilai kesamaan (_score).

  17. Secara opsional, sesuaikan ambang kesamaan dengan memindahkan bilah penggeser.

  18. Secara opsional, kosongkan kotak centang pemisah token untuk mengabaikan pemisah dalam data.

  19. Klik OK.

  20. Untuk menyimpan paket yang diperbarui, klik Simpan Item Terpilih pada menu File .

Lihat Juga

Transformasi Pengelompokan Fuzzy
Transformasi Layanan Integrasi
Jalur Layanan Integrasi
Tugas Aliran Data