Transformasi Pengelompokan Fuzzy

Berlaku untuk: Integration Runtime SSIS SQL Server di Azure Data Factory

Transformasi Pengelompokan Fuzzy melakukan tugas pembersihan data dengan mengidentifikasi baris data yang kemungkinan duplikat dan memilih baris data kanonis untuk digunakan dalam menstandarkan data.

Catatan

Untuk informasi lebih rinci tentang transformasi Pengelompokan Fuzzy, termasuk keterbatasan performa dan memori, lihat laporan resmi, Pencarian Fuzzy, dan Pengelompokan Fuzzy di SQL Server Integration Services 2005.

Transformasi Pengelompokan Fuzzy memerlukan koneksi ke instans SQL Server untuk membuat tabel SQL Server sementara yang diperlukan algoritma transformasi untuk melakukan pekerjaannya. Koneksi harus diselesaikan kepada pengguna yang memiliki izin untuk membuat tabel dalam database.

Untuk mengonfigurasi transformasi, Anda harus memilih kolom input yang akan digunakan saat mengidentifikasi duplikat, dan Anda harus memilih jenis match-fuzzy atau exact-for setiap kolom. Kecocokan persis menjamin bahwa hanya baris yang memiliki nilai identik dalam kolom tersebut yang akan dikelompokkan. Pencocokan yang tepat dapat diterapkan ke kolom jenis data Integration Services apa pun kecuali DT_TEXT, DT_NTEXT, dan DT_IMAGE. Kecocokan fuzzy mengelompokkan baris yang memiliki nilai yang kurang lebih sama. Metode untuk perkiraan pencocokan data didasarkan pada skor kesamaan yang ditentukan pengguna. Hanya kolom dengan jenis data DT_WSTR dan DT_STR yang dapat digunakan dalam pencocokan fuzzy. Untuk informasi selengkapnya, lihat Jenis Data Integration Services.

Output transformasi mencakup semua kolom input, satu atau beberapa kolom dengan data standar, dan kolom yang berisi skor kesamaan. Skor adalah nilai desimal antara 0 dan 1. Baris kanonis memiliki skor 1. Baris lain dalam grup fuzzy memiliki skor yang menunjukkan seberapa baik baris cocok dengan baris kanonis. Semakin dekat skor menjadi 1, semakin dekat baris cocok dengan baris kanonis. Jika grup fuzzy menyertakan baris yang merupakan duplikat yang tepat dari baris kanonis, baris ini juga memiliki skor 1. Transformasi tidak menghapus baris duplikat; ini mengelompokkannya dengan membuat kunci yang menghubungkan baris kanonis dengan baris serupa.

Transformasi menghasilkan satu baris output untuk setiap baris input, dengan kolom tambahan berikut:

  • _key_in, kolom yang secara unik mengidentifikasi setiap baris.

  • _key_out, kolom yang mengidentifikasi sekelompok baris duplikat. Kolom _key_out memiliki nilai kolom _key_in di baris data kanonis. Baris dengan nilai yang sama dalam _key_out adalah bagian dari grup yang sama. Nilai _key_outuntuk grup sesuai dengan nilai _key_in di baris data kanonis.

  • _score, nilai antara 0 dan 1 yang menunjukkan kesamaan baris input dengan baris kanonis.

Ini adalah nama kolom default dan Anda dapat mengonfigurasi transformasi Pengelompokan Fuzzy untuk menggunakan nama lain. Output juga menyediakan skor kesamaan untuk setiap kolom yang berpartisipasi dalam pengelompokan fuzzy.

Transformasi Pengelompokan Fuzzy mencakup dua fitur untuk menyesuaikan pengelompokan yang dilakukannya: pemisah token dan ambang kesamaan. Transformasi ini menyediakan sekumpulan pemisah default yang digunakan untuk membuat token data, tetapi Anda dapat menambahkan pemisah baru yang meningkatkan tokenisasi data Anda.

Ambang kesamaan menunjukkan seberapa ketat transformasi mengidentifikasi duplikat. Ambang kesamaan dapat diatur pada komponen dan tingkat kolom. Ambang kesamaan tingkat kolom hanya tersedia untuk kolom yang melakukan kecocokan fuzzy. Rentang kesamaannya adalah 0 hingga 1. Semakin dekat ke 1 ambang batas, semakin mirip baris dan kolom harus memenuhi syarat sebagai duplikat. Anda menentukan ambang kesamaan di antara baris dan kolom dengan mengatur properti MinSimilarity di tingkat komponen dan kolom. Untuk memenuhi kesamaan yang ditentukan pada tingkat komponen, semua baris harus memiliki kesamaan di semua kolom yang lebih besar dari atau sama dengan ambang kesamaan yang ditentukan pada tingkat komponen.

Transformasi Pengelompokan Fuzzy menghitung langkah-langkah internal kesamaan, dan baris yang kurang mirip dari nilai yang ditentukan dalam MinSimilarity tidak dikelompokkan.

Untuk mengidentifikasi ambang kesamaan yang berfungsi untuk data Anda, Anda mungkin harus menerapkan transformasi Pengelompokan Fuzzy beberapa kali menggunakan ambang batas kesamaan minimum yang berbeda. Pada durasi, kolom skor dalam output transformasi berisi skor kesamaan untuk setiap baris dalam grup. Anda dapat menggunakan nilai-nilai ini untuk mengidentifikasi ambang kesamaan yang sesuai untuk data Anda. Jika Anda ingin meningkatkan kesamaan, Anda harus mengatur MinSimilarity ke nilai yang lebih besar dari nilai di kolom skor.

Anda dapat menyesuaikan pengelompokan yang dilakukan transformasi dengan mengatur properti kolom dalam input transformasi Pengelompokan Fuzzy. Misalnya, properti FuzzyComparisonFlags menentukan bagaimana transformasi membandingkan data string dalam kolom, dan properti ExactFuzzy menentukan apakah transformasi melakukan kecocokan fuzzy atau kecocokan yang tepat.

Jumlah memori yang digunakan transformasi Pengelompokan Fuzzy dapat dikonfigurasi dengan mengatur properti kustom MaxMemoryUsage. Anda dapat menentukan jumlah megabyte (MB) atau menggunakan nilai 0 untuk memungkinkan transformasi menggunakan jumlah memori dinamis berdasarkan kebutuhannya dan memori fisik yang tersedia. Properti kustom MaxMemoryUsage dapat diperbarui oleh ekspresi properti saat paket dimuat. Untuk informasi selengkapnya, lihat Ekspresi Integration Services (SSIS),Gunakan Ekspresi Properti dalam Paket, dan Properti Kustom Transformasi.

Transformasi ini memiliki satu input dan satu output. Ini tidak mendukung output kesalahan.

Perbandingan Baris

Saat mengonfigurasi transformasi Pengelompokan Fuzzy, Anda dapat menentukan algoritma perbandingan yang digunakan transformasi untuk membandingkan baris dalam input transformasi. Jika Anda mengatur properti Lengkap ke true, transformasi membandingkan setiap baris dalam input ke setiap baris lain dalam input. Algoritma perbandingan ini dapat menghasilkan hasil yang lebih akurat, tetapi kemungkinan akan membuat transformasi berkinerja lebih lambat kecuali jumlah baris dalam input kecil. Untuk menghindari masalah performa, disarankan untuk mengatur properti Lengkap ke true hanya selama pengembangan paket.

Tabel dan Indeks Sementara

Pada durasi, transformasi Pengelompokan Fuzzy membuat objek sementara seperti tabel dan indeks, berpotensi berukuran signifikan, dalam database SQL Server yang disambungkan oleh transformasi. Ukuran tabel dan indeks sebanding dengan jumlah baris dalam input transformasi dan jumlah token yang dibuat oleh transformasi Pengelompokan Fuzzy.

Transformasi ini juga mengkueri tabel sementara. Oleh karena itu, Anda harus mempertimbangkan untuk menghubungkan transformasi Pengelompokan Fuzzy ke instans non-produksi SQL Server, terutama jika server produksi memiliki ruang disk terbatas yang tersedia.

Performa transformasi ini dapat meningkat jika tabel dan indeks yang digunakannya terletak di komputer lokal.

Konfigurasi Transformasi Pengelompokan Fuzzy

Anda dapat mengatur properti melalui SSIS Designer atau secara terprogram.

Untuk informasi selengkapnya tentang properti yang bisa Anda atur dalam kotak dialog Editor Lanjutan atau secara terprogram, klik salah satu topik berikut ini:

Untuk detail tentang cara mengatur properti tugas ini, klik salah satu topik berikut:

Editor Transformasi Pengelompokan Fuzzy (Tab Pengelola Sambungan)

Gunakan tab Pengelola Sambungan dari kotak dialog Editor Transformasi Pengelompokan Fuzzy untuk memilih koneksi yang sudah ada atau membuat yang baru.

Catatan

Server yang ditentukan oleh koneksi harus berjalan SQL Server. Transformasi Pengelompokan Fuzzy membuat objek data sementara dalam tempdb yang mungkin sebesar input penuh untuk transformasi. Saat transformasi dijalankan, transformasi mengeluarkan kueri server terhadap objek sementara ini. Ini dapat memengaruhi performa server secara keseluruhan.

Opsi

Manajer koneksi OLE DB
Pilih manajer koneksi OLE DB yang sudah ada dengan menggunakan kotak daftar, atau buat koneksi baru dengan menggunakan tombol Baru .

Baru
Buat koneksi baru dengan menggunakan kotak dialog Konfigurasikan Pengelola Sambungan OLE DB.

Editor Transformasi Pengelompokan Fuzzy (Tab Kolom)

Gunakan tab Kolom dari kotak dialog Editor Transformasi Pengelompokan Fuzzy untuk menentukan kolom yang digunakan untuk mengelompokkan baris dengan nilai duplikat.

Opsi

Kolom Input yang Tersedia
Pilih dari daftar ini kolom input yang digunakan untuk mengelompokkan baris dengan nilai duplikat.

Nama
Lihat nama kolom input yang tersedia.

Melewati
Pilih apakah akan menyertakan kolom input dalam output transformasi. Semua kolom yang digunakan untuk pengelompokan secara otomatis disalin ke output. Anda dapat menyertakan kolom tambahan dengan mencentang kolom ini.

Kolom Input
Pilih salah satu kolom input yang dipilih sebelumnya di daftar Kolom Input yang Tersedia .

Output Alias
Masukkan nama deskriptif untuk kolom output terkait. Secara default, nama kolom output sama dengan nama kolom input.

Alias Output Grup
Masukkan nama deskriptif untuk kolom yang akan berisi nilai kanonis untuk duplikat yang dikelompokkan. Nama default kolom output ini adalah nama kolom input dengan _clean ditambahkan.

Jenis Pencocokan
Pilih fuzzy atau pencocokan yang tepat. Baris dianggap duplikat jika cukup mirip di semua kolom dengan jenis kecocokan fuzzy. Jika Anda juga menentukan pencocokan yang tepat pada kolom tertentu, hanya baris yang berisi nilai identik dalam kolom yang sama persis yang dianggap sebagai kemungkinan duplikat. Oleh karena itu, jika Anda tahu bahwa kolom tertentu tidak berisi kesalahan atau inkonsistensi, Anda dapat menentukan pencocokan yang tepat pada kolom tersebut untuk meningkatkan akurasi pencocokan fuzzy pada kolom lain.

Kesamaan Minimum
Atur ambang kesamaan pada tingkat gabungan dengan menggunakan penggeser. Semakin dekat nilainya dengan 1, semakin dekat keseruan nilai pencarian dengan nilai sumber harus memenuhi syarat sebagai kecocokan. Meningkatkan ambang dapat meningkatkan kecepatan pencocokan karena lebih sedikit catatan kandidat yang perlu dipertimbangkan.

Alias Output Kesamaan
Tentukan nama untuk kolom output baru yang berisi skor kesamaan untuk gabungan yang dipilih. Jika Anda membiarkan nilai ini kosong, kolom output tidak dibuat.

Angka
Tentukan signifikansi angka di awal dan akhir dalam membandingkan data kolom. Misalnya, jika angka terkemuka signifikan, "123 Main Street" tidak akan dikelompokkan dengan "456 Main Street."

Nilai Deskripsi
Tidak keduanya Angka awal dan akhir tidak signifikan.
Leading Hanya angka terkemuka yang signifikan.
Trailing Hanya angka berikutnya yang signifikan.
LeadingAndTrailing Angka terkemuka dan berikutnya signifikan.

Bendera Perbandingan
Untuk informasi tentang opsi perbandingan string, lihat Membandingkan Data String.

Editor Transformasi Pengelompokan Fuzzy (Tab Tingkat Lanjut)

Gunakan tab Tingkat Lanjut dari kotak dialog Editor Transformasi Pengelompokan Fuzzy untuk menentukan kolom input dan output, mengatur ambang kesamaan, dan menentukan pemisah.

Catatan

Properti Lengkap dan MaxMemoryUsage dari transformasi Pengelompokan Fuzzy tidak tersedia di Editor Transformasi Pengelompokan Fuzzy, tetapi dapat diatur dengan menggunakan Editor Lanjutan. Untuk informasi selengkapnya tentang properti ini, lihat bagian Transformasi Pengelompokan Fuzzy di Properti Kustom Transformasi.

Opsi

Nama kolom kunci input
Tentukan nama kolom output yang berisi pengidentifikasi unik untuk setiap baris input. Kolom _key_in memiliki nilai yang secara unik mengidentifikasi setiap baris.

Nama kolom kunci output
Tentukan nama kolom output yang berisi pengidentifikasi unik untuk baris kanonis dari sekelompok baris duplikat. Kolom _key_out sesuai dengan nilai _key_in baris data kanonis.

Nama kolom skor kesamaan
Tentukan nama untuk kolom yang berisi skor kesamaan. Skor kesamaan adalah nilai antara 0 dan 1 yang menunjukkan kesamaan baris input dengan baris kanonis. Semakin dekat skor menjadi 1, semakin dekat baris cocok dengan baris kanonis.

Ambang kesamaan
Atur ambang kesamaan dengan menggunakan penggeser. Semakin dekat ambang batas ke 1, semakin banyak baris harus menyerupai satu sama lain untuk memenuhi syarat sebagai duplikat. Meningkatkan ambang dapat meningkatkan kecepatan pencocokan karena lebih sedikit catatan kandidat yang harus dipertimbangkan.

Pemisah token
Transformasi ini menyediakan sekumpulan pemisah default untuk tokenisasi data, tetapi Anda dapat menambahkan atau menghapus pembatas sesuai kebutuhan dengan mengedit daftar.

Lihat juga

Transformasi Pencarian Fuzzy
Transformasi Layanan Integrasi