Pencocokan Data

Berlaku untuk:SQL Server

Proses pencocokan data Data Quality Services (DQS) memungkinkan Anda mengurangi duplikasi data dan meningkatkan akurasi data di sumber data. Pencocokan menganalisis tingkat duplikasi di semua rekaman sumber data tunggal, mengembalikan probabilitas kecocokan tertimbang antara setiap set rekaman yang dibandingkan. Anda kemudian dapat memutuskan rekaman mana yang cocok dan mengambil tindakan yang sesuai pada data sumber.

Proses pencocokan DQS memiliki manfaat berikut:

  • Pencocokan memungkinkan Anda menghilangkan perbedaan antara nilai data yang harus sama, menentukan nilai yang benar dan mengurangi kesalahan yang dapat ditimbulkan oleh perbedaan data. Misalnya, nama dan alamat sering menjadi data identifikasi untuk sumber data, terutama data pelanggan, tetapi data dapat menjadi kotor dan memburuk dari waktu ke waktu. Melakukan pencocokan untuk mengidentifikasi dan memperbaiki kesalahan ini dapat membuat penggunaan dan pemeliharaan data jauh lebih mudah.

  • Pencocokan memungkinkan Anda memastikan bahwa nilai yang setara, tetapi dimasukkan dalam format atau gaya yang berbeda, dirender seragam.

  • Pencocokan mengidentifikasi kecocokan yang tepat dan perkiraan, memungkinkan Anda menghapus data duplikat saat Anda menentukannya. Anda menentukan titik di mana perkiraan kecocokan sebenarnya adalah kecocokan. Anda menentukan bidang mana yang dinilai untuk pencocokan, dan mana yang tidak.

  • DQS memungkinkan Anda membuat kebijakan yang cocok menggunakan proses yang dibantu komputer, memodifikasinya secara interaktif berdasarkan hasil yang cocok, dan menambahkannya ke pangkalan pengetahuan yang dapat digunakan kembali.

  • Anda dapat mengindeks ulang data yang disalin dari sumber ke tabel penahapan, atau tidak mengindeks ulang, tergantung pada status kebijakan yang cocok dan data sumber. Pengindeksan ulang tidak dapat meningkatkan performa.

Anda dapat melakukan proses pencocokan bersama dengan proses pembersihan data lainnya untuk meningkatkan kualitas data secara keseluruhan. Anda juga dapat melakukan de-duplikasi data menggunakan fungsionalitas DQS yang disertakan dalam Master Data Services. Untuk informasi selengkapnya, lihat Gambaran Umum Master Data Services (MDS).

Ilustrasi berikut menampilkan bagaimana pencocokan data dilakukan di DQS:

Matching Process in DQS

Cara Melakukan Pencocokan Data

Seperti halnya proses kualitas data lainnya di DQS, Anda melakukan pencocokan dengan membangun pangkalan pengetahuan dan menjalankan aktivitas yang cocok dalam proyek kualitas data dalam langkah-langkah berikut:

  1. Membuat kebijakan pencocokan di pangkalan pengetahuan

  2. Lakukan proses de-duplikasi dalam aktivitas yang cocok yang merupakan bagian dari proyek kualitas data.

Membangun Kebijakan yang Cocok

Anda menyiapkan pangkalan pengetahuan untuk melakukan pencocokan dengan membuat kebijakan yang cocok di pangkalan pengetahuan untuk menentukan bagaimana DQS menetapkan probabilitas yang cocok. Kebijakan pencocokan terdiri dari satu atau beberapa aturan pencocokan yang mengidentifikasi domain mana yang akan digunakan ketika DQS menilai seberapa baik satu rekaman cocok dengan yang lain, dan menentukan bobot yang dilakukan setiap nilai domain dalam penilaian yang cocok. Anda menentukan dalam aturan apakah nilai domain harus sama persis atau bisa mirip, dan tingkat kesamaan apa. Anda juga menentukan apakah kecocokan domain adalah prasyarat.

Aktivitas kebijakan pencocokan dalam wizard Manajemen Pangkalan Pengetahuan menganalisis data sampel dengan menerapkan setiap aturan yang cocok untuk membandingkan dua rekaman pada satu waktu di seluruh rentang rekaman. Rekaman yang skor pencocokannya lebih besar dari minimum tertentu dikelompokkan dalam kluster dalam hasil yang cocok. Hasil pencocokan ini tidak ditambahkan ke pangkalan pengetahuan; Anda menggunakannya untuk menyetel aturan yang cocok. Membuat kebijakan pencocokan dapat menjadi proses berulang di mana Anda memodifikasi aturan yang cocok berdasarkan hasil yang cocok atau statistik pembuatan profil.

Anda dapat menentukan untuk domain bahwa string data akan dinormalisasi saat Anda memuat data dari sumber data ke domain. Proses ini terdiri dari mengganti karakter khusus dengan null atau spasi, yang sering menghapus perbedaan antara dua string. Ini dapat meningkatkan akurasi pencocokan, dan sering kali dapat mengaktifkan hasil yang cocok untuk melampaui ambang pencocokan minimum, ketika tanpa normalisasi tidak akan lulus.

Catatan

Nilai null dalam bidang terkait dari dua rekaman akan dianggap cocok.

Kebijakan pencocokan dijalankan pada domain yang dipetakan ke data sampel. Anda dapat menentukan apakah data disalin dari sumber data ke dalam tabel penahapan dan diindeks ulang saat Anda menjalankan kebijakan yang cocok, atau tidak. Anda dapat melakukannya baik saat membangun pangkalan pengetahuan maupun saat menjalankan proyek yang cocok. Pengindeksan ulang tidak dapat mengakibatkan peningkatan performa. Pengindeksan ulang tidak diperlukan jika berikut ini benar: kebijakan pencocokan belum berubah, dan Anda belum memperbarui sumber data, memulihkan kebijakan, memilih sumber data baru, atau memetakan satu atau beberapa domain baru.

Setiap aturan pencocokan disimpan di pangkalan pengetahuan saat dibuat. Namun, pangkalan pengetahuan tersedia untuk digunakan dalam proyek kualitas data hanya ketika diterbitkan. Selain itu, sampai pangkalan pengetahuan diterbitkan, aturan pencocokan di dalamnya tidak dapat diubah oleh pengguna selain orang yang membuatnya.

Menjalankan Proyek yang Cocok

DQS melakukan de-duplikasi data dengan membandingkan setiap baris dalam data sumber dengan setiap baris lainnya, menggunakan kebijakan pencocokan yang ditentukan dalam pangkalan pengetahuan, dan menghasilkan probabilitas bahwa baris cocok. Ini dilakukan dalam proyek kualitas data dengan jenis Pencocokan. Pencocokan adalah salah satu langkah utama dalam proyek kualitas data. Ini paling baik dilakukan setelah pembersihan data, sehingga data yang akan dicocokkan bebas dari kesalahan. Sebelum menjalankan proses pencocokan, Anda dapat mengekspor hasil proyek pembersihan ke dalam tabel data atau file .csv, lalu membuat proyek yang cocok di mana Anda memetakan hasil pembersihan ke domain dalam proyek yang cocok.

Proyek pencocokan data terdiri dari proses yang dibantu komputer dan proses interaktif. Proyek yang cocok menerapkan aturan yang cocok dalam kebijakan pencocokan ke sumber data yang akan dinilai. Proses ini menilai kemungkinan bahwa dua baris cocok dalam skor yang cocok. Hanya rekaman dengan probabilitas kecocokan yang lebih besar dari nilai yang ditetapkan oleh pengurus data dalam kebijakan yang cocok yang akan dianggap cocok.

Ketika DQS melakukan analisis pencocokan, DQS membuat kluster rekaman yang dipertimbangkan DQS cocok. DQS secara acak mengidentifikasi salah satu rekaman di setiap kluster sebagai pivot, atau rekaman terkemuka. Pengurus data memverifikasi hasil yang cocok, dan menolak rekaman apa pun yang tidak sesuai untuk kluster. Pengurus data kemudian memilih aturan survivorship yang akan digunakan DQS untuk menentukan rekaman yang akan bertahan dari proses pencocokan dan mengganti rekaman yang cocok. Aturan survivorship dapat berupa "Pivot record" (default), "most complete and longest record", "most complete record", atau "longest record". DQS menentukan catatan penyintas (terdepan) di setiap kluster berdasarkan catatan mana yang paling cocok dengan kriteria atau kriteria dalam aturan penyintas. Jika beberapa rekaman dalam kluster tertentu mematuhi aturan survivorship, DQS memilih salah satu rekaman tersebut secara acak. DQS memberi Anda pilihan untuk menampilkan kluster yang memiliki rekaman yang sama sebagai satu kluster dengan memilih "tampilkan kluster yang tidak tumpang tindih". Anda harus menjalankan proses pencocokan untuk menampilkan hasil sesuai dengan pengaturan ini.

Anda dapat mengekspor hasil proses yang cocok baik ke tabel SQL Server atau file .csv. Anda dapat mengekspor hasil yang cocok dalam dua formulir: pertama, rekaman yang cocok dan rekaman yang tidak cocok, atau kedua, rekaman penyintas yang hanya menyertakan catatan korban untuk kluster dan hasil yang tidak cocok. Dalam catatan survivorship, jika catatan yang sama diidentifikasi sebagai penyintas untuk beberapa kluster, rekaman tersebut hanya akan diekspor sekali.

Di Bagian Ini

Anda dapat melakukan tugas berikut yang terkait dengan pencocokan di DQS:

Deskripsi Tugas Topik
Membuat dan menguji aturan pencocokan dalam kebijakan yang cocok Membuat Kebijakan pencocokan
Menjalankan pencocokan dalam proyek kualitas data Menjalankan Proyek yang Cocok