Membuat Kebijakan yang Cocok

Berlaku untuk:SQL Server

Topik ini menjelaskan cara membangun kebijakan yang cocok dalam pangkalan pengetahuan di Data Quality Services (DQS). Anda bersiap untuk proses pencocokan di DQS dengan menjalankan aktivitas Kebijakan Pencocokan pada data sampel. Dalam aktivitas ini Anda membuat dan menguji satu atau beberapa aturan pencocokan dalam kebijakan, lalu menerbitkan pangkalan pengetahuan untuk membuat aturan pencocokan tersedia untuk digunakan secara publik. Hanya ada satu kebijakan yang cocok dalam pangkalan pengetahuan, tetapi kebijakan tersebut dapat berisi beberapa aturan yang cocok.

Pembuatan kebijakan yang cocok dilakukan dalam tiga tahap: proses pemetaan di mana Anda mengidentifikasi sumber data dan memetakan domain ke kolom, proses kebijakan yang cocok di mana Anda membuat satu atau beberapa aturan yang cocok dan menguji setiap aturan yang cocok secara terpisah, dan proses hasil yang cocok di mana Anda menjalankan semua aturan yang cocok bersama-sama, dan jika puas dengan mereka, tambahkan kebijakan ke pangkalan pengetahuan. Masing-masing proses ini dilakukan pada halaman terpisah dari wizard aktivitas Kebijakan Pencocokan, memungkinkan Anda untuk bergerak bolak-balik ke halaman yang berbeda, untuk menjalankan kembali proses, dan untuk menutup dari proses kebijakan pencocokan tertentu dan kembali ke tahap proses yang sama. Setelah menguji semua aturan bersama-sama, jika diinginkan, Anda dapat kembali ke halaman Kebijakan Pencocokan, mengubah aturan individual, mengujinya lagi secara terpisah, lalu kembali ke halaman Hasil yang Cocok untuk menjalankan semua aturan bersama-sama sekali lagi. DQS memberi Anda statistik tentang data sumber, aturan pencocokan, dan hasil pencocokan yang memungkinkan Anda membuat keputusan berdasarkan informasi tentang kebijakan yang cocok, sehingga Anda dapat memperbaikinya.

Sebelum Anda mulai

Prasyarat

Microsoft Excel harus diinstal pada komputer Klien Kualitas Data jika data sumber berada dalam file Excel. Jika tidak, Anda tidak akan dapat memilih file Excel dalam tahap pemetaan. File yang dibuat oleh Microsoft Excel dapat memiliki ekstensi .xlsx, .xls, atau .csv. Jika Excel versi 64-bit digunakan, hanya file Excel 2003 (.xls) yang didukung; File Excel 2007 atau 2010 (.xlsx) tidak didukung. Jika Anda menggunakan Excel 2007 atau 2010 versi 64-bit, simpan file sebagai file .xls atau file .csv, atau instal Excel versi 32-bit sebagai gantinya.

Keamanan

Izin

Anda harus memiliki peran dqs_kb_editor atau dqs_administrator pada database DQS_MAIN untuk membuat kebijakan yang cocok.

Cara Mengatur Parameter Aturan yang Cocok

Membuat aturan pencocokan adalah proses berulang di mana Anda memasukkan faktor-faktor yang digunakan untuk menentukan apakah satu rekaman cocok untuk yang lain. Anda dapat memasukkan kondisi untuk domain apa pun dalam tabel. Saat DQS melakukan pencocokan pada dua rekaman, DQS akan membandingkan nilai dalam bidang yang dipetakan ke domain yang disertakan dalam aturan yang cocok. DQS menganalisis nilai di setiap bidang dalam aturan, lalu menggunakan faktor yang dimasukkan dalam aturan untuk setiap domain untuk menghitung skor pencocokan akhir. Jika skor pencocokan untuk dua catatan dibandingkan lebih besar dari skor pencocokan minimum, maka dua bidang dianggap cocok.

Faktor-faktor yang Anda masukkan dalam aturan yang cocok meliputi yang berikut ini:

  • Bobot: Untuk setiap domain dalam aturan, masukkan bobot numerik yang menentukan bagaimana analisis pencocokan untuk domain akan dibandingkan dengan domain satu sama lain dalam aturan. Bobot menunjukkan kontribusi skor bidang ke skor pencocokan keseluruhan antara dua rekaman. Skor terhitung yang ditetapkan untuk setiap bidang sumber dijumlahkan bersama-sama untuk skor pencocokan komposit untuk dua rekaman. Untuk setiap bidang yang bukan prasyarat (dengan kesamaan persis atau serupa), atur berat antara 10 dan 100. Jumlah bobot domain yang bukan prasyarat harus sama dengan 100. Jika nilainya adalah prasyarat, berat diatur ke 0 dan tidak dapat diubah.

  • Kesamaan Persis: Pilih Persis jika nilai di bidang yang sama dari dua rekaman berbeda harus identik agar nilai dianggap cocok. Jika identik, skor yang cocok untuk domain tersebut akan diatur ke "100", dan DQS akan menggunakan skor tersebut dan skor untuk domain lain dalam aturan untuk menentukan skor pencocokan agregat. Jika tidak identik, skor yang cocok untuk domain tersebut akan diatur ke "0", dan pemrosesan aturan akan dilanjutkan ke kondisi berikutnya. Jika Anda menyiapkan aturan yang cocok untuk domain numerik dan Anda memilih Serupa, Anda dapat memasukkan toleransi baik sebagai persentase atau bilangan bulat. Untuk domain jenis tanggal, Anda dapat memasukkan toleransi sebagai hari, bulan, atau tahun (bilangan bulat) jika Anda memilih Serupa; tidak ada toleransi persentase untuk domain tanggal. Jika Anda memilih Persis, Anda tidak memiliki opsi ini.

  • Kesamaan Serupa: Pilih Serupa jika dua nilai di bidang yang sama dari dua rekaman berbeda dapat dianggap cocok meskipun nilainya tidak identik. Ketika DQS menjalankan aturan, DQS akan menghitung skor yang cocok untuk domain tersebut, dan akan menggunakan skor tersebut dan skor untuk domain lain dalam aturan untuk menentukan skor pencocokan agregat. Kesamaan minimum antara nilai bidang adalah 60%. Jika skor pencocokan terhitung untuk bidang dua rekaman kurang dari 60, skor kesamaan secara otomatis diatur ke 0. Jika Anda menyiapkan aturan yang cocok untuk bidang numerik, dan Anda memilih Serupa, Anda dapat memasukkan toleransi sebagai persentase atau bilangan bulat. Jika Anda menyiapkan aturan yang cocok untuk bidang tanggal, dan Anda memilih Serupa, Anda bisa memasukkan toleransi numerik.

  • Prasyarat: Pilih Prasyarat untuk menentukan bahwa nilai di bidang yang sama dalam dua rekaman berbeda harus mengembalikan kecocokan 100%, atau rekaman tidak dianggap cocok dan klausul lain dalam aturan diabaikan. Saat Prasyarat dipilih, bidang berat untuk domain dihapus sehingga Anda tidak dapat menentukan berat untuk domain. Anda harus mengatur ulang satu atau beberapa bobot domain sehingga jumlah bobot sama dengan 100. Domain prasyarat tidak berkontribusi pada skor pencocokan rekaman. Skor pencocokan rekaman ditentukan dengan membandingkan nilai di bidang yang Kesamaannya diatur ke Serupa atau Tepat. Saat Anda membuat bidang sebagai prasyarat, Kesamaan untuk domain tersebut secara otomatis diatur ke Persis.

Skor pencocokan minimum adalah ambang batas pada atau di atasnya dua rekaman dianggap cocok (dan status untuk rekaman diatur ke "Cocok"). Masukkan nilai bilangan bulat dalam kenaikan "1" atau klik panah atas atau bawah untuk menambah atau mengurangi nilai dalam kenaikan "10". Nilai minimumnya adalah 80. Jika skor pencocokan di bawah 80, kedua catatan tersebut tidak dianggap cocok. Anda tidak dapat mengubah rentang skor pencocokan minimum di halaman ini. Skor pencocokan min terendah adalah 80. Namun, Anda dapat mengubah skor pencocokan minimum terendah dalam halaman Administrasi (jika Anda adalah administrator DQS).

Membuat aturan pencocokan adalah proses berulang karena Anda mungkin perlu mengubah bobot relatif domain dalam aturan, atau kesamaan atau properti prasyarat untuk domain, atau min. skor yang cocok untuk aturan, untuk mencapai hasil yang Anda butuhkan. Anda mungkin juga menemukan bahwa Anda perlu membuat beberapa aturan, yang masing-masing akan dijalankan untuk membuat skor yang cocok. Mungkin sulit untuk mencapai hasil yang Anda butuhkan hanya dengan satu aturan. Beberapa aturan akan memberikan tampilan yang berbeda dari kecocokan yang diperlukan. Dengan beberapa aturan, Anda mungkin dapat menyertakan lebih sedikit domain dalam setiap aturan, menggunakan bobot yang lebih tinggi untuk setiap domain, dan mencapai hasil yang lebih baik. Jika data kurang akurat dan kurang lengkap, Anda mungkin memerlukan lebih banyak aturan untuk menemukan kecocokan yang diperlukan. Jika data lebih akurat dan lengkap, Anda memerlukan lebih sedikit aturan.

Pembuatan profil memberikan wawasan tentang kelengkapan dan keunikan. Pertimbangkan kelengkapan dan keunikan secara bersamaan. Gunakan data kelengkapan dan keunikan untuk menentukan bobot apa yang akan diberikan bidang dalam proses pencocokan. Jika ada tingkat keunikan yang tinggi dalam bidang, menggunakan bidang dalam kebijakan pencocokan dapat mengurangi hasil yang cocok, jadi Anda mungkin ingin mengatur bobot untuk bidang tersebut ke nilai yang relatif kecil. Jika Anda memiliki tingkat keunikan yang rendah untuk kolom, tetapi kelengkapannya rendah, Anda mungkin tidak ingin menyertakan domain untuk kolom tersebut. Dengan tingkat keunikan yang rendah, tetapi tingkat kelengkapan yang tinggi, Anda mungkin ingin menyertakan domain. Beberapa kolom, seperti jenis kelamin, mungkin secara alami memiliki tingkat keunikan yang rendah. Untuk informasi selengkapnya, lihat Profiler dan Tab Hasil.

Langkah Pertama: Memulai Kebijakan yang Cocok

Anda melakukan aktivitas kebijakan pencocokan di area manajemen pangkalan pengetahuan aplikasi Klien Kualitas Data.

  1. Mulai Klien Kualitas Data. Untuk informasi tentang melakukannya, lihat Menjalankan Aplikasi Klien Kualitas Data.

  2. Di layar beranda Klien Kualitas Data, klik Pangkalan pengetahuan baru untuk membuat kebijakan yang cocok di pangkalan pengetahuan baru. Masukkan nama untuk pangkalan pengetahuan, masukkan deskripsi, dan atur Buat pangkalan pengetahuan dari sesuai keinginan. Klik Kebijakan Pencocokan untuk aktivitas. Klik Berikutnya untuk melanjutkan.

  3. Klik Buka pangkalan pengetahuan untuk membuat atau memodifikasi kebijakan pencocokan di pangkalan pengetahuan yang ada. Pilih pangkalan pengetahuan, pilih Kebijakan Pencocokan, lalu klik Berikutnya. Anda juga dapat mengklik pangkalan pengetahuan di bawah Pangkalan Pengetahuan Terbaru. Jika Anda membuka pangkalan pengetahuan yang ditutup saat kebijakan pencocokan sedang dikerjakan, Anda akan melanjutkan ke tahap tempat aktivitas kebijakan pencocokan ditutup (seperti yang ditunjukkan oleh kolom Status untuk pangkalan pengetahuan di tabel pangkalan pengetahuan atau dalam nama pangkalan pengetahuan di bawah Pangkalan Pengetahuan Terbaru). Jika Anda membuka pangkalan pengetahuan yang menyertakan kebijakan yang cocok dan telah selesai, Anda akan membuka halaman Kebijakan Pencocokan. Jika Anda membuka pangkalan pengetahuan yang tidak menyertakan kebijakan yang cocok dan telah selesai, Anda akan masuk ke Halaman Pemetaan .

Tahap Pemetaan

Dalam tahap pemetaan, Anda mengidentifikasi sumber data yang akan Anda buat kebijakan pencocokannya, dan Anda memetakan kolom sumber ke domain untuk membuat domain tersedia untuk aktivitas kebijakan yang cocok.

  1. Pada halaman Peta , untuk membuat kebijakan untuk database, biarkan Sumber Data sebagai SQL Server, pilih database yang ingin Anda buat kebijakannya di Database, lalu pilih tabel atau tampilan dalam Tabel/Tampilan. Database sumber harus ada dalam instans SQL Server yang sama dengan Server Kualitas Data. Jika tidak, itu tidak akan muncul di daftar drop-down.

  2. Untuk membuat kebijakan untuk data dalam lembar bentang Excel, pilih File Excel untuk Sumber Data, klik Telusuri dan pilih file Excel, dan biarkan Gunakan baris pertama sebagai header dipilih jika sesuai. Di Lembar Kerja, pilih lembar kerja dalam file Excel yang akan menjadi sumber data. Microsoft Excel harus diinstal pada komputer Klien Kualitas Data untuk memilih file Excel. Jika tidak, tombol Telusuri tidak akan tersedia, dan Anda akan diberi tahu di bawah kotak teks ini bahwa Microsoft Excel tidak diinstal.

  3. Di bawah Pemetaan, pilih bidang untuk Kolom Sumber, lalu klik ikon Buat Domain.

  4. Di bawah Pemetaan, pilih bidang di sumber data untuk Kolom Sumber, lalu pilih domain terkait. Ulangi untuk semua domain yang Anda gunakan dalam proses pencocokan. Buat domain seperlunya dengan mengklik Buat Domain atau Buat Domain Komposit.

    Catatan

    Anda dapat memetakan data sumber Anda ke domain DQS saat membuat kebijakan yang cocok hanya jika jenis data sumber didukung di DQS, dan cocok dengan jenis data domain DQS. Untuk informasi tentang jenis data yang didukung di DQS, lihat Jenis Data SQL Server dan SSIS yang didukung untuk Domain DQS.

  5. Klik kontrol plus (+) untuk menambahkan baris ke tabel Pemetaan atau kontrol minus (-) untuk menghapus baris.

  6. Klik Pratinjau sumber data untuk melihat data dalam tabel SQL Server atau tampilan yang Anda pilih, atau lembar kerja Excel yang Anda pilih.

  7. Klik Tampilkan/Pilih Domain Komposit untuk melihat daftar domain komposit yang tersedia di pangkalan pengetahuan dan pilih yang sesuai untuk pemetaan.

  8. Klik Berikutnya untuk melanjutkan ke tahap kebijakan yang cocok.

    Catatan

    Klik Tutup untuk menyimpan tahap proyek yang cocok, dan kembali ke beranda DQS. Lain kali Anda membuka proyek ini, proyek ini akan dimulai dari tahap yang sama. Klik Batal untuk mengakhiri aktivitas yang cocok, kehilangan pekerjaan Anda, dan kembali ke beranda DQS.

Tahap Kebijakan pencocokan

Anda membuat aturan yang cocok dan mengujinya satu per satu di halaman Kebijakan Pencocokan. Saat Menguji aturan yang cocok di halaman Kebijakan Pencocokan, Anda akan melihat tabel hasil yang cocok yang menunjukkan kluster yang telah diidentifikasi DQS untuk aturan yang dipilih. Tabel menunjukkan setiap rekaman dalam kluster dengan nilai domain pemetaan dan skor yang cocok, dan rekaman pivot awal untuk kluster. Anda juga dapat menampilkan data pembuatan profil untuk proses pencocokan secara keseluruhan, kondisi di setiap aturan yang cocok, dan statistik pada hasil untuk setiap aturan yang cocok secara terpisah. Anda dapat memfilter data aturan master yang Anda inginkan.

Untuk informasi selengkapnya tentang cara kerja aturan pencocokan, lihat Cara Mengatur Parameter Aturan yang Cocok.

  1. Pada halaman Kebijakan yang Cocok, klik ikon Buat aturan yang cocok.

  2. Masukkan nama dan deskripsi untuk aturan tersebut.

  3. Tingkatkan nilai Skor pencocokan Min. jika Anda ingin membuat persyaratan pencocokan lebih ketat. Untuk informasi selengkapnya tentang skor pencocokan minimum, lihat Cara Mengatur Parameter Aturan yang Cocok.

  4. Klik ikon Tambahkan elemen domain baru.

  5. Pilih domain atau domain komposit untuk memasukkan nilai aturan.

    Catatan

    Anda dapat memilih domain komposit hanya jika setiap domain tunggal di domain komposit telah dipetakan ke kolom sumber.

  6. Untuk Kesamaan, pilih Serupa jika dua nilai di bidang yang sama dari dua rekaman berbeda dapat dianggap cocok meskipun tidak identik. Pilih Persis jika dua nilai di bidang yang sama dari dua rekaman berbeda harus identik agar dianggap cocok. (Untuk informasi selengkapnya, lihat Cara Mengatur Parameter Aturan yang Cocok.)

  7. Untuk Berat, masukkan nilai yang menentukan kontribusi skor pencocokan domain ke skor pencocokan keseluruhan untuk dua rekaman.

    Catatan

    Saat Anda menentukan bobot untuk domain komposit, Anda dapat memasukkan bobot yang berbeda untuk setiap domain tunggal di domain komposit, dalam hal ini domain komposit tidak diberi bobot terpisah, atau Anda dapat memasukkan berat tunggal untuk domain komposit, di mana domain tunggal di domain komposit tidak diberikan bobot terpisah.

  8. Pilih Prasyarat untuk menentukan bahwa nilai untuk bidang dalam dua rekaman harus mengembalikan kecocokan 100%, jika tidak, rekaman tidak dianggap cocok dan klausa lain dalam aturan diabaikan. Jika Kesamaan Serupa, itu akan berubah menjadi Persis, dan berat akan dihapus karena kecocokan harus 100%.

  9. Ulangi langkah 4 hingga 8 untuk semua domain lain yang akan menjadi bagian dari aturan yang cocok. Pastikan bahwa jumlah bobot untuk semua domain dalam aturan sama dengan 100.

  10. Pilih Tumpang tindih kluster dari daftar drop-down untuk menampilkan rekaman pivot dan rekaman berikut untuk semua kluster saat pencocokan dijalankan, bahkan jika grup kluster memiliki rekaman yang sama. Pilih Kluster yang tidak tumpang tindih untuk menampilkan kluster yang memiliki rekaman yang sama sebagai satu kluster saat pencocokan dijalankan.

  11. Klik Muat ulang data dari sumber untuk menyalin data dari sumber data ke dalam tabel penahapan dan indeks ulang saat Anda menjalankan kebijakan yang cocok. Klik Jalankan pada data sebelumnya untuk menjalankan kebijakan yang cocok tanpa menyalin data ke dalam tabel penahapan dan mengindeks ulang data. Jalankan pada data sebelumnya dinonaktifkan untuk eksekusi pertama kebijakan yang cocok, atau jika Anda mengubah pemetaan di halaman Peta , lalu tekan Ya di popup berikut. Dalam kedua kasus tersebut, Anda harus mengindeks ulang. Tidak perlu mengindeks ulang jika kebijakan yang cocok tidak berubah. Menjalankan pada data sebelumnya dapat membantu performa.

  12. Klik Mulai untuk menjalankan proses pencocokan untuk aturan yang dipilih. Ketika proses selesai, tabel menampilkan ID Rekaman, Nomor kluster, dan kolom data (termasuk yang tidak ada dalam aturan yang cocok) untuk setiap rekaman dalam kluster. Baris pivot dalam kluster dianggap sebagai kandidat utama untuk bertahan dari proses de-duplikasi. Setiap baris tambahan dalam kluster dianggap duplikat; skor pencocokannya (dibandingkan dengan catatan pivot) disediakan dalam tabel hasil. Nomor kluster sama dengan ID rekaman untuk rekaman pivot di kluster.

  13. Anda bisa bekerja dengan data dalam tabel Hasil yang Cocok sebagai berikut:

    • Di Filter, pilih Cocok untuk menampilkan semua baris yang cocok dan skornya. Baris yang tidak dianggap cocok (yang memiliki skor yang cocok kurang dari skor pencocokan minimum) tidak ditampilkan dalam tabel hasil yang cocok. Pilih Tidak cocok untuk menampilkan semua baris yang tidak cocok, bukan baris yang cocok.

    • Di Kotak Drop Down Persen, pilih persentase dari daftar drop-down, dengan kenaikan "5". Semua baris dengan skor yang cocok yang lebih besar dari atau sama dengan persentase tersebut akan ditampilkan dalam tabel hasil yang cocok.

    • Jika Anda mengklik dua kali rekaman dalam tabel hasil yang cocok, DQS menampilkan popup Detail Skor yang Cocok yang menampilkan rekaman pivot dan rekaman sumber (dan nilai di semua bidangnya), skor di antaranya, dan telusuri paling detail rekaman yang cocok. Penelusuran paling detail menampilkan nilai di setiap bidang rekaman pivot dan rekaman sumber sehingga Anda dapat membandingkannya, dan memperlihatkan skor yang cocok yang dikontribusikan setiap bidang terhadap skor pencocokan keseluruhan untuk dua rekaman tersebut.

  14. Lihat statistik di tab Profiler dan Hasil pencocokan untuk memastikan bahwa Anda mencapai hasil yang Anda butuhkan. Untuk informasi selengkapnya, lihat Profiler dan Tab Hasil.

  15. Jika aturan perlu diubah, ubah aturan di Editor Aturan, dan klik Mulai Ulang.

    Catatan

    Setelah analisis pertama selesai, tombol Mulai berubah menjadi tombol Hidupkan Ulang. Jika hasil dari analisis sebelumnya belum disimpan, mengklik Hidupkan ulang akan menyebabkan data sebelumnya hilang. Saat analisis berjalan, jangan tinggalkan halaman atau proses analisis akan dihentikan.

  16. Tab Hasil yang Cocok menampilkan statistik untuk dua eksekusi terakhir aturan. Jika Anda telah menjalankan aturan yang cocok lebih dari sekali dengan pengaturan yang berbeda, bandingkan statistik untuk aturan saat ini dan aturan sebelumnya. Jika Anda menemukan bahwa hasil dari aturan sebelumnya lebih baik, klik Pulihkan Aturan sebelumnya untuk memulihkan kondisi aturan sebelumnya, mengembalikan aturan ke status sebelumnya sebelum mengedit. Kondisi aturan saat ini akan hilang. Ini memungkinkan Anda untuk menyetel kebijakan berdasarkan dua eksekusi pencocokan terakhir, mengurangi waktu yang Anda habiskan untuk menyetel kebijakan yang cocok.

  17. Jika Anda ingin aturan lain ditambahkan ke kebijakan yang cocok, ulangi dari langkah 1.

  18. Klik Berikutnya untuk melanjutkan ke tahap hasil yang cocok.

Tahap Hasil yang Cocok

Anda menguji semua aturan yang cocok sekaligus di halaman Hasil yang Cocok. Sebelum melakukannya, Anda dapat menentukan bahwa eksekusi uji aturan mengidentifikasi kluster yang tumpang tindih atau tidak tumpang tindih. Jika Anda menjalankan aturan beberapa kali, Anda dapat menjalankan aturan pada data yang dimuat ulang dari sumber atau pada data sebelumnya.

Saat Menguji aturan yang cocok di halaman Hasil Yang Cocok, Anda akan melihat tabel hasil yang cocok yang menunjukkan kluster yang telah diidentifikasi DQS untuk semua aturan. Tabel menunjukkan setiap rekaman dalam kluster dengan nilai domain pemetaan dan skor yang cocok, dan rekaman pivot awal untuk kluster. Anda juga dapat menampilkan data pembuatan profil untuk aturan yang cocok secara keseluruhan, kondisi di setiap aturan yang cocok, dan statistik pada hasil untuk semua aturan yang cocok.

  1. Pada halaman Hasil pencocokan, pilih Tumpang Tindih kluster dari daftar drop-down untuk menampilkan rekaman pivot dan rekaman berikut untuk semua kluster saat pencocokan dijalankan, bahkan jika grup kluster memiliki rekaman yang sama. Pilih Kluster yang tidak tumpang tindih untuk menampilkan kluster yang memiliki rekaman yang sama sebagai satu kluster saat pencocokan dijalankan.

  2. Klik Muat ulang data dari sumber untuk menyalin data dari sumber data ke dalam tabel penahapan dan indeks ulang saat Anda menjalankan kebijakan yang cocok. Klik Jalankan pada data sebelumnya untuk menjalankan kebijakan yang cocok tanpa menyalin data ke dalam tabel penahapan dan mengindeks ulang data. Jalankan pada data sebelumnya dinonaktifkan untuk eksekusi pertama kebijakan yang cocok, atau jika Anda mengubah pemetaan di halaman Peta , lalu tekan Ya di popup berikut. Dalam kedua kasus tersebut, Anda harus mengindeks ulang. Tidak perlu mengindeks ulang jika kebijakan yang cocok tidak berubah. Menjalankan pada data sebelumnya dapat membantu performa.

  3. Klik Mulai untuk menjalankan proses pencocokan untuk semua aturan yang telah Anda tentukan. Tabel Hasil yang Cocok menampilkan ID rekaman, nomor kluster, dan kolom data (termasuk yang tidak ada dalam aturan yang cocok) untuk setiap rekaman dalam kluster. Rekaman terdepan dalam kluster dipilih secara acak. (Anda menentukan catatan yang bertahan dengan memilih aturan penyintas pada Ekspor halaman saat Anda menjalankan proyek yang cocok.) Setiap baris tambahan dalam kluster dianggap duplikat; skor pencocokannya (dibandingkan dengan catatan pivot) disediakan dalam tabel hasil.

  4. Anda bisa bekerja dengan data dalam tabel Hasil yang Cocok sebagai berikut:

    • Di Filter, pilih Cocok untuk menampilkan semua baris yang cocok dan skornya. Baris yang tidak dianggap cocok (yang memiliki skor yang cocok kurang dari skor pencocokan minimum) tidak ditampilkan dalam tabel hasil yang cocok. Pilih Tidak cocok untuk menampilkan semua baris yang tidak cocok, bukan baris yang cocok.

    • Di Kotak Drop Down Persen, pilih persentase dari daftar drop-down, dengan kenaikan "5". Semua baris dengan skor yang cocok yang lebih besar dari atau sama dengan persentase tersebut akan ditampilkan dalam tabel hasil yang cocok.

    • Jika Anda mengklik dua kali rekaman dalam tabel hasil yang cocok, DQS menampilkan popup Detail Skor yang Cocok yang menampilkan rekaman pivot dan rekaman sumber (dan nilai di semua bidangnya), skor di antaranya, dan telusuri paling detail rekaman yang cocok. Penelusuran paling detail menampilkan nilai di setiap bidang rekaman pivot dan rekaman sumber sehingga Anda dapat membandingkannya, dan memperlihatkan skor yang cocok yang dikontribusikan setiap bidang terhadap skor pencocokan keseluruhan untuk dua rekaman tersebut.

  5. Lihat statistik di tab Profiler dan Hasil pencocokan untuk memastikan bahwa Anda mencapai hasil yang Anda butuhkan. Klik tab Aturan yang Cocok untuk melihat pengaturan domain untuk setiap aturan. Untuk informasi selengkapnya, lihat Profiler dan Tab Hasil.

  6. Jika Anda tidak puas dengan hasil semua aturan, lalu klik Kembali untuk kembali ke halaman Kebijakan Yang Cocok, ubah satu atau beberapa aturan seperlunya, kembali ke halaman Hasil yang Cocok, lalu klik Mulai Ulang.

    Catatan

    Setelah analisis selesai, tombol Mulai berubah menjadi tombol Hidupkan Ulang. Jika hasil dari analisis sebelumnya belum disimpan, mengklik Hidupkan ulang akan menyebabkan data sebelumnya hilang.

  7. Jika Anda puas dengan hasil semua aturan, klik Selesai untuk menyelesaikan proses kebijakan yang cocok, lalu klik salah satu hal berikut ini:

    • Ya - Terbitkan pangkalan pengetahuan dan keluar: Pangkalan pengetahuan akan diterbitkan untuk digunakan pengguna saat ini atau orang lain. Pangkalan pengetahuan tidak akan dikunci, status pangkalan pengetahuan (dalam tabel pangkalan pengetahuan) akan diatur ke kosong, dan aktivitas Manajemen Domain dan Penemuan Pengetahuan akan tersedia. Anda akan dikembalikan ke layar Buka Pangkalan Pengetahuan.

    • Tidak - Simpan pekerjaan di pangkalan pengetahuan dan keluar: Pekerjaan Anda akan disimpan, pangkalan pengetahuan akan tetap terkunci, dan status pangkalan pengetahuan akan diatur ke Dalam pekerjaan. Aktivitas Manajemen Domain dan Penemuan Pengetahuan akan tersedia. Anda akan dikembalikan ke halaman beranda.

    • Batal - Tetap di layar saat ini: Popup akan ditutup dan Anda akan dikembalikan ke layar Manajemen Domain.

  8. Klik Tutup untuk menyimpan pekerjaan Anda, dan kembali ke beranda DQS. Status pangkalan pengetahuan akan menampilkan string "Kebijakan Pencocokan - ", dan status saat ini. Jika Anda mengklik Tutup saat Anda berada di layar Hasil yang Cocok, status akan menampilkan: "Kebijakan Yang Cocok - Hasil". Jika Anda mengklik tutup saat Berada di layar Kebijakan Pencocokan, status akan menampilkan: "Kebijakan Pencocokan - Kebijakan yang Cocok". Setelah mengklik Tutup, untuk melakukan aktivitas Penemuan Pengetahuan, Anda harus kembali ke aktivitas kebijakan Pencocokan, klik Selesai, lalu klik Ya untuk menerbitkan pangkalan pengetahuan atau Tidak untuk menyimpan pekerjaan di pangkalan pengetahuan dan keluar.

    Catatan

    Jika Anda mengklik Tutup saat proses pencocokan sedang berjalan, proses pencocokan tidak akan berakhir saat Anda mengklik Tutup. Anda dapat membuka kembali pangkalan pengetahuan dan melihat bahwa proses masih berjalan, atau jika selesai, bahwa hasilnya ditampilkan. Jika proses belum selesai, layar akan menampilkan kemajuan.

  9. Klik Batal untuk mengakhiri aktivitas Kebijakan yang Cocok, kehilangan pekerjaan Anda, dan kembali ke beranda DQS.

Tindak Lanjut: Setelah Membuat Kebijakan yang Cocok

Setelah membuat kebijakan yang cocok, Anda dapat menjalankan proyek yang cocok berdasarkan pangkalan pengetahuan yang berisi kebijakan yang cocok. Untuk informasi selengkapnya, lihat Menjalankan Proyek yang Cocok.

Tab Profiler dan Hasil

Tab Profiler dan Hasil berisi statistik untuk Kebijakan Pencocokan dan halaman Hasil yang Cocok.

Profiler Tab

Klik tab Profiler untuk menampilkan statistik untuk database sumber dan untuk setiap bidang yang disertakan dalam aturan kebijakan. Statistik akan diperbarui saat aturan kebijakan dijalankan.

Untuk informasi selengkapnya tentang cara menginterpretasikan statistik berikut, lihat Cara Mengatur Parameter Aturan yang Cocok.

Statistik database sumber meliputi yang berikut ini:

  • Rekaman: Jumlah total rekaman dalam database sumber

  • Nilai Total: Jumlah total nilai di bidang sumber data

  • Nilai Baru: Jumlah total nilai yang baru sejak eksekusi sebelumnya, dan persentase keseluruhannya

  • Nilai Unik: Jumlah total nilai unik dalam bidang, dan persentase keseluruhannya

  • Nilai Unik Baru: Jumlah total nilai unik yang baru dalam bidang, dan persentasenya dari keseluruhan

Statistik bidang meliputi yang berikut ini:

  • Nama bidang

  • Nama domain

  • Baru: Jumlah nilai baru dan persentase nilai baru dibandingkan dengan nilai yang sudah ada di domain

  • Unik: Jumlah rekaman unik di bidang dan persentasenya dari total

  • Kelengkapan: Kelengkapan setiap bidang sumber yang dipetakan untuk latihan pencocokan

Pemberitahuan Kebijakan yang Cocok

Untuk aktivitas kebijakan yang cocok, kondisi berikut menghasilkan pemberitahuan:

  • Bidang kosong di semua rekaman; disarankan agar Anda menghilangkannya dari pemetaan.

  • Skor kelengkapan bidang sangat rendah; Anda mungkin ingin menghilangkannya dari pemetaan.

  • Semua nilai dalam bidang tidak valid; Anda harus memverifikasi pemetaan dan relevansi aturan domain ke konten bidang.

  • Ada tingkat nilai valid yang rendah di bidang ; Anda harus memverifikasi pemetaan dan relevansi aturan domain ke konten bidang.

  • Ada tingkat keunikan yang tinggi di bidang ini. Menggunakan bidang ini dalam kebijakan pencocokan dapat mengurangi hasil yang cocok.

Tab Hasil yang Cocok

Klik tab Hasil yang Cocok untuk menampilkan statistik untuk eksekusi aturan kebijakan yang cocok, dan aturan sebelumnya berjalan. Jika Anda telah menjalankan aturan yang sama lebih dari sekali dengan parameter yang berbeda, tabel hasil yang cocok akan menampilkan statistik untuk kedua eksekusi, memungkinkan Anda membandingkannya. Anda juga dapat memulihkan aturan sebelumnya jika mau.

Statistiknya meliputi:

  • Jumlah total rekaman dalam database

  • Jumlah total rekaman yang cocok dalam database

  • Jumlah rekaman dalam database yang tidak dianggap duplikat

  • Jumlah kluster yang ditemukan

  • Ukuran kluster rata-rata (jumlah rekaman duplikat dibagi dengan jumlah kluster)

  • Jumlah duplikat terkecil dalam kluster

  • Jumlah duplikat terbesar dalam kluster