Bagikan melalui


Menjalankan Proyek Pencocokan

Berlaku untuk:SQL Server

Penting

Data Quality Services (DQS) dihapus pada SQL Server 2025 (17.x). Kami terus mendukung DQS di SQL Server 2022 (16.x) dan versi yang lebih lama.

Topik ini menjelaskan cara melakukan pencocokan data di Data Quality Services (DQS). Proses pencocokan mengidentifikasi kluster rekaman yang cocok berdasarkan aturan yang cocok dalam kebijakan pencocokan, menunjuk satu rekaman dari setiap kluster sebagai penyintas berdasarkan aturan penyintas, dan mengekspor hasilnya. DQS melakukan proses pencocokan, yang juga dikenal sebagai proses penghilangan duplikasi, dengan bantuan komputer. Namun, Anda membuat aturan pencocokan secara interaktif dan memilih aturan kelangsungan dari beberapa pilihan, sehingga Anda mengontrol proses pencocokan.

Pencocokan dilakukan dalam tiga tahap: proses pemetaan di mana Anda mengidentifikasi sumber data dan memetakan domain ke sumber data, proses pencocokan di mana Anda menjalankan analisis pencocokan, dan proses keberlangsungan dan ekspor di mana Anda menentukan aturan keberlangsungan dan mengekspor hasil pencocokan. Masing-masing proses ini dilakukan pada halaman terpisah dari wizard aktivitas Pencocokan, memungkinkan Anda untuk bergerak bolak-balik antar halaman, menjalankan kembali proses, menutup satu proses pencocokan tertentu, dan kemudian kembali ke tahap yang sama dari proses tersebut. DQS memberi Anda statistik tentang data sumber, aturan pencocokan, dan hasil pencocokan yang memungkinkan Anda membuat keputusan berdasarkan informasi tentang pencocokan, dan memperbaiki proses pencocokan.

Anda harus bersiap untuk mempertemukan dengan membuat kebijakan pencocokan yang mengandung satu atau beberapa aturan pencocokan, dan menjalankan kebijakan tersebut pada data sampel. Proses proyek yang cocok terpisah dari proses kebijakan yang cocok, dan basis pengetahuan tidak diisi dengan pengetahuan yang cocok yang diperoleh dari proyek yang cocok. Untuk informasi selengkapnya tentang membuat kebijakan yang cocok, lihat Membuat Kebijakan yang Cocok.

Sebelum Anda mulai

Prasyarat

  • Anda harus membuat basis pengetahuan dengan kebijakan yang cocok yang terdiri dari satu atau beberapa aturan yang cocok.

  • Microsoft Excel harus diinstal pada komputer Klien Kualitas Data jika data sumber yang akan dicocokkan berada dalam file Excel. Jika tidak, Anda tidak akan dapat memilih file Excel dalam tahap pemetaan. File yang dibuat oleh Microsoft Excel dapat memiliki ekstensi .xlsx, .xls, atau .csv. Jika Excel versi 64-bit digunakan, hanya file Excel 2003 (.xls) yang didukung; File Excel 2007 atau 2010 (.xlsx) tidak didukung. Jika Anda menggunakan Excel 2007 atau 2010 versi 64-bit, simpan file sebagai file .xls atau file .csv, atau instal Excel versi 32-bit sebagai gantinya.

Keamanan

Perizinan

Anda harus memiliki peran dqs_kb_editor atau dqs_administrator pada database DQS_MAIN untuk menjalankan proyek yang cocok.

Langkah Pertama: Memulai Proyek yang Cocok

Anda melakukan aktivitas pencocokan dalam proyek kualitas data yang Anda buat di aplikasi klien DQS.

  1. Mulai Aplikasi Kualitas Data. Untuk informasi tentang melakukannya, lihat Menjalankan Aplikasi Klien Data Kualitas.

  2. Di layar beranda Klien Kualitas Data, klik Proyek Kualitas Data Baru untuk melakukan pencocokan dalam proyek kualitas data baru. Masukkan nama untuk proyek kualitas data, masukkan deskripsi, dan pilih basis pengetahuan yang ingin Anda gunakan untuk pencocokan di Gunakan basis pengetahuan. Klik Pencocokan untuk memulai aktivitas. Klik Berikutnya untuk melanjutkan ke tahap pemetaan.

  3. Klik Buka proyek kualitas data untuk melakukan pencocokan dalam proyek kualitas data yang ada. Pilih proyek lalu klik Berikutnya. (Atau Anda dapat mengklik proyek di bawah Proyek Kualitas Data Terbaru.) Jika Anda membuka proyek yang cocok yang ditutup, Anda akan melanjutkan ke tahap tempat aktivitas proyek yang cocok ditutup (seperti yang ditunjukkan oleh kolom Status dalam tabel proyek atau dalam nama proyek di bawah Proyek Kualitas Data Terbaru). Jika Anda membuka proyek yang cocok yang selesai, Anda akan masuk ke halaman Ekspor (dan Anda tidak dapat kembali ke layar sebelumnya).

Tahap Pemetaan

Pada tahap pemetaan, Anda mengidentifikasi sumber data tempat Anda akan menjalankan analisis pencocokan, dan Anda memetakan kolom sumber ke domain untuk membuat domain tersedia untuk aktivitas yang cocok.

  1. Pada halaman Peta , untuk menjalankan pencocokan pada database, biarkan Sumber Data sebagai SQL Server, pilih database yang ingin Anda jalankan pencocokannya, lalu pilih tabel. Database sumber harus ada dalam instans SQL Server yang sama dengan server DQS. Jika tidak, tidak akan muncul di daftar drop-down.

  2. Untuk menjalankan pencocokan pada data dalam lembar bentang Excel, pilih File Excel untuk Sumber Data, klik Telusuri dan pilih file Excel, dan biarkan Gunakan baris pertama sebagai header dipilih jika sesuai. Di Lembar Kerja, pilih lembar kerja dalam file Excel yang akan menjadi sumber data. Excel harus diinstal pada komputer Klien Kualitas Data untuk memilih file Excel. Jika Excel tidak diinstal pada komputer Klien Kualitas Data, tombol Telusuri tidak akan tersedia, dan Anda akan diberi tahu di bawah kotak teks ini bahwa Excel tidak diinstal.

  3. Di bawah Pemetaan, pilih bidang di sumber data untuk Kolom Sumber, lalu pilih domain terkait. Ulangi untuk semua domain yang Anda gunakan dalam proses pencocokan. Setiap domain yang ditentukan dalam kebijakan pencocokan harus dipetakan ke kolom sumber yang sesuai. Halaman Peta menampilkan domain yang telah ditentukan dalam kebijakan pencocokan dan aturan dalam kebijakan pencocokan di panel sebelah kanan.

    Catatan

    Anda dapat memetakan data sumber Anda ke domain DQS hanya jika jenis data sumber didukung di DQS, dan cocok dengan jenis data domain DQS. Untuk informasi tentang jenis data yang didukung di DQS, lihat Jenis Data SQL Server dan SSIS yang didukung untuk Domain DQS.

  4. Klik kontrol plus (+) untuk menambahkan baris ke tabel Pemetaan atau kontrol minus (-) untuk menghapus baris.

  5. Klik Pratinjau sumber data untuk melihat data dalam tabel SQL Server atau tampilan yang Anda pilih, atau lembar kerja Excel yang Anda pilih.

  6. Klik Tampilkan/Pilih Domain Komposit untuk melihat daftar domain komposit yang tersedia di basis pengetahuan dan pilih yang sesuai untuk pemetaan.

  7. Klik Berikutnya untuk melanjutkan ke tahap pencocokan.

    Catatan

    Klik Tutup untuk menyimpan tahap proyek yang cocok, dan kembali ke beranda DQS. Lain kali Anda membuka proyek ini, proyek ini akan dimulai dari tahap yang sama. Klik Batal untuk mengakhiri aktivitas pencocokan, yang menyebabkan hilangnya hasil kerja Anda, dan kembali ke beranda DQS.

Tahap pencocokan

Pada tahap ini, Anda melakukan proses pencocokan yang dibantu komputer yang menunjukkan kepada Anda berapa banyak kecocokan yang ada di data sumber berdasarkan aturan yang cocok. Proses ini akan menghasilkan tabel hasil yang cocok yang menunjukkan kluster yang telah diidentifikasi DQS, setiap rekaman dalam kluster dengan ID rekamannya dan skor pencocokannya, dan rekaman awal terkemuka untuk kluster. Rekaman terdepan dalam kluster dipilih secara acak. Anda menentukan rekaman yang bertahan dengan memilih aturan bertahan hidup di halaman Ekspor saat Anda menjalankan proyek yang cocok. Setiap baris tambahan dalam kluster dianggap sebagai kecocokan; skor kecocokannya (dibandingkan dengan catatan utama) disediakan dalam tabel hasil. Nomor kluster sama dengan ID catatan untuk catatan utama dalam kluster.

Dalam hasil pencocokan, Anda dapat memfilter data yang Anda inginkan dan menolak kecocokan yang tidak diinginkan. Anda dapat menampilkan data profil untuk proses pencocokan secara keseluruhan, rincian tentang aturan pencocokan yang diterapkan, dan statistik tentang hasil pencocokan secara keseluruhan. Proses pencocokan dapat mengidentifikasi kluster yang tumpang tindih atau tidak tumpang tindih, dan jika dijalankan beberapa kali, dapat dijalankan pada data yang baru disalin dari sumber dan diindeks ulang, atau pada data sebelumnya.

  1. Pada halaman Pencocokan, pilih Tumpang Tindih kluster dari daftar drop-down untuk menampilkan rekaman pivot dan rekaman berikut untuk semua kluster saat pencocokan dijalankan, bahkan jika grup kluster memiliki rekaman yang sama. Pilih Kluster yang tidak tumpang tindih untuk menampilkan kluster yang memiliki rekaman yang sama sebagai satu kluster saat pencocokan dijalankan.

  2. Klik Muat ulang data dari sumber (default) untuk menyalin data dari sumber data ke dalam tabel penahapan dan mengindeksnya kembali saat Anda menjalankan proyek yang cocok. Klik Jalankan proyek pemadanan pada data sebelumnya untuk menjalankan proyek tanpa menyalin data ke dalam tabel penahapan dan tanpa melakukan pengindeksan ulang data tersebut. Eksekusi pada data sebelumnya dinonaktifkan untuk menjalankan pertama proyek pencocokan, atau jika Anda mengubah pemetaan di halaman Pemetaan, kemudian tekan Ya di popup berikutnya. Dalam kedua kasus tersebut, Anda harus mengindeks ulang. Tidak perlu mengindeks ulang jika proyek yang cocok tidak berubah. Menggunakan data sebelumnya dapat meningkatkan kinerja.

  3. Klik Mulai untuk menjalankan pencocokan pada sumber data yang dipilih.

  4. Klik Hentikan jika Anda ingin menghentikan proyek yang cocok dan membuang hasilnya.

  5. Setelah proses pencocokan selesai, verifikasi bahwa kluster dalam tabel Hasil Pencocokan sesuai, dan lihat statistik di tab Profiler dan Hasil Pencocokan untuk memastikan bahwa Anda mencapai hasil yang Anda butuhkan. Lihat rekaman yang cocok dengan memilih Cocok untuk Filter atau lihat rekaman yang tidak cocok dengan memilih Tidak Cocok.

  6. Jika Anda memiliki beberapa aturan yang cocok dalam kebijakan pencocokan, klik tab Aturan yang Cocok untuk mengidentifikasi ikon untuk setiap aturan, lalu verifikasi aturan mana yang mengidentifikasi rekaman sebagai kecocokan dengan mengidentifikasi aturan di kolom Aturan dari tabel Hasil yang Cocok.

  7. Jika Anda memilih rekor non-pivot dalam tabel dan mengklik ikon Tampilkan Detail (atau mengklik dua kali rekor tersebut), DQS akan menampilkan popup Detail Skor yang Cocok yang menampilkan rekor yang diklik dua kali dan rekaman pivotnya (berserta nilai pada semua bidangnya), skor di antara keduanya, serta rincian kontribusi skor yang cocok dari setiap bidang. Mengklik dua kali rekaman pivot tidak akan menampilkan popup.

  8. Klik ikon Ciutkan Semua untuk meringkas rekaman yang ditampilkan dalam tabel Hasil yang Sesuai agar hanya mencakup rekaman pivot, bukan rekaman duplikat. Klik Perluas Semua untuk memperluas rekaman yang ditampilkan dalam tabel Hasil yang Cocok untuk menyertakan semua rekaman duplikat.

  9. Untuk menolak rekaman dari hasil yang cocok, klik kotak centang Ditolak untuk rekaman tersebut.

  10. Untuk mengubah skor pencocokan minimum yang menentukan tingkat kecocokan yang harus dimiliki sebuah data agar dapat ditampilkan, pilih ikon Min. Pencocokan di atas sisi kanan tabel, dan masukkan angka yang lebih tinggi. Skor pencocokan minimum diatur ke 80% secara default. Klik Refresh untuk mengubah konten tabel.

  11. Setelah analisis selesai, tombol Mulai berubah menjadi tombol Hidupkan Ulang. Klik Mulai Ulang untuk menjalankan proyek analisis lagi. Namun, hasil dari analisis sebelumnya belum disimpan, jadi mengklik Mulai Ulang akan menyebabkan data sebelumnya hilang. Untuk melanjutkan, klik Ya di popup. Saat analisis berjalan, jangan tinggalkan halaman atau proses analisis akan dihentikan.

  12. Klik Berikutnya untuk melanjutkan ke tahap kelangsungan hidup dan ekspor.

Tahap Keberlangsungan dan Ekspor

Dalam proses survivorship, Data Quality Services menentukan catatan terpilih untuk setiap kluster, yang akan menggantikan catatan lain yang cocok dengannya dalam kluster tersebut. Kemudian mengekspor hasil pemadanan dan/atau keberlanjutan ke dalam tabel di database SQL Server, file .csv, atau file Excel.

Kemampuan bertahan hidup bersifat opsional. Anda dapat mengekspor hasil tanpa menjalankan analisis keberlangsungan, dalam situasi ini DQS akan menggunakan catatan pivot yang telah ditetapkan dalam analisis pencocokan. Jika dua atau lebih rekaman dalam kluster memenuhi aturan kelangsungan hidup, proses kelangsungan hidup akan memilih ID rekaman terendah di antara rekaman yang bertentangan menjadi yang selamat. Anda dapat mengekspor penyintas ke file atau tabel yang berbeda menggunakan aturan penyintas yang berbeda.

  1. Pada halaman Ekspor , pilih tujuan tempat Anda ingin mengekspor data yang cocok di Jenis Tujuan: SQL Server, File CSV, atau File Excel.

    Penting

    Jika Anda menggunakan Excel versi 64-bit, Anda tidak dapat mengekspor data yang cocok ke file Excel; Anda hanya dapat mengekspor ke database SQL Server atau ke file .csv.

  2. Jika Anda memilih SQL Server untuk Jenis Tujuan, pilih database untuk mengekspor hasilnya di Nama Database.

    Penting

    Database tujuan harus ada dalam instans SQL Server yang sama dengan server DQS. Jika tidak, tidak akan muncul di daftar drop-down.

  3. Pilih kotak centang untuk Hasil yang Cocok untuk mengekspor hasil yang cocok (lihat di atas untuk penjelasan) ke tabel yang ditunjuk dalam database SQL Server atau ke file .csv atau Excel yang ditunjuk. Pilih kotak centang untuk Hasil Survivorship untuk mengekspor hasil survivorship (lihat di atas untuk penjelasan) ke tabel yang ditunjuk dalam database SQL Server atau ke file .csv atau Excel yang ditunjuk.

    Berikut ini akan diekspor untuk hasil yang cocok:

    • Daftar kluster dan rekaman yang sesuai dalam setiap kluster, termasuk nama aturan dan nilai. Rekaman pivot akan ditandai sebagai "Pivot". Kluster akan muncul terlebih dahulu dalam daftar ekspor.

    • Daftar rekaman yang tidak cocok, dengan "NULL" di kolom Skor dan Nama Aturan. Rekaman-rekaman ini akan ditambahkan ke daftar ekspor setelah kluster.

    Berikut ini akan diekspor untuk hasil kelangsungan hidup:

    • Daftar catatan kelangsungan hidup sebagaimana ditentukan oleh proses kelangsungan hidup sesuai dengan aturan kelangsungan hidup. Catatan ini muncul terlebih dahulu dalam daftar ekspor.

    • Daftar rekaman yang tidak cocok yang tidak disertakan dalam kluster rekaman yang cocok. Catatan ini dilampirkan setelah hasil survivor.

  4. Jika Anda memilih SQL Server untuk Tipe Tujuan, masukkan nama tabel yang ingin Anda ekspor hasilnya di Nama Tabel. Jika Anda mengekspor hasil yang cocok dan hasil survivorship, tabel tujuan harus memiliki nama berbeda yang unik untuk database.

  5. Jika Anda memilih File CSV untuk Jenis Tujuan, masukkan file dan jalur untuk file CSV yang ingin Anda ekspor dalam Nama File CSV.

  6. Jika Anda memilih File Excel untuk Tipe Tujuan, masukkan file dan jalur untuk file Excel yang ingin Anda ekspor di Nama File Excel. Anda tidak dapat mengekspor ke file Excel jika Anda menggunakan Excel versi 64-bit.

  7. Pilih aturan survivorship sebagai berikut:

    • Pilih Rekaman Pivot (default) untuk mengidentifikasi rekaman yang bertahan sebagai rekaman pivot awal yang dipilih secara acak oleh DQS.

    • Pilih Rekaman terlengkap dan terpanjang untuk mengidentifikasi rekaman yang bertahan sebagai rekaman dengan jumlah bidang terisi terbesar, dan memiliki jumlah istilah terbesar di setiap bidang. Semua bidang sumber dicentang, bahkan bidang yang tidak dipetakan ke domain di halaman Peta .

    • Pilih Rekaman terlengkap untuk mengidentifikasi rekaman yang bertahan sebagai rekaman dengan jumlah bidang terisi terbesar. Bidang yang diisi berisi setidaknya satu nilai (string, numerik, atau keduanya). Semua bidang sumber dicentang, bahkan bidang yang tidak dipetakan ke domain di halaman Peta. Bidang yang diisi berisi setidaknya satu nilai (string, numerik, atau keduanya).

    • Pilih Rekaman terpanjang untuk mengidentifikasi rekaman yang bertahan sebagai rekaman dengan jumlah istilah terbesar di bidang sumbernya. Untuk menentukan panjang setiap rekaman, DQS memverifikasi panjang istilah di semua bidang sumber, bahkan bidang yang tidak dipetakan ke domain di halaman Peta .

  8. Lihat statistik di tab Profiler untuk memastikan bahwa Anda mencapai hasil yang Anda butuhkan.

  9. Klik Ekspor untuk mengekspor hasil. Ini menampilkan kotak dialog Ekspor yang Cocok yang memperlihatkan kemajuan lalu hasil ekspor.

    • Jika Anda memilih SQL Server sebagai tujuan data, tabel baru dengan nama yang ditentukan akan dibuat dalam database yang dipilih.

    • Jika Anda memilih File CSV sebagai tujuan data, file .csv akan dibuat di lokasi pada komputer Server Kualitas Data dengan nama file yang Anda tentukan sebelumnya dalam kotak nama file Csv.

    • Jika Anda memilih File Excel sebagai tujuan data, file .xlsx akan dibuat di lokasi pada komputer Server Kualitas Data dengan nama file yang Anda tentukan sebelumnya dalam kotak nama file Excel.

  10. Verifikasi bahwa ekspor berhasil diselesaikan, lalu klik Tutup.

  11. Klik Selesai untuk menyelesaikan proyek yang cocok.

    Catatan

    Jika Anda telah menyelesaikan proyek yang cocok dan kemudian menggunakannya lagi, proyek tersebut akan menggunakan basis pengetahuan saat diterbitkan. Ini tidak akan menggunakan perubahan apa pun yang telah Anda buat pada basis pengetahuan sejak Anda menyelesaikan proyek. Untuk menggunakan perubahan tersebut, atau untuk menggunakan basis pengetahuan baru, Anda harus membuat proyek pencocokan baru. Di sisi lain, jika Anda telah membuat, tetapi belum menyelesaikan, proyek pencocokan, setiap perubahan yang telah Anda terbitkan ke kebijakan pencocokan akan digunakan jika Anda menjalankan pencocokan dalam proyek tersebut.

Tindak Lanjut: Setelah Menjalankan Proyek Pencocokan

Setelah menjalankan proyek yang cocok, Anda dapat mengubah kebijakan pencocokan di basis pengetahuan, dan membuat dan menjalankan proyek lain yang cocok berdasarkan kebijakan pencocokan yang diperbarui. Untuk informasi selengkapnya, lihat Membuat Kebijakan yang Cocok.

Tab Profiler dan Hasil

Tab Profiler dan Hasil berisi statistik untuk proses pencocokan.

Profiler Tab

Klik tab Profiler untuk menampilkan statistik untuk database sumber dan untuk setiap bidang yang disertakan dalam aturan kebijakan. Statistik akan diperbarui saat aturan kebijakan dijalankan. Pembuatan profil akan membantu Anda menilai efektivitas proses de-duplikasi, membantu menentukan sejauh mana proses dapat meningkatkan kualitas data. Akurasi dalam pembuatan profil tidak penting untuk proyek pencocokan.

Statistik database sumber meliputi yang berikut ini:

  • Rekaman: Jumlah total rekaman dalam database

  • Nilai Total: Jumlah nilai total dalam bidang

  • Nilai Baru: Jumlah total nilai yang baru sejak eksekusi sebelumnya, dan persentase keseluruhannya

  • Nilai Unik: Jumlah total nilai unik dalam bidang, dan persentase keseluruhannya

  • Nilai Unik Baru: Jumlah total nilai unik yang baru dalam bidang, dan persentasenya dari keseluruhan

Statistik bidang meliputi yang berikut ini:

  • Bidang: Nama bidang yang disertakan dalam pemetaan.

  • Domain: Nama domain yang dipetakan ke bidang .

  • Baru: Jumlah kecocokan baru yang ditemukan dan persentasenya dari total

  • Unik : Jumlah rekaman unik di bidang dan persentase totalnya

  • Kelengkapan: Persentase sejauh mana aturan telah dijalankan sepenuhnya.

Pemberitahuan Kebijakan yang Sesuai

Untuk aktivitas kebijakan yang cocok, kondisi berikut menghasilkan pemberitahuan:

  • Bidang kosong di semua rekaman; disarankan agar Anda menghilangkannya dari pemetaan.

  • Skor kelengkapan bidang sangat rendah; Anda mungkin ingin menghilangkannya dari pemetaan.

  • Semua nilai dalam bidang tidak valid; Anda harus memverifikasi pemetaan dan relevansi aturan domain ke konten bidang.

  • Ada tingkat nilai valid yang rendah di bidang ; Anda harus memverifikasi pemetaan dan relevansi aturan domain ke konten bidang.

  • Ada tingkat keunikan yang tinggi di bidang ini. Menggunakan bidang ini dalam kebijakan pencocokan dapat mengurangi hasil pencocokan.

Tab Aturan Pencocokan

Klik tab ini untuk menampilkan daftar aturan dalam kebijakan yang cocok dan kondisi dalam aturan.

Daftar Aturan
Menampilkan daftar semua aturan yang sesuai dalam kebijakan pencocokan. Pilih salah satu aturan untuk menampilkan kondisi dalam aturan dalam tabel Aturan yang Cocok.

Tabel Aturan Pencocokan
Menampilkan setiap kondisi dalam aturan yang dipilih, termasuk domain, nilai kesamaan, berat, dan pilihan prasyarat.

Tab Hasil Kesesuaian

Klik tab Hasil yang Cocok untuk menampilkan statistik analisis sumber data menggunakan pengetahuan yang dipilih untuk proyek dan aturan dalam basis pengetahuan tersebut. Statistiknya meliputi:

  • Jumlah total rekaman dalam database

  • Jumlah total rekaman yang cocok dalam database

  • Jumlah rekaman dalam database yang tidak dianggap duplikat

  • Jumlah kluster yang ditemukan

  • Ukuran kluster rata-rata (jumlah rekaman duplikat dibagi dengan jumlah kluster)

  • Jumlah duplikat terkecil dalam kluster

  • Jumlah duplikat terbesar dalam kluster