Menjalankan Project yang Cocok

Berlaku untuk:SQL Server

Topik ini menjelaskan cara melakukan pencocokan data di Data Quality Services (DQS). Proses pencocokan mengidentifikasi kluster rekaman yang cocok berdasarkan aturan yang cocok dalam kebijakan pencocokan, menunjuk satu rekaman dari setiap kluster sebagai penyintas berdasarkan aturan penyintas, dan mengekspor hasilnya. DQS melakukan proses pencocokan, juga disebut de-duplikasi, dalam proses yang dibantu komputer, tetapi Anda membuat aturan pencocokan secara interaktif, dan Anda memilih aturan survivorship dari beberapa pilihan, sehingga Anda mengontrol proses pencocokan.

Pencocokan dilakukan dalam tiga tahap: proses pemetaan di mana Anda mengidentifikasi sumber data dan memetakan domain ke sumber data, proses pencocokan di mana Anda menjalankan analisis pencocokan, dan proses survivorship dan ekspor di mana Anda menunjuk aturan penyintas dan mengekspor hasil yang cocok. Masing-masing proses ini dilakukan pada halaman terpisah dari wizard aktivitas Pencocokan, memungkinkan Anda untuk bergerak bolak-balik ke halaman yang berbeda, untuk menjalankan kembali proses, dan untuk menutup dari proses pencocokan tertentu dan kemudian kembali ke tahap proses yang sama. DQS memberi Anda statistik tentang data sumber, aturan pencocokan, dan hasil pencocokan yang memungkinkan Anda membuat keputusan berdasarkan informasi tentang pencocokan, dan memperbaiki proses pencocokan.

Anda harus bersiap untuk mencocokkan dengan membuat kebijakan yang cocok dengan satu atau beberapa aturan yang cocok, dan menjalankan kebijakan pada data sampel. Proses proyek yang cocok terpisah dari proses kebijakan yang cocok, dan pangkalan pengetahuan tidak diisi dengan pengetahuan yang cocok yang diperoleh dari proyek yang cocok. Untuk informasi selengkapnya tentang membuat kebijakan yang cocok, lihat Membuat Kebijakan yang Cocok.

Sebelum Anda mulai

Prasyarat

  • Anda harus telah membuat pangkalan pengetahuan dengan kebijakan yang cocok yang terdiri dari satu atau beberapa aturan yang cocok.

  • Microsoft Excel harus diinstal pada komputer Klien Kualitas Data jika data sumber yang akan dicocokkan berada dalam file Excel. Jika tidak, Anda tidak akan dapat memilih file Excel dalam tahap pemetaan. File yang dibuat oleh Microsoft Excel dapat memiliki ekstensi .xlsx, .xls, atau .csv. Jika Excel versi 64-bit digunakan, hanya file Excel 2003 (.xls) yang didukung; File Excel 2007 atau 2010 (.xlsx) tidak didukung. Jika Anda menggunakan Excel 2007 atau 2010 versi 64-bit, simpan file sebagai file .xls atau file .csv, atau instal Excel versi 32-bit sebagai gantinya.

Keamanan

Izin

Anda harus memiliki peran dqs_kb_editor atau dqs_administrator pada database DQS_MAIN untuk menjalankan proyek yang cocok.

Langkah Pertama: Memulai Proyek yang Cocok

Anda melakukan aktivitas pencocokan dalam proyek kualitas data yang Anda buat di aplikasi klien DQS.

  1. Mulai Klien Kualitas Data. Untuk informasi tentang melakukannya, lihat Menjalankan Aplikasi Klien Kualitas Data.

  2. Di layar beranda Klien Kualitas Data, klik Proyek Kualitas Data Baru untuk melakukan pencocokan dalam proyek kualitas data baru. Masukkan nama untuk proyek kualitas data, masukkan deskripsi, dan pilih pangkalan pengetahuan yang ingin Anda gunakan untuk pencocokan di Gunakan pangkalan pengetahuan. Klik Pencocokan untuk aktivitas. Klik Berikutnya untuk melanjutkan ke tahap pemetaan.

  3. Klik Buka proyek kualitas data untuk melakukan pencocokan dalam proyek kualitas data yang ada. Pilih proyek lalu klik Berikutnya. (Atau Anda dapat mengklik proyek di bawah Proyek Kualitas Data Terbaru.) Jika Anda membuka proyek yang cocok yang ditutup, Anda akan melanjutkan ke tahap tempat aktivitas proyek yang cocok ditutup (seperti yang ditunjukkan oleh kolom Status dalam tabel proyek atau dalam nama proyek di bawah Proyek Kualitas Data Terbaru). Jika Anda membuka proyek yang cocok yang selesai, Anda akan masuk ke halaman Ekspor (dan Anda tidak dapat kembali ke layar sebelumnya).

Tahap Pemetaan

Pada tahap pemetaan, Anda mengidentifikasi sumber data tempat Anda akan menjalankan analisis pencocokan, dan Anda memetakan kolom sumber ke domain untuk membuat domain tersedia untuk aktivitas yang cocok.

  1. Pada halaman Peta , untuk menjalankan pencocokan pada database, biarkan Sumber Data sebagai SQL Server, pilih database yang ingin Anda jalankan pencocokannya, lalu pilih tabel. Database sumber harus ada dalam instans SQL Server yang sama dengan server DQS. Jika tidak, itu tidak akan muncul di daftar drop-down.

  2. Untuk menjalankan pencocokan pada data dalam lembar bentang Excel, pilih File Excel untuk Sumber Data, klik Telusuri dan pilih file Excel, dan biarkan Gunakan baris pertama sebagai header dipilih jika sesuai. Di Lembar Kerja, pilih lembar kerja dalam file Excel yang akan menjadi sumber data. Excel harus diinstal pada komputer Klien Kualitas Data untuk memilih file Excel. Jika Excel tidak diinstal pada komputer Klien Kualitas Data, tombol Telusuri tidak akan tersedia, dan Anda akan diberi tahu di bawah kotak teks ini bahwa Excel tidak diinstal.

  3. Di bawah Pemetaan, pilih bidang di sumber data untuk Kolom Sumber, lalu pilih domain terkait. Ulangi untuk semua domain yang Anda gunakan dalam proses pencocokan. Setiap domain yang ditentukan dalam kebijakan pencocokan harus dipetakan ke kolom sumber yang sesuai. Halaman Peta menampilkan domain yang telah ditentukan dalam kebijakan pencocokan dan aturan dalam kebijakan yang cocok di panel sebelah kanan.

    Catatan

    Anda dapat memetakan data sumber Anda ke domain DQS hanya jika jenis data sumber didukung di DQS, dan cocok dengan jenis data domain DQS. Untuk informasi tentang jenis data yang didukung di DQS, lihat Jenis Data SQL Server dan SSIS yang didukung untuk Domain DQS.

  4. Klik kontrol plus (+) untuk menambahkan baris ke tabel Pemetaan atau kontrol minus (-) untuk menghapus baris.

  5. Klik Pratinjau sumber data untuk melihat data dalam tabel SQL Server atau tampilan yang Anda pilih, atau lembar kerja Excel yang Anda pilih.

  6. Klik Tampilkan/Pilih Domain Komposit untuk melihat daftar domain komposit yang tersedia di pangkalan pengetahuan dan pilih yang sesuai untuk pemetaan.

  7. Klik Berikutnya untuk melanjutkan ke tahap pencocokan.

    Catatan

    Klik Tutup untuk menyimpan tahap proyek yang cocok, dan kembali ke beranda DQS. Lain kali Anda membuka proyek ini, proyek ini akan dimulai dari tahap yang sama. Klik Batal untuk mengakhiri aktivitas yang cocok, kehilangan pekerjaan Anda, dan kembali ke beranda DQS.

Tahap pencocokan

Pada tahap ini, Anda melakukan proses pencocokan yang dibantu komputer yang menunjukkan kepada Anda berapa banyak kecocokan yang ada di data sumber berdasarkan aturan yang cocok. Proses ini akan menghasilkan tabel hasil yang cocok yang menunjukkan kluster yang telah diidentifikasi DQS, setiap rekaman dalam kluster dengan ID rekamannya dan skor pencocokannya, dan rekaman awal terkemuka untuk kluster. Rekaman terdepan dalam kluster dipilih secara acak. Anda menentukan rekaman yang bertahan dengan memilih aturan bertahan hidup di halaman Ekspor saat Anda menjalankan proyek yang cocok. Setiap baris tambahan dalam kluster dianggap cocok; skor pencocokannya (dibandingkan dengan rekaman terdepan) disediakan dalam tabel hasil. Nomor kluster sama dengan ID rekaman untuk rekaman terdepan dalam kluster.

Dalam hasil yang cocok, Anda dapat memfilter data yang Anda inginkan, dan menolak kecocokan yang tidak Anda inginkan. Anda dapat menampilkan data pembuatan profil untuk proses pencocokan secara keseluruhan, khusus tentang aturan pencocokan yang diterapkan, dan statistik tentang hasil yang cocok secara keseluruhan. Proses pencocokan dapat mengidentifikasi kluster yang tumpang tindih atau tidak tumpang tindih, dan jika dijalankan beberapa kali, dapat dijalankan pada data yang baru disalin dari sumber dan diindeks ulang, atau pada data sebelumnya.

  1. Pada halaman Pencocokan, pilih Tumpang Tindih kluster dari daftar drop-down untuk menampilkan rekaman pivot dan rekaman berikut untuk semua kluster saat pencocokan dijalankan, bahkan jika grup kluster memiliki rekaman yang sama. Pilih Kluster yang tidak tumpang tindih untuk menampilkan kluster yang memiliki rekaman yang sama sebagai satu kluster saat pencocokan dijalankan.

  2. Klik Muat ulang data dari sumber (default) untuk menyalin data dari sumber data ke dalam tabel penahapan dan mengindeksnya kembali saat Anda menjalankan proyek yang cocok. Klik Jalankan pada data sebelumnya untuk menjalankan proyek yang cocok tanpa menyalin data ke dalam tabel penahapan dan mengindeks ulang data. Jalankan pada data sebelumnya dinonaktifkan untuk eksekusi pertama proyek yang cocok, atau jika Anda mengubah pemetaan di halaman Peta , lalu tekan Ya di popup berikut. Dalam kedua kasus tersebut, Anda harus mengindeks ulang. Tidak perlu mengindeks ulang jika proyek yang cocok tidak berubah. Menjalankan pada data sebelumnya dapat membantu performa.

  3. Klik Mulai untuk menjalankan pencocokan pada sumber data yang dipilih.

  4. Klik Hentikan jika Anda ingin menghentikan proyek yang cocok dan membuang hasilnya.

  5. Setelah proses pencocokan selesai, verifikasi bahwa kluster dalam tabel Hasil Pencocokan sesuai, dan lihat statistik di tab Profiler dan Hasil yang Cocok untuk memastikan bahwa Anda mencapai hasil yang Anda butuhkan. Lihat rekaman yang cocok dengan memilih Cocok untuk Filter atau lihat rekaman yang tidak cocok dengan memilih Tidak Cocok.

  6. Jika Anda memiliki beberapa aturan yang cocok dalam kebijakan pencocokan, klik tab Aturan yang Cocok untuk mengidentifikasi ikon untuk setiap aturan, lalu verifikasi aturan mana yang mengidentifikasi rekaman sebagai kecocokan dengan mengidentifikasi aturan di kolom Aturan dari tabel Hasil yang Cocok.

  7. Jika Anda memilih rekaman non-pivot dalam tabel dan mengklik ikon Tampilkan Detail (atau klik dua kali rekaman), DQS akan menampilkan popup Detail Skor yang Cocok yang menampilkan rekaman yang diklik dua kali dan rekaman pivotnya (dan nilai di semua bidangnya), skor di antaranya, dan penelusuran kontribusi skor yang cocok dari setiap bidang. Mengklik dua kali rekaman pivot tidak akan menampilkan popup.

  8. Klik ikon Ciutkan Semua untuk menciutkan rekaman yang ditampilkan dalam tabel Hasil yang Cocok untuk menyertakan hanya rekaman pivot, bukan rekaman duplikat. Klik Perluas Semua untuk memperluas rekaman yang ditampilkan dalam tabel Hasil yang Cocok untuk menyertakan semua rekaman duplikat.

  9. Untuk menolak rekaman dari hasil yang cocok, klik kotak centang Ditolak untuk rekaman tersebut.

  10. Untuk mengubah skor pencocokan minimum yang menentukan tingkat pencocokan yang harus ditampilkan rekaman, pilih ikon Min. Skor Pencocokan di atas sisi kanan tabel, dan masukkan angka yang lebih tinggi. Skor pencocokan minimum diatur ke 80% secara default. Klik Refresh untuk mengubah konten tabel.

  11. Setelah analisis selesai, tombol Mulai berubah menjadi tombol Hidupkan Ulang. Klik Mulai Ulang untuk menjalankan proyek analisis lagi. Namun, hasil dari analisis sebelumnya belum disimpan, jadi mengklik Mulai Ulang akan menyebabkan data sebelumnya hilang. Untuk melanjutkan, klik Ya di popup. Saat analisis berjalan, jangan tinggalkan halaman atau proses analisis akan dihentikan.

  12. Klik Berikutnya untuk melanjutkan ke tahap survivorship dan ekspor.

Tahap Penyintas dan Ekspor

Dalam proses survivorship Data Quality Services menentukan catatan penyintas untuk setiap kluster, yang akan menggantikan rekaman lain yang cocok dengannya di kluster. Kemudian mengekspor hasil pencocokan dan/atau penyintas ke tabel di database SQL Server, file .csv, atau file Excel.

Kelangsungan hidup bersifat opsional. Anda dapat mengekspor hasil tanpa menjalankan survivorship, dalam hal ini DQS akan menggunakan catatan pivot yang ditunjuk dalam analisis yang cocok. Jika dua rekaman atau lebih dalam kluster mematuhi aturan survivorship, proses survivorship akan memilih ID rekaman terendah di antara catatan yang bertentangan menjadi yang selamat. Anda dapat mengekspor penyintas ke file atau tabel yang berbeda menggunakan aturan penyintas yang berbeda.

  1. Pada halaman Ekspor , pilih tujuan tempat Anda ingin mengekspor data yang cocok di Jenis Tujuan: SQL Server, File CSV, atau File Excel.

    Penting

    Jika Anda menggunakan Excel versi 64-bit, Anda tidak dapat mengekspor data yang cocok ke file Excel; Anda hanya dapat mengekspor ke database SQL Server atau ke file .csv.

  2. Jika Anda memilih SQL Server untuk Jenis Tujuan, pilih database untuk mengekspor hasilnya di Nama Database.

    Penting

    Database tujuan harus ada dalam instans SQL Server yang sama dengan server DQS. Jika tidak, itu tidak akan muncul di daftar drop-down.

  3. Pilih kotak centang untuk Hasil yang Cocok untuk mengekspor hasil yang cocok (lihat di atas untuk penjelasan) ke tabel yang ditunjuk dalam database SQL Server atau ke file .csv atau Excel yang ditunjuk. Pilih kotak centang untuk Hasil Survivorship untuk mengekspor hasil survivorship (lihat di atas untuk penjelasan) ke tabel yang ditunjuk dalam database SQL Server atau ke file .csv atau Excel yang ditunjuk.

    Berikut ini akan diekspor untuk hasil yang cocok:

    • Daftar kluster dan rekaman yang cocok di setiap kluster, termasuk nama aturan dan skor. Rekaman pivot akan ditandai sebagai "Pivot". Kluster akan muncul terlebih dahulu dalam daftar ekspor.

    • Daftar rekaman yang tidak cocok, dengan "NULL" di kolom Skor dan Nama Aturan. Rekaman ini akan ditambahkan ke daftar ekspor setelah kluster.

    Berikut ini akan diekspor untuk hasil survivorship:

    • Daftar catatan korban selamat sebagaimana ditentukan oleh proses penyintas sesuai dengan aturan penyintas. Rekaman ini muncul terlebih dahulu dalam daftar ekspor.

    • Daftar rekaman yang tidak cocok yang tidak disertakan dalam kluster rekaman yang cocok. Catatan ini ditambahkan setelah hasil yang selamat.

  4. Jika Anda memilih SQL Server untuk Tipe Tujuan, masukkan nama tabel yang ingin Anda ekspor hasilnya di Nama Tabel. Jika Anda mengekspor hasil yang cocok dan hasil survivorship, tabel tujuan harus memiliki nama berbeda yang unik untuk database.

  5. Jika Anda memilih File CSV untuk Jenis Tujuan, masukkan file dan jalur untuk file CSV yang ingin Anda ekspor dalam Nama File CSV.

  6. Jika Anda memilih File Excel untuk Tipe Tujuan, masukkan file dan jalur untuk file Excel yang ingin Anda ekspor di Nama File Excel. Anda tidak dapat mengekspor ke file Excel jika Anda menggunakan Excel versi 64-bit.

  7. Pilih aturan survivorship sebagai berikut:

    • Pilih Rekaman pivot (default) untuk mengidentifikasi rekaman yang bertahan sebagai rekaman pivot awal yang dipilih secara semena-mena oleh DQS.

    • Pilih Rekaman terlengkap dan terpanjang untuk mengidentifikasi rekaman yang bertahan sebagai rekaman dengan jumlah bidang terisi terbesar, dan memiliki jumlah istilah terbesar di setiap bidang. Semua bidang sumber dicentang, bahkan bidang yang tidak dipetakan ke domain di halaman Peta .

    • Pilih Rekaman terlengkap untuk mengidentifikasi rekaman yang bertahan sebagai rekaman dengan jumlah bidang terisi terbesar. Bidang yang diisi berisi setidaknya satu nilai (string, numerik, atau keduanya). Semua bidang sumber dicentang, bahkan bidang yang tidak dipetakan ke domain di halaman Peta. Bidang yang diisi berisi setidaknya satu nilai (string, numerik, atau keduanya).

    • Pilih Rekaman terpanjang untuk mengidentifikasi rekaman yang bertahan sebagai rekaman dengan jumlah istilah terbesar di bidang sumbernya. Untuk menentukan panjang setiap rekaman, DQS memverifikasi panjang istilah di semua bidang sumber, bahkan bidang yang tidak dipetakan ke domain di halaman Peta .

  8. Lihat statistik di tab Profiler untuk memastikan bahwa Anda mencapai hasil yang Anda butuhkan.

  9. Klik Ekspor untuk mengekspor hasil. Ini menampilkan kotak dialog Ekspor yang Cocok yang memperlihatkan kemajuan lalu hasil ekspor.

    • Jika Anda memilih SQL Server sebagai tujuan data, tabel baru dengan nama yang ditentukan akan dibuat dalam database yang dipilih.

    • Jika Anda memilih File CSV sebagai tujuan data, file .csv akan dibuat di lokasi di komputer Server Kualitas Data dengan nama file yang Anda tentukan sebelumnya dalam kotak nama file Csv.

    • Jika Anda memilih File Excel sebagai tujuan data, file .xlsx akan dibuat di lokasi pada komputer Server Kualitas Data dengan nama file yang Anda tentukan sebelumnya dalam kotak Nama file Excel.

  10. Verifikasi bahwa ekspor berhasil diselesaikan, lalu klik Tutup.

  11. Klik Selesai untuk menyelesaikan proyek yang cocok.

    Catatan

    Jika Anda telah menyelesaikan proyek yang cocok dan kemudian menggunakannya lagi, itu akan menggunakan pangkalan pengetahuan di tempat ketika diterbitkan. Ini tidak akan menggunakan perubahan apa pun yang telah Anda buat pada pangkalan pengetahuan sejak Anda menyelesaikan proyek. Untuk menggunakan perubahan tersebut, atau untuk menggunakan pangkalan pengetahuan baru, Anda harus membuat proyek pencocokan baru. Di sisi lain, jika Anda telah membuat, tetapi belum selesai, proyek yang cocok, setiap perubahan yang telah Anda terbitkan ke kebijakan yang cocok akan digunakan jika Anda menjalankan pencocokan dalam proyek.

Tindak Lanjut: Setelah Menjalankan Proyek yang Cocok

Setelah menjalankan proyek yang cocok, Anda dapat mengubah kebijakan pencocokan di pangkalan pengetahuan, dan membuat dan menjalankan proyek lain yang cocok berdasarkan kebijakan pencocokan yang diperbarui. Untuk informasi selengkapnya, lihat Membuat Kebijakan yang Cocok.

Tab Profiler dan Hasil

Tab Profiler dan Hasil berisi statistik untuk proses pencocokan.

Profiler Tab

Klik tab Profiler untuk menampilkan statistik untuk database sumber dan untuk setiap bidang yang disertakan dalam aturan kebijakan. Statistik akan diperbarui saat aturan kebijakan dijalankan. Pembuatan profil akan membantu Anda menilai efektivitas proses de-duplikasi, membantu menentukan sejauh mana proses dapat meningkatkan kualitas data. Akurasi dalam pembuatan profil tidak penting untuk proyek yang cocok.

Statistik database sumber meliputi yang berikut ini:

  • Rekaman: Jumlah total rekaman dalam database

  • Nilai Total: Jumlah total nilai dalam bidang

  • Nilai Baru: Jumlah total nilai yang baru sejak eksekusi sebelumnya, dan persentase keseluruhannya

  • Nilai Unik: Jumlah total nilai unik dalam bidang, dan persentase keseluruhannya

  • Nilai Unik Baru: Jumlah total nilai unik yang baru dalam bidang, dan persentasenya dari keseluruhan

Statistik bidang meliputi yang berikut ini:

  • Bidang: Nama bidang yang disertakan dalam pemetaan.

  • Domain: Nama domain yang dipetakan ke bidang .

  • Baru: Jumlah kecocokan baru yang ditemukan dan persentasenya dari total

  • Unik: Jumlah rekaman unik di bidang dan persentasenya dari total

  • Kelengkapan: Persentase yang dijalankan aturan selesai.

Pemberitahuan Kebijakan yang Cocok

Untuk aktivitas kebijakan yang cocok, kondisi berikut menghasilkan pemberitahuan:

  • Bidang kosong di semua rekaman; disarankan agar Anda menghilangkannya dari pemetaan.

  • Skor kelengkapan bidang sangat rendah; Anda mungkin ingin menghilangkannya dari pemetaan.

  • Semua nilai dalam bidang tidak valid; Anda harus memverifikasi pemetaan dan relevansi aturan domain ke konten bidang.

  • Ada tingkat nilai valid yang rendah di bidang ; Anda harus memverifikasi pemetaan dan relevansi aturan domain ke konten bidang.

  • Ada tingkat keunikan yang tinggi di bidang ini. Menggunakan bidang ini dalam kebijakan pencocokan dapat mengurangi hasil yang cocok.

Tab Aturan yang Cocok

Klik tab ini untuk menampilkan daftar aturan dalam kebijakan yang cocok dan kondisi dalam aturan.

Daftar Aturan
Menampilkan daftar semua aturan yang cocok dalam kebijakan yang cocok. Pilih salah satu aturan untuk menampilkan kondisi dalam aturan dalam tabel Aturan yang Cocok.

Tabel Aturan yang Cocok
Menampilkan setiap kondisi dalam aturan yang dipilih, termasuk domain, nilai kesamaan, berat, dan pilihan prasyarat.

Tab Hasil yang Cocok

Klik tab Hasil yang Cocok untuk menampilkan statistik analisis sumber data menggunakan pengetahuan yang dipilih untuk proyek dan aturan atau aturan yang cocok di pangkalan pengetahuan tersebut. Statistiknya meliputi:

  • Jumlah total rekaman dalam database

  • Jumlah total rekaman yang cocok dalam database

  • Jumlah rekaman dalam database yang tidak dianggap duplikat

  • Jumlah kluster yang ditemukan

  • Ukuran kluster rata-rata (jumlah rekaman duplikat dibagi dengan jumlah kluster)

  • Jumlah duplikat terkecil dalam kluster

  • Jumlah duplikat terbesar dalam kluster