Membersihkan data menggunakan data referensi pengetahuan (eksternal) - Data Quality Services (DQS)

Berlaku untuk:SQL Server

Topik ini menjelaskan cara membersihkan data menggunakan pengetahuan dari penyedia data referensi. Meskipun semua langkah menjalankan aktivitas pembersihan tetap sama untuk membersihkan data Anda menggunakan pengetahuan dari penyedia data referensi seperti yang dijelaskan dalam Pengetahuan Membersihkan Data Menggunakan DQS (Internal), topik ini menyediakan informasi khusus untuk pembersihan data menggunakan layanan data referensi di Data Quality Services (DQS).

Penting

Artikel ini menyebutkan layanan data referensi pihak ketiga yang sebelumnya tersedia dari Azure DataMarket. DataMarket dan Data Services - termasuk data alamat Melissa, misalnya - dihentikan setelah 31/12/2016. Akibatnya, Anda tidak dapat lagi menjalankan contoh dalam artikel ini dengan layanan yang ditentukan dari DataMarket. Anda masih dapat menggunakan layanan data referensi yang tersedia langsung secara online dari penyedia data referensi pihak ketiga.

Saat Anda menggunakan fitur layanan data referensi di DQS untuk membersihkan data Anda, proses pembersihan DQS mengirimkan nilai domain yang dipetakan ke penyedia layanan data referensi sebagai permintaan batch. Layanan data referensi merespons dengan informasi berikut:

  • Koreksi yang disarankan

  • Keyakinan

  • Informasi tambahan tentang domain yang dipetakan. Data referensi juga dapat menstandarkan, mengurai, atau memperkaya sumber dengan data tambahan. Informasi ini disediakan di bidang tambahan dalam respons.

Setelah mendapatkan respons dari layanan data referensi, berikut ini terjadi di DQS selama aktivitas pembersihan:

  • Berdasarkan nilai Ambang Koreksi Otomatis dan Keyakinan Min yang ditentukan selama pemetaan domain dengan layanan data referensi, nilai domain secara otomatis dikoreksi atau disarankan berdasarkan tingkat keyakinan.

    Catatan

    Nilai ambang yang Anda tentukan selama pemetaan domain ke layanan data referensi diterapkan saat membersihkan data menggunakan pengetahuan dalam layanan data referensi, dan bukan yang ditentukan di tab Pengaturan Umum di bagian Konfigurasi . Untuk informasi tentang menentukan nilai ambang batas untuk pembersihan data referensi, lihat langkah 9 di Lampirkan Domain atau Domain Komposit ke Data Referensi.

  • Nilai domain dikategorikan ke dalam yang berikut ini: Disarankan, Baru, Tidak Valid, Dikoreksi, dan Benar.

  • Data tambahan ditambahkan ke sumber, dan informasi tersedia bersama dengan data yang dibersihkan untuk diekspor.

Sebelum Anda mulai

Prasyarat

Anda harus memetakan domain yang diperlukan dalam pangkalan pengetahuan DQS ke layanan data referensi yang sesuai. Selain itu, pangkalan pengetahuan harus berisi pengetahuan tentang jenis data yang ingin Anda bersihkan. Misalnya, jika Anda ingin membersihkan data sumber yang berisi alamat AS, Anda harus memetakan domain Anda ke penyedia layanan data referensi yang menyediakan data berkualitas tinggi" untuk alamat AS. Untuk informasi selengkapnya, lihat Melampirkan Domain atau Domain Komposit ke Data Referensi.

Keamanan

Izin

Anda harus memiliki peran dqs_kb_editor atau dqs_kb_operator pada database DQS_MAIN untuk melakukan pembersihan data.

Membersihkan data Anda menggunakan pengetahuan data referensi

Kami akan melanjutkan dengan contoh yang sama menggunakan domain yang kami petakan di topik sebelumnya, Lampirkan Domain atau Domain Komposit ke Data Referensi, dengan layanan Data Melissa di Azure Marketplace. Sekarang, kita akan menggunakan domain yang sama untuk membersihkan beberapa sampel alamat AS. Langkah-langkah untuk membersihkan data sama seperti yang dijelaskan dalam Membersihkan Data Menggunakan Pengetahuan DQS (Internal). Namun, kami akan menarik perhatian Anda seperlunya selama proses.

  1. Buat proyek kualitas data, dan pilih aktivitas Pembersihan . Lihat Membuat Proyek Kualitas Data.

  2. Pada halaman Peta , petakan 4 domain berikut ini dengan kolom yang sesuai di data sumber Anda: Baris Alamat, Kota, Status, dan Zip. Klik Berikutnya.

    Catatan

    Karena Anda telah memetakan semua 4 domain dalam domain komposit Verifikasi Alamat, pembersihan data sekarang akan dilakukan di tingkat domain komposit, dan bukan di tingkat domain individual.

  3. Pada halaman Bersihkan , jalankan proses pembersihan yang dibantu komputer dengan mengklik Mulai. Setelah proses pembersihan selesai, klik Berikutnya.

    Catatan

    Pada halaman Bersihkan , DQS menampilkan informasi tentang domain yang dilampirkan ke layanan data referensi dengan dua cara berikut:

    • Pesan ditampilkan di bawah tombol Mulai: "Domain Domain1<>, <Domain2,... <>DomainN> dibersihkan menggunakan penyedia layanan data referensi." Dalam contoh ini, pesan berikut akan ditampilkan: "Verifikasi Alamat Domain dibersihkan menggunakan penyedia layanan data referensi."
    • Ikon, Domain is attached to RDS, ditampilkan di area Profiler terhadap domain yang dilampirkan ke penyedia layanan data referensi. Dalam contoh ini, ikon akan ditampilkan terhadap domain komposit Verifikasi Alamat.
  4. Pada halaman Kelola dan tampilkan hasil , tinjau nilai domain Anda. Layanan data referensi dapat menampilkan lebih dari satu saran, jika tersedia, untuk nilai tergantung pada jumlah maksimum saran yang ditentukan dalam kotak Kandidat yang Disarankan selama pemetaan domain ke layanan data referensi. Misalnya, dua saran ditampilkan untuk alamat AS berikut:

    Nilai Asli:

    Baris Alamat Kota Provinsi Zip
    1 msft way Redmond 98052

    Nilai yang disarankan:

    Baris Alamat Kota Provinsi Zip
    1 Microsoft Way Redmond WA 98052
    Po Box 1 Redmond WA 98073

    Cleansing using reference data service

    Catatan

    Untuk domain komposit, DQS juga menyoroti domain individual dengan warna berbeda yang diperbaiki selama proses pembersihan yang dibantu komputer. Misalnya, dalam hal ini, domain Baris Alamat dan Status dikoreksi, dan karenanya disorot dalam sian.

  5. Setelah Anda selesai meninjau semua nilai domain, klik Berikutnya untuk mengekspor data.

  6. Pada halaman Ekspor, Anda akan melihat bahwa selain informasi reguler tentang aktivitas pembersihan untuk setiap domain (Sumber, Alasan, Keyakinan, dan Status), ada informasi tambahan yang disediakan oleh layanan data referensi Data Melissa tentang data alamat Anda, seperti garis lintang dan bujur alamat Anda, nama kabupaten, jenis alamat (highrise, jalan, dll.), dan sebagainya.

  7. Ekspor data Anda ke tujuan yang diperlukan (SQL Server, CSV, atau Excel), dan klik Selesai untuk menutup proyek.

    Penting

    Jika Anda menggunakan Excel versi 64-bit, Anda tidak dapat mengekspor data yang dibersihkan ke file Excel; Anda hanya dapat mengekspor ke database SQL Server atau ke file .csv.