Pangkalan pengetahuan dan Domain DQS

Berlaku untuk:SQL Server

Topik ini menjelaskan apa itu pangkalan pengetahuan dalam Data Quality Services (DQS). Untuk membersihkan data, Anda harus memiliki pengetahuan tentang data. Untuk menyiapkan pengetahuan untuk proyek kualitas data, Anda membangun dan memelihara pangkalan pengetahuan (KB) yang dapat digunakan DQS untuk mengidentifikasi data yang salah atau tidak valid. DQS memungkinkan Anda menggunakan proses yang dibantu komputer dan interaktif untuk membuat, membangun, dan memperbarui pangkalan pengetahuan Anda. Pengetahuan dalam pangkalan pengetahuan dipertahankan di domain, yang masing-masing khusus untuk bidang data. Pangkalan pengetahuan adalah repositori pengetahuan tentang data Anda yang memungkinkan Anda memahami data Anda dan mempertahankan integritasnya.

Pangkalan pengetahuan DQS memiliki manfaat berikut:

  • Membangun pengetahuan tentang data adalah proses terperinci. Proses DQS mengekstrak pengetahuan tentang data secara otomatis, dari data sampel, membuat prosesnya jauh lebih mudah.

  • DQS memungkinkan Anda untuk melihat analisis datanya, dan untuk menambah pengetahuan di pangkalan pengetahuan dengan membuat aturan dan mengubah nilai data. Anda dapat melakukannya berulang kali untuk meningkatkan pengetahuan dari waktu ke waktu.

  • Anda dapat memanfaatkan pengetahuan kualitas data yang sudah ada sebelumnya dengan mendasarkan pangkalan pengetahuan pada KB yang ada, mengimpor pengetahuan domain dari file ke KB, mengimpor pengetahuan dari proyek kembali ke KB, atau menggunakan KB default DQS, Data DQS.

  • Anda dapat memastikan kualitas data Anda dengan membandingkannya dengan data yang dikelola oleh penyedia data referensi.

  • Ada pemisahan yang jelas antara membangun pangkalan pengetahuan dan menerapkannya dalam proses koreksi data, yang memberi Anda fleksibilitas dalam cara Anda membangun dan memperbarui pangkalan pengetahuan.

Pengurus data menggunakan aplikasi Klien Kualitas Data baik untuk menjalankan dan mengontrol langkah-langkah yang dibantu komputer, dan untuk melakukan langkah-langkah interaktif.

Ilustrasi berikut menampilkan berbagai komponen dalam pangkalan pengetahuan dan domain di DQS:

Knowledge Base and Domains in DQS

Cara Membuat dan Membangun Pangkalan Pengetahuan DQS

Membangun pangkalan pengetahuan DQS melibatkan proses dan komponen berikut:

Penemuan Pengetahuan
Proses yang dibantu komputer yang membangun pengetahuan ke dalam pangkalan pengetahuan dengan memproses sampel data

Manajemen Domain
Proses interaktif yang memungkinkan pengurus data untuk memverifikasi dan memodifikasi pengetahuan yang ada di domain pangkalan pengetahuan, yang masing-masing terkait dengan bidang data. Ini dapat mencakup pengaturan properti di seluruh bidang, membuat aturan, mengubah nilai tertentu, menggunakan layanan data referensi, atau menyiapkan hubungan berbasis istilah atau lintas bidang.

Layanan Data Referensi
Proses manajemen domain yang memungkinkan Anda memvalidasi data terhadap data yang dikelola dan dijamin oleh penyedia data referensi.

Kebijakan pencocokan
Kebijakan yang menentukan bagaimana DQS memproses rekaman untuk mengidentifikasi potensi duplikat dan non-kecocokan, yang dibangun ke dalam pangkalan pengetahuan dalam proses yang dibantu komputer dan interaktif.

Penemuan Pengetahuan

Pembuatan pangkalan pengetahuan awalnya adalah proses yang dipandu komputer. Aktivitas penemuan pengetahuan membangun pangkalan pengetahuan dengan menganalisis sampel data untuk kriteria kualitas data, mencari inkonsistensi data dan kesalahan sintaksis, dan mengusulkan perubahan pada data. Analisis ini didasarkan pada algoritma yang dibangun ke dalam DQS.

Pengurus data menyiapkan proses dengan menautkan pangkalan pengetahuan ke tabel database SQL Server atau tampilan yang berisi data sampel yang mirip dengan data yang akan digunakan pangkalan pengetahuan untuk menganalisis. Pengurus data kemudian memetakan domain pangkalan pengetahuan ke setiap kolom data sampel yang akan dianalisis. Domain dapat berupa satu domain yang dipetakan ke satu bidang, atau bisa menjadi domain komposit yang terdiri dari beberapa domain tunggal yang masing-masing dipetakan ke bagian data dalam satu bidang (lihat "Domain Komposit" di bawah). Saat Anda menjalankan penemuan pengetahuan, DQS mengekstrak informasi kualitas data dari data sampel ke domain di pangkalan pengetahuan. Ketika Anda telah menjalankan analisis penemuan pengetahuan, Anda akan memiliki pangkalan pengetahuan yang dapat Anda lakukan koreksi data.

Pangkalan pengetahuan DQS dapat diperluas. Dari dalam aktivitas Penemuan Pengetahuan, Anda dapat secara interaktif menambahkan pengetahuan ke pangkalan pengetahuan setelah analisis penemuan pengetahuan yang dibantu komputer. Anda bisa menambahkan perubahan nilai secara manual dan Anda bisa mengimpor nilai domain dari file Excel. Selain itu, Anda dapat menjalankan proses penemuan pengetahuan lagi di titik selanjutnya jika data dalam sampel telah berubah. Anda dapat menerapkan lebih banyak pengetahuan dari dalam aktivitas Manajemen Domain dan dari dalam aktivitas Pencocokan Data (lihat di bawah).

Proses penemuan pengetahuan tidak perlu dilakukan pada data yang sama dengan koreksi data yang dilakukan. DQS memberikan fleksibilitas untuk membuat pengetahuan dari satu set bidang database dan menerapkannya ke sekumpulan data terkait kedua yang perlu dibersihkan. Pengurus data dapat membuat pangkalan pengetahuan baru dari awal, mendasarkannya pada pangkalan pengetahuan yang ada, atau mengimpor pangkalan pengetahuan dari file data. Anda juga dapat menjalankan kembali penemuan pengetahuan di pangkalan pengetahuan yang ada. Anda dapat mempertahankan beberapa pangkalan pengetahuan pada satu Server Kualitas Data. Anda juga dapat menghubungkan beberapa instans aplikasi ke pangkalan pengetahuan yang sama. DQS mencegah konflik konkurensi dengan mengunci pangkalan pengetahuan kepada pengguna yang membukanya dalam sesi manajemen pengetahuan.

Ketidakpekaan Huruf Besar/Kecil di DQS

Nilai dalam DQS tidak peka huruf besar/kecil. Itu berarti bahwa ketika DQS melakukan penemuan pengetahuan, manajemen domain, atau pencocokan, DQS tidak membedakan nilai menurut kasus. Jika Anda menambahkan nilai dalam manajemen nilai yang berbeda dari nilai lain hanya menurut kasus, nilai tersebut akan dianggap sebagai nilai yang sama, bukan sinonim. Jika dua nilai yang berbeda hanya menurut kasus dibandingkan dalam proses pencocokan, nilai tersebut akan dianggap sama persis.

Namun, Anda dapat mengontrol kasus nilai yang Anda ekspor dalam hasil pembersihan. Anda melakukannya dengan mengatur properti Format Output ke domain (lihat Mengatur Properti Domain) dan dengan menggunakan kotak centang Standardisasi Output saat Anda mengekspor hasil pembersihan (lihat Membersihkan Data Menggunakan Pengetahuan DQS (Internal).

Manajemen Domain

Manajemen domain memungkinkan pengurus data untuk mengubah dan menambah metadata secara interaktif yang dihasilkan oleh aktivitas penemuan pengetahuan yang dibantu komputer. Setiap perubahan yang Anda buat adalah untuk domain pangkalan pengetahuan. Dalam aktivitas manajemen domain, Anda bisa melakukan hal berikut:

  • Buat domain baru. Domain baru dapat ditautkan atau disalin dari domain yang sudah ada.

  • Atur properti domain yang berlaku untuk setiap istilah di domain.

  • Terapkan aturan domain yang melakukan validasi atau standardisasi untuk rentang nilai yang Anda tentukan.

  • Menerapkan perubahan secara interaktif pada nilai data tertentu di domain.

  • Gunakan Ejaan DQS untuk memeriksa sintaks, ejaan, dan struktur kalimat nilai string.

  • Impor domain dari file data .dqs atau nilai domain dari file Microsoft Excel.

  • Impor nilai yang telah ditemukan oleh proses pembersihan dalam proyek kualitas data kembali ke pangkalan pengetahuan.

  • Lampirkan domain ke data referensi yang dikelola oleh penyedia data referensi, dengan hasil bahwa nilai domain dibandingkan dengan data referensi untuk menentukan integritas dan kebenarannya. Anda juga dapat mengatur pengaturan penyedia data.

  • Terapkan hubungan berbasis istilah untuk satu domain.

Saat aktivitas manajemen domain selesai, Anda dapat menerbitkan pangkalan pengetahuan untuk digunakan dalam proyek data.

Mengatur Properti Domain

Properti domain menentukan dan mendorong pemrosesan yang akan diterapkan ke nilai terkait. Anda dapat mengatur jenis data dan bahasa nilai, menentukan bahwa data sumber akan dibersihkan dengan nilai utama (jika opsi ini tidak dicentang, data sumber akan dibersihkan dengan istilah yang benar tetapi tidak dengan nilai utama), pastikan standardisasi data dengan mengonfigurasi pemformatan yang akan diterapkan ketika nilai data di domain adalah output, dan tentukan algoritma mana (kesalahan sintaks, ejaan, dan normalisasi string) yang akan diterapkan.

Layanan Data Referensi

Dalam proses manajemen domain, Anda dapat melampirkan data referensi online ke domain. Ini adalah cara Anda membandingkan data di domain Anda dengan data yang dikelola oleh penyedia data referensi. Anda harus terlebih dahulu mengonfigurasi penyedia data referensi melalui kemampuan konfigurasi DQS di bagian Administrasi aplikasi Klien Kualitas Data. Untuk informasi selengkapnya, lihat Referensi Data Services di DQS.

Menerapkan Aturan Domain

Anda dapat membuat aturan domain untuk validasi data. Aturan domain memastikan akurasi data, mulai dari batasan dasar, seperti istilah yang mungkin dapat berupa nilai string, hingga ekspresi reguler yang lebih kompleks, seperti bentuk alamat email yang valid.

Untuk domain komposit, Anda dapat membuat aturan CD yang menentukan hubungan antara nilai dalam satu domain dan nilai di domain tunggal lainnya, yang keduanya merupakan bagian dari domain komposit.

Mengatur Nilai Domain

Setelah membangun pangkalan pengetahuan, Anda dapat mengisi dan menampilkan nilai data di setiap domain pangkalan pengetahuan. Setelah penemuan pengetahuan, DQS akan menunjukkan berapa kali setiap istilah muncul, apa status setiap istilah, dan koreksi apa pun yang diajukannya. Anda dapat mengelola pengetahuan ini sebagai berikut:

  • Mengubah status nilai, membuatnya benar, dalam kesalahan, atau tidak valid

  • Menambahkan nilai tertentu ke, atau menghapus nilai tertentu dari, pangkalan pengetahuan

  • Mengubah relasi satu nilai ke nilai lain, termasuk menunjuk pengganti untuk istilah yang mengalami kesalahan atau tidak valid

  • Menambahkan, menghapus, atau mengubah pengetahuan yang terkait dengan domain.

Nilai dapat dibuat secara khusus oleh pengguna atau sebagai bagian dari penemuan data atau fungsi impor. Ini memungkinkan Anda menyelaraskan domain dengan bisnis dan membuatnya mudah diperluas.

Anda dapat mengatur nilai domain baik dalam aktivitas manajemen domain, atau di langkah Kelola Nilai Domain di akhir aktivitas penemuan pengetahuan. Fungsionalitas nilai domain sama dalam kedua aktivitas.

Mengatur Hubungan Istilah

Dalam manajemen domain, Anda dapat menentukan relasi berbasis istilah untuk satu domain, menentukan perubahan pada satu nilai.

Domain Komposit

Domain komposit adalah struktur yang terdiri dari dua domain tunggal atau lebih yang masing-masing berisi pengetahuan tentang data umum. Contoh data yang dapat ditangani oleh domain komposit adalah nama pertama, tengah, dan keluarga dalam bidang nama, dan nomor rumah dan jalan, kota, negara bagian, kode pos, dan negara/wilayah di bidang alamat. Saat Anda memetakan satu bidang ke domain komposit, DQS mengurai data dari satu bidang ke dalam beberapa domain yang membentuk komposit.

Terkadang satu domain tidak mewakili data bidang secara penuh. Mengelompokkan dua domain atau lebih di domain komposit dapat memungkinkan Anda mewakili data dengan cara yang efisien. Berikut ini adalah keuntungan menggunakan domain komposit:

  • Menganalisis berbagai domain tunggal yang membentuk domain komposit dapat menjadi cara yang lebih efektif untuk menilai kualitas data.

  • Saat menggunakan domain komposit, Anda juga dapat membuat aturan lintas domain yang memungkinkan Anda memverifikasi bahwa hubungan antara data di beberapa domain sesuai. Misalnya, Anda dapat memverifikasi bahwa string "London" di domain kota sesuai dengan string "Inggris Raya" di domain negara/wilayah. Perhatikan bahwa aturan lintas domain dipertimbangkan setelah aturan domain.

  • Data dalam domain komposit dapat dilampirkan ke sumber data referensi, dalam hal ini domain komposit akan dikirim ke penyedia data referensi. Ini sering dilakukan dengan data alamat.

Bagaimana data yang diwakili oleh domain komposit diurai ditentukan oleh properti domain komposit. Data dapat diurai oleh pemisah, berdasarkan urutan domain, atau berdasarkan pengetahuan di domain yang dilampirkan ke domain komposit (dengan memilih properti Gunakan Penguraian Berbasis Pengetahuan di domain komposit). Untuk informasi selengkapnya, lihat Mengatur Properti Domain Komposit.

Domain komposit dikelola secara berbeda dari domain tunggal. Anda tidak mengelola nilai dalam domain komposit; Anda melakukannya untuk domain tunggal yang terdiri dari domain komposit. Namun, dari daftar domain dalam aktivitas Manajemen Domain, Anda dapat melihat hubungan antara nilai yang berbeda dalam domain komposit, dan statistik yang berlaku untuknya. Misalnya, Anda dapat melihat berapa banyak instans yang ada dari satu alamat yang terdiri dari lima nilai string yang sama. Dalam langkah Temukan aktivitas Penemuan Pengetahuan, pembuatan profil dilakukan pada domain tunggal dalam domain komposit, bukan pada domain komposit. Namun, dalam pembersihan interaktif, Anda membersihkan data di domain komposit, bukan domain tunggal.

Pencocokan dapat dilakukan pada domain tunggal yang terdiri dari domain komposit, tetapi tidak pada domain komposit itu sendiri.

Pencocokan Data

Selain membuat perubahan manual pada pangkalan pengetahuan melalui manajemen domain, Anda dapat menambahkan pengetahuan yang cocok ke pangkalan pengetahuan. Untuk menyiapkan DQS untuk proses deduplikasi data, Anda harus membuat kebijakan yang cocok yang akan digunakan DQS untuk menghitung probabilitas kecocokan. Kebijakan ini mencakup satu atau beberapa aturan yang cocok yang dibuat oleh pengurus data untuk mengidentifikasi bagaimana DQS harus membandingkan baris data. Pengurus data menentukan bidang data mana dalam baris yang harus dibandingkan, dan berapa banyak bobot yang harus dimiliki setiap bidang dalam perbandingan. Pengurus data juga akan menentukan seberapa tinggi probabilitas yang harus dianggap cocok. DQS menambahkan aturan pencocokan ke pangkalan pengetahuan untuk digunakan dalam melakukan aktivitas pencocokan dalam proyek kualitas data.

Untuk informasi selengkapnya tentang pangkalan pengetahuan dan pencocokan data, lihat Pencocokan Data.

Di Bagian Ini

Anda dapat melakukan operasi berikut pada pangkalan pengetahuan dan domainnya:

Deskripsi Operasi Topik
Membuat, membuka, menambahkan pengetahuan, dan melakukan penemuan pada pangkalan pengetahuan Membangun Pangkalan Pengetahuan
Melakukan operasi impor dan ekspor pada domain dan pangkalan pengetahuan Mengimpor dan Mengekspor Pengetahuan
Membuat domain tunggal, aturan domain, relasi berbasis istilah, dan mengubah nilai domain Mengelola Domain
Membuat domain komposit, membuat aturan lintas domain, dan menggunakan hubungan nilai Mengelola Domain Komposit
Menggunakan pangkalan pengetahuan Data DQS default yang disertakan dalam DQS Menggunakan Pangkalan Pengetahuan Default DQS