Melakukan Penemuan Pengetahuan

Berlaku untuk:SQL Server

Topik ini menjelaskan cara membangun pangkalan pengetahuan melalui penemuan pengetahuan. Dalam proses penemuan, Data Quality Services (DQS) menganalisis data dalam sumber data sampel melalui proses yang dibantu komputer, dan menambahkan pengetahuan yang diperolehnya ke pangkalan pengetahuan. Pengetahuan ini dapat dimodifikasi dan ditingkatkan dalam langkah Kelola Nilai Domain dari aktivitas penemuan pengetahuan, atau dalam aktivitas manajemen domain.

Penemuan pengetahuan adalah proses berbasis wizard yang mencakup tiga langkah, yang masing-masing harus diselesaikan.

Sebelum Anda mulai

Prasyarat

Microsoft Excel harus diinstal pada komputer Klien Kualitas Data jika data sumber tempat Anda menjalankan penemuan berada dalam file Excel. Jika tidak, Anda tidak akan dapat memilih file Excel dalam tahap pemetaan. File yang dibuat oleh Microsoft Excel dapat memiliki ekstensi .xlsx, .xls, atau .csv. Jika Excel versi 64-bit digunakan, hanya file Excel 2003 (.xls) yang didukung; File Excel 2007 atau 2010 (.xlsx) tidak didukung. Jika Anda menggunakan Excel 2007 atau 2010 versi 64-bit, simpan file sebagai file .xls atau file .csv, atau instal Excel versi 32-bit sebagai gantinya.

Keamanan

Izin

Anda harus memiliki peran dqs_kb_editor atau dqs_administrator pada database DQS_MAIN untuk membuat pangkalan pengetahuan.

Langkah pertama: Mulai Penemuan Pengetahuan

  1. Mulai Klien Kualitas Data. Untuk informasi tentang melakukannya, lihat Menjalankan Aplikasi Klien Kualitas Data.

  2. Jika Anda ingin melakukan penemuan pengetahuan pada pangkalan pengetahuan baru, klik Pangkalan Pengetahuan baru, masukkan nama dan deskripsi, dan tentukan dari apa Anda membuat pangkalan pengetahuan, jika berlaku. Jika Anda ingin melakukan penemuan pengetahuan pada pangkalan pengetahuan yang ada, klik Buka pangkalan pengetahuan, lalu pilih pangkalan pengetahuan.

  3. Pilih Penemuan Pengetahuan sebagai aktivitas, lalu klik Buat untuk membuat pangkalan pengetahuan baru atau Buka untuk membuka pangkalan pengetahuan yang ada.

Tahap Pemetaan

  1. Di bidang Sumber Data, pilih SQL Server (default) atau file Excel.

    Catatan

    Di halaman ini, Anda membuat koneksi ke sumber data SQL Server atau Excel, lalu memetakan antara kolom di sumber data dan domain di pangkalan pengetahuan. Tabel Pemetaan menampilkan semua kolom dalam database sumber yang akan dianalisis untuk menambahkan pengetahuan ke domain terkait. Pemetaan dibuat antara kolom di sumber data dan domain di pangkalan pengetahuan.

  2. Jika sumber data adalah SQL Server, lanjutkan sebagai berikut:

    1. Di bidang Database pilih database sumber yang ingin Anda analisis untuk membuat pangkalan pengetahuan. Menu drop-down kotak teks akan mencantumkan database yang tersedia. Database sumber harus ada dalam instans SQL Server yang sama dengan Server Kualitas Data. Jika tidak, itu tidak akan muncul di daftar drop-down.

    2. Di bidang Tabel/Tampilan pilih tabel atau tampilan yang ingin Anda analisis untuk membuat pangkalan pengetahuan. Tabel atau tampilan ini harus berupa data sampel, bukan seluruh database sumber tempat Anda melakukan pembersihan atau pencocokan data. Drop-down kotak teks akan mencantumkan tabel dan tampilan yang tersedia untuk database yang dipilih.

  3. Jika sumber data adalah Excel, lanjutkan sebagai berikut:

    1. Klik Telusuri dan pilih file Excel yang ingin Anda analisis untuk membuat pangkalan pengetahuan. Excel harus diinstal pada komputer Klien Kualitas Data untuk memilih file Excel. Jika Excel tidak diinstal pada komputer Klien Kualitas Data, tombol Telusuri tidak akan tersedia, dan Anda akan diberi tahu di bawah kotak teks ini bahwa Excel tidak diinstal.

    2. Pilih kotak centang Gunakan baris pertama sebagai header jika baris pertama file Excel berisi data header.

  4. Dalam tabel Pemetaan, petakan setiap kolom sumber yang Anda inginkan untuk dilakukan penemuan pengetahuan ke domain di pangkalan pengetahuan, sebagai berikut:

    1. Buat pemetaan dengan memilih kolom sumber dari daftar drop-down untuk kolom Kolom Sumber dari baris kosong, lalu pilih domain dari daftar drop-down untuk kolom Domain di baris yang sama, jika ada domain. Jika tidak ada domain, klik Buat domain atau Buat domain komposit untuk membuat domain. Untuk informasi selengkapnya, lihat Membuat Aturan Domain atau Membuat Domain Komposit.

    2. Ulangi langkah sebelumnya untuk setiap pemetaan. Untuk mengubah jumlah baris dalam tabel, klik Tambahkan pemetaan kolom, atau pilih baris dan klik hapus pemetaan kolom yang dipilih. Jika Anda mengklik Hapus pemetaan kolom yang dipilih saat baris terisi dipilih, baris yang dipilih akan dihapus meskipun ada baris yang tidak diisi.

      Catatan

      Anda dapat memetakan data sumber Anda ke domain DQS untuk melakukan penemuan pengetahuan hanya jika jenis data sumber didukung di DQS, dan cocok dengan jenis data domain DQS. Untuk informasi selengkapnya tentang jenis data yang didukung, lihat Jenis Data SQL Server dan SSIS yang didukung untuk Domain DQS.

    3. Klik Tampilkan/pilih domain komposit untuk menampilkan domain komposit yang telah ditentukan. Jika tidak ada domain komposit yang telah ditentukan, kontrol tidak akan tersedia.

    4. Klik Pratinjau sumber data untuk ditampilkan dalam popup semua data di sumber data yang Anda pilih di kotak teks Tabel/Tampilan atau File Excel.

  5. Klik Berikutnya untuk melanjutkan ke halaman Temukan wizard Penemuan Pengetahuan. Anda juga dapat memilih yang berikut ini:

    • Klik Batal untuk mengakhiri aktivitas Penemuan Pengetahuan, kehilangan pekerjaan Anda, dan kembali ke beranda DQS.

    • Klik Tutup untuk kembali ke beranda DQS saat menyimpan pekerjaan Anda. Pangkalan pengetahuan akan dikunci untuk Anda, dan status pangkalan pengetahuan di tabel pangkalan pengetahuan di layar Open Knowledge Base adalah Penemuan - Pemetaan. Setelah mengklik Tutup, untuk melakukan aktivitas Manajemen Domain, Anda harus mengklik Penemuan Pengetahuan dari layar Buka pangkalan pengetahuan, lanjutkan ke layar Manajemen Pangkalan Pengetahuan: Kelola Istilah Domain, klik Selesai, lalu klik Ya untuk menerbitkan pangkalan pengetahuan atau Tidak untuk menyimpan pekerjaan di pangkalan pengetahuan dan keluar.

Tahap Penemuan

  1. Klik Mulai untuk menganalisis sumber data.

    Catatan

    Penemuan dilakukan pada kolom yang dimasukkan dalam tabel Pemetaan di halaman Peta . Domain yang dipetakan ke setiap kolom akan diisi dengan pengetahuan yang diambil dari penemuan. Jika domain adalah domain komposit, pengetahuan akan ditambahkan ke domain individual yang terdiri dari domain komposit.

  2. Saat proses penemuan berjalan, periksa status penyelesaian yang ditampilkan untuk setiap langkah penemuan: Rekaman Praproses, Menjalankan Aturan Domain, dan Menjalankan Penemuan. Persentase selesai dan status penyelesaian akan ditampilkan untuk setiap tahap ini.

  3. Ketika analisis telah selesai, verifikasi bahwa baris status di bawah statistik penyelesaian menunjukkan bahwa itu berhasil diselesaikan.

    Catatan

    Meninggalkan layar sebelum file diunggah akan mengakhiri proses unggahan file.

  4. Setelah analisis selesai, periksa statistik di tab Profiler untuk melihat status data. Untuk informasi selengkapnya, lihat Pembuatan Profil Data dan Pemberitahuan di DQS.

  5. Setelah analisis selesai, tombol Mulai berubah menjadi tombol Hidupkan Ulang. Klik Mulai ulang untuk menjalankan proses analisis lagi. Namun, hasil dari analisis sebelumnya belum disimpan, jadi mengklik Mulai Ulang akan menyebabkan data sebelumnya hilang. Untuk melanjutkan, klik Ya di popup. Saat analisis berjalan, jangan tinggalkan halaman atau proses analisis akan dihentikan.

  6. Klik Berikutnya untuk melanjutkan ke halaman Kelola Nilai Domain wizard Penemuan Pengetahuan. Di halaman ini Anda dapat memodifikasi pengetahuan yang ditambahkan ke domain pangkalan pengetahuan. Anda juga dapat memilih yang berikut ini:

    • Klik Batal untuk mengakhiri aktivitas Penemuan Pengetahuan, kehilangan pekerjaan Anda, dan kembali ke beranda DQS.

    • Klik Tutup untuk kembali ke beranda DQS saat menyimpan pekerjaan Anda. Pangkalan pengetahuan akan dikunci untuk Anda, dan status pangkalan pengetahuan di tabel pangkalan pengetahuan di layar Open Knowledge Base adalah Penemuan - Temukan. Setelah mengklik Tutup, untuk melakukan aktivitas Manajemen Domain, Anda harus mengklik Penemuan Pengetahuan dari layar Buka pangkalan pengetahuan, lanjutkan ke layar Manajemen Pangkalan Pengetahuan: Kelola Istilah Domain, klik Selesai, lalu klik Ya untuk menerbitkan pangkalan pengetahuan atau Tidak untuk menyimpan pekerjaan di pangkalan pengetahuan dan keluar.

    • Klik untuk kembali ke halaman Temukan .

Mengelola Tahap Hasil Penemuan Data

Setelah melakukan aktivitas penemuan pengetahuan, Anda dapat mengubah nilai sebagai berikut:

  • Tambahkan nilai domain ke daftar nilai, atau pilih nilai dan hapus dari daftar

  • Mengubah status nilai domain dari proses penemuan DQS menunjuknya sebagai, mengubahnya menjadi benar, dalam kesalahan, atau tidak valid

  • Masukkan nilai pengganti untuk nilai yang dalam kesalahan atau tidak valid

  • Tetapkan dua nilai atau lebih sebagai sinonim dan ubah nilai di depan sebagaimana diatur oleh proses penemuan, dengan hasil bahwa nilai di depan akan menggantikan nilai sinonim jika properti Gunakan Nilai Utama diatur saat Anda membuat domain

  • Mengimpor nilai domain dari file Excel.

Tabel Nilai menampilkan pengetahuan yang ditambahkan ke pangkalan pengetahuan untuk satu domain. Anda memilih domain tersebut di daftar domain di panel di sebelah kiri. Kolom di bidang adalah sebagai berikut:

  • Kolom Nilai menampilkan semua nilai yang ditambahkan proses penemuan ke domain yang dipilih dari bidang dalam sampel data. Nilai apa pun yang diproyeksikan sebagai kesalahan akan ditampilkan sebagai sinonim ke nilai yang diproyeksikan sebagai benar.

  • Kolom Frekuensi menampilkan jumlah instans nilai di bidang database sampel tempat domain dipetakan. Untuk domain komposit, hanya nilai-nilai dengan frekuensi yang lebih besar dari atau sama dengan 20 yang ditampilkan. Data Frekuensi tersedia karena proses penemuan pengetahuan masih memiliki koneksi ke database sampel. Data frekuensi tidak tersedia dalam tabel domain pada tab Nilai Domain dari layar Manajemen Domain karena proses manajemen domain tidak memiliki koneksi ke database sampel.

  • Kolom Jenis menampilkan status nilai, seperti yang ditentukan oleh proses penemuan. Pemeriksaan hijau menunjukkan bahwa nilai sudah benar atau diperbaika; tanda silang merah menunjukkan bahwa nilai dalam kesalahan; dan segitiga oranye dengan tanda seru menunjukkan bahwa nilainya tidak valid. Nilai yang tidak valid tidak sesuai dengan persyaratan data untuk domain. Nilai yang dalam kesalahan bisa valid, tetapi bukan nilai yang benar karena alasan data.

  • Kolom Benar Ke memperlihatkan nilai yang benar bahwa nilai asli, ditandai sebagai dalam kesalahan atau tidak valid, akan diubah menjadi. DQS dapat mengusulkan nilai yang benar sebagai hasil dari proses penemuan.

Kelola hasil penemuan sebagai berikut:

  1. Di panel Daftar Domain di sebelah kiri, pilih domain untuk mengatur nilai domain. Anda bisa melakukan hal berikut untuk mengubah nilai yang ditampilkan.

    • Tampilkan hasil yang Anda inginkan dalam tabel, berdasarkan statusnya, dengan memilih status di daftar Filter .

    • Temukan data yang ingin Anda centang atau ubah dengan memasukkan satu huruf lagi untuk dicari di kotak teks Temukan. Ini akan menyoroti memiliki huruf-huruf tersebut di mana pun mereka terjadi dalam nilai apa pun yang ditampilkan.

    • Klik Perlihatkan Hanya Baru untuk membatasi nilai yang ditampilkan dalam tabel hanya untuk nilai yang ditemukan dalam sesi saat ini, bukan sesi sebelumnya.

    • Klik tombol Perluas Semua untuk menampilkan semua nilai dalam grup sinonim apa pun saat status saat ini diciutkan, atau tombol Ciutkan Semua untuk menyembunyikan semua kecuali nilai di depan dalam grup sinonim apa pun saat status saat ini diperluas.

    • Klik tombol Perlihatkan/Sembunyikan Panel Riwayat Perubahan Nilai Domain untuk menampilkan popup pratinjau di bagian bawah tabel nilai yang memperlihatkan perubahan terbaru pada kumpulan nilai domain.

  2. Temukan koreksi apa pun yang telah diusulkan Layanan Kualitas Data dengan mengatur Filter ke Kesalahan. Verifikasi bahwa nilai sebenarnya dalam kesalahan, dan bahwa nilai di kolom Benar Ke sesuai.

  3. Atur Filter ke Semua Nilai dan verifikasi bahwa status nilai sesuai. Untuk mengubah status nilai, pilih nilai, lalu klik tombol Atur nilai domain yang dipilih sebagai dikoreksi (centang), atur nilai domain yang dipilih sebagai tombol kesalahan (silang), atau atur nilai domain yang dipilih sebagai tombol tidak valid (segitiga).

  4. Untuk mengubah status nilai, lanjutkan sebagai berikut:

    1. Atur nilai domain yang dipilih sebagai dikoreksi: Untuk mengubah status nilai dari Kesalahan atau Tidak Valid ke Benar, pilih nilai, lalu klik Atur nilai domain yang dipilih sebagai dikoreksi (centang) dari panah bawah di bilah ikon atau dari daftar drop-down Tipe. Jika nilai dalam kesalahan atau tidak valid dikelompokkan dengan nilai yang benar, hapus nilai tersebut setelah operasi.

    2. Atur nilai domain yang dipilih sebagai kesalahan: Untuk mengubah status nilai dari Benar atau Tidak Valid ke Kesalahan, pilih nilai, lalu klik ikon Atur nilai domain yang dipilih sebagai kesalahan (silang) dari panah bawah di bilah ikon atau dari daftar drop-down Tipe. Anda dapat memasukkan koreksi di kolom Benar ke , atau membiarkannya kosong.

    3. Atur nilai domain yang dipilih sebagai tidak valid: Untuk mengubah status nilai dari Benar atau Kesalahan menjadi Tidak Valid, pilih nilai, lalu klik ikon Atur nilai domain yang dipilih sebagai tidak valid (segitiga) dari panah bawah di bilah ikon atau dari daftar drop-down Tipe. Anda dapat memasukkan koreksi di kolom Benar ke , atau membiarkannya kosong.

    4. Koreksi ke: Setelah mengatur nilai sebagai dalam kesalahan atau tidak valid, masukkan nilai baru di kolom Benar Ke . DQS akan menambahkan baris baru untuk nilai pengganti, menunjuknya sebagai benar, lalu mengelompokkan dua nilai. Nilai baru akan ditampilkan sebagai nilai di depan, dengan nilai di depan dalam huruf tebal dan nilai dalam kesalahan atau tidak valid diindentasi.

  5. Untuk menunjuk nilai sebagai sekelompok sinonim, pilih beberapa nilai yang benar, lalu lanjutkan sebagai berikut:

    • Atur nilai domain yang dipilih sebagai sinonim: Klik untuk mengatur nilai yang dipilih sebagai sinonim. DQS akan menunjuk salah satu nilai sebagai nilai utama yang akan digantikan yang lain.

      Catatan

      Jika Anda memilih dua nilai atau lebih dalam grup dan nilai lain di luar grup, lalu mengaturnya sebagai sinonim, Anda akan mendapatkan pesan kesalahan yang salah. Setelah menutup popup pesan kesalahan, nilai akan diatur dengan benar sebagai sinonim.

    • Putuskan hubungan antara sinonim yang dipilih: Klik untuk mengurungkan penunjukan sinonim.

    • Atur nilai domain yang dipilih sebagai nilai utama grupnya: Ubah nilai awal grup dengan memilih nilai dalam grup yang tidak ditetapkan sebagai nilai utama, lalu klik Atur nilai domain yang dipilih sebagai nilai utama tombol grupnya .

  6. Ejaan: Jika Anda telah mengaktifkan Ejaan di halaman Properti Domain, temukan nilai apa pun yang memiliki garis bawah merah bergelombang, indikasi bahwa Ejaan menyarankan koreksi. Klik kanan nilai dengan garis bawah, dan pilih koreksi jika berlaku. Jenis nilai menjadi kesalahan (atau tetap sebagai) , dan koreksi akan ditambahkan ke kolom Benar ke . Klik panah bawah untuk melihat koreksi tambahan yang diusulkan. Masukkan koreksi secara manual untuk menambahkannya ke kamus Ejaan, dan dapat memilihnya sebagai koreksi. Untuk informasi selengkapnya, lihat Menggunakan DQS Speller dan Mengatur Properti Domain.

    Catatan

    Untuk menggunakan Ejaan, Anda bisa mengaktifkannya di halaman Properti Domain, atau jika dinonaktifkan di halaman Properti Domain, Anda bisa mengklik ikon Aktifkan/Nonaktifkan Ejaan pada halaman Kelola Hasil Penemuan Data untuk mengaktifkannya di halaman ini.

  7. Tambahkan nilai domain baru: Tambahkan nilai baru ke domain dengan mengklik tombol Tambahkan nilai domain baru untuk menambahkan baris di akhir tabel. Setelah Anda memasukkan nilai, baris akan diposisikan ulang dalam urutan alfabet.

  8. Impor nilai domain dari Excel: Tambahkan nilai baru dari lembar bentang Excel dengan mengklik panah bawah untuk ikon Impor Nilai , lalu pilih Impor nilai domain dari Excel. Masukkan nama file, pilih Gunakan baris pertama sebagai header jika sesuai, lalu klik OK. Untuk informasi selengkapnya, lihat Mengimpor Nilai dari File Excel ke Domain.

  9. Impor nilai proyek: Tambahkan nilai baru dari Proyek Kualitas Data dengan mengklik panah bawah untuk ikon Impor Nilai , dan pilih Impor nilai proyek. Masukkan nama file, pilih Gunakan baris pertama sebagai header jika sesuai, lalu klik OK. Pilih proyek yang ingin Anda impor nilainya, lalu klik OK. Nilai yang diimpor akan ditampilkan. Klik Selesai. Untuk informasi selengkapnya, lihat Mengimpor Nilai Proyek ke dalam Domain.

  10. Hapus nilai domain yang dipilih: Hapus satu atau beberapa nilai yang sudah ada dari domain dengan memilih nilai, lalu mengklik tombol Hapus nilai domain yang dipilih. Entri DQS_NULL tidak dapat dihapus, jadi jika Anda memilih beberapa nilai untuk dihapus, dan entri DQS_NULL adalah salah satunya, operasi akan gagal.

  11. Klik Selesai untuk menyelesaikan aktivitas penemuan pengetahuan. Popup akan ditampilkan jika Anda belum meninjau setiap domain. Klik Ya untuk melanjutkan peninjauan atau Tidak untuk melanjutkan. Jika Anda mengklik Tidak, popup lain akan ditampilkan memungkinkan Anda melakukan hal berikut:

    1. Terbitkan: Pangkalan pengetahuan akan diterbitkan untuk digunakan pengguna saat ini atau orang lain. Pangkalan pengetahuan tidak akan dikunci, status pangkalan pengetahuan (dalam tabel pangkalan pengetahuan) akan diatur ke kosong, dan aktivitas Manajemen Domain dan Penemuan Pengetahuan akan tersedia. Anda akan dikembalikan ke halaman beranda. Untuk menyelesaikan proses, klik Ya di popup.

    2. Tidak: Pekerjaan Anda akan disimpan, pangkalan pengetahuan akan tetap terkunci, dan status pangkalan pengetahuan akan diatur ke Dalam pekerjaan. Aktivitas Manajemen Domain dan Penemuan Pengetahuan akan tersedia. Anda akan dikembalikan ke halaman beranda.

    3. Batal: Popup akan ditutup dan Anda akan tetap berada di halaman Kelola Nilai Domain.

  12. Anda juga bisa mengklik yang berikut ini:

    • Batalkan untuk mengakhiri aktivitas Penemuan Pengetahuan, kehilangan pekerjaan Anda, dan kembali ke beranda DQS.

    • Tutup untuk kembali ke beranda DQS saat menyimpan pekerjaan Anda. Pangkalan pengetahuan akan dikunci untuk Anda, dan status pangkalan pengetahuan di tabel pangkalan pengetahuan di layar Open Knowledge Base akan menjadi Discovery - Value Management.

    • Klik Kembali untuk kembali ke halaman Temukan . Setelah mengklik Tutup, untuk melakukan aktivitas Manajemen Domain, Anda harus mengklik Penemuan Pengetahuan dari layar Buka pangkalan pengetahuan, lanjutkan ke layar Manajemen Pangkalan Pengetahuan: Kelola Istilah Domain, klik Selesai, lalu klik Ya untuk menerbitkan pangkalan pengetahuan atau Tidak untuk menyimpan pekerjaan di pangkalan pengetahuan dan keluar.

Tindak Lanjut: Setelah Melakukan Penemuan Pengetahuan

Setelah Anda menambahkan pengetahuan ke kasus pengetahuan dalam proses penemuan pengetahuan yang dibantu komputer, Anda dapat menggunakan pangkalan pengetahuan untuk proyek pembersihan segera, atau Anda dapat melakukan manajemen domain sebelum melakukan pembersihan. Untuk informasi selengkapnya tentang pembersihan data atau manajemen domain, lihat Pembersihan Data atau Mengelola Domain.

Arti Nilai yang Benar, Kesalahan, dan Tidak Valid

Setiap nilai dalam tabel Nilai halaman Nilai Domain diberi pengaturan Jenis Benar, Kesalahan, atau Tidak Valid. Jenis nilai dihasilkan pada awalnya oleh aktivitas penemuan pengetahuan, dan Anda dapat mengubahnya sesuai keinginan Anda. Jenis akhir, berdasarkan penemuan dan perubahan interaktif, dihasilkan oleh aktivitas pembersihan. Pengaturan ini memiliki arti berikut:

  • Benar: Ini adalah nilai milik domain dan tidak memiliki kesalahan sintaks. Misalnya, "Chicago" di domain Kota sudah benar.

  • Kesalahan: Ini adalah nilai milik domain, tetapi merupakan nilai yang salah. Misalnya, "Shicago" alih-alih "Chicago" di domain Kota mengalami kesalahan. DQS menunjuk nilai sebagai dalam kesalahan, DQS mendeteksi kesalahan sintaksis dan koreksi terkait dalam proses penemuan. Kesalahan sintaks termasuk kesalahan ejaan.

  • Tidak valid: Ini adalah nilai yang bukan milik domain, dan tidak memiliki koreksi. Misalnya, nilai "12345" dalam domain Kota tidak valid. DQS menunjuk nilai sebagai tidak valid ketika gagal dalam aturan domain.

Anda dapat mengubah Jenis nilai secara manual menjadi salah satu dari dua nilai lainnya. DQS tidak memberlakukan validitas dan semantik kesalahan pada operasi manual. Anda dapat memasukkan koreksi untuk nilai yang tidak valid tanpa mengubah statusnya. Anda dapat menunjuk nilai sebagai tidak valid meskipun tidak gagal dalam aturan domain. Anda dapat menunjuk nilai sebagai dalam kesalahan meskipun proses penemuan tidak menunjukkan bahwa ia memiliki kesalahan sintaks. Anda juga dapat menghapus koreksi ke nilai Kesalahan, yang ditandai sebagai Benar, tanpa mengubah statusnya.

Saat Anda melakukan pembersihan data interaktif di halaman Kelola dan Lihat Hasil dari aktivitas Pembersihan, nilai tidak valid dan dalam kesalahan disertakan dalam tab Tidak Valid di halaman Kelola dan Tampilkan Hasil.

Cara Menampilkan Nilai yang Sesuai

Anda dapat mengubah tampilan sebagai berikut:

  • Filter hasil yang Anda inginkan dalam tabel, berdasarkan statusnya, dengan memilih status di daftar drop-down Filter .

  • Temukan data yang ingin Anda centang atau ubah dengan memasukkan satu huruf lagi untuk dicari di kotak teks Temukan . Ini akan menyoroti memiliki huruf-huruf tersebut di mana pun mereka terjadi dalam nilai apa pun yang ditampilkan.

  • Klik Perlihatkan Hanya Baru untuk membatasi nilai yang ditampilkan dalam tabel hanya untuk nilai yang ditemukan dalam sesi saat ini, bukan sesi sebelumnya.

  • Klik tombol Perluas Semua untuk menampilkan semua nilai dalam grup sinonim apa pun saat status saat ini diciutkan.

  • Klik tombol Ciutkan Semua untuk menyembunyikan semua kecuali nilai di awal dalam grup sinonim apa pun saat status saat ini diperluas.

  • Klik tombol Perlihatkan/Sembunyikan Panel Riwayat Perubahan Nilai Domain untuk menampilkan popup pratinjau di bagian bawah tabel nilai yang memperlihatkan perubahan terbaru pada kumpulan nilai domain.

Statistik Profiler

Tab Profiler menyediakan statistik yang menunjukkan kualitas data sumber. Statistik ini tidak mengukur kualitas pangkalan pengetahuan. Pembuatan profil dalam penemuan pengetahuan memberikan wawasan tentang kelengkapan dan keunikan. Pembuatan profil dalam penemuan pengetahuan tidak mengukur akurasi. Pembuatan profil untuk manajemen pengetahuan membantu Anda menilai sejauh mana sumber data berharga untuk membangun dan meningkatkan pengetahuan dalam pangkalan pengetahuan.

Tab Profiler menyediakan statistik berikut untuk proses penemuan, menurut bidang dan domain:

  • Rekaman: Berapa banyak rekaman dalam sampel data yang ditemukan

  • Nilai Total: Berapa banyak nilai total yang ditemukan untuk setiap bidang dan totalnya

  • Nilai Baru: Berapa banyak nilai total untuk setiap bidang dan semua bidang yang dipetakan baru sejak proses penemuan terakhir, dan persentase nilai totalnya

  • Nilai Unik: Berapa banyak nilai total untuk setiap bidang dan semua bidang yang dipetakan unik, dan persentase nilai totalnya

  • Nilai Unik Baru: Berapa banyak nilai unik untuk setiap bidang dan semua bidang yang dipetakan baru sejak proses penemuan terakhir, dan persentase nilai totalnya

  • Valid dalam Nilai Domain: Berapa banyak nilai total untuk setiap bidang dan semua bidang yang dipetakan valid, dan persentase nilai totalnya

Statistik bidang meliputi yang berikut ini:

  • Bidang: Nama bidang dalam database sumber

  • Domain: Nama domain yang memetakan ke bidang

  • Baru: Jumlah nilai baru dan persentase nilai baru dibandingkan dengan nilai yang sudah ada di bidang

  • Unik: Jumlah rekaman unik di bidang dan persentasenya dari total

  • Valid di Domain: Jumlah nilai domain yang valid dan persentasenya dari total

  • Kelengkapan: Kelengkapan setiap bidang sumber yang dipetakan untuk latihan pencocokan

Pembuatan profil dalam penemuan pengetahuan memberikan wawasan tentang kelengkapan. Jika pembuatan profil memberi tahu Anda bahwa bidang relatif tidak lengkap, Anda mungkin ingin menghapusnya dari pangkalan pengetahuan proyek kualitas data. Pembuatan profil mungkin tidak memberikan statistik kelengkapan yang andal untuk domain komposit. Jika Anda memerlukan statistik kelengkapan, gunakan domain tunggal alih-alih domain komposit. Jika Anda ingin menggunakan domain komposit, Anda mungkin ingin membuat satu pangkalan pengetahuan dengan domain tunggal untuk pembuatan profil, untuk menentukan kelengkapan, dan membuat domain lain dengan domain komposit untuk proses pembersihan. Misalnya, pembuatan profil dapat menunjukkan kelengkapan 95% untuk rekaman alamat menggunakan domain komposit, tetapi mungkin ada tingkat ketidaklengkapan yang jauh lebih tinggi untuk salah satu kolom, misalnya, kolom kode pos (zip). Dalam contoh ini, Anda mungkin ingin mengukur kelengkapan kolom kode pos dengan satu domain. Pembuatan profil kemungkinan akan memberikan statistik akurasi yang andal untuk domain komposit karena Anda dapat mengukur akurasi untuk beberapa kolom bersama-sama. Nilai data ini berada dalam agregasi komposit, jadi Anda mungkin ingin mengukur akurasi dengan domain komposit.

Statistik ditampilkan di tab Profiler dalam fase berikut:

  • Dalam fase Rekaman Pra-pemrosesan, DQS memuat data dan mengindeksnya. Ini dilakukan rekaman berdasarkan rekaman atau batch menurut batch, sehingga kemajuan dapat ditampilkan oleh rekaman. Selama eksekusi langkah ini sebagian besar data pembuatan profil dapat dihasilkan, kecuali untuk nilai Valid di Domain .

  • Dalam fase Menjalankan Aturan Domain, kolom Valid di Domain diisi sebagai aturan domain semuanya dijalankan sebagai unit atom dari setiap nilai domain.

  • Dalam fase Menjalankan Penemuan, tidak ada data baru yang diperbarui di tab Profiler. Setiap kesalahan sintaks yang ditemui dapat dilihat di langkah wizard berikutnya, fase Kelola Nilai Domain.

Untuk aktivitas penemuan pengetahuan, kondisi berikut menghasilkan pemberitahuan:

  • Tidak ada nilai baru dalam bidang; disarankan agar Anda menghilangkannya dari pemetaan.

  • Ada beberapa nilai baru dalam bidang; Anda mungkin ingin menghilangkannya dari pemetaan.

  • Bidang kosong; disarankan agar Anda menghilangkannya dari pemetaan.

  • Skor kelengkapan bidang sangat rendah; Anda mungkin ingin menghilangkannya dari pemetaan.

  • Semua nilai dalam bidang tidak valid; Anda harus memverifikasi pemetaan dan relevansi aturan domain ke konten bidang.

  • Ada tingkat nilai valid yang rendah di bidang ; Anda harus memverifikasi pemetaan dan relevansi aturan domain ke konten bidang.

Untuk informasi selengkapnya tentang pembuatan profil, lihat Pembuatan Profil Data dan Pemberitahuan di DQS.