Membersihkan data menggunakan pengetahuan DQS (Internal)

Berlaku untuk: SQL Server (semua versi yang didukung)

Topik ini menjelaskan cara membersihkan data Anda dengan menggunakan proyek kualitas data di Data Quality Services (DQS). Pembersihan data dilakukan pada data sumber Anda menggunakan Pangkalan Pengetahuan yang telah dibangun di DQS terhadap himpunan data berkualitas tinggi. Untuk informasi selengkapnya, lihat Membangun Pangkalan Pengetahuan.

Pembersihan data dilakukan dalam empat tahap: tahap pemetaan tempat Anda mengidentifikasi sumber data yang akan dibersihkan, dan memetakannya ke domain yang diperlukan dalam Pangkalan Pengetahuan, tahap pembersihan yang dibantu komputer tempat DQS menerapkan Pangkalan Pengetahuan ke data yang akan dibersihkan, dan mengusulkan/membuat perubahan pada data sumber, pembersihan interaktif tahap di mana pengurus data dapat menganalisis perubahan data, dan menerima/menolak perubahan data, dan akhirnya tahap ekspor yang memungkinkan Anda mengekspor data yang dibersihkan. Masing-masing proses ini dilakukan pada halaman terpisah dari wizard aktivitas pembersihan, memungkinkan Anda untuk bergerak bolak-balik ke halaman yang berbeda, untuk menjalankan kembali proses, dan untuk menutup dari proses pembersihan tertentu dan kemudian kembali ke tahap proses yang sama. DQS memberi Anda statistik tentang data sumber dan hasil pembersihan yang memungkinkan Anda membuat keputusan berdasarkan informasi tentang pembersihan data.

Sebelum Anda Mulai

Prasyarat

  • Anda harus menentukan nilai ambang yang sesuai untuk aktivitas pembersihan. Untuk informasi tentang melakukannya, lihat Mengonfigurasi Nilai Ambang untuk Pembersihan dan Pencocokan.

  • Pangkalan Pengetahuan DQS harus tersedia di Server Kualitas Data yang ingin Anda bandingkan, dan membersihkan data sumber Anda. Selain itu, Pangkalan Pengetahuan harus berisi pengetahuan tentang jenis data yang ingin Anda bersihkan. Misalnya, jika Anda ingin membersihkan data sumber yang berisi alamat AS, Anda harus memiliki Pangkalan Pengetahuan yang dibuat terhadap data sampel "berkualitas tinggi" untuk alamat AS.

  • Microsoft Excel harus diinstal pada komputer Klien Kualitas Data jika data sumber yang akan dibersihkan ada dalam file Excel. Jika tidak, Anda tidak akan dapat memilih file Excel dalam tahap pemetaan. File yang dibuat oleh Microsoft Excel dapat memiliki ekstensi .xlsx, .xls, atau .csv. Jika Excel versi 64-bit digunakan, hanya file Excel 2003 (.xls) yang didukung; File Excel 2007 atau 2010 (.xlsx) tidak didukung. Jika Anda menggunakan Excel 2007 atau 2010 versi 64-bit, simpan file sebagai file .xls atau file .csv, atau instal Excel versi 32-bit sebagai gantinya.

Keamanan

Izin

Anda harus memiliki peran dqs_kb_editor atau dqs_kb_operator pada database DQS_MAIN untuk melakukan pembersihan data.

Membuat Proyek Kualitas Data Pembersihan

Anda harus menggunakan proyek kualitas data untuk melakukan operasi pembersihan data. Untuk membuat proyek kualitas data pembersihan:

  1. Ikuti langkah 1-3 dalam topik Membuat Proyek Kualitas Data.

  2. Di langkah 3.d, pilih aktivitas Pembersihan .

  3. Klik Buat untuk membuat proyek kualitas data pembersihan.

Ini membuat proyek kualitas data pembersihan, dan membuka halaman Peta wizard kualitas data pembersihan.

Tahap Pemetaan

Pada tahap pemetaan, Anda menentukan koneksi ke data sumber yang akan dibersihkan, dan memetakan kolom dalam data sumber dengan domain yang sesuai di Pangkalan Pengetahuan yang dipilih.

  1. Pada halaman Peta wizard kualitas data pembersihan, pilih data sumber Yang akan dibersihkan: SQL Server atau File Excel:

    1. SQL Server: Pilih DQS_STAGING_DATA sebagai database sumber jika Anda telah menyalin data sumber Anda ke database ini, lalu pilih tabel/tampilan yang sesuai yang berisi data sumber Anda. Jika tidak, pilih database sumber Anda dan tabel/tampilan yang sesuai. Database sumber Anda harus ada dalam instans SQL Server yang sama dengan Server Kualitas Data agar tersedia di daftar drop-down Database.

    2. File Excel: Klik Telusuri, dan pilih file Excel yang berisi data yang akan dibersihkan. Microsoft Excel harus diinstal pada komputer Klien Kualitas Data untuk memilih file Excel. Jika tidak, tombol Telusuri tidak akan tersedia, dan Anda akan diberi tahu di bawah kotak teks ini bahwa Microsoft Excel tidak diinstal. Selain itu, biarkan kotak centang Gunakan baris pertama sebagai header dipilih jika baris pertama file Excel berisi data header.

  2. Di bawah Pemetaan, petakan kolom data di data sumber Anda dengan domain yang sesuai di Pangkalan Pengetahuan dengan memilih kolom sumber dari daftar drop-down di kolom Kolom Sumber, lalu pilih domain dari daftar drop-down di kolom Domain di baris yang sama. Ulangi langkah ini untuk memetakan semua kolom dalam data sumber Anda dengan domain yang sesuai di Pangkalan Pengetahuan. Jika diperlukan, Anda bisa mengklik ikon Tambahkan pemetaan kolom untuk menambahkan baris ke tabel pemetaan.

    Catatan

    Anda dapat memetakan data sumber Anda ke domain DQS untuk melakukan pembersihan data hanya jika jenis data sumber didukung di DQS, dan cocok dengan jenis data domain DQS. Untuk informasi tentang jenis data sumber yang didukung, lihat SQL Server yang didukung dan Jenis Data SSIS untuk Domain DQS.

  3. Klik ikon Pratinjau sumber data untuk melihat data dalam tabel SQL Server atau tampilan yang Anda pilih, atau lembar kerja Excel yang Anda pilih.

  4. Klik Tampilkan/Pilih Domain Komposit untuk menampilkan daftar domain komposit yang dipetakan ke kolom sumber. Tombol ini hanya tersedia jika Anda memiliki setidaknya satu domain komposit yang dipetakan ke kolom sumber.

  5. Klik Berikutnya untuk melanjutkan ke tahap pembersihan yang dibantu komputer (Bersihkan halaman).

Tahap Pembersihan Computer-Assisted

Dalam tahap pembersihan yang dibantu komputer, Anda menjalankan proses pembersihan data otomatis yang menganalisis data sumber terhadap domain yang dipetakan di Pangkalan Pengetahuan, dan membuat/mengusulkan perubahan data.

  1. Pada halaman Bersihkan wizard kualitas data, klik Mulai untuk menjalankan proses pembersihan yang dibantu komputer. DQS menggunakan algoritma tingkat lanjut dan tingkat keyakinan berdasarkan tingkat ambang yang ditentukan untuk menganalisis data Anda terhadap Pangkalan Pengetahuan yang dipilih, lalu membersihkannya. Untuk informasi terperinci tentang bagaimana pembersihan yang dibantu komputer terjadi di DQS, lihat Pembersihan yang dibantu komputer dalam Pembersihan Data.

    Penting

    • Setelah analisis data selesai, tombol Mulai berubah menjadi tombol Mulai Ulang . Jika hasil dari analisis sebelumnya belum disimpan, mengklik Mulai Ulang akan menyebabkan data sebelumnya hilang. Saat analisis berjalan, jangan tinggalkan halaman atau proses analisis akan dihentikan.

    • Jika Pangkalan Pengetahuan yang digunakan untuk proyek pembersihan diperbarui dan diterbitkan setelah proyek pembersihan dibuat, mengklik Mulai akan meminta Anda apakah akan menggunakan Pangkalan Pengetahuan terbaru untuk pembersihan. Ini biasanya dapat terjadi jika Anda membuat proyek kualitas data menggunakan Pangkalan Pengetahuan, menutup proyek pembersihan di tengah jalan dengan mengklik Tutup, lalu membuka kembali proyek kualitas data di titik selanjutnya untuk melakukan pembersihan. Sementara itu, Pangkalan Pengetahuan yang digunakan dalam proyek pembersihan diperbarui dan diterbitkan.

      Demikian pula, jika Pangkalan Pengetahuan yang digunakan untuk proyek pembersihan diperbarui dan diterbitkan setelah terakhir kali Anda menjalankan pembersihan yang dibantu komputer, mengklik Mulai ulang akan meminta Anda apakah akan menggunakan Pangkalan Pengetahuan terbaru untuk pembersihan.

      Dalam kedua kasus, klik Ya untuk menggunakan Pangkalan Pengetahuan yang diperbarui untuk pembersihan yang dibantu komputer. Selain itu, jika ada konflik antara pemetaan saat ini dan Pangkalan Pengetahuan yang diperbarui (seperti domain dihapus atau jenis data domain diubah), pesan juga meminta Anda untuk memperbaiki pemetaan saat ini untuk menggunakan Pangkalan Pengetahuan yang diperbarui. Mengklik Ya akan membawa Anda ke halaman Peta tempat Anda dapat memperbaiki pemetaan sebelum melanjutkan pembersihan yang dibantu komputer.

  2. Selama tahap pembersihan yang dibantu komputer, Anda dapat mengaktifkan profiler dengan mengklik tab Profiler untuk melihat pembuatan profil dan pemberitahuan data real time. Untuk informasi selengkapnya, lihat Statistik Profiler.

  3. Jika Anda tidak puas dengan hasilnya, lalu klik Kembali untuk kembali ke halaman Peta , ubah satu atau beberapa pemetaan seperlunya, kembali ke halaman Bersihkan , lalu klik Mulai Ulang.

  4. Setelah proses pembersihan yang dibantu komputer selesai, klik Berikutnya untuk melanjutkan ke tahap pembersihan interaktif (halaman Kelola dan Lihat Hasil ).

Tahap Pembersihan Interaktif

Dalam tahap pembersihan interaktif, Anda dapat melihat perubahan yang telah diusulkan DQS dan memutuskan apakah akan menerapkannya atau tidak dengan menyetujui atau menolak perubahan. Di panel kiri halaman Kelola dan tampilkan hasil , DQS menampilkan daftar semua domain yang Anda petakan sebelumnya dalam tahap pemetaan bersama dengan jumlah nilai dalam data sumber yang dianalisis terhadap setiap domain selama tahap pembersihan yang dibantu komputer. Di panel kanan halaman Kelola dan lihat hasil , berdasarkan kepatuhan terhadap aturan domain, aturan kesalahan sintaks, dan algoritma tingkat lanjut, DQS mengategorikan data di bawah lima tab menggunakan tingkat keyakinan. Tingkat keyakinan menunjukkan sejauh mana kepastian DQS untuk koreksi atau saran, dan didasarkan pada nilai ambang berikut:

  • Ambang Koreksi Otomatis: Nilai apa pun yang memiliki tingkat keyakinan di atas ambang batas ini secara otomatis diperbaiki oleh DQS. Namun, pengurus data dapat mengambil alih perubahan selama pembersihan interaktif. Anda dapat menentukan nilai ambang koreksi otomatis di tab Pengaturan Umum di layar Konfigurasi . Untuk informasi selengkapnya, lihat Mengonfigurasi Nilai Ambang batas untuk Pembersihan dan Pencocokan.

  • Ambang Saran Otomatis: Nilai apa pun yang memiliki tingkat keyakinan di atas ambang batas ini, tetapi di bawah ambang koreksi otomatis, disarankan sebagai nilai pengganti. DQS akan membuat perubahan hanya jika pengurus data menyetujuinya. Anda dapat menentukan nilai ambang saran otomatis di tab Pengaturan Umum di layar Konfigurasi . Untuk informasi selengkapnya, lihat Mengonfigurasi Nilai Ambang batas untuk Pembersihan dan Pencocokan.

  • Lainnya: Nilai apa pun di bawah nilai ambang saran otomatis dibiarkan tidak berubah oleh DQS.

Berdasarkan tingkat keyakinan, nilai ditampilkan di bawah lima tab berikut:

Tab Deskripsi
Menyarankan Menampilkan nilai domain tempat DQS menemukan nilai yang disarankan yang memiliki tingkat keyakinan lebih tinggi dari nilai ambang saran otomatis tetapi lebih rendah dari nilai ambang koreksi otomatis .

Nilai yang disarankan ditampilkan di kolom Benar Ke terhadap nilai asli. Anda dapat mengklik tombol radio di kolom Setujui atau Tolak terhadap nilai di kisi atas untuk menerima atau menolak saran untuk semua instans nilai. Dalam hal ini, nilai yang diterima berpindah ke tab Terkoreksi dan nilai yang ditolak berpindah ke tab Tidak Valid .
Baru Menampilkan domain yang valid di mana DQS tidak memiliki informasi yang cukup, dan karenanya tidak dapat dipetakan ke tab lain. Selain itu, tab ini juga berisi nilai yang memiliki tingkat keyakinan kurang dari nilai ambang saran otomatis , tetapi cukup tinggi untuk ditandai sebagai valid.

Jika Menurut Anda nilainya benar, klik tombol radio di kolom Setujui . Jika tidak, klik tombol radio di kolom Tolak . Nilai yang diterima berpindah ke tab Benar dan nilai yang ditolak berpindah ke tab Tidak Valid . Anda juga dapat mengetikkan nilai yang benar secara manual sebagai pengganti nilai asli di kolom Koreksi Ke terhadap nilai, lalu klik tombol radio di kolom Setujui untuk menerima perubahan. Dalam hal ini, nilai berpindah ke tab Dikoreksi .
Tidak valid Menampilkan nilai domain yang ditandai sebagai tidak valid di domain dalam Pangkalan Pengetahuan atau nilai yang gagal dalam aturan domain. Tab ini juga berisi nilai yang ditolak oleh pengguna di salah satu dari empat tab lainnya.

Namun, jika Anda merasa nilainya benar, klik tombol radio di kolom Setujui . Nilai yang diterima berpindah ke tab Benar . Anda juga dapat mengetikkan nilai yang benar secara manual sebagai pengganti nilai asli di kolom Koreksi Ke terhadap nilai, lalu klik tombol radio di kolom Setujui untuk menerima perubahan. Dalam hal ini, nilai berpindah ke tab Dikoreksi .
Diperbaiki Menampilkan nilai domain yang diperbaiki oleh DQS selama proses pembersihan otomatis karena DQS menemukan koreksi untuk nilai dengan tingkat keyakinan di atas nilai ambang koreksi otomatis.

Nilai yang dikoreksi ditampilkan di kolom Koreksi Ke terhadap nilai asli. Secara default, tombol radio di kolom Setujui terhadap nilai dipilih. Jika diperlukan, Anda dapat menolak koreksi yang diusulkan dengan mengklik tombol radio di kolom Tolak untuk memindahkannya ke tab Tidak Valid , atau mengetik nilai yang benar secara manual di kolom Koreksi Ke , lalu klik tombol radio di kolom Setujui untuk menerima perubahan, dan memindahkannya ke tab Dikoreksi .
Benar Menampilkan nilai domain yang ditemukan dengan benar. Misalnya, nilai cocok dengan nilai domain. Tab ini juga berisi nilai yang disetujui oleh pengguna dengan mengklik tombol radio di kolom Setujui di tab Baru dan Tidak Valid .

Secara default, tombol radio di kolom Setujui dipilih terhadap setiap nilai. Namun, jika Anda berpikir bahwa nilai di tab ini salah, Anda bisa mengklik tombol radio di kolom Tolak terhadap nilai untuk memindahkannya ke tab Tidak Valid , atau mengetik nilai yang benar secara manual sebagai pengganti nilai di kolom Koreksi Ke terhadap nilai, lalu klik tombol radio di kolom Setujui untuk menerima perubahan, dan pindahkan ke tab Terkoreksi .

Untuk membersihkan data secara interaktif:

  1. Pada halaman Kelola dan tampilkan hasil wizard kualitas data pembersihan, klik nama domain di panel kiri.

  2. Tinjau nilai domain di bawah lima tab, dan ambil tindakan yang sesuai seperti yang dijelaskan sebelumnya.

    • Panel kanan atas menampilkan informasi berikut untuk setiap nilai di domain yang dipilih: nilai asli, jumlah instans (rekaman), kotak untuk menentukan nilai (benar) lain, tingkat keyakinan (tidak tersedia untuk nilai di bawah tab Benar ), alasan tindakan DQS pada nilai, dan opsi untuk menyetujui dan menolak koreksi dan saran untuk nilai tersebut.

      Tip

      Anda dapat menyetujui atau menolak semua nilai di domain yang dipilih di panel kanan atas dengan mengklik Ikon setujui semua istilah atau Tolak semua istilah . Secara bergantian, Anda bisa mengklik kanan nilai di domain yang dipilih, dan klik Terima semua atau Tolak semua di menu pintasan.

    • Panel bawah menampilkan kemunculan individual dari nilai domain yang dipilih di panel kanan atas. Informasi berikut ditampilkan: kotak untuk menentukan nilai (benar) lain, tingkat keyakinan (tidak tersedia untuk nilai di bawah tab Benar ), alasan tindakan DQS pada nilai, opsi untuk menyetujui dan menolak koreksi dan saran untuk nilai, dan nilai asli.

  3. Jika Anda mengaktifkan fitur Speller untuk domain saat membuatnya, garis bawah merah bergelombang ditampilkan terhadap nilai domain yang diidentifikasi sebagai potensi kesalahan. Garis bawah ditampilkan untuk seluruh nilai. Misalnya, jika "New York" salah dieja sebagai "Neu York", ejaan akan menampilkan garis bawah merah di bawah "Neu York", dan bukan hanya "Neu". Jika Anda mengklik kanan nilai, Anda akan melihat koreksi yang disarankan. Jika ada lebih dari 5 saran, Anda dapat mengklik Saran lainnya di menu konteks untuk melihat saran lainnya. Seperti halnya tampilan kesalahan, saran adalah pengganti untuk seluruh nilai. Misalnya, "New York" akan ditampilkan sebagai saran dalam contoh sebelumnya, dan bukan hanya "Baru". Anda dapat memilih salah satu saran atau menambahkan nilai ke kamus yang akan ditampilkan untuk nilai tersebut. Nilai disimpan dalam kamus di tingkat akun pengguna. Saat Anda memilih saran dari menu konteks ejaan, saran yang dipilih akan ditambahkan ke kolom Koreksi Ke . Namun, jika Anda memilih saran di kolom Koreksi Ke , nilai dalam kolom digantikan oleh saran yang dipilih.

    Fitur ejaan diaktifkan secara default dalam tahap pembersihan interaktif. Anda bisa menonaktifkan ejaan dalam tahap pembersihan interaktif dengan mengklik ikon Aktifkan/Nonaktifkan Ejaan , atau mengklik kanan di area nilai domain, lalu mengklik Ejaan di menu pintasan. Untuk mengaktifkannya kembali, lakukan hal yang sama.

    Catatan

    Fitur ejaan hanya tersedia di panel atas (nilai domain). Selain itu, Anda tidak dapat mengaktifkan atau menonaktifkan ejaan untuk domain komposit. Domain turunan dalam domain komposit yang berjenis string, dan diaktifkan untuk fitur ejaan, akan mengaktifkan fungsionalitas ejaan dalam tahap pembersihan interaktif, secara default.

  4. Selama tahap pembersihan interaktif, Anda dapat mengaktifkan profiler dengan mengklik tab Profiler untuk melihat pembuatan profil dan pemberitahuan data real time. Untuk informasi selengkapnya, lihat Statistik Profiler.

  5. Setelah Anda meninjau semua nilai domain, klik Berikutnya untuk melanjutkan ke tahap ekspor.

Tahap Ekspor

Dalam tahap ekspor, Anda menentukan parameter untuk mengekspor data yang dibersihkan: apa dan di mana harus mengekspor.

  1. Pada halaman Ekspor wizard kualitas data pembersihan, pilih jenis tujuan untuk mengekspor data yang dibersihkan: SQL Server, File CSV, atau File Excel.

    Penting

    Jika Anda menggunakan Excel versi 64-bit, Anda tidak dapat mengekspor data yang dibersihkan ke file Excel; Anda hanya bisa mengekspor ke database SQL Server atau ke file .csv.

    1. SQL Server: Pilih DQS_STAGING_DATA sebagai database tujuan jika Anda ingin mengekspor data Anda di sini, lalu tentukan nama tabel yang akan dibuat untuk menyimpan data yang diekspor. Jika tidak, pilih database lain jika Anda ingin mengekspor data ke database lain, lalu tentukan nama tabel yang akan dibuat untuk menyimpan data yang diekspor. Database tujuan Anda harus ada dalam instans SQL Server yang sama dengan Server Kualitas Data agar tersedia di daftar drop-down Database.

    2. File CSV: Klik Telusuri, dan tentukan nama dan lokasi file .csv tempat Anda ingin mengekspor data yang dibersihkan. Anda juga dapat mengetik nama file untuk file .csv bersama dengan jalur lengkap tempat Anda ingin mengekspor data yang dibersihkan. Misalnya, "c:\ExportedData.csv". File disimpan di komputer tempat Server Kualitas Data diinstal.

    3. File Excel: Klik Telusuri, dan tentukan nama dan lokasi file Excel tempat Anda ingin mengekspor data yang dibersihkan. Anda juga bisa mengetik nama file untuk file Excel bersama dengan jalur lengkap tempat Anda ingin mengekspor data yang dibersihkan. Misalnya, "c:\ExportedData.xlsx". File disimpan di komputer tempat Server Kualitas Data diinstal.

  2. Pilih kotak centang Standardisasi Output untuk menstandarkan output berdasarkan format output yang dipilih untuk domain. Misalnya, ubah nilai string menjadi huruf besar atau kapitalisasi huruf pertama kata. Untuk informasi tentang menentukan format output domain, lihat Daftar Output Format untuk di Atur Properti Domain.

  3. Selanjutnya, pilih output data: ekspor hanya data yang dibersihkan atau ekspor data yang dibersihkan bersama dengan informasi pembersihan.

    • Data Saja: Klik tombol radio untuk mengekspor hanya data yang dibersihkan.

    • Data dan Info Pembersihan: Klik tombol radio untuk mengekspor data berikut untuk setiap domain:

      • <Domain>_Source: Nilai asli di domain.

      • <Domain>_Output: Nilai yang dibersihkan di domain.

      • <Domain>_Reason: Alasan yang ditentukan untuk koreksi nilai.

      • <Domain>_Confidence: Tingkat keyakinan untuk semua istilah yang diperbaika. Ini ditampilkan sebagai nilai desimal yang setara dengan nilai persentase yang sesuai. Misalnya, tingkat keyakinan 95% akan ditampilkan sebagai .9500000.

      • <Domain>_Status: Status nilai domain setelah pembersihan data. Misalnya, Disarankan, Baru, Tidak Valid, Dikoreksi, atau Benar.

      • Status Catatan: Selain memiliki bidang status untuk setiap domain yang dipetakan (<DomainName>_Status), bidang Status Rekaman menampilkan status untuk rekaman. Jika salah satu status domain dalam catatan adalah Baru atau Benar, Status Catatan diatur ke Benar. Jika salah satu status domain dalam catatan Disarankan, Tidak Valid, atau Dikoreksi, Status Catatan diatur ke nilai masing-masing. Misalnya, jika salah satu status domain dalam catatan Disarankan, Status Catatan diatur ke Disarankan.

        Catatan

        Jika Anda menggunakan layanan data referensi untuk operasi pembersihan, beberapa data tambahan tentang nilai domain juga tersedia untuk diekspor. Untuk informasi selengkapnya, lihat Membersihkan Data Menggunakan Pengetahuan Data Referensi (Eksternal).

  4. Klik Ekspor untuk mengekspor data ke tujuan data yang dipilih. Jika Anda memilih:

    • SQL Server sebagai tujuan data, tabel baru dengan nama yang ditentukan akan dibuat dalam database yang dipilih.

    • File CSV sebagai tujuan data, file .csv akan dibuat di lokasi di komputer Server Kualitas Data dengan nama file yang Anda tentukan sebelumnya dalam kotak Nama file CSV .

    • File Excel sebagai tujuan data, file Excel akan dibuat di lokasi pada komputer Server Kualitas Data dengan nama file yang Anda tentukan sebelumnya dalam kotak nama file Excel .

  5. Klik Selesai untuk menutup proyek kualitas data.

Statistik Profiler

Tab Profiler menyediakan statistik yang menunjukkan kualitas data sumber. Pembuatan profil membantu Anda menilai efektivitas aktivitas pembersihan data, dan Anda dapat berpotensi menentukan sejauh mana pembersihan data dapat meningkatkan kualitas data.

Tab Profiler menyediakan statistik berikut untuk data sumber, menurut bidang dan domain:

  • Catatan: Berapa banyak rekaman dalam sampel data yang dianalisis untuk aktivitas pembersihan data

  • Rekaman yang Benar: Berapa banyak rekaman yang ditemukan benar

  • Rekaman yang Dikoreksi: Berapa banyak rekaman yang diperbaiki

  • Catatan yang Disarankan: Berapa banyak rekaman yang disarankan

  • Rekaman Tidak Valid: Berapa banyak rekaman yang tidak valid

Statistik bidang meliputi yang berikut ini:

  • Bidang: Nama bidang dalam data sumber

  • Domain: Nama domain yang memetakan ke bidang

  • Nilai yang Dikoreksi: Jumlah nilai domain yang dikoreksi

  • Nilai yang Disarankan: Jumlah nilai domain yang disarankan

  • Kelengkapan: Kelengkapan setiap bidang sumber yang dipetakan untuk aktivitas pembersihan

  • Akurasi: Akurasi setiap bidang sumber yang dipetakan untuk aktivitas pembersihan

Pembuatan profil DQS menyediakan dua dimensi kualitas data: kelengkapan (sejauh mana data ada) dan akurasi (sejauh mana data dapat digunakan untuk penggunaan yang dimaksudkan). Jika pembuatan profil memberi tahu Anda bahwa bidang relatif tidak lengkap, Anda mungkin ingin menghapusnya dari Pangkalan Pengetahuan proyek kualitas data. Pembuatan profil mungkin tidak memberikan statistik kelengkapan yang andal untuk domain komposit. Jika Anda memerlukan statistik kelengkapan, gunakan domain tunggal alih-alih domain komposit. Jika Anda ingin menggunakan domain komposit, Anda mungkin ingin membuat satu Pangkalan Pengetahuan dengan domain tunggal untuk pembuatan profil, untuk menentukan kelengkapan, dan membuat domain lain dengan domain komposit untuk proses pembersihan. Misalnya, pembuatan profil dapat menunjukkan kelengkapan 95% untuk rekaman alamat menggunakan domain komposit, tetapi mungkin ada tingkat ketidaklengkapan yang jauh lebih tinggi untuk salah satu kolom, misalnya, kolom kode pos (zip). Dalam contoh ini, Anda mungkin ingin mengukur kelengkapan kolom kode pos dengan satu domain. Pembuatan profil kemungkinan akan memberikan statistik akurasi yang andal untuk domain komposit karena Anda dapat mengukur akurasi untuk beberapa kolom bersama-sama. Nilai data ini berada dalam agregasi komposit, jadi Anda mungkin ingin mengukur akurasi dengan domain komposit.

Statistik akurasi kemungkinan akan memerlukan lebih banyak interpretasi jika Anda tidak menggunakan layanan data referensi. Jika Anda menggunakan layanan data referensi untuk pembersihan data, Anda akan memiliki tingkat kepercayaan pada statistik akurasi. Untuk informasi selengkapnya tentang pembersihan data menggunakan layanan data referensi, lihat Membersihkan Data Menggunakan Pengetahuan Data Referensi (Eksternal).

Membersihkan Pemberitahuan

Kondisi berikut menghasilkan pemberitahuan:

  • Tidak ada koreksi atau saran untuk bidang. Anda mungkin ingin menghapusnya dari pemetaan, menjalankan penemuan pengetahuan terlebih dahulu, atau menggunakan Pangkalan Pengetahuan lain.

  • Ada relatif sedikit koreksi atau saran untuk bidang. Anda mungkin ingin menghapusnya dari pemetaan, menjalankan penemuan pengetahuan terlebih dahulu, atau menggunakan Pangkalan Pengetahuan lain.

  • Tingkat akurasi lapangan sangat rendah. Anda mungkin ingin memverifikasi pemetaan, atau mempertimbangkan untuk menjalankan penemuan pengetahuan terlebih dahulu.

Untuk informasi selengkapnya tentang pembuatan profil, lihat Pembuatan Profil Data dan Pemberitahuan di DQS.