Pembersihan data

Berlaku untuk: SQL Server (semua versi yang didukung)

Pembersihan data adalah proses menganalisis kualitas data dalam sumber data, menyetujui/menolak saran secara manual oleh sistem, dan dengan demikian membuat perubahan pada data. Pembersihan data dalam Data Quality Services (DQS) mencakup proses yang dibantu komputer yang menganalisis bagaimana data sesuai dengan pengetahuan dalam Pangkalan Pengetahuan, dan proses interaktif yang memungkinkan pengurus data meninjau dan memodifikasi hasil proses yang dibantu komputer untuk memastikan bahwa pembersihan data persis seperti yang ingin dilakukan.

Pengurus data juga dapat melakukan pembersihan data dalam proses pengemasan Layanan Integrasi. Dalam hal ini, pengurus data akan menggunakan komponen Pembersihan DQS di Layanan Integrasi yang secara otomatis melakukan pembersihan data menggunakan Pangkalan Pengetahuan yang ada. Untuk informasi selengkapnya, lihat Transformasi Pembersihan DQS.

Fitur pembersihan data di DQS memiliki manfaat berikut:

  • Mengidentifikasi data yang tidak lengkap atau salah di sumber data Anda (file Excel atau database SQL Server), lalu mengoreksi atau memperingatkan Anda tentang data yang tidak valid.

  • Menyediakan proses dua langkah untuk membersihkan data: dibantu komputer dan interaktif. Proses yang dibantu komputer menggunakan pengetahuan dalam Pangkalan Pengetahuan DQS untuk memproses data secara otomatis, dan menyarankan penggantian/koreksi. Langkah berikutnya, interaktif, memungkinkan pengurus data untuk menyetujui, menolak, atau memodifikasi perubahan yang diusulkan oleh DQS selama pembersihan yang dibantu komputer.

  • Menstandarkan dan memperkaya data pelanggan dengan menggunakan nilai domain, aturan domain, dan data referensi. Misalnya, standarisasi penggunaan istilah dengan mengubah "St." ke "Street", memperkaya data dengan mengisi elemen yang hilang dengan mengubah "1 Microsoft way Redmond 98006" menjadi "1 Microsoft Way, Redmond, WA 98006".

  • Menyediakan antarmuka seperti wizard yang sederhana, intuitif, dan konsisten kepada pengguna untuk menavigasi data dan memeriksa kesalahan di antara sekumpulan data yang sangat besar.

Ilustrasi berikut menampilkan bagaimana pembersihan data dilakukan di DQS:

Proses Pembersihan Data dalam

Pembersihan Yang Dibantu Komputer

Proses pembersihan data DQS menerapkan Pangkalan Pengetahuan ke data yang akan dibersihkan, dan mengusulkan perubahan pada data. Pengurus data memiliki akses ke setiap perubahan yang diusulkan, memungkinkannya untuk menilai dan memperbaiki perubahan. Untuk melakukan pembersihan data, pengurus data melanjutkan sebagai berikut:

  1. Buat proyek kualitas data, pilih Pangkalan Pengetahuan yang ingin Anda analisis dan bersihkan data sumber Anda, dan pilih aktivitas Pembersihan. Beberapa proyek kualitas data dapat menggunakan Pangkalan Pengetahuan yang sama.

  2. Tentukan tabel/tampilan database atau file Excel yang berisi data sumber yang akan dibersihkan. Database atau file Excel bisa sama dengan yang digunakan untuk penemuan pengetahuan, atau bisa berupa database atau file Excel yang berbeda.

    Catatan

    Jika Anda memilih sumber data yang sama untuk aktivitas penemuan dan pembersihan pengetahuan, tidak akan ada perubahan pada data. Disarankan agar Anda menjalankan penemuan pengetahuan pada data sampel, dan kemudian membersihkan data sumber Anda terhadap pengetahuan yang dibangun selama aktivitas penemuan pengetahuan.

  3. Petakan bidang data yang akan dibersihkan ke domain/domain komposit yang sesuai di Pangkalan Pengetahuan. Jika Anda memetakan bidang ke domain komposit, pemetaan terjadi antara bidang dan domain komposit, dan bukan dengan domain individual di domain komposit. Selain itu, pembersihan data untuk bidang yang dipetakan dilakukan berdasarkan aturan yang ditentukan untuk domain komposit, dan bukan untuk domain individual di domain komposit. Untuk informasi selengkapnya tentang domain komposit, lihat Pangkalan Pengetahuan dan Domain DQS.

  4. Jalankan proses pembersihan yang dibantu komputer dengan mengklik Mulai pada halaman Bersihkan .

Proses pembersihan data menemukan kecocokan terbaik dari instans data dengan nilai domain data yang diketahui. Proses ini menerapkan pengetahuan kualitas data untuk semua data sumber, tidak seperti proses penemuan pengetahuan, yang berjalan pada persentase data sampel.

Proses yang dibantu komputer menampilkan informasi kualitas data di Data Quality Client yang akan digunakan untuk proses pembersihan interaktif. Selain kepatuhan terhadap aturan kesalahan sintaks, DQS juga menggunakan data referensi dan algoritma tingkat lanjut untuk mengategorikan data menggunakan tingkat keyakinan. Tingkat keyakinan menunjukkan sejauh mana kepastian DQS untuk koreksi atau saran. Tingkat keyakinan didasarkan pada nilai ambang batas berikut:

  • Nilai ambang koreksi otomatis di atas DQS yang akan menyarankan perubahan dan membuatnya kecuali pengurus data menolaknya. Anda dapat menentukan nilai ambang koreksi otomatis di tab Pengaturan Umum di layar Konfigurasi . Untuk informasi selengkapnya, lihat Mengonfigurasi Nilai Ambang batas untuk Pembersihan dan Pencocokan.

  • Nilai ambang batas saran otomatis , di bawah ambang koreksi otomatis, di atas mana DQS akan menyarankan perubahan, dan membuatnya jika pengurus data menyetujuinya. Anda dapat menentukan nilai ambang saran otomatis di tab Pengaturan Umum di layar Konfigurasi . Untuk informasi selengkapnya, lihat Mengonfigurasi Nilai Ambang batas untuk Pembersihan dan Pencocokan.

Nilai apa pun yang memiliki tingkat keyakinan di bawah nilai ambang saran otomatis dibiarkan apa adanya oleh DQS kecuali pengurus data menentukan perubahan.

Pembersihan Interaktif

Berdasarkan proses pembersihan yang dibantu komputer, DQS menyediakan pengurus data dengan informasi bahwa mereka perlu membuat keputusan tentang mengubah data. DQS mengategorikan data di bawah lima tab berikut:

  • Disarankan: Nilai di mana DQS menemukan saran yang memiliki tingkat keyakinan lebih tinggi dari nilai ambang saran otomatis tetapi lebih rendah dari nilai ambang koreksi otomatis . Anda harus meninjau nilai-nilai ini, dan menyetujui atau menolak sebagaimana mestinya.

  • Baru: Nilai yang valid di mana DQS tidak memiliki informasi (saran) yang cukup, dan karenanya tidak dapat dipetakan ke tab lain. Selanjutnya, tab ini juga berisi nilai yang memiliki tingkat keyakinan kurang dari nilai ambang saran otomatis , tetapi cukup tinggi untuk ditandai sebagai valid.

  • Tidak valid: Nilai yang ditandai sebagai tidak valid di domain dalam Pangkalan Pengetahuan atau nilai yang gagal dalam aturan domain atau data referensi. Tab ini juga akan berisi nilai yang ditolak oleh pengguna di salah satu dari empat tab lainnya selama proses pembersihan interaktif.

  • Dikoreksi: Nilai yang diperbaiki oleh DQS selama proses pembersihan otomatis karena DQS menemukan koreksi untuk nilai dengan tingkat keyakinan di atas nilai ambang koreksi otomatis . Tab ini juga akan berisi nilai di mana pengguna menentukan nilai yang benar di kolom Koreksi Ke selama pembersihan interaktif, lalu disetujui dengan mengklik tombol radio di kolom Setujui di salah satu dari empat tab lainnya.

  • Benar: Nilai yang ditemukan benar. Misalnya, nilai cocok dengan nilai domain. Jika diperlukan, Anda dapat mengambil alih pembersihan DQS dengan menolak nilai di bawah tab ini, atau dengan menentukan kata alternatif di kolom Benar ke , lalu mengklik tombol radio di kolom Terima . Tab ini juga akan berisi nilai yang disetujui oleh pengguna selama pembersihan interaktif dengan mengklik tombol radio di kolom Setujui di tab Baru atau Tidak Valid .

Catatan

Di tab Disarankan, Diperbaiki, dan Benar , DQS menampilkan nilai utama untuk domain, jika berlaku, di kolom Benar Ke terhadap nilai domain masing-masing.

Pengurus data menggunakan Klien Kualitas Data untuk melihat perubahan yang telah diusulkan DQS dan memutuskan apakah akan menerapkannya atau tidak. Dia dapat memverifikasi bahwa nilai yang telah ditetapkan DQS sebagai benar sebenarnya benar. Dia dapat memverifikasi bahwa perubahan yang sudah dilakukan oleh DQS, dengan tingkat kepercayaan diri yang tinggi, harus dilakukan. Dia dapat memutuskan apakah akan menyetujui perubahan yang disarankan secara otomatis. Dan dia dapat meninjau nilai yang belum diubah, hanya jika mereka ingin membuat perubahan yang tidak ditemukan oleh proses yang dibantu komputer.

DQS akan menggabungkan perubahan apa pun yang telah dilakukan pengurus data dengan hasil pembersihan data yang dibantu komputer. Perubahan ini akan tetap ada pada proyek; namun, mereka tidak akan ditambahkan ke Pangkalan Pengetahuan. Selama pembersihan data, Pangkalan Pengetahuan terkait bersifat baca-saja.

Ketika proses pembersihan data telah selesai, Anda bisa memilih untuk mengekspor data yang diproses ke tabel baru dalam database SQL Server, file .csv, atau file Excel. Data sumber tempat pembersihan dilakukan dipertahankan dalam keadaan aslinya. Pengurus data dapat menggunakan data terpisah yang dibersihkan untuk memperbaiki data sumber aktual.

Ilustrasi berikut menampilkan bagaimana pembersihan data dilakukan menggunakan aplikasi Klien Kualitas Data:

Pembersihan Data dalam Pembersihan Data Klien Kualitas Data

Koreksi Nilai Awal

Koreksi nilai awal berlaku untuk nilai domain yang memiliki sinonim, dan pengguna ingin menggunakan salah satu nilai sinonim sebagai nilai utama alih-alih nilai lainnya untuk representasi nilai yang konsisten. Misalnya, "New York", "NYC", dan "apel besar" adalah sinonim, dan pengguna ingin menggunakan "New York" sebagai nilai utama alih-alih "NYC" dan "Big Apple". DQS mendukung koreksi nilai terkemuka selama proses pembersihan untuk membantu Anda menstandarkan data Anda. Koreksi nilai awal dilakukan hanya jika domain diaktifkan untuk hal yang sama saat dibuat. Secara default, semua domain diaktifkan untuk koreksi nilai awal kecuali Anda mengosongkan kotak centang Gunakan Nilai Di Depan saat membuat domain. Untuk informasi selengkapnya tentang kotak centang ini, lihat Mengatur Properti Domain.

Menstandarkan Data yang Dibersihkan

Anda dapat memilih apakah akan mengekspor data yang dibersihkan dalam format standar berdasarkan format output yang ditentukan untuk domain. Saat membuat domain, Anda bisa memilih pemformatan yang akan diterapkan saat nilai data di domain adalah output. Untuk informasi selengkapnya tentang menentukan format output untuk domain, lihat Daftar Format Output untuk di Atur Properti Domain.

Saat mengekspor data yang dibersihkan pada halaman Ekspor di wizard proyek kualitas data pembersihan, Anda menentukan apakah Anda ingin data yang dibersihkan diekspor dalam format standar dengan memilih kotak centang Standardisasi Output . Secara default, data yang dibersihkan diekspor dalam format standar, yaitu, kotak centang dipilih. Untuk informasi selengkapnya tentang mengekspor data yang dibersihkan, lihat Membersihkan Data Menggunakan Pengetahuan DQS (Internal).

Deskripsi Tugas Topik
Menjelaskan cara mengonfigurasi nilai ambang untuk aktivitas pembersihan. Mengonfigurasi Nilai Ambang untuk Pembersihan dan Pencocokan
Menjelaskan cara membersihkan data menggunakan pengetahuan yang dibangun di DQS. Membersihkan data menggunakan pengetahuan DQS (Internal)
Menjelaskan cara membersihkan data menggunakan pengetahuan dari layanan data referensi. Membersihkan data menggunakan pengetahuan Data Referensi (Eksternal)
Menjelaskan cara membersihkan domain komposit. Membersihkan Data dalam Domain Komposit

Lihat juga

Proyek Kualitas Data (DQS)
Pencocokan Data