Bagikan melalui


Kualitas data

Kualitas data adalah fungsi manajemen analitik skala cloud. Ini berada di zona pendaratan manajemen data dan merupakan bagian inti dari tata kelola.

Pertimbangan kualitas data

Kualitas data adalah tanggung jawab setiap individu yang membuat dan mengonsumsi produk data. Pembuat harus mematuhi aturan global dan domain, sementara konsumen harus melaporkan inkonsistensi data ke domain data pemilik melalui perulangan umpan balik.

Karena kualitas data memengaruhi semua data yang disediakan untuk papan, itu harus dimulai di bagian atas organisasi. Papan harus memiliki wawasan tentang kualitas data yang diberikan kepada mereka.

Namun, menjadi proaktif masih mengharuskan Anda untuk memiliki ahli kualitas data yang dapat membersihkan wadah data yang memerlukan remediasi. Hindari mendorong pekerjaan ini ke tim pusat dan sebaliknya menargetkan domain data, dengan pengetahuan data tertentu, untuk membersihkan data.

Metrik kualitas data

Metrik kualitas data adalah kunci untuk menilai dan meningkatkan kualitas produk data Anda. Pada tingkat global dan domain, Anda perlu memutuskan metrik kualitas Anda. Minimal, kami merekomendasikan metrik berikut.

Metrik Definisi metrik
Kelengkapan = % total non-null + nonblanks Mengukur ketersediaan data, bidang dalam himpunan data yang tidak kosong, dan nilai default yang diubah. Misalnya, jika catatan menyertakan 01/01/1900 sebagai data kelahiran, kemungkinan besar bidang tersebut tidak pernah diisi.
Keunikan = % dari nilai nonduplikasi Mengukur nilai yang berbeda dalam kolom tertentu dibandingkan dengan jumlah baris dalam tabel. Misalnya, mengingat empat nilai warna yang berbeda (merah, biru, kuning, dan hijau) dalam tabel dengan lima baris, bidang tersebut unik 80% (atau 4/5).
Konsistensi = % data yang memiliki pola Mengukur kepatuhan dalam kolom tertentu ke jenis atau format data yang diharapkan. Misalnya, bidang email yang berisi alamat email yang diformat, atau bidang nama dengan nilai numerik.
Validitas= % pencocokan referensi Mengukur pencocokan data yang berhasil dengan kumpulan referensi domainnya. Misalnya, mengingat bidang negara/wilayah (mematuhi nilai taksonomi) dalam sistem rekaman transaksional, nilai "US of A" tidak valid.
Akurasi= % dari nilai yang tidak diubah Mengukur keberhasilan reproduksi nilai yang dimaksudkan di beberapa sistem. Misalnya, jika faktur memerinci SKU dan harga yang diperpanjang yang berbeda dari urutan asli, item baris faktur tidak akurat.
Linkage = % data yang terintegrasi dengan baik Mengukur keberhasilan asosiasi ke detail referensi pendampingnya di sistem lain. Misalnya, jika faktur memerinci SKU atau deskripsi produk yang salah, item baris faktur tidak dapat ditautkan.

Pemrofilan data

Pembuatan profil data memeriksa produk data yang terdaftar, dalam katalog data, dan mengumpulkan statistik dan informasi tentang data tersebut. Untuk memberikan ringkasan dan tampilan tren tentang kualitas data dari waktu ke waktu, simpan data ini di repositori metadata Anda terhadap produk data.

Profil data membantu pengguna menjawab pertanyaan tentang produk data, termasuk:

  • Apakah data dapat digunakan untuk menyelesaikan masalah bisnis saya?
  • Apakah data sesuai dengan standar atau pola tertentu?
  • Apa saja anomali dari sumber data?
  • Apa saja tantangan yang mungkin muncul saat mengintegrasikan data ini ke aplikasi saya?

Pengguna dapat melihat profil produk data dengan menggunakan dasbor pelaporan dalam marketplace data mereka.

Anda dapat melaporkan item seperti:

  • Kelengkapan: Menunjukkan persentase data yang tidak kosong atau null
  • Keunikan: Menunjukkan persentase data yang tidak diduplikasi
  • Konsistensi: Menunjukkan data tempat integritas data dipertahankan

Rekomendasi kualitas data

Untuk menerapkan kualitas data, Anda perlu menggunakan daya manusia dan komputasi sebagai berikut:

  • Gunakan solusi yang mencakup algoritma, aturan, pembuatan profil data, dan metrik.

  • Gunakan pakar domain yang dapat masuk ketika ada persyaratan untuk melatih algoritma karena banyaknya kesalahan yang melewati lapisan komputasi.

  • Validasi lebih awal. Solusi tradisional menerapkan pemeriksaan kualitas data setelah mengekstrak, mengubah, dan memuat data. Pada saat ini, produk data sudah dikonsumsi dan kesalahan muncul ke produk data hilir. Sebagai gantinya, karena data diserap dari sumbernya, terapkan pemeriksaan kualitas data di dekat sumber dan sebelum konsumen hilir menggunakan produk data. Jika ada penyerapan batch dari data lake, lakukan pemeriksaan ini saat Anda memindahkan data dari mentah ke diperkaya.

    Diagram cara menerapkan kualitas data selama penyerapan.

  • Sebelum data dipindahkan ke lapisan yang diperkaya, skema dan kolomnya diperiksa terhadap metadata yang terdaftar dalam katalog data.

  • Jika data berisi kesalahan, beban dihentikan, dan tim aplikasi data memberi tahu tentang kegagalan tersebut.

  • Jika pemeriksaan skema dan kolom lulus, data dimuat ke dalam lapisan yang diperkaya dengan tipe data yang sesuai.

  • Sebelum Anda pindah ke lapisan yang diperkaya, proses kualitas data memeriksa kepatuhan terhadap algoritma dan aturan.

Tip

Tentukan aturan kualitas data di tingkat global dan domain. Melakukannya memungkinkan bisnis untuk menentukan standarnya untuk setiap produk data yang dibuat dan memungkinkan domain data untuk membuat aturan tambahan yang terkait dengan domain mereka.

Solusi kualitas data

Sebaiknya evaluasi Kualitas Data Microsoft Purview sebagai solusi untuk menilai dan mengelola kualitas data, yang sangat penting untuk wawasan dan pengambilan keputusan berbasis AI yang andal. Ini termasuk:

  • Aturan tanpa kode/kode rendah: Mengevaluasi kualitas data menggunakan aturan yang dihasilkan AI di luar kotak.
  • Pembuatan profil data yang didukung AI: Merekomendasikan kolom untuk pembuatan profil dan memungkinkan intervensi manusia untuk penyempurnaan.
  • Penilaian kualitas data: Menyediakan skor untuk aset data, produk data, dan domain tata kelola.
  • Pemberitahuan kualitas data: Memberi tahu pemilik data tentang masalah kualitas.

Untuk informasi selengkapnya, lihat Apa itu Kualitas Data.

Jika organisasi Anda memutuskan untuk menerapkan Azure Databricks untuk memanipulasi data, Maka Anda harus menilai kontrol kualitas data, pengujian, pemantauan, dan penegakan yang ditawarkan solusi ini. Menggunakan ekspektasi dapat menangkap masalah kualitas data saat diserap sebelum memengaruhi produk data anak terkait. Untuk informasi selengkapnya, lihat Menetapkan standar kualitas data dan Manajemen Kualitas Data Dengan Databricks.

Anda juga dapat memilih dari mitra, sumber terbuka, dan opsi kustom untuk solusi kualitas data.

Ringkasan kualitas data

Memperbaiki kualitas data dapat memiliki konsekuensi serius bagi bisnis. Ini dapat menyebabkan unit bisnis menginterpretasikan produk data dengan cara yang berbeda. Misinterpretasi ini dapat membuktikan dengan mahal keputusan basis bisnis atas produk data dengan kualitas data yang lebih rendah. Memperbaiki produk data, dengan atribut yang hilang, bisa menjadi tugas yang mahal dan bisa memerlukan pemuatan ulang data penuh dari # periode.

Validasi kualitas data lebih awal dan masukkan proses untuk secara proaktif mengatasi kualitas data yang buruk. Misalnya, produk data tidak dapat dirilis ke produksi sampai mencapai sejumlah kelengkapan.

Anda dapat menggunakan alat sebagai pilihan gratis, tetapi memastikannya mencakup ekspektasi (aturan), metrik data, pembuatan profil, dan kemampuan untuk mengamankan harapan sehingga Anda dapat menerapkan ekspektasi global dan berbasis domain.

Langkah berikutnya