Daftar periksa DataOps

DataOps adalah pendekatan siklus hidup untuk analitik data. Ini menggunakan praktik tangkas untuk mengatur alat, kode, dan infrastruktur untuk dengan cepat memberikan data berkualitas tinggi dengan keamanan yang ditingkatkan. Saat Anda menerapkan dan menyederhanakan proses DataOps, bisnis Anda dapat lebih mudah dan hemat biaya memberikan wawasan analitis. Ini memungkinkan Anda untuk mengadopsi teknik data tingkat lanjut yang dapat mengungkap wawasan dan peluang baru. Gunakan daftar periksa ini sebagai titik awal untuk menilai proses DataOps Anda.

Tata kelola data dan orang

Tata kelola data

  • Lokasi pusat digunakan untuk mendaftarkan sumber data.
  • Silsilah data dan metadata tersedia.
  • Data mudah ditemukan oleh pengguna, dan data sensitif diamankan.
  • Petugas data dan keamanan memiliki pandangan tentang bagaimana data digunakan, siapa yang memiliki akses, dan di mana data sensitif mungkin berada.

Peran yang ditentukan dan jelas

  • Insinyur, penguji, ilmuwan data, operasi, analis data, pengguna bisnis, dan petugas data semuanya bekerja sama dan memahami peran mereka dalam proyek.
  • Pemangku kepentingan diidentifikasi, dan Anda memahami apa yang memotivasi pemangku kepentingan untuk mulai membuat keputusan berbasis data.

Kasus penggunaan untuk pergerakan data

  • Kasus penggunaan untuk analitik streaming, interaktif, dan batch diselesaikan.
  • Berbagai jenis data untuk setiap kasus diklarifikasi, dan metrik didefinisikan untuk memotivasi membuat keputusan berbasis data.

Alat data

  • Alat data yang diperlukan untuk membuat data lebih mudah diakses, dibagikan, dianalisis, dan diamankan diidentifikasi atau dikembangkan.

Keamanan dan Kepatuhan

  • Semua sumber daya, data saat transit, dan data tidak aktif telah diaudit dan memenuhi standar keamanan perusahaan.

Pengembangan

Pola desain alur

  • Alur data dirancang untuk digunakan kembali dan menggunakan parameterisasi.
  • Alur memecahkan masalah ETL umum.

Penyerapan terpusat

  • Platform terpusat menghosting alur untuk semua sumber data eksternal dan internal. Hal ini memungkinkan manajemen, pemantauan, keamanan, dan standardisasi pergerakan data yang disederhanakan.
  • Biaya yang terkait dengan penanganan data juga terpusat. Kontrol pusat dapat membantu meminimalkan biaya dan memaksimalkan efisiensi.

Komputasi terpusat

  • Tim pusat menentukan metrik dan menentukan cara menghitung metrik tersebut. Hal ini memungkinkan konsistensi di seluruh organisasi dan membatasi kebingungan tentang tempat membuat pembaruan komputasi. Ini juga menciptakan satu sumber untuk definisi metrik, tata kelola, pengujian, dan kontrol kualitas.

Abstraksi data

  • Pelaporan menggunakan lapisan abstraksi data. Ini memungkinkan penggunaan terminologi bisnis yang konsisten, tampilan data yang disederhanakan, dan efek minimal pada konsumen data ketika versi data baru tersedia.

Kontrol sumber

  • Infrastruktur terkait data, skema dan prosedur database, proses ETL, dan laporan diperlakukan sebagai kode dan dikelola dalam repositori.
  • Semua perubahan disebarkan dan diuji melalui tumpukan Pengembangan, Pengujian, Penerimaan, dan Produksi (DTAP).

Pengujian dan rilis

Lingkungan DTAP

  • Lingkungan non-produksi yang meniluki lingkungan produksi tersedia.
  • Build dan penyebaran dijalankan dan diuji pada lingkungan non-produksi sebelum dorongan produksi.
  • Pengembang dapat memberikan hasil yang dapat direproduksi di semua lingkungan.

Pengujian

  • Pengujian unit, end-to-end, dan regresi berjalan pada frekuensi dan interval tertentu.
  • Semua pengujian berada dalam kontrol sumber dan dijalankan sebagai bagian dari proses build dan penyebaran.
  • Input pengguna akhir pasca-penyebaran dipersilakan dan dimasukkan ke dalam pengujian yang sesuai.

Membangun dan menyebarkan proses

  • Proses yang terjaga menyebarkan perubahan pada lingkungan produksi.
  • Perubahan diuji di lingkungan pengembangan dan pengujian. Perubahan disertifikasi sebelum masuk ke produksi. Proses ini seotomatis mungkin.

Pemantauan

Pemberitahuan dan remediasi

  • Operasi diperingatkan untuk kesalahan apa pun.
  • Anda dapat merespons umpan balik dengan cepat dan memiliki proses untuk mengatasi masalah dengan cepat saat muncul.
  • Alur dapat diamati.

Efisiensi

  • Pergerakan data efisien.
  • Infrastruktur dapat diskalakan untuk memenuhi kebutuhan volume dan kecepatan.
  • Data dapat digunakan kembali jika memungkinkan.

Kontrol proses statistik (SPC)

  • SPC digunakan untuk memantau dan mengontrol alur data.
  • Anda dapat menggunakan output alur untuk menentukan langkah berikutnya dalam aliran data.

Kontributor

Artikel ini dikelola oleh Microsoft. Ini awalnya ditulis oleh kontributor berikut.

Penulis utama:

Untuk melihat profil LinkedIn non-publik, masuk ke LinkedIn.

Langkah berikutnya