Bagikan melalui


Apa itu produk data?

Setiap aplikasi membuat dan menyimpan data baik untuk sementara atau permanen. Banyak aplikasi juga membuat dan menyimpan data untuk tujuan manajemen operasional, seperti pengelogan kesalahan dan pemantauan kesehatan. Tim data terpusat menggunakan proses ETL untuk mengonsumsi dan memproses data yang dihasilkan aplikasi ini. Tim operasi aplikasi sering memiliki alur pemrosesan data tambahan untuk hal-hal seperti kesehatan aplikasi dan pemantauan status KPI.

Pendekatan tradisional air terjun tim dan tanggung jawab dalam integrasi data Anda tidak ideal. Ini dapat menyebabkan kesenjangan pengetahuan, masalah kepemilikan, dan konflik komunikasi yang memengaruhi kualitas, kedaluwarsa, dan nilai data Anda untuk pengguna akhir. Tim aplikasi bertanggung jawab atas performa dan keberhasilan aplikasi. Dalam pekerjaan mereka, mereka perlu membuat perubahan pada proses hilir yang dimiliki oleh tim lain, tetapi perubahan ini sering kali tidak sesuai dengan rencana. Misalnya, Anda mungkin menemukan bahwa apa yang disebut perubahan upstram kecil secara drastis mengubah tren KPI. Masalah data semacam ini dapat memengaruhi kemampuan Anda untuk membuat keputusan penting.

Pendekatan jala data mencegah masalah ini dengan mengadopsi konsep data sebagai produk. Pemilik aplikasi dan tim aplikasi memperlakukan data sebagai produk yang terkandung sepenuhnya yang menjadi tanggung jawab mereka, bukan produk sampingan dari beberapa proses yang dikelola orang lain. Aplikasi dan tugas penyajian data analitik berada dalam area tanggung jawab domain.

Produk data dibuat khusus untuk konsumsi analitis. Mereka telah mendefinisikan dan menyetujui bentuk, antarmuka konsumsi, dan siklus pemeliharaan dan refresh, yang semuanya didokumentasikan.

Produk data adalah aset/himpunan data data domain yang diproses yang dibagikan dengan proses hilir melalui antarmuka dalam SLO. Kecuali jika diperlukan, data mentah Anda harus diproses, dibentuk, dibersihkan, dikumpulkan, dan dinormalisasi untuk memenuhi standar kualitas yang disepakati sebelum Anda membuatnya tersedia untuk dikonsumsi.

Bagian berikut menguraikan karakteristik umum yang dimiliki produk data yang baik.

Karakteristik produk data

Produk data yang dirancang dengan baik adalah:

Dapat ditemukan, dapat dimengerti, dan dapat dipercaya: Tim domain memberikan penemuan dan pemahaman dengan berbagi dan memperbarui informasi tentang setiap produk data, datanya, maknanya, format bentuk datanya, dan siklus refresh-nya. Mereka mengkomunikasikan perubahan data atau bentuk kepada konsumen hilir secara tepat waktu. Antarmuka memastikan kepercayaan dengan menyediakan kompatibilitas mundur terikat waktu untuk bentuk produk data.

Dapat diatasi, dapat diakses secara asli, dan aman: Proses yang ditentukan untuk menemukan dan mendapatkan akses ke setiap produk data memberikan kemampuan alamat. Langkah-langkah keamanan yang diperlukan untuk persyaratan akses yang berbeda telah diberlakukan. Mentalitas kepemilikan domain data bergeser dari data gatekeeping ke melayani data dengan tindakan pencegahan keamanan yang terdefinisi dengan baik. Antarmuka akses yang ditawarkan didokumenkan dengan baik dan dapat bervariasi dalam berbagai teknologi. Antarmuka yang umum digunakan untuk produk data yang dapat diakses secara asli termasuk API, pengguna database, tabel atau tampilan, dan file dengan hak akses yang diperlukan.

Interoperabilitas, jujur, dan berharga: Data memberikan interoperabilitas dengan mengikuti standar umum yang ditentukan, seperti nilai yang sama selalu memiliki nama dan jenis data yang sama. Misalnya, kolom yang berisi data identifikasi pelanggan mungkin berjudul CustomerID di setiap produk data, dan datanya mungkin selalu berupa bilangan bulat, atau menggunakan snake_case atau camelCase dalam setiap instans. Produk data memberikan nilai kepada pelanggan, dan mereka juga dapat digunakan sebagai sumber hulu untuk produk data baru di domain yang sama atau berbeda. Namun, Anda tidak bisa hanya membawa dan menyalin produk data yang sama di beberapa tempat. Setiap produk data yang berasal dari produk data sebelumnya harus memberikan nilai dan informasi baru kepada konsumen hilir. Produk data juga harus selalu memberikan data yang jujur dan tidak keliru.

Produk data yang dirancang dengan baik dan dikelola dengan baik dan antarmukanya membantu organisasi menghindari duplikat data dan dapat membantu menciptakan satu sumber kebenaran asli.

Rekomendasi desain produk data

Untuk memenuhi persyaratan penyajian produk data, tim domain Anda harus memperoleh serangkaian keterampilan baru dan menggunakan alat dan platform baru.

Lengkapi tim aplikasi domain Anda untuk membangun aplikasi data dan menghasilkan atau melayani produk data. Tim Anda dapat membangun produk data menggunakan tumpukan teknologi yang sudah dikenal. Mereka mungkin juga lebih suka memiliki instans Spark atau mesin alur mereka sendiri jika memungkinkan. Misalnya, domain besar yang melayani banyak produk data mungkin memutuskan untuk memproses dan melayani produk data dari Azure Synapse Analytics mereka sendiri. Organisasi yang lebih kecil dan domain yang lebih kecil dari perusahaan besar mungkin memutuskan untuk mengembangkan dan menjalankan aplikasi data mereka di platform bersama, seperti Azure Data Factory, Azure Synapse Analytics, atau Azure Databricks yang terletak di pusat.

Pastikan bahwa produk data Anda memiliki karakteristik umum yang dijelaskan dalam artikel ini, repositori silsilah Anda mencerminkan silsilah aplikasi data Anda, serta implementasi dan akses Anda diatur.

Diagram yang menunjukkan kemungkinan tata letak logis aplikasi data di domain dan zona pendaratan.

Panduan Produk Data dan Aplikasi Data untuk Azure

Anda dapat memposisikan semua pendekatan yang mungkin untuk lingkungan aplikasi data Anda dalam zona pendaratan data Azure jika tim aplikasi domain Anda menggunakan platform bersama dan serangkaian layanan.

Diagram memperlihatkan grup sumber daya data-application-rg dari Konteks Aplikasi Data dan grup sumber daya shared-application-rg dari Konteks Layanan Inti.

Anda dapat menemukan tiga templat pola aplikasi data yang berbeda untuk zona pendaratan data Azure di produk data analitik skala cloud di Azure - Aplikasi data sampel.

Langkah berikutnya