Produk data analitik skala cloud di Azure

Produk data adalah data yang dilayani sebagai produk dan dihitung, disimpan, dan dilayani oleh layanan persistensi poliglot, yang dapat diperlukan oleh kasus penggunaan tertentu. Proses pembuatan dan penyajian produk data dapat memerlukan layanan dan teknologi yang tidak termasuk dalam layanan inti zona pendaratan data . Contohnya adalah melaporkan dengan persyaratan ceruk, seperti kepatuhan dan pelaporan pajak.

Mempertimbangkan rancangan

Zona pendaratan data dapat dilayani beberapa produk data yang dibuat dengan menyerap data dari dalam zona pendaratan data yang sama atau dari beberapa zona pendaratan data. Ini ditampilkan dalam diagram berikut.

Diagram konsumsi zona pendaratan lintas data.

Contoh di atas menunjukkan:

  • Konsumsi data intrazona:
    • Produk data B mengonsumsi data dari produk data A dan data atau produk data lain yang ada di data lake dalam zona pendaratannya sendiri.
    • Produk data C dan D hanya mengonsumsi data dari dalam zona pendaratan data masing-masing.
  • Konsumsi data antarzona:
    • Produk data B juga mengonsumsi data dari produk data C dan data di data lake zona pendaratan 3.

Penting

Dalam kasus konsumsi data interzone, karena produk data B dibuat dengan membaca dari zona pendaratan data 3, akses baca ini memerlukan persetujuan dari operasi zona pendaratan data dan tim operasi integrasi zona pendaratan data 3.

Penting

Produk data B mengonsumsi data dari produk data A dan C. Sebelum ini dapat terjadi, produk data B harus mendaftarkan konsumsi produk datanya melalui perjanjian berbagi data. Perjanjian berbagi data ini harus memperbarui garis silsilah dari produk data A ke produk data B dan dari produk data C ke produk data B.

Grup sumber daya untuk produk data mencakup semua layanan yang diperlukan untuk membuatnya dan memeliharanya. Kita dapat menyebut grup sumber daya ini sebagai aplikasi data. Contoh layanan yang mungkin menjadi bagian dari aplikasi data termasuk Azure Functions, Azure App Service, Logic Apps, Azure Analysis Services, Azure Cognitive Services, Azure Machine Learning, Azure SQL Database, Azure Database for MySQL, dan Azure Cosmos DB. Untuk informasi selengkapnya, lihat sampel aplikasi data.

Produk data memiliki data dari sumber data READ yang telah menerapkan beberapa transformasi data. Contohnya mungkin himpunan data yang baru dikumpulkan atau laporan BI.

Rekomendasi desain

Bangun produk data dalam zona pendaratan data Anda dengan mematuhi prinsip desain yang memungkinkan Anda menskalakan dengan tata kelola data. Bagian berikut memberikan rekomendasi desain untuk membantu saat Anda merencanakan ekosistem aplikasi data Anda.

Menyebarkan beberapa grup sumber daya

Setiap aplikasi data adalah grup sumber daya. Karena aplikasi data adalah layanan komputasi, layanan persistensi poliglot, atau keduanya, aplikasi tersebut hanya dapat diperlukan tergantung pada kasus penggunaan tertentu. Dengan demikian, mereka dianggap sebagai komponen zona pendaratan data opsional. Dalam kasus di mana Anda memerlukan aplikasi data, buat beberapa grup sumber daya menurut aplikasi data seperti yang ditunjukkan oleh diagram berikut.

Diagram grup sumber daya aplikasi data.

Mengatur pagar pembatas

Azure Policy mendorong konfigurasi default layanan dalam zona pendaratan data. Anggap analitik operasional sebagai beberapa grup sumber daya yang dapat diminta tim produk data Anda dari katalog layanan standar. Dengan menggunakan Azure Policy, Anda dapat mengonfigurasi batas keamanan dan kumpulan fitur yang diperlukan.

Penting

Untuk mendorong konsistensi, konfigurasikan satu Azure Policy untuk setiap aplikasi data.

Mengonsumsi data dari beberapa tempat

Aplikasi data mengelola, mengatur, dan memahami data dari beberapa aset data dan menyajikan wawasan apa pun yang diperoleh. Produk data adalah hasil data dari satu atau banyak aplikasi data dalam zona pendaratan data. Izinkan aplikasi data Anda mengakses data dari berbagai sumber jika diperlukan.

Menskalakan sesuai kebutuhan

Layanan yang membentuk aplikasi data adalah penyebaran inkremental ke zona pendaratan data. Skalakan aplikasi data Anda sesuai kebutuhan.

Mendukung penemuan data

Daftarkan produk data Anda secara otomatis dalam katalog data seperti Azure Purview untuk mengizinkan pemindaian data.

Identifikasi produk data Anda

Saat mulai merencanakan zona pendaratan data, identifikasi produk data sebanyak mungkin (dan aplikasi data yang menghasilkan dan memeliharanya) seperlunya untuk membantu mendorong arsitektur aplikasi produk data Anda. Kesuaian dengan tata kelola platform yang diterapkan harus memainkan peran terbesar dalam keputusan Anda.

Fokus pada bagaimana aplikasi data Anda adalah produsen data dan konsumen untuk orang lain. Misalnya, asumsikan Anda telah mengidentifikasi serangkaian produk data (A, B, C, dan D) yang diproduksi dan dikonsumsi data. Anda memerlukan produk data A dan D sebagai sumber untuk data dalam Aplikasi Data B untuk produk data B. Produk data B dibuat dari data yang digunakan Aplikasi Data B dari produk data A dan D. Aplikasi Data B bertindak sebagai produsen data itu sendiri, dan juga menghasilkan data untuk produk data C.

Diagram produsen dan konsumen data.

Mengontrol lingkungan aplikasi data Anda dengan infrastruktur sebagai kode

Tata kelola dan infrastruktur sebagai kode harus mengontrol lingkungan aplikasi data di seluruh ekosistem produk data Anda, seperti yang ditunjukkan pada diagram sebelumnya.

Menerbitkan model data

Tim produk data Anda harus menerbitkan model data mereka dalam repositori pemodelan.

Menetapkan harapan untuk pengguna produk data

Perbarui kontrak berbagi data Anda dengan perjanjian dan sertifikasi tingkat layanan untuk produk data Anda sehingga Anda dapat menyampaikan harapan yang akurat kepada calon pengguna produk data.

Mengambil silsilah

Jika produk data B dibuat dari data yang berasal dari produk data A dan D, silsilah data harus diambil dari A dan D ke B. Silsilah lebih lanjut juga harus diambil untuk produk data C, karena dibuat menggunakan data dari produk data B. Silsilah data yang diperbarui harus diambil dalam aplikasi silsilah data sebelum setiap rilis produk data Anda.

Catatan

Menggunakan Azure Pipelines memungkinkan Anda membangun gerbang persetujuan dan memanggil fungsi yang dapat memastikan metadata, silsilah data, dan SLA terdaftar dalam layanan tata kelola yang benar.

Menentukan arsitektur aplikasi data

Anda harus membuat arsitektur terperinci untuk setiap produk data yang sepenuhnya menentukan hubungannya dengan produk data lain, dependensinya, dan persyaratan aksesnya.

Contoh skenario desain

Untuk memahami proses definisi arsitektur, jelajahi contoh lembaga keuangan berikut dan produk data pemantauan kreditnya.

Diagram arsitektur define-data-product secara rinci.

Produk data pemantauan kredit yang ditunjukkan dalam diagram ini mengonsumsi data dari penyimpanan data baca yang telah diserap oleh tim operasi integrasi. Ini menghasilkan produk data yang juga dikonsumsi oleh dua produk data lainnya.

Catatan

Sumber atau penyimpanan data baca juga dikenal sebagai sumber rekaman emas. Sumber data ini telah dibersihkan tetapi belum memiliki transformasi apa pun yang diterapkan padanya.

Tim produk data pemantauan kredit meminta akses baca untuk membaca penyimpanan data yang mereka butuhkan untuk pembuatan produk data mereka. Permintaan mereka dirutekan ke pemilik data untuk disetujui. Setelah mereka menerima persetujuan, tim produk dapat mulai membangun aplikasi data mereka.

Data dari sumber data baca diubah menjadi produk data pemantauan kredit. Setiap produk data baru disimpan di lapisan yang dikumpulkan data lake. Produk data baru dan silsilah data baru ini harus didaftarkan sebagai bagian dari proses penyebaran DevOps. Fungsi dapat memeriksa metadata terdaftar dengan struktur fisik aset data. Ini harus mendaftarkan dependensi pada aset data sumber data baca dan produk data.

Tim produk persetujuan pinjaman memiliki dependensi pada beberapa produk data pemantauan kredit. Tim persetujuan pinjaman mereka mungkin meminta akses baca ke produk data pemantauan kredit yang mereka butuhkan untuk produk data mereka. Setelah mereka merilis produk data persetujuan pinjaman dan aplikasi datanya, semua aset produk data, silsilah data, dan model harus terdaftar di layanan tata kelola yang relevan.

Aplikasi data sampel

Bagian berikut berisi aplikasi data sampel untuk mengilustrasikan skenario aplikasi data lebih lanjut.

Analitik data dan aplikasi data ilmu data

Aplikasi untuk analitik data dan ilmu data mungkin berisi layanan yang ditampilkan dalam aplikasi product-analytics-rgdata sampel .

Diagram yang menampilkan kemungkinan layanan yang dapat dipilih untuk Penyebaran Aplikasi Data Analytics.

Catatan

Aplikasi data di atas tersedia sebagai templat, yang menyebarkan sekumpulan layanan yang dapat Anda gunakan untuk analitik data dan ilmu data. Seperti semua templat kami, templat aplikasi produk data ini adalah cetak biru yang dapat Anda gunakan untuk memutar lingkungan dengan cepat untuk tim lintas fungsi. Layanan apa pun yang tidak Anda perlukan harus dinonaktifkan secara eksplisit.

Templat Data Product Analytics berisi semua templat untuk menyebarkan produk data untuk analitik dan ilmu data di dalam zona pendaratan data skenario analitik skala cloud.

Penyebaran dan artefak kode mencakup layanan berikut:

Aplikasi Data Batch

Templat Aplikasi Data Batch berisi semua templat untuk menyebarkan produk data untuk pemrosesan data batch di dalam zona pendaratan data skenario analitik skala cloud.

Penyebaran dan artefak kode mencakup layanan berikut:

Diagram yang menunjukkan kemungkinan layanan yang dapat dipilih untuk Penyebaran Aplikasi Data Batch.

Aplikasi Data Streaming

Templat Aplikasi Data Streaming berisi semua templat untuk menyebarkan produk data untuk pemrosesan data real time di dalam zona pendaratan data skenario analitik skala cloud

Penyebaran dan artefak kode mencakup layanan berikut:

Diagram yang menunjukkan kemungkinan layanan yang dapat dipilih untuk Penyebaran Aplikasi Data Streaming.

Untuk menemukan repositori yang berisi templat penyebaran yang disebutkan sebelumnya, lihat templat penyebaran untuk analitik skala cloud

Langkah berikutnya

Aplikasi data (selaras dengan sumber)