Bagikan melalui


Produk data analitik skala cloud di Azure

Produk data dilayani sebagai produk dan dihitung, disimpan, dan dilayani oleh layanan persistensi poliglot, yang dapat diperlukan oleh kasus penggunaan tertentu. Proses pembuatan dan penyajian produk data dapat memerlukan layanan dan teknologi yang tidak termasuk dalam layanan inti zona pendaratan data. Contohnya adalah melaporkan dengan persyaratan niche, seperti kepatuhan dan pelaporan pajak.

Pertimbangan Desain

Zona pendaratan data dapat dilayani beberapa produk data yang dibuat dengan menyerap data dari dalam zona pendaratan data yang sama atau dari beberapa zona pendaratan data. Ini diperlihatkan dalam diagram berikut.

Diagram konsumsi zona pendaratan lintas data.

Contoh di atas menunjukkan:

  • Konsumsi data intrazon:
    • Produk data B mengonsumsi data dari produk data A dan data atau produk data lainnya yang ada di data lake dalam zona pendaratannya sendiri.
    • Produk data C dan D hanya mengonsumsi data dari dalam zona pendaratan data masing-masing.
  • Konsumsi data interzone:
    • Produk data B juga mengonsumsi data dari produk data C dan data di data lake zona pendaratan 3.

Penting

Dalam kasus konsumsi data interzon, karena produk data B dibuat dengan membaca dari zona pendaratan data 3, akses baca ini memerlukan persetujuan dari operasi zona pendaratan data dan tim operasi integrasi zona pendaratan data 3.

Penting

Produk data B mengonsumsi data dari produk data A dan C. Sebelum ini dapat terjadi, produk data B harus mendaftarkan konsumsi produk datanya melalui perjanjian berbagi data. Perjanjian berbagi data ini harus memperbarui garis silsilah dari produk data A ke produk data B dan dari produk data C ke produk data B.

Grup sumber daya untuk produk data mencakup semua layanan yang diperlukan untuk membuat dan memeliharanya. Kita dapat menyebut grup sumber daya ini sebagai aplikasi data. Contoh layanan yang mungkin merupakan bagian dari aplikasi data termasuk Azure Functions, Azure App Service, Logic Apps, Azure Analysis Services, Azure Cognitive Services, Azure Pembelajaran Mesin, Azure SQL Database, Azure Database for MySQL, dan Azure Cosmos DB. Untuk informasi selengkapnya, lihat sampel aplikasi data.

Produk data memiliki data dari sumber data READ yang telah menerapkan beberapa transformasi data. Contohnya mungkin himpunan data yang baru dikumpulkan atau laporan BI.

Rekomendasi desain

Bangun produk data dalam zona pendaratan data Anda dengan mematuhi prinsip desain yang memungkinkan Anda menskalakan dengan tata kelola data. Bagian berikut memberikan rekomendasi desain untuk membantu saat Anda merencanakan ekosistem aplikasi data Anda.

Menyebarkan beberapa grup sumber daya

Setiap aplikasi data adalah grup sumber daya. Karena aplikasi data adalah layanan komputasi, layanan persistensi poliglot, atau keduanya, aplikasi tersebut hanya dapat diperlukan tergantung pada kasus penggunaan tertentu. Dengan demikian, mereka dianggap sebagai komponen zona pendaratan data opsional. Dalam kasus di mana Anda memerlukan aplikasi data, buat beberapa grup sumber daya menurut aplikasi data seperti yang ditunjukkan oleh diagram berikut.

Diagram grup sumber daya aplikasi data.

Mengatur pagar pembatas

Azure Policy mendorong konfigurasi default layanan dalam zona pendaratan data. Anggap analitik operasional sebagai beberapa grup sumber daya yang dapat diminta tim produk data Anda dari katalog layanan standar. Dengan menggunakan Azure Policy, Anda dapat mengonfigurasi batas keamanan dan kumpulan fitur yang diperlukan.

Penting

Untuk mendorong konsistensi, konfigurasikan satu Azure Policy untuk setiap aplikasi data.

Mengonsumsi data dari beberapa tempat

Aplikasi data mengelola, mengatur, dan memahami data dari beberapa aset data dan menyajikan wawasan apa pun yang diperoleh. Produk data adalah hasil data dari satu atau banyak aplikasi data dalam zona pendaratan data. Izinkan aplikasi data Anda mengakses data dari berbagai sumber jika diperlukan.

Menskalakan sesuai kebutuhan

Layanan yang membentuk aplikasi data adalah penyebaran bertahap ke zona pendaratan data. Skalakan aplikasi data Anda sesuai kebutuhan.

Mendukung penemuan data

Daftarkan produk data Anda secara otomatis dalam katalog data seperti Azure Purview untuk mengizinkan pemindaian data.

Identifikasi produk data Anda

Saat mulai merencanakan zona pendaratan data, identifikasi sebanyak mungkin produk data (dan aplikasi data yang menghasilkan dan memeliharanya) seperlunya untuk membantu mendorong arsitektur aplikasi produk data Anda. Kesuaian dengan tata kelola platform yang diterapkan harus memainkan peran terbesar dalam keputusan Anda.

Fokus pada bagaimana aplikasi data Anda adalah produsen data dan konsumen untuk orang lain. Misalnya, asumsikan Anda telah mengidentifikasi serangkaian produk data (A, B, C, dan D) yang diproduksi dan dikonsumsi data. Anda memerlukan produk data A dan D sebagai sumber untuk data dalam Aplikasi Data B untuk produk data B. Produk data B dibuat dari data yang dikonsumsi Aplikasi Data B dari produk data A dan D. Aplikasi Data B bertindak sebagai produsen data itu sendiri, dan juga menghasilkan data untuk produk data C.

Diagram produsen dan konsumen data.

Mengontrol lingkungan aplikasi data Anda dengan infrastruktur sebagai kode

Tata kelola dan infrastruktur sebagai kode harus mengontrol lingkungan aplikasi data di seluruh ekosistem produk data Anda, seperti yang ditunjukkan pada diagram sebelumnya.

Menerbitkan model data

Tim produk data Anda harus menerbitkan model data mereka dalam repositori pemodelan.

Menetapkan harapan untuk pengguna produk data

Perbarui kontrak berbagi data Anda dengan perjanjian dan sertifikasi tingkat layanan untuk produk data Anda sehingga Anda dapat menyampaikan harapan yang akurat kepada calon pengguna produk data.

Mengambil silsilah

Jika produk data B dibuat dari data yang berasal dari produk data A dan D, silsilah data harus diambil dari A dan D ke B. Silsilah data lebih lanjut juga harus diambil untuk produk data C, karena dibuat menggunakan data dari produk data B. Silsilah data yang diperbarui harus diambil dalam aplikasi silsilah data sebelum setiap rilis produk data Anda.

Catatan

Menggunakan Azure Pipelines memungkinkan Anda membangun gerbang persetujuan dan memanggil fungsi yang dapat memastikan metadata, silsilah data, dan SLA terdaftar dalam layanan tata kelola yang benar.

Menentukan arsitektur aplikasi data

Anda harus membuat arsitektur terperinci untuk setiap produk data yang sepenuhnya menentukan hubungannya dengan produk data lain, dependensinya, dan persyaratan aksesnya.

Contoh skenario desain

Untuk memahami proses definisi arsitektur, jelajahi contoh lembaga keuangan berikut dan produk data pemantauan kreditnya.

Diagram arsitektur define-data-product secara rinci.

Produk data pemantauan kredit yang ditunjukkan dalam diagram ini mengonsumsi data dari penyimpanan data baca yang telah diserap oleh tim operasi integrasi. Ini menghasilkan produk data yang juga dikonsumsi oleh dua produk data lainnya.

Catatan

Sumber atau penyimpanan data baca juga dikenal sebagai sumber rekaman emas. Sumber data ini telah dibersihkan tetapi belum memiliki transformasi apa pun yang diterapkan padanya.

Tim produk data pemantauan kredit meminta akses baca untuk membaca penyimpanan data yang mereka butuhkan untuk pembuatan produk data mereka. Permintaan mereka dirutekan ke pemilik data untuk disetujui. Setelah mereka menerima persetujuan, tim produk dapat mulai membangun aplikasi data mereka.

Data dari sumber data baca diubah menjadi produk data pemantauan kredit. Setiap produk data baru disimpan di lapisan yang dikumpulkan data lake. Produk data baru ini dan silsilah data baru harus didaftarkan sebagai bagian dari proses penyebaran DevOps. Fungsi dapat memeriksa metadata terdaftar dengan struktur fisik aset data. Ini harus mendaftarkan dependensi pada aset data sumber data baca dan produk data.

Tim produk data persetujuan pinjaman memiliki dependensi pada beberapa produk data pemantauan kredit. Tim persetujuan pinjaman mungkin meminta akses baca ke produk data pemantauan kredit yang mereka butuhkan untuk produk data mereka. Setelah mereka merilis produk data persetujuan pinjaman dan aplikasi datanya, semua aset produk data, silsilah data, dan model harus didaftarkan dalam layanan tata kelola yang relevan.

Aplikasi data sampel

Bagian berikut berisi aplikasi data sampel untuk mengilustrasikan skenario aplikasi data lebih lanjut.

Analitik data dan aplikasi data sains data

Aplikasi untuk analitik data dan ilmu data mungkin berisi layanan yang ditampilkan dalam aplikasi product-analytics-rgdata sampel .

Diagram yang menampilkan kemungkinan layanan yang dapat dipilih untuk Penyebaran Aplikasi Data Analitik.

Catatan

Anda dapat menggunakan aplikasi data sebelumnya sebagai templat. Templat ini menyebarkan sekumpulan layanan yang dapat Anda gunakan untuk analitik data dan ilmu data. Anda dapat menggunakan templat aplikasi produk data ini untuk membuat lingkungan dengan cepat untuk tim lintas fungsi. Anda harus secara eksplisit menonaktifkan layanan apa pun yang tidak Anda perlukan.

Templat Data Product Analytics berisi semua templat untuk menyebarkan produk data untuk analitik dan ilmu data di dalam zona pendaratan data skenario analitik skala cloud.

Penyebaran dan artefak kode mencakup layanan berikut:

Aplikasi Data Batch

Templat Aplikasi Data Batch berisi semua templat untuk menyebarkan produk data untuk pemrosesan data batch di dalam zona pendaratan data skenario analitik skala cloud.

Penyebaran dan artefak kode mencakup layanan berikut:

Diagram yang memperlihatkan kemungkinan layanan yang dapat dipilih untuk Penyebaran Aplikasi Data Batch.

Aplikasi Data Streaming

Templat Aplikasi Data Streaming berisi semua templat untuk menyebarkan produk data untuk pemrosesan data real time di dalam zona pendaratan data skenario analitik skala cloud

Penyebaran dan artefak kode mencakup layanan berikut:

Diagram yang memperlihatkan kemungkinan layanan yang dapat dipilih untuk Penyebaran Aplikasi Data Streaming.

Untuk menemukan repositori yang berisi templat penyebaran yang disebutkan sebelumnya, lihat templat penyebaran untuk analitik skala cloud

Langkah berikutnya

Aplikasi data (selaras dengan sumber)