Produk data analitik skala cloud di Azure
Produk data dilayani sebagai produk dan dihitung, disimpan, dan dilayani oleh layanan persistensi poliglot, yang dapat diperlukan oleh kasus penggunaan tertentu. Proses pembuatan dan penyajian produk data dapat memerlukan layanan dan teknologi yang tidak termasuk dalam layanan inti zona pendaratan data. Contohnya adalah melaporkan dengan persyaratan niche, seperti kepatuhan dan pelaporan pajak.
Pertimbangan Desain
Zona pendaratan data dapat dilayani beberapa produk data yang dibuat dengan menyerap data dari dalam zona pendaratan data yang sama atau dari beberapa zona pendaratan data. Ini diperlihatkan dalam diagram berikut.
Contoh di atas menunjukkan:
- Konsumsi data intrazon:
- Produk data B mengonsumsi data dari produk data A dan data atau produk data lainnya yang ada di data lake dalam zona pendaratannya sendiri.
- Produk data C dan D hanya mengonsumsi data dari dalam zona pendaratan data masing-masing.
- Konsumsi data interzone:
- Produk data B juga mengonsumsi data dari produk data C dan data di data lake zona pendaratan 3.
Penting
Dalam kasus konsumsi data interzon, karena produk data B dibuat dengan membaca dari zona pendaratan data 3, akses baca ini memerlukan persetujuan dari operasi zona pendaratan data dan tim operasi integrasi zona pendaratan data 3.
Penting
Produk data B mengonsumsi data dari produk data A dan C. Sebelum ini dapat terjadi, produk data B harus mendaftarkan konsumsi produk datanya melalui perjanjian berbagi data. Perjanjian berbagi data ini harus memperbarui garis silsilah dari produk data A ke produk data B dan dari produk data C ke produk data B.
Grup sumber daya untuk produk data mencakup semua layanan yang diperlukan untuk membuat dan memeliharanya. Kita dapat menyebut grup sumber daya ini sebagai aplikasi data. Contoh layanan yang mungkin merupakan bagian dari aplikasi data termasuk Azure Functions, Azure App Service, Logic Apps, Azure Analysis Services, Azure Cognitive Services, Azure Pembelajaran Mesin, Azure SQL Database, Azure Database for MySQL, dan Azure Cosmos DB. Untuk informasi selengkapnya, lihat sampel aplikasi data.
Produk data memiliki data dari sumber data READ yang telah menerapkan beberapa transformasi data. Contohnya mungkin himpunan data yang baru dikumpulkan atau laporan BI.
Rekomendasi desain
Bangun produk data dalam zona pendaratan data Anda dengan mematuhi prinsip desain yang memungkinkan Anda menskalakan dengan tata kelola data. Bagian berikut memberikan rekomendasi desain untuk membantu saat Anda merencanakan ekosistem aplikasi data Anda.
Menyebarkan beberapa grup sumber daya
Setiap aplikasi data adalah grup sumber daya. Karena aplikasi data adalah layanan komputasi, layanan persistensi poliglot, atau keduanya, aplikasi tersebut hanya dapat diperlukan tergantung pada kasus penggunaan tertentu. Dengan demikian, mereka dianggap sebagai komponen zona pendaratan data opsional. Dalam kasus di mana Anda memerlukan aplikasi data, buat beberapa grup sumber daya menurut aplikasi data seperti yang ditunjukkan oleh diagram berikut.
Mengatur pagar pembatas
Azure Policy mendorong konfigurasi default layanan dalam zona pendaratan data. Anggap analitik operasional sebagai beberapa grup sumber daya yang dapat diminta tim produk data Anda dari katalog layanan standar. Dengan menggunakan Azure Policy, Anda dapat mengonfigurasi batas keamanan dan kumpulan fitur yang diperlukan.
Penting
Untuk mendorong konsistensi, konfigurasikan satu Azure Policy untuk setiap aplikasi data.
Mengonsumsi data dari beberapa tempat
Aplikasi data mengelola, mengatur, dan memahami data dari beberapa aset data dan menyajikan wawasan apa pun yang diperoleh. Produk data adalah hasil data dari satu atau banyak aplikasi data dalam zona pendaratan data. Izinkan aplikasi data Anda mengakses data dari berbagai sumber jika diperlukan.
Menskalakan sesuai kebutuhan
Layanan yang membentuk aplikasi data adalah penyebaran bertahap ke zona pendaratan data. Skalakan aplikasi data Anda sesuai kebutuhan.
Mendukung penemuan data
Daftarkan produk data Anda secara otomatis dalam katalog data seperti Azure Purview untuk mengizinkan pemindaian data.
Identifikasi produk data Anda
Saat mulai merencanakan zona pendaratan data, identifikasi sebanyak mungkin produk data (dan aplikasi data yang menghasilkan dan memeliharanya) seperlunya untuk membantu mendorong arsitektur aplikasi produk data Anda. Kesuaian dengan tata kelola platform yang diterapkan harus memainkan peran terbesar dalam keputusan Anda.
Fokus pada bagaimana aplikasi data Anda adalah produsen data dan konsumen untuk orang lain. Misalnya, asumsikan Anda telah mengidentifikasi serangkaian produk data (A, B, C, dan D) yang diproduksi dan dikonsumsi data. Anda memerlukan produk data A dan D sebagai sumber untuk data dalam Aplikasi Data B untuk produk data B. Produk data B dibuat dari data yang dikonsumsi Aplikasi Data B dari produk data A dan D. Aplikasi Data B bertindak sebagai produsen data itu sendiri, dan juga menghasilkan data untuk produk data C.
Mengontrol lingkungan aplikasi data Anda dengan infrastruktur sebagai kode
Tata kelola dan infrastruktur sebagai kode harus mengontrol lingkungan aplikasi data di seluruh ekosistem produk data Anda, seperti yang ditunjukkan pada diagram sebelumnya.
Menerbitkan model data
Tim produk data Anda harus menerbitkan model data mereka dalam repositori pemodelan.
Menetapkan harapan untuk pengguna produk data
Perbarui kontrak berbagi data Anda dengan perjanjian dan sertifikasi tingkat layanan untuk produk data Anda sehingga Anda dapat menyampaikan harapan yang akurat kepada calon pengguna produk data.
Mengambil silsilah
Jika produk data B dibuat dari data yang berasal dari produk data A dan D, silsilah data harus diambil dari A dan D ke B. Silsilah data lebih lanjut juga harus diambil untuk produk data C, karena dibuat menggunakan data dari produk data B. Silsilah data yang diperbarui harus diambil dalam aplikasi silsilah data sebelum setiap rilis produk data Anda.
Catatan
Menggunakan Azure Pipelines memungkinkan Anda membangun gerbang persetujuan dan memanggil fungsi yang dapat memastikan metadata, silsilah data, dan SLA terdaftar dalam layanan tata kelola yang benar.
Menentukan arsitektur aplikasi data
Anda harus membuat arsitektur terperinci untuk setiap produk data yang sepenuhnya menentukan hubungannya dengan produk data lain, dependensinya, dan persyaratan aksesnya.
Contoh skenario desain
Untuk memahami proses definisi arsitektur, jelajahi contoh lembaga keuangan berikut dan produk data pemantauan kreditnya.
Produk data pemantauan kredit yang ditunjukkan dalam diagram ini mengonsumsi data dari penyimpanan data baca yang telah diserap oleh tim operasi integrasi. Ini menghasilkan produk data yang juga dikonsumsi oleh dua produk data lainnya.
Catatan
Sumber atau penyimpanan data baca juga dikenal sebagai sumber rekaman emas. Sumber data ini telah dibersihkan tetapi belum memiliki transformasi apa pun yang diterapkan padanya.
Tim produk data pemantauan kredit meminta akses baca untuk membaca penyimpanan data yang mereka butuhkan untuk pembuatan produk data mereka. Permintaan mereka dirutekan ke pemilik data untuk disetujui. Setelah mereka menerima persetujuan, tim produk dapat mulai membangun aplikasi data mereka.
Data dari sumber data baca diubah menjadi produk data pemantauan kredit. Setiap produk data baru disimpan di lapisan yang dikumpulkan data lake. Produk data baru ini dan silsilah data baru harus didaftarkan sebagai bagian dari proses penyebaran DevOps. Fungsi dapat memeriksa metadata terdaftar dengan struktur fisik aset data. Ini harus mendaftarkan dependensi pada aset data sumber data baca dan produk data.
Tim produk data persetujuan pinjaman memiliki dependensi pada beberapa produk data pemantauan kredit. Tim persetujuan pinjaman mungkin meminta akses baca ke produk data pemantauan kredit yang mereka butuhkan untuk produk data mereka. Setelah mereka merilis produk data persetujuan pinjaman dan aplikasi datanya, semua aset produk data, silsilah data, dan model harus didaftarkan dalam layanan tata kelola yang relevan.
Aplikasi data sampel
Bagian berikut berisi aplikasi data sampel untuk mengilustrasikan skenario aplikasi data lebih lanjut.
Analitik data dan aplikasi data sains data
Aplikasi untuk analitik data dan ilmu data mungkin berisi layanan yang ditampilkan dalam aplikasi product-analytics-rg
data sampel .
Catatan
Anda dapat menggunakan aplikasi data sebelumnya sebagai templat. Templat ini menyebarkan sekumpulan layanan yang dapat Anda gunakan untuk analitik data dan ilmu data. Anda dapat menggunakan templat aplikasi produk data ini untuk membuat lingkungan dengan cepat untuk tim lintas fungsi. Anda harus secara eksplisit menonaktifkan layanan apa pun yang tidak Anda perlukan.
Templat Data Product Analytics berisi semua templat untuk menyebarkan produk data untuk analitik dan ilmu data di dalam zona pendaratan data skenario analitik skala cloud.
Penyebaran dan artefak kode mencakup layanan berikut:
- Pembelajaran Mesin
- Key Vault
- Application Insights
- Penyimpanan
- Container Registry
- Cognitive Services (opsional)
- Data Factory (pilih antara Data Factory dan Synapse)
- Ruang Kerja Synapse (pilih antara Data Factory dan Synapse)
- Azure Search (opsional)
- Kumpulan SQL (opsional)
- Kumpulan BigData (opsional)
Aplikasi Data Batch
Templat Aplikasi Data Batch berisi semua templat untuk menyebarkan produk data untuk pemrosesan data batch di dalam zona pendaratan data skenario analitik skala cloud.
Penyebaran dan artefak kode mencakup layanan berikut:
- Key Vault
- Data Factory (pilih antara Data Factory dan Synapse)
- Azure Cosmos DB (opsional)
- Ruang Kerja Synapse (pilih antara Data Factory dan Synapse)
- Database MySQL (opsional)
- Azure SQL Database (opsional)
- Database PostgreSQL (opsional)
- Database MariaDB (opsional)
- Kumpulan SQL (opsional)
- SQL Server (opsional)
- Kumpulan Elastis SQL (opsional)
- Kumpulan BigData
Aplikasi Data Streaming
Templat Aplikasi Data Streaming berisi semua templat untuk menyebarkan produk data untuk pemrosesan data real time di dalam zona pendaratan data skenario analitik skala cloud
Penyebaran dan artefak kode mencakup layanan berikut:
- Key Vault
- Event Hubs
- Pusat IoT
- Azure Stream Analytics (opsional)
- Azure Cosmos DB (opsional)
- Ruang Kerja Synapse
- Azure SQL Database (opsional)
- Kumpulan SQL (opsional)
- SQL Server (opsional)
- Kumpulan Elastis SQL (opsional)
- Kumpulan BigData
- Data Explorer (opsional)
Untuk menemukan repositori yang berisi templat penyebaran yang disebutkan sebelumnya, lihat templat penyebaran untuk analitik skala cloud