Bagikan melalui


Metodologi keberhasilan implementasi Synapse: Mengevaluasi desain ruang kerja

Catatan

Artikel ini merupakan bagian dari rangkaian artikel Keberhasilan implementasi Azure Synapse berdasarkan desain. Untuk melihat ringkasan rangkaian ini, lihat Keberhasilan implementasi Azure Synapse berdasarkan desain.

Ruang kerja Synapse adalah pengalaman pengguna grafis terpadu yang menyatukan mesin analitik dan pemrosesan data, data lake, database, tabel, himpunan data, dan artefak pelaporan bersamaan dengan orkestrasi kode dan proses. Dengan mempertimbangkan jumlah teknologi dan layanan yang diintegrasikan ke dalam ruang kerja Synapse, pastikan bahwa komponen utama disertakan dalam desain Anda.

Ulasan desain ruang kerja Synapse

Lakukan identifikasi apakah desain solusi Anda melibatkan satu atau beberapa ruang kerja Synapse. Tentukan pendorong desain ini. Meskipun mungkin ada perbedaan, dalam kebanyakan kasus, alasan seseorang melibatkan beberapa ruang kerja adalah untuk memisahkan keamanan atau penagihan. Saat menentukan jumlah ruang kerja dan batas database, perlu diingat bahwa setiap langganan dibatasi maksimal 20 ruang kerja.

Lakukan identifikasi elemen atau layanan mana dalam setiap ruang kerja yang perlu dibagikan dan dengan sumber daya mana. Sumber daya dapat mencakup data lake, runtime integrasi (IR), metadata atau konfigurasi, dan kode. Tentukan mengapa desain khusus ini dipilih dalam hal sinergi potensial. Tanyakan pada diri sendiri apakah sinergi ini sesuai dengan biaya tambahan dan manajemen berlebih.

Peninjauan desain data lake

Kami menyarankan agar data lake (jika termasuk bagian dari solusi Anda) diberi peringkat dengan benar. Anda harus membagi data lake Anda menjadi tiga area utama yang terkait dengan himpunan data Perunggu, Perak, dan Emas. Perunggu - atau lapisan mentah - mungkin berada di akun penyimpanan terpisahnya sendiri karena memiliki kontrol akses yang lebih ketat karena mungkin menyimpan data sensitif yang tidak ditutupi.

Peninjauan desain keamanan

Tinjau desain keamanan untuk ruang kerja dan bandingkan dengan informasi yang Anda kumpulkan selama penilaian. Pastikan semua persyaratan terpenuhi, dan semua batasan telah dipertimbangkan. Untuk kemudahan manajemen, sebaiknya pengguna diatur ke dalam grup dengan pembuatan profil izin yang sesuai: Anda dapat menyederhanakan kontrol akses dengan menggunakan kelompok keamanan yang selaras dengan peran. Dengan begitu, administrator jaringan dapat menambahkan atau menghapus pengguna dari kelompok keamanan yang sesuai untuk mengelola akses.

Kumpulan SQL tanpa server dan tabel Apache Spark menyimpan datanya dalam kontainer Azure Data Lake Gen2 (ADLS Gen2) yang sudah dikaitkan dengan ruang kerja. Pustaka Apache Spark yang diinstal pengguna juga dikelola di akun penyimpanan yang sama. Untuk mengaktifkan kasus penggunaan ini, pengguna dan identitas layanan terkelola (MSI) ruang kerja harus ditambahkan ke peran Kontributor Data Blob Penyimpanan dari kontainer penyimpanan ADLS Gen2. Verifikasikan persyaratan ini terhadap persyaratan keamanan Anda.

Kumpulan SQL khusus menyediakan serangkaian fitur keamanan yang kaya untuk mengenkripsi dan menutupi data sensitif. Kumpulan SQL khusus dan tanpa server memungkinkan area permukaan penuh izin SQL Server termasuk peran bawaan, peran yang ditentukan pengguna, autentikasi SQL, dan autentikasi Microsoft Entra. Tinjau desain keamanan untuk kumpulan SQL khusus solusi Anda serta akses dan data kumpulan SQL tanpa server.

Tinjau rencana keamanan untuk data lake Anda dan semua akun penyimpanan ADLS Gen2 (dan lainnya) yang akan menjadi bagian dari solusi Azure Synapse Analytics Anda. Penyimpanan ADLS Gen2 sendiri bukan merupakan mesin komputasi, sehingga tidak memiliki kemampuan bawaan untuk secara selektif menutupi atribut data. Anda dapat menerapkan izin ADLS Gen2 di akun penyimpanan atau tingkat kontainer dengan menggunakan kontrol akses berbasis peran (RBAC) dan/atau di tingkat folder atau file dengan menggunakan daftar kontrol akses (ACL). Tinjau desain dengan hati-hati dan usahakan untuk menghindari kerumitan yang tidak perlu.

Berikut adalah beberapa poin yang perlu dipertimbangkan untuk desain keamanan.

  • Pastikan persyaratan penyiapan ID Microsoft Entra disertakan dalam desain.
  • Periksa skenario lintas penyewa. Masalah tersebut mungkin muncul karena beberapa data berada di penyewa Azure lain, atau perlu dipindahkan ke penyewa lain, atau perlu diakses oleh pengguna dari penyewa lain. Pastikan untuk mempertimbangkan skenario ini untuk desain Anda.
  • Apa saja peran setiap ruang kerja? Bagaimana peran tersebut akan menggunakan ruang kerja?
  • Bagaimana desain keamanan dalam ruang kerja?
    • Siapa yang dapat menampilkan semua skrip, buku catatan, dan alur?
    • Siapa yang dapat menjalankan skrip dan alur?
    • Siapa yang dapat membuat/menjeda/melanjutkan kumpulan SQL dan Spark?
    • Siapa yang dapat menerbitkan perubahan ke ruang kerja?
    • Siapa yang dapat melakukan perubahan pada kontrol sumber?
  • Apakah alur akan mengakses data dengan menggunakan kredensial tersimpan atau identitas terkelola ruang kerja?
  • Apakah pengguna memiliki akses yang sesuai ke data lake untuk menelusuri data di Synapse Studio?
  • Apakah data lake diamankan dengan benar dengan menggunakan kombinasi RBAC dan ACL yang sesuai?
  • Apakah izin pengguna kumpulan SQL telah diatur dengan benar untuk setiap peran (ilmuwan data, pengembang, administrator, pengguna bisnis, dan lainnya)?

Peninjauan desain jaringan

Berikut adalah beberapa poin yang perlu dipertimbangkan untuk desain jaringan.

  • Apakah konektivitas dirancang di antara semua sumber daya?
  • Apa mekanisme jaringan yang akan digunakan (Azure ExpressRoute, internet publik, atau titik akhir privat)?
  • Apakah Anda harus dapat tersambung dengan aman ke Synapse Studio?
  • Apakah penyelundupan data telah dipertimbangkan?
  • Apakah Anda perlu menyambungkan ke sumber data lokal?
  • Apakah Anda perlu tersambung ke sumber data cloud atau mesin komputasi lainnya, seperti Azure Machine Learning?
  • Apakah komponen jaringan Azure, seperti kelompok keamanan jaringan (NSG), telah ditinjau untuk konektivitas dan pergerakan data yang tepat?
  • Apakah integrasi dengan zona DNS privat telah dipertimbangkan?
  • Apakah Anda harus dapat menelusuri data lake dari dalam Synapse Studio atau hanya mengirim kueri data di data lake dengan SQL tanpa server atau PolyBase?

Terakhir, lakukan identifikasi semua konsumen data Anda dan verifikasi bahwa konektivitas mereka telah dipertimbangkan dalam desain. Periksa apakah pos-pos jaringan dan keamanan memungkinkan layanan Anda mengakses sumber lokal yang diperlukan dan protokol serta mekanisme autentikasinya didukung. Dalam beberapa skenario, Anda mungkin perlu memiliki lebih dari satu gateway data atau IR yang dihost sendiri untuk solusi SaaS, seperti Microsoft Power BI.

Peninjauan desain pemantauan

Tinjau desain pemantauan komponen Azure Synapse untuk memastikan mereka memenuhi persyaratan dan harapan yang diidentifikasi selama penilaian. Verifikasikan bahwa pemantauan sumber daya dan akses data telah dirancang, dan bahwa pemantauan tersebut mengidentifikasi setiap persyaratan pemantauan. Solusi pemantauan yang kuat harus diberlakukan sebagai bagian dari penyebaran pertama ke produksi. Dengan begitu, kegagalan dapat diidentifikasi, didiagnosis, dan ditangani secara tepat waktu. Selain infrastruktur dasar dan eksekusi alur, data juga harus dipantau. Bergantung pada komponen Azure Synapse yang digunakan, lakukan identifikasi persyaratan pemantauan untuk setiap komponen. Misalnya, jika kumpulan Spark membentuk bagian dari solusi, pantau penyimpanan rekaman yang salah format. 

Berikut adalah beberapa poin yang perlu dipertimbangkan untuk desain pemantauan.

  • Siapa yang dapat memantau setiap jenis sumber daya (alur, kumpulan, dan lainnya)?
  • Berapa lama log aktivitas database perlu dipertahankan?
  • Apakah ruang kerja dan retensi log database akan menggunakan Analitik Log atau Azure Storage?
  • Apakah pemberitahuan akan dipicu jika terjadi kesalahan alur? Jika demikian, siapa yang harus diberi tahu?
  • Pada tingkat ambang batas kumpulan SQL apa pemberitahuan perlu dipicu? Siapa yang harus diberi tahu?

Peninjauan desain kontrol sumber

Secara default, ruang kerja Synapse menerapkan perubahan langsung ke layanan Synapse dengan menggunakan fungsi penerbitan bawaan. Anda dapat mengaktifkan integrasi kontrol sumber, yang memberikan banyak keuntungan. Keuntungannya termasuk kolaborasi, implementasi versi, persetujuan, dan alur rilis yang lebih baik untuk mempromosikan perubahan pada lingkungan pengembangan, pengujian, dan produksi. Azure Synapse memungkinkan satu repositori kontrol sumber per ruang kerja, yang dapat berupa Azure DevOps Git atau GitHub.

Berikut adalah beberapa poin yang perlu dipertimbangkan untuk desain kontrol sumber.

  • Jika menggunakan Azure DevOps Git, apakah ruang kerja Synapse dan repositorinya berada di penyewa yang sama?
  • Siapa yang akan dapat mengakses kontrol sumber?
  • Apa izin yang akan diterima setiap pengguna di kontrol sumber?
  • Apakah strategi percabangan dan penggabungan telah dibuat?
  • Apakah alur rilis akan dikembangkan untuk penyebaran ke lingkungan yang berbeda?
  • Apakah proses persetujuan akan digunakan untuk penggabungan dan untuk alur rilis?

Catatan

Desain lingkungan pengembangan sangat penting untuk keberhasilan proyek Anda. Jika lingkungan pengembangan telah dirancang, lingkungan tersebut akan dievaluasi pada tahapan terpisah dari metodologi ini.

Langkah berikutnya

Pada artikel berikutnya dalam rangkaian Keberhasilan Azure Synapse berdasarkan desain, pelajari cara mengevaluasi desain integrasi data dan memvalidasi bahwa desain tersebut telah memenuhi pedoman dan persyaratan.