Bagikan melalui


Tanya jawab umum tentang analitik skala cloud

Berikut ini adalah pertanyaan umum yang diajukan tentang analitik skala cloud.

Akun penyimpanan

Mengapa saya memerlukan tiga akun penyimpanan terpisah? Tidak bisakah saya hanya memiliki satu dengan tiga kontainer untuk setiap lapisan (mentah, tersaring, dan terkumpul)?

Sebagian besar pola analisis data saat ini ada dengan tiga lapisan mentah, tersaring, dan terkumpul. Meskipun mereka dapat disimpan dalam penyimpanan yang sama, ketika terkait dengan implementasi berskala besar, hal ini menciptakan masalah dengan melebihi jumlah izin kontrol akses berbasis peran (RBAC) dan daftar kontrol akses (ACL) dari yang diizinkan yang tersedia dalam satu akun penyimpanan. Saat Anda menggunakan akun penyimpanan terpisah, sebagian besar implementasi dapat menghindari masalah ini.

Alasan lain dibahas dalam Ringkasan Azure Data Lake Storage untuk analitik skala cloud.

Databricks

Haruskah kita menyebarkan ruang kerja Azure Databricks per produk?

Rekomendasinya ialah menggunakan analitik produk bersama Azure Databricks dan ruang kerja ilmu data di dalam zona pendaratan.

Keputusan ini telah dibuat untuk mengurangi overhead manajemen untuk tim operasi platform data. Azure Databricks memiliki set kebijakan yang berdiri sendiri yang tidak terintegrasi ke dalam kebijakan Azure. Di lingkungan yang besar, penyiapan lebih banyak ruang kerja Azure Databricks membuat lebih banyak overhead manajemen. Misalnya, mempertahankan kebijakan dan mendukung versi Apache Hive, memperbarui versi ADB, dan menegakkan metastore Apache Hive eksternal. Tidak mungkin tim platform pusat dapat menerapkan pengaturan tertentu di dalam salah satu ruang kerja Databricks. Sebaiknya memiliki ruang kerja bersama untuk tim produk di zona pendaratan, tempat tim ops platform data kemudian dapat menentukan kebijakan kluster dan skrip inisialisasi yang diperlukan.

Sebaiknya gunakan peering VNet antara zona pendaratan dan titik akhir privat. Untuk Azure Databricks, gunakan injeksi VNet. Karena terdapat garis pandang langsung ke semua titik akhir, tidak ada masalah konektivitas.

Langkah berikutnya

Proses penyerapan dengan analitik skala cloud di Azure