Gambaran umum Azure Data Lake Storage untuk analitik skala cloud

Azure Data Lake adalah penyimpanan data yang dapat diskalakan dan aman secara besar-besaran untuk beban kerja analitik berkinerja tinggi. Anda dapat membuat akun penyimpanan dalam satu grup sumber daya untuk analitik skala cloud. Sebaiknya provisikan tiga akun Azure Data Lake Storage Gen2 dalam satu grup sumber daya yang mirip storage-rg dengan grup sumber daya yang dijelaskan dalam artikel gambaran umum zona pendaratan data arsitektur analitik skala cloud.

Setiap akun penyimpanan dalam zona pendaratan data Anda menyimpan data dalam salah satu dari tiga tahap:

  • Data mentah
  • Data yang diperkaya dan dikumpulkan
  • Data lake pengembangan

Aplikasi data dapat menggunakan data yang diperkaya dan dikumpulkan dari akun penyimpanan yang telah diserap layanan penyerapan agnostik data otomatis. Anda dapat membuat aplikasi data yang selaras dengan sumber jika Anda tidak menerapkan mesin agnostik data atau memfasilitasi koneksi kompleks untuk menyerap data dari sumber operasional. Aplikasi data ini mengikuti alur yang sama dengan mesin agnostik data saat menyerap data dari sumber data eksternal.

Data Lake Storage Gen2 mendukung daftar kontrol akses (ACL) berbahan halus yang melindungi data di tingkat file dan folder. Daftar kontrol akses dapat membantu organisasi Anda menerapkan langkah-langkah keamanan yang ketat untuk autentikasi dan otorisasi untuk produk data untuk:

  • Simpan data dengan aman melalui enkripsi saat tidak aktif.
  • Kontrol akses untuk pengguna Microsoft Entra dan grup keamanan melalui integrasi Microsoft Entra.

Perencanaan {i>data lake

Saat Anda merencanakan data lake, selalu pertimbangkan pertimbangan yang tepat untuk struktur, tata kelola, dan keamanan. Beberapa faktor memengaruhi struktur dan organisasi setiap data lake:

  • Jenis data yang disimpan
  • Bagaimana datanya diubah
  • Siapa mengakses datanya
  • Apa pola akses khasnya

Konsumen dan produsen grup berdasarkan kebutuhan akses data mereka. Sebaiknya rencanakan implementasi dan tata kelola kontrol akses di seluruh data lake Anda.

Jika data lake Anda berisi beberapa aset data dan proses otomatis seperti ekstrak, transformasi, pemuatan (ETL) offloading, perencanaan Anda kemungkinan cukup mudah. Jika data lake Anda berisi ratusan aset data dan melibatkan interaksi otomatis dan manual, harap habiskan perencanaan waktu yang lebih lama, karena Anda akan membutuhkan lebih banyak kolaborasi dari pemilik data.

Analogi rawa data

Rawa data adalah data lake yang tidak dikelola yang hampir tidak dapat diakses oleh pengguna. Rawa data terjadi saat Anda tidak menerapkan kualitas data dan langkah-langkah tata kelola data. Terkadang Anda dapat melihat rawa data di gudang data dengan model hibrid yang ada.

Tata kelola dan organisasi yang tepat mencegah rawa data. Ketika Anda membangun fondasi yang kuat untuk data lake Anda, itu meningkatkan peluang Anda untuk keberhasilan data lake berkelanjutan dan nilai bisnis.

Seiring bertambahnya ukuran, kompleksitas, jumlah aset data, dan jumlah pengguna atau departemen data lake Anda, semakin penting bagi Anda untuk memiliki sistem katalog data yang kuat. Sistem katalog data Anda memastikan bahwa pengguna Anda dapat menemukan, menandai, dan mengklasifikasikan data saat mereka memproses, menggunakan, dan mengatur data lake Anda.

Untuk informasi selengkapnya, lihat gambaran umum tata kelola data.

Akun penyimpanan di data lake logis

Pertimbangkan apakah organisasi Anda membutuhkan satu atau banyak akun penyimpanan, dan pertimbangkan sistem file apa yang Anda butuhkan untuk membangun data lake logis Anda. Teknologi penyimpanan tunggal menyediakan beberapa metode akses data dan membantu Anda menstandarkan di seluruh organisasi Anda.

Data Lake Storage Gen2 adalah platform as a service (PaaS) yang dikelola sepenuhnya. Beberapa akun penyimpanan atau sistem file tidak dapat dikenakan biaya moneter hingga data diakses atau disimpan. Perhatikan bahwa setiap sumber daya Azure memiliki overhead administratif dan operasional terkait selama provisi, keamanan, dan tata kelola, termasuk pencadangan dan pemulihan bencana.

Catatan

Tiga data lake diilustrasikan di setiap zona pendaratan data. Namun, tergantung pada kebutuhan Anda, Anda mungkin dapat mengonsolidasikan lapisan mentah, diperkaya, dan dikumpulkan ke dalam satu akun penyimpanan. Anda dapat membuat akun penyimpanan lain yang disebut 'pengembangan' di mana konsumen data dapat membawa produk data berguna lainnya.

Pertimbangkan faktor-faktor berikut saat memutuskan antara pendekatan akun penyimpanan terkonsolidasi atau tiga:

  • Isolasi lingkungan data dan prediksi
    • Anda mungkin mengisolasi aktivitas yang berjalan di zona mentah dan pengembangan untuk menghindari efek potensial pada zona yang dikumpulkan, yang menyimpan data dengan nilai bisnis besar yang diperlukan untuk pengambilan keputusan penting
  • Fitur dan fungsionalitas di tingkat akun penyimpanan
    • Anda dapat memilih apakah opsi manajemen siklus hidup atau aturan firewall harus diterapkan di zona pendaratan data atau tingkat data lake.
    • Buat beberapa akun penyimpanan, tetapi tidak diinginkan silo.
    • Hindari proyek data duplikat dari kurangnya visibilitas atau berbagi pengetahuan di seluruh organisasi Anda.
    • Pastikan Anda memiliki tata kelola data yang baik, alat pelacakan proyek, dan katalog data di tempat.
  • Interaksi alat dan teknologi pemrosesan data dengan data di beberapa lake berdasarkan izin yang dikonfigurasi
  • Regional versus danau global
    • Konsumen atau proses yang didistribusikan secara global di danau sensitif terhadap latensi yang disebabkan oleh jarak geografis.
    • Menyimpan data secara lokal adalah praktik yang baik.
    • Batasan peraturan dan kedaulatan data dapat mengharuskan data tetap berada di wilayah tertentu.
    • Untuk informasi selengkapnya, lihat penyebaran multi-wilayah.

Penyebaran multi-wilayah

Saat ditentukan oleh aturan residensi data atau persyaratan bahwa Anda menyimpan data dekat dengan basis pengguna, Anda mungkin perlu membuat akun Azure Data Lake di beberapa wilayah Azure. Untuk melakukan ini, buat zona pendaratan data di satu wilayah, lalu replikasi data global menggunakan AzCopy, Azure Data Factory, atau produk pihak ketiga. Data lokal berada di wilayah, sementara data global direplikasi di beberapa wilayah.

Langkah berikutnya

Zona dan kontainer data lake