Namespace Hierarkis Azure Data Lake Storage Gen2

Mekanisme utama yang memungkinkan Azure Data Lake Storage Gen2 untuk memberikan performa sistem file pada skala dan harga penyimpanan objek adalah penambahan namespace hierarkis. Ini memungkinkan pengumpulan objek/file dalam akun untuk diatur ke dalam hierarki direktori dan subdirektori berlapis dengan cara yang sama seperti pengaturan sistem file di komputer Anda. Dengan namespace hierarkis aktif, akun penyimpanan menjadi mampu memberikan skalabilitas dan efektivitas biaya penyimpanan objek, dengan semantik sistem file yang familier bagi mesin dan kerangka kerja analitik.

Manfaat namespace hierarkis

Manfaat berikut dikaitkan dengan sistem file yang mengimplementasikan namespace hierarkis melalui data blob:

  • Manipulasi direktori atomis: Objek menyimpan perkiraan hierarki direktori dengan mengadopsi konvensi penyematan garis miring (/) dalam nama objek untuk menunjukkan segmen jalur. Meskipun konvensi ini berfungsi untuk mengatur objek, konvensi tidak memberikan bantuan untuk tindakan seperti memindahkan, mengganti nama, atau menghapus direktori. Tanpa direktori nyata, aplikasi harus memproses sampai jutaan blob individu untuk mencapai tugas tingkat direktori. Sebaliknya, namespace hierarkis memproses tugas-tugas ini dengan memperbarui satu entri (direktori induk).

    Pengoptimalan dramatis ini sangat signifikan untuk banyak kerangka analitik big data. Alat-alat seperti Hive, Spark, dll sering menulis output ke lokasi sementara lalu mengganti nama lokasi pada akhir pekerjaan. Tanpa namespace hierarkis, ganti nama ini seringkali dapat memakan waktu lebih lama daripada proses analitik itu sendiri. Latensi pekerjaan lebih rendah sama dengan total biaya kepemilikan (TCO) yang lebih rendah untuk beban kerja analitik.

  • Gaya Antarmuka Familier: Sistem file dipahami dengan baik oleh pengembang dan pengguna. Tidak perlu mempelajari paradigma penyimpanan baru ketika Anda pindah ke awan karena antarmuka sistem file yang diekspos Data Lake Storage Gen2 adalah paradigma yang sama yang digunakan oleh komputer, besar dan kecil.

Salah satu alasan bahwa penyimpanan objek dulu belum pernah mendukung namespace hierarkis adalah karena namespace hierarkis membatasi skala. Namun, namespace hierarkis Data Lake Storage Gen2 berskala linear dan tidak menurunkan kapasitas atau performa data.

Memutuskan untuk mengaktifkan namespace hierarkis

Setelah mengaktifkan namespace hierarkis di akun, Anda tidak dapat mengembalikannya kembali ke namespace datar. Oleh karena itu, pertimbangkan apakah masuk akal untuk mengaktifkan namespace hierarkis berdasarkan sifat beban kerja penyimpanan objek Anda. Untuk mengevaluasi dampak pengaktifan namespace hierarkis pada beban kerja, aplikasi, biaya, integrasi layanan, alat, fitur, dan dokumentasi, lihat Meningkatkan Azure Blob Storage dengan kemampuan Azure Data Lake Storage Gen2.

Beberapa beban kerja mungkin tidak mendapat manfaat apa pun dengan mengaktifkan namespace hierarkis. Contohnya termasuk cadangan, penyimpanan gambar, dan aplikasi lain yang organisasi objeknya disimpan secara terpisah dari objek itu sendiri (misalnya: dalam database terpisah).

Selain itu, selagi dukungan untuk fitur penyimpanan Blob dan ekosistem layanan Azure terus berkembang, masih ada beberapa fitur dan layanan Azure yang belum didukung di akun dengan namespace hierarkis. Lihat Masalah Umum.

Secara umum, kami sarankan Anda mengaktifkan namespace hierarkis untuk beban kerja penyimpanan yang dirancang untuk sistem file yang memanipulasi direktori. Ini termasuk semua beban kerja yang diutamakan ke pemrosesan analitik. Kumpulan data yang memerlukan organisasi tingkat tinggi juga akan mendapat manfaat dengan mengaktifkan namespace hierarkis.

Alasan untuk mengaktifkan namespace hierarkis ditentukan oleh analisis TCO. Secara umum, peningkatan latensi beban kerja karena akselerasi penyimpanan akan memerlukan sumber daya komputasi untuk waktu yang lebih singkat. Latensi untuk banyak beban kerja dapat ditingkatkan karena manipulasi direktori atomis yang diaktifkan oleh namespace hierarkis. Dalam banyak beban kerja, sumber daya komputasi mewakili > 85% dari total biaya dan bahkan sedikit pengurangan latensi beban kerja sama dengan penghematan TCO dalam jumlah yang signifikan. Bahkan dalam kasus ketika namespace hierarkis meningkatkan biaya penyimpanan, TCO masih diturunkan karena biaya komputasi berkurang.

Untuk menganalisis perbedaan harga penyimpanan data, harga transaksi, dan harga reservasi kapasitas penyimpanan antara akun yang memiliki namespace hierarkis datar versus namespace hierarkis, lihat Harga Azure Data Lake Storage Gen2.

Langkah berikutnya