Pengantar Azure Data Lake Storage
Azure Data Lake Storage adalah serangkaian kemampuan yang didedikasikan untuk analitik big data, dibangun di Azure Blob Storage.
Azure Data Lake Storage menggabungkan kemampuan Azure Data Lake Storage Gen1 dengan Azure Blob Storage. Misalnya, Data Lake Storage menyediakan semantik sistem file, keamanan tingkat file, dan skala. Karena kemampuan ini dibangun di atas penyimpanan Blob, Anda juga mendapatkan penyimpanan berbilang rendah, berjenjang, dengan ketersediaan tinggi/kemampuan pemulihan bencana.
Data Lake Storage menjadikan Azure Storage sebagai fondasi untuk membangun data lake perusahaan di Azure. Dirancang dari awal untuk melayani beberapa petabyte informasi sambil mempertahankan ratusan gigabit throughput, Data Lake Storage memungkinkan Anda untuk dengan mudah mengelola sejumlah besar data.
Apa itu Data Lake?
Data lake adalah repositori terpusat tunggal tempat Anda dapat menyimpan semua data Anda, baik terstruktur maupun tidak terstruktur. Data lake memungkinkan organisasi Anda untuk menyimpan, mengakses, dan menganalisis berbagai data dengan cepat dan lebih mudah dalam satu lokasi. Dengan data lake, Anda tidak perlu menyesuaikan data dengan struktur yang ada. Sebagai gantinya, Anda dapat menyimpan data dalam format mentah atau aslinya, biasanya sebagai file atau sebagai objek besar biner (blob).
Azure Data Lake Storage adalah solusi data lake perusahaan berbasis cloud. Ini dirancang untuk menyimpan sejumlah besar data dalam format apa pun, dan untuk memfasilitasi beban kerja analitik big data. Anda menggunakannya untuk mengambil data dari jenis dan kecepatan menyerap apa pun di satu lokasi untuk akses dan analisis yang mudah dengan menggunakan berbagai kerangka kerja.
Data Lake Storage
Azure Data Lake Storage bukan layanan khusus atau jenis akun. Sebaliknya, ini diimplementasikan sebagai serangkaian kemampuan yang Anda gunakan dengan layanan Blob Storage akun Azure Storage Anda. Anda dapat membuka kunci kemampuan ini dengan mengaktifkan pengaturan namespace hierarkis.
Data Lake Storage mencakup kemampuan berikut.
✓ Akses yang kompatibel dengan Hadoop
✓ Struktur direktori hierarkis
✓ Biaya dan performa yang dioptimalkan
✓ Model keamanan biji-bijian yang lebih halus
✓ Skalabilitas besar
Akses yang kompatibel dengan Hadoop
Azure Data Lake Storage terutama dirancang untuk bekerja dengan Hadoop dan semua kerangka kerja yang menggunakan Apache Hadoop Distributed File System (HDFS) sebagai lapisan akses data mereka. Distribusi Hadoop mencakup driver Azure Blob File System (ABFS), yang memungkinkan banyak aplikasi dan kerangka kerja untuk mengakses data Azure Blob Storage secara langsung. Driver ABFS dioptimalkan khusus untuk analitik big data. API REST yang sesuai dimunculkan melalui titik akhir dfs.core.windows.net
.
Kerangka analisis data yang menggunakan HDFS sebagai lapisan akses data mereka dapat langsung mengakses data Azure Data Lake Storage melalui ABFS. Mesin analitik Apache Spark dan mesin kueri Presto SQL adalah contoh kerangka kerja tersebut.
Untuk informasi selengkapnya tentang layanan dan platform yang didukung, lihat Layanan Azure yang mendukung Azure Data Lake Storage dan Platform sumber terbuka yang mendukung Azure Data Lake Storage.
Struktur direktori hierarkis
Namespace hierarkis adalah fitur utama yang memungkinkan Azure Data Lake Storage menyediakan akses data berkinerja tinggi pada skala dan harga penyimpanan objek. Anda dapat menggunakan fitur ini untuk mengatur semua objek dan file dalam akun penyimpanan Anda ke dalam hierarki direktori dan subdirektori berlapis. Dengan kata lain, data Azure Data Lake Storage Anda diatur dengan cara yang sama seperti file diatur di komputer Anda.
Operasi seperti mengganti nama atau menghapus direktori, menjadi operasi metadata atomik tunggal pada direktori. Tidak perlu menghitung dan memproses semua objek yang awalan nama direktori sama.
Biaya dan performa yang dioptimalkan
Harga Azure Data Lake Storage sama dengan Azure Blob Storage. Ini dibangun berdasarkan kemampuan Azure Blob Storage seperti manajemen kebijakan siklus hidup otomatis dan tingkatan tingkat objek untuk mengelola biaya penyimpanan big data.
Performa dioptimalkan karena Anda tidak perlu menyalin atau mengubah data sebagai prasyarat untuk analisis. Kemampuan namespace hierarkis Azure Data Lake Storage memungkinkan akses dan navigasi yang efisien. Arsitektur ini berarti bahwa pemrosesan data membutuhkan lebih sedikit sumber daya komputasi, mengurangi kecepatan dan biaya mengakses data.
Model keamanan biji-bijian yang lebih halus
Model kontrol akses Azure Data Lake Storage mendukung daftar kontrol akses (ACL) kontrol akses berbasis peran Azure (Azure RBAC) dan Portable Operating System Interface for UNIX (POSIX). Ada juga beberapa pengaturan keamanan tambahan yang khusus dirancang untuk Azure Data Lake Storage. Anda dapat mengatur izin baik di tingkat direktori atau di tingkat file. Semua data yang disimpan dienkripsi saat tidak digunakan dengan menggunakan kunci enkripsi yang dikelola Microsoft atau dikelola pelanggan.
Skalabilitas besar-besaran
Azure Data Lake Storage menawarkan penyimpanan besar-besaran dan menerima banyak jenis data untuk analitik. Ini tidak memberlakukan batasan pada ukuran akun, ukuran file, atau jumlah data yang dapat disimpan di data lake. File individual dapat memiliki ukuran yang berkisar dari beberapa kilobyte (KB) hingga beberapa petabyte (PB). Pemrosesan dijalankan pada latensi per permintaan hampir terus-menerus yang diukur pada tingkat layanan, akun, dan file.
Desain ini berarti bahwa Azure Data Lake Storage dapat dengan mudah dan cepat ditingkatkan untuk memenuhi beban kerja yang paling menuntut. Juga dapat dengan mudah menurunkan skala ketika permintaan turun.
Dibangun di Azure Blob Storage
Data yang Anda serap bertahan sebagai blob di akun penyimpanan. Layanan yang mengelola blob adalah layanan Azure Blob Storage. Data Lake Storage menjelaskan kemampuan atau "peningkatan" pada layanan ini yang memenuhi tuntutan beban kerja analitik big data.
Karena kemampuan ini dibangun di Blob Storage, fitur seperti pembuatan log diagnostik, tingkat akses, dan kebijakan manajemen siklus hidup tersedia untuk akun Anda. Sebagian besar fitur Blob Storage didukung sepenuhnya, tetapi beberapa fitur mungkin hanya didukung di tingkat pratinjau dan ada beberapa fitur yang belum didukung. Untuk daftar lengkap pernyataan dukungan, lihat Dukungan fitur Blob Storage di akun Azure Storage. Status setiap fitur yang tercantum akan berubah dari waktu ke waktu karena dukungan terus meluas.
Dokumentasi dan terminologi
Daftar isi Azure Blob Storage menampilkan dua bagian konten. Bagian konten Data Lake Storage memberikan praktik dan panduan terbaik untuk menggunakan kemampuan Data Lake Storage. Bagian Blob Storage konten menyediakan panduan untuk fitur akun yang tidak khusus untuk Data Lake Storage.
Saat Berpindah antar bagian, Anda mungkin melihat sedikit perbedaan terminologi. Misalnya, konten yang ditampilkan dalam dokumentasi Blob Storage, akan menggunakan istilah blob alih-alih file. Secara teknis, file yang Anda serap ke akun penyimpanan Anda menjadi blob di akun Anda. Oleh karena itu, istilah ini benar. Namun, istilah blob dapat menyebabkan kebingungan jika Anda terbiasa dengan istilah file. Anda juga akan melihat istilah kontainer yang digunakan untuk merujuk ke sistem file. Anggap istilah-istilah ini sebagai sinonim.