Memahami Azure Data Lake Storage Gen2

Selesai

Data lake adalah repositori data yang disimpan dalam format alaminya, biasanya sebagai blob atau file. Azure Data Lake Storage adalah solusi data lake yang komprehensif, dapat diskalakan secara besar-besaran, aman, dan hemat biaya untuk analitik performa tinggi yang terpasang di Azure.

Diagram representing files in Azure data Lake Storage Gen2 being accessed by big data technologies.

Azure Data Lake Storage menggabungkan sistem file dengan platform penyimpanan untuk membantu Anda mengidentifikasi wawasan ke dalam data Anda dengan cepat. Data Lake Storage dibangun pada kemampuan penyimpanan Azure Blob untuk mengoptimalkannya secara khusus untuk beban kerja analitik. Integrasi ini memungkinkan performa analitik, tiering dan kemampuan manajemen siklus hidup data penyimpanan Blob, dan kemampuan ketersediaan tinggi, keamanan, dan daya tahan Azure Storage.

Keuntungan

Data Lake Storage dirancang untuk menangani variasi dan volume data ini dalam skala exabyte sambil menangani ratusan gigabyte throughput dengan aman. Dengan ini, Anda dapat menggunakan Data Lake Storage Gen2 sebagai dasar untuk solusi real time dan batch.

Akses yang kompatibel dengan Hadoop

Manfaat Data Lake Storage adalah Anda dapat memperlakukan data seolah-olah disimpan dalam Sistem File Terdistribusi Hadoop (HDFS). Dengan fitur ini, Anda dapat menyimpan data di satu tempat dan mengaksesnya melalui teknologi komputasi termasuk Azure Databricks, Azure HDInsight, dan Azure Synapse Analytics tanpa memindahkan data antar lingkungan. Teknisi data juga memiliki kemampuan untuk menggunakan mekanisme penyimpanan seperti format parquet, yang sangat terkompresi dan berkinerja baik di beberapa platform menggunakan penyimpanan kolumnar internal.

Keamanan

Data Lake Storage mendukung izin daftar kontrol akses (ACL) dan Antarmuka Sistem Operasi Portabel (POSIX) yang tidak mewarisi izin direktori induk. Bahkan, Anda dapat mengatur izin pada tingkat direktori atau tingkat file untuk data yang disimpan dalam data lake, menyediakan sistem penyimpanan yang jauh lebih aman. Keamanan ini dapat dikonfigurasi melalui teknologi seperti Apache Hive dan Spark atau utilitas seperti Azure Storage Explorer, yang berjalan di Windows, macOS, dan Linux. Semua data yang disimpan dienkripsi saat tidak aktif dengan menggunakan Microsoft atau kunci yang dikelola pelanggan.

Performa

Azure Data Lake Storage mengatur data yang disimpan ke dalam hierarki direktori dan subdirektori, seperti sistem file, untuk navigasi yang lebih mudah. Akibatnya, pemrosesan data membutuhkan lebih sedikit sumber daya komputasi, mengurangi waktu dan biaya.

Redundansi data

Data Lake Storage memanfaatkan model replikasi Azure Blob yang menyediakan redundansi data dalam satu pusat data dengan penyimpanan redundan lokal (LRS), atau ke wilayah sekunder dengan menggunakan opsi Penyimpanan geo-redundan (GRS). Fitur ini memastikan bahwa data Anda selalu tersedia dan terlindungi jika terjadi bencana.

Tip

Setiap kali merencanakan data lake, teknisi data harus memberikan pertimbangan yang bijaksana untuk struktur, tata kelola data, dan keamanan. Ini harus mencakup pertimbangan faktor-faktor yang dapat memengaruhi struktur dan organisasi lake, seperti:

  • Jenis data yang akan disimpan
  • Bagaimana data akan diubah
  • Siapa harus mengakses data
  • Apa pola akses umumnya

Pendekatan ini akan membantu menentukan cara merencanakan tata kelola kontrol akses di seluruh danau Anda. Teknisi data harus proaktif dalam memastikan bahwa lake tidak menjadi rawa data pedalaman yang menjadi tidak dapat diakses dan tidak berguna bagi pengguna karena kurangnya tata kelola data dan langkah-langkah kualitas data. Membangun garis besar dan mengikuti praktik terbaik untuk Azure Data Lake akan membantu memastikan implementasi yang tepat dan kuat yang akan memungkinkan organisasi untuk tumbuh dan mendapatkan wawasan untuk mencapai lebih banyak hal.