Driver Azure Blob Filesystem (ABFS): Driver khusus Azure Storage untuk Hadoop

Salah satu metode akses utama untuk data di Azure Data Lake Storage Gen2 adalah melalui Hadoop FileSystem. Data Lake Storage Gen2 memungkinkan pengguna Azure Blob Storage mengakses driver baru, driver Azure Blob File System atau ABFS. ABFS adalah bagian dari Apache Hadoop dan termasuk dalam berbagai distribusi komersial Hadoop. Oleh driver ABFS, banyak aplikasi dan kerangka kerja dapat mengakses data di Azure Blob Storage tanpa kode apa pun yang secara eksplisit mereferensikan Data Lake Storage Gen2.

Kemampuan sebelumnya: Driver Windows Azure Storage Blob

Driver Windows Azure Storage Blob atau driver WASB menyediakan dukungan asli untuk Azure Blob Storage. Driver ini melakukan tugas kompleks pemetaan semantik sistem file (yang diperlukan antarmuka Hadoop FileSystem) ke antarmuka gaya penyimpanan objek yang diekspos oleh Azure Blob Storage. Driver ini terus mendukung model ini, memberikan akses performa tinggi ke data yang disimpan dalam blob, tetapi berisi sejumlah besar kode yang melakukan pemetaan ini, sehingga sulit untuk dipertahankan. Selain itu, beberapa operasi seperti FileSystem.rename() dan FileSystem.delete() ketika diterapkan pada direktori mengharuskan driver untuk melakukan sejumlah besar operasi (karena kurangnya dukungan penyimpanan objek untuk direktori) yang sering menyebabkan degradasi performa. Driver ABFS dirancang untuk mengatasi kekurangan bawaan WASB.

Driver Azure Blob File System

Antarmuka REST Azure Data Lake Storage dirancang untuk mendukung semantik sistem file melalui Azure Blob Storage. Mengingat bahwa sistem file Hadoop juga dirancang untuk mendukung semantik yang sama tidak ada persyaratan untuk pemetaan kompleks di driver. Dengan demikian, driver Azure Blob File System (atau ABFS) hanyalah shim klien untuk REST API.

Namun, ada beberapa fungsi yang masih harus dilakukan driver:

Skema URI untuk mereferensikan data

Konsisten dengan implementasi sistem file lainnya dalam Hadoop, driver ABFS mendefinisikan skema URI sendiri sehingga sumber daya (direktori dan file) dapat ditangani dengan jelas. Skema URI didokumentasikan dalam Menggunakan URI Azure Data Lake Storage Gen2. Struktur URI adalah: abfs[s]://file_system@account_name.dfs.core.windows.net/<path>/<path>/<file_name>

Dengan menggunakan format URI ini, alat dan kerangka kerja Hadoop standar dapat digunakan untuk mereferensikan sumber daya ini:

hdfs dfs -mkdir -p abfs://fileanalysis@myanalytics.dfs.core.windows.net/tutorials/flightdelays/data
hdfs dfs -put flight_delays.csv abfs://fileanalysis@myanalytics.dfs.core.windows.net/tutorials/flightdelays/data/

Secara internal, driver ABFS menerjemahkan sumber daya yang ditentukan dalam URI ke file dan direktori serta melakukan panggilan ke Azure Data Lake Storage REST API dengan referensi tersebut.

Autentikasi

Driver ABFS mendukung dua bentuk autentikasi sehingga aplikasi Hadoop dapat mengakses sumber daya yang terkandung dalam akun berkemampuan Data Lake Storage Gen2 dengan aman. Detail lengkap skema autentikasi yang tersedia disediakan dalam panduan keamanan Azure Storage. Yaitu:

  • Kunci Bersama: Ini memungkinkan pengguna mengakses semua sumber daya di akun. Kunci dienkripsi dan disimpan dalam konfigurasi Hadoop.

  • Token Pembawa OAuth ID Microsoft Entra: Token pembawa Microsoft Entra diperoleh dan disegarkan oleh driver menggunakan identitas pengguna akhir atau Perwakilan Layanan yang dikonfigurasi. Dengan menggunakan model autentikasi ini, semua akses diotorisasi berdasarkan per panggilan menggunakan identitas yang terkait dengan token yang disediakan dan dievaluasi terhadap Daftar Kontrol Akses (ACL) POSIX yang ditetapkan.

    Catatan

    Azure Data Lake Storage Gen2 hanya mendukung titik akhir Microsoft Azure AD v1.0.

Konfigurasi

Semua konfigurasi untuk driver ABFS disimpan dalam file konfigurasi core-site.xml. Pada distribusi Hadoop yang menampilkan Ambari, konfigurasi juga dapat dikelola menggunakan portal web atau Ambari REST API.

Detail semua entri konfigurasi yang didukung ditentukan dalam dokumentasi resmi Hadoop.

Dokumentasi Hadoop

Driver ABFS sepenuhnya didokumentasikan dalam dokumentasi resmi Hadoop

Langkah berikutnya