Membandingkan opsi penyimpanan untuk digunakan dengan klaster Azure HDInsight

Anda dapat memilih di antara beberapa layanan penyimpanan Azure yang berbeda saat membuat klaster HDInsight:

Artikel ini memberikan ikhtisar tentang jenis-jenis penyimpanan tersebut dan fitur uniknya.

Jenis dan fitur penyimpanan

Tabel berikut ini meringkas layanan Azure Storage yang didukung dengan versi HDInsight yang berbeda:

Layanan penyimpanan Jenis akun Jenis Namespace Layanan yang didukung Tingkat kinerja yang didukung Tingkat akses yang didukung Versi HDInsight Jenis kluster
Azure Data Lake Storage Gen2 Tujuan umum v2 Hierarki (sistem file) Blob Standard Panas, Dingin, Arsip 3.6+ Semua kecuali Spark 2.1 dan 2.2
Azure Storage Tujuan umum v2 Objek Blob Standard Panas, Dingin, Arsip 3.6+ Semua
Azure Storage Tujuan umum V1 Objek Blob Standard T/A Semua Semua
Azure Storage Blob Storage** Objek Blob Blok Standard Panas, Dingin, Arsip Semua Semua
Azure Data Lake Storage Gen1 T/A Hierarki (sistem file) T/A T/A T/A Hanya 3.6 Semua kecuali HBase
Azure Storage Blob Blok Objek Blob Blok Premium T/A 3.6+ Hanya HBase dengan penulisan yang dipercepat
Azure Data Lake Storage Gen2 Blob Blok Hierarki (sistem file) Blob Blok Premium T/A 3.6+ Hanya HBase dengan penulisan yang dipercepat

**Untuk klaster HDInsight, hanya akun penyimpanan sekunder yang dapat berjenis BlobStorage dan Page Blob bukan opsi penyimpanan yang didukung.

Untuk informasi selengkapnya tentang jenis akun Azure Storage, lihat Ikhtisar akun Azure Storage

Untuk informasi selengkapnya tentang tingkat akses Azure Storage, lihat Penyimpanan Azure Blob: tingkat akses Premium (pratinjau), Panas, Dingin, dan Arsip

Anda dapat membuat klaster menggunakan kombinasi layanan untuk penyimpanan primer dan sekunder opsional. Tabel berikut ini meringkas konfigurasi penyimpanan klaster yang saat ini didukung di HDInsight:

Versi HDInsight Penyimpanan Primer Penyimpanan Sekunder Didukung
3.6 & 4.0 Tujuan Umum V1, Tujuan Umum V2 Tujuan Umum V1, Tujuan Umum V2, BlobStorage(Block Blobs) Ya
3.6 & 4.0 Tujuan Umum V1, Tujuan Umum V2 Data Lake Storage Gen2 No
3.6 & 4.0 Data Lake Storage Gen2* Data Lake Storage Gen2 Ya
3.6 & 4.0 Data Lake Storage Gen2* Tujuan Umum V1, Tujuan Umum V2, BlobStorage(Block Blobs) Ya
3.6 & 4.0 Data Lake Storage Gen2 Data Lake Storage Gen1 No
3.6 Data Lake Storage Gen1 Data Lake Storage Gen1 Ya
3.6 Data Lake Storage Gen1 Tujuan Umum V1, Tujuan Umum V2, BlobStorage(Block Blobs) Ya
3.6 Data Lake Storage Gen1 Data Lake Storage Gen2 No
4,0 Data Lake Storage Gen1 Mana pun No
4,0 Tujuan Umum V1, Tujuan Umum V2 Data Lake Storage Gen1 No

*=Ini bisa berupa satu atau beberapa Data Lake Storage Gen2, selama semuanya siap untuk menggunakan identitas terkelola yang sama untuk akses klaster.

Catatan

Penyimpanan primer Data Lake Storage Gen2 tidak didukung untuk klaster Spark 2.1 atau 2.2.

Replikasi data

Azure HDInsight tidak menyimpan data konsumen. Sarana penyimpanan primer untuk klaster adalah akun penyimpanan terkaitnya. Anda dapat melampirkan klaster Anda ke akun penyimpanan yang ada, atau membuat akun penyimpanan baru selama proses pembuatan klaster. Jika akun baru dibuat, akun tersebut akan dibuat sebagai akun penyimpanan yang berlebihan secara lokal (LRS), dan akan memenuhi persyaratan residensi data dalam region termasuk yang ditentukan di Pusat Kepercayaan.

Anda dapat memvalidasi bahwa HDInsight dikonfigurasi dengan benar untuk menyimpan data dalam satu wilayah dengan memastikan bahwa akun penyimpanan yang terkait dengan HDInsight Anda adalah LRS atau opsi penyimpanan lain yang disebutkan di Pusat Kepercayaan.

Catatan

Meningkatkan akun penyimpanan primer atau sekunder dari kluster yang sedang berjalan dengan kemampuan Azure Data Lake Storage Gen2 tidak didukung. Untuk mengubah jenis penyimpanan kluster HDInsight yang ada menjadi Data Lake Storage Gen2, Anda harus membuat ulang kluster dan memilih akun penyimpanan yang diaktifkan namespace hierarkis.

Langkah berikutnya