Penulisan Dipercepat Microsoft Azure HDInsight untuk Apache HBase

Artikel ini menyediakan latar belakang fitur Penulisan Dipercepat untuk Apache HBase di Microsoft Azure HDInsight, dan bagaimana hal itu dapat digunakan secara efektif untuk meningkatkan performa tulis. Penulisan Dipercepat menggunakan disk yang terkelola Azure premium SSD untuk meningkatkan performa Apache HBase Write Ahead Log (WAL). Untuk mempelajari lebih lanjut tentang Apache HBase, lihat Apache HBase di Microsoft Azure HDInsight.

Gambaran umum arsitektur HBase

Di HBase, baris terdiri dari satu kolom atau lebih dan diidentifikasi dengan kunci baris. Beberapa baris membentuk tabel. Kolom berisi sel, yang merupakan versi tanda waktu dari nilai dalam kolom tersebut. Kolom dikelompokkan ke dalam keluarga kolom, dan semua kolom dalam keluarga kolom disimpan bersama-sama dalam file penyimpanan yang disebut HFiles.

Wilayah di HBase digunakan untuk menyeimbangkan beban pemrosesan data. HBase pertama kali menyimpan baris tabel dalam satu wilayah. Baris tersebar di beberapa wilayah saat jumlah data dalam tabel meningkat. Server Wilayah bisa menghandel permintaan untuk beberapa wilayah.

Write Ahead Log untuk Apache HBase

HBase pertama kali menulis pembaruan data untuk jenis log commit yang disebut Write Ahead Log (WAL). Setelah pembaruan disimpan di WAL, itu ditulis ke MemStore dalam memori. Ketika data dalam memori mencapai kapasitas maksimumnya, data ditulis ke disk sebagai HFile.

Jika ServerWilayah crash atau menjadi tidak tersedia sebelum MemStore memerah, Write Ahead Log dapat digunakan untuk memutar ulang pembaruan. Tanpa WAL, jika RegionServer mengalami crash sebelum menghapus pembaruan ke HFile, semua pembaruan tersebut hilang.

Fitur Penulisan Dipercepat di Microsoft Azure HDInsight untuk Apache HBase

Fitur Penulisan Di Percepat memecahkan masalah keterlambatan penulisan yang lebih tinggi yang disebabkan oleh penggunaan Write Ahead Log yang ada di penyimpanan cloud. Fitur Penulisan Dipercepat untuk Microsoft Azure HDInsight Apache HBase menggunakan disk premium yang terkelola SSD pada setiap ServerWilayah (simpul pekerja), bukan menggunakan penyimpanan cloud. Write Ahead Log kemudian ditulis ke Hadoop File System (HDFS) yang dipasang pada disk terkelola premium ini alih-alih penyimpanan cloud. Disk terkelola premium menggunakan drive Solid-State (SSD) dan menawarkan kinerja I/O yang sangat baik dengan toleransi kesalahan. Tidak seperti disk yang tidak terkelola, jika satu unit penyimpanan mati, itu tidak akan memengaruhi unit penyimpanan lain dalam kumpulan ketersediaan yang sama. Sebagai hasilnya, disk terkelola memberikan latensi tulis rendah dan ketahanan yang lebih baik untuk aplikasi Anda. Untuk informasi selengkapnya tentang disk terkelola, lihat Pengantar disk terkelola Azure.

Bagaimana mengaktifkan Penulisan Dipercepat untuk HBase di Microsoft Azure HDInsight

Untuk membuat klaster HBase baru dengan fitur Penulisan Dipercepat, ikuti langkah-langkah dalam Menyiapkan kluster di Microsoft Azure HDInsight. Pada tab Dasar pilih tipe kluster sebagai HBase, tentukan versi komponen lalu klik pada kotak centang di samping Aktifkan tulisan HBase dipercepat. Kemudian, lanjutkan dengan langkah-langkah yang tersisa untuk pembuatan klaster.

Enable accelerated writes option for HDInsight Apache HBase.

Verifikasi fitur Penulisan Dipercepat diaktifkan

Anda dapat menggunakan portal Azure untuk memverifikasi apakah fitur Accelerated Writes diaktifkan pada kluster HBASE.

  1. Cari kluster HBASE Anda di portal Azure.
  2. Pilih bilah Ukuran Kluster.
  3. Disk premium per simpul pekerja akan ditampilkan.

Menskalakan kluster HBASE

Untuk menjaga ketahanan data, buat klaster dengan minimal tiga simpul pekerja. Setelah dibuat, Anda tidak dapat menurunkan skala kluster menjadi kurang dari tiga node pekerja.

Siram atau nonaktifkan tabel HBase Anda sebelum menghapus kluster, sehingga Anda tidak kehilangan data Write Ahead Log.

flush 'mytable'
disable 'mytable'

Ikuti langkah-langkah serupa saat menskalakan ke bawah kluster Anda: bersihkan tabel Anda dan nonaktifkan tabel Anda untuk menghentikan data masuk. Anda tidak dapat menurunkan skala kluster Anda menjadi kurang dari tiga simpul.

Mengikuti langkah-langkah ini akan memastikan penskalaan yang berhasil dan menghindari kemungkinan simpulnama masuk ke mode aman karena file yang kurang direplikasi atau sementara.

Jika namenode Anda masuk ke mode aman setelah penurunan skala, gunakan perintah hdfs untuk mereplikasi ulang blok yang kurang direplikasi dan mengeluarkan hdf dari mode aman. Replikasi ulang ini akan memungkinkan Anda untuk memulai ulang HBase dengan sukses.

Langkah berikutnya