Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Artikel ini memberikan latar belakang tentang fitur Penulisan Dipercepat untuk Apache HBase di Azure HDInsight, serta cara menggunakannya secara efektif untuk meningkatkan performa penulisan. Penulisan Dipercepat menggunakan disk SSD premium terkelola Azure untuk meningkatkan performa Apache HBase Write Ahead Log (WAL). Untuk mempelajari lebih lanjut tentang Apache HBase, lihat Apa itu Apache HBase di HDInsight.
Gambaran umum arsitektur HBase
Di HBase, baris terdiri dari satu kolom atau lebih dan diidentifikasi dengan kunci baris. Beberapa baris membentuk tabel. Kolom berisi sel, yang merupakan versi tanda waktu dari nilai dalam kolom tersebut. Kolom dikelompokkan ke dalam keluarga kolom, dan semua kolom dalam keluarga kolom disimpan bersama-sama dalam file penyimpanan yang disebut HFiles
.
Wilayah di HBase digunakan untuk menyeimbangkan beban pemrosesan data. HBase pertama kali menyimpan baris tabel dalam satu wilayah. Baris tersebar di beberapa wilayah saat jumlah data dalam tabel meningkat. Server Wilayah bisa menghandel permintaan untuk beberapa wilayah.
"Write Ahead Log" untuk Apache HBase
HBase pertama kali menulis pembaruan data untuk jenis log commit yang disebut Write Ahead Log (WAL). Setelah pembaruan disimpan di WAL, pembaruan tersebut ditulis ke dalam MemStore yang ada di memori. Ketika data dalam memori mencapai kapasitas maksimumnya, data ditulis ke disk sebagai HFile
.
Jika ServerWilayah jatuh atau menjadi tidak tersedia sebelum MemStore dibersihkan, Log Tulis di Depan dapat digunakan untuk memutar ulang pembaruan. Tanpa WAL, jika RegionServer mengalami crash sebelum menghapus pembaruan ke HFile
, semua pembaruan tersebut hilang.
Fitur Penulisan Dipercepat di Azure HDInsight untuk Apache HBase
Fitur Penulisan yang Dipercepat memecahkan masalah latensi penulisan yang lebih tinggi yang disebabkan oleh penggunaan Write Ahead Log yang ada di penyimpanan awan. Fitur Penulisan Dipercepat untuk kluster HDInsight Apache HBase, melampirkan disk SSD terkelola premium ke setiap RegionServer (simpul pekerja). Log Write Ahead kemudian ditulis ke Hadoop File System (HDFS) yang terpasang pada disk premium terkelola ini alih-alih penyimpanan cloud. Disk terkelola premium menggunakan drive Solid-State (SSD) dan menawarkan kinerja I/O yang sangat baik dengan toleransi kesalahan. Tidak seperti disk yang tidak terkelola, jika satu unit penyimpanan mati, itu tidak akan memengaruhi unit penyimpanan lain dalam kumpulan ketersediaan yang sama. Sebagai hasilnya, disk terkelola memberikan latensi tulis rendah dan ketahanan yang lebih baik untuk aplikasi Anda. Untuk informasi selengkapnya tentang disk terkelola, lihat Pengantar disk terkelola Azure.
Bagaimana mengaktifkan Penulisan Dipercepat untuk HBase pada HDInsight
Untuk membuat klaster HBase baru dengan fitur Penulisan Dipercepat, ikuti langkah-langkah dalam Menyiapkan kluster di Microsoft Azure HDInsight. Pada tab Dasar, pilih tipe kluster sebagai HBase, tentukan versi komponen, lalu klik pada kotak centang di samping Aktifkan penulisan dipercepat untuk HBase. Kemudian, lanjutkan dengan langkah-langkah yang tersisa untuk pembuatan klaster.
Verifikasi apakah fitur Penulisan Dipercepat telah diaktifkan
Anda dapat menggunakan portal Azure untuk memverifikasi apakah fitur Accelerated Writes diaktifkan pada kluster HBASE.
- Cari kluster HBASE Anda di portal Azure.
- Pilih bilah Ukuran Kluster.
- Disk premium pada setiap simpul pekerja akan ditampilkan.
Menskalakan kluster HBASE
Untuk memastikan ketahanan data, buatlah klaster dengan setidaknya tiga simpul pekerja. Setelah dibuat, Anda tidak dapat menurunkan skala kluster menjadi kurang dari tiga node pekerja.
Siram atau nonaktifkan tabel HBase Anda sebelum menghapus kluster, sehingga Anda tidak kehilangan data Write Ahead Log.
flush 'mytable'
disable 'mytable'
Ikuti langkah-langkah serupa saat menskalakan ke bawah kluster Anda: bersihkan tabel Anda dan nonaktifkan tabel Anda untuk menghentikan data masuk. Anda tidak dapat menurunkan skala kluster Anda menjadi kurang dari tiga simpul.
Dengan mengikuti langkah-langkah ini akan memastikan penurunan skala yang berhasil dan menghindari kemungkinan namenode masuk ke mode aman karena file yang direplikasi secara kurang atau sementara.
Jika namenode Anda masuk ke mode aman setelah penurunan skala, gunakan perintah HDFS untuk mereplikasi ulang blok yang kurang direplikasi dan mengeluarkan HDFS dari mode aman. Replikasi ulang ini akan memungkinkan Anda untuk memulai ulang HBase dengan sukses.
Langkah berikutnya
- Dokumentasi resmi Apache HBase mengenai fitur Write Ahead Log
- Untuk meningkatkan kluster Apache HBase pada HDInsight agar menggunakan Penulisan yang Dipercepat, lihat Memigrasikan kluster Apache HBase ke versi baru.