Azure HDInsight-beli gyorsított írási műveletek Apache HBase-hez

Ez a cikk az Apache HBase gyorsított írási funkciójának hátterét mutatja be az Azure HDInsightban, valamint azt, hogy hogyan használható hatékonyan az írási teljesítmény javítása érdekében. A gyorsított írás az Azure premium SSD felügyelt lemezeit használja az Apache HBase Előre írási napló (WAL) teljesítményének javítására. Az Apache HBase-ről további információt a HDInsightban található Apache HBase bemutatása című témakörben talál.

A HBase-architektúra áttekintése

A HBase-ben egy sor egy vagy több oszlopból áll, és egy sorkulcs azonosítja. Több sor alkot egy táblát. Az oszlopok cellákat tartalmaznak, amelyek az oszlopban lévő érték időbélyegzős verziói. Az oszlopok oszlopcsaládokba vannak csoportosítva, és az oszlopcsaládok összes oszlopa együtt van tárolva az úgynevezett HFilestárolófájlokban.

A HBase régiói az adatfeldolgozási terhelés kiegyensúlyozására szolgálnak. A HBase először egyetlen régióban tárolja a tábla sorait. A sorok több régióban vannak elosztva, ahogy a tábla adatainak mennyisége nő. A régiókiszolgálók több régió kéréseit is képesek kezelni.

Előre írási napló az Apache HBase-hez

A HBase először írási naplónak (WAL) nevezett véglegesítési naplóba írja az adatfrissítéseket. Miután a frissítés a WAL-ban van tárolva, a rendszer a memóriában lévő MemStore-ba írja. Amikor a memóriában lévő adatok elérik a maximális kapacitást, a rendszer lemezre HFileírja azokat.

Ha egy RegionServer összeomlik, vagy elérhetetlenné válik a MemStore kiürítése előtt, az Előre írási naplóval újra lejátszhatja a frissítéseket. A WAL nélkül, ha egy RegionServer összeomlik, mielőtt a frissítéseket kiürítené egy HFileadottra, az összes frissítés elveszik.

Gyorsított írási funkció az Apache HBase-hez készült Azure HDInsightban

A gyorsított írási funkció megoldja a felhőben tárolt Írási naplók használatával okozott magasabb írási késések problémáját. A HDInsight Apache HBase-fürtök gyorsított írási funkciója prémium SSD-vel felügyelt lemezeket csatol minden RegionServerhez (feldolgozó csomóponthoz). Az Előre írási naplók ezután a felhőalapú tárolás helyett a prémium szintű felügyelt lemezekre csatlakoztatott Hadoop fájlrendszerbe (HDFS) lesznek írva. A prémium szintű felügyelt lemezek szilárd állapotú lemezeket (SSD-ket) használnak, és kiváló I/O-teljesítményt nyújtanak hibatűréssel. A nem felügyelt lemezekkel ellentétben, ha egy tárolóegység leáll, az nem érinti az ugyanazon rendelkezésre állási csoportban lévő többi tárolóegységet. Ennek eredményeképpen a felügyelt lemezek alacsony írási késést és nagyobb rugalmasságot biztosítanak az alkalmazások számára. Az Azure által felügyelt lemezekről további információt az Azure által felügyelt lemezek bemutatása című témakörben talál.

Gyorsított írás engedélyezése a HBase-hez a HDInsightban

Ha új HBase-fürtöt szeretne létrehozni a gyorsított írási funkcióval, kövesse a HDInsight-fürtök beállítása című témakörben leírt lépéseket. Az Alapszintű beállítások lapon válassza ki a fürt típusát HBase-ként, adjon meg egy összetevőverziót, majd kattintson a HBase gyorsított írásának engedélyezése melletti jelölőnégyzetre. Ezután folytassa a fürtlétrehozás további lépéseivel.

Enable accelerated writes option for HDInsight Apache HBase.

Annak ellenőrzése, hogy a gyorsított írási funkció engedélyezve van-e

Az Azure Portal használatával ellenőrizheti, hogy a gyorsított írási funkció engedélyezve van-e egy HBA Standard kiadás-fürtön.

  1. Keresse meg a HBA Standard kiadás-fürtöt az Azure Portalon.
  2. Válassza a Fürtméret panelt.
  3. A munkavégző csomópontonkénti prémium lemezek megjelennek.

HBA Standard kiadás fürtök skálázása

Az adatok tartósságának megőrzése érdekében hozzon létre legalább három feldolgozó csomóponttal rendelkező fürtöt. A létrehozás után a fürt nem skálázható le háromnál kevesebb munkavégző csomópontra.

A fürt törlése előtt ürítse ki vagy tiltsa le a HBase-táblákat, hogy ne veszítsen el előre írt naplóadatokat.

flush 'mytable'
disable 'mytable'

A fürt skálázása során kövesse a hasonló lépéseket: ürítse ki a táblákat, és tiltsa le a táblákat a bejövő adatok leállításához. A fürt nem skálázható le három csomópontnál kevesebbre.

Az alábbi lépések végrehajtásával biztosítható a sikeres leskálázás, és elkerülhető, hogy a névcsomópont csökkentett módban működjön az alul replikált vagy ideiglenes fájlok miatt.

Ha a névcsomópont csökkentett módban működik a leskálázás után, a hdfs-parancsokkal újra replikálhatja az alul replikált blokkokat, és a hdfs-eket kiveheti a csökkentett módból. Ez az újrareplikálás lehetővé teszi a HBase sikeres újraindítását.

Következő lépések

  • Az Apache HBase hivatalos dokumentációja a Write Ahead Log szolgáltatásról
  • Ha a HDInsight Apache HBase-fürtöt gyorsított írások használatára szeretné frissíteni, olvassa el az Apache HBase-fürt áttelepítése új verzióra című témakört.