Share via


Versnelde schrijfbewerkingen van Azure HDInsight voor Apache HBase

Dit artikel bevat achtergrondinformatie over de functie Versnelde schrijfbewerkingen voor Apache HBase in Azure HDInsight en hoe deze effectief kan worden gebruikt om de schrijfprestaties te verbeteren. Versnelde schrijfbewerkingen maken gebruik van beheerde Schijven van Azure Premium SSD om de prestaties van het Apache HBase Write Ahead Log (WAL) te verbeteren. Zie Wat is Apache HBase in HDInsight voor meer informatie over Apache HBase.

Overzicht van HBase-architectuur

In HBase bestaat een rij uit een of meer kolommen en wordt deze geïdentificeerd met een rijsleutel. Meerdere rijen vormen een tabel. Kolommen bevatten cellen, die tijdstempelversies van de waarde in die kolom zijn. Kolommen worden gegroepeerd in kolomfamilies en alle kolommen in een kolomfamilie worden samen opgeslagen in opslagbestanden met de naam HFiles.

Regio's in HBase worden gebruikt om de belasting van de gegevensverwerking te verdelen. HBase slaat eerst de rijen van een tabel op in één regio. De rijen worden verdeeld over meerdere regio's naarmate de hoeveelheid gegevens in de tabel toeneemt. Regioservers kunnen aanvragen voor meerdere regio's verwerken.

Logboek schrijven voor Apache HBase

HBase schrijft eerst gegevensupdates naar een type doorvoerlogboek met de naam Write Ahead Log (WAL). Nadat de update is opgeslagen in de WAL, wordt deze naar de In-Memory MemStore geschreven. Wanneer de gegevens in het geheugen de maximale capaciteit bereiken, worden deze als schijf HFilegeschreven.

Als een RegionServer vastloopt of niet meer beschikbaar is voordat de MemStore wordt leeggemaakt, kan het Write Ahead-logboek worden gebruikt om updates opnieuw af te spelen. Zonder de WAL, als een RegionServer vastloopt voordat updates naar een HFileworden leeggemaakt, gaan al deze updates verloren.

Functie Versneld schrijven in Azure HDInsight voor Apache HBase

De functie Versnelde schrijfbewerkingen lost het probleem op van hogere schrijflatenties die worden veroorzaakt door het gebruik van Write Ahead-logboeken die zich in de cloudopslag bevinden. De functie Versneld schrijven voor HDInsight Apache HBase-clusters koppelt premium SSD-beheerde schijven aan elke RegionServer (werkknooppunt). Write Ahead Logs worden vervolgens geschreven naar het Hadoop File System (HDFS) dat is gekoppeld aan deze premium beheerde schijven in plaats van cloudopslag. Premium managed-disks maken gebruik van SSD's (Solid-State Disks) en bieden uitstekende I/O-prestaties met fouttolerantie. In tegenstelling tot niet-beheerde schijven, als één opslageenheid uitvalt, heeft dit geen invloed op andere opslageenheden in dezelfde beschikbaarheidsset. Als gevolg hiervan bieden beheerde schijven lage schrijflatentie en betere tolerantie voor uw toepassingen. Zie Inleiding tot beheerde Azure-schijven voor meer informatie over door Azure beheerde schijven.

Versnelde schrijfbewerkingen inschakelen voor HBase in HDInsight

Als u een nieuw HBase-cluster wilt maken met de functie Versnelde schrijfbewerkingen, volgt u de stappen in Clusters instellen in HDInsight. Selecteer op het tabblad Basis het clustertype als HBase, geef een onderdeelversie op en klik vervolgens op het selectievakje naast Versnelde schrijfbewerkingen voor HBase inschakelen. Ga vervolgens verder met de resterende stappen voor het maken van een cluster.

Enable accelerated writes option for HDInsight Apache HBase.

Controleren of de functie Versneld schrijven is ingeschakeld

U kunt Azure Portal gebruiken om te controleren of de functie Versnelde schrijfbewerkingen is ingeschakeld op een HBASE-cluster.

  1. Zoek uw HBASE-cluster in Azure Portal.
  2. Selecteer de blade Clustergrootte .
  3. Premium-schijven per werkknooppunt worden weergegeven.

HBASE-clusters schalen

Als u de duurzaamheid van gegevens wilt behouden, maakt u een cluster met minimaal drie werkknooppunten. Nadat u het cluster hebt gemaakt, kunt u het cluster niet omlaag schalen naar minder dan drie werkknooppunten.

Maak uw HBase-tabellen leeg of schakel deze uit voordat u het cluster verwijdert, zodat u geen Write Ahead Log-gegevens kwijtraakt.

flush 'mytable'
disable 'mytable'

Volg vergelijkbare stappen bij het omlaag schalen van uw cluster: maak uw tabellen leeg en schakel uw tabellen uit om binnenkomende gegevens te stoppen. U kunt het cluster niet omlaag schalen naar minder dan drie knooppunten.

Door deze stappen uit te voeren, zorgt u ervoor dat de schaal is geslaagd en wordt voorkomen dat een namenode in de veilige modus wordt gezet vanwege niet-gerepliceerde of tijdelijke bestanden.

Als uw naamknooppunt na omlaag schalen in de veilige modus gaat, gebruikt u hdfs-opdrachten om de onder-gerepliceerde blokken opnieuw te repliceren en hdfs uit de veilige modus te halen. Met deze replicatie kunt u HBase opnieuw opstarten.

Volgende stappen