Co je Apache HBase ve službě Azure HDInsight

Apache HBase je opensourcová databáze NoSQL, která je postavená na Apache Hadoopu a modelovaná podle Google BigTable. HBase poskytuje náhodný přístup a silnou konzistenci pro velké objemy dat v databázi bez schématu. Databáze je uspořádaná podle rodin sloupců.

Z pohledu uživatele se HBase podobá databázi. Data jsou uložená v řádcích a sloupcích tabulky a data v řádku jsou seskupována podle rodiny sloupců. HBase je databáze bez schématu. Sloupce a datové typy je možné před použitím nedefinovat. Kód open-source se škáluje lineárně pro manipulaci s petabajty dat na tisících uzlech. Může se spoléhat na redundanci dat, dávkové zpracování a další funkce poskytované distribuovanými aplikacemi v prostředí Hadoop.

Jak se Apache HBase implementuje ve službě Azure HDInsight?

HDInsight HBase je nabízena jako spravovaný cluster, který je integrován do prostředí Azure. Clustery jsou nakonfigurované tak, aby ukládaly data přímo ve službě Azure Storage, což poskytuje nízkou latenci a zvyšuje elasticitu při výběru výkonu a nákladů. Tato vlastnost umožňuje zákazníkům vytvářet interaktivní weby, které pracují s velkými datovými sadami. Vytváření služeb, které ukládají senzorová a telemetrická data z milionů koncových bodů. A analyzovat tato data pomocí úloh Hadoop. HBase a Hadoop jsou dobrými výchozími body pro projekty velkých objemů dat v Azure. Služby můžou aplikacím v reálném čase umožnit práci s velkými datovými sadami.

Implementace HDInsight využívá architekturu škálování na více systémů HBase k zajištění automatického horizontálního dělení tabulek. A silná konzistence pro čtení a zápis a automatické převzetí služeb při selhání. Výkon je zvýšen ukládáním do mezipaměti pro čtení a vysokou propustností datových proudů pro zápis. Cluster HBase můžete vytvořit uvnitř virtuální sítě. Podrobnosti najdete v tématu Vytváření clusterů HDInsight v Azure Virtual Network.

Jakým způsobem jsou data spravována v HDInsight HBase?

Data mohou být spravována v HBase pomocí příkazů create, get, put, a scan z prostředí HBase. Data se zapisují do databáze pomocí put a čtou se pomocí get. Příkaz scan se používá k načítání dat z více řádků v tabulce. Data lze také spravovat pomocí rozhraní API HBase C#, které poskytuje knihovna klienta nad HBase REST API. Databázi HBase lze také dotazovat pomocí Apache Hivu. Úvod k těmto programovacím modelům najdete v tématu Začínáme používat Apache HBase s Apache Hadoopem ve službě HDInsight. K dispozici jsou také koprocesory, které umožňují zpracování dat v uzlech, které hostují databázi.

Poznámka

Thrift není podporovaný HBase v HDInsight.

Případy použití pro Apache HBase

Kanonický případ použití, pro který byl bigTable (a rozšíření HBase) vytvořen z webového vyhledávání. Vyhledávací stroje sestavují indexy, které mapují termíny na webové stránky, které je obsahují. Ale existuje mnoho dalších případů použití, pro které je HBase vhodné – několik z nich je uvedeno v této části.

Scénář Popis
Ukládání hodnot klíče HBase se dá použít jako úložiště klíč-hodnota a je vhodný pro správu systémů zpráv. Facebook používá HBase pro svůj systém zasílání zpráv a je ideální pro ukládání a správu internetové komunikace. WebTable využívá HBase k hledání a správě tabulek, které jsou extrahovány z webových stránek.
Data snímače HBase je užitečné pro zaznamenání dat shromážděných přírůstkově z různých zdrojů. Tato data zahrnují sociální analýzy a časové řady. A udržování interaktivních řídicích panelů v aktuálním stavu s trendy a čítači a správu systémů protokolu auditování. Mezi příklady patří terminál obchodníka Bloomberg a databáze OpenTSDB (Open Time Series Database). OpenTSDB ukládá a poskytuje přístup ke shromážděným metrikám o stavu serverových systémů.
Dotaz v reálném čase Apache Phoenix je dotazovací modul SQL pro Apache HBase. Přistupuje se k němu jako ovladač JDBC a umožňuje dotazování a správu tabulek HBase pomocí SQL.
HBase jako platforma Aplikace lze nad HBase spouštět v případě použití jako datového úložiště. Mezi příklady patří Phoenix, OpenTSDB Kijia Titan. Aplikace lze také integrovat s HBase. Příklady: Apache Hive, Apache Pig, Solr, Apache Flume, Apache Impala, Apache Spark Gangliaa Apache Drill.

Další kroky