Az Azure HDInsight 4.0 áttekintése

Cikk
12/05/2023

Az Azure HDInsight az Apache Hadoop és az Apache Spark egyik legnépszerűbb szolgáltatása a vállalati ügyfelek körében. A HDInsight 4.0 az Apache Hadoop-összetevők felhőalapú disztribúciója. Ez a cikk az Azure HDInsight legújabb kiadásával és a frissítés menetével kapcsolatban nyújt információkat.

A HDInsight 4.0 újdonságai

Apache Hive 3.0 és kis késésű elemzési feldolgozás

Az Apache Hive alacsony késésű elemzési feldolgozása (LLAP) állandó lekérdezési kiszolgálókat és memórián belüli gyorsítótárazást használ. Ez a folyamat gyors SQL-lekérdezési eredményeket biztosít a távoli felhőbeli tárolóban lévő adatokhoz. A Hive LLAP állandó démonok készletét használja, amelyek Hive-lekérdezések töredékeit hajtják végre. A lekérdezések végrehajtása az LLAP-vel nagyon hasonló az LLAP nélküli Hive-hoz, csak a feldolgozó feladatok a tárolók helyett LLAP-démonokban futnak.

A Hive LLAP előnyei:

Mély SQL-elemzések elvégzésének képessége a teljesítmény és az alkalmazkodóképesség feláldozása nélkül. Ilyenek például az összetett illesztések, az albekérdezések, az ablakfüggvények, a rendezés, a felhasználó által definiált függvények és az összetett összesítések.
Interaktív lekérdezések futtatása az adatok előkészítéséhez használt tárolón belül, így az adatokat nem szükséges egy másik alrendszerbe átmozgatni az elemzések feldolgozásához.
A lekérdezési eredmények gyorsítótárazásával a korábban kiszámított lekérdezési eredmények újra felhasználhatók. Ez a gyorsítótár időt és erőforrásokat takarít meg a lekérdezéshez szükséges fürtfeladatok futtatásával.

A Hive dinamikus, tényleges táblán alapuló nézetei

A Hive mostantól támogatja a dinamikus materializált nézeteket, vagy előre kiszámolja a releváns összegzéseket. A nézetek felgyorsítják a lekérdezések feldolgozását az adattárházakban. A tényleges táblán alapuló nézetek natív módon tárolhatók a Hive-ban, és zökkenőmentesen használhatják az LLAP-gyorsítást.

A Hive tranzakciós táblái

A HDI 4.0 tartalmazza az Apache Hive 3-at. A Hive 3 atomitást, konzisztenciát, elkülönítést és tartósságot igényel a Hive-raktárban található tranzakciós táblákhoz. Az ACID-kompatibilis táblákat és táblaadatokat a Hive használja és felügyeli. A létrehozási, lekérési, frissítési és törlési (CRUD) táblákban lévő adatoknak optimalizált soroszlop (ORC) fájlformátumban kell lenniük. A csak beszúrásra használható táblák minden fájlformátumot támogatnak.

Megjegyzés

Az ACID/tranzakciós támogatás csak felügyelt táblákhoz működik, külső táblákhoz nem. A Hive külső táblái úgy lettek kialakítva, hogy a külső felek beolvashassák és megírhassák a táblaadatokat anélkül, hogy a Hive átvenne bármilyen módosítást a mögöttes adatokon. ACID-táblák esetén a Hive tömörítéssel és tranzakciókkal módosíthatja a mögöttes adatokat.

Az ACID-táblák néhány előnye a

Az ACID 2-es verziójában a tárolási formátummal és a végrehajtómotorral kapcsolatos teljesítmény is javult.
Az ACID alapértelmezés szerint engedélyezve van az adatfrissítések teljes támogatása érdekében.
A fejlesztett ACID-képességek sorszintű frissítési és törlési funkcionalitást biztosítanak.
Nincs teljesítménybeli többletterhelés.
Nincs szükség gyűjtésre.
A Spark a Hive Warehouse-összekötő segítségével képes írni és olvasni a Hive ACID-táblákat.

Apache Spark

Az Apache Spark a Hive Warehouse-összekötővel frissíthető táblákhoz és ACID-tranzakciókhoz fér hozzá. A Hive Warehouse-összekötővel a Hive tranzakciós táblák külső táblákként regisztrálhatók a Sparkban a teljes tranzakciós funkcionalitás használatához. A korábbi verziók csak a táblapartíciók kezelését támogatták. A Hive Warehouse-összekötő támogatja a streamelési adatkereteket is. Ez a folyamat a Spark tranzakciós és streamelési Hive-tábláiba olvas és ír.

A Spark végrehajtói közvetlenül kapcsolódhatnak a Hive LLAP-démonokhoz az adatok tranzakciós lekéréséhez és frissítéséhez, így továbbra is a Hive vezérli az adatokat.

Az Apache Spark on HDInsight 4.0 az alábbi forgatókönyveket támogatja:

Gépi tanulási modellbetanítás futtatása a jelentéskészítéshez használt tranzakciós táblán.
Spark streamelési feladatok futtatása a streamelési Hive-táblák változáscsatornáin.
ORC-fájlok létrehozása közvetlenül a Spark strukturált stream feladataiból.

Többé nem kell aggódnia amiatt, hogy véletlenül közvetlenül a Sparkból próbál hozzáférni a Hive tranzakciós tábláihoz. Inkonzisztens eredményeket, duplikált adatokat vagy adatsérülést eredményez. A HDInsight 4.0-ban a Spark- és Hive-táblák külön metaadattárakban vannak tárolva. A Hive Data Warehouse-összekötő használatával a tranzakciós Hive-táblákat kifejezetten Spark külső táblákként regisztrálhatja.

Apache Oozie

Az Apache Oozie 4.3.1 a HDI 4.0 részét képezi az alábbi módosításokkal:

Az Oozie már nem futtat Hive-műveleteket. A Hive parancssori felülete megszűnt, és a BeeLine vette át a helyét.
A nemkívánatos függőségeket kizárhatja a megosztási kódtárból egy kizárási minta felvételével a job.properties fájlba.

Frissítés a HDInsight 4.0-ra

Alaposan tesztelje az összetevőket, mielőtt éles környezetben implementálja a legújabb verziót. A HDInsight 4.0 elérhető a frissítési folyamat megkezdéséhez. A HDInsight 3.6 az alapértelmezett beállítás a véletlen adatmegosztások megelőzésére.

A HDInsight korábbi verzióiról a HDInsight 4.0-ra való frissítés nem támogatott. Mivel a metaadattár és a blob adatformátuma megváltozott, a 4.0 nem kompatibilis a korábbi verziókkal. Fontos, hogy az új HDInsight 4.0-környezetet elkülönítse a jelenlegi éles környezetétől. Ha a HDInsight 4.0-t a jelenlegi környezetében helyezi üzembe, a metaadattár véglegesen frissül.

Korlátozások

A HDInsight 4.0 nem támogatja az Apache Stormot.
A HDInsight 4.0 nem támogatja az ML-szolgáltatások fürttípusát.
Az Apache Zeppelin rendszerhéj-értelmezője nem támogatott a Spark- és Interactive Query-fürtökben.
Az Apache Pig alapértelmezés szerint a Tezen fut. Módosíthatja azonban MapReduce-ra.
A Sor- és oszlopbiztonság Spark SQL Ranger-integrációja elavult.

Megosztás a következőn keresztül: