Az Azure HDInsight 4.0 áttekintése
Az Azure HDInsight az Apache Hadoop és az Apache Spark egyik legnépszerűbb szolgáltatása a vállalati ügyfelek körében. A HDInsight 4.0 az Apache Hadoop-összetevők felhőalapú disztribúciója. Ez a cikk az Azure HDInsight legújabb kiadásával és a frissítés menetével kapcsolatban nyújt információkat.
A HDInsight 4.0 újdonságai
Apache Hive 3.0 és kis késésű elemzési feldolgozás
Az Apache Hive alacsony késésű elemzési feldolgozása (LLAP) állandó lekérdezési kiszolgálókat és memórián belüli gyorsítótárazást használ. Ez a folyamat gyors SQL-lekérdezési eredményeket biztosít a távoli felhőbeli tárolóban lévő adatokhoz. A Hive LLAP állandó démonok készletét használja, amelyek Hive-lekérdezések töredékeit hajtják végre. A lekérdezések végrehajtása az LLAP-vel nagyon hasonló az LLAP nélküli Hive-hoz, csak a feldolgozó feladatok a tárolók helyett LLAP-démonokban futnak.
A Hive LLAP előnyei:
Mély SQL-elemzések elvégzésének képessége a teljesítmény és az alkalmazkodóképesség feláldozása nélkül. Ilyenek például az összetett illesztések, az albekérdezések, az ablakfüggvények, a rendezés, a felhasználó által definiált függvények és az összetett összesítések.
Interaktív lekérdezések futtatása az adatok előkészítéséhez használt tárolón belül, így az adatokat nem szükséges egy másik alrendszerbe átmozgatni az elemzések feldolgozásához.
A lekérdezési eredmények gyorsítótárazásával a korábban kiszámított lekérdezési eredmények újra felhasználhatók. Ez a gyorsítótár időt és erőforrásokat takarít meg a lekérdezéshez szükséges fürtfeladatok futtatásával.
A Hive dinamikus, tényleges táblán alapuló nézetei
A Hive mostantól támogatja a dinamikus materializált nézeteket, vagy előre kiszámolja a releváns összegzéseket. A nézetek felgyorsítják a lekérdezések feldolgozását az adattárházakban. A tényleges táblán alapuló nézetek natív módon tárolhatók a Hive-ban, és zökkenőmentesen használhatják az LLAP-gyorsítást.
A Hive tranzakciós táblái
A HDI 4.0 tartalmazza az Apache Hive 3-at. A Hive 3 atomitást, konzisztenciát, elkülönítést és tartósságot igényel a Hive-raktárban található tranzakciós táblákhoz. Az ACID-kompatibilis táblákat és táblaadatokat a Hive használja és felügyeli. A létrehozási, lekérési, frissítési és törlési (CRUD) táblákban lévő adatoknak optimalizált soroszlop (ORC) fájlformátumban kell lenniük. A csak beszúrásra használható táblák minden fájlformátumot támogatnak.
Megjegyzés
Az ACID/tranzakciós támogatás csak felügyelt táblákhoz működik, külső táblákhoz nem. A Hive külső táblái úgy lettek kialakítva, hogy a külső felek beolvashassák és megírhassák a táblaadatokat anélkül, hogy a Hive átvenne bármilyen módosítást a mögöttes adatokon. ACID-táblák esetén a Hive tömörítéssel és tranzakciókkal módosíthatja a mögöttes adatokat.
Az ACID-táblák néhány előnye a
Az ACID 2-es verziójában a tárolási formátummal és a végrehajtómotorral kapcsolatos teljesítmény is javult.
Az ACID alapértelmezés szerint engedélyezve van az adatfrissítések teljes támogatása érdekében.
A fejlesztett ACID-képességek sorszintű frissítési és törlési funkcionalitást biztosítanak.
Nincs teljesítménybeli többletterhelés.
Nincs szükség gyűjtésre.
A Spark a Hive Warehouse-összekötő segítségével képes írni és olvasni a Hive ACID-táblákat.
Apache Spark
Az Apache Spark a Hive Warehouse-összekötővel frissíthető táblákhoz és ACID-tranzakciókhoz fér hozzá. A Hive Warehouse-összekötővel a Hive tranzakciós táblák külső táblákként regisztrálhatók a Sparkban a teljes tranzakciós funkcionalitás használatához. A korábbi verziók csak a táblapartíciók kezelését támogatták. A Hive Warehouse-összekötő támogatja a streamelési adatkereteket is. Ez a folyamat a Spark tranzakciós és streamelési Hive-tábláiba olvas és ír.
A Spark végrehajtói közvetlenül kapcsolódhatnak a Hive LLAP-démonokhoz az adatok tranzakciós lekéréséhez és frissítéséhez, így továbbra is a Hive vezérli az adatokat.
Az Apache Spark on HDInsight 4.0 az alábbi forgatókönyveket támogatja:
- Gépi tanulási modellbetanítás futtatása a jelentéskészítéshez használt tranzakciós táblán.
- Spark streamelési feladatok futtatása a streamelési Hive-táblák változáscsatornáin.
- ORC-fájlok létrehozása közvetlenül a Spark strukturált stream feladataiból.
Többé nem kell aggódnia amiatt, hogy véletlenül közvetlenül a Sparkból próbál hozzáférni a Hive tranzakciós tábláihoz. Inkonzisztens eredményeket, duplikált adatokat vagy adatsérülést eredményez. A HDInsight 4.0-ban a Spark- és Hive-táblák külön metaadattárakban vannak tárolva. A Hive Data Warehouse-összekötő használatával a tranzakciós Hive-táblákat kifejezetten Spark külső táblákként regisztrálhatja.
Apache Oozie
Az Apache Oozie 4.3.1 a HDI 4.0 részét képezi az alábbi módosításokkal:
Az Oozie már nem futtat Hive-műveleteket. A Hive parancssori felülete megszűnt, és a BeeLine vette át a helyét.
A nemkívánatos függőségeket kizárhatja a megosztási kódtárból egy kizárási minta felvételével a job.properties fájlba.
Frissítés a HDInsight 4.0-ra
Alaposan tesztelje az összetevőket, mielőtt éles környezetben implementálja a legújabb verziót. A HDInsight 4.0 elérhető a frissítési folyamat megkezdéséhez. A HDInsight 3.6 az alapértelmezett beállítás a véletlen adatmegosztások megelőzésére.
A HDInsight korábbi verzióiról a HDInsight 4.0-ra való frissítés nem támogatott. Mivel a metaadattár és a blob adatformátuma megváltozott, a 4.0 nem kompatibilis a korábbi verziókkal. Fontos, hogy az új HDInsight 4.0-környezetet elkülönítse a jelenlegi éles környezetétől. Ha a HDInsight 4.0-t a jelenlegi környezetében helyezi üzembe, a metaadattár véglegesen frissül.
Korlátozások
- A HDInsight 4.0 nem támogatja az Apache Stormot.
- A HDInsight 4.0 nem támogatja az ML-szolgáltatások fürttípusát.
- Az Apache Zeppelin rendszerhéj-értelmezője nem támogatott a Spark- és Interactive Query-fürtökben.
- Az Apache Pig alapértelmezés szerint a Tezen fut. Módosíthatja azonban MapReduce-ra.
- A Sor- és oszlopbiztonság Spark SQL Ranger-integrációja elavult.
Következő lépések
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: