Megosztás a következőn keresztül:


Apache Hadoop-architektúra a HDInsightban

Az Apache Hadoop két alapvető összetevőt tartalmaz: a tárolót biztosító Apache Hadoop elosztott fájlrendszert (HDFS), valamint a feldolgozást biztosító Apache Hadoop Yet Another Resource Negotiatort (YARN). A tárolási és feldolgozási képességek birtokában a fürt képes lesz MapReduce-programokat futtatni a kívánt adatfeldolgozás elvégzéséhez.

Megjegyzés:

A HDFS-t általában nem telepítik a HDInsight-fürtön a tárolás biztosításához. Ehelyett a Hadoop-összetevők egy HDFS-kompatibilis interfészréteget használnak. A tényleges tárolási képességet az Azure Storage vagy az Azure Data Lake Storage biztosítja. A Hadoop esetében a HDInsight-fürtön végrehajtott MapReduce-feladatok úgy futnak, mintha HDFS lenne jelen, ezért nincs szükség módosításra a tárolási igényeik támogatásához. A HDInsighton futó Hadoopban a tárolás ki van szervezve, de a YARN-feldolgozás továbbra is alapvető összetevő marad. További információ: Bevezetés az Azure HDInsight használatába.

Ez a cikk bemutatja a YARN-t, és azt, hogyan koordinálja az alkalmazások VÉGREHAJTÁSÁT a HDInsighton.

Az Apache Hadoop YARN alapjai

A YARN szabályozza és vezényeli az adatfeldolgozást a Hadoopban. A YARN két alapvető szolgáltatásból áll, amelyek folyamatokként futnak a fürt csomópontjain:

  • ResourceManager
  • NodeManager

A ResourceManager a fürt számítási erőforrásait olyan alkalmazásoknak biztosítja, mint a MapReduce-feladatok. A ResourceManager ezeket az erőforrásokat tárolóként biztosítja, ahol minden tároló processzormagok és RAM-memória lefoglalásából áll. Ha az összes elérhető erőforrást egy fürtben egyesíti, majd a magokat és a memóriát blokkokban osztja szét, minden egyes erőforrásblokk egy konténer. A fürt minden csomópontja rendelkezik egy meghatározott számú tároló kapacitásával, ezért a fürtnek fix határa van az elérhető tárolók számának. A tárolóban lévő erőforrások allokációja konfigurálható.

Amikor egy MapReduce-alkalmazás fut egy fürtön, a ResourceManager biztosítja az alkalmazásnak azokat a tárolókat, amelyekben végre kell hajtani. A ResourceManager nyomon követi a futó alkalmazások állapotát, a rendelkezésre álló fürtkapacitást, és nyomon követi az alkalmazásokat, amint befejezik és felszabadítják az erőforrásaikat.

A ResourceManager egy webkiszolgálói folyamatot is futtat, amely webes felhasználói felületet biztosít az alkalmazások állapotának figyeléséhez.

Amikor egy felhasználó egy MapReduce-alkalmazást küld a fürtön való futtatáshoz, a rendszer elküldi az alkalmazást a ResourceManagernek. A ResourceManager viszont lefoglal egy tárolót az elérhető NodeManager-csomópontokon. A NodeManager-csomópontokon fut az alkalmazás. Az első lefoglalt tároló egy ApplicationMaster nevű speciális alkalmazást futtat. Ez az ApplicationMaster felelős a beküldött alkalmazás futtatásához szükséges erőforrások beszerzéséért, későbbi tárolók formájában. Az ApplicationMaster megvizsgálja az alkalmazás szakaszait, például a térképszakaszt és a csökkentési szakaszt, valamint a feldolgozandó adatok mennyiségét. Az ApplicationMaster ezután lekéri (egyezteti) az erőforrásokat a ResourceManagertől az alkalmazás nevében. A ResourceManager viszont erőforrásokat biztosít a fürt NodeManagers-éből az ApplicationMasternek az alkalmazás végrehajtásához.

A NodeManagers futtatja az alkalmazást alkotó feladatokat, majd jelentést készít a folyamat előrehaladásáról és állapotáról az ApplicationMasternek. Az ApplicationMaster viszont az alkalmazás állapotát jelenti vissza a ResourceManagernek. A ResourceManager minden eredményt visszaad az ügyfélnek.

YARN HDInsightben

Minden HDInsight-fürttípus telepíti a YARN-t. A ResourceManager magas rendelkezésre állásra van üzembe helyezve egy elsődleges és egy másodlagos példánysal, amely a fürt első és második fő csomópontján fut. Egyszerre csak a ResourceManager egy példánya aktív. A NodeManager-példányok a fürt rendelkezésre álló feldolgozó csomópontjai között futnak.

Apache YARN az Azure HDInsight platformán.

Lágy törlés

A tárfiókból származó fájlok leválasztásához lásd:

Azure Storage

Azure Data Lake Storage Gen 1

Restore-AzDataLakeStoreDeletedItem

Azure Data Lake Storage Gen 2

Az Azure Data Lake Storage Gen2 ismert problémái

Szemét ürítése

A fs.trash.intervalHDFS>Advanced core-site tulajdonságának az alapértelmezett értéken 0 kell maradnia, mert nem szabad adatokat tárolnia a helyi fájlrendszerben. Ez az érték nem befolyásolja a távoli tárfiókokat (WASB, ADLS GEN1, ABFS)

Következő lépések