Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
Az Apache Hadoop két alapvető összetevőt tartalmaz: a tárolót biztosító Apache Hadoop elosztott fájlrendszert (HDFS), valamint a feldolgozást biztosító Apache Hadoop Yet Another Resource Negotiatort (YARN). A tárolási és feldolgozási képességek birtokában a fürt képes lesz MapReduce-programokat futtatni a kívánt adatfeldolgozás elvégzéséhez.
Megjegyzés:
A HDFS-t általában nem telepítik a HDInsight-fürtön a tárolás biztosításához. Ehelyett a Hadoop-összetevők egy HDFS-kompatibilis interfészréteget használnak. A tényleges tárolási képességet az Azure Storage vagy az Azure Data Lake Storage biztosítja. A Hadoop esetében a HDInsight-fürtön végrehajtott MapReduce-feladatok úgy futnak, mintha HDFS lenne jelen, ezért nincs szükség módosításra a tárolási igényeik támogatásához. A HDInsighton futó Hadoopban a tárolás ki van szervezve, de a YARN-feldolgozás továbbra is alapvető összetevő marad. További információ: Bevezetés az Azure HDInsight használatába.
Ez a cikk bemutatja a YARN-t, és azt, hogyan koordinálja az alkalmazások VÉGREHAJTÁSÁT a HDInsighton.
Az Apache Hadoop YARN alapjai
A YARN szabályozza és vezényeli az adatfeldolgozást a Hadoopban. A YARN két alapvető szolgáltatásból áll, amelyek folyamatokként futnak a fürt csomópontjain:
- ResourceManager
- NodeManager
A ResourceManager a fürt számítási erőforrásait olyan alkalmazásoknak biztosítja, mint a MapReduce-feladatok. A ResourceManager ezeket az erőforrásokat tárolóként biztosítja, ahol minden tároló processzormagok és RAM-memória lefoglalásából áll. Ha az összes elérhető erőforrást egy fürtben egyesíti, majd a magokat és a memóriát blokkokban osztja szét, minden egyes erőforrásblokk egy konténer. A fürt minden csomópontja rendelkezik egy meghatározott számú tároló kapacitásával, ezért a fürtnek fix határa van az elérhető tárolók számának. A tárolóban lévő erőforrások allokációja konfigurálható.
Amikor egy MapReduce-alkalmazás fut egy fürtön, a ResourceManager biztosítja az alkalmazásnak azokat a tárolókat, amelyekben végre kell hajtani. A ResourceManager nyomon követi a futó alkalmazások állapotát, a rendelkezésre álló fürtkapacitást, és nyomon követi az alkalmazásokat, amint befejezik és felszabadítják az erőforrásaikat.
A ResourceManager egy webkiszolgálói folyamatot is futtat, amely webes felhasználói felületet biztosít az alkalmazások állapotának figyeléséhez.
Amikor egy felhasználó egy MapReduce-alkalmazást küld a fürtön való futtatáshoz, a rendszer elküldi az alkalmazást a ResourceManagernek. A ResourceManager viszont lefoglal egy tárolót az elérhető NodeManager-csomópontokon. A NodeManager-csomópontokon fut az alkalmazás. Az első lefoglalt tároló egy ApplicationMaster nevű speciális alkalmazást futtat. Ez az ApplicationMaster felelős a beküldött alkalmazás futtatásához szükséges erőforrások beszerzéséért, későbbi tárolók formájában. Az ApplicationMaster megvizsgálja az alkalmazás szakaszait, például a térképszakaszt és a csökkentési szakaszt, valamint a feldolgozandó adatok mennyiségét. Az ApplicationMaster ezután lekéri (egyezteti) az erőforrásokat a ResourceManagertől az alkalmazás nevében. A ResourceManager viszont erőforrásokat biztosít a fürt NodeManagers-éből az ApplicationMasternek az alkalmazás végrehajtásához.
A NodeManagers futtatja az alkalmazást alkotó feladatokat, majd jelentést készít a folyamat előrehaladásáról és állapotáról az ApplicationMasternek. Az ApplicationMaster viszont az alkalmazás állapotát jelenti vissza a ResourceManagernek. A ResourceManager minden eredményt visszaad az ügyfélnek.
YARN HDInsightben
Minden HDInsight-fürttípus telepíti a YARN-t. A ResourceManager magas rendelkezésre állásra van üzembe helyezve egy elsődleges és egy másodlagos példánysal, amely a fürt első és második fő csomópontján fut. Egyszerre csak a ResourceManager egy példánya aktív. A NodeManager-példányok a fürt rendelkezésre álló feldolgozó csomópontjai között futnak.
Lágy törlés
A tárfiókból származó fájlok leválasztásához lásd:
Azure Storage
Azure Data Lake Storage Gen 1
Restore-AzDataLakeStoreDeletedItem
Azure Data Lake Storage Gen 2
Az Azure Data Lake Storage Gen2 ismert problémái
Szemét ürítése
A fs.trash.interval
HDFS>Advanced core-site tulajdonságának az alapértelmezett értéken 0
kell maradnia, mert nem szabad adatokat tárolnia a helyi fájlrendszerben. Ez az érték nem befolyásolja a távoli tárfiókokat (WASB, ADLS GEN1, ABFS)