Sdílet prostřednictvím


Architektura Apache Hadoop v HDInsightu

Apache Hadoop obsahuje dvě základní komponenty: Apache Hadoop Distributed File System (HDFS), který poskytuje úložiště, a Apache Hadoop Yet Another Resource Negotiator (YARN), který poskytuje zpracování. Díky možnostem úložiště a zpracování může cluster spouštět programy MapReduce , aby mohly provádět požadované zpracování dat.

Poznámka:

Systém HDFS se obvykle nenasazuje v rámci clusteru HDInsight, aby poskytoval úložiště. Místo toho je vrstva rozhraní kompatibilní s HDFS používána komponentami Systému Hadoop. Skutečnou schopnost úložiště poskytuje Azure Storage nebo Azure Data Lake Storage. V případě Hadoopu se úlohy MapReduce spouštěné v clusteru HDInsight spouštějí, jako by existovaly HDFS, a proto nevyžadují žádné změny pro podporu potřeb úložiště. V Hadoopu ve službě HDInsight je úložiště outsourced, ale zpracování YARN zůstává základní komponentou. Další informace najdete v tématu Úvod do služby Azure HDInsight.

Tento článek představuje YARN a způsob, jakým koordinuje spouštění aplikací ve službě HDInsight.

Základy Apache Hadoop YARN

YARN řídí a orchestruje zpracování dat v Hadoopu. YARN má dvě základní služby, které běží jako procesy na uzlech v clusteru:

  • Resourcemanager
  • NodeManager

ResourceManager uděluje výpočetním prostředkům clusteru aplikacím, jako jsou úlohy MapReduce. ResourceManager uděluje tyto prostředky jako kontejnery, kde se každý kontejner skládá z přidělení jader procesoru a paměti RAM. Pokud zkombinujete všechny prostředky dostupné v clusteru a pak distribuujete jádra a paměť v blocích, každý blok prostředků je kontejner. Každý uzel v clusteru má kapacitu pro určitý počet kontejnerů, proto má cluster pevný limit počtu dostupných kontejnerů. Přidělení prostředků v kontejneru je možné konfigurovat.

Když aplikace MapReduce běží v clusteru, ResourceManager poskytuje aplikaci kontejnery, ve kterých se mají spustit. ResourceManager sleduje stav spuštěných aplikací, dostupné kapacity clusteru a sleduje aplikace po dokončení a uvolnění prostředků.

ResourceManager také spouští proces webového serveru, který poskytuje webové uživatelské rozhraní pro monitorování stavu aplikací.

Když uživatel odešle aplikaci MapReduce ke spuštění v clusteru, aplikace se odešle do ResourceManageru. ResourceManager zase přidělí kontejner na dostupných uzlech NodeManager. Uzly NodeManager jsou místa, kde se aplikace skutečně spouští. První přidělený kontejner spustí speciální aplikaci s názvem ApplicationMaster. Tento ApplicationMaster zodpovídá za získání prostředků ve formě následných kontejnerů potřebných ke spuštění odeslané aplikace. ApplicationMaster zkoumá fáze aplikace, jako je fáze mapování a fáze redukce, a faktory v tom, kolik dat je potřeba zpracovat. ApplicationMaster pak požádá (vyjedná) prostředky z ResourceManager jménem aplikace. ResourceManager zase uděluje prostředky z NodeManagers v clusteru ApplicationMaster, aby je bylo možné použít při provádění aplikace.

NodeManagers spouští úlohy, které tvoří aplikaci, a pak hlásí jejich průběh a stav zpět na ApplicationMaster. ApplicationMaster zase hlásí stav aplikace zpět do ResourceManageru. ResourceManager vrátí klientovi všechny výsledky.

YARN ve službě HDInsight

Všechny typy clusterů HDInsight nasazují YARN. ResourceManager se nasadí pro zajištění vysoké dostupnosti s primární a sekundární instancí, která běží na prvních a druhých hlavních uzlech v clusteru. Najednou je aktivní pouze jedna instance ResourceManageru. Instance NodeManager běží na dostupných pracovních uzlech v clusteru.

Apache YARN on Azure HDInsight.

Obnovitelné odstranění

Pokud chcete zrušit odstranění souboru z účtu úložiště, přečtěte si téma:

Azure Storage

Azure Data Lake Storage Gen 1

Restore-AzDataLakeStoreDeletedItem

Azure Data Lake Storage Gen2

Známé problémy se službou Azure Data Lake Storage Gen2

Vyprázdnění koše

Vlastnost fs.trash.interval z hdFS>Advanced core-site by měla zůstat ve výchozí hodnotě 0 , protože byste neměli ukládat žádná data v místním systému souborů. Tato hodnota nemá vliv na účty vzdáleného úložiště (WASB, ADLS GEN1, ABFS).

Další kroky