Aracılığıyla paylaş


HDInsight’ta Apache Hadoop mimarisi

Apache Hadoop iki temel bileşen içerir: depolama sağlayan Apache Hadoop Dağıtılmış Dosya Sistemi (HDFS) ve işleme sağlayan Apache Hadoop Yet Another Resource Negotiator (YARN) . Depolama ve işleme özellikleri sayesinde bir küme, istenen veri işlemeyi gerçekleştirmek için MapReduce programları çalıştırabilecek duruma gelir.

Uyarı

HdFS genellikle depolama sağlamak için HDInsight kümesi içinde dağıtılmaz. Bunun yerine, Hadoop bileşenleri tarafından HDFS uyumlu bir arabirim katmanı kullanılır. Gerçek depolama özelliği Azure Depolama veya Azure Data Lake Storage tarafından sağlanır. Hadoop için, HDInsight kümesinde yürütülen MapReduce işleri bir HDFS varmış gibi çalışır ve bu nedenle depolama gereksinimlerini desteklemek için hiçbir değişiklik gerektirmez. HDInsight üzerinde Hadoop'ta depolama dış kaynaklıdır, ancak YARN işleme temel bir bileşen olmaya devam eder. Daha fazla bilgi için bkz. azure HDInsight'a giriş .

Bu makalede YARN ve HDInsight'ta uygulamaların yürütülmesini nasıl koordine eder anlatılır.

Apache Hadoop YARN ile ilgili temel bilgiler

YARN, Hadoop'ta veri işlemeyi yönetir ve düzenler. YARN,kümedeki düğümlerde işlem olarak çalışan iki temel hizmete sahiptir:

  • ResourceManager
  • NodeManager

ResourceManager, MapReduce işleri gibi uygulamalara küme işlem kaynakları verir. ResourceManager bu kaynakları kapsayıcı olarak verir ve her kapsayıcı, CPU çekirdekleri ve RAM belleğinin bir tahsisini içerir. Kümedeki kullanılabilir tüm kaynakları bir araya getirdiyseniz ve ardından çekirdekleri ve belleği bloklar halinde dağıttıysanız, her kaynak bloğu bir kapsayıcıdır. Kümedeki her düğümün belirli sayıda kapsayıcı için kapasitesi vardır, bu nedenle kümenin kullanılabilir kapsayıcı sayısı üzerinde sabit bir sınırı vardır. Kapsayıcıdaki kaynak tahsisi yapılandırılabilir.

Bir MapReduce uygulaması bir kümede çalıştırıldığında ResourceManager, uygulamaya yürütülecek kapsayıcıları sağlar. ResourceManager çalışan uygulamaların durumunu, kullanılabilir küme kapasitesini izler ve uygulamaları tamamlayıp kaynaklarını serbest bırakırken izler.

ResourceManager, uygulamaların durumunu izlemek için bir web kullanıcı arabirimi sağlayan bir web sunucusu işlemi de çalıştırır.

Kullanıcı kümede çalışmak üzere bir MapReduce uygulaması gönderdiğinde, uygulama ResourceManager'a gönderilir. Buna karşılık ResourceManager, kullanılabilir NodeManager düğümlerinde bir kapsayıcı ayırır. NodeManager düğümleri, uygulamanın gerçekte yürütüldüğü yerdir. Ayrılan ilk kapsayıcı ApplicationMaster adlı özel bir uygulama çalıştırır. Bu ApplicationMaster, gönderilen uygulamayı çalıştırmak için gereken sonraki kapsayıcılar biçiminde kaynakları almakla sorumludur. ApplicationMaster, harita aşaması ve azaltma aşaması gibi uygulamanın aşamalarını ve işlenmesi gereken veri miktarının faktörlerini inceler. ApplicationMaster daha sonra ResourceManager'dan uygulama adına kaynakları talep eder ve görüşür (). ResourceManager da kümedeki NodeManager'lardan application yürütmede kullanması için ApplicationMaster'a kaynak verir.

NodeManagers, uygulamayı oluşturan görevleri çalıştırır, ardından ilerleme durumlarını ve durumlarını ApplicationMaster'a geri bildirir. ApplicationMaster da uygulamanın durumunu ResourceManager'a geri bildirir. ResourceManager, istemciye tüm sonuçları döndürür.

HDInsight üzerinde YARN

Tüm HDInsight küme türleri YARN dağıtır. ResourceManager, küme içindeki birinci ve ikinci baş düğümlerinde sırasıyla çalışan birincil ve ikincil bir örnekle yüksek kullanılabilirlik için dağıtılır. ResourceManager'ın tek seferde yalnızca bir örneği etkindir. NodeManager örnekleri, kümedeki kullanılabilir çalışan düğümleri arasında çalışır.

Azure HDInsight'ta Apache YARN.

Geçici silme

Depolama Hesabınızdan dosya silme işlemini kaldırmak için bkz:

Azure Depolama

** Azure Data Lake Storage Birinci Nesil

Restore-AzDataLakeStoreDeletedItem

Azure Data Lake Storage Gen 2

Azure Data Lake Storage 2. Nesil ile ilgili bilinen sorunlar

Çöp temizleme

HDFS>Gelişmiş çekirdek sitefs.trash.interval özelliği, yerel dosya sisteminde veri depolamamanız gerektiğinden 0 varsayılan değerde kalmalıdır. Bu değer uzak depolama hesaplarını (WASB, ADLS 1. NESIL, ABFS) etkilemez

Sonraki adımlar