Aracılığıyla paylaş


HDInsight’ta Apache Hadoop mimarisi

Apache Hadoop iki temel bileşen içerir: depolama sağlayan Apache Hadoop Dağıtılmış Dosya Sistemi (HDFS) ve işleme sağlayan Apache Hadoop Yet Another Resource Negotiator (YARN). Depolama ve işleme özellikleri sayesinde bir küme, istenen veri işlemeyi gerçekleştirmek için MapReduce programlarını çalıştırabiliyor olur.

Not

HdFS genellikle depolama sağlamak için HDInsight kümesi içinde dağıtılmaz. Bunun yerine, Hadoop bileşenleri tarafından HDFS uyumlu bir arabirim katmanı kullanılır. Gerçek depolama özelliği Azure Depolama veya Azure Data Lake Depolama tarafından sağlanır. Hadoop için, HDInsight kümesinde yürütülen MapReduce işleri bir HDFS varmış gibi çalışır ve bu nedenle depolama gereksinimlerini desteklemek için hiçbir değişiklik gerektirmez. HDInsight üzerinde Hadoop'ta depolama dış kaynaklıdır, ancak YARN işleme temel bir bileşen olmaya devam eder. Daha fazla bilgi için bkz . Azure HDInsight'a giriş.

Bu makalede YARN ve HDInsight'ta uygulamaların yürütülmesini nasıl koordine eder anlatılır.

Apache Hadoop YARN ile ilgili temel bilgiler

YARN, Hadoop'ta veri işlemeyi yönetir ve düzenler. YARN,kümedeki düğümlerde işlem olarak çalışan iki temel hizmete sahiptir:

  • Resourcemanager
  • NodeManager

ResourceManager, MapReduce işleri gibi uygulamalara küme işlem kaynakları verir. ResourceManager bu kaynakları kapsayıcı olarak verir ve her kapsayıcı cpu çekirdekleri ve RAM belleği ayırmadan oluşur. Kümedeki kullanılabilir tüm kaynakları bir araya getirdiyseniz ve ardından çekirdekleri ve belleği bloklar halinde dağıttıysanız, her kaynak bloğu bir kapsayıcıdır. Kümedeki her düğümün belirli sayıda kapsayıcı için kapasitesi vardır, bu nedenle kümenin kullanılabilir kapsayıcı sayısı üzerinde sabit bir sınırı vardır. Kapsayıcıdaki kaynakların ayrılan kısmı yapılandırılabilir.

Bir MapReduce uygulaması bir kümede çalıştırıldığında ResourceManager, uygulamaya yürütülecek kapsayıcıları sağlar. ResourceManager çalışan uygulamaların durumunu, kullanılabilir küme kapasitesini izler ve uygulamaları tamamlayıp kaynaklarını serbest bırakırken izler.

ResourceManager, uygulamaların durumunu izlemek için bir web kullanıcı arabirimi sağlayan bir web sunucusu işlemi de çalıştırır.

Kullanıcı kümede çalışmak üzere bir MapReduce uygulaması gönderdiğinde, uygulama ResourceManager'a gönderilir. Buna karşılık ResourceManager, kullanılabilir NodeManager düğümlerinde bir kapsayıcı ayırır. NodeManager düğümleri, uygulamanın gerçekte yürütüldüğü yerdir. Ayrılan ilk kapsayıcı ApplicationMaster adlı özel bir uygulama çalıştırır. Bu ApplicationMaster, gönderilen uygulamayı çalıştırmak için gereken sonraki kapsayıcılar biçiminde kaynakları almakla sorumludur. ApplicationMaster, harita aşaması ve azaltma aşaması gibi uygulamanın aşamalarını ve işlenmesi gereken veri miktarının faktörlerini inceler. ApplicationMaster daha sonra ResourceManager'dan uygulama adına kaynakları ister (görüşür). ResourceManager da kümedeki NodeManager'lardan application yürütmede kullanması için ApplicationMaster'a kaynak verir.

NodeManagers, uygulamayı oluşturan görevleri çalıştırır, ardından ilerleme durumlarını ve durumlarını ApplicationMaster'a geri bildirir. ApplicationMaster da uygulamanın durumunu ResourceManager'a geri bildirir. ResourceManager, istemciye tüm sonuçları döndürür.

HDInsight üzerinde YARN

Tüm HDInsight küme türleri YARN dağıtır. ResourceManager, küme içindeki birinci ve ikinci baş düğümlerinde sırasıyla çalışan birincil ve ikincil bir örnekle yüksek kullanılabilirlik için dağıtılır. ResourceManager'ın tek seferde yalnızca bir örneği etkindir. NodeManager örnekleri, kümedeki kullanılabilir çalışan düğümleri arasında çalışır.

Apache YARN on Azure HDInsight.

Geçici silme

Depolama Hesabınızdaki bir dosyanın gerisini kaldırmak için bkz:

Azure Depolama

Azure Data Lake Storage 1. Nesil

Restore-AzDataLakeStoreDeletedItem

Azure Data Lake Storage 2. Nesil

Azure Data Lake Storage 2. Nesil’deki bilinen sorunlar

Çöp temizleme

fs.trash.interval Yerel dosya sisteminde veri depolamamanız gerektiğinden HDFS>Gelişmiş çekirdek sitesindeki özelliği varsayılan değerde 0 kalmalıdır. Bu değer uzak depolama hesaplarını (WASB, ADLS 1. NESIL, ABFS) etkilemez

Sonraki adımlar