Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Bu makale, Azure HDInsight kümelerinin altyapısını yönetmeye yönelik öneriler sağlar. Şirket içi Apache Hadoop sistemlerini Azure HDInsight'a geçirme konusunda yardımcı olacak en iyi yöntemleri sağlayan bir serinin parçasıdır.
HDInsight küme kapasitesini planlama
HDInsight küme kapasitesi planlaması için yapılması gereken önemli seçimler şunlardır:
Bölge
Azure bölgesi, kümenin fiziksel olarak sağlandığı yeri belirler. Okuma ve yazma işlemlerinin gecikme süresini en aza indirmek için kümenin verilerle aynı Bölgede olması gerekir.
Depolama konumu ve boyutu
Varsayılan depolama, kümeyle aynı Bölgede olmalıdır. 48 düğümlü bir küme için 4 ile 8 arası depolama hesabına sahip olmanız önerilir. Zaten yeterli toplam depolama alanı olsa da, her depolama hesabı işlem düğümleri için ek ağ bant genişliği sağlar. Birden çok depolama hesabı olduğunda, ön ek olmadan her depolama hesabı için rastgele bir ad kullanın. Rastgele adlandırmanın amacı, tüm hesaplarda depolama darboğazı (performans kısıtlaması) veya ortak mod başarısızlıklarının olasılığını azaltmaktır. Daha iyi performans için depolama hesabı başına yalnızca bir kapsayıcı kullanın.
VM boyutu ve türü (artık G serisini destekliyor)
Her küme türünün bir düğüm türü kümesi vardır ve her düğüm türünün vm boyutu ve türü için belirli seçenekleri vardır. VM boyutu ve türü CPU işleme gücü, RAM boyutu ve ağ gecikme süresi tarafından belirlenir. Sanal bir iş yükü, her düğüm türü için en uygun VM boyutunu ve türünü belirlemek için kullanılabilir.
İşçi düğümlerin sayısı
Çalışan düğümlerinin ilk sayısı simülasyon iş yükleri kullanılarak belirlenebilir. En yüksek yük taleplerini karşılamak için daha fazla çalışan düğümü eklenerek küme daha sonra ölçeklendirilebilir. Daha sonra ek çalışan düğümleri gerekli olmadığında küme geri ölçeklendirilebilir.
Daha fazla bilgi için HDInsight kümeleri için kapasite planlaması makalesine bakın.
Küme için önerilen sanal makine türünü kullanma
Her HDInsight kümesi türü için önerilen sanal makine türleri için bkz. Kümeler için varsayılan düğüm yapılandırması ve sanal makine boyutları.
HDInsight'ta Hadoop bileşenlerinin kullanılabilirliğini denetleme
Her HDInsight sürümü, hadoop eko sistem bileşenleri kümesinin bulut dağıtımıdır. Tüm HDInsight bileşenleri ve bunların geçerli sürümleri hakkında ayrıntılı bilgi için bkz. HDInsight Bileşeni Sürüm Oluşturma.
HDInsight'taki Hadoop bileşenlerini ve sürümlerini denetlemek için Apache Ambari kullanıcı arabirimini veya Ambari REST API'sini de kullanabilirsiniz.
Şirket içi kümelerde kullanılabilen ancak HDInsight kümelerinin parçası olmayan uygulamalar veya bileşenler, HDInsight kümesiyle aynı sanal ağ içindeki bir kenar düğümüne veya vm'ye eklenebilir. Azure HDInsight'ta bulunmayan bir üçüncü taraf Hadoop uygulaması, HDInsight kümesindeki "Uygulamalar" seçeneği kullanılarak yüklenebilir. Özel Hadoop uygulamaları HDInsight kümesine "betik eylemleri" kullanılarak yüklenebilir. Aşağıdaki tabloda yaygın uygulamalardan bazıları ve HDInsight tümleştirme seçenekleri listelenmiştir:
Uygulama | Entegrasyon |
---|---|
Hava akımı | IaaS veya HDInsight kenar düğümü |
Alluxio | IaaS |
Arcadia | IaaS |
Atlas | Hiçbiri (Yalnızca HDP) |
Datameer | HDInsight kenar düğümü |
Datastax (Cassandra) | IaaS (Azure Cosmos DB, Azure'da alternatiftir) |
DataTorrent | IaaS |
Matkap | IaaS |
Ateşlemek | IaaS |
Jethro | IaaS |
Mapador | IaaS |
MongoDB | IaaS (Azure Cosmos DB, Azure'da alternatiftir) |
NiFi | IaaS |
Presto | IaaS veya HDInsight kenar düğümü |
Python 2 | PaaS |
Python 3 | PaaS |
R | PaaS |
SAS | IaaS |
Vertica | IaaS (SQLDW Azure'da alternatif) |
Tablo | IaaS |
Su Hattı | HDInsight kenar düğümü |
StreamSets | HDInsight edge |
Palantir | IaaS |
Sailpoint | Iaas |
Daha fazla bilgi için farklı HDInsight sürümleriyle kullanılabilen Apache Hadoop bileşenleri makalesine bakın
Betik eylemlerini kullanarak HDInsight kümelerini özelleştirme
HDInsight, bir küme yapılandırması yöntemi olan betik eylemi sağlar. Betik eylemi, HDInsight kümesindeki düğümlerde çalışan bash betiğidir ve ek bileşenleri yüklemek ve yapılandırma ayarlarını değiştirmek için kullanılabilir.
Betik eylemleri, HDInsight kümesinden erişilebilen bir URI'de depolanmalıdır. Bunlar küme oluşturma sırasında veya sonrasında kullanılabilir ve yalnızca belirli düğüm türlerinde çalışacak şekilde kısıtlanabilir.
Betik bir kez kalıcı hale gelebilir veya yürütülebilir. Kalıcı betikler, ölçeklendirme işlemleri aracılığıyla kümeye eklenen yeni çalışan düğümlerini özelleştirmek için kullanılır. Kalıcı bir betik, ölçeklendirme işlemleri gerçekleştiğinde baş düğüm gibi başka bir düğüm türüne de değişiklik uygulayabilir.
HDInsight, HDInsight kümelerine aşağıdaki bileşenleri yüklemek için önceden yazılmış betikler sağlar:
- Azure Depolama hesabı ekleme
- Hue yükleme
- Presto'yu yükle
- Solr'ı yükleme
- Giraph yükleme
- Hive kitaplıklarını önceden yükleme
- Mono'ya yükleme veya güncelleştirme
Uyarı
HDInsight, özel veya betik eylemleri ile yüklenen hadoop bileşenleri için doğrudan destek sağlamaz.
Betik eylemleri, HDInsight uygulaması olarak Azure Market'te de yayımlanabilir.
Daha fazla bilgi için aşağıdaki makalelere bakın:
- HDInsight'a üçüncü taraf Apache Hadoop Uygulamaları yükleme
- Betik eylemlerini kullanarak HDInsight kümelerini özelleştirme
- Azure Market'te HDInsight uygulaması yayımlama
Bootstrap kullanarak HDInsight yapılandırmalarını özelleştirme
gibi core-site.xml
hive-site.xml
yapılandırma dosyalarındaki yapılandırmalarda yapılan değişiklikler bootstrap oozie-env.xml
kullanılarak yapılabilir. Aşağıdaki betik, New-AzHDInsightClusterConfig PowerShell AZ modül cmdlet'ini kullanan bir örnektir:
# hive-site.xml configuration
$hiveConfigValues = @{"hive.metastore.client.socket.timeout"="90"}
$config = New—AzHDInsightClusterConfig '
| Set—AzHDInsightDefaultStorage
—StorageAccountName "$defaultStorageAccountName.blob. core.windows.net" `
—StorageAccountKey "defaultStorageAccountKey " `
| Add—AzHDInsightConfigValues `
—HiveSite $hiveConfigValues
New—AzHDInsightCluster `
—ResourceGroupName $existingResourceGroupName `
—Cluster-Name $clusterName `
—Location $location `
—ClusterSizeInNodes $clusterSizeInNodes `
—ClusterType Hadoop `
—OSType Linux `
—Version "3.6" `
—HttpCredential $httpCredential `
—Config $config
Daha fazla bilgi için Bootstrap kullanarak HDInsight kümelerini özelleştirme makalesine bakın. Ayrıca bkz. Apache Ambari REST API'sini kullanarak HDInsight kümelerini yönetme.
HDInsight Hadoop kümesi kenar düğümlerinden istemci araçlarına erişme
Boş kenar düğümü, baş düğümlerde olduğu gibi aynı istemci araçlarının yüklenip yapılandırıldığı ancak hadoop hizmetlerinin çalışmadiği bir Linux sanal makinesidir. Kenar düğümü aşağıdaki amaçlarla kullanılabilir:
- kümeye erişme
- istemci uygulamalarını test etme
- istemci uygulamalarını barındırma
Uç düğümleri Azure portalı üzerinden oluşturulabilir ve silinebilir ve küme oluşturma sırasında veya sonrasında kullanılabilir. Kenar düğümü oluşturulduktan sonra SSH kullanarak kenar düğümüne bağlanabilir ve HDInsight'ta Hadoop kümesine erişmek için istemci araçlarını çalıştırabilirsiniz. Kenar düğümü ssh uç noktası şeklindedir <EdgeNodeName>.<ClusterName>-ssh.azurehdinsight.net:22
.
Daha fazla bilgi için HDInsight'ta Apache Hadoop kümelerinde boş kenar düğümlerini kullanma makalesine bakın.
Kümelerin ölçeğini artırma ve azaltma özelliğini kullanma
HDInsight, kümelerinizdeki çalışan düğümlerinin ölçeğini artırma ve azaltma seçeneği sunarak esneklik sağlar. Bu özellik, bir kümeyi saatler sonra veya hafta sonları daraltmanıza ve yoğun iş taleplerinde genişletmenize olanak tanır. Daha fazla bilgi için bkz:
HdInsight'ı Azure Sanal Ağ ile kullanma
Azure Sanal Ağları, ağ trafiğini filtreleme ve yönlendirme yoluyla Azure Sanal Makineleri gibi Azure kaynaklarının birbirleriyle, İnternet'le ve şirket içi ağlarla güvenli bir şekilde iletişim kurmasını sağlar.
AZURE Sanal Ağı'nın HDInsight ile kullanılması aşağıdaki senaryoları etkinleştirir:
- HDInsight'a doğrudan şirket içi ağdan bağlanma.
- HDInsight'ı Azure Sanal ağındaki veri depolarına bağlama.
- İnternet üzerinden genel kullanıma açık olmayan Hadoop hizmetlerine doğrudan erişme. Örneğin Kafka API'leri veya HBase Java API'leri.
HDInsight yeni veya mevcut bir Azure Sanal Ağına eklenebilir. HDInsight mevcut bir Sanal Ağa ekleniyorsa, Azure veri merkezindeki çeşitli IP adreslerine sınırsız erişime izin vermek için mevcut ağ güvenlik gruplarının ve kullanıcı tanımlı yolların güncelleştirilmiş olması gerekir. Ayrıca, HDInsight hizmetleri tarafından kullanılan bağlantı noktalarına gelen trafiği engellememeye dikkat edin.
Uyarı
HDInsight şu anda zorlamalı tüneli desteklememektedir. Zorunlu tünelleme, giden İnternet trafiğini denetim ve günlük kaydı için bir cihaza yönlendiren bir alt ağ ayarıdır. HDInsight'ı bir alt ağa yüklemeden önce zorlamalı tüneli kaldırın veya HDInsight için yeni bir alt ağ oluşturun. HDInsight, giden ağ bağlantısını kısıtlamayı da desteklemez.
Daha fazla bilgi için aşağıdaki makalelere bakın:
Azure Sanal Ağ hizmet uç noktalarıyla Azure hizmetlerine güvenli bir şekilde bağlanma
HDInsight, Azure Blob Depolama, Azure Data Lake Storage 2. Nesil, Azure Cosmos DB ve SQL veritabanlarına güvenli bir şekilde bağlanmanızı sağlayan sanal ağ hizmet uç noktalarını destekler. Azure HDInsight için Hizmet Uç Noktası etkinleştirildiğinde trafik, Azure veri merkezinden güvenli bir yol üzerinden akar. Ağ katmanındaki bu gelişmiş güvenlik düzeyiyle, büyük veri depolama hesaplarını belirtilen Sanal Ağlara (VNTS) kilitleyebilir ve bu verilere erişmek ve bunları işlemek için HDInsight kümelerini sorunsuz bir şekilde kullanmaya devam edebilirsiniz.
Daha fazla bilgi için aşağıdaki makalelere bakın:
HDInsight'ı şirket içi ağa bağlama
HDInsight, Azure Sanal Ağları ve vpn ağ geçidi kullanılarak şirket içi ağa bağlanabilir. Bağlantı kurmak için aşağıdaki adımlar kullanılabilir:
- Şirket içi ağa bağlantısı olan bir Azure Sanal Ağında HDInsight kullanın.
- Sanal ağ ile şirket içi ağ arasında DNS ad çözümlemesini yapılandırın.
- Ağ trafiğini denetlemek için ağ güvenlik gruplarını veya kullanıcı tanımlı yolları (UDR) yapılandırın.
Daha fazla bilgi için HDInsight'ı şirket içi ağınıza bağlama makalesine bakın
Sonraki adımlar
Bu serideki bir sonraki makaleyi okuyun: Şirket içi Azure HDInsight Hadoop geçişi için en iyi depolama yöntemleri.