Apache Hadoop, Spark, Kafka ve daha fazlası ile HDInsight'ta kümeler ayarlama

Bu makalede, Azure HDInsight'ta Apache Hadoop, Apache Spark, Apache Kafka, Etkileşimli Sorgu veya Apache HBase'i ayarlamayı ve yapılandırmayı öğreneceksiniz. Ayrıca, kümeleri özelleştirmeyi ve bir etki alanına katarak güvenlik eklemeyi de öğrenirsiniz.

Hadoop kümesi, görevlerin dağıtılmış işlenmesi için kullanılan birkaç sanal makineden (düğüm olarak da bilinir) oluşur. HDInsight, tek tek düğümlerin yüklenmesi ve yapılandırılmasının uygulama ayrıntılarını işler. Yalnızca genel yapılandırma bilgilerini sağlarsınız.

Önemli

HDInsight kümesi faturalaması, bir küme oluşturulduktan sonra başlar ve küme silindiğinde durur. Faturalama dakika başına oranlanır, bu nedenle kullanılmadığında kümenizi her zaman silin. Küme silmeyi öğrenin.

Birden çok kümeyi birlikte kullanıyorsanız bir sanal ağ oluşturmak istiyorsunuz. Spark kümesi kullanıyorsanız Hive Ambarı Bağlayıcısı'nı da kullanmak istersiniz. Daha fazla bilgi için Azure HDInsight için sanal ağ planlama ve Apache Spark ve Apache Hive'ı Hive Ambar Bağlayıcı ile tümleştirme konularına bakın.

Küme kurulum yöntemleri

Aşağıdaki tabloda HDInsight kümesi ayarlamak için kullanabileceğiniz farklı yöntemler gösterilmektedir.

ile oluşturulan kümeler web tarayıcısı Komut satırı REST API SDK
Azure portalı      
Azure Data Factory
Azure CLI      
Azure PowerShell      
cURL    
Azure Resource Manager şablonları      

Bu makale, HDInsight kümesi oluşturabileceğiniz Azure portalında kurulumda size yol gösterir.

Temeller

HDInsight kümesi oluşturma seçeneklerini gösteren ekran görüntüsü.

Proje ayrıntıları

Azure Resource Manager , uygulamanızdaki kaynaklarla azure kaynak grubu olarak bilinen bir grup olarak çalışmanıza yardımcı olur. Tek bir eşgüdümlü işlemle uygulamanızın tüm kaynaklarını dağıtabilir, güncelleştirebilir, izleyebilir veya silebilirsiniz.

Küme ayrıntıları

Küme ayrıntıları ad, bölge, tür ve sürümü içerir.

Küme adı

HDInsight küme adları aşağıdaki kısıtlamalara sahiptir:

  • İzin verilen karakterler: a-z, 0-9 ve A-Z
  • Maksimum uzunluk: 59
  • Rezerve edilen adlar: uygulamalar
  • Küme adlandırma: Kapsam, tüm abonelikler genelinde tüm Azure'a yöneliktir. Küme adı dünya çapında benzersiz olmalıdır. İlk altı karakter bir sanal ağ içinde benzersiz olmalıdır.

Bölge

Küme konumunu açıkça belirtmeniz gerekmez. Küme, varsayılan depolama alanıyla aynı konumdadır. Desteklenen bölgelerin listesi için HDInsight fiyatlandırması üzerinde Bölge açılan listesini seçin.

Küme türü

Aşağıdaki tabloda, HDInsight şu anda her biri belirli işlevleri sağlamak için bir bileşen kümesine sahip olan küme türlerini sağlar.

Önemli

HDInsight kümeleri, her biri tek bir iş yükü veya teknoloji için çeşitli türlerde kullanılabilir. Desteklenen hiçbir yöntem, bir kümede HBase gibi birden çok türü birleştiren bir küme oluşturmaz. Çözümünüz birden çok HDInsight küme türüne yayılmış teknolojiler gerektiriyorsa, Azure sanal ağı gerekli küme türlerini bağlayabilir.

Küme türü İşlevsellik
Hadoop Depolanan verilerin toplu sorgu ve analizi.
HBase Büyük miktarda şemasız, NoSQL verisi için işleme.
Etkileşimli Sorgu Etkileşimli ve daha hızlı Hive sorguları için bellek içi önbelleğe alma.
Kafka Gerçek zamanlı akış veri işlem hatları ve uygulamaları oluşturmak için kullanabileceğiniz dağıtılmış bir akış platformu.
Spark Bellek içi işleme, etkileşimli sorgular, mikro toplu iş akışı işleme.

Sürüm

Bu küme için HDInsight sürümünü seçin. Daha fazla bilgi için bkz . Desteklenen HDInsight sürümleri.

Küme kimlik bilgileri

HDInsight kümeleri ile küme oluşturma sırasında iki kullanıcı hesabı yapılandırabilirsiniz:

  • Küme oturum açma kullanıcı adı: Varsayılan kullanıcı adı yöneticidir. Azure portalında temel yapılandırmayı kullanır. Küme kullanıcısı veya HTTP kullanıcısı olarak da adlandırılır.
  • Secure Shell (SSH) kullanıcı adı: SSH aracılığıyla kümeye bağlanmak için kullanılır. Daha fazla bilgi için bkz. HDInsight ile SSH kullanma.

HTTP kullanıcı adı aşağıdaki kısıtlamalara sahiptir:

  • İzin verilen özel karakterler: _ ve @
  • İzin verilmeyen karakterler: #;."',/:!*?$(){}[]<>|&--=+%~^space
  • Maksimum uzunluk: 20

SSH kullanıcı adı aşağıdaki kısıtlamalara sahiptir:

  • İzin verilen özel karakterler: _ ve @
  • İzin verilmeyen karakterler: #;."',/:!*?$(){}[]<>|&--=+%~^space
  • Maksimum uzunluk: 64
  • Ayrılmış adlar: hadoop, kullanıcılar, oozie, hive, mapred, ambari-qa, zookeeper, tez, hdfs, sqoop, yarn, hcat, ams, hbase, administrator, admin, user, user, user1, test, user2, test1, user3, admin1, 1, 123, a, actuser, adm, admin2, aspnet, backup, console, David, guest, John, owner, root, server, sql, support, support_388945a0, sys, test2, test3, user4, user5, spark

Depolama

HDFS uyumlu uç noktalarla küme depolama ayarlarını gösteren ekran görüntüsü.

Hadoop'un şirket içi yüklemesi kümedeki depolama için Hadoop Dağıtılmış Dosya Sistemi'ni (HDFS) kullansa da bulutta kümeye bağlı depolama uç noktalarını kullanırsınız. Bulut depolamayı kullanmak, verilerinizi korurken hesaplama için kullanılan HDInsight kümelerini güvenli bir şekilde silebileceğiniz anlamına gelir.

HDInsight kümeleri aşağıdaki depolama seçeneklerini kullanabilir:

  • Azure Data Lake Storage Gen2
  • Azure Storage Genel Amaç v2
  • Azure Depolama Bloğu blobu (yalnızca ikincil depolama olarak desteklenir)

HDInsight ile depolama seçenekleri hakkında daha fazla bilgi için bkz. Azure HDInsight kümeleriyle kullanılacak depolama seçeneklerini karşılaştırma.

HDInsight kümesinden farklı bir konumda daha fazla depolama hesabı kullanılması desteklenmez.

Yapılandırma sırasında, varsayılan depolama uç noktası için bir depolama hesabının veya Data Lake Storage'ın blob kapsayıcısını belirtirsiniz. Varsayılan depolama alanı uygulama ve sistem günlüklerini içerir. İsteğe bağlı olarak, kümenin erişebileceği daha fazla bağlı depolama hesabı ve Data Lake Storage hesabı belirtebilirsiniz. HDInsight kümesi ve bağımlı depolama hesapları aynı Azure konumunda olmalıdır.

Note

Güvenli aktarım gerektiren özellik, güvenli bir bağlantı aracılığıyla hesabınıza yapılan tüm istekleri zorunlu kılar. Bu özelliği yalnızca HDInsight kümesi sürüm 3.6 veya üzeri destekler. Daha fazla bilgi için bkz . Azure HDInsight'ta güvenli aktarım depolama hesaplarıyla Apache Hadoop kümesi oluşturma.

Bir küme oluşturduktan sonra güvenli depolama aktarımını etkinleştirmeyin çünkü depolama hesabınızı kullanmak hatalara neden olabilir. Güvenli aktarım zaten etkin olan bir depolama hesabı kullanarak yeni bir küme oluşturmak daha iyidir.

HDInsight, depolama alanında depolanan verilerinizi bir bölgeden diğerine otomatik olarak aktarmaz, taşımaz veya kopyalamaz.

Meta veri deposu ayarları

İsteğe bağlı Hive veya Apache Oozie meta veri depoları oluşturabilirsiniz. Tüm küme türleri meta veri depolarını desteklemez ve Azure Synapse Analytics meta veri depolarıyla uyumlu değildir.

Daha fazla bilgi için bkz. Azure HDInsight'ta dış meta veri depolarını kullanma.

Özel bir meta veri deposu oluşturduğunuzda, veritabanı adında tire veya boşluk kullanmayın. Bu karakterler küme oluşturma işleminin başarısız olmasına neden olabilir.

Hive için SQL veritabanı

HDInsight kümesini sildikten sonra Hive tablolarınızı korumak istiyorsanız, özel bir meta veri deposu kullanın. Daha sonra meta depoyu başka bir HDInsight kümesine ekleyebilirsiniz.

Bir HDInsight küme sürümü için oluşturulan HDInsight meta veri deposu farklı HDInsight küme sürümleri arasında paylaşılamaz. HDInsight sürümlerinin listesi için bkz . Desteklenen HDInsight sürümleri.

Hive için SQL veritabanıyla kimlik doğrulaması yapmak için yönetilen kimlikleri kullanabilirsiniz. Daha fazla bilgi için bkz. HDInsight'ta SQL Veritabanı kimlik doğrulaması için yönetilen kimliği kullanma.

Varsayılan meta veri deposu temel katman 5 DTU sınırına (yükseltilemez) sahip bir SQL veritabanı sağlar. Temel test amaçlarına uygundur. Büyük veya üretim iş yükleri için bir dış meta veri deposuna geçmenizi öneririz.

Oozie için SQL veritabanı

Oozie kullanırken performansı artırmak için özel bir meta veri deposu kullanın. Meta veri deposu, kümenizi sildikten sonra Oozie iş verilerine de erişim sağlayabilir.

Oozie için SQL veritabanıyla kimlik doğrulaması yapmak için yönetilen kimlikleri kullanabilirsiniz. Daha fazla bilgi için bkz. HDInsight'ta SQL Veritabanı kimlik doğrulaması için yönetilen kimliği kullanma.

Ambari için SQL veritabanı

Ambari, HDInsight kümelerini izlemek, yapılandırma değişiklikleri yapmak ve küme yönetimi bilgilerini ve iş geçmişini depolamak için kullanılır. Özel Ambari veritabanı özelliğiyle yeni bir küme dağıtabilir ve Ambari'yi yönettiğiniz bir dış veritabanında ayarlayabilirsiniz. Daha fazla bilgi için bkz. Özel Ambari veritabanı.

Ambari için SQL veritabanıyla kimlik doğrulaması yapmak için yönetilen kimlikleri kullanabilirsiniz. Daha fazla bilgi için bkz. HDInsight'ta SQL Veritabanı kimlik doğrulaması için yönetilen kimliği kullanma.

Özel Oozie meta veri depolarını yeniden kullanamazsınız. Özel bir Oozie meta veri deposu kullanmak için HDInsight kümesini oluştururken boş bir SQL veritabanı sağlamanız gerekir.

Güvenlik + ağ

Kurumsal güvenlik paketi seçeneğini gösteren ekran görüntüsü.

Kurumsal güvenlik paketi

Hadoop, Spark, HBase, Kafka ve Etkileşimli Sorgu küme türleri için kurumsal güvenlik paketini etkinleştirmeyi seçebilirsiniz. Bu paket, Apache Ranger kullanarak ve Microsoft Entra ile tümleştirerek daha güvenli bir küme kurulumuna sahip olmak için seçenek sağlar. Daha fazla bilgi için bkz. Azure HDInsight'ta kurumsal güvenliğe genel bakış.

Kurumsal güvenlik paketiyle HDInsight'ı Microsoft Entra ve Apache Ranger ile tümleştirebilirsiniz. Birden çok kullanıcı oluşturmak için kurumsal güvenlik paketini kullanabilirsiniz.

Etki alanına katılmış HDInsight kümesi oluşturma hakkında daha fazla bilgi için bkz. Etki alanına katılmış HDInsight korumalı alan ortamı oluşturma.

Taşıma Katmanı Güvenliği

Daha fazla bilgi için bkz . Aktarım Katmanı Güvenliği.

Sanal ağ

Çözümünüz birden çok HDInsight küme türüne yayılmış teknolojiler gerektiriyorsa, Azure sanal ağı gerekli küme türlerini bağlayabilir. Bu yapılandırma, kümelerin ve bunlara dağıttığınız tüm kodların birbirleriyle doğrudan iletişim kurmasına olanak tanır.

HDInsight ile Azure sanal ağı kullanma hakkında daha fazla bilgi için bkz. HDInsight için sanal ağ planlama.

Azure sanal ağı içinde iki küme türü kullanma örneği için bkz. Apache Kafka ile Apache Spark Yapılandırılmış Akışı Kullanma. Sanal ağ için belirli yapılandırma gereksinimleri de dahil olmak üzere bir sanal ağ ile HDInsight kullanma hakkında daha fazla bilgi için bkz. HDInsight için sanal ağ planlama.

Disk şifreleme ayarı

Daha fazla bilgi için bkz . Müşteri tarafından yönetilen anahtar disk şifrelemesi.

Kafka REST ara sunucusu

Bu ayar yalnızca Kafka küme türü için kullanılabilir. Daha fazla bilgi için bkz. REST proxy kullanma.

Kimlik

Daha fazla bilgi için bkz . Azure HDInsight'ta yönetilen kimlikler.

Yapılandırma + fiyatlandırma

HDInsight için düğüm boyutunuzu seçmeyi gösteren ekran görüntüsü.

Küme mevcut olduğu sürece düğüm kullanımı için faturalandırılırsınız. Faturalama, bir küme oluşturulduğunda başlar ve küme silindiğinde durur. Kümeler deallocate edilemez veya beklemeye alınamaz.

Düğüm yapılandırması

Her küme türünün kendi düğüm sayısı, düğümler için terminolojisi ve varsayılan VM boyutu vardır. Aşağıdaki tabloda, her düğüm türü için düğüm sayısı parantez içinde listelenmiştir.

Type Nodes Diagram
Hadoop Baş düğüm (2), Çalışan düğümü (1+) HDInsight Hadoop küme düğümleri.
HBase Baş sunucu (2), Bölge sunucusu (1+), Ana/ZooKeeper düğümü (3) HDInsight HBase küme türü kurulumu.
Spark Baş düğüm (2), Çalışan düğümü (1+), ZooKeeper düğümü (3) (A1 ZooKeeper VM boyutu için ücretsizdir) HDInsight spark küme türü kurulumu.

Daha fazla bilgi için bkz. Kümeler için varsayılan düğüm yapılandırması ve VM boyutları.

HDInsight kümelerinin maliyeti, düğüm sayısı ve düğümler için VM boyutları ile belirlenir.

Farklı küme türlerinin farklı düğüm türleri, düğüm sayısı ve düğüm boyutları vardır:

  • Hadoop küme türü varsayılan:

    • İki baş düğüm
    • Dört işçi düğümü

HDInsight'ı deniyorsanız bir çalışan düğümü kullanmanızı öneririz. HDInsight fiyatlandırması hakkında daha fazla bilgi için bkz. HDInsight fiyatlandırması.

Note

Küme boyutu sınırı Azure abonelikleri arasında değişir. Sınırı artırmak için Azure faturalama desteğine başvurun.

Kümeyi yapılandırmak için Azure portalını kullandığınızda, düğüm boyutu Yapılandırma + fiyatlandırma sekmesi aracılığıyla kullanılabilir. Portalda farklı düğüm boyutlarıyla ilişkili maliyeti de görebilirsiniz.

Sanal makine boyutları

Kümeleri dağıtırken, dağıtmayı planladığınız çözüme göre işlem kaynaklarını seçin. HDInsight kümeleri için aşağıdaki VM'ler kullanılır:

Farklı SDK'ları veya Azure PowerShell'i kullanarak bir küme oluştururken VM boyutu belirtmek için hangi değeri kullanmanız gerektiğini öğrenmek için bkz. HDInsight kümeleri için kullanılacak VM boyutları. Bu bağlantılı makalede tabloların Boyut sütunundaki değeri kullanın.

Önemli

Bir kümede 32'den fazla çalışan düğümüne ihtiyacınız varsa en az 8 çekirdekli ve 14 GB RAM'e sahip bir baş düğüm boyutu seçmeniz gerekir.

Daha fazla bilgi için bkz. VM'lerin boyutları. Çeşitli boyutların fiyatlandırması hakkında bilgi için bkz. HDInsight fiyatlandırması.

Disk ekleme

Note

Eklenen diskler yalnızca düğüm yöneticisi yerel dizinleri için yapılandırılır ve veri düğümü dizinleri için yapılandırılmaz.

HDInsight kümesi, sürüme göre önceden tanımlanmış disk alanıyla birlikte gelir. Bazı büyük uygulamaların çalıştırılması, disk dolu hatası LinkId=221672#ERROR_NOT_ENOUGH_DISK_SPACE ve iş hataları ile yetersiz disk alanına yol açabilir.

NodeManager yerel dizin yeni özelliğini kullanarak kümeye daha fazla disk ekleyebilirsiniz. Hive ve Spark kümesi oluşturma sırasında disk sayısını seçebilir ve bunları çalışan düğümlerine ekleyebilirsiniz. Seçilen disklerin her biri 1 TB olabilir ve NodeManager yerel dizinlerinin bir parçasıdır.

  1. Yapılandırma + fiyatlandırma sekmesinde Yönetilen diski etkinleştir'i seçin.
  2. Standart disklerden disk sayısını girin.
  3. Çalışan düğümünüzü seçin.

Disk sayısını, Küme yapılandırması'nın altındaki Gözden Geçir ve oluştur sekmesinde doğrulayabilirsiniz.

Uygulama ekleme

HDInsight uygulamalarını Linux tabanlı bir HDInsight kümesine yükleyebilirsiniz. Microsoft veya üçüncü taraflar tarafından sağlanan veya geliştirdiğiniz uygulamaları kullanabilirsiniz. Daha fazla bilgi için bkz. Azure HDInsight'ta üçüncü taraf Apache Hadoop uygulamalarını yükleme.

HDInsight uygulamalarının çoğu boş bir kenar düğümüne yüklenir. Boş kenar düğümü, baş düğümde olduğu gibi aynı istemci araçlarının yüklenip yapılandırıldığı bir Linux VM'dir. Kümeye erişmek, istemci uygulamalarınızı test etme ve istemci uygulamalarınızı barındırmak için kenar düğümünü kullanabilirsiniz. Daha fazla bilgi için bkz . HDInsight'ta boş kenar düğümlerini kullanma.

Betik eylemleri

Oluşturma sırasında betikleri kullanarak daha fazla bileşen yükleyebilir veya küme yapılandırmasını özelleştirebilirsiniz. Bu tür betikler, Azure portalından, HDInsight Windows PowerShell cmdlet'lerinden veya HDInsight .NET SDK'sından kullanabileceğiniz bir yapılandırma seçeneği olan betik eylemleri aracılığıyla çağrılır. Daha fazla bilgi için bkz. Betik eylemlerini kullanarak HDInsight kümesini özelleştirme.

Apache Mahout ve Cascading gibi bazı yerel Java bileşenleri kümede Java Arşivi (JAR) dosyaları olarak çalıştırılabilir. Bu JAR dosyalarını depolamaya dağıtabilir ve Hadoop iş gönderme mekanizmalarıyla HDInsight kümelerine gönderebilirsiniz. Daha fazla bilgi için bkz. Apache Hadoop işlerini program aracılığıyla gönderme.

Note

JAR dosyalarını HDInsight kümelerine dağıtma veya HDInsight kümelerindeki JAR dosyalarını çağırma konusunda sorun yaşıyorsanız Microsoft Desteği'ne başvurun.

HDInsight basamaklı işlemleri desteklemez ve Microsoft Desteği için uygun değildir. Desteklenen bileşenlerin listesi için bkz. HDInsight tarafından sağlanan küme sürümlerindeki yenilikler.

Bazen, oluşturma işlemi sırasında aşağıdaki yapılandırma dosyalarını yapılandırmak istersiniz:

  • clusterIdentity.xml
  • core-site.xml
  • gateway.xml
  • hbase-env.xml
  • hbase-site.xml
  • hdfs-site.xml
  • hive-env.xml
  • hive-site.xml
  • mapred-site
  • oozie-site.xml
  • oozie-env.xml
  • tez-site.xml
  • webhcat-site.xml
  • yarn-site.xml

Daha fazla bilgi için bkz. Bootstrap kullanarak HDInsight kümelerini özelleştirme.