Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Bu makalede, Azure HDInsight'ta Apache Hadoop, Apache Spark, Apache Kafka, Etkileşimli Sorgu veya Apache HBase'i ayarlamayı ve yapılandırmayı öğreneceksiniz. Ayrıca, kümeleri özelleştirmeyi ve bir etki alanına katarak güvenlik eklemeyi de öğrenirsiniz.
Hadoop kümesi, görevlerin dağıtılmış işlenmesi için kullanılan birkaç sanal makineden (düğüm olarak da bilinir) oluşur. HDInsight, tek tek düğümlerin yüklenmesi ve yapılandırılmasının uygulama ayrıntılarını işler. Yalnızca genel yapılandırma bilgilerini sağlarsınız.
Önemli
HDInsight kümesi faturalaması, bir küme oluşturulduktan sonra başlar ve küme silindiğinde durur. Faturalama dakika başına oranlanır, bu nedenle kullanılmadığında kümenizi her zaman silin. Küme silmeyi öğrenin.
Birden çok kümeyi birlikte kullanıyorsanız bir sanal ağ oluşturmak istiyorsunuz. Spark kümesi kullanıyorsanız Hive Ambarı Bağlayıcısı'nı da kullanmak istersiniz. Daha fazla bilgi için Azure HDInsight için sanal ağ planlama ve Apache Spark ve Apache Hive'ı Hive Ambar Bağlayıcı ile tümleştirme konularına bakın.
Küme kurulum yöntemleri
Aşağıdaki tabloda HDInsight kümesi ayarlamak için kullanabileceğiniz farklı yöntemler gösterilmektedir.
| ile oluşturulan kümeler | web tarayıcısı | Komut satırı | REST API | SDK |
|---|---|---|---|---|
| Azure portalı | ✅ | |||
| Azure Data Factory | ✅ | ✅ | ✅ | ✅ |
| Azure CLI | ✅ | |||
| Azure PowerShell | ✅ | |||
| cURL | ✅ | ✅ | ||
| Azure Resource Manager şablonları | ✅ |
Bu makale, HDInsight kümesi oluşturabileceğiniz Azure portalında kurulumda size yol gösterir.
Temeller
Proje ayrıntıları
Azure Resource Manager , uygulamanızdaki kaynaklarla azure kaynak grubu olarak bilinen bir grup olarak çalışmanıza yardımcı olur. Tek bir eşgüdümlü işlemle uygulamanızın tüm kaynaklarını dağıtabilir, güncelleştirebilir, izleyebilir veya silebilirsiniz.
Küme ayrıntıları
Küme ayrıntıları ad, bölge, tür ve sürümü içerir.
Küme adı
HDInsight küme adları aşağıdaki kısıtlamalara sahiptir:
- İzin verilen karakterler: a-z, 0-9 ve A-Z
- Maksimum uzunluk: 59
- Rezerve edilen adlar: uygulamalar
- Küme adlandırma: Kapsam, tüm abonelikler genelinde tüm Azure'a yöneliktir. Küme adı dünya çapında benzersiz olmalıdır. İlk altı karakter bir sanal ağ içinde benzersiz olmalıdır.
Bölge
Küme konumunu açıkça belirtmeniz gerekmez. Küme, varsayılan depolama alanıyla aynı konumdadır. Desteklenen bölgelerin listesi için HDInsight fiyatlandırması üzerinde Bölge açılan listesini seçin.
Küme türü
Aşağıdaki tabloda, HDInsight şu anda her biri belirli işlevleri sağlamak için bir bileşen kümesine sahip olan küme türlerini sağlar.
Önemli
HDInsight kümeleri, her biri tek bir iş yükü veya teknoloji için çeşitli türlerde kullanılabilir. Desteklenen hiçbir yöntem, bir kümede HBase gibi birden çok türü birleştiren bir küme oluşturmaz. Çözümünüz birden çok HDInsight küme türüne yayılmış teknolojiler gerektiriyorsa, Azure sanal ağı gerekli küme türlerini bağlayabilir.
| Küme türü | İşlevsellik |
|---|---|
| Hadoop | Depolanan verilerin toplu sorgu ve analizi. |
| HBase | Büyük miktarda şemasız, NoSQL verisi için işleme. |
| Etkileşimli Sorgu | Etkileşimli ve daha hızlı Hive sorguları için bellek içi önbelleğe alma. |
| Kafka | Gerçek zamanlı akış veri işlem hatları ve uygulamaları oluşturmak için kullanabileceğiniz dağıtılmış bir akış platformu. |
| Spark | Bellek içi işleme, etkileşimli sorgular, mikro toplu iş akışı işleme. |
Sürüm
Bu küme için HDInsight sürümünü seçin. Daha fazla bilgi için bkz . Desteklenen HDInsight sürümleri.
Küme kimlik bilgileri
HDInsight kümeleri ile küme oluşturma sırasında iki kullanıcı hesabı yapılandırabilirsiniz:
- Küme oturum açma kullanıcı adı: Varsayılan kullanıcı adı yöneticidir. Azure portalında temel yapılandırmayı kullanır. Küme kullanıcısı veya HTTP kullanıcısı olarak da adlandırılır.
- Secure Shell (SSH) kullanıcı adı: SSH aracılığıyla kümeye bağlanmak için kullanılır. Daha fazla bilgi için bkz. HDInsight ile SSH kullanma.
HTTP kullanıcı adı aşağıdaki kısıtlamalara sahiptir:
- İzin verilen özel karakterler: _ ve @
- İzin verilmeyen karakterler: #;."',/:!*?$(){}[]<>|&--=+%~^space
- Maksimum uzunluk: 20
SSH kullanıcı adı aşağıdaki kısıtlamalara sahiptir:
- İzin verilen özel karakterler: _ ve @
- İzin verilmeyen karakterler: #;."',/:!*?$(){}[]<>|&--=+%~^space
- Maksimum uzunluk: 64
- Ayrılmış adlar: hadoop, kullanıcılar, oozie, hive, mapred, ambari-qa, zookeeper, tez, hdfs, sqoop, yarn, hcat, ams, hbase, administrator, admin, user, user, user1, test, user2, test1, user3, admin1, 1, 123, a, actuser, adm, admin2, aspnet, backup, console, David, guest, John, owner, root, server, sql, support, support_388945a0, sys, test2, test3, user4, user5, spark
Depolama
Hadoop'un şirket içi yüklemesi kümedeki depolama için Hadoop Dağıtılmış Dosya Sistemi'ni (HDFS) kullansa da bulutta kümeye bağlı depolama uç noktalarını kullanırsınız. Bulut depolamayı kullanmak, verilerinizi korurken hesaplama için kullanılan HDInsight kümelerini güvenli bir şekilde silebileceğiniz anlamına gelir.
HDInsight kümeleri aşağıdaki depolama seçeneklerini kullanabilir:
- Azure Data Lake Storage Gen2
- Azure Storage Genel Amaç v2
- Azure Depolama Bloğu blobu (yalnızca ikincil depolama olarak desteklenir)
HDInsight ile depolama seçenekleri hakkında daha fazla bilgi için bkz. Azure HDInsight kümeleriyle kullanılacak depolama seçeneklerini karşılaştırma.
HDInsight kümesinden farklı bir konumda daha fazla depolama hesabı kullanılması desteklenmez.
Yapılandırma sırasında, varsayılan depolama uç noktası için bir depolama hesabının veya Data Lake Storage'ın blob kapsayıcısını belirtirsiniz. Varsayılan depolama alanı uygulama ve sistem günlüklerini içerir. İsteğe bağlı olarak, kümenin erişebileceği daha fazla bağlı depolama hesabı ve Data Lake Storage hesabı belirtebilirsiniz. HDInsight kümesi ve bağımlı depolama hesapları aynı Azure konumunda olmalıdır.
Note
Güvenli aktarım gerektiren özellik, güvenli bir bağlantı aracılığıyla hesabınıza yapılan tüm istekleri zorunlu kılar. Bu özelliği yalnızca HDInsight kümesi sürüm 3.6 veya üzeri destekler. Daha fazla bilgi için bkz . Azure HDInsight'ta güvenli aktarım depolama hesaplarıyla Apache Hadoop kümesi oluşturma.
Bir küme oluşturduktan sonra güvenli depolama aktarımını etkinleştirmeyin çünkü depolama hesabınızı kullanmak hatalara neden olabilir. Güvenli aktarım zaten etkin olan bir depolama hesabı kullanarak yeni bir küme oluşturmak daha iyidir.
HDInsight, depolama alanında depolanan verilerinizi bir bölgeden diğerine otomatik olarak aktarmaz, taşımaz veya kopyalamaz.
Meta veri deposu ayarları
İsteğe bağlı Hive veya Apache Oozie meta veri depoları oluşturabilirsiniz. Tüm küme türleri meta veri depolarını desteklemez ve Azure Synapse Analytics meta veri depolarıyla uyumlu değildir.
Daha fazla bilgi için bkz. Azure HDInsight'ta dış meta veri depolarını kullanma.
Özel bir meta veri deposu oluşturduğunuzda, veritabanı adında tire veya boşluk kullanmayın. Bu karakterler küme oluşturma işleminin başarısız olmasına neden olabilir.
Hive için SQL veritabanı
HDInsight kümesini sildikten sonra Hive tablolarınızı korumak istiyorsanız, özel bir meta veri deposu kullanın. Daha sonra meta depoyu başka bir HDInsight kümesine ekleyebilirsiniz.
Bir HDInsight küme sürümü için oluşturulan HDInsight meta veri deposu farklı HDInsight küme sürümleri arasında paylaşılamaz. HDInsight sürümlerinin listesi için bkz . Desteklenen HDInsight sürümleri.
Hive için SQL veritabanıyla kimlik doğrulaması yapmak için yönetilen kimlikleri kullanabilirsiniz. Daha fazla bilgi için bkz. HDInsight'ta SQL Veritabanı kimlik doğrulaması için yönetilen kimliği kullanma.
Varsayılan meta veri deposu temel katman 5 DTU sınırına (yükseltilemez) sahip bir SQL veritabanı sağlar. Temel test amaçlarına uygundur. Büyük veya üretim iş yükleri için bir dış meta veri deposuna geçmenizi öneririz.
Oozie için SQL veritabanı
Oozie kullanırken performansı artırmak için özel bir meta veri deposu kullanın. Meta veri deposu, kümenizi sildikten sonra Oozie iş verilerine de erişim sağlayabilir.
Oozie için SQL veritabanıyla kimlik doğrulaması yapmak için yönetilen kimlikleri kullanabilirsiniz. Daha fazla bilgi için bkz. HDInsight'ta SQL Veritabanı kimlik doğrulaması için yönetilen kimliği kullanma.
Ambari için SQL veritabanı
Ambari, HDInsight kümelerini izlemek, yapılandırma değişiklikleri yapmak ve küme yönetimi bilgilerini ve iş geçmişini depolamak için kullanılır. Özel Ambari veritabanı özelliğiyle yeni bir küme dağıtabilir ve Ambari'yi yönettiğiniz bir dış veritabanında ayarlayabilirsiniz. Daha fazla bilgi için bkz. Özel Ambari veritabanı.
Ambari için SQL veritabanıyla kimlik doğrulaması yapmak için yönetilen kimlikleri kullanabilirsiniz. Daha fazla bilgi için bkz. HDInsight'ta SQL Veritabanı kimlik doğrulaması için yönetilen kimliği kullanma.
Özel Oozie meta veri depolarını yeniden kullanamazsınız. Özel bir Oozie meta veri deposu kullanmak için HDInsight kümesini oluştururken boş bir SQL veritabanı sağlamanız gerekir.
Güvenlik + ağ
Kurumsal güvenlik paketi
Hadoop, Spark, HBase, Kafka ve Etkileşimli Sorgu küme türleri için kurumsal güvenlik paketini etkinleştirmeyi seçebilirsiniz. Bu paket, Apache Ranger kullanarak ve Microsoft Entra ile tümleştirerek daha güvenli bir küme kurulumuna sahip olmak için seçenek sağlar. Daha fazla bilgi için bkz. Azure HDInsight'ta kurumsal güvenliğe genel bakış.
Kurumsal güvenlik paketiyle HDInsight'ı Microsoft Entra ve Apache Ranger ile tümleştirebilirsiniz. Birden çok kullanıcı oluşturmak için kurumsal güvenlik paketini kullanabilirsiniz.
Etki alanına katılmış HDInsight kümesi oluşturma hakkında daha fazla bilgi için bkz. Etki alanına katılmış HDInsight korumalı alan ortamı oluşturma.
Taşıma Katmanı Güvenliği
Daha fazla bilgi için bkz . Aktarım Katmanı Güvenliği.
Sanal ağ
Çözümünüz birden çok HDInsight küme türüne yayılmış teknolojiler gerektiriyorsa, Azure sanal ağı gerekli küme türlerini bağlayabilir. Bu yapılandırma, kümelerin ve bunlara dağıttığınız tüm kodların birbirleriyle doğrudan iletişim kurmasına olanak tanır.
HDInsight ile Azure sanal ağı kullanma hakkında daha fazla bilgi için bkz. HDInsight için sanal ağ planlama.
Azure sanal ağı içinde iki küme türü kullanma örneği için bkz. Apache Kafka ile Apache Spark Yapılandırılmış Akışı Kullanma. Sanal ağ için belirli yapılandırma gereksinimleri de dahil olmak üzere bir sanal ağ ile HDInsight kullanma hakkında daha fazla bilgi için bkz. HDInsight için sanal ağ planlama.
Disk şifreleme ayarı
Daha fazla bilgi için bkz . Müşteri tarafından yönetilen anahtar disk şifrelemesi.
Kafka REST ara sunucusu
Bu ayar yalnızca Kafka küme türü için kullanılabilir. Daha fazla bilgi için bkz. REST proxy kullanma.
Kimlik
Daha fazla bilgi için bkz . Azure HDInsight'ta yönetilen kimlikler.
Yapılandırma + fiyatlandırma
Küme mevcut olduğu sürece düğüm kullanımı için faturalandırılırsınız. Faturalama, bir küme oluşturulduğunda başlar ve küme silindiğinde durur. Kümeler deallocate edilemez veya beklemeye alınamaz.
Düğüm yapılandırması
Her küme türünün kendi düğüm sayısı, düğümler için terminolojisi ve varsayılan VM boyutu vardır. Aşağıdaki tabloda, her düğüm türü için düğüm sayısı parantez içinde listelenmiştir.
| Type | Nodes | Diagram |
|---|---|---|
| Hadoop | Baş düğüm (2), Çalışan düğümü (1+) |
|
| HBase | Baş sunucu (2), Bölge sunucusu (1+), Ana/ZooKeeper düğümü (3) |
|
| Spark | Baş düğüm (2), Çalışan düğümü (1+), ZooKeeper düğümü (3) (A1 ZooKeeper VM boyutu için ücretsizdir) |
|
Daha fazla bilgi için bkz. Kümeler için varsayılan düğüm yapılandırması ve VM boyutları.
HDInsight kümelerinin maliyeti, düğüm sayısı ve düğümler için VM boyutları ile belirlenir.
Farklı küme türlerinin farklı düğüm türleri, düğüm sayısı ve düğüm boyutları vardır:
Hadoop küme türü varsayılan:
- İki baş düğüm
- Dört işçi düğümü
HDInsight'ı deniyorsanız bir çalışan düğümü kullanmanızı öneririz. HDInsight fiyatlandırması hakkında daha fazla bilgi için bkz. HDInsight fiyatlandırması.
Note
Küme boyutu sınırı Azure abonelikleri arasında değişir. Sınırı artırmak için Azure faturalama desteğine başvurun.
Kümeyi yapılandırmak için Azure portalını kullandığınızda, düğüm boyutu Yapılandırma + fiyatlandırma sekmesi aracılığıyla kullanılabilir. Portalda farklı düğüm boyutlarıyla ilişkili maliyeti de görebilirsiniz.
Sanal makine boyutları
Kümeleri dağıtırken, dağıtmayı planladığınız çözüme göre işlem kaynaklarını seçin. HDInsight kümeleri için aşağıdaki VM'ler kullanılır:
- A ve D1-4 serisi VM'ler: Genel amaçlı Linux VM boyutları
- D11-14 serisi VM: Bellek için iyileştirilmiş Linux VM boyutları
Farklı SDK'ları veya Azure PowerShell'i kullanarak bir küme oluştururken VM boyutu belirtmek için hangi değeri kullanmanız gerektiğini öğrenmek için bkz. HDInsight kümeleri için kullanılacak VM boyutları. Bu bağlantılı makalede tabloların Boyut sütunundaki değeri kullanın.
Önemli
Bir kümede 32'den fazla çalışan düğümüne ihtiyacınız varsa en az 8 çekirdekli ve 14 GB RAM'e sahip bir baş düğüm boyutu seçmeniz gerekir.
Daha fazla bilgi için bkz. VM'lerin boyutları. Çeşitli boyutların fiyatlandırması hakkında bilgi için bkz. HDInsight fiyatlandırması.
Disk ekleme
Note
Eklenen diskler yalnızca düğüm yöneticisi yerel dizinleri için yapılandırılır ve veri düğümü dizinleri için yapılandırılmaz.
HDInsight kümesi, sürüme göre önceden tanımlanmış disk alanıyla birlikte gelir. Bazı büyük uygulamaların çalıştırılması, disk dolu hatası LinkId=221672#ERROR_NOT_ENOUGH_DISK_SPACE ve iş hataları ile yetersiz disk alanına yol açabilir.
NodeManager yerel dizin yeni özelliğini kullanarak kümeye daha fazla disk ekleyebilirsiniz. Hive ve Spark kümesi oluşturma sırasında disk sayısını seçebilir ve bunları çalışan düğümlerine ekleyebilirsiniz. Seçilen disklerin her biri 1 TB olabilir ve NodeManager yerel dizinlerinin bir parçasıdır.
- Yapılandırma + fiyatlandırma sekmesinde Yönetilen diski etkinleştir'i seçin.
- Standart disklerden disk sayısını girin.
- Çalışan düğümünüzü seçin.
Disk sayısını, Küme yapılandırması'nın altındaki Gözden Geçir ve oluştur sekmesinde doğrulayabilirsiniz.
Uygulama ekleme
HDInsight uygulamalarını Linux tabanlı bir HDInsight kümesine yükleyebilirsiniz. Microsoft veya üçüncü taraflar tarafından sağlanan veya geliştirdiğiniz uygulamaları kullanabilirsiniz. Daha fazla bilgi için bkz. Azure HDInsight'ta üçüncü taraf Apache Hadoop uygulamalarını yükleme.
HDInsight uygulamalarının çoğu boş bir kenar düğümüne yüklenir. Boş kenar düğümü, baş düğümde olduğu gibi aynı istemci araçlarının yüklenip yapılandırıldığı bir Linux VM'dir. Kümeye erişmek, istemci uygulamalarınızı test etme ve istemci uygulamalarınızı barındırmak için kenar düğümünü kullanabilirsiniz. Daha fazla bilgi için bkz . HDInsight'ta boş kenar düğümlerini kullanma.
Betik eylemleri
Oluşturma sırasında betikleri kullanarak daha fazla bileşen yükleyebilir veya küme yapılandırmasını özelleştirebilirsiniz. Bu tür betikler, Azure portalından, HDInsight Windows PowerShell cmdlet'lerinden veya HDInsight .NET SDK'sından kullanabileceğiniz bir yapılandırma seçeneği olan betik eylemleri aracılığıyla çağrılır. Daha fazla bilgi için bkz. Betik eylemlerini kullanarak HDInsight kümesini özelleştirme.
Apache Mahout ve Cascading gibi bazı yerel Java bileşenleri kümede Java Arşivi (JAR) dosyaları olarak çalıştırılabilir. Bu JAR dosyalarını depolamaya dağıtabilir ve Hadoop iş gönderme mekanizmalarıyla HDInsight kümelerine gönderebilirsiniz. Daha fazla bilgi için bkz. Apache Hadoop işlerini program aracılığıyla gönderme.
Note
JAR dosyalarını HDInsight kümelerine dağıtma veya HDInsight kümelerindeki JAR dosyalarını çağırma konusunda sorun yaşıyorsanız Microsoft Desteği'ne başvurun.
HDInsight basamaklı işlemleri desteklemez ve Microsoft Desteği için uygun değildir. Desteklenen bileşenlerin listesi için bkz. HDInsight tarafından sağlanan küme sürümlerindeki yenilikler.
Bazen, oluşturma işlemi sırasında aşağıdaki yapılandırma dosyalarını yapılandırmak istersiniz:
- clusterIdentity.xml
- core-site.xml
- gateway.xml
- hbase-env.xml
- hbase-site.xml
- hdfs-site.xml
- hive-env.xml
- hive-site.xml
- mapred-site
- oozie-site.xml
- oozie-env.xml
- tez-site.xml
- webhcat-site.xml
- yarn-site.xml
Daha fazla bilgi için bkz. Bootstrap kullanarak HDInsight kümelerini özelleştirme.