HDInsight üzerinde Apache Kafka ile Apache Spark akış (DStream) örneği

Makale
03/15/2024

D Akışlar kullanarak HDInsight üzerinde Apache Kafka içine veya dışına veri akışı yapmak için Apache Spark kullanmayı öğrenin. Bu örnekte Spark kümesinde çalışan bir Jupyter Notebook kullanılır.

Not

Bu belgede yer alan adımlar hem HDInsight üzerinde Spark hem de HDInsight kümesinde Kafka içeren bir Azure kaynak grubu oluşturur. Bu kümelerin her ikisi de Spark kümesinin Kafka kümesiyle doğrudan iletişim kurmasına olanak tanıyan bir Azure Sanal Ağı içinde bulunur.

Bu belgedeki adımları tamamladığınızda, aşırı ücretlerden kaçınmak için kümeleri silmeyi unutmayın.

Önemli

Bu örnekte, eski bir Spark akış teknolojisi olan D Akışlar kullanılmaktadır. Daha yeni Spark akış özellikleri kullanan bir örnek için Apache Kafka ile Spark Yapılandırılmış Akış belgesine bakın.

Kümeleri oluşturma

HDInsight üzerinde Apache Kafka, Genel İnternet üzerinden Kafka aracılarına erişim sağlamaz. Kafka ile konuşan her şey, Kafka kümesindeki düğümler ile aynı Azure sanal ağında olmalıdır. Bu örnekte hem Kafka hem de Spark kümeleri bir Azure sanal ağında bulunur. Aşağıdaki diyagramda, iletişimin kümeler arasında nasıl aktığı gösterilmektedir:

Diagram of Spark and Kafka clusters in an Azure virtual network.

Not

Kafka'nın kendisi sanal ağ içindeki iletişimle sınırlı olsa da, kümedeki SSH ve Ambari gibi diğer hizmetlere İnternet üzerinden erişilebilir. HDInsight üzerinde kullanılabilir olan genel bağlantı noktaları hakkında daha fazla bilgi için bkz. HDInsight Tarafından Kullanılan Bağlantı Noktaları ve URI’ler.

Azure sanal ağı, Kafka ve Spark kümelerini el ile oluşturabilirsiniz ancak Azure Resource Manager şablonunu kullanmak daha kolaydır. Azure aboneliğinize azure sanal ağı, Kafka ve Spark kümeleri dağıtmak için aşağıdaki adımları kullanın.

Aşağıdaki düğmeyi kullanarak Azure'da oturum açın ve şablonu Azure portalında açın.

Uyarı

HDInsight üzerinde Kafka kullanılabilirliğini garanti etmek için kümenizin en az dört çalışan düğümü içermesi gerekir. Bu şablon, dört çalışan düğümü içeren bir Kafka kümesi oluşturur.

Bu şablon hem Kafka hem de Spark için bir HDInsight 4.0 kümesi oluşturur.

Özel dağıtım bölümündeki girdileri doldurmak için aşağıdaki bilgileri kullanın:

Özellik	Değer
Kaynak grubu	Bir grup oluşturun veya var olan bir grubu seçin.
Konum	Coğrafi olarak size yakın bir konum seçin.
Temel Küme Adı	Bu değer Spark ve Kafka kümelerinin temel adı olarak kullanılır. Örneğin, hdistreaming girildiğinde spark-hdistreaming adlı bir Spark kümesi ve kafka-hdistreaming adlı bir Kafka kümesi oluşturulur.
Küme Oturum Açma Kullanıcı Adı	Spark ve Kafka kümelerinin yönetici kullanıcı adı.
Küme Oturum Açma Parolası	Spark ve Kafka kümeleri için yönetici kullanıcı parolası.
SSH Kullanıcı Adı	Spark ve Kafka kümeleri için oluşturulacak SSH kullanıcısı.
SSH Parolası	Spark ve Kafka kümeleri için SSH kullanıcısının parolası.

HDInsight custom deployment parameters.

Hüküm ve Koşullar’ı okuyun ve ardından Yukarıda belirtilen hüküm ve koşulları kabul ediyorum’u seçin.
Son olarak Satın Al'ı seçin. Kümelerin oluşturulması yaklaşık 20 dakika sürer.

Kaynaklar oluşturulduktan sonra bir özet sayfası görüntülenir.

Resource group summary for the vnet and clusters.

Önemli

HDInsight kümelerinin adlarının spark-BASENAME ve kafka-BASENAME olduğuna dikkat edin; burada BASENAME şablona sağladığınız addır. Bu adları kümelere bağlanırken sonraki adımlarda kullanırsınız.

Not defterlerini kullanma

Bu belgede açıklanan örneğin kodu https://github.com/Azure-Samples/hdinsight-spark-scala-kafka sayfasından edinilebilir.

Küme silme

Uyarı

HDInsight kümeleri için faturalama, kullansanız da kullanmasanız da dakikada bir eşit olarak dağıtılır. Kullanmayı bitirdikten sonra kümenizi sildiğinizden emin olun. Bkz . HDInsight kümesini silme.

Bu belgedeki adımlar aynı Azure kaynak grubunda her iki kümeyi de oluşturduğundan, Kaynak grubunu Azure portalından silebilirsiniz. Grup silindiğinde, bu belge, Azure Sanal Ağ ve kümeler tarafından kullanılan depolama hesabı izlenerek oluşturulan tüm kaynaklar kaldırılır.

Sonraki adımlar

Bu örnekte, Kafka'yı okumak ve yazmak için Spark'ı kullanmayı öğrendiniz. Kafka ile çalışmanın diğer yollarını keşfetmek için aşağıdaki bağlantıları kullanın:

Aracılığıyla paylaş

HDInsight üzerinde Apache Kafka ile Apache Spark akış (DStream) örneği

Kümeleri oluşturma

Not defterlerini kullanma

Küme silme

Sonraki adımlar

Geri Bildirim

Ek kaynaklar