Kafka ve Spark mimarisi oluşturma

Tamamlandı

Kafka ve Spark'ı Azure HDInsight'ta birlikte kullanmak için bunları aynı sanal ağa yerleştirmeniz veya kümelerin DNS Adı çözümlemesiyle çalışması için sanal ağları eşlemeniz gerekir.

What is a Kafka and Spark architecture

Aynı sanal ağda küme oluşturmak için yordam şudur:

  1. Kaynak grubu oluşturma
  2. Kaynak grubuna sanal ağ ekleme
  3. Aynı sanal ağa bir Kafka kümesi ve spark kümesi ekleyin veya alternatif olarak bu hizmetlerin DNS ad çözümlemesiyle çalıştığı sanal ağları eşleyin.

HDInsight Kafka ve Spark kümesini bağlamanın önerilen yolu, Spark kümesinin Kafka kümesindeki verilerin tek tek bölümlerine erişmesini sağlayan yerel Spark-Kafka bağlayıcısıdır. Bu bağlayıcı gerçek zamanlı işleme işinizde sahip olduğunuz paralelliği artırır ve çok yüksek aktarım hızı sağlar.

Her iki küme de aynı sanal ağda olduğunda, Spark akış kodunda Kafka Aracısı FQDN'lerini de kullanabilir ve kurumsal güvenlik için sanal ağda NSG kuralları oluşturabilirsiniz.

Çözüm mimarisi

Azure'da gerçek zamanlı akış analizi desenleri genellikle aşağıdaki çözüm mimarisini kullanır.

  1. Alma: Yapılandırılmamış veya yapılandırılmış veriler Azure HDInsight'ta bir Kafka kümesine alınır.
  2. Hazırlama ve eğitme: HdInsight üzerinde Spark ile veriler hazırlanıp eğitilir.
  3. Model ve hizmet: Veriler Azure Synapse veya HDInsight Etkileşimli Sorgu gibi bir veri ambarı içine alınır.
  4. Zeka: Veriler Power BI veya Tableau gibi analiz panosuna sunulur.
  5. Depolama: Veriler Azure Depolama gibi bir soğuk depolama çözümüne konur ve daha sonra sunulur.

A Kafka and Spark solution architecture

Örnek Senaryo Mimarisi

Sonraki ünitede örnek uygulama için çözüm mimarisini oluşturmaya başlayacaksınız. Bu örnekte kaynak grubu, sanal ağ, Spark kümesi ve Kafka kümesi oluşturmak için bir Azure Resource Manager şablon dosyası kullanılır.

Kümeler dağıtıldıktan sonra Kafka aracılarından birine bağlanacak ve Python üretici dosyasını baş düğüme kopyalayacaksınız. Bu üretici dosyası her 10 saniyede bir yapay hisse senedi fiyatları sağlar, ayrıca iletinin bölüm numarasını ve uzaklığını konsola yazar.

Yapımcı çalıştırıldıktan sonra Jupyter not defterini Spark kümesine yükleyebilirsiniz. Not defterinde Spark ve Kafka kümelerini bağlayacak ve bir olay penceresinde hisse senedi için yüksek ve düşük değerleri bulma da dahil olmak üzere veriler üzerinde bazı örnek sorgular çalıştıracaksınız.

A Kafka and Spark example solution architecture