HDInsight Spark ve Kafka kullanma

Tamamlandı

Veri mühendisi olarak, çözümünüzü oluşturmak için oluşturulacak en uygun HDInsight kümesi türünü belirlemeniz gerekir. Spark ve Kafka kümeleri birlikte kullanıldığında gerçek zamanlı veya gerçek zamanlıya yakın veri akışlarını almak ve işlemek için harika bir yol sağlar.

Gerçek zamanlı verileri almak için Kafka kullanma

Apache Kafka mesajlaşma sistemi, yayımlama abone olma sistemi veya akış işleme platformu olarak kullanılabilir. Verileri gerçek zamanlı olarak okunabilen, işlenebilen ve aynı anda birden çok tüketici tarafından okunabilen bir günlüğe depolar.

Gerçek zamanlı olayları işlemek için Spark yapılandırılmış akışı kullanma

Apache Spark, verileri büyük ölçekte hızla işlemek, sorgulamak, analiz etmek ve dönüştürmek için birçok durumda kullanılabilen açık kaynaklı bir dağıtılmış veri işleme altyapısıdır. Spark genellikle büyük verilerde ETL ve SQL işleri gerçekleştirmek, akış verilerini işlemek ve makine öğrenmesi gerçekleştirmek için kullanılır.

Spark yapılandırılmış akışı, hataya dayanıklılık garantileri, toplu ve akış verilerini birleştirme, geç gelen verileri işleme ve bu modülün ilerleyen bölümlerinde daha fazla bilgi edinebileceğimiz daha birçok özellik gibi diğer platformlarda kullanılamayan özelliklere sahiptir. Ayrıca Azure HDInsight ile hem Spark hem de Kafka kümenizi barındıran bir sanal ağ oluşturabilirsiniz. Her iki küme de tek bir sanal ağda yer alırsa Spark kümesi, kümeler veya uç noktalar arasında konuşmak yerine Kafka kümesindeki tek tek veri bölümlerine erişebilir. Tek tek veri bölümlerine erişim sağlayarak, gerçek zamanlı işleme işinde sahip olduğunuz paralelliği artırarak size daha iyi aktarım hızı sağlarsınız.

Spark ile Kafka kullanma senaryoları

Apache Kafka ve Spark'ın etkinleştireceği gerçek zamanlı akıştan yararlanabilecek birçok gerçek zamanlı analiz senaryosu vardır. Tüm bu senaryolar hem Kafka bileşeni olan bir akış veri alımı bileşenine hem de Spark bileşeni olan veriler üzerinde çalışan bir analiz işlemine sahiptir.

Scenarios for using Kafka with Spark

  • finansal işlem verilerini almak ve bunları sahte davranışların geçmiş desenleri ile karşılaştırmak için gerçek zamanlı sahtekarlık algılama.
  • IoT cihaz verilerini aldığınızda ve mesafe, hız, konum veya sıcaklık verileri gibi belirli algılayıcı verilerinin eşiğe ulaştığı durumlarda tepki verebileceğiniz filo yönetimi ve bağlı araç senaryoları.
  • Ürünlerin sayfa yerleşiminin dürtü satın alma işlemlerini ve tıklamaları nasıl etkileyeebileceğini analiz etmek için e-ticaret çözümlerinde tıklama akışı analizi.
  • Gerçek zamanlı hasta izlemesi, kan basıncı ve kalp atış hızı bilgilerini izlemek ve bir hastanın kritik durumda olduğu durumlarda doktorları bilgilendirmektir.
  • Elektrik kullanımını izleyen ve talepler değiştikçe yanıt veren akıllı şebeke çözümleri.
  • Yeniden stoklamayı zamanlamak ve ödeme şeridi personelini değiştirmek için günün belirli saatlerinde hangi satın almaların yapıldığını öğrenmek için mağazalardaki müşteri davranışı.
  • Sunucu kullanılabilirliğini ve bant genişliğini izlemek ve gerektiğinde trafiği yeniden yönlendirmek için BT Altyapısı ve ağ izleme.
  • gerçek zamanlı talep ve stok yönetimi, düşük stok düzeylerini izlemek ve bu öğelerin yeniden siparişini veya stoklarını yeniden sipariş etmek için.

Toplu işlemden akışa kolay geçiş

Çoğu durumda bu senaryolar şirket içinde veya verilerin toplu olarak işlenmesiyle başlar, ancak çözümler geliştikçe ve ihtiyaçlar geliştikçe toplu işlem akışa taşınır ve şirket içi uygulamalar buluta taşınır. Spark yapılandırılmış akış, yukarıda belirtildiği gibi hem toplu işleri hem de akış işlerini işleyebilme özelliğiyle benzersizdir. Bu özellik sayesinde, bir toplu işlemden diğerine geçiş yapabileceğiniz gibi gerçek zamanlı işlere geçiş yapmayı veya aynı uygulama ve çerçeveleri kullanarak bunları aynı anda kullanmayı kolaylaştırır.