Düzenle

Aracılığıyla paylaş


Olay verilerini yönetmek için HDInsight ve Delta Lake kullanma

Azure HDInsight
Microsoft Entra ID
Azure Load Balancer
Azure ExpressRoute
Azure Virtual Network

Çözüm fikirleri

Bu makalede bir çözüm fikri açıklanmaktadır. Bulut mimarınız bu mimarinin tipik bir uygulaması için ana bileşenleri görselleştirmeye yardımcı olmak için bu kılavuzu kullanabilir. İş yükünüzün özel gereksinimlerine uygun iyi tasarlanmış bir çözüm tasarlamak için bu makaleyi başlangıç noktası olarak kullanın.

Bu makalede, saniyede milyonlarca akış olayını alıp işlemek ve ardından olayları bir Delta Lake tablosuna yazmak için kullanabileceğiniz bir çözüm açıklanmaktadır. Bu çözüm, Azure HDInsight'ta Apache Spark ve Apache Kafka kullanır.

Apache®, Apache Kafka ve Apache Spark, Apache Software Foundation'ın Birleşik Devletler ve/veya diğer ülke veya bölgelerde kayıtlı ticari markaları veya ticari markalarıdır. Bu işaretlerin kullanılması Apache Software Foundation tarafından onaylanmamaktadır.

Delta Lake Project, Linux Foundation'ın Birleşik Devletler ve/veya diğer ülkelerdeki tescilli ticari markasıdır.

Mimari

Akış verilerini alma ve işleme mimarisini gösteren diyagram.

Bu mimarinin bir Visio dosyasını indirin.

Jupyter Notebook logosu, ilgili şirketlerinin ticari markasıdır. Bu işaretin kullanılması herhangi bir onay anlamına gelmez.

Veri akışı

Aşağıdaki veri akışı önceki mimariye karşılık gelir.

  1. IoT olay verileri gibi gerçek zamanlı olay verileri, Apache Kafka üreticisi aracılığıyla Apache Kafka'ya alır.

  2. Apache Spark Yapılandırılmış Akış , verileri neredeyse gerçek zamanlı olarak işler.

  3. Apache Spark, dönüştürülmüş ve hesaplanan analiz yazmak için havuzlar sağlar. İşlenen veriler Delta Lake tablo biçiminde bir Azure Data Lake Storage hesabında depolanır.

  4. İşlenen veriler sürekli olarak Apache Kafka'ya alınır.

  5. Azure Data Lake Storage hesabındaki veriler aşağıdakiler için içgörüler sağlayabilir:

Bileşenler

  • HDInsight, kurumsal analiz için açık kaynak bileşenleri sağlar. Bu Apache bileşenlerini kurumsal düzeyde güvenlikle bir Azure ortamında çalıştırabilirsiniz. HDInsight ölçeklenebilirlik, güvenlik, merkezi izleme, genel kullanılabilirlik ve genişletilebilirlik gibi başka avantajlar da sunar.

  • HDInsight'ta Apache Kafka, gerçek zamanlı akış veri işlem hatları ve uygulamaları oluşturmak için kullanabileceğiniz, yönetilen bir açık kaynak dağıtılmış platformudur. Apache Kafka, kayıtları konu başlıkları, bölümler ve tüketici grupları halinde gruplandırabilmeniz ve üreticilerden tüketicilere çoğullayıcı olay akışlarını gruplandırabilmeniz için yüksek performans ve dayanıklılık sağlar.

  • HDInsight'ta Apache Spark, bulutta Apache Spark'ın yönetilen bir Microsoft uygulamasıdır ve Azure'daki çeşitli Spark tekliflerinden biridir.

  • Apache Spark Yapılandırılmış Akış , akışları işlemek için ölçeklenebilir, tam olarak bir kez hataya dayanıklılık altyapısıdır. Spark SQL altyapısı üzerine kurulmuştur. Yapılandırılmış Akış sorguları neredeyse gerçek zamanlıdır ve düşük gecikme süresine sahiptir. Apache Spark Yapılandırılmış Akış, veri kaynakları ve veri havuzları için çeşitli bağlayıcılar sağlar. Ayrıca çeşitli kaynak türlerinden birden çok akışı birleştirebilirsiniz.

  • Apache Kafka'da Apache Spark Yapılandırılmış Akış, sorguları toplu işleyip akışla aktarmak ve bunları bir depolama katmanında, veritabanında veya Apache Kafka'da depolamak için kullanılır.

  • Delta Lake depolama katmanı, Azure Depolama gibi bulut depolama alanında depolanan verilerin üzerine işlemsel depolama katmanı ekleyerek veri gölleri için güvenilirlik sağlar. Bu depolama katmanı, Apache Parquet veri dosyalarını dosya tabanlı işlem günlükleriyle genişletir. Verileri Delta Lake tablo biçiminde depolayarak atomiklik, tutarlılık, yalıtım ve dayanıklılık (ACID) işlemleri, şema evrimi ve geçmiş sürümleri gibi avantajlardan yararlanabilirsiniz.

  • Power BI Delta Lake tablo bağlayıcısı, Power BI'dan Delta Lake tablo verilerini okumak için kullanılır.

  • Machine Learning, topladığınız verileri makine öğrenmesi modellerinde kullanmak üzere gönderebileceğiniz bir Azure hizmetidir.

Senaryo ayrıntıları

Olay akışı, olay yayımcısından abonelere akan sürekli bir sabit olaylar dizisidir. Bazı iş kullanım örneklerinde bu olayları ham biçimde depolamanız ve ardından çeşitli analiz gereksinimleri için olayları temizlemeniz, dönüştürmeniz ve toplamanız gerekir. Hemen içgörüler oluşturan olayların neredeyse gerçek zamanlı işlenmesini ve analiz edilmesini sağlamak için olay akışını kullanın.

Olası kullanım örnekleri

Bu çözüm, işletmenizin neredeyse gerçek zamanlıya yakın hataya dayanıklı olay akışlarını tam olarak bir kez işlemesi için bir fırsat sağlar. Bu yaklaşım, Spark Yapılandırılmış Akış için giriş kaynağı olarak Apache Kafka'yı ve depolama katmanı olarak Delta Lake'i kullanır.

İş senaryoları şunlardır:

  • Hesap oturum açma dolandırıcılığı algılama
  • Geçerli piyasa koşullarının analizi
  • Gerçek zamanlı borsa verilerinin analizi
  • Kredi kartı dolandırıcılığı algılama
  • Dijital görüntü ve video işleme
  • Uyuşturucu araştırması ve keşfi
  • Kurumsal büyük veri çözümleri için ara yazılım
  • Kısa satış riski hesaplaması
  • Akıllı üretim ve endüstriyel IoT (IIoT)

Bu çözüm aşağıdaki sektörler için geçerlidir:

  • Tarım
  • Tüketici paketli ürünler (CPG)
  • Siber güvenlik
  • Finance
  • Sağlık
  • Sigorta
  • Lojistik
  • Manufacturing
  • Retail

Katkıda Bulunanlar

Bu makale Microsoft tarafından yönetilir. Başlangıçta aşağıdaki katkıda bulunanlar tarafından yazılmıştır.

Asıl yazarlar:

Genel olmayan LinkedIn profillerini görmek için LinkedIn'de oturum açın.

Sonraki adımlar