Olay verilerini yönetmek için HDInsight ve Delta Lake kullanma

Azure HDInsight

Microsoft Entra ID

Azure Load Balancer

Azure ExpressRoute

Azure Virtual Network

Çözüm fikirleri

Bu makalede bir çözüm fikri açıklanmaktadır. Bulut mimarınız bu mimarinin tipik bir uygulaması için ana bileşenleri görselleştirmeye yardımcı olmak için bu kılavuzu kullanabilir. İş yükünüzün özel gereksinimlerine uygun iyi tasarlanmış bir çözüm tasarlamak için bu makaleyi başlangıç noktası olarak kullanın.

Bu makalede, saniyede milyonlarca akış olayını alıp işlemek ve ardından olayları bir Delta Lake tablosuna yazmak için kullanabileceğiniz bir çözüm açıklanmaktadır. Bu çözüm, Azure HDInsight'ta Apache Spark ve Apache Kafka kullanır.

Apache®, Apache Kafka ve Apache Spark, Apache Software Foundation'ın Birleşik Devletler ve/veya diğer ülke veya bölgelerde kayıtlı ticari markaları veya ticari markalarıdır. Bu işaretlerin kullanılması Apache Software Foundation tarafından onaylanmamaktadır.

Delta Lake Project, Linux Foundation'ın Birleşik Devletler ve/veya diğer ülkelerdeki tescilli ticari markasıdır.

Mimari

Bu mimarinin bir Visio dosyasını indirin.

Jupyter Notebook logosu, ilgili şirketlerinin ticari markasıdır. Bu işaretin kullanılması herhangi bir onay anlamına gelmez.

Veri akışı

Aşağıdaki veri akışı önceki mimariye karşılık gelir.

IoT olay verileri gibi gerçek zamanlı olay verileri, Apache Kafka üreticisi aracılığıyla Apache Kafka'ya alır.
Apache Spark Yapılandırılmış Akış , verileri neredeyse gerçek zamanlı olarak işler.
Apache Spark, dönüştürülmüş ve hesaplanan analiz yazmak için havuzlar sağlar. İşlenen veriler Delta Lake tablo biçiminde bir Azure Data Lake Storage hesabında depolanır.
İşlenen veriler sürekli olarak Apache Kafka'ya alınır.
Azure Data Lake Storage hesabındaki veriler aşağıdakiler için içgörüler sağlayabilir:
- Power BI'da neredeyse gerçek zamanlı panolar.
- Makine öğrenmesi araçlarıyla kullanmak için Azure Machine Learning .
- Delta Lake tablolarını kullanmak için PySpark veya Scala kullanarak Jupyter Notebook.

Bileşenler

HDInsight, kurumsal analiz için açık kaynak bileşenleri sağlar. Bu Apache bileşenlerini kurumsal düzeyde güvenlikle bir Azure ortamında çalıştırabilirsiniz. HDInsight ölçeklenebilirlik, güvenlik, merkezi izleme, genel kullanılabilirlik ve genişletilebilirlik gibi başka avantajlar da sunar.
HDInsight'ta Apache Kafka, gerçek zamanlı akış veri işlem hatları ve uygulamaları oluşturmak için kullanabileceğiniz, yönetilen bir açık kaynak dağıtılmış platformudur. Apache Kafka, kayıtları konu başlıkları, bölümler ve tüketici grupları halinde gruplandırabilmeniz ve üreticilerden tüketicilere çoğullayıcı olay akışlarını gruplandırabilmeniz için yüksek performans ve dayanıklılık sağlar.
HDInsight'ta Apache Spark, bulutta Apache Spark'ın yönetilen bir Microsoft uygulamasıdır ve Azure'daki çeşitli Spark tekliflerinden biridir.
Apache Spark Yapılandırılmış Akış , akışları işlemek için ölçeklenebilir, tam olarak bir kez hataya dayanıklılık altyapısıdır. Spark SQL altyapısı üzerine kurulmuştur. Yapılandırılmış Akış sorguları neredeyse gerçek zamanlıdır ve düşük gecikme süresine sahiptir. Apache Spark Yapılandırılmış Akış, veri kaynakları ve veri havuzları için çeşitli bağlayıcılar sağlar. Ayrıca çeşitli kaynak türlerinden birden çok akışı birleştirebilirsiniz.
Apache Kafka'da Apache Spark Yapılandırılmış Akış, sorguları toplu işleyip akışla aktarmak ve bunları bir depolama katmanında, veritabanında veya Apache Kafka'da depolamak için kullanılır.
Delta Lake depolama katmanı, Azure Depolama gibi bulut depolama alanında depolanan verilerin üzerine işlemsel depolama katmanı ekleyerek veri gölleri için güvenilirlik sağlar. Bu depolama katmanı, Apache Parquet veri dosyalarını dosya tabanlı işlem günlükleriyle genişletir. Verileri Delta Lake tablo biçiminde depolayarak atomiklik, tutarlılık, yalıtım ve dayanıklılık (ACID) işlemleri, şema evrimi ve geçmiş sürümleri gibi avantajlardan yararlanabilirsiniz.
Power BI Delta Lake tablo bağlayıcısı, Power BI'dan Delta Lake tablo verilerini okumak için kullanılır.
Machine Learning, topladığınız verileri makine öğrenmesi modellerinde kullanmak üzere gönderebileceğiniz bir Azure hizmetidir.

Senaryo ayrıntıları

Olay akışı, olay yayımcısından abonelere akan sürekli bir sabit olaylar dizisidir. Bazı iş kullanım örneklerinde bu olayları ham biçimde depolamanız ve ardından çeşitli analiz gereksinimleri için olayları temizlemeniz, dönüştürmeniz ve toplamanız gerekir. Hemen içgörüler oluşturan olayların neredeyse gerçek zamanlı işlenmesini ve analiz edilmesini sağlamak için olay akışını kullanın.

Olası kullanım örnekleri

Bu çözüm, işletmenizin neredeyse gerçek zamanlıya yakın hataya dayanıklı olay akışlarını tam olarak bir kez işlemesi için bir fırsat sağlar. Bu yaklaşım, Spark Yapılandırılmış Akış için giriş kaynağı olarak Apache Kafka'yı ve depolama katmanı olarak Delta Lake'i kullanır.

İş senaryoları şunlardır:

Hesap oturum açma dolandırıcılığı algılama
Geçerli piyasa koşullarının analizi
Gerçek zamanlı borsa verilerinin analizi
Kredi kartı dolandırıcılığı algılama
Dijital görüntü ve video işleme
Uyuşturucu araştırması ve keşfi
Kurumsal büyük veri çözümleri için ara yazılım
Kısa satış riski hesaplaması
Akıllı üretim ve endüstriyel IoT (IIoT)

Bu çözüm aşağıdaki sektörler için geçerlidir:

Tarım
Tüketici paketli ürünler (CPG)
Siber güvenlik
Finance
Sağlık
Sigorta
Lojistik
Manufacturing
Retail

Katkıda Bulunanlar

Bu makale Microsoft tarafından yönetilir. Başlangıçta aşağıdaki katkıda bulunanlar tarafından yazılmıştır.

Asıl yazarlar:

Arun Sethia | Asıl Program Yöneticisi
Sairam Yeturi | Ana Ürün Yöneticisi

Genel olmayan LinkedIn profillerini görmek için LinkedIn'de oturum açın.

Aracılığıyla paylaş

Olay verilerini yönetmek için HDInsight ve Delta Lake kullanma

Mimari

Veri akışı

Bileşenler

Senaryo ayrıntıları

Olası kullanım örnekleri

Katkıda Bulunanlar

Sonraki adımlar

Geri Bildirim

Geri Bildirim

Ek kaynaklar

Aracılığıyla paylaş

Olay verilerini yönetmek için HDInsight ve Delta Lake kullanma

Mimari

Veri akışı

Bileşenler

Senaryo ayrıntıları

Olası kullanım örnekleri

Katkıda Bulunanlar

Sonraki adımlar

İlgili kaynaklar

Geri Bildirim

Geri Bildirim

Ek kaynaklar