Çözüm fikirleri
Bu makalede bir çözüm fikri açıklanmaktadır. Bulut mimarınız bu mimarinin tipik bir uygulaması için ana bileşenleri görselleştirmeye yardımcı olmak için bu kılavuzu kullanabilir. İş yükünüzün özel gereksinimlerine uygun iyi tasarlanmış bir çözüm tasarlamak için bu makaleyi başlangıç noktası olarak kullanın.
Bu makalede, saniyede milyonlarca akış olayını alıp işlemek ve ardından olayları bir Delta Lake tablosuna yazmak için kullanabileceğiniz bir çözüm açıklanmaktadır. Bu çözüm, Azure HDInsight'ta Apache Spark ve Apache Kafka kullanır.
Apache®, Apache Kafka ve Apache Spark, Apache Software Foundation'ın Birleşik Devletler ve/veya diğer ülke veya bölgelerde kayıtlı ticari markaları veya ticari markalarıdır. Bu işaretlerin kullanılması Apache Software Foundation tarafından onaylanmamaktadır.
Delta Lake Project, Linux Foundation'ın Birleşik Devletler ve/veya diğer ülkelerdeki tescilli ticari markasıdır.
Mimari
Bu mimarinin bir Visio dosyasını indirin.
Jupyter Notebook logosu, ilgili şirketlerinin ticari markasıdır. Bu işaretin kullanılması herhangi bir onay anlamına gelmez.
Veri akışı
Aşağıdaki veri akışı önceki mimariye karşılık gelir.
IoT olay verileri gibi gerçek zamanlı olay verileri, Apache Kafka üreticisi aracılığıyla Apache Kafka'ya alır.
Apache Spark Yapılandırılmış Akış , verileri neredeyse gerçek zamanlı olarak işler.
Apache Spark, dönüştürülmüş ve hesaplanan analiz yazmak için havuzlar sağlar. İşlenen veriler Delta Lake tablo biçiminde bir Azure Data Lake Storage hesabında depolanır.
İşlenen veriler sürekli olarak Apache Kafka'ya alınır.
Azure Data Lake Storage hesabındaki veriler aşağıdakiler için içgörüler sağlayabilir:
- Power BI'da neredeyse gerçek zamanlı panolar.
- Makine öğrenmesi araçlarıyla kullanmak için Azure Machine Learning .
- Delta Lake tablolarını kullanmak için PySpark veya Scala kullanarak Jupyter Notebook.
Bileşenler
HDInsight, kurumsal analiz için açık kaynak bileşenleri sağlar. Bu Apache bileşenlerini kurumsal düzeyde güvenlikle bir Azure ortamında çalıştırabilirsiniz. HDInsight ölçeklenebilirlik, güvenlik, merkezi izleme, genel kullanılabilirlik ve genişletilebilirlik gibi başka avantajlar da sunar.
HDInsight'ta Apache Kafka, gerçek zamanlı akış veri işlem hatları ve uygulamaları oluşturmak için kullanabileceğiniz, yönetilen bir açık kaynak dağıtılmış platformudur. Apache Kafka, kayıtları konu başlıkları, bölümler ve tüketici grupları halinde gruplandırabilmeniz ve üreticilerden tüketicilere çoğullayıcı olay akışlarını gruplandırabilmeniz için yüksek performans ve dayanıklılık sağlar.
HDInsight'ta Apache Spark, bulutta Apache Spark'ın yönetilen bir Microsoft uygulamasıdır ve Azure'daki çeşitli Spark tekliflerinden biridir.
Apache Spark Yapılandırılmış Akış , akışları işlemek için ölçeklenebilir, tam olarak bir kez hataya dayanıklılık altyapısıdır. Spark SQL altyapısı üzerine kurulmuştur. Yapılandırılmış Akış sorguları neredeyse gerçek zamanlıdır ve düşük gecikme süresine sahiptir. Apache Spark Yapılandırılmış Akış, veri kaynakları ve veri havuzları için çeşitli bağlayıcılar sağlar. Ayrıca çeşitli kaynak türlerinden birden çok akışı birleştirebilirsiniz.
Apache Kafka'da Apache Spark Yapılandırılmış Akış, sorguları toplu işleyip akışla aktarmak ve bunları bir depolama katmanında, veritabanında veya Apache Kafka'da depolamak için kullanılır.
Delta Lake depolama katmanı, Azure Depolama gibi bulut depolama alanında depolanan verilerin üzerine işlemsel depolama katmanı ekleyerek veri gölleri için güvenilirlik sağlar. Bu depolama katmanı, Apache Parquet veri dosyalarını dosya tabanlı işlem günlükleriyle genişletir. Verileri Delta Lake tablo biçiminde depolayarak atomiklik, tutarlılık, yalıtım ve dayanıklılık (ACID) işlemleri, şema evrimi ve geçmiş sürümleri gibi avantajlardan yararlanabilirsiniz.
Power BI Delta Lake tablo bağlayıcısı, Power BI'dan Delta Lake tablo verilerini okumak için kullanılır.
Machine Learning, topladığınız verileri makine öğrenmesi modellerinde kullanmak üzere gönderebileceğiniz bir Azure hizmetidir.
Senaryo ayrıntıları
Olay akışı, olay yayımcısından abonelere akan sürekli bir sabit olaylar dizisidir. Bazı iş kullanım örneklerinde bu olayları ham biçimde depolamanız ve ardından çeşitli analiz gereksinimleri için olayları temizlemeniz, dönüştürmeniz ve toplamanız gerekir. Hemen içgörüler oluşturan olayların neredeyse gerçek zamanlı işlenmesini ve analiz edilmesini sağlamak için olay akışını kullanın.
Olası kullanım örnekleri
Bu çözüm, işletmenizin neredeyse gerçek zamanlıya yakın hataya dayanıklı olay akışlarını tam olarak bir kez işlemesi için bir fırsat sağlar. Bu yaklaşım, Spark Yapılandırılmış Akış için giriş kaynağı olarak Apache Kafka'yı ve depolama katmanı olarak Delta Lake'i kullanır.
İş senaryoları şunlardır:
- Hesap oturum açma dolandırıcılığı algılama
- Geçerli piyasa koşullarının analizi
- Gerçek zamanlı borsa verilerinin analizi
- Kredi kartı dolandırıcılığı algılama
- Dijital görüntü ve video işleme
- Uyuşturucu araştırması ve keşfi
- Kurumsal büyük veri çözümleri için ara yazılım
- Kısa satış riski hesaplaması
- Akıllı üretim ve endüstriyel IoT (IIoT)
Bu çözüm aşağıdaki sektörler için geçerlidir:
- Tarım
- Tüketici paketli ürünler (CPG)
- Siber güvenlik
- Finance
- Sağlık
- Sigorta
- Lojistik
- Manufacturing
- Retail
Katkıda Bulunanlar
Bu makale Microsoft tarafından yönetilir. Başlangıçta aşağıdaki katkıda bulunanlar tarafından yazılmıştır.
Asıl yazarlar:
- Arun Sethia | Asıl Program Yöneticisi
- Sairam Yeturi | Ana Ürün Yöneticisi
Genel olmayan LinkedIn profillerini görmek için LinkedIn'de oturum açın.
Sonraki adımlar
- Azure HDInsight nedir?
- HDInsight'ta büyük ölçekte akış
- Hızlı Başlangıç: Azure HDInsight'ta Apache Spark kümesi oluşturma
- Hızlı Başlangıç: Azure HDInsight'ta Apache Kafka kümesi oluşturma
- Azure HDInsight'ta kurumsal güvenliğe genel bakış
- Spark 3.x ile HDInsight 5.0—Bölüm 1
- HDInsight—Iceberg açık kaynak tablo biçimi
- Azure HDInsight kullanarak data lakehouse oluşturma
- Azure Synapse, HDInsight ve Databricks genelinde paylaşılan Hive meta veri deposu kullanma