Öğretici: Event Hubs verilerini Parquet biçiminde yakalama ve Azure Synapse Analytics ile analiz etme

Azure Event Hubs, analiz için genellikle depolamanız gereken büyük hacimli akış verileri oluşturur. Bu öğreticide, Azure Stream Analytics'i kod yazmadan kullanarak bu verileri Parquet biçiminde (analiz iş yükleri için iyileştirilmiş sütunlu bir depolama biçimi) nasıl yakalayabileceğiniz gösterilmektedir.

Event Hubs'dan doğrudan Azure Data Lake Storage Gen2'ye veri akışı sağlayan bir iş oluşturmak için Stream Analytics kod gerekmez düzenleyicisini kullanın. Ardından hem Spark hem de sunucusuz SQL ile Azure Synapse Analytics kullanarak yakalanan Parquet dosyalarını sorgulayın.

Bu öğreticide aşağıdakilerin nasıl yapılacağını öğreneceksiniz:

  • Etkinlik oluşturucu uygulamasını kullanarak, etkinlik merkezine örnek etkinlikler gönderin.
  • Kod gerektirmeyen düzenleyiciyi kullanarak bir Stream Analytics işi oluşturma
  • Giriş verilerini ve şemayı gözden geçirme
  • Olay hub'ından verilerin yakalandığı Azure Data Lake Storage 2. Nesil'i yapılandırın.
  • Stream Analytics işini çalıştırma
  • Parquet dosyalarını sorgulamak için Azure Synapse Analytics'i kullanma

Önkoşullar

Başlamadan önce aşağıdaki adımları tamamladığınızdan emin olun:

Kod yazmadan Stream Analytics görevi oluşturma

  1. TollApp olay oluşturucuyu dağıttığınız kaynak grubunu bulun.

  2. Azure Event Hubs ad alanını seçin. Ayrı bir sekmede veya pencerede açmak isteyebilirsiniz.

    Kaynak grubundaki Event Hubs ad alanının seçimini gösteren ekran görüntüsü.

  3. Event Hubs ad alanı sayfasında, soldaki menüden Varlıklar'ın altında Event Hubs'ı seçin.

  4. Örneği seçin entrystream .

    Olay hub'ının seçimini gösteren ekran görüntüsü.

  5. Event Hubs örneği sayfasında, sol menünün Özellikler bölümünde verileri işle'yi seçin.

  6. Başlat seçeneğini Parquet biçiminde verileri ADLS Gen2'ye yakala kutucuğu üzerinde seçin.

    **Verileri ADLS Gen2'ye Parquet formatında yakala** kutucuğunun seçimini gösteren ekran görüntüsü.

  7. İşinizi parquetcapture adlandırıp Oluştur'u seçin.

    Yeni Stream Analytics iş sayfasının ekran görüntüsü.

  8. Olay hub'ı yapılandırma sayfasında şu adımları izleyin:

    1. Tüketici grubu için Var olanı kullan'ı seçin.

    2. Tüketici grubunun seçili olduğunu $Default onaylayın.

    3. Serileştirme'nin JSON olarak ayarlandığını onaylayın.

    4. Kimlik doğrulama yönteminin Bağlantı Dizesi olarak ayarlandığını onaylayın. Eğitimi basit tutmak için bağlantı dizesi kimlik doğrulamasını kullanırsınız. Üretim senaryolarında daha iyi güvenlik ve daha kolay yönetim için Azure Yönetilen Kimliği kullanmanızı öneririz. Daha fazla bilgi için bkz. Azure Stream Analytics işinden Event Hubs'a erişmek için yönetilen kimlikleri kullanma.

    5. Olay hub'ı paylaşılan erişim anahtarı adının RootManageSharedAccessKey olarak ayarlandığını onaylayın.

    6. Pencerenin alt kısmındaki Bağlan'ı seçin.

      Olay hub'ınızın yapılandırma sayfasının ekran görüntüsü.

  9. Birkaç saniye içinde örnek giriş verilerini ve şemayı görürsünüz. Alanları bırakmayı, alanları yeniden adlandırmayı veya veri türünü değiştirmeyi seçebilirsiniz.

    Alanların ve verilerin önizlemesinin gösterildiği ekran görüntüsü.

  10. Tuvalinizde Azure Data Lake Storage 2. Nesil kutucuğunu seçin ve belirterek yapılandırın.

    • Azure Data Lake 2. Nesil hesabınızın bulunduğu abonelik

    • Depolama hesabı adı, Azure Synapse Analytics çalışma alanıyla kullanılan ve Önkoşullar bölümünde belirtilen Azure Data Lake Storage 2. Nesil hesabıyla aynı olmalıdır.

    • Parquet dosyalarının oluşturulduğu kapsayıcı.

    • Delta tablo yolu için tablo için bir ad belirtin.

    • Varsayılan yyyy-MM-dd ve HH olarak tarih ve saat deseni.

    • Bağlan'ı seçin.

      Data Lake Storage yapılandırma ayarlarını gösteren ekran görüntüsü.

  11. İşinizi kaydetmek için üst şeritte Kaydet'i ve ardından işinizi çalıştırmak için Başlat'ı seçin. İş başladıktan sonra sağ köşedeki X işaretini seçerek Stream Analytics iş sayfasını kapatın.

    Stream Analytics İşi Başlat sayfasını gösteren ekran görüntüsü.

  12. Kod düzenleyicisi olmadan oluşturulan tüm Stream Analytics işlerinin listesini görürsünüz. İki dakika içinde işiniz Çalışıyor durumuna geçer. Oluşturuldu - Başlatılıyor -> Çalışıyor durumundaki durum değişikliğini görmek için sayfadaki > düğmesini seçin.

    Stream Analytics işlerinin listesini gösteren ekran görüntüsü.

Azure Data Lake Storage 2. Nesil hesabınızda çıkışı görüntüleme

  1. Önceki adımda kullandığınız Azure Data Lake Storage 2. Nesil hesabını bulun.

  2. Soldaki menüden Veri depolama bölümünün altında Kapsayıcılar'ı seçin.

    Azure Data Lake Storage 2. Nesil'de kapsayıcı seçimini gösteren ekran görüntüsü.

  3. Önceki adımda kullandığınız kapsayıcıyı seçin. Daha önce belirttiğiniz klasörde oluşturulan parquet dosyalarını görürsünüz.

    Azure Data Lake Storage Gen 2'deki parquet dosyalarını içeren ekran görüntüsü.

Yakalanan verileri Azure Synapse Analytics ile Parquet biçiminde sorgulama

Azure Synapse Spark kullanarak sorgulama

  1. Azure Synapse Analytics çalışma alanınızı bulun ve Synapse Studio'yu açın.

  2. Henüz yoksa çalışma alanınızda sunucusuz bir Apache Spark havuzu oluşturun.

  3. Synapse Studio'yu yeni bir sekmede veya pencerede başlatmak için Başlarken bölümündeki Synapse Studio'yu Aç kutucuğunu seçin.

  4. Synapse Studio'da Geliştirme hub'ına gidin ve yeni bir Not Defteri oluşturun.

    Synapse Studio'yu gösteren ekran görüntüsü.

  5. Yeni bir kod hücresi oluşturun ve aşağıdaki kodu bu hücreye yapıştırın. kapsayıcı ve adlsname değerini kapsayıcının adıyla ve önceki adımda kullanılan Azure Data Lake Storage 2. Nesil hesabıyla değiştirin.

    %%pyspark
    df = spark.read.load('abfss://container@adlsname.dfs.core.windows.net/*/*.parquet', format='parquet')
    display(df.limit(10))
    df.count()
    df.printSchema()
    
  6. Araç çubuğunda Ekle için açılan listeden Spark havuzunuzu seçin.

  7. Sonuçları görmek için Tümünü Çalıştır'ı seçin.

    Azure Synapse Analytics'teki spark çalıştırma sonuçlarının ekran görüntüsü.

Azure Synapse Sunucusuz SQL kullanarak sorgulama

  1. Geliştirme hub'ında yeni bir SQL betiği oluşturun.

    Yeni SQL betiği menüsünün seçili olduğu Geliştir sayfasını gösteren ekran görüntüsü.

  2. Aşağıdaki betiği yapıştırın ve Yerleşik sunucusuz SQL uç noktasını kullanarak çalıştırın. kapsayıcı ve adlsname değerini kapsayıcının adıyla ve önceki adımda kullanılan Azure Data Lake Storage 2. Nesil hesabıyla değiştirin.

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://adlsname.dfs.core.windows.net/container/*/*.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    

    Azure Synapse Analytics'teki SQL betiği sonuçlarının ekran görüntüsü.

Kaynakları temizleme

  1. Event Hubs örneğinizi bulun ve İşlem Verileri bölümünde Stream Analytics işlerinin listesine bakın. Çalışan tüm işleri durdurun.
  2. TollApp olay oluşturucuyu dağıtırken kullandığınız kaynak grubuna gidin.
  3. Kaynak grubunu sil'i seçin. Silme işlemini onaylamak için kaynak grubunun adını yazın.

Sonraki adımlar

Bu öğreticide, kod yazmanıza gerek kalmadan bir Stream Analytics işi oluşturmak için Event Hubs veri akışlarını Parquet formatında yakalamak amacıyla bir kodsuz düzenleyici kullanmayı öğrendiniz. Ardından Hem Synapse Spark hem de Synapse SQL kullanarak Parquet dosyalarını sorgulamak için Azure Synapse Analytics'i kullandınız.