Event Hubs'dan Parquet biçiminde veri yakalama

Bu makalede, Parquet biçiminde bir Azure Data Lake Storage 2. Nesil hesabındaki Event Hubs'ta akış verilerini otomatik olarak yakalamak için kod düzenleyicisi yok özelliğinin nasıl kullanılacağı açıklanmaktadır.

Önkoşullar

  • Yakalanan verileri depolamak için kapsayıcı içeren bir olay hub'ı ve Azure Data Lake Storage 2. Nesil hesabı olan bir Azure Event Hubs ad alanı. Bu kaynaklar genel erişime açık olmalı ve bir güvenlik duvarı arkasında veya Azure sanal ağı içinde güvenli olmamalıdır.

    Olay hub'larınız yoksa Hızlı Başlangıç: Olay hub'ı oluşturma başlığı altındaki yönergeleri izleyerek bir tane oluşturun.

    Data Lake Storage 2. Nesil hesabınız yoksa Depolama hesabı oluşturma başlığındaki yönergeleri izleyerek bir hesap oluşturun.

  • Event Hubs örneğinizdeki (olay hub'ı) veriler JSON, CSV veya Avro biçiminde seri hale getirilmelidir. Olay hub'ınızın Event Hubs Örneği sayfasında şu adımları izleyin:

    1. Soldaki menüden Veri Gezgini'ı seçin.

    2. Orta bölmede Olayları gönder'i seçin.

    3. Olayları gönder bölmesindeki Veri kümesini seçin alanında Hisse senetleri verileri'ni seçin.

    4. Gönder'i seçin.

      Örnek hisse senetleri verileri oluşturmak için Veri oluştur sayfasını gösteren ekran görüntüsü.

Verileri yakalamak için iş yapılandırma

Azure Data Lake Storage 2. Nesil'da veri yakalamak üzere bir Stream Analytics işi yapılandırmak için aşağıdaki adımları kullanın.

  1. Azure portalında olay hub'ınıza gidin.

  2. Soldaki menüde , Özellikler'in altında Verileri İşle'yi seçin. Ardından, Verileri Parquet biçiminde ADLS 2. Nesil'e yakala kartında Başlat'ı seçin.

    Event Hubs veri başlangıç kartlarını işlemeyi gösteren ekran görüntüsü.

  3. Stream Analytics işiniz için bir ad girin ve ardından Oluştur'u seçin.

    İş adını girdiğiniz Yeni Stream Analytics iş penceresini gösteren ekran görüntüsü.

  4. Event Hubs'da verilerinizin Serileştirme türünü ve işin Event Hubs'a bağlanmak için kullandığı Kimlik doğrulama yöntemini belirtin. Bu öğretici için varsayılan ayarları koruyun. Ardından Bağlan'ı seçin.

    Event Hubs bağlantı yapılandırmasını gösteren ekran görüntüsü.

  5. Bağlantı başarıyla kurulduğunda şunları görürsünüz:

    • Giriş verilerinde bulunan alanlar. Alan ekle'yi seçebilir veya isteğe bağlı olarak alanın adını kaldırmak, yeniden adlandırmak veya değiştirmek için alanın yanındaki üç nokta simgesini seçebilirsiniz.

    • Diyagram görünümünün altındaki Veri önizleme tablosundaki gelen verilerin canlı örneği. Düzenli aralıklarla yenilenir. Örnek girişin statik görünümünü görüntülemek için Akış önizlemesini duraklat'ı seçebilirsiniz.

      Veri Önizleme altında örnek verileri gösteren ekran görüntüsü.

  6. Yapılandırmayı düzenlemek için Azure Data Lake Storage 2. Nesil kutucuğunu seçin.

  7. Azure Data Lake Storage 2. Nesil yapılandırma sayfasında şu adımları izleyin:

    1. Açılan menüden aboneliği, depolama hesabı adını ve kapsayıcıyı seçin.

    2. Aboneliği seçtikten sonra kimlik doğrulama yöntemi ve depolama hesabı anahtarı otomatik olarak doldurulur.

    3. Serileştirme biçimi için Parquet'i seçin.

      Data Lake Storage 2. Nesil yapılandırma sayfasını gösteren ekran görüntüsü.

    4. Akış blobları için dizin yolu deseni dinamik bir değerdir. Tarih, blob için dosya yolunun bir parçası olmalıdır ve {date} olarak referans verilmelidir. Özel yol desenleri hakkında bilgi edinmek için bkz. Azure Stream Analytics özel blob çıkışı bölümleme.

      Blob'un bağlantı yapılandırmasını düzenlediğiniz Blob penceresini gösteren ilk ekran görüntüsü.

    5. Bağlan'ı seçin.

  8. Bağlantı kurulduğunda, çıkış verilerinde bulunan alanları görürsünüz.

  9. Yapılandırmanızı kaydetmek için komut çubuğunda Kaydet'i seçin.

    Komut çubuğundaki Kaydet düğmesini gösteren ekran görüntüsü.

  10. Veri yakalamak için akış akışını başlatmak için komut çubuğunda Başlat'ı seçin. Ardından Stream Analytics işini başlat penceresinde:

    1. Çıkış başlangıç saatini seçin.

    2. Fiyatlandırma planını seçin.

    3. İşin çalışacağı Akış Birimi (SU) sayısını seçin. SU, Stream Analytics işini yürütmek için ayrılan bilgi işlem kaynaklarını temsil eder. Daha fazla bilgi için bkz. Azure Stream Analytics'te Akış Birimleri.

      Çıkış başlangıç zamanını, akış birimlerini ve hata işlemeyi ayarladığınız Stream Analytics'i Başlat iş penceresini gösteren ekran görüntüsü.

  11. Stream Analytics iş penceresini kapatmak için sağ üst köşedeki X işaretini seçin.

  12. Stream Analytics işini, olay hub'ınızın Verileri işleme sayfasının Stream Analytics iş sekmesinde görürsünüz.

    İşlem verileri sayfasındaki Stream Analytics işini gösteren ekran görüntüsü.

Çıkışı Doğrula

  1. Olay hub'ınızın Event Hubs örneği sayfasında şu adımları izleyin:

    1. Soldaki menüden Veri Gezgini'ı seçin.
    2. Orta bölmede Olayları gönder'i seçin.
    3. Olayları gönder bölmesindeki Veri kümesini seçin alanında Hisse senetleri verileri'ni seçin.
    4. Gönder'i seçin.
  2. Parquet dosyalarının Azure Data Lake Storage kapsayıcısında oluşturulduğunu doğrulayın.

    Azure Data Lake Storage kapsayıcısında oluşturulan Parquet dosyalarını gösteren ekran görüntüsü.

  3. Şimdi Event Hubs örneği sayfasında soldaki menüden verileri işle'yi seçin. Stream Analytics işleri sekmesine geçin. İzlemek için Ölçümleri aç'ı seçin. Araç çubuğundaki Ölçüm ekle'yi kullanarak grafiğe Giriş ölçümleri ekleyin. Grafikte ölçümleri görmüyorsanız birkaç dakika bekleyin ve sayfayı yenileyin.

    Ölçümleri Aç bağlantısının seçili olduğunu gösteren ekran görüntüsü.

    Giriş ve çıkış olaylarını gösteren ölçümlerin örnek ekran görüntüsü aşağıda verilmiştir.

    Stream Analytics işinin ölçümlerini gösteren ekran görüntüsü.

Event Hubs Coğrafi çoğaltma özelliğini kullanırken dikkat edilmesi gerekenler

Azure Event Hubs kısa süre önce genel önizlemede Coğrafi Çoğaltma özelliğini başlattı. Bu özellik, Azure Event Hubs'ın Coğrafi Olağanüstü Durum Kurtarma özelliğinden farklıdır.

Yük devretme türü Zorlanmış olduğunda ve çoğaltma tutarlılığı Asenkron olduğunda, Stream Analytics işi bir Azure Event Hubs çıkışına sadece bir kez çıkışı garanti etmez.

Azure Stream Analytics, üretici ve olay hub'ı çıktısı olarak, yük devretme süresi boyunca ve birincil ile ikincil arasında çoğaltma gecikmesi yapılandırılan maksimum gecikmeye ulaştığında, Event Hubs tarafından kısıtlama sırasında iş üzerinde filigran gecikmesi gözlemlenebilir.

Azure Stream Analytics, Event Hubs'u giriş olarak kullanan bir tüketici olarak, yük devretme süresi boyunca işte filigran gecikmesi gözlemleyebilir ve yük devretme tamamlandıktan sonra verileri atlayabilir veya yinelenen verileri bulabilir.

Bu uyarıları dikkate alarak, Event Hubs yük devretme tamamlandıktan hemen sonra Stream Analytics işini uygun başlangıç zamanıyla yeniden başlatın. Ayrıca Event Hubs Coğrafi çoğaltma özelliği herkese açık önizleme aşamasında olduğundan, bu noktada Stream Analytics üretim işleri için bu kalıbı kullanmayın. Mevcut Stream Analytics davranışı, Event Hubs Coğrafi çoğaltma özelliği genel kullanıma sunulmadan önce geliştirilecek ve bu iyileştirmeler sayesinde Stream Analytics üretim işlerinde kullanılabilir hale gelecektir.

Artık Event Hubs verilerini Parquet biçiminde Azure Data Lake Storage 2. Nesil'ye yakalayan bir iş oluşturmak için kod yazmadan Stream Analytics'i nasıl kullanacağınızı biliyorsunuz. Ardından Azure Stream Analytics ve oluşturduğunuz işi izleme hakkında daha fazla bilgi edinebilirsiniz.