Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Azure Event Hubs, analiz için genellikle depolamanız gereken büyük hacimli akış verileri oluşturur. Bu öğreticide, Azure Stream Analytics'i kod yazmadan kullanarak bu verileri Parquet biçiminde (analiz iş yükleri için iyileştirilmiş sütunlu bir depolama biçimi) nasıl yakalayabileceğiniz gösterilmektedir.
Event Hubs'dan doğrudan Azure Data Lake Storage Gen2'ye veri akışı sağlayan bir iş oluşturmak için Stream Analytics kod gerekmez düzenleyicisini kullanın. Ardından hem Spark hem de sunucusuz SQL ile Azure Synapse Analytics kullanarak yakalanan Parquet dosyalarını sorgulayın.
Bu öğreticide aşağıdakilerin nasıl yapılacağını öğreneceksiniz:
- Etkinlik oluşturucu uygulamasını kullanarak, etkinlik merkezine örnek etkinlikler gönderin.
- Kod gerektirmeyen düzenleyiciyi kullanarak bir Stream Analytics işi oluşturma
- Giriş verilerini ve şemayı gözden geçirme
- Olay hub'ından verilerin yakalandığı Azure Data Lake Storage 2. Nesil'i yapılandırın.
- Stream Analytics işini çalıştırma
- Parquet dosyalarını sorgulamak için Azure Synapse Analytics'i kullanma
Önkoşullar
Başlamadan önce aşağıdaki adımları tamamladığınızdan emin olun:
- Azure aboneliğiniz yoksa ücretsiz hesap oluşturun.
-
TollApp olay oluşturucu uygulamasını Azure'a dağıtın. parametresini
interval1 olarak ayarlayın ve bu adım için yeni bir kaynak grubu kullanın. - Data Lake Storage 2. Nesil hesabıyla bir Azure Synapse Analytics çalışma alanı oluşturun.
Kod yazmadan Stream Analytics görevi oluşturma
TollApp olay oluşturucuyu dağıttığınız kaynak grubunu bulun.
Azure Event Hubs ad alanını seçin. Ayrı bir sekmede veya pencerede açmak isteyebilirsiniz.
Event Hubs ad alanı sayfasında, soldaki menüden Varlıklar'ın altında Event Hubs'ı seçin.
Örneği seçin
entrystream.Event Hubs örneği sayfasında, sol menünün Özellikler bölümünde verileri işle'yi seçin.
Başlat seçeneğini Parquet biçiminde verileri ADLS Gen2'ye yakala kutucuğu üzerinde seçin.
İşinizi
parquetcaptureadlandırıp Oluştur'u seçin.Olay hub'ı yapılandırma sayfasında şu adımları izleyin:
Tüketici grubu için Var olanı kullan'ı seçin.
Tüketici grubunun seçili olduğunu
$Defaultonaylayın.Serileştirme'nin JSON olarak ayarlandığını onaylayın.
Kimlik doğrulama yönteminin Bağlantı Dizesi olarak ayarlandığını onaylayın. Eğitimi basit tutmak için bağlantı dizesi kimlik doğrulamasını kullanırsınız. Üretim senaryolarında daha iyi güvenlik ve daha kolay yönetim için Azure Yönetilen Kimliği kullanmanızı öneririz. Daha fazla bilgi için bkz. Azure Stream Analytics işinden Event Hubs'a erişmek için yönetilen kimlikleri kullanma.
Olay hub'ı paylaşılan erişim anahtarı adının RootManageSharedAccessKey olarak ayarlandığını onaylayın.
Pencerenin alt kısmındaki Bağlan'ı seçin.
Birkaç saniye içinde örnek giriş verilerini ve şemayı görürsünüz. Alanları bırakmayı, alanları yeniden adlandırmayı veya veri türünü değiştirmeyi seçebilirsiniz.
Tuvalinizde Azure Data Lake Storage 2. Nesil kutucuğunu seçin ve belirterek yapılandırın.
Azure Data Lake 2. Nesil hesabınızın bulunduğu abonelik
Depolama hesabı adı, Azure Synapse Analytics çalışma alanıyla kullanılan ve Önkoşullar bölümünde belirtilen Azure Data Lake Storage 2. Nesil hesabıyla aynı olmalıdır.
Parquet dosyalarının oluşturulduğu kapsayıcı.
Delta tablo yolu için tablo için bir ad belirtin.
Varsayılan
yyyy-MM-ddveHHolarak tarih ve saat deseni.Bağlan'ı seçin.
İşinizi kaydetmek için üst şeritte Kaydet'i ve ardından işinizi çalıştırmak için Başlat'ı seçin. İş başladıktan sonra sağ köşedeki X işaretini seçerek Stream Analytics iş sayfasını kapatın.
Kod düzenleyicisi olmadan oluşturulan tüm Stream Analytics işlerinin listesini görürsünüz. İki dakika içinde işiniz Çalışıyor durumuna geçer. Oluşturuldu - Başlatılıyor -> Çalışıyor durumundaki durum değişikliğini görmek için sayfadaki > düğmesini seçin.
Azure Data Lake Storage 2. Nesil hesabınızda çıkışı görüntüleme
Önceki adımda kullandığınız Azure Data Lake Storage 2. Nesil hesabını bulun.
Soldaki menüden Veri depolama bölümünün altında Kapsayıcılar'ı seçin.
Önceki adımda kullandığınız kapsayıcıyı seçin. Daha önce belirttiğiniz klasörde oluşturulan parquet dosyalarını görürsünüz.
Yakalanan verileri Azure Synapse Analytics ile Parquet biçiminde sorgulama
Azure Synapse Spark kullanarak sorgulama
Azure Synapse Analytics çalışma alanınızı bulun ve Synapse Studio'yu açın.
Henüz yoksa çalışma alanınızda sunucusuz bir Apache Spark havuzu oluşturun.
Synapse Studio'yu yeni bir sekmede veya pencerede başlatmak için Başlarken bölümündeki Synapse Studio'yu Aç kutucuğunu seçin.
Synapse Studio'da Geliştirme hub'ına gidin ve yeni bir Not Defteri oluşturun.
Yeni bir kod hücresi oluşturun ve aşağıdaki kodu bu hücreye yapıştırın. kapsayıcı ve adlsname değerini kapsayıcının adıyla ve önceki adımda kullanılan Azure Data Lake Storage 2. Nesil hesabıyla değiştirin.
%%pyspark df = spark.read.load('abfss://container@adlsname.dfs.core.windows.net/*/*.parquet', format='parquet') display(df.limit(10)) df.count() df.printSchema()Araç çubuğunda Ekle için açılan listeden Spark havuzunuzu seçin.
Sonuçları görmek için Tümünü Çalıştır'ı seçin.
Azure Synapse Sunucusuz SQL kullanarak sorgulama
Geliştirme hub'ında yeni bir SQL betiği oluşturun.
Aşağıdaki betiği yapıştırın ve Yerleşik sunucusuz SQL uç noktasını kullanarak çalıştırın. kapsayıcı ve adlsname değerini kapsayıcının adıyla ve önceki adımda kullanılan Azure Data Lake Storage 2. Nesil hesabıyla değiştirin.
SELECT TOP 100 * FROM OPENROWSET( BULK 'https://adlsname.dfs.core.windows.net/container/*/*.parquet', FORMAT='PARQUET' ) AS [result]
Kaynakları temizleme
- Event Hubs örneğinizi bulun ve İşlem Verileri bölümünde Stream Analytics işlerinin listesine bakın. Çalışan tüm işleri durdurun.
- TollApp olay oluşturucuyu dağıtırken kullandığınız kaynak grubuna gidin.
- Kaynak grubunu sil'i seçin. Silme işlemini onaylamak için kaynak grubunun adını yazın.
Sonraki adımlar
Bu öğreticide, kod yazmanıza gerek kalmadan bir Stream Analytics işi oluşturmak için Event Hubs veri akışlarını Parquet formatında yakalamak amacıyla bir kodsuz düzenleyici kullanmayı öğrendiniz. Ardından Hem Synapse Spark hem de Synapse SQL kullanarak Parquet dosyalarını sorgulamak için Azure Synapse Analytics'i kullandınız.