Hızlı Başlangıç: Eşleme veri akışlarını kullanarak verileri dönüştürme
Bu hızlı başlangıçta Azure Synapse Analytics'i kullanarak eşleme veri akışını kullanarak verileri bir Azure Data Lake Storage 2. Nesil (ADLS 2. Nesil) kaynağından ADLS 2. Nesil havuzuna dönüştüren bir işlem hattı oluşturacaksınız. Bu hızlı başlangıçtaki yapılandırma düzeni, eşleme veri akışı kullanılarak veriler dönüştürülürken genişletilebilir
Bu hızlı başlangıçta aşağıdaki adımları uygulayacaksınız:
- Azure Synapse Analytics'te Veri Akışı etkinliği olan bir işlem hattı oluşturun.
- Dört dönüştürme ile bir eşleme veri akışı oluşturun.
- İşlem hattında test çalıştırması yapma.
- Veri Akışı etkinliğini izleme
Önkoşullar
Azure aboneliği: Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir Azure hesabı oluşturun.
Azure Synapse çalışma alanı: Hızlı Başlangıç: Synapse çalışma alanı oluşturma başlığı altındaki yönergeleri izleyerek Azure portalını kullanarak bir Synapse çalışma alanı oluşturun.
Azure depolama hesabı: AdLS depolama alanını kaynak ve havuz veri depoları olarak kullanırsınız. Depolama hesabınız yoksa, oluşturma adımları için bkz. Azure depolama hesabı oluşturma.
Bu öğreticide dönüştürdüğümiz dosya MoviesDB.csv ve burada bulunabilir. GitHub'dan dosyayı almak için içeriği istediğiniz bir metin düzenleyicisine kopyalayarak yerel olarak .csv dosyası olarak kaydedin. Dosyayı depolama hesabınıza yüklemek için bkz . Azure portalı ile blobları karşıya yükleme. Örnekler , 'sample-data' adlı bir kapsayıcıya başvuruda bulunacaktır.
Synapse Studio'ya gidin
Azure Synapse çalışma alanınız oluşturulduktan sonra Synapse Studio'yu açmanın iki yolu vardır:
- Synapse çalışma alanınızı Azure portalında açın. Başlarken'in altındaki Synapse Studio'yu Aç kartında Aç'ı seçin.
- Azure Synapse Analytics'i açın ve çalışma alanınızda oturum açın.
Bu hızlı başlangıçta örnek olarak "adftest2020" adlı çalışma alanını kullanacağız. Otomatik olarak Synapse Studio giriş sayfasına gidersiniz.
Veri Akışı etkinliğiyle işlem hattı oluşturma
İşlem hattı, bir etkinlik kümesinin yürütülmesi için mantıksal akışı içerir. Bu bölümde, Veri Akışı etkinliği içeren bir işlem hattı oluşturacaksınız.
Tümleştir sekmesine gidin. İşlem hatları üst bilgisinin yanındaki artı simgesini seçin ve İşlem Hattı'nı seçin.
İşlem hattının Özellikler ayarları sayfasında, Ad için TransformMovies girin.
Etkinlikler bölmesindeki Taşı ve Dönüştür altında Veri akışı'nı işlem hattı tuvaline sürükleyin.
Veri akışı ekleme sayfasında Yeni veri akışı oluştur ->Veri akışı'nı seçin. Tamamladığınızda Tamam’ı seçin.
Özellikler sayfasında veri akışınızı TransformMovies olarak adlandırın.
Veri akışı tuvalinde dönüştürme mantığı oluşturma
Veri Akışı oluşturduktan sonra otomatik olarak veri akışı tuvaline gönderilirsiniz. Bu adımda, ADLS depolama alanında MoviesDB.csv alan ve 1910 ile 2000 arasında ortalama komedi derecelendirmesini toplayan bir veri akışı oluşturacaksınız. Ardından bu dosyayı ADLS depolama alanına geri yazacaksınız.
Veri akışı tuvalinin üzerinde Veri akışı hata ayıklama kaydırıcısını açın. Hata ayıklama modu, dinamik bir Spark kümesinde dönüştürme mantığının etkileşimli olarak test edilmesini sağlar. Veri Akışı kümelerin ısınması 5-7 dakika sürer ve kullanıcıların Veri Akışı geliştirme yapmayı planlıyorlarsa önce hata ayıklamayı açmaları önerilir. Daha fazla bilgi için bkz . Hata Ayıklama Modu.
Veri akışı tuvalinde, Kaynak Ekle kutusuna tıklayarak bir kaynak ekleyin.
Kaynağınıza MoviesDB adını verin. Yeni bir kaynak veri kümesi oluşturmak için Yeni'yi seçin.
Azure Data Lake Storage 2. Nesil'ı seçin. Devam'ı seçin.
Sınırlandırılmış Metin'i seçin. Devam'ı seçin.
Veri kümenize MoviesDB adını verin. Bağlı hizmet açılan listesinde Yeni'yi seçin.
Bağlı hizmet oluşturma ekranında ADLS 2. Nesil bağlı hizmetinizi ADLSGen2 olarak adlandırın ve kimlik doğrulama yönteminizi belirtin. Ardından bağlantı kimlik bilgilerinizi girin. Bu hızlı başlangıçta, depolama hesabımıza bağlanmak için Hesap anahtarı kullanacağız. Kimlik bilgilerinizin doğru girildiğini doğrulamak için Bağlantıyı sına'yı seçebilirsiniz. Bittiğinde Oluştur’u seçin.
Veri kümesi oluşturma ekranına döndüğünüzde, Dosya yolu alanının altına dosyanızın bulunduğu yeri girin. Bu hızlı başlangıçta, "MoviesDB.csv" dosyası "sample-data" kapsayıcısında bulunur. Dosyada üst bilgiler olduğundan İlk satır üst bilgi olarak seçeneğini işaretleyin. Üst bilgi şemasını doğrudan depolamadaki dosyadan içeri aktarmak için Bağlantıdan/depodan'ı seçin. Tamamladığınızda Tamam’ı seçin.
Hata ayıklama kümeniz başlatıldıysa, kaynak dönüştürmenin Veri Önizleme sekmesine gidin ve verilerin anlık görüntüsünü almak için Yenile'yi seçin. Dönüştürmenizin doğru yapılandırıldığını doğrulamak için veri önizlemesini kullanabilirsiniz.
Veri akışı tuvalinde kaynak düğümünüzün yanındaki artı simgesini seçerek yeni bir dönüşüm ekleyin. Eklediğiniz ilk dönüştürme bir Filtredir.
Filtre dönüştürmenize FilterYears adını verin. İfade oluşturucusunu açmak için Filtre uygula'nın yanındaki ifade kutusunu seçin. Burada filtreleme koşulunuzu belirteceksiniz.
Veri akışı ifade oluşturucusu, çeşitli dönüşümlerde kullanmak üzere etkileşimli olarak ifadeler oluşturmanıza olanak tanır. İfadeler yerleşik işlevleri, giriş şemasındaki sütunları ve kullanıcı tanımlı parametreleri içerebilir. İfade oluşturma hakkında daha fazla bilgi için bkz. Veri Akışı ifade oluşturucusu.
Bu hızlı başlangıçta, 1910 ve 2000 yılları arasında çıkan tür komedi filmlerini filtrelemek istiyorsunuz. Year şu anda bir dize olduğundan, işlevini kullanarak bir tamsayıya
toInteger()
dönüştürmeniz gerekir. 1910 ve 200-değişmez yıl değerleriyle karşılaştırmak için büyüktür veya eşittir (>=) ve küçüktür veya eşittir (<=) işleçlerini kullanın. Bu ifadeleri (ve) işleciyle birleştirin&&
. İfade şu şekilde ortaya çıkar:toInteger(year) >= 1910 && toInteger(year) <= 2000
Hangi filmlerin
rlike()
komedi olduğunu bulmak için işlevini kullanarak sütun türlerinde 'Comedy' desenini bulabilirsiniz. İfadeyirlike
, elde etmek için yıl karşılaştırmasıyla ilişkilendirin:toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')
Etkin bir hata ayıklama kümeniz varsa, kullanılan girişlerle karşılaştırıldığında ifade çıkışını görmek için Yenile'ye tıklayarak mantığınızı doğrulayabilirsiniz. Veri akışı ifade dilini kullanarak bu mantığı nasıl gerçekleştirebileceğinize ilişkin birden fazla doğru yanıt vardır.
İfadenizle işiniz bittiğinde Kaydet ve Son'u seçin.
Filtrenin düzgün çalıştığını doğrulamak için bir Veri Önizlemesi getirin.
Ekleyeceğiniz bir sonraki dönüşüm, Şema değiştiricisi altında bir Toplama dönüşümüdür.
Toplama dönüştürmenize AggregateComedyRatings adını verin. Gruplandırma ölçütü sekmesinde, toplamaları filmin çıktığı yıla göre gruplandırmak için açılan listeden yılı seçin.
Toplamalar sekmesine gidin. Sol metin kutusunda AverageComedyRating toplama sütununu adlandırın. İfade oluşturucusu aracılığıyla toplama ifadesini girmek için doğru ifade kutusunu seçin.
Derecelendirme sütununun ortalamasını almak için toplama işlevini kullanın
avg()
. Derecelendirme bir dize olduğundan veavg()
sayısal bir giriş aldığından, işlevi aracılığıyla değeri sayıyatoInteger()
dönüştürmemiz gerekir. Bu ifade şöyle görünür:avg(toInteger(Rating))
İşiniz bittiğinde Kaydet ve Son'u seçin.
Dönüştürme çıkışını görüntülemek için Veri Önizleme sekmesine gidin. yalnızca iki sütun olduğuna dikkat edin: year ve AverageComedyRating.
Ardından, Hedef'in altına havuz dönüşümü eklemek istiyorsunuz.
Havuza Havuz adını verin. Havuz veri kümenizi oluşturmak için Yeni'yi seçin.
Azure Data Lake Storage 2. Nesil'ı seçin. Devam'ı seçin.
Sınırlandırılmış Metin'i seçin. Devam'ı seçin.
Havuz veri kümenize MoviesSink adını verin. Bağlı hizmet için 7. adımda oluşturduğunuz ADLS 2. Nesil bağlı hizmetini seçin. Verilerinizi yazmak için bir çıkış klasörü girin. Bu hızlı başlangıçta, 'sample-data' kapsayıcısında 'output' klasörüne yazıyoruz. Klasörün önceden var olması gerekmez ve dinamik olarak oluşturulabilir. İlk satırı üst bilgi olarak true olarak ayarlayın ve şemayı içeri aktarma için Yok'a tıklayın. Tamamladığınızda Tamam’ı seçin.
Artık veri akışınızı derlemeyi tamamladınız. İşlem hattınızda çalıştırmaya hazırsınız.
Veri Akışı çalıştırma ve izleme
Bir işlem hattını yayımlamadan önce hata ayıklayabilirsiniz. Bu adımda, veri akışı işlem hattının hata ayıklama çalıştırmasını tetikleyeceksiniz. Veri önizlemesi veri yazmasa da, hata ayıklama çalıştırması havuz hedefinize veri yazar.
İşlem hattı tuvaline gidin. Hata ayıklama çalıştırmasını tetikleme için Hata Ayıkla'ya tıklayın.
Veri Akışı etkinliklerinin işlem hattı hata ayıklaması etkin hata ayıklama kümesini kullanır ancak başlatılması en az bir dakika sürer. İlerleme durumunu Çıkış sekmesi aracılığıyla izleyebilirsiniz. Çalıştırma başarılı olduktan sonra, izleme bölmesini açmak için gözlük simgesini seçin.
İzleme bölmesinde, her dönüştürme adımında harcanan satır ve zaman sayısını görebilirsiniz.
Sütunlar ve verilerin bölümlenmesi hakkında ayrıntılı bilgi almak için bir dönüştürme seçin.
Bu hızlı başlangıcı doğru şekilde izlediyseniz havuz klasörünüzde 83 satır ve 2 sütun yazmış olmanız gerekir. Blob depolama alanınızı denetleyerek verileri doğrulayabilirsiniz.
Sonraki adımlar
Azure Synapse Analytics desteği hakkında bilgi edinmek için aşağıdaki makalelere ilerleyin: