Aracılığıyla paylaş


Hızlı Başlangıç: Eşleme veri akışlarını kullanarak verileri dönüştürme

Bu hızlı başlangıçta Azure Synapse Analytics'i kullanarak eşleme veri akışını kullanarak verileri bir Azure Data Lake Storage 2. Nesil (ADLS 2. Nesil) kaynağından ADLS 2. Nesil havuzuna dönüştüren bir işlem hattı oluşturacaksınız. Bu hızlı başlangıçtaki yapılandırma düzeni, eşleme veri akışı kullanılarak veriler dönüştürülürken genişletilebilir

Bu hızlı başlangıçta aşağıdaki adımları uygulayacaksınız:

  • Azure Synapse Analytics'te Veri Akışı etkinliği olan bir işlem hattı oluşturun.
  • Dört dönüştürme ile bir eşleme veri akışı oluşturun.
  • İşlem hattında test çalıştırması yapma.
  • Veri Akışı etkinliğini izleme

Önkoşullar

  • Azure aboneliği: Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir Azure hesabı oluşturun.

  • Azure Synapse çalışma alanı: Hızlı Başlangıç: Synapse çalışma alanı oluşturma başlığı altındaki yönergeleri izleyerek Azure portalını kullanarak bir Synapse çalışma alanı oluşturun.

  • Azure depolama hesabı: AdLS depolama alanını kaynak ve havuz veri depoları olarak kullanırsınız. Depolama hesabınız yoksa, oluşturma adımları için bkz. Azure depolama hesabı oluşturma.

    Bu öğreticide dönüştürdüğümiz dosya MoviesDB.csv ve burada bulunabilir. GitHub'dan dosyayı almak için içeriği istediğiniz bir metin düzenleyicisine kopyalayarak yerel olarak .csv dosyası olarak kaydedin. Dosyayı depolama hesabınıza yüklemek için bkz . Azure portalı ile blobları karşıya yükleme. Örnekler , 'sample-data' adlı bir kapsayıcıya başvuruda bulunacaktır.

Azure Synapse çalışma alanınız oluşturulduktan sonra Synapse Studio'yu açmanın iki yolu vardır:

  • Synapse çalışma alanınızı Azure portalında açın. Başlarken'in altındaki Synapse Studio'yu Aç kartında Aç'ı seçin.
  • Azure Synapse Analytics'i açın ve çalışma alanınızda oturum açın.

Bu hızlı başlangıçta örnek olarak "adftest2020" adlı çalışma alanını kullanacağız. Otomatik olarak Synapse Studio giriş sayfasına gidersiniz.

Synapse Studio giriş sayfası

Veri Akışı etkinliğiyle işlem hattı oluşturma

İşlem hattı, bir etkinlik kümesinin yürütülmesi için mantıksal akışı içerir. Bu bölümde, Veri Akışı etkinliği içeren bir işlem hattı oluşturacaksınız.

  1. Tümleştir sekmesine gidin. İşlem hatları üst bilgisinin yanındaki artı simgesini seçin ve İşlem Hattı'nı seçin.

    Yeni ardışık düzen oluşturma

  2. İşlem hattının Özellikler ayarları sayfasında, Ad için TransformMovies girin.

  3. Etkinlikler bölmesindeki Taşı ve Dönüştür altında Veri akışı'nı işlem hattı tuvaline sürükleyin.

  4. Veri akışı ekleme sayfasında Yeni veri akışı oluştur ->Veri akışı'nı seçin. Tamamladığınızda Tamam’ı seçin.

    Veri akışı oluşturma

  5. Özellikler sayfasında veri akışınızı TransformMovies olarak adlandırın.

Veri akışı tuvalinde dönüştürme mantığı oluşturma

Veri Akışı oluşturduktan sonra otomatik olarak veri akışı tuvaline gönderilirsiniz. Bu adımda, ADLS depolama alanında MoviesDB.csv alan ve 1910 ile 2000 arasında ortalama komedi derecelendirmesini toplayan bir veri akışı oluşturacaksınız. Ardından bu dosyayı ADLS depolama alanına geri yazacaksınız.

  1. Veri akışı tuvalinin üzerinde Veri akışı hata ayıklama kaydırıcısını açın. Hata ayıklama modu, dinamik bir Spark kümesinde dönüştürme mantığının etkileşimli olarak test edilmesini sağlar. Veri Akışı kümelerin ısınması 5-7 dakika sürer ve kullanıcıların Veri Akışı geliştirme yapmayı planlıyorlarsa önce hata ayıklamayı açmaları önerilir. Daha fazla bilgi için bkz . Hata Ayıklama Modu.

    Hata ayıklamayı şu şekilde kaydırın:

  2. Veri akışı tuvalinde, Kaynak Ekle kutusuna tıklayarak bir kaynak ekleyin.

  3. Kaynağınıza MoviesDB adını verin. Yeni bir kaynak veri kümesi oluşturmak için Yeni'yi seçin.

    Yeni kaynak veri kümesi oluşturma

  4. Azure Data Lake Storage 2. Nesil'ı seçin. Devam'ı seçin.

    Azure Data Lake Storage 2. Nesil seçin

  5. Sınırlandırılmış Metin'i seçin. Devam'ı seçin.

  6. Veri kümenize MoviesDB adını verin. Bağlı hizmet açılan listesinde Yeni'yi seçin.

  7. Bağlı hizmet oluşturma ekranında ADLS 2. Nesil bağlı hizmetinizi ADLSGen2 olarak adlandırın ve kimlik doğrulama yönteminizi belirtin. Ardından bağlantı kimlik bilgilerinizi girin. Bu hızlı başlangıçta, depolama hesabımıza bağlanmak için Hesap anahtarı kullanacağız. Kimlik bilgilerinizin doğru girildiğini doğrulamak için Bağlantıyı sına'yı seçebilirsiniz. Bittiğinde Oluştur’u seçin.

    Kaynak bağlı hizmet oluşturma

  8. Veri kümesi oluşturma ekranına döndüğünüzde, Dosya yolu alanının altına dosyanızın bulunduğu yeri girin. Bu hızlı başlangıçta, "MoviesDB.csv" dosyası "sample-data" kapsayıcısında bulunur. Dosyada üst bilgiler olduğundan İlk satır üst bilgi olarak seçeneğini işaretleyin. Üst bilgi şemasını doğrudan depolamadaki dosyadan içeri aktarmak için Bağlantıdan/depodan'ı seçin. Tamamladığınızda Tamam’ı seçin.

    Kaynak veri kümesi ayarları

  9. Hata ayıklama kümeniz başlatıldıysa, kaynak dönüştürmenin Veri Önizleme sekmesine gidin ve verilerin anlık görüntüsünü almak için Yenile'yi seçin. Dönüştürmenizin doğru yapılandırıldığını doğrulamak için veri önizlemesini kullanabilirsiniz.

    Veri önizleme

  10. Veri akışı tuvalinde kaynak düğümünüzün yanındaki artı simgesini seçerek yeni bir dönüşüm ekleyin. Eklediğiniz ilk dönüştürme bir Filtredir.

    Filtre ekleyin

  11. Filtre dönüştürmenize FilterYears adını verin. İfade oluşturucusunu açmak için Filtre uygula'nın yanındaki ifade kutusunu seçin. Burada filtreleme koşulunuzu belirteceksiniz.

  12. Veri akışı ifade oluşturucusu, çeşitli dönüşümlerde kullanmak üzere etkileşimli olarak ifadeler oluşturmanıza olanak tanır. İfadeler yerleşik işlevleri, giriş şemasındaki sütunları ve kullanıcı tanımlı parametreleri içerebilir. İfade oluşturma hakkında daha fazla bilgi için bkz. Veri Akışı ifade oluşturucusu.

    Bu hızlı başlangıçta, 1910 ve 2000 yılları arasında çıkan tür komedi filmlerini filtrelemek istiyorsunuz. Year şu anda bir dize olduğundan, işlevini kullanarak bir tamsayıya toInteger() dönüştürmeniz gerekir. 1910 ve 200-değişmez yıl değerleriyle karşılaştırmak için büyüktür veya eşittir (>=) ve küçüktür veya eşittir (<=) işleçlerini kullanın. Bu ifadeleri (ve) işleciyle birleştirin && . İfade şu şekilde ortaya çıkar:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    Hangi filmlerin rlike() komedi olduğunu bulmak için işlevini kullanarak sütun türlerinde 'Comedy' desenini bulabilirsiniz. İfadeyi rlike , elde etmek için yıl karşılaştırmasıyla ilişkilendirin:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    Filtreleme koşulunu belirtme

    Etkin bir hata ayıklama kümeniz varsa, kullanılan girişlerle karşılaştırıldığında ifade çıkışını görmek için Yenile'ye tıklayarak mantığınızı doğrulayabilirsiniz. Veri akışı ifade dilini kullanarak bu mantığı nasıl gerçekleştirebileceğinize ilişkin birden fazla doğru yanıt vardır.

    İfadenizle işiniz bittiğinde Kaydet ve Son'u seçin.

  13. Filtrenin düzgün çalıştığını doğrulamak için bir Veri Önizlemesi getirin.

  14. Ekleyeceğiniz bir sonraki dönüşüm, Şema değiştiricisi altında bir Toplama dönüşümüdür.

    Toplama Ekleme

  15. Toplama dönüştürmenize AggregateComedyRatings adını verin. Gruplandırma ölçütü sekmesinde, toplamaları filmin çıktığı yıla göre gruplandırmak için açılan listeden yılı seçin.

    Toplama ayarları 1

  16. Toplamalar sekmesine gidin. Sol metin kutusunda AverageComedyRating toplama sütununu adlandırın. İfade oluşturucusu aracılığıyla toplama ifadesini girmek için doğru ifade kutusunu seçin.

    Toplama ayarları 2

  17. Derecelendirme sütununun ortalamasını almak için toplama işlevini kullanınavg(). Derecelendirme bir dize olduğundan ve avg() sayısal bir giriş aldığından, işlevi aracılığıyla değeri sayıya toInteger() dönüştürmemiz gerekir. Bu ifade şöyle görünür:

    avg(toInteger(Rating))

    İşiniz bittiğinde Kaydet ve Son'u seçin.

    Ortalama komedi derecelendirmesi

  18. Dönüştürme çıkışını görüntülemek için Veri Önizleme sekmesine gidin. yalnızca iki sütun olduğuna dikkat edin: year ve AverageComedyRating.

    Veri Toplama Önizlemesi

  19. Ardından, Hedef'in altına havuz dönüşümü eklemek istiyorsunuz.

    Havuz Ekleme

  20. Havuza Havuz adını verin. Havuz veri kümenizi oluşturmak için Yeni'yi seçin.

  21. Azure Data Lake Storage 2. Nesil'ı seçin. Devam'ı seçin.

  22. Sınırlandırılmış Metin'i seçin. Devam'ı seçin.

  23. Havuz veri kümenize MoviesSink adını verin. Bağlı hizmet için 7. adımda oluşturduğunuz ADLS 2. Nesil bağlı hizmetini seçin. Verilerinizi yazmak için bir çıkış klasörü girin. Bu hızlı başlangıçta, 'sample-data' kapsayıcısında 'output' klasörüne yazıyoruz. Klasörün önceden var olması gerekmez ve dinamik olarak oluşturulabilir. İlk satırı üst bilgi olarak true olarak ayarlayın ve şemayı içeri aktarma için Yok'a tıklayın. Tamamladığınızda Tamam’ı seçin.

    Havuz veri kümesi özellikleri

Artık veri akışınızı derlemeyi tamamladınız. İşlem hattınızda çalıştırmaya hazırsınız.

Veri Akışı çalıştırma ve izleme

Bir işlem hattını yayımlamadan önce hata ayıklayabilirsiniz. Bu adımda, veri akışı işlem hattının hata ayıklama çalıştırmasını tetikleyeceksiniz. Veri önizlemesi veri yazmasa da, hata ayıklama çalıştırması havuz hedefinize veri yazar.

  1. İşlem hattı tuvaline gidin. Hata ayıklama çalıştırmasını tetikleme için Hata Ayıkla'ya tıklayın.

    İşlem hattında hata ayıklama

  2. Veri Akışı etkinliklerinin işlem hattı hata ayıklaması etkin hata ayıklama kümesini kullanır ancak başlatılması en az bir dakika sürer. İlerleme durumunu Çıkış sekmesi aracılığıyla izleyebilirsiniz. Çalıştırma başarılı olduktan sonra, izleme bölmesini açmak için gözlük simgesini seçin.

    Hata ayıklama çıkışı

  3. İzleme bölmesinde, her dönüştürme adımında harcanan satır ve zaman sayısını görebilirsiniz.

    Dönüştürme izleme

  4. Sütunlar ve verilerin bölümlenmesi hakkında ayrıntılı bilgi almak için bir dönüştürme seçin.

    Dönüştürme ayrıntıları

Bu hızlı başlangıcı doğru şekilde izlediyseniz havuz klasörünüzde 83 satır ve 2 sütun yazmış olmanız gerekir. Blob depolama alanınızı denetleyerek verileri doğrulayabilirsiniz.

Sonraki adımlar

Azure Synapse Analytics desteği hakkında bilgi edinmek için aşağıdaki makalelere ilerleyin: