Eşleme veri akışlarını kullanarak verileri dönüştürme

ŞUNLAR IÇIN GEÇERLIDIR: Azure Data Factory Azure Synapse Analytics

Azure Data Factory kullanmaya yeni başlıyorsanız bkz. Azure Data Factory'ye giriş.

Bu öğreticide, eşleme veri akışını kullanarak Azure Data Lake Storage (ADLS) 2. Nesil kaynağındaki verileri ADLS 2. Nesil havuzuna kopyalayıp dönüştüren bir işlem hattı oluşturmak için Azure Data Factory kullanıcı arabirimini (UX) kullanacaksınız. Eşleme veri akışı kullanılarak veriler dönüştürülürken bu öğreticideki yapılandırma deseni genişletilebilir

Not

Bu öğretici, genel olarak veri akışlarını eşlemeye yöneliktir. Veri akışları hem Azure Data Factory hem de Synapse İşlem Hatlarında kullanılabilir. Azure Synapse İşlem Hatlarındaki veri akışlarını kullanmaya yeniyseniz lütfen Azure Synapse İşlem Hatlarını kullanarak Veri Akışı izleyin

Bu öğreticide, aşağıdaki adımları gerçekleştireceksiniz:

  • Veri fabrikası oluşturma.
  • Veri Akışı etkinliği olan bir işlem hattı oluşturun.
  • Dört dönüştürme ile bir eşleme veri akışı oluşturun.
  • İşlem hattında test çalıştırması yapma.
  • Veri Akışı etkinliğini izleme

Önkoşullar

  • Azure aboneliği. Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir Azure hesabı oluşturun.
  • Azure depolama hesabı. ADLS depolama alanını kaynak ve havuz veri depoları olarak kullanırsınız. Depolama hesabınız yoksa, oluşturma adımları için bkz. Azure depolama hesabı oluşturma.

Bu öğreticide dönüştürdüğümuz dosya MoviesDB.csv , burada bulunabilir. GitHub'dan dosyayı almak için içeriği istediğiniz bir metin düzenleyicisine kopyalayarak yerel olarak .csv dosyası olarak kaydedin. Dosyayı depolama hesabınıza yüklemek için bkz. blobları Azure portal ile karşıya yükleme. Örnekler , 'sample-data' adlı bir kapsayıcıya başvuruda bulunacaktır.

Veri fabrikası oluşturma

Bu adımda bir veri fabrikası oluşturacak ve Data Factory UX'yi açarak veri fabrikasında işlem hattı oluşturacaksınız.

  1. Microsoft Edge veya Google Chrome'da açın. Şu anda Data Factory kullanıcı arabirimi yalnızca Microsoft Edge ve Google Chrome web tarayıcılarında desteklenmektedir.

  2. Soldaki menüde Kaynak> oluşturIntegration>Data Factory'yi seçin:

    Çekirdekte &Data Factory seçimi; Yeni&bölüm; bölme

  3. Yeni veri fabrikası sayfasında Ad bölümüne ADFTutorialDataFactory girin.

    Azure veri fabrikasının adı genel olarak benzersiz olmalıdır. Ad değeriyle ilgili bir hata iletisi alırsanız, veri fabrikası için farklı bir ad girin. (örneğin, adınızADFTutorialDataFactory). Data Factory yapıtlarının adlandırma kuralları için bkz.Data Factory adlandırma kuralları.

    Yinelenen ad için yeni veri fabrikası hata iletisi.

  4. Veri fabrikasını oluşturmak istediğiniz Azure aboneliğinizi seçin.

  5. Kaynak Grubu için aşağıdaki adımlardan birini uygulayın:

    a. Var olanı kullan’ı seçin ve ardından açılır listeden var olan bir kaynak grubu belirleyin.

    b. Yeni oluştur’u seçin ve bir kaynak grubunun adını girin.

    Kaynak grupları hakkında daha fazla bilgi için bkz. Azure kaynaklarınızı yönetmek için kaynak gruplarını kullanma.

  6. Sürüm bölümünde V2'yi seçin.

  7. Konum bölümünden veri fabrikası için bir konum seçin. Açılan listede yalnızca desteklenen konumlar görüntülenir. Veri fabrikası tarafından kullanılan veri depoları (örneğin, Azure Depolama ve SQL Veritabanı) ve hesaplamalar (örneğin, Azure HDInsight) başka bölgelerde olabilir.

  8. Oluştur’u seçin.

  9. Oluşturma işlemi tamamlandıktan sonra Bildirim merkezi'nde bildirimi görürsünüz. Data factory sayfasına gitmek için Kaynağa git'i seçin.

  10. Data Factory kullanıcı arabirimini ayrı bir sekmede başlatmak için Yazar & İzleyicisi'ni seçin.

Veri Akışı etkinliğiyle işlem hattı oluşturma

Bu adımda, Veri Akışı etkinliği içeren bir işlem hattı oluşturacaksınız.

  1. Azure Data Factory giriş sayfasında Düzenle'yi seçin.

    ADF giriş sayfasını gösteren ekran görüntüsü.

  2. İşlem hattının Genel sekmesinde, işlem hattının adı için TransformMovies girin.

  3. Etkinlikler bölmesinde Taşı ve Dönüştür akordeonunu genişletin. bölmedeki Veri Akışı etkinliğini sürükleyip işlem hattı tuvaline bırakın.

    Veri Akışı etkinliğini bırakabileceğiniz işlem hattı tuvalini gösteren ekran görüntüsü.

  4. Veri Akışı Ekleniyor açılır penceresinde Yeni Veri Akışı oluştur'u seçin ve veri akışınıza TransformMovies adını verin. bitirdiğinizde Son'a tıklayın.

    Yeni bir veri akışı oluştururken veri akışınızı adlandırdığınız yeri gösteren ekran görüntüsü.

  5. İşlem hattı tuvalinin üst çubuğunda hata ayıklama kaydırıcısını Veri Akışı kaydırın. Hata ayıklama modu, dinamik Spark kümesinde dönüştürme mantığının etkileşimli olarak test edilmesini sağlar. Veri Akışı kümelerinin ısınması 5-7 dakika sürer ve kullanıcıların Veri Akışı geliştirme yapmayı planlıyorlarsa önce hata ayıklamayı açmaları önerilir. Daha fazla bilgi için bkz. Hata Ayıklama Modu.

    Veri Akışı Etkinliği

Veri akışı tuvalinde dönüştürme mantığı oluşturma

Veri Akışı oluşturduktan sonra otomatik olarak veri akışı tuvaline gönderilirsiniz. Bu adımda, ADLS depolama alanında moviesDB.csv alan ve 1910 ile 2000 arasında ortalama komedi derecelendirmesini toplayan bir veri akışı oluşturacaksınız. Ardından bu dosyayı ADLS depolama alanına geri yazacaksınız.

  1. Veri akışı tuvalinde , Kaynak Ekle kutusuna tıklayarak bir kaynak ekleyin.

    Kaynak Ekle kutusunu gösteren ekran görüntüsü.

  2. Kaynağınıza MoviesDB adını verin. Yeni kaynak veri kümesi oluşturmak için Yeni'ye tıklayın.

    Kaynağınızı adlandırdıktan sonra Yeni'yi seçtiğiniz yeri gösteren ekran görüntüsü.

  3. Azure Data Lake Storage 2. Nesil'ı seçin. Devam'a tıklayın.

    Azure Data Lake Storage 2. Nesil kutucuğunun nerede olduğunu gösteren ekran görüntüsü.

  4. Sınırlandırılmış Metin'i seçin. Devam'a tıklayın.

    SınırlanmışMetin kutucuğunu gösteren ekran görüntüsü.

  5. Veri kümenize MoviesDB adını verin. Bağlı hizmet açılan listesinde Yeni'yi seçin.

    Bağlı hizmet açılan listesini gösteren ekran görüntüsü.

  6. Bağlı hizmet oluşturma ekranında ADLS 2. nesil bağlı hizmetinizi ADLSGen2 olarak adlandırın ve kimlik doğrulama yönteminizi belirtin. Ardından bağlantı kimlik bilgilerinizi girin. Bu öğreticide, depolama hesabımıza bağlanmak için Hesap anahtarını kullanıyoruz. Kimlik bilgilerinizin doğru girildiğini doğrulamak için Bağlantıyı sına'ya tıklayabilirsiniz. Bitirdiğinizde Oluştur'a tıklayın.

    Bağlı Hizmet

  7. Veri kümesi oluşturma ekranına döndüğünüzde Dosya yolu alanının altında dosyanızın bulunduğu yeri girin. Bu öğreticide dosya moviesDB.csv, sample-data kapsayıcısında bulunur. Dosyada üst bilgiler olduğundan İlk satır üst bilgi olarak seçeneğini işaretleyin. Üst bilgi şemasını doğrudan depolamadaki dosyadan içeri aktarmak için Bağlantıdan/depodan'ı seçin. İşiniz bittiğinde Tamam'a tıklayın.

    Veri kümeleri

  8. Hata ayıklama kümeniz başlatıldıysa, kaynak dönüştürmenin Veri Önizleme sekmesine gidin ve verilerin anlık görüntüsünü almak için Yenile'ye tıklayın. Dönüştürmenizin doğru yapılandırıldığından emin olmak için veri önizlemesini kullanabilirsiniz.

    Dönüştürmenizin doğru yapılandırıldığını doğrulamak için verilerinizin önizlemesini nerede görüntüleyebileceğinizi gösteren ekran görüntüsü.

  9. Veri akışı tuvalinde kaynak düğümünüzün yanındaki artı simgesine tıklayarak yeni bir dönüşüm ekleyin. Eklediğiniz ilk dönüştürme bir Filtre'dir.

    Veri Akışı Tuvali

  10. Filtre dönüştürmenize FilterYears adını verin. İfade oluşturucusunu açmak için Filtre uygula'nın yanındaki ifade kutusuna tıklayın. Burada filtreleme koşulunuzu belirteceksiniz.

    İfadede filtrele kutusunu gösteren ekran görüntüsü.

  11. Veri akışı ifade oluşturucusu, çeşitli dönüşümlerde kullanmak üzere etkileşimli olarak ifadeler oluşturmanıza olanak tanır. İfadeler yerleşik işlevleri, giriş şemasındaki sütunları ve kullanıcı tanımlı parametreleri içerebilir. İfade oluşturma hakkında daha fazla bilgi için bkz. Veri Akışı ifade oluşturucusu.

    Bu öğreticide, 1910 ve 2000 yılları arasında çıkan tarz komedi filmlerini filtrelemek istiyorsunuz. Year şu anda bir dize olduğundan, işlevini kullanarak bunu bir tamsayıya toInteger() dönüştürmeniz gerekir. 1910 ve 2000 sabit yıl değerleriyle karşılaştırmak için büyüktür veya eşittir (>=) ve küçüktür veya eşittir (<=) işleçlerini kullanın. Bu ifadeleri ve (&&) işleciyle birleştirin. İfade şu şekilde ortaya çıkar:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    Hangi filmlerin komedi olduğunu bulmak için işlevini kullanarak rlike() sütun türlerinde 'Comedy' desenini bulabilirsiniz. İfadeyi rlike , elde etmek için yıl karşılaştırmasıyla birleşim:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    Etkin bir hata ayıklama kümeniz varsa, kullanılan girişlerle karşılaştırıldığında ifade çıktısını görmek için Yenile'ye tıklayarak mantığınızı doğrulayabilirsiniz. Veri akışı ifade dilini kullanarak bu mantığı nasıl gerçekleştirebileceğinize ilişkin birden fazla doğru yanıt vardır.

    Filtre

    İfadenizle işiniz bittiğinde Kaydet ve Son'a tıklayın.

  12. Filtrenin düzgün çalıştığını doğrulamak için Bir Veri Önizlemesi getirin.

    Getirdiğiniz Veri Önizlemesini gösteren ekran görüntüsü.

  13. Ekleyeceğiniz bir sonraki dönüştürme, Şema değiştiricisi altında bir Toplama dönüştürmesi olacaktır.

    Toplama şeması değiştiricisini gösteren ekran görüntüsü.

  14. Toplama dönüştürmenize AggregateComedyRatings adını verin. Gruplandırma ölçütü sekmesinde, toplamaları filmin çıktığı yıla göre gruplandırmak için açılan listeden yılı seçin.

    Toplama Ayarları'nın altındaki Gruplandırma ölçütü sekmesinde yıl seçeneğini gösteren ekran görüntüsü.

  15. Toplamalar sekmesine gidin. Sol metin kutusunda toplama sütununu AverageComedyRating olarak adlandırın. İfade oluşturucusu aracılığıyla toplama ifadesini girmek için sağ ifade kutusuna tıklayın.

    Toplama Ayarları'nın altındaki Toplamlar sekmesindeki yıl seçeneğini gösteren ekran görüntüsü.

  16. Derecelendirme sütununun ortalamasını almak için toplama işlevini kullanınavg(). Derecelendirme bir dize olduğundan ve avg() sayısal giriş aldığından, işlevi aracılığıyla değeri sayıya toInteger() dönüştürmemiz gerekir. Bu ifade şöyle görünür:

    avg(toInteger(Rating))

    İşiniz bittiğinde Kaydet ve Bitir'e tıklayın.

    Kaydedilen ifadeyi gösteren ekran görüntüsü.

  17. Dönüştürme çıkışını görüntülemek için Veri Önizleme sekmesine gidin. yalnızca year ve AverageComedyRating sütunlarının bulunduğuna dikkat edin.

    Toplama

  18. Ardından, Hedef'in altına bir Havuz dönüşümü eklemek istiyorsunuz.

    Hedef'in altında havuz dönüştürmenin ekleneceği yeri gösteren ekran görüntüsü.

  19. Havuza Havuz adını verin. Havuz veri kümenizi oluşturmak için Yeni'ye tıklayın.

    Havuzunuzu adlandırabileceğiniz ve yeni bir havuz veri kümesi oluşturabileceğiniz yeri gösteren ekran görüntüsü.

  20. Azure Data Lake Storage 2. Nesil'ı seçin. Devam'a tıklayın.

    Seçebileceğiniz Azure Data Lake Storage 2. Nesil kutucuğunu gösteren ekran görüntüsü.

  21. Sınırlandırılmış Metin'i seçin. Devam'a tıklayın.

    Dataset

  22. Havuz veri kümenize MoviesSink adını verin. Bağlı hizmet için 6. adımda oluşturduğunuz ADLS 2. nesil bağlı hizmeti seçin. Verilerinizi yazmak için bir çıkış klasörü girin. Bu öğreticide, 'sample-data' kapsayıcısında 'output' klasörüne yazıyoruz. Klasörün önceden var olması gerekmez ve dinamik olarak oluşturulabilir. İlk satırı üst bilgi olarak true olarak ayarlayın ve Şemayı içeri aktar için Yok'a tıklayın. Son'a tıklayın.

    Havuz

Artık veri akışınızı derlemeyi tamamladınız. İşlem hattınızda çalıştırmaya hazırsınız.

Veri Akışı çalıştırma ve izleme

Bir işlem hattını yayımlamadan önce hata ayıklayabilirsiniz. Bu adımda, veri akışı işlem hattının hata ayıklama çalıştırmasını tetikleyeceksiniz. Veri önizlemesi veri yazmaz ancak hata ayıklama çalıştırması havuz hedefinize veri yazar.

  1. İşlem hattı tuvaline gidin. Hata ayıklama çalıştırmasını tetikleme için Hata Ayıkla'ya tıklayın.

    Hata Ayıklama'nın vurgulandığı işlem hattı tuvalini gösteren ekran görüntüsü.

  2. Veri Akışı etkinliklerinin işlem hattı hata ayıklaması etkin hata ayıklama kümesini kullanır ancak başlatılması en az bir dakika sürer. İlerleme durumunu Çıkış sekmesi aracılığıyla izleyebilirsiniz. Çalıştırma başarılı olduktan sonra gözlük simgesine tıklayarak izleme bölmesini açın.

    İşlem Hattı

  3. İzleme bölmesinde, her dönüştürme adımında harcanan satır ve zaman sayısını görebilirsiniz.

    Her dönüştürme adımında satır sayısını ve harcanan zamanı görebileceğiniz izleme bölmesini gösteren ekran görüntüsü.

  4. Verilerin sütunları ve bölümlenmesi hakkında ayrıntılı bilgi almak için bir dönüştürmeye tıklayın.

    İzleme

Bu öğreticiyi doğru şekilde izlediyseniz havuz klasörünüzde 83 satır ve 2 sütun yazmış olmanız gerekir. Blob depolama alanınızı denetleyerek verilerin doğru olduğunu doğrulayabilirsiniz.

Sonraki adımlar

Bu öğreticideki işlem hattı, 1910 ile 2000 arasında ortalama komedi derecelendirmesini toplayan ve verileri ADLS'ye yazan bir veri akışı çalıştırır. Şunları öğrendiniz:

  • Veri fabrikası oluşturma.
  • Veri Akışı etkinliğiyle bir işlem hattı oluşturun.
  • Dört dönüştürme ile bir eşleme veri akışı oluşturun.
  • İşlem hattında test çalıştırması yapma.
  • Veri Akışı etkinliğini izleme

Veri akışı ifade dili hakkında daha fazla bilgi edinin.