Aracılığıyla paylaş


Öğretici: Eşleme veri akışlarını kullanarak verileri dönüştürme

GEÇERLİDİR: Azure Data Factory Azure Synapse Analytics

İpucu

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

Bu öğreticide Azure Data Factory kullanıcı arabirimini (UX) kullanarak eşleme veri akışını kullanarak Azure Data Lake Storage (ADLS) 2. Nesil kaynağındaki verileri ADLS 2. Nesil havuzuna kopyalayan ve dönüştüren bir işlem hattı oluşturacaksınız. Bu öğreticideki yapılandırma düzeni, eşleme veri akışı kullanılarak veriler dönüştürülürken genişletilebilir

Bu eğitim, genel olarak veri akışlarını eşlemeye yöneliktir. Veri akışları hem Azure Data Factory'de hem de Synapse Pipelines'da kullanılabilir. Eğer Azure Synapse Pipelines'da veri akışlarına yeniyseniz, Azure Synapse Pipelines'ı Kullanarak Veri Akışını Kullanma Rehberini takip edin.

Bu öğreticide, aşağıdaki adımları gerçekleştireceksiniz:

  • Veri fabrikası oluşturma.
  • Veri Akışı etkinliği içeren bir işlem hattı oluşturun.
  • Dört dönüştürme ile bir eşleme veri akışı oluşturun.
  • İşlem hattında test çalıştırması yapma.
  • Veri Akışı etkinliğini izleme

Önkoşullar

  • Azure aboneliği. Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir Azure hesabı oluşturun.
  • Azure Data Lake Storage 2. Nesil hesabı. ADLS depolama alanını kaynak ve havuz veri depoları olarak kullanırsınız. Depolama hesabınız yoksa, oluşturma adımları için bkz. Azure depolama hesabı oluşturma.
  • MoviesDB.csv buradan indirin. GitHub'dan dosyayı almak için içeriği istediğiniz bir metin düzenleyicisine kopyalayarak yerel olarak .csv dosyası olarak kaydedin. Dosyayı 'sample-data' adlı bir kapsayıcıda depolama hesabınıza yükleyin.

Veri fabrikası oluşturma

Bu adımda bir veri fabrikası oluşturacak ve Data Factory UX'yi açarak veri fabrikasında işlem hattı oluşturacaksınız.

  1. Microsoft Edge veya Google Chrome'u açın. Şu anda Data Factory kullanıcı arabirimi yalnızca Microsoft Edge ve Google Chrome web tarayıcılarında desteklenmektedir.

  2. Üstteki menüde Kaynak> oluşturAnalytics>Data Factory öğesini seçin:

  3. Yeni veri fabrikası sayfasında Ad bölümüne ADFTutorialDataFactory girin.

    Azure data factory adı küresel olarak benzersiz olmalıdır. Ad değeriyle ilgili bir hata iletisi alırsanız, veri fabrikası için farklı bir ad girin. (örneğin, adınızADFTutorialDataFactory). Data Factory yapıtlarının adlandırma kuralları için bkz.Data Factory adlandırma kuralları.

    Yinelenen ad için yeni veri fabrikası hata iletisi.

  4. Veri fabrikasını oluşturmak istediğiniz Azure aboneliğinizi seçin.

  5. Kaynak Grubu için aşağıdaki adımlardan birini uygulayın:

    1. Var olanı kullan’ı seçin ve ardından açılır listeden var olan bir kaynak grubu belirleyin.

    2. Yeni oluştur’u seçin ve bir kaynak grubunun adını girin.

    Kaynak grupları hakkında daha fazla bilgi için bkz. Azure kaynaklarınızı yönetmek için kaynak gruplarını kullanma.

  6. Sürüm bölümünde V2'yi seçin.

  7. Bölge'nin altında veri fabrikası için bir konum seçin. Açılan listede yalnızca desteklenen konumlar görüntülenir. Veri fabrikası tarafından kullanılan veri depoları (örneğin, Azure Depolama ve SQL Veritabanı) ve işlem (örneğin, Azure HDInsight) diğer bölgelerde olabilir.

  8. Gözden Geçir + Oluştur'u ve ardından Oluştur'u seçin.

  9. Oluşturma işlemi tamamlandıktan sonra Bildirim merkezi'nde bildirimi görürsünüz. Veri fabrikası sayfasına gitmek için Kaynağa git'i seçin.

  10. Studio'yu çalıştır seçeneğini seçerek Data Factory stüdyosunu ayrı bir sekmede açın.

Veri Akışı etkinliği kullanarak işlem hattı oluşturma

Bu adımda, Veri Akışı etkinliği içeren bir işlem hattı oluşturursunuz.

  1. Azure Data Factory'nin giriş sayfasında Düzenle'yi seçin.

    Azure Data Factory giriş sayfasını gösteren ekran görüntüsü.

  2. Yeni bir boru hattı için artık bir pencere açılmış durumda. İşlem hattı özelliklerinin Genel sekmesinde, işlem hattının Adı için TransformMovies girin.

  3. Etkinlikler bölmesinde Taşı ve Dönüştür akordeonunu genişletin. bölmeden Veri Akışı etkinliğini sürükleyip işlem hattı tuvaline bırakın.

    Veri Akışı etkinliğini bırakabileceğiniz işlem hattı tuvalini gösteren ekran görüntüsü.

  4. Veri akışı etkinliğinize DataFlow1 adını verin.

  5. İşlem hattı tuvalinin üst çubuğunda, Veri Akışı Hata Ayıklama kaydırıcısını açın. Hata ayıklama modu, dinamik bir Spark kümesinde dönüştürme mantığının etkileşimli olarak test edilmesini sağlar. Veri Akışı kümelerin ısınması 5-7 dakika sürer ve kullanıcıların Veri Akışı geliştirme yapmayı planlıyorlarsa önce hata ayıklamayı açmaları önerilir. Daha fazla bilgi için bkz . Hata Ayıklama Modu.

    Veri akışı hata ayıklamasını açma anahtarını gösteren ekran görüntüsü.

Veri akışı tuvalinde dönüştürme mantığı oluşturma

Bu adımda, ADLS depolama alanında moviesDB.csv alan ve 1910 ile 2000 arasında komedilerin ortalama derecelendirmesini toplayan bir veri akışı oluşturursunuz. Ardından bu dosyayı ADLS depolama alanına geri yazarsınız.

  1. Tuvalin altındaki panelde Veri akışı etkinliğinizin Ayarları'na gidin ve Veri akışı alanının yanında bulunan Yeni'yi seçin. Bu, veri akışı tuvalini açar.

    İşlem hattı düzenleyicisinden veri akışı düzenleyicisinin nasıl açacağınızı gösteren ekran görüntüsü.

  2. Özellikler bölmesinde genel'in altında veri akışınızı adlandırın: TransformMovies.

  3. Veri akışı tuvalinde Kaynak Ekle kutusunu seçerek bir kaynak ekleyin .

    Kaynak Ekle kutusunu gösteren ekran görüntüsü.

  4. Kaynağınıza MoviesDB adını verin. Yeni bir kaynak veri kümesi oluşturmak için Yeni'yi seçin.

    Kaynağınızı adlandırdıktan sonra Yeni'yi seçtiğiniz yeri gösteren ekran görüntüsü.

  5. Azure Data Lake Storage 2. Nesil'ı seçin. Devam'ı seçin.

    Azure Data Lake Storage 2. Nesil kutucuğunun nerede olduğunu gösteren ekran görüntüsü.

  6. Sınırlandırılmış Metin'i seçin. Devam'ı seçin.

    Sınırlandırılmış Metin kutucuğunu gösteren ekran görüntüsü.

  7. Veri kümenize MoviesDB adını verin. Bağlı hizmet açılan listesinde Yeni'yi seçin.

    Linked service açılan listesini gösteren ekran görüntüsü.

  8. Bağlı hizmet oluşturma ekranında ADLS 2. nesil bağlı hizmetinizi ADLSGen2 olarak adlandırın ve kimlik doğrulama yönteminizi belirtin. Ardından bağlantı kimlik bilgilerinizi girin. Bu öğreticide, depolama hesabımıza bağlanmak için Hesap anahtarını kullanıyoruz. Kimlik bilgilerinizin doğru girildiğini doğrulamak için Bağlantıyı Test Et seçeneğini seçebilirsiniz. İşiniz bittiğinde Oluştur'u seçin.

    Azure Data Lake Storage için yeni bir bağlı hizmet oluşturma bölmesinin ekran görüntüsü.

  9. Veri kümesi oluşturma ekranına döndüğünüzde Dosya yolu alanının altında dosyanızın bulunduğu yeri girin. Bu öğreticide, dosya moviesDB.csv kapsayıcı sample-data içinde bulunur. Dosyada üst bilgiler olduğundan İlk satır üst bilgi olarak seçeneğini işaretleyin. Üst bilgi şemasını doğrudan depolamadaki dosyadan içeri aktarmak için Bağlantıdan/depodan'ı seçin. İşiniz bittiğinde Tamam'ı seçin.

    Veri kümesi oluşturmak için bölmenin ekran görüntüsü.

  10. Hata ayıklama kümeniz başlatıldıysa, kaynak dönüştürmenin Veri Önizleme sekmesine gidin ve verilerin anlık görüntüsünü almak için Yenile'yi seçin. Dönüştürmenizin doğru yapılandırıldığını doğrulamak için veri önizlemesini kullanabilirsiniz.

    Dönüştürmenizin doğru yapılandırıldığını doğrulamak için verilerinizin önizlemesini nerede görüntüleyebileceğinizi gösteren ekran görüntüsü.

  11. Veri akışı tuvalinde kaynak düğümünüzün yanındaki artı simgesini seçerek yeni bir dönüşüm ekleyin. Eklediğiniz ilk dönüştürme bir Filtredir.

    Veri akışı tuvalinin ekran görüntüsü.

  12. Filtre dönüştürmenize FilterYears adını verin. Filtre uygula'nın yanındaki ifade kutusunu ve ardından İfade oluşturucusunu aç'ı seçin. Burada filtreleme koşulunuzu belirtirsiniz.

    İfadeye filtre kutusunu gösteren ekran görüntüsü.

  13. Veri akışı ifade oluşturucusu, çeşitli dönüşümlerde kullanmak üzere etkileşimli olarak ifadeler oluşturmanıza olanak tanır. İfadeler yerleşik işlevleri, giriş şemasındaki sütunları ve kullanıcı tanımlı parametreleri içerebilir. İfade oluşturma hakkında daha fazla bilgi için bkz. Veri Akışı ifade oluşturucusu.

    Bu öğreticide, 1910 ve 2000 yılları arasında çıkan tür komedi filmlerini filtrelemek istiyorsunuz. Yıl şu anda bir dize olduğundan, toInteger() işlevini kullanarak onu bir tamsayıya dönüştürmeniz gerekir. 1910 ve 2000 gibi yıl değerlerine karşılaştırma yapmak için büyük veya eşit (>=) ve küçük veya eşit (<=) işleçlerini kullanın. Bu ifadeleri "ve" (&&) işleciyle birleştirin. İfade şu şekilde ortaya çıkar:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    Hangi filmlerin rlike() komedi olduğunu bulmak için işlevini kullanarak sütun türlerinde 'Comedy' desenini bulabilirsiniz. İfadeyi rlike yıl karşılaştırmasıyla birleştirerek elde etmek için:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    Etkin bir hata ayıklama kümeniz varsa, kullanılan girişlerle karşılaştırıldığında ifade çıkışını görmek için Yenile'yi seçerek mantığınızı doğrulayabilirsiniz. Veri akışı ifade dilini kullanarak bu mantığı nasıl gerçekleştirebileceğinize ilişkin birden fazla doğru yanıt vardır.

    Filtre ifadesi oluşturucusunun ekran görüntüsü.

    İfadenizi tamamladığınızda Kaydet ve Bitir seçeneğine tıklayın.

  14. Filtrenin düzgün çalıştığını doğrulamak için bir Veri Önizlemesi getirin.

    Getirdiğiniz Veri Önizlemesini gösteren ekran görüntüsü.

  15. Ekleyeceğiniz bir sonraki dönüşüm, Şema değiştiricisi altında bir Toplama dönüşümüdür.

    Toplama şeması değiştiricisini gösteren ekran görüntüsü.

  16. Toplama dönüştürmenize AggregateComedyRatings adını verin. Gruplama sekmesinde, toplamaları filmin çıktığı yıla göre gruplandırmak için açılır listeden yıl seçeneğini seçin.

    Toplama Ayarları'nın altındaki Gruplandırma ölçütü sekmesinde yıl seçeneğini gösteren ekran görüntüsü.

  17. Toplamalar sekmesine gidin. Sol metin kutusunda AverageComedyRating toplama sütununu adlandırın. İfade oluşturucusu aracılığıyla toplama ifadesini girmek için doğru ifade kutusunu seçin.

    Toplama Ayarları'nın altındaki Toplamlar sekmesinde yıl seçeneğini gösteren ekran görüntüsü.

  18. Derecelendirme sütununun ortalamasını almak için toplama işlevini kullanınavg(). Derecelendirme bir dize olduğundan ve avg() sayısal bir giriş aldığından, işlevi aracılığıyla değeri sayıya toInteger() dönüştürmemiz gerekir. Bu ifade şöyle görünür:

    avg(toInteger(Rating))

    İşiniz bittiğinde Kaydet ve Son'u seçin.

    Kaydedilen ifadeyi gösteren ekran görüntüsü.

  19. Dönüştürme çıkışını görüntülemek için Veri Önizleme sekmesine gidin. yalnızca iki sütun olduğuna dikkat edin: year ve AverageComedyRating.

    Toplu önizlemeyi gösteren ekran görüntüsü.

  20. Ardından, Hedef altında bir Sink dönüşümü eklemek istiyorsunuz.

    Hedef'in altında havuz dönüştürmenin ekleneceği yeri gösteren ekran görüntüsü.

  21. Lavabona Lavabo adını verin. Havuz veri kümenizi oluşturmak için Yeni'yi seçin.

    Havuzunuzu adlandırabileceğiniz ve yeni bir havuz veri kümesi oluşturabileceğiniz yeri gösteren ekran görüntüsü.

  22. Azure Data Lake Storage 2. Nesil'ı seçin. Devam'ı seçin.

    Seçebileceğiniz Azure Data Lake Storage 2. Nesil kutucuğunu gösteren ekran görüntüsü.

  23. Sınırlandırılmış Metin'i seçin. Devam'ı seçin.

    Veri kümesi türünü seçmek için bölmenin ekran görüntüsü.

  24. Havuz veri kümenize MoviesSink adını verin. Bağlı hizmet için 6. adımda oluşturduğunuz ADLS 2. nesil bağlı hizmeti seçin. Verilerinizi yazmak için bir çıkış klasörü girin. Bu öğreticide, 'sample-data' içindeki 'output' klasörüne yazıyoruz. Klasörün önceden var olması gerekmez ve dinamik olarak oluşturulabilir. İlk satırı üst bilgi olarak ayarla ve İçeri aktarma şeması için Yok seçeneğini belirle. Bitir'i seçin.

    İlk satırı üst bilgi seçili olarak içeren havuz oluşturma sayfasının ekran görüntüsü.

Artık veri akışınızı derlemeyi tamamladınız. Artık işlem hattınızda çalıştırmaya hazırsınız.

Veri Akışı çalıştırma ve izleme

Bir işlem hattını yayımlamadan önce hata ayıklayabilirsiniz. Bu adımda, veri akışı işlem hattının hata ayıklama çalıştırmasını tetikleyeceksiniz. Veri önizlemesi veri yazmaz, ancak hata ayıklama çalışması aktarma hedefinize veri yazar.

  1. İşlem hattı tuvaline gidin. Hata ayıklama çalıştırmasını tetikleme için Hata Ayıkla'ya tıklayın.

    Hata Ayıklama'nın vurgulandığı işlem hattı tuvalini gösteren ekran görüntüsü.

  2. Veri Akışı aktivitelerinin işlem hattı hata ayıklaması, etkin hata ayıklama kümesini kullanır ancak başlatılması en az bir dakika sürer. İlerleme durumunu Çıkış sekmesi aracılığıyla izleyebilirsiniz. Çalıştırma başarılı olduktan sonra çalıştırmanın üzerine gelin ve izleme bölmesini açmak için gözlük simgesini seçin.

    Tamamlanan işlem hattı durumunun, çıkış eylemlerinin vurgulandığı ekran görüntüsü.

  3. İzleme bölmesinde Aşamalar düğmesini seçerek her dönüştürme adımında harcanan satır sayısını ve süreyi görebilirsiniz.

    Aşamalar düğmesinin vurgulandığı izleme bölmesini gösteren ekran görüntüsü.

    Her dönüştürme adımında satır sayısını ve harcanan zamanı görebileceğiniz izleme bölmesinin ekran görüntüsü.

  4. Sütunlar ve verilerin bölümlenmesi hakkında ayrıntılı bilgi almak için bir dönüştürme seçin.

    İzleme dönüştürme bölmesinin ekran görüntüsü.

Bu öğreticiyi doğru bir şekilde izlediyseniz havuz klasörünüzde 83 satır ve 2 sütun yazmış olmanız gerekir. Blob depolama alanınızı denetleyerek verilerin doğru olduğunu doğrulayabilirsiniz.

Bu öğreticideki işlem hattı, 1910 ile 2000 arasında ortalama komedi derecelendirmesini toplayan ve verileri ADLS'ye yazan bir veri akışı çalıştırır. Şunları öğrendiniz:

  • Veri fabrikası oluşturma.
  • Veri Akışı etkinliği içeren bir işlem hattı oluşturun.
  • Dört dönüştürme ile bir eşleme veri akışı oluşturun.
  • İşlem hattında test çalıştırması yapma.
  • Veri Akışı etkinliğini izleme

Veri akışı ifade dili hakkında daha fazla bilgi edinin.