Eşleme veri akışında toplu dönüştürme

ŞUNLARA UYGULANIR: Azure Data Factory Azure Synapse Analytics

İpucu

Microsoft Fabric'daki Data Factory, daha basit bir mimariye, yerleşik yapay zekaya ve yeni özelliklere sahip yeni nesil Azure Data Factory. Veri tümleştirmeyi yeni kullanmaya başladıysanız Fabric Data Factory ile başlayın. Mevcut ADF iş yükleri veri bilimi, gerçek zamanlı analiz ve raporlama genelinde yeni özelliklere erişmek için Fabric yükseltebilir.

Veri akışları hem Azure Data Factory işlem hatlarında hem de Azure Synapse Analytics işlem hatlarında kullanılabilir. Bu makale, eşleme veri akışları için geçerlidir. Dönüştürmeler hakkında yeniyseniz , Eşleme veri akışlarını kullanarak verileri dönüştürme başlıklı giriş makalesine bakın.

İpucu

Veri Akışı 2. Nesil'deki eşdeğer dönüştürme (Gruplandırma ölçütü) için bkz. Veri akışı kullanıcılarını eşlemek için Veri Akışı 2. Nesil kılavuzu.

Toplama dönüşümü, veri akışlarınızdaki sütunların toplamalarını tanımlar. İfade Oluşturucusu'nu kullanarak SUM, MIN, MAX ve COUNT gibi farklı toplama türlerini var olan veya hesaplanan sütunlara göre gruplandırarak tanımlayabilirsiniz.

Gruplandırma ölçütü:

Mevcut bir sütunu seçin veya toplama işleminizde group by yan tümcesi olarak kullanmak üzere yeni bir hesaplanan sütun oluşturun. Mevcut bir sütunu kullanmak için açılan listeden sütunu seçin. Yeni bir hesaplanan sütun oluşturmak için ifadenin üzerine gelin ve Hesaplanan sütun'a tıklayın. Bu, veri akışı ifade oluşturucusunu açar. Hesaplanan sütununuzu oluşturduktan sonra, Ad olarak alanının altına çıkış sütunu adını girin. Ek bir group by yan tümcesi eklemek isterseniz, var olan bir yan tümcenin üzerine gelin ve artı simgesine tıklayın.

Ayarlara göre toplu dönüştürme grubu

Bir "group by" ifadesi, Toplama dönüşümünde isteğe bağlıdır.

Sütunları birleştirme

Toplama ifadeleri oluşturmak için Toplamalar sekmesine gidin. Bir toplama ile var olan bir sütunun üzerine yazabilir veya yeni bir adla yeni bir alan oluşturabilirsiniz. Toplama ifadesi, sütun adı seçicisinin yanındaki sağ kutuya girilir. İfadeyi düzenlemek için metin kutusuna tıklayın ve ifade oluşturucusunu açın. Daha fazla toplama sütunu eklemek için, sütun listesinin üstündeki Ekle'ye veya mevcut toplama sütununun yanındaki artı simgesine tıklayın. Sütun ekle veya Sütun deseni ekle seçeneklerinden birini seçin. Her toplama ifadesi en az bir toplama işlevi içermelidir.

Toplama ayarları

Not

Hata ayıklama modunda, ifade oluşturucusu toplama işlevleriyle veri önizlemeleri oluşturamaz. Toplu dönüştürmelerin veri önizlemelerini görüntülemek için ifade oluşturucusunu kapatın ve 'Veri Önizlemesi' sekmesi aracılığıyla verileri görüntüleyin.

Sütun desenleri

Aynı toplamayı bir sütun kümesine uygulamak için sütun desenlerini kullanın. Varsayılan olarak kaldırılan giriş şemasındaki birçok sütunu kalıcı hale getirmek istiyorsanız, bu yararlıdır. Toplama işlemi sırasında giriş sütunlarını sürdürmek için first() gibi bir buluşsal yöntem kullanın.

Satırları ve sütunları yeniden bağlama

Toplama dönüştürmeleri SQL toplama seçme sorgularına benzer. Gruplandırma yan tümcenize veya toplama işlevlerinize dahil edilmeyen sütunlar, toplama dönüştürmenizin çıkışına aktarılmaz. Toplanan çıkışınıza başka sütunlar eklemek istiyorsanız aşağıdaki yöntemlerden birini yapın:

  • Ek sütunu dahil etmek için last() veya first() gibi bir toplama işlevi kullanın.
  • Kendi kendine birleştirme desenini kullanarak sütunları çıkış akışınıza yeniden birleştirin.

Yinelenen satırları kaldırma

Toplu dönüştürmenin yaygın bir kullanımı, kaynak verilerdeki yinelenen girişleri kaldırmak veya tanımlamaktır. Bu işlem deduplikasyon olarak bilinir. Anahtarlara göre gruplandırma kümesine bağlı olarak, hangi yinelenen satırın tutulacağını belirlemek için seçtiğiniz bir buluşsal öğeyi kullanın. Yaygın buluşsal yöntemler : first(), last(), max()ve min(). Kuralı, sütunlara göre gruplandırma dışında her sütuna uygulamak için sütun desenlerini kullanın.

Veri yedekleme

Yukarıdaki örnekte, sütunlar ProductID ve Name gruplandırma için kullanılıyor. İki satır bu iki sütun için aynı değerlere sahipse, bunlar yinelenen olarak kabul edilir. Bu toplu dönüştürmede, ilk eşleşen satırın değerleri korunur ve diğer tüm değerler atılır. Sütun deseni söz dizimini kullanarak, adları ProductID ve Name olmayan tüm sütunlar mevcut sütun adlarıyla eşleştirilir ve ilk eşleşen satırların değeri atanır. Çıkış şeması, giriş şemasıyla aynıdır.

Veri doğrulama senaryolarında işlev, count() kaç yineleme olduğunu saymak için kullanılabilir.

Veri akışı betiği

Sözdizimi

<incomingStream>
    aggregate(
           groupBy(
                <groupByColumnName> = <groupByExpression1>,
                <groupByExpression2>
               ),
           <aggregateColumn1> = <aggregateExpression1>,
           <aggregateColumn2> = <aggregateExpression2>,
           each(
                match(matchExpression),
                <metadataColumn1> = <metadataExpression1>,
                <metadataColumn2> = <metadataExpression2>
               )
          ) ~> <aggregateTransformationName>

Örnek

Aşağıdaki örnek, gelen bir akışı MoviesYear alır ve satırları sütununa yeargöre gruplandırır. Dönüştürme, sütun avgrating ortalamasını değerlendiren bir toplama sütunu Ratingoluşturur. Bu toplama dönüşümü olarak adlandırılır AvgComedyRatingsByYear.

Kullanıcı arabiriminde bu dönüştürme aşağıdaki görüntüye benzer:

Örne göre gruplandır

Toplama örneği

Bu dönüşümün veri akışı betiği aşağıdaki kod parçacığındadır.

MoviesYear aggregate(
                groupBy(year),
                avgrating = avg(toInteger(Rating))
            ) ~> AvgComedyRatingByYear

Toplam veri akışı betiği

MoviesYear: Yıl ve başlık sütunlarını tanımlayan Türetilmiş Sütun AvgComedyRatingByYear: Yıla göre gruplandırılmış komedilerin ortalama derecelendirmesi için Toplama Dönüştürmesi avgrating: Toplanan değeri tutacak yeni sütunun oluşturulacak adı

MoviesYear aggregate(groupBy(year),
	avgrating = avg(toInteger(Rating))) ~> AvgComedyRatingByYear