Aracılığıyla paylaş


Eşleme veri akışında toplu dönüştürme

UYGULANANLAR: Azure Data Factory Azure Synapse Analytics

İpucu

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

Veri akışları hem Azure Data Factory'de hem de Azure Synapse Pipelines'da kullanılabilir. Bu makale, eşleme veri akışları için geçerlidir. Dönüştürmeler hakkında yeniyseniz lütfen eşleme veri akışı kullanarak verileri dönüştürme başlıklı giriş makalesine bakın.

Toplama dönüşümü, veri akışlarınızdaki sütunların toplamalarını tanımlar. İfade Oluşturucusu'nu kullanarak SUM, MIN, MAX ve COUNT gibi farklı toplama türlerini var olan veya hesaplanan sütunlara göre gruplandırarak tanımlayabilirsiniz.

Gruplandırma ölçütü:

Mevcut bir sütunu seçin veya toplama işleminizde group by yan tümcesi olarak kullanmak üzere yeni bir hesaplanan sütun oluşturun. Mevcut bir sütunu kullanmak için açılan listeden sütunu seçin. Yeni bir hesaplanan sütun oluşturmak için yan tümcesinin üzerine gelin ve Hesaplanan sütun'a tıklayın. Bu, veri akışı ifade oluşturucusunu açar. Hesaplanan sütununuzu oluşturduktan sonra, Ad olarak alanının altına çıkış sütunu adını girin. Ek bir group by yan tümcesi eklemek isterseniz, var olan bir yan tümcenin üzerine gelin ve artı simgesine tıklayın.

Ayarlara göre toplu dönüştürme grubu

Gruplandırma ölçütü yan tümcesi, Toplama dönüşümünde isteğe bağlıdır.

Sütunları toplama

Toplama ifadeleri oluşturmak için Toplamalar sekmesine gidin. Bir toplama ile var olan bir sütunun üzerine yazabilir veya yeni bir adla yeni bir alan oluşturabilirsiniz. Toplama ifadesi, sütun adı seçicisinin yanındaki sağ kutuya girilir. İfadeyi düzenlemek için metin kutusuna tıklayın ve ifade oluşturucusunu açın. Daha fazla toplama sütunu eklemek için, sütun listesinin üstündeki Ekle'ye veya mevcut toplama sütununun yanındaki artı simgesine tıklayın. Sütun ekle veya Sütun deseni ekle'yi seçin. Her toplama ifadesi en az bir toplama işlevi içermelidir.

Toplama ayarları

Not

Hata ayıklama modunda, ifade oluşturucusu toplama işlevleriyle veri önizlemeleri oluşturamaz. Toplu dönüştürmelerin veri önizlemelerini görüntülemek için ifade oluşturucusunu kapatın ve 'Veri Önizlemesi' sekmesi aracılığıyla verileri görüntüleyin.

Sütun desenleri

Aynı toplamayı bir sütun kümesine uygulamak için sütun desenlerini kullanın. Giriş şemasındaki birçok sütunu varsayılan olarak bırakıldıkları için kalıcı hale getirmek istiyorsanız bu yararlı olur. Toplama aracılığıyla giriş sütunlarını kalıcı hale getirmek için gibi first() bir buluşsal kullanın.

Satırları ve sütunları yeniden bağlama

Toplama dönüştürmeleri SQL toplama seçme sorgularına benzer. Gruplandırma yan tümcesine veya toplama işlevlerine dahil olmayan sütunlar, toplama dönüştürmenizin çıkışına akıtılamaz. Toplanan çıkışınıza başka sütunlar eklemek istiyorsanız aşağıdaki yöntemlerden birini yapın:

  • Bu ek sütunu eklemek için veya first() gibi last() bir toplama işlevi kullanın.
  • Kendi kendine birleştirme desenini kullanarak sütunları çıkış akışınıza yeniden ekleyin.

Yinelenen satırları kaldırma

Toplu dönüştürmenin yaygın bir kullanımı, kaynak verilerdeki yinelenen girişleri kaldırmak veya tanımlamaktır. Bu işlem yinelenenleri kaldırma olarak bilinir. Anahtarlara göre gruplandırma kümesine bağlı olarak, hangi yinelenen satırın tutulacağını belirlemek için seçtiğiniz bir buluşsal öğeyi kullanın. Yaygın buluşsal yöntemler : first(), last(), max()ve min(). Kuralı, sütunlara göre gruplandırma dışında her sütuna uygulamak için sütun desenlerini kullanın.

Yinelenenleri kaldırma

Yukarıdaki örnekte, sütunlar ProductID ve Name gruplandırma için kullanılıyor. İki satır bu iki sütun için aynı değerlere sahipse, bunlar yinelenen olarak kabul edilir. Bu toplu dönüştürmede, eşleşen ilk satırın değerleri korunur ve diğer tüm değerler bırakılır. Sütun deseni söz dizimini kullanarak, adları olmayan ProductID ve Name var olan sütun adlarıyla eşlenen ve eşleşen ilk satırların değeri verilen tüm sütunlar. Çıkış şeması, giriş şemasıyla aynıdır.

Veri doğrulama senaryolarında işlev, count() kaç yineleme olduğunu saymak için kullanılabilir.

Veri akışı betiği

Sözdizimi

<incomingStream>
    aggregate(
           groupBy(
                <groupByColumnName> = <groupByExpression1>,
                <groupByExpression2>
               ),
           <aggregateColumn1> = <aggregateExpression1>,
           <aggregateColumn2> = <aggregateExpression2>,
           each(
                match(matchExpression),
                <metadataColumn1> = <metadataExpression1>,
                <metadataColumn2> = <metadataExpression2>
               )
          ) ~> <aggregateTransformationName>

Örnek

Aşağıdaki örnek, gelen bir akışı MoviesYear alır ve satırları sütununa yeargöre gruplandırır. Dönüştürme, sütun avgrating ortalamasını değerlendiren bir toplama sütunu Ratingoluşturur. Bu toplama dönüşümü olarak adlandırılır AvgComedyRatingsByYear.

Kullanıcı arabiriminde bu dönüştürme aşağıdaki görüntüye benzer:

Örne göre gruplandır

Toplama örneği

Bu dönüşümün veri akışı betiği aşağıdaki kod parçacığındadır.

MoviesYear aggregate(
                groupBy(year),
                avgrating = avg(toInteger(Rating))
            ) ~> AvgComedyRatingByYear

Veri akışı betiğini toplama

MoviesYear: Yıl ve başlık sütunlarını AvgComedyRatingByYeartanımlayan Türetilmiş Sütun : Yıla göre avgratinggruplandırılmış komedilerin ortalama derecelendirmesi için toplu dönüştürme: Toplanan değeri tutmak için oluşturulan yeni sütunun adı

MoviesYear aggregate(groupBy(year),
	avgrating = avg(toInteger(Rating))) ~> AvgComedyRatingByYear
  • Pencere dönüştürmesini kullanarak pencere tabanlı toplamayı tanımlama