Eşleme veri akışında toplu dönüştürme
UYGULANANLAR: Azure Data Factory
Azure Synapse Analytics
İpucu
Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!
Veri akışları hem Azure Data Factory'de hem de Azure Synapse Pipelines'da kullanılabilir. Bu makale, eşleme veri akışları için geçerlidir. Dönüştürmeler hakkında yeniyseniz lütfen eşleme veri akışı kullanarak verileri dönüştürme başlıklı giriş makalesine bakın.
Toplama dönüşümü, veri akışlarınızdaki sütunların toplamalarını tanımlar. İfade Oluşturucusu'nu kullanarak SUM, MIN, MAX ve COUNT gibi farklı toplama türlerini var olan veya hesaplanan sütunlara göre gruplandırarak tanımlayabilirsiniz.
Gruplandırma ölçütü:
Mevcut bir sütunu seçin veya toplama işleminizde group by yan tümcesi olarak kullanmak üzere yeni bir hesaplanan sütun oluşturun. Mevcut bir sütunu kullanmak için açılan listeden sütunu seçin. Yeni bir hesaplanan sütun oluşturmak için yan tümcesinin üzerine gelin ve Hesaplanan sütun'a tıklayın. Bu, veri akışı ifade oluşturucusunu açar. Hesaplanan sütununuzu oluşturduktan sonra, Ad olarak alanının altına çıkış sütunu adını girin. Ek bir group by yan tümcesi eklemek isterseniz, var olan bir yan tümcenin üzerine gelin ve artı simgesine tıklayın.
Gruplandırma ölçütü yan tümcesi, Toplama dönüşümünde isteğe bağlıdır.
Sütunları toplama
Toplama ifadeleri oluşturmak için Toplamalar sekmesine gidin. Bir toplama ile var olan bir sütunun üzerine yazabilir veya yeni bir adla yeni bir alan oluşturabilirsiniz. Toplama ifadesi, sütun adı seçicisinin yanındaki sağ kutuya girilir. İfadeyi düzenlemek için metin kutusuna tıklayın ve ifade oluşturucusunu açın. Daha fazla toplama sütunu eklemek için, sütun listesinin üstündeki Ekle'ye veya mevcut toplama sütununun yanındaki artı simgesine tıklayın. Sütun ekle veya Sütun deseni ekle'yi seçin. Her toplama ifadesi en az bir toplama işlevi içermelidir.
Not
Hata ayıklama modunda, ifade oluşturucusu toplama işlevleriyle veri önizlemeleri oluşturamaz. Toplu dönüştürmelerin veri önizlemelerini görüntülemek için ifade oluşturucusunu kapatın ve 'Veri Önizlemesi' sekmesi aracılığıyla verileri görüntüleyin.
Sütun desenleri
Aynı toplamayı bir sütun kümesine uygulamak için sütun desenlerini kullanın. Giriş şemasındaki birçok sütunu varsayılan olarak bırakıldıkları için kalıcı hale getirmek istiyorsanız bu yararlı olur. Toplama aracılığıyla giriş sütunlarını kalıcı hale getirmek için gibi first()
bir buluşsal kullanın.
Satırları ve sütunları yeniden bağlama
Toplama dönüştürmeleri SQL toplama seçme sorgularına benzer. Gruplandırma yan tümcesine veya toplama işlevlerine dahil olmayan sütunlar, toplama dönüştürmenizin çıkışına akıtılamaz. Toplanan çıkışınıza başka sütunlar eklemek istiyorsanız aşağıdaki yöntemlerden birini yapın:
- Bu ek sütunu eklemek için veya
first()
gibilast()
bir toplama işlevi kullanın. - Kendi kendine birleştirme desenini kullanarak sütunları çıkış akışınıza yeniden ekleyin.
Yinelenen satırları kaldırma
Toplu dönüştürmenin yaygın bir kullanımı, kaynak verilerdeki yinelenen girişleri kaldırmak veya tanımlamaktır. Bu işlem yinelenenleri kaldırma olarak bilinir. Anahtarlara göre gruplandırma kümesine bağlı olarak, hangi yinelenen satırın tutulacağını belirlemek için seçtiğiniz bir buluşsal öğeyi kullanın. Yaygın buluşsal yöntemler : first()
, last()
, max()
ve min()
. Kuralı, sütunlara göre gruplandırma dışında her sütuna uygulamak için sütun desenlerini kullanın.
Yukarıdaki örnekte, sütunlar ProductID
ve Name
gruplandırma için kullanılıyor. İki satır bu iki sütun için aynı değerlere sahipse, bunlar yinelenen olarak kabul edilir. Bu toplu dönüştürmede, eşleşen ilk satırın değerleri korunur ve diğer tüm değerler bırakılır. Sütun deseni söz dizimini kullanarak, adları olmayan ProductID
ve Name
var olan sütun adlarıyla eşlenen ve eşleşen ilk satırların değeri verilen tüm sütunlar. Çıkış şeması, giriş şemasıyla aynıdır.
Veri doğrulama senaryolarında işlev, count()
kaç yineleme olduğunu saymak için kullanılabilir.
Veri akışı betiği
Sözdizimi
<incomingStream>
aggregate(
groupBy(
<groupByColumnName> = <groupByExpression1>,
<groupByExpression2>
),
<aggregateColumn1> = <aggregateExpression1>,
<aggregateColumn2> = <aggregateExpression2>,
each(
match(matchExpression),
<metadataColumn1> = <metadataExpression1>,
<metadataColumn2> = <metadataExpression2>
)
) ~> <aggregateTransformationName>
Örnek
Aşağıdaki örnek, gelen bir akışı MoviesYear
alır ve satırları sütununa year
göre gruplandırır. Dönüştürme, sütun avgrating
ortalamasını değerlendiren bir toplama sütunu Rating
oluşturur. Bu toplama dönüşümü olarak adlandırılır AvgComedyRatingsByYear
.
Kullanıcı arabiriminde bu dönüştürme aşağıdaki görüntüye benzer:
Bu dönüşümün veri akışı betiği aşağıdaki kod parçacığındadır.
MoviesYear aggregate(
groupBy(year),
avgrating = avg(toInteger(Rating))
) ~> AvgComedyRatingByYear
MoviesYear
: Yıl ve başlık sütunlarını AvgComedyRatingByYear
tanımlayan Türetilmiş Sütun : Yıla göre avgrating
gruplandırılmış komedilerin ortalama derecelendirmesi için toplu dönüştürme: Toplanan değeri tutmak için oluşturulan yeni sütunun adı
MoviesYear aggregate(groupBy(year),
avgrating = avg(toInteger(Rating))) ~> AvgComedyRatingByYear
İlgili içerik
- Pencere dönüştürmesini kullanarak pencere tabanlı toplamayı tanımlama
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin