Küme değerleri
Küme değerleri benzer değerlere sahip grupları benzer bir eşleştirme algoritması kullanarak otomatik olarak oluşturur ve her sütunun değerini en iyi eşleşen grupla eşler. Bu dönüşüm, aynı değerin birçok farklı varyasyonuna sahip verilerle çalışırken ve değerleri tutarlı gruplar halinde birleştirmeniz gerektiğinde kullanışlıdır.
Kimlik kümesi ve Miguel, Mike, William ve Bill adlarının çeşitli yazılmış ve büyük harfe dönüştürülen sürümlerini içeren bir Kişi sütunu içeren bir kimlik sütununa sahip örnek bir tablo düşünün.
Bu örnekte, aradığınız sonuç, aynı sözcüklerin farklı varyasyonlarının tümünü değil, Kişi sütunundaki doğru değer gruplarını gösteren yeni bir sütuna sahip bir tablodur.
Not
Küme değerleri özelliği yalnızca Power Query Online için kullanılabilir.
Değerleri kümelemek için önce Kişi sütununu seçin, şeritteki Sütun ekle sekmesine gidin ve ardından Küme değerleri seçeneğini belirleyin.
Küme değerleri iletişim kutusunda, küme oluşturmak için kullanmak istediğiniz sütunu onaylayın ve sütunun yeni adını girin. Bu durumda, bu yeni sütunu Küme olarak adlandırın.
Bu işlemin sonucu aşağıdaki görüntüde gösterilmiştir.
Not
Her değer kümesi için, Power Query seçilen sütundaki en sık kullanılan örneği "kurallı" örnek olarak seçer. Aynı sıklıkta birden çok örnek oluşursa, Power Query ilkini seçer.
Yeni bir sütundaki değerleri kümeleme için aşağıdaki seçenekler kullanılabilir:
- Benzerlik eşiği (isteğe bağlı):Bu seçenek, benzer iki değerin birlikte gruplanması gerektiğini gösterir. En düşük sıfır (0) ayarı tüm değerlerin birlikte gruplanmasına neden olur. En fazla 1 ayarı yalnızca tam olarak eşleşen değerlerin birlikte gruplandırılmasına izin verir. Varsayılan değer 0,8'dir.
- Büyük/küçük harf yoksay: Metin dizeleri karşılaştırıldığında büyük/küçük harf yoksayılır. Bu seçenek varsayılan olarak etkindir.
- Metin bölümlerini birleştirerek gruplandırma: Algoritma, değerleri gruplandırmak için metin bölümlerini (Microsoft'ta Micro ve soft birleştirme gibi) birleştirmeye çalışır.
- Benzerlik puanlarını göster: Benzer kümelemeden sonra giriş değerleriyle hesaplanan temsili değerler arasındaki benzerlik puanlarını gösterir.
- Dönüştürme tablosu (isteğe bağlı):Değerleri (MSFT'yi Microsoft'a eşleme gibi) eşleyen bir dönüştürme tablosu seçerek bunları birlikte gruplandırabilirsiniz.
Bu örnekte, değerlerin nasıl eşlenebileceğini göstermek için My transform table adlı yeni bir dönüştürme tablosu kullanılır. Bu dönüştürme tablosunun iki sütunu vardır:
- Kimden: Tablonuzda aranacak metin dizesi.
- Son: Kimden sütunundaki metin dizesini değiştirmek için kullanılacak metin dizesi.
Önemli
Dönüştürme tablosunun önceki görüntüde gösterildiği gibi aynı sütun ve sütun adlarına sahip olması önemlidir ("Kimden" ve "Son" olarak adlandırılmalıdır), aksi takdirde Power Query bu tabloyu dönüştürme tablosu olarak tanımaz ve dönüştürme gerçekleşmez.
Daha önce oluşturulan sorguyu kullanarak Kümelenmiş değerler adımına çift tıklayın, ardından Küme değerleri iletişim kutusunda Benzer küme seçenekleri'ni genişletin. Benzer küme seçenekleri'nin altında Benzerlik puanlarını göster seçeneğini etkinleştirin. Dönüştürme tablosu (isteğe bağlı) için dönüştürme tablosunu içeren sorguyu seçin.
Dönüştürme tablonuzu seçtikten ve Benzerlik puanlarını göster seçeneğini etkinleştirdikten sonra Tamam'ı seçin. Bu işlemin sonucu, özgün tabloyla aynı kimliği ve Kişi sütunlarını içeren bir tablo sağlar, ancak küme ve Person_Cluster_Similarity adlı iki yeni sütun da içerir. Küme sütunu, Miguel ve Mike sürümleri için Miguel, Bill, Billy ve William sürümleri için William adlarının düzgün yazılmış ve büyük harfe dönüştürülen sürümlerini içerir. Person_Cluster_Similarity sütunu, adların her biri için benzerlik puanlarını içerir.
Önceki bölümdeki dönüştürme tablosunun Mike örneklerinin Miguel, William örneklerinin ise Bill olarak değiştirildiğini gösterdiğine dikkat edebilirsiniz. Ancak sonuçta elde edilen tabloda Bill ve "billy" örnekleri William olarak değiştirildi. Dönüştürme tablosunda, doğrudan BirdenTo yoluna olmak yerine, dönüştürme tablosu kümeleme sırasında simetriktir, yani "mike" "Miguel" ile eşdeğerdir ve tam tersi de geçerlidir. Dönüştürme tablosunda verilen eşdeğerlerin sonucu aşağıdaki kurallara bağlıdır:
- Özdeş değerlerin çoğunluğu varsa, bu değerler kimliksiz değerlerden önceliklidir.
- Değerlerin çoğunluğu yoksa, önce görünen değer önceliklidir.
Örneğin, bu makalede kullanılan özgün tabloda, Kişi sütunundaki Miguel sürümleri (hem "miguel" hem de Miguel), Miguel ve Mike adının örneklerinin çoğunu oluşturur. Buna ek olarak, ilk büyük harfli Miguel adı Miguel adının çoğunluğunu oluşturur. Bu nedenle Dönüşüm tablosunda Miguel ve türevleri ile Mike ve türevlerinin ilişkilendirilmesi, Küme sütununda Miguel adının kullanılmasıyla sonuçlanıyor.
Ancak William, Bill ve "billy" adları için değerlerin çoğunluğu yoktur çünkü bunların üçü de benzersizdir. İlk olarak William göründüğünden, William Küme sütununda kullanılır. Tabloda ilk olarak "billy" görünseydi Küme sütununda "billy" kullanılırdı. Ayrıca, değerlerin çoğunluğu olmadığından, tek tek adlar tarafından kullanılan büyük/küçük harf kullanılır. Yani, william ilk ise, sonuç değeri olarak büyük harf "W" olan William kullanılır; önce "billy" ise, küçük harf "b" olan "billy" kullanılır.