Benzer eşleştirme Power Query'de nasıl çalışır?
Benzer birleştirme, küme değerleri ve benzer gruplandırma gibi Power Query özellikleri benzer eşleştirme olarak çalışmak için aynı mekanizmaları kullanır.
Bu makale, benzer eşleştirmenin sahip olduğu seçeneklerden nasıl yararlanıldığını ve 'belirsiz' seçeneğini net hale getirmenin amacını gösteren birçok senaryoyu ele alır.
Benzer eşleşme algoritmasını uygulamak için en iyi senaryo, bir sütundaki tüm metin dizelerinin yalnızca karşılaştırılması gereken dizeleri içermesi ve ek bileşen içermesidir. Örneğin, ile karşılaştırmak, ile karşılaştırıldığında Apples
Apples
daha yüksek benzerlik puanları verirMy favorite fruit, by far, is Apples. I simply love them!
.4ppl3s
İkinci dizedeki sözcük Apples
tüm metin dizesinin yalnızca küçük bir parçası olduğundan, bu karşılaştırma daha düşük bir benzerlik puanı verir.
Örneğin, aşağıdaki veri kümesi yalnızca bir soru içeren bir anketten gelen yanıtlardan oluşur: "En sevdiğiniz meyve hangisi?"
Meyve |
---|
Yaban mersini |
Mavi yemişler sadece en iyisidir |
Çilek |
Çilek = <3 |
Elma |
'dalaklar |
4ppl3s |
Muz |
fav meyvesi muzdur |
Bekler |
En sevdiğim meyve, açık ara elmalar. Sadece onları seviyorum! |
Anket, değerin girilip doğrulanmadığını görmek için tek bir metin kutusu sağladı.
Şimdi değerleri kümeleme görevine sahipsiniz. Bu görevi yapmak için önceki meyve tablosunu Power Query'ye yükleyin, sütunu seçin ve ardından şeritteki Sütun ekle sekmesindeki Küme değerleri seçeneğini belirleyin.
Yeni sütunun adını belirtebileceğiniz Küme değerleri iletişim kutusu görüntülenir. Bu yeni sütuna Küme adını verin ve Tamam'ı seçin.
Power Query varsayılan olarak 0,8 (%veya %80) benzerlik eşiği kullanır. En düşük 0,00 değeri, herhangi bir benzerlik düzeyine sahip tüm değerlerin birbiriyle eşleşmesine neden olur ve en fazla 1,00 değeri yalnızca tam eşleşmelere izin verir. Benzer bir "tam eşleşme", büyük/küçük harf, sözcük sırası ve noktalama işaretleri gibi farkları yoksayabilir. Önceki işlemin sonucu, aşağıdaki tabloyu yeni bir Küme sütunuyla verir.
Kümeleme yapılırken, tüm satırlar için beklenen sonuçları vermez. İki (2) numaralı satır hala değerine Blue berries are simply the best
sahiptir, ancak olarak kümelenmelidir Blueberries
ve , ve My favorite fruit, by far, is Apples. I simply love them!
metin dizelerine Strawberries = <3
fav fruit is bananas
benzer bir şey olur.
Bu kümelemenin nedenini belirlemek için Uygulanan adımlar panelinde Kümelenmiş değerler'e çift tıklayarak Küme değerleri iletişim kutusunu geri getirin. Bu iletişim kutusunun içinde Benzer küme seçenekleri'ni genişletin. Benzerlik puanlarını göster seçeneğini etkinleştirin ve tamam'ı seçin.
Benzerlik puanlarını göster seçeneğinin etkinleştirilmesi tablonuzda yeni bir sütun oluşturur. Bu sütun, tanımlanan küme ile özgün değer arasındaki tam benzerlik puanını gösterir.
Daha yakın inceleme sonrasında Power Query, ,Strawberries = <3
, fav fruit is bananas
ve My favorite fruit, by far, is Apples. I simply love them!
metin dizeleri Blue berries are simply the best
için benzerlik eşiğinde başka değer bulamadı.
Uygulanan adımlar panelinde Kümelenmiş değerler'e çift tıklayarak Küme değerleri iletişim kutusuna bir kez daha dönün. Benzerlik eşiğini 0,8'den 0,6'ya değiştirin ve tamam'ı seçin.
Bu değişiklik, metin dizesi My favorite fruit, by far, is Apples. I simply love them!
dışında aradığınız sonuda daha yakın olmanıza neden olur. Benzerlik eşiği değerini 0,8'den 0,6'ya değiştirdiğinizde Power Query artık 0,6'dan 1'e kadar başlayan benzerlik puanına sahip değerleri kullanabildi.
Not
Power Query kümeleri tanımlamak için her zaman eşiğe en yakın değeri kullanır. Eşik, değeri bir kümeye atamak için kabul edilebilir benzerlik puanının alt sınırını tanımlar.
Aradığınız sonuçları elde edene kadar Benzerlik puanını 0,6'dan daha düşük bir sayıya değiştirerek yeniden deneyebilirsiniz. Bu durumda Benzerlik puanını 0,5 olarak değiştirin. Bu değişiklik, artık kümeye Apples
atanmış metin dizesiyle My favorite fruit, by far, is Apples. I simply love them!
beklediğiniz tam sonucu verir.
Not
Şu anda, yalnızca Power Query Online'daki Küme değerleri özelliği benzerlik puanına sahip yeni bir sütun sağlar.
Dönüştürme tablosu, benzer eşleşen algoritmayı gerçekleştirmeden önce değerleri sütununuzdan yeni değerlerle eşlemenize yardımcı olur.
Dönüştürme tablosunun nasıl kullanılabileceğini gösteren bazı örnekler:
- Küme değerlerinde dönüştürme tablosu
- Benzer birleştirme sorgularında dönüştürme tablosu
- Dönüştürme tablosu gruplandırma ölçütü
Önemli
Dönüştürme tablosu kullanıldığında, dönüştürme tablosundaki değerler için en yüksek benzerlik puanı 0,95'tir. 0,05'in bu kasıtlı cezası, bu tür bir sütundaki özgün değerin bir dönüştürme gerçekleştiğinden beri karşılaştırıldığı değerlerle eşit olmadığını ayırt etmek için geçerlidir.
İlk olarak değerlerinizi eşlemek ve ardından 0,05 cezası olmadan benzer eşleştirme gerçekleştirmek istediğiniz senaryolar için, sütununuzdan değerleri değiştirmenizi ve sonra benzer eşleştirmeyi gerçekleştirmenizi öneririz.