İngilizce dilinde oku

Aracılığıyla paylaş


Benzer eşleştirme Power Query'de nasıl çalışır?

Benzer birleştirme, küme değerleri ve benzer gruplandırma gibi Power Query özellikleri benzer eşleştirme olarak çalışmak için aynı mekanizmaları kullanır.

Bu makale, benzer eşleştirmenin sahip olduğu seçeneklerden nasıl yararlanıldığını ve 'belirsiz' seçeneğini net hale getirmenin amacını gösteren birçok senaryoyu ele alır.

Benzerlik eşiğini ayarlama

Benzer eşleşme algoritmasını uygulamak için en iyi senaryo, bir sütundaki tüm metin dizelerinin yalnızca karşılaştırılması gereken dizeleri içermesi ve ek bileşen içermesidir. Örneğin, ile karşılaştırmak, ile karşılaştırıldığında Apples Apples daha yüksek benzerlik puanları verirMy favorite fruit, by far, is Apples. I simply love them!.4ppl3s

İkinci dizedeki sözcük Apples tüm metin dizesinin yalnızca küçük bir parçası olduğundan, bu karşılaştırma daha düşük bir benzerlik puanı verir.

Örneğin, aşağıdaki veri kümesi yalnızca bir soru içeren bir anketten gelen yanıtlardan oluşur: "En sevdiğiniz meyve hangisi?"

Meyve
Yaban mersini
Mavi yemişler sadece en iyisidir
Çilek
Çilek = <3
Elma
'dalaklar
4ppl3s
Muz
fav meyvesi muzdur
Bekler
En sevdiğim meyve, açık ara elmalar. Sadece onları seviyorum!

Anket, değerin girilip doğrulanmadığını görmek için tek bir metin kutusu sağladı.

Şimdi değerleri kümeleme görevine sahipsiniz. Bu görevi yapmak için önceki meyve tablosunu Power Query'ye yükleyin, sütunu seçin ve ardından şeritteki Sütun ekle sekmesindeki Küme değerleri seçeneğini belirleyin.

Şeritteki Sütun ekle sekmesinin içindeki küme değerleri seçeneğinin, tablodan Fruit sütununu seçtikten sonra kullanılabilir durumda olduğu ekran görüntüsü.

Yeni sütunun adını belirtebileceğiniz Küme değerleri iletişim kutusu görüntülenir. Bu yeni sütuna Küme adını verin ve Tamam'ı seçin.

Fruit sütununu seçtikten sonra küme değerleri iletişim kutusunun ekran görüntüsü. Yeni sütun adı alanı Küme olarak ayarlanır.

Power Query varsayılan olarak 0,8 (%veya %80) benzerlik eşiği kullanır. En düşük 0,00 değeri, herhangi bir benzerlik düzeyine sahip tüm değerlerin birbiriyle eşleşmesine neden olur ve en fazla 1,00 değeri yalnızca tam eşleşmelere izin verir. Benzer bir "tam eşleşme", büyük/küçük harf, sözcük sırası ve noktalama işaretleri gibi farkları yoksayabilir. Önceki işlemin sonucu, aşağıdaki tabloyu yeni bir Küme sütunuyla verir.

Fruit sütununda varsayılan değerlerle Küme değerleri işlemini gerçekleştirdikten sonra yeni bir Küme sütunuyla varsayılan çıkışın ekran görüntüsü.

Kümeleme yapılırken, tüm satırlar için beklenen sonuçları vermez. İki (2) numaralı satır hala değerine Blue berries are simply the bestsahiptir, ancak olarak kümelenmelidir Blueberriesve , ve My favorite fruit, by far, is Apples. I simply love them!metin dizelerine Strawberries = <3fav fruit is bananasbenzer bir şey olur.

Bu kümelemenin nedenini belirlemek için Uygulanan adımlar panelinde Kümelenmiş değerler'e çift tıklayarak Küme değerleri iletişim kutusunu geri getirin. Bu iletişim kutusunun içinde Benzer küme seçenekleri'ni genişletin. Benzerlik puanlarını göster seçeneğini etkinleştirin ve tamam'ı seçin.

Benzer küme seçeneklerinin görüntülendiği ve benzerlik puanlarını göster seçeneğinin seçili olduğu küme değerleri penceresinin ekran görüntüsü.

Benzerlik puanlarını göster seçeneğinin etkinleştirilmesi tablonuzda yeni bir sütun oluşturur. Bu sütun, tanımlanan küme ile özgün değer arasındaki tam benzerlik puanını gösterir.

Fruit_Cluster_Similarity adlı yeni bir benzerlik puanı sütunu içeren tablonun ekran görüntüsü.

Daha yakın inceleme sonrasında Power Query, ,Strawberries = <3, fav fruit is bananasve My favorite fruit, by far, is Apples. I simply love them!metin dizeleri Blue berries are simply the bestiçin benzerlik eşiğinde başka değer bulamadı.

Uygulanan adımlar panelinde Kümelenmiş değerler'e çift tıklayarak Küme değerleri iletişim kutusuna bir kez daha dönün. Benzerlik eşiğini 0,8'den 0,6'ya değiştirin ve tamam'ı seçin.

Benzer küme seçeneklerinin görüntülendiği ve benzerlik eşiğinin 0,6 olarak ayarlandığı küme değerleri iletişim kutusunun ekran görüntüsü.

Bu değişiklik, metin dizesi My favorite fruit, by far, is Apples. I simply love them!dışında aradığınız sonuda daha yakın olmanıza neden olur. Benzerlik eşiği değerini 0,8'den 0,6'ya değiştirdiğinizde Power Query artık 0,6'dan 1'e kadar başlayan benzerlik puanına sahip değerleri kullanabildi.

Küme sütununda atanan yeni değerlerle 0,6'da benzerlik eşiğini tanımladıktan sonra tablonun ekran görüntüsü.

Not

Power Query kümeleri tanımlamak için her zaman eşiğe en yakın değeri kullanır. Eşik, değeri bir kümeye atamak için kabul edilebilir benzerlik puanının alt sınırını tanımlar.

Aradığınız sonuçları elde edene kadar Benzerlik puanını 0,6'dan daha düşük bir sayıya değiştirerek yeniden deneyebilirsiniz. Bu durumda Benzerlik puanını 0,5 olarak değiştirin. Bu değişiklik, artık kümeye Applesatanmış metin dizesiyle My favorite fruit, by far, is Apples. I simply love them! beklediğiniz tam sonucu verir.

Küme sütunundaki tüm doğru değerleri içeren tablonun ekran görüntüsü.

Not

Şu anda, yalnızca Power Query Online'daki Küme değerleri özelliği benzerlik puanına sahip yeni bir sütun sağlar.

Dönüştürme tablosu için dikkat edilmesi gereken özel noktalar

Dönüştürme tablosu, benzer eşleşen algoritmayı gerçekleştirmeden önce değerleri sütununuzdan yeni değerlerle eşlemenize yardımcı olur.

Dönüştürme tablosunun nasıl kullanılabileceğini gösteren bazı örnekler:

Önemli

Dönüştürme tablosu kullanıldığında, dönüştürme tablosundaki değerler için en yüksek benzerlik puanı 0,95'tir. 0,05'in bu kasıtlı cezası, bu tür bir sütundaki özgün değerin bir dönüştürme gerçekleştiğinden beri karşılaştırıldığı değerlerle eşit olmadığını ayırt etmek için geçerlidir.

İlk olarak değerlerinizi eşlemek ve ardından 0,05 cezası olmadan benzer eşleştirme gerçekleştirmek istediğiniz senaryolar için, sütununuzdan değerleri değiştirmenizi ve sonra benzer eşleştirmeyi gerçekleştirmenizi öneririz.