Jaa


Sumean vastaavuden toiminta Power Queryssa

Power Queryn ominaisuudet, kuten sumea yhdistäminen, klusteriarvot ja sumea ryhmittely , käyttävät samaa mekanismia kuin sumea vastaavuus.

Tässä artikkelissa käydään yli monia skenaarioita, jotka osoittavat, miten voit hyödyntää sumean vastaavuuden vaihtoehtoja, joiden tavoitteena on tehdä "sumea" selväksi.

Samankaltaisuuden raja-arvon säätäminen

Paras skenaario sumean vastaavuuden algoritmin käyttöön on se, että kaikki sarakkeen tekstimerkkijonot sisältävät vain merkkijonot, joita on verrattava, eikä ylimääräisiä osia. Esimerkiksi vertailu Apples4ppl3s tuottaa suuremmat samankaltaisuuspisteet kuin vertailu ApplesMy favorite fruit, by far, is Apples. I simply love them!.

Koska toisen merkkijonon sana Apples on vain pieni osa koko tekstimerkkijonosta, vertailu tuottaa pienemmät samankaltaisuuspisteet.

Esimerkiksi seuraava tietojoukko koostuu kyselyvastauksista, joissa oli vain yksi kysymys – "Mitkä ovat suosikkihedelmäsi?"

Hedelmä
Mustikoita
Mustikat ovat yksinkertaisesti parhaita
Mansikoita
Mansikat = <3
Omenat
'sples
4ppl3s
Banaanit
fav hedelmä on banaanit
Banas
Suosikkihedelmäni on selvästi Omenat. Minä vain rakastan heitä!

Kyselyssä annettiin yksi tekstiruutu arvon syöttämiseksi, eikä vahvistusta ollut.

Nyt sinun tehtäväsi on klusteroitua arvot. Voit tehdä tämän lataamalla edellisen hedelmätaulukon Power Queryen, valitsemalla sarakkeen ja valitsemalla sitten Klusteriarvot-vaihtoehdonvalintanauhan Lisää sarake -välilehdessä.

Näyttökuva, jossa klusteriarvot-vaihtoehto on käytettävissä valintanauhan Lisää sarake -välilehdessä, kun hedelmäsarake on valittu taulukosta.

Klusteriarvot-valintaikkuna avautuu, ja voit määrittää uuden sarakkeen nimen. Anna tämän uuden sarakkeen nimeksi Klusteri ja valitse OK.

Näyttökuva klusteriarvojen valintaikkunasta Hedelmä-sarakkeen valitsemisen jälkeen. Uuden sarakkeen nimi -kentän arvona on Klusteri.

Oletusarvoisesti Power Query käyttää samankaltaisuuden raja-arvoa, joka on 0,8 (eli 80 %). Vähimmäisarvo 0,00 saa kaikki arvot, joilla on minkä tahansa samankaltaisuuden taso, vastaa toisiaan, ja enimmäisarvo 1,00 sallii vain tarkat vastaavuudet. Sumea "tarkka vastaavuus" saattaa ohittaa erot, kuten johdannaisen, sanajärjestyksen ja välimerkit. Edellisen toiminnon tulos tuottaa seuraavan taulukon, jossa on uusi klusterisarake .

Näyttökuva oletustulosteesta uuden klusterisarakkeen kanssa, kun Klusteriarvot-toiminto on suoritettu Hedelmä-sarakkeessa oletusarvoilla.

Kun klusterointi on valmis, se ei anna odotettuja tuloksia kaikille riveille. Rivillä numero 2 (2) on yhä arvo Blue berries are simply the best, mutta se tulee klusteroitua arvoon Blueberries, ja jotain vastaavaa tapahtuu merkkijonoille Strawberries = <3, fav fruit is bananasja My favorite fruit, by far, is Apples. I simply love them!.

Voit selvittää tämän klusteroinnin syyn kaksoisnapsauttamalla Klusteroituja arvoja Käytössä olevat vaiheet -paneelissa, jolloin Klusteriarvot-valintaikkuna avautuu takaisin. Laajenna tässä valintaikkunassa Sumean klusterin asetukset. Ota Näytä samankaltaisuuspisteet -asetus käyttöön ja valitse sitten OK.

Näyttökuva klusterin arvojen ikkunasta, jossa näkyvät sumeat klusterin asetukset ja Näytä samankaltaisuuspisteet -vaihtoehto valittuna.

Näytä samankaltaisuuspisteet -asetuksen ottaminen käyttöön luo taulukkoon uuden sarakkeen. Tämä sarake näyttää tarkan samankaltaisuuspistemäärän määritetyn klusterin ja alkuperäisen arvon välillä.

Näyttökuva taulukosta, jossa on uusi samankaltaisuuspisteytyssarake nimeltä Fruit_Cluster_Similarity.

Tarkempaa tarkastusta tarkastellessa Power Query ei löytänyt muita arvoja, jotka ovat samankaltaisuuden raja-arvossa merkkijonoissa Blue berries are simply the best,Strawberries = <3, fav fruit is bananasja My favorite fruit, by far, is Apples. I simply love them!.

Palaa Klusteriarvot-valintaikkunaan vielä kerran kaksoisnapsauttamalla Klusteroituja arvoja Käytössä olevat vaiheet -paneelissa. Muuta samankaltaisuuden raja-arvo 0,8:sta 0,6:een ja valitse sitten OK.

Näyttökuva klusteriarvojen valintaikkunasta, jossa näytetään sumeat klusterin asetukset ja samankaltaisuuden raja-arvoksi 0,6.

Tämän muutoksen avulla pääset lähemmäksi etsimääsi tulosta lukuun ottamatta tekstimerkkijonoa My favorite fruit, by far, is Apples. I simply love them!. Kun muutit samanlaisuuskynnysarvon arvosta 0,8 arvoon 0,6, Power Query pystyi nyt käyttämään arvoja, joiden samankaltaisuuspistemäärä alkaa 0,6:sta aina 1:een asti.

Näyttökuva taulukosta, jossa on määritetty samankaltaisuuden raja-arvoksi 0,6 ja uusia arvoja määritetty klusterisarakkeeseen.

Muistiinpano

Power Query käyttää aina klustereiden määrittämiseen raja-arvoa lähimpänä olevaa arvoa. Raja-arvo määrittää samankaltaisuuspistemäärän alarajan, jonka voi määrittää klusterille.

Voit yrittää uudelleen muuttamalla samanlaisuuspistemäärän luvusta 0,6 pienempään lukuun, kunnes saat etsimäsi tulokset. Muuta tässä tapauksessa Samanlaisuuspistemääräksi0,5. Tämä muutos tuottaa juuri sellaisen tuloksen, jota odotit, kun tekstimerkkijono My favorite fruit, by far, is Apples. I simply love them! on nyt määritetty klusteriin Apples.

Näyttökuva taulukosta, jossa on kaikki klusterisarakkeen oikeat arvot.

Muistiinpano

Tällä hetkellä vain Power Query Onlinen Klusteriarvot-ominaisuus tarjoaa uuden sarakkeen, jonka pisteet ovat samankaltaiset.

Erityisnäkökohdat muunnostaulukossa

Muunnostaulukon avulla voit yhdistää arvot sarakkeesta uusiin arvoihin ennen sumean vastaavan algoritmin suorittamista.

Seuraavassa on esimerkkejä muunnostaulukon käytöstä:

Tärkeä

Kun muunnostaulukkoa käytetään, muunnostaulukon arvojen suurin samankaltaisuuspistemäärä on 0,95. Tämä tarkoituksellinen 0,05:n rangaistus on käytössä sen erottamiseksi, että alkuperäinen arvo tällaisesta sarakkeesta ei ole sama kuin arvot, joihin sitä verrattiin muunnoksen jälkeen.

Tilanteissa, joissa haluat ensin yhdistää arvot ja suorittaa sitten sumean vastaavuuden ilman 0,05-seuraamuksia, suosittelemme, että korvaat sarakkeen arvot ja suoritat sitten sumean vastaavuuden.