Sumean vastaavuden toiminta Power Queryssa
Power Queryn ominaisuudet, kuten sumea yhdistäminen, klusteriarvot ja sumea ryhmittely , käyttävät samaa mekanismia kuin sumea vastaavuus.
Tässä artikkelissa käydään yli monia skenaarioita, jotka osoittavat, miten voit hyödyntää sumean vastaavuuden vaihtoehtoja, joiden tavoitteena on tehdä "sumea" selväksi.
Paras skenaario sumean vastaavuuden algoritmin käyttöön on se, että kaikki sarakkeen tekstimerkkijonot sisältävät vain merkkijonot, joita on verrattava, eikä ylimääräisiä osia. Esimerkiksi vertailu Apples
4ppl3s
tuottaa suuremmat samankaltaisuuspisteet kuin vertailu Apples
My favorite fruit, by far, is Apples. I simply love them!
.
Koska toisen merkkijonon sana Apples
on vain pieni osa koko tekstimerkkijonosta, vertailu tuottaa pienemmät samankaltaisuuspisteet.
Esimerkiksi seuraava tietojoukko koostuu kyselyvastauksista, joissa oli vain yksi kysymys – "Mitkä ovat suosikkihedelmäsi?"
Hedelmä |
---|
Mustikoita |
Mustikat ovat yksinkertaisesti parhaita |
Mansikoita |
Mansikat = <3 |
Omenat |
'sples |
4ppl3s |
Banaanit |
fav hedelmä on banaanit |
Banas |
Suosikkihedelmäni on selvästi Omenat. Minä vain rakastan heitä! |
Kyselyssä annettiin yksi tekstiruutu arvon syöttämiseksi, eikä vahvistusta ollut.
Nyt sinun tehtäväsi on klusteroitua arvot. Voit tehdä tämän lataamalla edellisen hedelmätaulukon Power Queryen, valitsemalla sarakkeen ja valitsemalla sitten Klusteriarvot-vaihtoehdon valintanauhan Lisää sarake -välilehdessä.
Klusteriarvot-valintaikkuna avautuu, ja voit määrittää uuden sarakkeen nimen. Anna tämän uuden sarakkeen nimeksi Klusteri ja valitse OK.
Oletusarvoisesti Power Query käyttää samankaltaisuuden raja-arvoa, joka on 0,8 (eli 80 %). Vähimmäisarvo 0,00 saa kaikki arvot, joilla on minkä tahansa samankaltaisuuden taso, vastaa toisiaan, ja enimmäisarvo 1,00 sallii vain tarkat vastaavuudet. Sumea "tarkka vastaavuus" saattaa ohittaa erot, kuten johdannaisen, sanajärjestyksen ja välimerkit. Edellisen toiminnon tulos tuottaa seuraavan taulukon, jossa on uusi klusterisarake .
Kun klusterointi on valmis, se ei anna odotettuja tuloksia kaikille riveille. Rivillä numero 2 (2) on yhä arvo Blue berries are simply the best
, mutta se tulee klusteroitua arvoon Blueberries
, ja jotain vastaavaa tapahtuu merkkijonoille Strawberries = <3
, fav fruit is bananas
ja My favorite fruit, by far, is Apples. I simply love them!
.
Voit selvittää tämän klusteroinnin syyn kaksoisnapsauttamalla Klusteroituja arvoja Käytössä olevat vaiheet -paneelissa, jolloin Klusteriarvot-valintaikkuna avautuu takaisin. Laajenna tässä valintaikkunassa Sumean klusterin asetukset. Ota Näytä samankaltaisuuspisteet -asetus käyttöön ja valitse sitten OK.
Näytä samankaltaisuuspisteet -asetuksen ottaminen käyttöön luo taulukkoon uuden sarakkeen. Tämä sarake näyttää tarkan samankaltaisuuspistemäärän määritetyn klusterin ja alkuperäisen arvon välillä.
Tarkempaa tarkastusta tarkastellessa Power Query ei löytänyt muita arvoja, jotka ovat samankaltaisuuden raja-arvossa merkkijonoissa Blue berries are simply the best
,Strawberries = <3
, fav fruit is bananas
ja My favorite fruit, by far, is Apples. I simply love them!
.
Palaa Klusteriarvot-valintaikkunaan vielä kerran kaksoisnapsauttamalla Klusteroituja arvoja Käytössä olevat vaiheet -paneelissa. Muuta samankaltaisuuden raja-arvo 0,8:sta 0,6:een ja valitse sitten OK.
Tämän muutoksen avulla pääset lähemmäksi etsimääsi tulosta lukuun ottamatta tekstimerkkijonoa My favorite fruit, by far, is Apples. I simply love them!
. Kun muutit samanlaisuuskynnysarvon arvosta 0,8 arvoon 0,6, Power Query pystyi nyt käyttämään arvoja, joiden samankaltaisuuspistemäärä alkaa 0,6:sta aina 1:een asti.
Huomautus
Power Query käyttää aina klustereiden määrittämiseen raja-arvoa lähimpänä olevaa arvoa. Raja-arvo määrittää samankaltaisuuspistemäärän alarajan, jonka voi määrittää klusterille.
Voit yrittää uudelleen muuttamalla samanlaisuuspistemäärän luvusta 0,6 pienempään lukuun, kunnes saat etsimäsi tulokset. Muuta tässä tapauksessa Samanlaisuuspistemääräksi 0,5. Tämä muutos tuottaa juuri sellaisen tuloksen, jota odotit, kun tekstimerkkijono My favorite fruit, by far, is Apples. I simply love them!
on nyt määritetty klusteriin Apples
.
Huomautus
Tällä hetkellä vain Power Query Onlinen Klusteriarvot-ominaisuus tarjoaa uuden sarakkeen, jonka pisteet ovat samankaltaiset.
Muunnostaulukon avulla voit yhdistää arvot sarakkeesta uusiin arvoihin ennen sumean vastaavan algoritmin suorittamista.
Seuraavassa on esimerkkejä muunnostaulukon käytöstä:
- Muunnostaulukko klusteriarvoissa
- Muunnostaulukko sumeissa yhdistämiskyselyissä
- Muunnostaulukko ryhmittelyperusteen mukaan
Tärkeä
Kun muunnostaulukkoa käytetään, muunnostaulukon arvojen suurin samankaltaisuuspistemäärä on 0,95. Tämä tarkoituksellinen 0,05:n rangaistus on käytössä sen erottamiseksi, että alkuperäinen arvo tällaisesta sarakkeesta ei ole sama kuin arvot, joihin sitä verrattiin muunnoksen jälkeen.
Tilanteissa, joissa haluat ensin yhdistää arvot ja suorittaa sitten sumean vastaavuuden ilman 0,05-seuraamuksia, suosittelemme, että korvaat sarakkeen arvot ja suoritat sitten sumean vastaavuuden.