Jaa


Klusteriarvot

Klusteriarvot luovat automaattisesti ryhmiä, joilla on samankaltaisia arvoja, sumean vastaavan algoritmin avulla ja yhdistävät sitten kunkin sarakkeen arvon parhaiten täsmäytettyyn ryhmään. Tämä muunnos on hyödyllinen, kun käsittelet tietoja, joilla on monia saman arvon eri muunnelmia ja kun sinun on yhdistettävä arvot yhdenmukaisiksi ryhmiksi.

Harkitse mallitaulukkoa, jossa on tunnussarake , joka sisältää joukon tunnuksia ja Henkilö-sarakkeen , joka sisältää joukon eri tavalla kirjoitettuja ja isoin kirjaimin kirjoitettuja versioita nimistä Miguel, Mike, William ja Bill.

Näyttökuva taulukosta, jossa on yhdeksän riviä merkintöjä, jotka sisältävät eri kirjoitusasuja ja isoilla kirjaimilla nimeltä Miguel ja William.

Tässä esimerkissä etsimäsi tulos on taulukko, jossa on uusi sarake, joka näyttää oikeat arvoryhmät Henkilö-sarakkeesta, eivät kaikkia saman sanan eri muunnelmia.

Näyttökuva klusterduista arvoista uutena sarakkeena, jonka nimi on Klusteri ensimmäisessä taulukossa.

Muistiinpano

Klusteriarvot-ominaisuus on käytettävissä vain Power Query Onlinessa.

Klusterisarakkeen luominen

Klusterointiarvojen kohdalla valitse ensin Henkilö-sarake, siirry valintanauhan Lisää sarake -välilehteen ja valitse sitten Klusteriarvot-vaihtoehto.

Näyttökuva klusteriarvojen kuvakkeesta Power Query Online -valintanauhan Lisää sarake -välilehdessä.

Vahvista Klusteriarvot-valintaikkunassa sarake, josta haluat luoda klusterit, ja anna sarakkeen uusi nimi. Anna tässä tapauksessa nimeksi tämä uusi sarakeklusteri.

Näyttökuva klusteriarvot-ikkunasta, jossa sarake Henkilö on valittuna ja Uusi-sarake nimetty klusteriksi.

Toiminnon tulos näkyy seuraavassa kuvassa.

Näyttökuva klusterduista arvoista uutena sarakkeena, jonka nimi on Klusteri ensimmäisessä taulukossa.

Muistiinpano

Power Query valitsee jokaiselle arvoklusterille valitun sarakkeen yleisimmän esiintymän kanoniseksi esiintymäksi. Jos useita esiintymiä esiintyy samalla tiheydellä, Power Query valitsee ensimmäisen.

Sumeiden klusterivaihtoehtojen käyttäminen

Seuraavat vaihtoehdot ovat käytettävissä arvojen klusterointiin uudessa sarakkeessa:

  • Samankaltaisuuden raja-arvo (valinnainen): Tämä asetus ilmaisee, miten samanlaiset kaksi arvoa on ryhmiteltävä yhteen. Minimiasetus nolla (0) aiheuttaa sen, että kaikki arvot ryhmitellaan yhteen. Suurin asetus 1 sallii vain tarkalleen vastaavat arvot ryhmitellä yhteen. Oletusarvo on 0,8.
  • Ohita kirjainkoko: Kun tekstimerkkijonoja verrataan, kirjainkoko ohitetaan. Tämä asetus on oletusarvoisesti käytössä.
  • Ryhmittele yhdistämällä tekstiosat: Algoritmi yrittää yhdistää tekstiosat (esimerkiksi yhdistämällä Microsoftin ja pehmeästi) arvot ryhmittelemiseksi.
  • Näytä samankaltaisuuspisteet: Näyttää syötearvojen ja laskettujen edustavien arvojen väliset samankaltaisuuspisteet sumean klusteroinnin jälkeen.
  • Muunnostaulukko (valinnainen): Voit valita muunnostaulukon, joka yhdistää arvot (kuten MSFT:n Microsoftiin) ja ryhmitellä ne yhteen.

Tässä esimerkissä käytetään uutta muunnostaulukkoa nimeltä Oma muunnostaulukko sen havainnollistamiseksi, miten arvot voidaan yhdistää. Tässä muunnostaulukossa on kaksi saraketta:

  • Lähde: Taulukossa etsittävä tekstimerkkijono.
  • To: Tekstimerkkijono, jota käytetään korvaamaan tekstimerkkijono Kohteesta-sarakkeessa.

Näyttökuva taulukosta, joka näyttää Miken ja Williamin arvot sekä Miguelin ja Billin arvot.

Tärkeä

On tärkeää, että muunnostaulukossa on samat sarakkeiden ja sarakkeiden nimet kuin edellisessä kuvassa (niiden on oltava nimeltään "From" ja "To"), muussa tapauksessa Power Query ei tunnista tätä taulukkoa muunnostaulukoksi, eikä muuntamista tehdä.

Kaksoisnapsauta aiemmin luodun kyselyn avulla Klusteroituja arvoja -vaihetta ja laajenna sitten Klusteriarvot-valintaikkunassa Sumean klusterin asetukset. Ota Sumean klusterin asetukset -kohdassa käyttöön Näytä samankaltaisuuspisteet -vaihtoehto. Valitse muunnostaulukolle (valinnainen) kysely, jossa on muunnostaulukko.

Näyttökuva sumeista klusterin vaihtoehdoista, kun muunnostaulukon avattava valikko on määritetty mallimuunnostaulukoksi.

Kun olet valinnut muunnostaulukon ja valinnut Näytä samankaltaisuuspisteet -asetuksen, valitse OK. Tämän toiminnon tulos antaa taulukon, joka sisältää saman tunnuksen ja Henkilö-sarakkeet kuin alkuperäinen taulukko, mutta sisältää myös kaksi uutta saraketta nimeltä Klusteri ja Person_Cluster_Similarity. Cluster-sarake sisältää oikein kirjoitetut ja isot versiot nimistä Miguel versioille Miguel ja Mike sekä William versioille Bill, Billy ja William. Person_Cluster_Similarity-sarake sisältää kunkin nimen samankaltaisuuspisteet.

Näyttökuva taulukosta, joka sisältää uudet klusteri- ja Person_Cluster_Similarity-sarakkeet.

Muunnostaulukon ennakkokäsitteet

Saatat huomata, että edellisessä osiossa oleva muunnostaulukko näytti osoittavan, että Miken esiintymät muutetaan Migueliksi ja Williamin esiintymät muutetaan Billiksi. Tuloksena olevassa taulukossa Billin ja "billyn" esiintymät kuitenkin muutettiin williamiksi. Muunnostaulukossa sen sijaan, että se olisi suora Kohteestakohteeseen -polku, muunnostaulukko on symmetrinen klusteroinnin aikana, mikä tarkoittaa, että "mike" vastaa "Miguel" ja päinvastoin. Muunnostaulukossa annettujen vastaavien tulos määräytyy seuraavien sääntöjen mukaan:

  • Jos identtisten arvojen enemmistö on suurin, nämä arvot ovat etusijalla ei-tunnistettavien arvojen sijaan.
  • Jos arvojen enemmistöä ei ole, ensimmäisenä näkyvä arvo on etusijalla.

Esimerkiksi tässä artikkelissa käytetyssä alkuperäisessä taulukossa Miguelin (sekä "miguel" että Miguel) versiot Henkilö-sarakkeessa muodostavat suurimman osan miguel- ja mike-nimisten esiintymistä. Lisäksi nimi Miguel ja alkuperäiset enimmäisimet muodostavat suurimman osan nimestä Miguel. Liittäen Miguelin ja sen johdannaiset ja Miken ja sen johdannaiset muunnostaulukkoon johtavat nimeen Miguel käytettäväksi Klusteri-sarakkeessa.

Nimille William, Bill ja "billy" ei kuitenkaan ole suurinta osaa arvoista, koska kaikki kolme ovat yksilöllisiä. Koska William esiintyy ensimmäisenä, Williamia käytetään Klusteri-sarakkeessa. Jos "billy" olisi esiintynyt ensimmäisenä taulukossa, -merkkiä "billy" käytettäisiin klusterin sarakkeessa. Koska suurinta osaa arvoista ei ole, käytetään yksittäisten nimien käyttämää tapausta. Eli jos William on ensimmäinen, william, jossa on iso kirjain "W", käytetään tuloksen arvona; Jos "billy" on ensimmäinen, käytetään merkkiä "billy", jossa on pieni kirjainkoko "b".