Jaa


Sumea yhdistäminen

Sumea yhdistäminen on älykäs tietojen valmisteluominaisuus, jonka avulla voit käyttää sumeita vastaavia algoritmeja sarakkeita verrattaessa. Nämä algoritmit yrittävät löytää vastaavuuksia yhdistettävien taulukoiden välillä.

Voit ottaa sumean vastaavuuden käyttöön Yhdistä-valintaikkunan alaosassa valitsemalla Käytä sumeaa vastaavuutta suorittaaksesi yhdistämisvaihtoehdon painikkeen. Lisätietoja: Yhdistämistoimintojen yleiskatsaus

Muistiinpano

Sumeaa vastaavuutta tuetaan vain tekstisarakkeiden yhdistämistoiminnoissa. Power Query käyttää Jaccard-samankaltaisuusalgoritmia esiintymäparien samankaltaisuuden mittaamiseen.

Näyteskenaario

Sumean vastaavuuden yleinen käyttötapaus on vapaamuotoinen tekstikenttä, kuten kyselyssä. Tätä artikkelia varten mallitaulukko on otettu suoraan ryhmälle lähetetystä verkkokyselystä, jossa on vain yksi kysymys: Mitkä ovat suosikkihedelmäsi?

Kyselyn tulokset näkyvät seuraavassa kuvassa.

Raakamerkintöjä sisältävä mallikysely.

Näyttökuva kyselyn tulostetaulukosta, joka sisältää sarakkeen jakauman kaavion, jossa on yhdeksän erillistä vastausta ja kaikki yksilölliset vastaukset, sekä vastaukset kyselyyn, jossa on kaikki kirjoitusvirheet, monikkomuotoinen tai yksiköllinen sekä tapausongelmat.

Yhdeksän tietuetta vastaavat kyselyyn toimitettuja tietoja. Kyselyn lähetyksissä ongelmana on, että joillakin on kirjoitusvirheitä, jotkut monikkoa, jotkut singularia, jotkut isoja ja jotkut pieniä.

Näiden arvojen standardoinnin helpottamiseksi tässä esimerkissä on Fruits-viitetaulukko .

Hedelmät-viittaustaulukko.

Näyttökuva Hedelmät-viitetaulukosta, joka sisältää sarakkeen jakaumakaavion, jossa näkyy neljä erillistä hedelmää ja kaikki hedelmät yksilöllisinä, sekä luettelo hedelmistä: omena, ananas, vesimeloni ja banaani.

Muistiinpano

Selvyyden vuoksi tämä Fruits-viitetaulukko sisältää vain tässä skenaariossa tarvittavien hedelmien nimen. Viitetaulukossa voi olla niin monta riviä kuin tarvitset.

Tavoitteena on luoda seuraavanlainen taulukko, jossa olet standardoinut kaikki nämä arvot, jotta voit tehdä enemmän analyyseja.

Kyselyn tulostaulukkomalli.

Näyttökuva kyselyn tulostaulukosta, jossa on Kysymys-sarake, joka sisältää sarakkeen jakaumakaavion. Kaaviossa näkyy yhdeksän erillistä vastausta, kaikki vastaukset yksilöllisiä. Kyselyn vastaukset sisältävät kaikki kirjoitusvirheet, monikon tai yksikön sekä tapausongelmat. Tulostetaulukko sisältää myös Hedelmä-sarakkeen. Tämä sarake sisältää sarakkeen jakelukaavion, joka näyttää neljä erillistä vastausta ja yhden yksilöllisen vastauksen. Siinä luetellaan myös kaikki hedelmät, jotka on kirjoitettu oikein, eristysmuoto ja oikea kirjainkoko.

Sumea yhdistämistoiminto

Aloitat sumean yhdistämisen tekemällä yhdistämisen. Tässä tapauksessa käytät vasenta ulkoliitosta, jossa vasen taulukko on kyselyn taulukko ja oikea taulukko on Hedelmät-viitetaulukko . Valitse valintaikkunan alareunassa Käytä sumeaa vastaavuutta yhdistämisen suorittamiseksi -valintaruutu.

Näyttökuva Yhdistä-valintaikkunasta, joka näyttää, miten voit käyttää sumeaa vastaavuutta yhdistämisasetuksen suorittamiseen.

Kun olet valinnut OK, näet taulukossa uuden sarakkeen tämän yhdistämistoiminnon vuoksi. Jos laajennat sen, yhdellä rivillä ei ole arvoja. Juuri niin edellisen kuvan valintaikkunassa sanottiin, kun siinä luki "Valinta vastaa 8/9 riviä ensimmäisestä taulukosta".

Sumean vastaavuuden tulokset Hedelmä-sarakkeessa.

Näyttökuva Kysely-taulukkoon lisätystä hedelmäsarakkeesta. Kaikki Kysymys-sarakkeen rivit on laajennettu, lukuun ottamatta riviä 9, jota ei voitu laajentaa, ja Hedelmä-sarake sisältää tyhjäarvon.

Sumean vastaavuuden asetukset

Voit muokata sumean vastaavuuden asetuksia ja muokata sitä, miten likimääräinen vastaavuus tehdään. Valitse ensin Yhdistä kyselyt -komento ja laajenna sitten Yhdistä-valintaikkunassa Sumean vastaavuuden asetukset.

Näyttökuva Yhdistä-valintaikkunasta, jossa näkyvät sumeat vastaavat asetukset.

Käytettävissä olevat vaihtoehdot:

  • Samankaltaisuuden raja-arvo (valinnainen): Arvo väliltä 0,00–1,00, jonka avulla voidaan täsmätä tietueet, jotka ylittävät annetun samankaltaisuuspistemäärän. Raja-arvo 1,00 on sama kuin tarkan vastaavuuden perusteen määrittäminen. Esimerkiksi rypäleet vastaavat hanaa (p-kirjain puuttuu) vain, jos raja-arvoksi on määritetty alle 0,90. Oletusarvon mukaan tämä arvo on 0,80.
  • Ohita tapaus: Mahdollistaa tietueiden vastaavuuden riippumatta tekstin kirjainkoosta.
  • Vastaa yhdistämällä tekstiosat: Mahdollistaa tekstiosien yhdistämisen vastinten löytämiseksi. Esimerkiksi Micro soft vastaa Microsoftia, jos tämä asetus on käytössä.
  • Näytä samankaltaisuuspisteet: Näyttää samankaltaisuuspisteet syötteiden ja täsmäytettyjen arvojen välillä sumean vastaavuuden jälkeen.
  • Vastaavuuksien määrä (valinnainen): Määrittää, montako toisiaan vastaavaa riviä enintään voidaan palauttaa jokaista syöteriviä kohden.
  • Muunnostaulukko (valinnainen): Mahdollistaa tietueiden vastaavuuden mukautettujen arvoyksityismääritysten perusteella. Esimerkiksi Rypäleet on vastaava kuin Rusinat, jos annetaan muunnostaulukko, jossa From-sarakkeessaon rypäleitä ja To-sarakkeessarusinat.

Muunnostaulukko

Tässä artikkelissa olevassa esimerkissä voit käyttää muunnostaulukkoa puuttuvan parin sisältävän arvon yhdistämiseen. Tämä arvo onpls, joka on yhdistettävä Appleen. Muunnostaulukossa on kaksi saraketta:

  • sisältää etsittävät arvot.
  • Jos haluat sisältää arvot, joita käytetään löydettyjen arvojen korvaamiseen käyttämällä Lähde-saraketta.

Tässä artikkelissa muunnostaulukko näyttää seuraavalta:

Lähettäjä Tehtävä
apls Apple

Voit palata Yhdistä-valintaikkunaan ja antaa Sumea vastaavuus -kohdassa Vastaavuuksien määrä -kohdassa 1. Ota Näytä samankaltaisuuspisteet -asetus käyttöön ja valitse sitten muunna taulukko -kohdan avattavasta valikosta Muunna taulukko.

Näyttökuva Yhdistä-valintaikkunasta, jossa vastaavuusten määräksi on asetettu 1 ja muunnostaulukoksi Muunna taulukko.

Kun olet valinnut OK, voit siirtyä yhdistämisvaiheeseen. Kun laajennat sarakkeen taulukon arvoilla, Hedelmä-kentän lisäksi näet myös Samanlaisuuspisteet-kentän. Valitse molemmat ja laajenna ne lisäämättä etuliitettä.

Näyttökuva Hedelmät-sarakkeen Taulukon laajentaminen -valintaikkunasta, joka sisältää valitut Hedelmä- ja Samankaltaisuus-pistemäärä-kentät.

Kun olet laajentanut nämä kaksi kenttää, ne lisätään taulukkoosi. Huomaa arvot, jotka saat kunkin arvon samankaltaisuuspisteille. Nämä pisteet voivat auttaa sinua lisämuunnoksissa tarvittaessa sen määrittämiseksi, pitääkö samankaltaisuuskynnystä pienentää vai nostaa.

Näyttökuva taulukon tuloksesta sumean yhdistämisprosessin jälkeen. Siinä näkyvät sekä uudet Hedelmä- että Samankaltaisuus-pistemäärä-kentät kullekin arvolle.

Tässä esimerkissä samankaltaisuuspisteet toimivat vain lisätietojna, eikä niitä tarvita tämän kyselyn tuloksessa, joten voit poistaa sen. Huomaa, miten esimerkki alkoi yhdeksällä erillisellä arvolla, mutta sumean yhdistämisen jälkeen siinä on vain neljä erillistä arvoa.

Sumean yhdistämisen kyselyn tulostaulukko.

Näyttökuva kyselyn sumeasta tulostaulukosta, jossa on Kysymys-sarake, joka sisältää sarakkeen jakauman kaavion, jossa on yhdeksän erillistä vastausta, joissa kaikki vastaukset ovat yksilöllisiä, ja vastauksia kyselyyn, joka sisältää kaikki kirjoitusvirheet, monikkomuotoiset tulokset ja tapausongelmat. Sisältää myös Hedelmä-sarakkeen sarakkeen jakauman kaavion, joka näyttää neljä erillistä vastausta yhdellä yksilöllisellä vastauksella, ja sisältää kaikki hedelmät oikein kirjoitettuina, yksiköllisenä ja oikeana kirjainkokona.

Lisätietoja muunnostaulukoiden toiminnasta saat muunnostaulukon ennakkoluvat-kohdasta.