Sumea yhdistäminen
Sumea yhdistäminen on älykäs tietojen valmisteluominaisuus, jonka avulla voit käyttää sumeita vastaavia algoritmeja sarakkeita verrattaessa. Nämä algoritmit yrittävät löytää vastaavuuksia yhdistettävien taulukoiden välillä.
Voit ottaa sumean vastaavuuden käyttöön Yhdistä-valintaikkunan alaosassa valitsemalla Käytä sumeaa vastaavuutta suorittaaksesi yhdistämisvaihtoehdon painikkeen. Lisätietoja: Yhdistämistoimintojen yleiskatsaus
Muistiinpano
Sumeaa vastaavuutta tuetaan vain tekstisarakkeiden yhdistämistoiminnoissa. Power Query käyttää Jaccard-samankaltaisuusalgoritmia esiintymäparien samankaltaisuuden mittaamiseen.
Näyteskenaario
Sumean vastaavuuden yleinen käyttötapaus on vapaamuotoinen tekstikenttä, kuten kyselyssä. Tätä artikkelia varten mallitaulukko on otettu suoraan ryhmälle lähetetystä verkkokyselystä, jossa on vain yksi kysymys: Mitkä ovat suosikkihedelmäsi?
Kyselyn tulokset näkyvät seuraavassa kuvassa.
Näyttökuva kyselyn tulostetaulukosta, joka sisältää sarakkeen jakauman kaavion, jossa on yhdeksän erillistä vastausta ja kaikki yksilölliset vastaukset, sekä vastaukset kyselyyn, jossa on kaikki kirjoitusvirheet, monikkomuotoinen tai yksiköllinen sekä tapausongelmat.
Yhdeksän tietuetta vastaavat kyselyyn toimitettuja tietoja. Kyselyn lähetyksissä ongelmana on, että joillakin on kirjoitusvirheitä, jotkut monikkoa, jotkut singularia, jotkut isoja ja jotkut pieniä.
Näiden arvojen standardoinnin helpottamiseksi tässä esimerkissä on Fruits-viitetaulukko .
Näyttökuva Hedelmät-viitetaulukosta, joka sisältää sarakkeen jakaumakaavion, jossa näkyy neljä erillistä hedelmää ja kaikki hedelmät yksilöllisinä, sekä luettelo hedelmistä: omena, ananas, vesimeloni ja banaani.
Muistiinpano
Selvyyden vuoksi tämä Fruits-viitetaulukko sisältää vain tässä skenaariossa tarvittavien hedelmien nimen. Viitetaulukossa voi olla niin monta riviä kuin tarvitset.
Tavoitteena on luoda seuraavanlainen taulukko, jossa olet standardoinut kaikki nämä arvot, jotta voit tehdä enemmän analyyseja.
Näyttökuva kyselyn tulostaulukosta, jossa on Kysymys-sarake, joka sisältää sarakkeen jakaumakaavion. Kaaviossa näkyy yhdeksän erillistä vastausta, kaikki vastaukset yksilöllisiä. Kyselyn vastaukset sisältävät kaikki kirjoitusvirheet, monikon tai yksikön sekä tapausongelmat. Tulostetaulukko sisältää myös Hedelmä-sarakkeen. Tämä sarake sisältää sarakkeen jakelukaavion, joka näyttää neljä erillistä vastausta ja yhden yksilöllisen vastauksen. Siinä luetellaan myös kaikki hedelmät, jotka on kirjoitettu oikein, eristysmuoto ja oikea kirjainkoko.
Sumea yhdistämistoiminto
Aloitat sumean yhdistämisen tekemällä yhdistämisen. Tässä tapauksessa käytät vasenta ulkoliitosta, jossa vasen taulukko on kyselyn taulukko ja oikea taulukko on Hedelmät-viitetaulukko . Valitse valintaikkunan alareunassa Käytä sumeaa vastaavuutta yhdistämisen suorittamiseksi -valintaruutu.
Kun olet valinnut OK, näet taulukossa uuden sarakkeen tämän yhdistämistoiminnon vuoksi. Jos laajennat sen, yhdellä rivillä ei ole arvoja. Juuri niin edellisen kuvan valintaikkunassa sanottiin, kun siinä luki "Valinta vastaa 8/9 riviä ensimmäisestä taulukosta".
Näyttökuva Kysely-taulukkoon lisätystä hedelmäsarakkeesta. Kaikki Kysymys-sarakkeen rivit on laajennettu, lukuun ottamatta riviä 9, jota ei voitu laajentaa, ja Hedelmä-sarake sisältää tyhjäarvon.
Sumean vastaavuuden asetukset
Voit muokata sumean vastaavuuden asetuksia ja muokata sitä, miten likimääräinen vastaavuus tehdään. Valitse ensin Yhdistä kyselyt -komento ja laajenna sitten Yhdistä-valintaikkunassa Sumean vastaavuuden asetukset.
Käytettävissä olevat vaihtoehdot:
- Samankaltaisuuden raja-arvo (valinnainen): Arvo väliltä 0,00–1,00, jonka avulla voidaan täsmätä tietueet, jotka ylittävät annetun samankaltaisuuspistemäärän. Raja-arvo 1,00 on sama kuin tarkan vastaavuuden perusteen määrittäminen. Esimerkiksi rypäleet vastaavat hanaa (p-kirjain puuttuu) vain, jos raja-arvoksi on määritetty alle 0,90. Oletusarvon mukaan tämä arvo on 0,80.
- Ohita tapaus: Mahdollistaa tietueiden vastaavuuden riippumatta tekstin kirjainkoosta.
- Vastaa yhdistämällä tekstiosat: Mahdollistaa tekstiosien yhdistämisen vastinten löytämiseksi. Esimerkiksi Micro soft vastaa Microsoftia, jos tämä asetus on käytössä.
- Näytä samankaltaisuuspisteet: Näyttää samankaltaisuuspisteet syötteiden ja täsmäytettyjen arvojen välillä sumean vastaavuuden jälkeen.
- Vastaavuuksien määrä (valinnainen): Määrittää, montako toisiaan vastaavaa riviä enintään voidaan palauttaa jokaista syöteriviä kohden.
- Muunnostaulukko (valinnainen): Mahdollistaa tietueiden vastaavuuden mukautettujen arvoyksityismääritysten perusteella. Esimerkiksi Rypäleet on vastaava kuin Rusinat, jos annetaan muunnostaulukko, jossa From-sarakkeessaon rypäleitä ja To-sarakkeessarusinat.
Muunnostaulukko
Tässä artikkelissa olevassa esimerkissä voit käyttää muunnostaulukkoa puuttuvan parin sisältävän arvon yhdistämiseen. Tämä arvo onpls, joka on yhdistettävä Appleen. Muunnostaulukossa on kaksi saraketta:
- sisältää etsittävät arvot.
- Jos haluat sisältää arvot, joita käytetään löydettyjen arvojen korvaamiseen käyttämällä Lähde-saraketta.
Tässä artikkelissa muunnostaulukko näyttää seuraavalta:
Lähettäjä | Tehtävä |
---|---|
apls | Apple |
Voit palata Yhdistä-valintaikkunaan ja antaa Sumea vastaavuus -kohdassa Vastaavuuksien määrä -kohdassa 1. Ota Näytä samankaltaisuuspisteet -asetus käyttöön ja valitse sitten muunna taulukko -kohdan avattavasta valikosta Muunna taulukko.
Kun olet valinnut OK, voit siirtyä yhdistämisvaiheeseen. Kun laajennat sarakkeen taulukon arvoilla, Hedelmä-kentän lisäksi näet myös Samanlaisuuspisteet-kentän. Valitse molemmat ja laajenna ne lisäämättä etuliitettä.
Kun olet laajentanut nämä kaksi kenttää, ne lisätään taulukkoosi. Huomaa arvot, jotka saat kunkin arvon samankaltaisuuspisteille. Nämä pisteet voivat auttaa sinua lisämuunnoksissa tarvittaessa sen määrittämiseksi, pitääkö samankaltaisuuskynnystä pienentää vai nostaa.
Tässä esimerkissä samankaltaisuuspisteet toimivat vain lisätietojna, eikä niitä tarvita tämän kyselyn tuloksessa, joten voit poistaa sen. Huomaa, miten esimerkki alkoi yhdeksällä erillisellä arvolla, mutta sumean yhdistämisen jälkeen siinä on vain neljä erillistä arvoa.
Näyttökuva kyselyn sumeasta tulostaulukosta, jossa on Kysymys-sarake, joka sisältää sarakkeen jakauman kaavion, jossa on yhdeksän erillistä vastausta, joissa kaikki vastaukset ovat yksilöllisiä, ja vastauksia kyselyyn, joka sisältää kaikki kirjoitusvirheet, monikkomuotoiset tulokset ja tapausongelmat. Sisältää myös Hedelmä-sarakkeen sarakkeen jakauman kaavion, joka näyttää neljä erillistä vastausta yhdellä yksilöllisellä vastauksella, ja sisältää kaikki hedelmät oikein kirjoitettuina, yksiköllisenä ja oikeana kirjainkokona.
Lisätietoja muunnostaulukoiden toiminnasta saat muunnostaulukon ennakkoluvat-kohdasta.
Liittyvä sisältö
Palaute
https://aka.ms/ContentUserFeedback.
Tulossa pian: Vuoden 2024 aikana poistamme asteittain GitHub Issuesin käytöstä sisällön palautemekanismina ja korvaamme sen uudella palautejärjestelmällä. Lisätietoja on täällä:Lähetä ja näytä palaute kohteelle