Klusterointi

Valmis

Note

Katso lisätietoja Teksti ja kuvat -välilehdeltä!

Klusterointi on valvomattoman koneoppimisen muoto, jossa havainnot ryhmitellään klustereiksi niiden tietoarvojen tai ominaisuuksien samankaltaisuuksien perusteella. Tällaista koneoppimista ei pidetä valvomattomana, koska siinä ei hyödynnä aiemmin tunnettuja otsikkoarvoja mallin harjoittamisessa. Klusterointimallissa selite on klusteri, johon havainto määritetään vain sen ominaisuuksien perusteella.

Esimerkki – klusterointi

Oletetaan esimerkiksi, että kasvitieteilijä huomaa kukkanäytteen ja kirjaa kunkin kukan lehtien ja terälehtien määrän:

Kukkakaavio.

Tietojoukossa ei ole tunnettuja otsikoita , vain kaksi ominaisuutta. Tavoitteena ei ole tunnistaa kukkalajien (lajien) arvoja; vain ryhmitellä samannäköisiä kukkia lehtien ja terälehtien määrän mukaan.

Lehdet (x1) Terälehdet (x2)
0 5
0 6
1 3
1 3
1 6
1 8
2 3
2 7
2 8

Klusterointimallin harjoittaminen

Klusterointiin voi käyttää useita algoritmeja. Yksi yleisimmin käytetyistä algoritmeista on K-Means-klusterointi , joka koostuu seuraavista vaiheista:

  1. Ominaisuuden (x) arvot vectorisoidaan n-dimensiokoordinaattien määrittämiseksi (jossa n on ominaisuuksien määrä). Kukka-esimerkissä on kaksi ominaisuutta: lehtien määrä (x1) ja terälehtien määrä (x2). Ominaisuusvektorilla on siis kaksi koordinaatteja, joiden avulla voimme piirtää arvopisteet käsitteellisesti kaksiulotteiseen tilaan ([x1,x2])
  2. Päätät, kuinka monta klusteria haluat käyttää kukkien ryhmittelyssä. Kutsu tätä arvoa k. Voit esimerkiksi luoda kolme klusteria käyttämällä k arvoa 3. Sitten k arvopisteet piirretään satunnaiskoordinaatteihin. Näistä pisteistä tulee kunkin klusterin keskipisteitä, joten niitä kutsutaan senroideja.
  3. Jokainen arvopiste (tässä tapauksessa kukka) määritetään sen lähimpään senttimetriin.
  4. Jokainen sentroidi siirretään sille määritettyjen arvopisteiden keskelle pisteiden välisen keskiarvoetäisyyden perusteella.
  5. Kun centroid on siirretty, arvopisteet voivat nyt olla lähempänä eri sentriidiä, joten arvopisteet määritetään uudelleen klustereita uuden lähimmän droidimäärän perusteella.
  6. Centroid liikkeen ja klusterin uudelleenkohdentamisvaiheet toistetaan, kunnes klusterit muuttuvat vakaiksi tai kunnes iteraatioiden ennalta määritetty suurin määrä saavutetaan.

Seuraava animaatio näyttää tämän prosessin:

Animaation kaavio, joka näyttää k-means-klusterointiprosessin.

Klusterointimallin arviointi

Koska ei ole olemassa tunnettua otsikkoa, jolla voidaan vertailla ennustettuja klusterimäärityksiä, klusterointimallin arviointi perustuu siihen, miten hyvin tuloksena saadut klusterit on erotettu toisistaan.

Voit arvioida klusterin erottelun useilla mittareilla, joita ovat muun muassa seuraavat:

  • Keskimääräinen etäisyys klusterikeskukseen: Kuinka lähellä klusterin kukin piste on klusterin sentriidiä.
  • Keskimääräinen etäisyys toiseen keskelle: Kuinka lähellä klusterin kukin piste on keskimäärin kaikkien muiden klustereiden sentriidiä.
  • Suurin etäisyys klusterointikeskukseen: Klusterin pisteen ja sen centroidin välinen kauimpana oleva etäisyys.
  • Siluetti: arvo välillä -1 ja 1, joka tekee yhteenvedon saman klusterin pisteiden ja eri klustereiden pisteiden välisen etäisyyden suhteesta (Mitä lähempänä 1, sitä parempi klusterin erittely).