Johdanto
Klusterointi on objektien ryhmittelyprosessi, jossa on samankaltaisia objekteja. Esimerkiksi alla olevassa kuvassa on kokoelma 2D-koordinaatteja, jotka on klusteroitu kolmeen luokkaan - vasen yläkulma (keltainen), ala (punainen) ja oikea yläkulma (sininen).
Klusteroinnin ja luokitusmallien suuri ero on se, että klusterointi on valvomaton -menetelmä, jossa harjoittamisen tehdään ilman tunnisteita. Klusterointimallit tunnistavat esimerkkejä, joissa on samanlainen ominaisuuskokoelma. Edellisessä kuvassa samankaltaiseen sijaintiin kuuluvat esimerkit on ryhmitelty yhteen.
Klusterointi on yleistä ja hyödyllistä, kun tutkitaan uusia tietoja, joissa arvopisteiden välisiä malleja, kuten korkean tason luokkia, ei vielä tiedetä. Sitä käytetään monissa kentissä, joiden on automaattisesti otsikoitava monimutkaisia tietoja, kuten sosiaalisten verkostojen analyysi, aivoyhteys, roskapostin suodatus ja niin edelleen.