Mikä on luokitus?
Binaarinen luokitus on luokitus, jossa on kaksi luokkaa. Potilaat voidaan esimerkiksi merkitä ei-diabeetisiksi tai diabeetikoiksi.
Luokan ennuste tehdään määrittämällä todennäköisyys, kullekin mahdolliselle luokalle arvona välillä 0 (mahdoton) ja 1 (tietty). Kaikkien luokkien kokonaistodennäköisyys on aina 1, koska potilas on ehdottomasti joko diabeetinen tai ei-diabeetinen. Joten jos ennustettu todennäköisyys potilaan diabeetikolle on 0,3, vastaava todennäköisyys on 0,7, että potilas ei ole diabeetinen.
Ennustetun luokan määrittämiseen käytetään raja-arvoa, usein 0,5. Jos positiivisen luokan (tässä tapauksessa diabeetikon) ennustettu todennäköisyys suurempi kuin raja-arvo, diabeetisen luokituksen ennustetaan olevan suurempi.
Luokitusmallin harjoittaminen ja arvioiminen
Luokitus on esimerkki valvovasta koneoppimistekniikasta, mikä tarkoittaa sitä, että se käyttää tietoja, jotka sisältävät tunnetut ominaisuuden arvot ja tunnetut tunnisteen arvot. Tässä esimerkissä ominaisuusarvot ovat potilaiden diagnostisia mittauksia ja otsikkoarvot on luokiteltu ei-diabeetikkoon tai diabeetikkoon. Luokitusalgoritmin avulla sovitetaan tietojen alijoukko funktioon, joka voi laskea todennäköisyyden kullekin luokan selitteelle ominaisuusarvoista. Jäljellä olevia tietoja käytetään mallin arvioimiseen vertaamalla sen luomia ennusteita ominaisuuksista tunnettuihin luokkaotsikoihin.
Yksinkertainen esimerkki
Tutustutaan nyt esimerkkiin, jossa kerrotaan keskeisistä periaatteista. Oletetaan, että meillä on seuraavat potilastiedot, jotka koostuvat yhdestä ominaisuudesta (verensokeritaso) ja luokan tunnisteesta 0 ei-diabeetikolle, 1 diabeetikolle.
| Blood-Glucose | Diabeetikko |
|---|---|
| 82 | 0 |
| 92 | 0 |
| 112 | 1 |
| 102 | 0 |
| 115 | 1 |
| 107 | 1 |
| 87 | 0 |
| 120 | 1 |
| 83 | 0 |
| 119 | 1 |
| 104 | 1 |
| 105 | 0 |
| 86 | 0 |
| 109 | 1 |
Käytämme kahdeksaa ensimmäistä havaintoa luokitusmallin harjoittamiseen, ja aloitamme piirtämällä verensokeriominaisuuden (x) ja ennustetun diabeetisen merkinnän (y).
Tarvitsemme funktion, joka laskee todennäköisyysarvon yx perusteella (toisin sanoen tarvitsemme funktion f(x) = y). Kaaviosta näkyy, että potilaat, joiden verensokeri on alhainen, eivät ole diabeetisiä, kun taas potilaat, joiden verensokeri on korkeampi, ovat diabeetiikkoja. Näyttää siltä, että mitä korkeampi veren glukoositaso, todennäköisempää on, että potilas on diabeetinen, ja taivutuspiste on jossain 100-110. Meidän täytyy sovittaa funktio, joka laskee arvon 0:sta 1:een y näille arvoille.
Yksi tällaisista funktioista on logistinen funktio, joka muodostaa sigmoidimuotoisen (S-muotoisen) käyrän.
Nyt voimme funktion avulla laskea todennäköisyysarvon, joka y- on positiivinen, eli potilas on diabeetinen mistä tahansa x arvosta etsimällä xfunktiorivin pisteen. Voimme määrittää raja-arvon 0,5 luokan otsikon ennusteen raja-arvoksi.
Testataan sitä kahdella tietoarvolla, joita pidätimme.
Raja-arvon alapuolelle piirretyt pisteet tuottavat ennustetun luokan 0 (ei-diabeetinen), ja viivan yläpuolella olevien pisteiden ennustetaan olevan 1 (diabeetikko).
Nyt voimme verrata selitteen ennusteita (tai "y-hat") malliin kapseloidun logistisen funktion perusteella todellisiin luokkaotsikoihin (y).
| x | y | ŷ |
|---|---|---|
| 83 | 0 | 0 |
| 119 | 1 | 1 |
| 104 | 1 | 0 |
| 105 | 0 | 1 |
| 86 | 0 | 0 |
| 109 | 1 | 1 |