Mi az a besorolás?

Befejeződött

A bináris besorolás két kategóriával való besorolás. A betegeket például nem diabéteszes vagy cukorbetegként címkézhetjük.

Az osztály előrejelzése úgy történik, hogy az egyes lehetséges osztályok valószínűségét 0 (lehetetlen) és 1 (bizonyos) közötti értékként határozza meg. Az összes osztály teljes valószínűsége mindig 1, mivel a beteg egyértelműen diabéteszes vagy nem diabéteszes. Tehát, ha a diabéteszes beteg előrejelzett valószínűsége 0,3, akkor 0,7-es a valószínűsége annak, hogy a beteg nem cukorbeteg.

Az előrejelzett osztály meghatározásához egy küszöbértéket (gyakran 0,5) használnak. Ha a pozitív osztály (ebben az esetben a diabéteszes) előrejelzett valószínűsége nagyobb, mint a küszöbérték, akkor a diabéteszes besorolás lesz előre jelezve.

Besorolási modell betanítása és értékelése

A besorolás egy felügyelt gépi tanulási módszer példája, ami azt jelenti, hogy olyan adatokra támaszkodik, amelyek ismert funkcióértékeket és ismert címkeértékeket tartalmaznak. Ebben a példában a funkcióértékek a betegek diagnosztikai mérései, a címkeértékek pedig a nem diabéteszes vagy diabéteszesek besorolását képezik. A besorolási algoritmus az adatok egy részhalmazát egy olyan függvénybe illeszti, amely kiszámítja az egyes osztálycímkék valószínűségét a funkcióértékekből. A rendszer a fennmaradó adatokat a modell kiértékeléséhez használja a szolgáltatásokból származó előrejelzések és az ismert osztálycímkék összehasonlításával.

Egy egyszerű példa

Tekintsünk át egy példát, amely segít elmagyarázni a fő alapelveket. Tegyük fel, hogy a következő betegadatokkal rendelkezünk, amelyek egyetlen jellemzőből (vércukorszint) és 0 osztálycímkéből állnak a nem cukorbetegek esetében, 1 diabéteszes esetén.

Vércukorszint Cukorbeteg
82 0
92 0
112 0
102 0
115 0
107 0
87 0
120 0
83 0
119 0
104 0
105 0
86 0
109 0

Az első nyolc megfigyelést egy besorolási modell betanítására használjuk, és először ábrázoljuk a vércukorszint jellemzőjét (x) és az előrejelzett diabéteszes címkét (y).

Diabéteszes (0 vagy 1) vércukorszint grafikonja trendvonal nélkül.

Olyan függvényre van szükségünk, amely x alapján számítja ki az y valószínűségi értékét (más szóval az f(x) = y függvényre van szükségünk). A diagramon látható, hogy az alacsony vércukorszinttel rendelkező betegek mind nem diabéteszesek, míg a magasabb vércukorszinttel rendelkező betegek cukorbetegek. Úgy tűnik, minél magasabb a vércukorszint, annál valószínűbb, hogy a beteg cukorbeteg, az inflekciós pont valahol 100 és 110 között van. El kell illesztenünk egy függvényt, amely 0 és 1 közötti értéket számít ki az y értékhez.

Az egyik ilyen függvény egy logisztikai függvény, amely szigmoidális (S-alakú) görbét alkot.

Diabéteszes (0 vagy 1) ellen ábrázolt vércukorszint grafikonja szigmoidális trendvonallal.

Most a függvény segítségével kiszámíthatjuk az y valószínűségi értékét, ami azt jelenti, hogy a beteg diabéteszes, az x tetszőleges értékéből az x függvényvonalának pontjának megkeresésével. 0,5-ös küszöbértéket állíthatunk be az osztálycímke előrejelzésének kezdőpontjaként.

Teszteljük a két adatértékkel, amelyet visszatartottunk.

Diabéteszes (0 vagy 1) ellen ábrázolt vércukorszint grafikonja a szigmodális trendvonallal és a 0,5-ös küszöbértékkel.

A küszöbérték alatt ábrázolt pontok 0 (nem diabéteszes) előrejelzett osztályt eredményeznek, a vonal feletti pontok pedig 1 -et (diabéteszesek) jeleznek előre.

Most összehasonlíthatjuk a modellbe ágyazott logisztikai függvényen alapuló címke-előrejelzéseket (ŷ vagy "y-hat") a tényleges osztályfeliratokkal (y).

x y
83 0 0
119 0 0
104 0 0
105 0 0
86 0 0
109 0 0