A tesztkészletek árnyalatai

Befejeződött

A tesztkészleteket a gépi tanulás legtöbb szempontjából ajánlott gyakorlatnak tekintik, bár a terület még mindig viszonylag fiatal, és pontosan hogyan és mikor kerül megvitatásra. Tekintsünk át néhány megfontolandó dolgot.

A tesztkészletek félrevezetőek lehetnek

Bár a tesztkészletek hasznosak a túltanítás azonosításához, hamis megbízhatóságot biztosíthatnak számunkra. A tesztkészletek csak akkor hasznosak, ha a valós világban várt adatokat tükrözik. A tesztkészletünk például nagyon kicsi, így nem lesz reprezentatív a valós világban valószínűleg látható különböző adatokra. A tesztadatkészletek is csak olyan jók, mint a forrásuk. Ha a tesztadatkészlet elfogult forrásból származik, a metrikák nem fogják tükrözni, hogyan fognak viselkedni a dolgok a való világban.

Tegyük fel például, hogy megpróbáljuk megtalálni a kapcsolatot a mentések száma és a kutya edzésbe kezdett kora között. Ha a tesztkészletünk csak három kutya volt, lehetséges, hogy ezek a kutyák nem jól ábrázolják a munkakutyák széles körét a való világban. Képzelje el azt is, hogy a tesztkészletet egyetlen tenyésztőtől szereztük be, aki nem tudja, hogyan kell dolgozni a kölykökkel. A modellünk előre jelezheti, hogy az idősebb kutyák a legjobbak a betanítása során, és a tesztadatkészletünk ezt megerősítené, amikor valójában más oktatók is hatalmas sikereket érhetnek el a fiatalabb állatoknál.

A tesztkészletek nem ingyenesek

Már láttuk, hogy minél több betanítási adatunk van, annál kevésbé valószínű, hogy a modellünk túl lesz elégedve. Hasonlóképpen, minél nagyobbak a tesztkészletek, annál inkább úgy érezzük, hogy megbízhatunk a teszteredményeinkben. Általában azonban véges mennyiségű adattal dolgozunk, és az adatpontok nem lehetnek mind a betanítási, mind a tesztkészletben. Ez azt jelenti, hogy a nagyobb tesztkészletek lekérésekor kisebb betanítási adatkészleteket kapunk, és fordítva. Hogy pontosan mennyi adatot kell feláldozni a tesztadatkészletben való megjelenéshez, az egyedi körülményektől függ, és a rendelkezésre álló adatok mennyiségétől függően 10–50% közötti adatok viszonylag gyakoriak.

A betanítása és tesztelése nem az egyetlen megközelítés

Érdemes szem előtt tartani, hogy a betanítás és a tesztelés gyakori, de nem az egyetlen széles körben használt megközelítés. A két leggyakoribb alternatíva a visszatartási megközelítés és a statisztikai megközelítési módszerek.

A visszatartás megközelítése

A visszatartási megközelítés hasonló a betanítási és tesztelési módszerhez, de az adathalmaz két részre való felosztása helyett háromra oszlik: betanításra, tesztelésre (más néven ellenőrzésre) és visszatartásokra. A betanítási és tesztelési adatkészletek a korábban ismertetett módon vannak. A visszatartott adatkészlet egy olyan tesztkészlet, amelyet csak egyszer használunk, amikor készen állunk a modell valós használatra való üzembe helyezésére. Más szóval addig nem használjuk, amíg be nem fejeztük a különböző betanítási rendekkel, különböző modellekkel és így tovább.

Ez a megközelítés azzal a ténnyel foglalkozik, hogy általában különböző modellekkel és betanítási módszerekkel kísérletezünk. Például illeszkedünk egy modellhez, azt látjuk, hogy nem működik jól a tesztadatkészlettel, módosítjuk a betanított modell néhány aspektusát, majd próbálkozzon újra, amíg jó eredményt nem kapunk. Ez azt jelenti, hogy szándékosan módosítjuk a modellt, hogy egy adott adatkészlethez működjön, ahogyan a normál betanítás a betanítási adatkészlettel. Ezzel olyan modellhez vezethetünk, amely lényegében túl van betanulva ahhoz, hogy a tesztadatkészleten dolgozzunk.

Egy harmadik adathalmaz ötlete az, hogy ezt is tesztelhetjük. Ez a megközelítés az adatok háromféle felosztását jelenti, ami azt jelenti, hogy még kevesebb betanítási adattal kezdünk. Ha nincs sok adatunk, amellyel dolgoznunk kell, ez a megközelítés csökkentheti a jó modell beszerzésének képességét.

Statisztikai megközelítések

A statisztikákból származó egyszerűbb modelleknek gyakran nincs szükségük tesztadatkészletekre. Ehelyett kiszámíthatjuk, hogy a modell milyen mértékben van túl alkalmas közvetlenül statisztikai pontosságként: p-értékként.

Ezek a statisztikai módszerek hatékonyak, jól megalapozottak, és a modern tudomány alapját képezik. Ennek az az előnye, hogy a betanítási készletet soha nem kell felosztani, és sokkal pontosabban megértjük, hogy mennyire vagyunk biztosak a modellben. Például a 0,01-es p-érték azt jelenti, hogy nagyon kicsi az esélye annak, hogy a modell olyan kapcsolatot talált, amely valójában nem létezik a való világban. Ezzel szemben a 0,5-ös p-érték azt jelenti, hogy bár a modellünk jól mutat a betanítási adatokkal, nem lesz jobb, mint egy érmét tükrözni a való világban.

Ezeknek a megközelítéseknek a hátránya az, hogy csak bizonyos modelltípusokra, például azokra a lineáris regressziós modellekre alkalmazhatók, amelyekkel már gyakoroltuk őket. A legegyszerűbb modelleken kívül ezek a számítások rendkívül összetettek lehetnek a megfelelő végrehajtáshoz, és így az aktuális kurzus hatókörén kívül is vannak. Ugyanez a korlátozás vonatkozik az adatkiválasztásra is; ha a betanítási adatok elfogultak, a p-értékek félrevezetők lesznek.