Tesztkészletek árnyalatai

Befejeződött

A tesztkészleteket a gépi tanulás legtöbb szempontjából ajánlott eljárásnak tekintik, bár a terület még viszonylag fiatal, és így pontosan hogyan és mikor kerül megvitatásra. Lássunk át néhány megfontolandó dolgot.

A tesztkészletek félrevezetőek lehetnek

Bár a tesztkészletek hasznosak a túltanítás azonosításához, hamis megbízhatóságot biztosíthatnak nekünk. A tesztkészletek csak akkor hasznosak, ha a valós világban várható adatokat tükrözik. A tesztkészletünk például nagyon kicsi, így nem lesz reprezentatív a valós világban valószínűleg látható különböző adatokra. A tesztadatkészletek is csak olyan jók, mint a forrásuk. Ha a tesztadatkészlet elfogult forrásból származik, a metrikák nem fogják tükrözni, hogyan fognak viselkedni a dolgok a valóságban.

Tegyük fel például, hogy megpróbáljuk megtalálni a kapcsolatot a mentések száma és a kutya edzésbe kezdett kora között. Ha a tesztkészletünk csak három kutya volt, lehetséges, hogy ezek a kutyák nem képviselik jól a munkakutyák széles választékát a való világban. Tegyük fel, hogy egyetlen tenyésztőtől szereztük be a tesztkészletünket, aki nem tudja, hogyan kell dolgozni a kölykökkel. Modellünk előre jelezheti, hogy az idősebb kutyákat érdemes betaníttatni, és a tesztadatkészletünk ezt megerősítené, amikor valójában más edzők is óriási sikereket érhetnek el a fiatalabb állatoknál.

A tesztkészletek nem ingyenesek

Már láttuk, hogy minél több betanítási adatunk van, annál kisebb a valószínűsége annak, hogy a modellünk túl lesz elégedve. Hasonlóképpen, minél nagyobb a tesztkészlet, annál inkább úgy érezzük, hogy bízhatunk a teszteredményeinkben. Általában azonban véges mennyiségű adattal dolgozunk, és egy adatpont nem lehet a betanításban és a tesztkészletben sem. Ez azt jelenti, hogy a nagyobb tesztkészletek lekérésekor kisebb betanítási adatkészleteket kapunk, és fordítva. A tesztadatkészletben való megjelenéshez pontosan mennyi adatot kell feláldozni, az egyéni körülményektől függ, és a rendelkezésre álló adatok mennyiségétől függően 10–50% viszonylag gyakori.

Nem a betanítás és a tesztelés az egyetlen megközelítés

Érdemes szem előtt tartani, hogy a betanítás és a tesztelés gyakori, de nem az egyetlen széles körben használt megközelítés. Két gyakrabban használt alternatíva a visszatartó megközelítés és a statisztikai megközelítési módszer.

A kitartás megközelítése

A kitartás módszere olyan, mint a betanítás és a tesztelés, de az adathalmazok két részre való felosztása helyett háromra osztható: betanításra, tesztelésre (más néven ellenőrzésre) és kitartásra. A betanítási és tesztelési adatkészletek a korábban leírtak szerint vannak. A visszatartott adatkészlet egy olyan tesztkészlet, amelyet csak egyszer használunk, amikor készen állunk a modell valós használatra való üzembe helyezésére. Más szóval addig nem használjuk, amíg nem kísérletezünk különböző betanítási rendekkel, különböző modellekkel stb.

Ez a megközelítés azzal a ténnyel foglalkozik, hogy általában különböző modellekkel és betanítási rendekkel kísérletezünk. Például illesztünk egy modellt az adatokhoz, majd ha nem működik jól a tesztadatkészlettel, módosítunk rajta néhány dolgot, és újrapróbálkozunk, amíg jó eredményt nem érünk el. Ez azt jelenti, hogy szándékosan módosítjuk a modellt, hogy egy adott adatkészleten működjön, ahogyan a normál betanítás is a betanítási adatkészlettel. Ezzel olyan modellhez juthatunk, amely lényegében túlképzett ahhoz, hogy működjön a tesztadatkészleten.

A harmadik adatkészlet ötlete az, hogy ezt is tesztelhetjük. Ez a megközelítés az adatok háromféle felosztását jelenti, ami azt jelenti, hogy még kevesebb betanítási adattal kezdjük. Ha nem sok adattal kell dolgoznunk, ez a megközelítés csökkentheti a jó modell beszerzésének képességét.

Statisztikai megközelítések

A statisztikákból származó egyszerűbb modelleknek gyakran nincs szükségük tesztadatkészletekre. Ehelyett kiszámíthatjuk, hogy a modell milyen mértékben van túl alkalmas közvetlenül statisztikai pontosságként: p-érték.

Ezek a statisztikai módszerek erősek, megalapozottak, és a modern tudomány alapját képezik. Ennek az az előnye, hogy a betanítási készletet soha nem kell felosztani, és sokkal pontosabban megértjük, hogy mennyire vagyunk biztosak a modellben. A 0,01 p-érték például azt jelenti, hogy nagyon kicsi az esély arra, hogy a modellünk olyan kapcsolatot talált, amely valójában nem létezik a valóságban. Ezzel szemben a 0,5-ös p-érték azt jelenti, hogy bár a modellünk jól néz ki a betanítási adatokkal, a valós világban nem lesz jobb, mint érmét feldobni.

Ezeknek a megközelítéseknek a hátránya, hogy csak bizonyos modelltípusokra, például azokra a lineáris regressziós modellekre alkalmazhatók, amelyekkel már gyakoroltunk. A legegyszerűbb modellek kivételével ezek a számítások rendkívül összetettek lehetnek a megfelelő végrehajtáshoz, és ezért nem képezik az aktuális kurzus részét. Ugyanez a korlátozás vonatkozik az adatkiválasztásra is; ha a betanítási adataink elfogultak, a p-értékeink félrevezetőek lesznek.