Nyanser av testuppsättningar
Testuppsättningar anses vara bästa praxis för de flesta aspekter av maskininlärning, även om fältet fortfarande är relativt ungt, och så exakt hur och när diskuteras ofta. Låt oss gå igenom några saker att tänka på.
Testuppsättningar kan vara missvisande
Även om testuppsättningar är användbara för att identifiera överträning kan de ge oss falskt förtroende. Mer specifikt är testuppsättningar bara användbara om de återspeglar data som vi förväntar oss att se i den verkliga världen. Till exempel är vår testuppsättning mycket liten, så den kommer inte att vara representativ för den mängd data som vi sannolikt kommer att se i den verkliga världen. Testdatauppsättningar är också bara lika bra som källan. Om vår testdatauppsättning kommer från en partisk källa återspeglar inte våra mått hur saker och ting kommer att bete sig i verkligheten.
Anta till exempel att vi försöker hitta förhållandet mellan antalet räddningar och den ålder som en hund började träna. Om vår testuppsättning bara var tre hundar är det möjligt att dessa hundar inte är en bra representation av det stora utbudet av arbetande hundar i den verkliga världen. Tänk dig också att vi fick vår testuppsättning från en enda uppfödare som inte vet hur man arbetar med valpar. Vår modell kan förutsäga att äldre hundar är bäst att träna, och vår testdatauppsättning skulle bekräfta detta, när i själva verket andra tränare kan ha enorm framgång med yngre djur.
Testuppsättningar är inte kostnadsfria
Vi har redan sett att ju mer träningsdata vi har, desto mindre sannolikt är det att vår modell överanpassas. På samma sätt, ju större testuppsättningar, desto mer känner vi att vi kan lita på våra testresultat. Men vi arbetar vanligtvis med begränsade mängder data och en datapunkt kan inte finnas i både tränings- och testuppsättningen. Det innebär att när vi får större testuppsättningar får vi mindre träningsdatamängder och vice versa. Exakt hur mycket data som ska offras för att visas i testdatamängden beror på enskilda omständigheter, där allt mellan 10 och 50 % är relativt vanligt, beroende på mängden tillgängliga data.
Träning och test är inte den enda metoden
Det är värt att komma ihåg att train-and-test är vanligt, men inte det enda allmänt använda tillvägagångssättet. Två av de vanligaste alternativen är metoden med undantag och statistiska metoder .
Hold-out-metoden
Metoden för att hålla ut är som att träna och testa, men i stället för att dela upp en datamängd i två delar den upp i tre: träning, test (kallas även validering) och undantag. Datauppsättningarna för träning och testning är som vi har beskrivit tidigare. Datauppsättningen för undantag är en typ av testuppsättning som bara används en gång, när vi är redo att distribuera vår modell för verklig användning. Med andra ord används den inte förrän vi har experimenterat klart med olika typer av träningsregimer, olika typer av modeller och så vidare.
Den här metoden tar itu med det faktum att vi vanligtvis experimenterar med olika modeller och träningsregimer. Vi kan till exempel anpassa en modell, upptäcka att den inte fungerar bra med testdatauppsättningen, ändra vissa aspekter av modellen som tränas och försök igen tills vi får ett bra resultat. Det innebär att vi avsiktligt ändrar vår modell så att den fungerar för en viss uppsättning data, precis som normal träning gör med träningsdatauppsättningen. På så sätt kan vi få en modell som i princip är för övertränad för att fungera med vår testdatauppsättning.
Tanken med en tredje datamängd är att vi också kan testa för detta. Den här metoden innebär att dela upp data på tre sätt, vilket innebär att vi börjar med ännu mindre träningsdata. Om vi inte har mycket data att arbeta med kan den här metoden minska vår förmåga att få en bra modell.
Statistiska metoder
Enklare modeller som har sitt ursprung i statistik behöver ofta inte testdatamängder. I stället kan vi beräkna vilken grad modellen är överanpassad direkt som statistisk signifikans: ett p-värde.
Dessa statistiska metoder är kraftfulla, väletablerade och utgör grunden för modern vetenskap. Fördelen är att träningsuppsättningen aldrig behöver delas upp, och vi får en mycket mer exakt förståelse för hur säkra vi kan vara på en modell. Till exempel innebär p-värdet 0,01 att det finns en mycket liten risk att vår modell har hittat en relation som faktiskt inte finns i den verkliga världen. Däremot innebär p-värdet 0,5 att även om vår modell kan se bra ut med våra träningsdata, är det inte bättre än att vända ett mynt i den verkliga världen.
Nackdelen med dessa metoder är att de bara tillämpas enkelt på vissa modelltyper, till exempel de linjära regressionsmodeller som vi har övat på. För alla utom de enklaste modellerna kan de här beräkningarna vara mycket komplexa att utföra korrekt och ligger därför utanför omfånget för den aktuella kursen. De har också samma begränsning när det gäller val av data. Om våra träningsdata är partiska blir våra p-värden missvisande.