Gør modeller bedre med hyperparametre

Fuldført

Enkle modeller med små datasæt kan ofte være i et enkelt trin, mens større datasæt og mere komplekse modeller skal være egnede ved gentagne gange at bruge modellen med oplæringsdata og sammenligne outputtet med den forventede mærkat. Hvis forudsigelsen er korrekt nok, betragter vi modellen som oplært. Hvis ikke, justerer vi modellen en smule og løkker igen.

Hyperparametre er værdier, der ændrer den måde, modellen passer på under disse løkker. Læringsfrekvens er f.eks. en hyperparameter, der angiver, hvor meget en model justeres under hver træningscyklus. En høj læringsfrekvens betyder, at en model kan oplæres hurtigere. men hvis den er for høj, kan justeringerne være så store, at modellen aldrig er "finjusteret" og ikke optimal.

Forbehandling af data

Forbehandling refererer til de ændringer, du foretager af dine data, før de overføres til modellen. Vi har tidligere læst, at forbehandling kan omfatte rensning af dit datasæt. Selvom dette er vigtigt, kan forbehandling også omfatte ændring af formatet af dine data, så det er nemmere for modellen at bruge. Data, der er beskrevet som "rød", "orange", "gul", "kalk" og "grøn", fungerer måske bedre, hvis de konverteres til et format, der er mere oprindeligt på computere, f.eks. tal, der angiver mængden af rød og mængden af grøn.

Skaleringsfunktioner

Det mest almindelige forbehandlingstrin er at skalere funktioner, så de falder mellem nul og ét. Vægten af en cykel og den afstand, en person rejser på en cykel, kan f.eks. være to meget forskellige tal, men ved at skalere begge tal til mellem nul og én gør det muligt for modeller at lære mere effektivt fra dataene.

Brug af kategorier som funktioner

I maskinel indlæring kan du også bruge kategoriske funktioner som "cykel", "skateboard" eller "bil". Disse funktioner repræsenteres af 0 eller 1 værdier i en-hot vektorer; vektorer, der har 0 eller 1 for hver mulige værdi. Eksempelvis kan cykel, skateboard og bil være henholdsvis (1,0,0), (0,1,0) og (0,0,1).