Definer problemet
Fra og med det første trin vil du definere det problem , som modellen skal løse, ved at forstå:
- Hvad modellens output skal være.
- Hvilken type maskinel indlæringsopgave, du bruger.
- Hvilke kriterier gør en model vellykket.
Afhængigt af de data, du har, og det forventede output af modellen, kan du identificere machine learning-opgaven. Opgaven bestemmer, hvilke typer algoritmer du kan bruge til at oplære modellen.
Nogle almindelige opgaver i forbindelse med maskinel indlæring er:
- Klassificering: Forudsig en kategorisk værdi.
- Regression: Forudsig en numerisk værdi.
- Tidsserieprognose: Forudsig fremtidige numeriske værdier baseret på tidsseriedata.
- Computersyn: Klassificer billeder, eller registrer objekter i billeder.
- NLP (Natural Language Processing): Udtræk indsigt fra tekst.
Hvis du vil oplære en model, har du et sæt algoritmer, som du kan bruge, afhængigt af den opgave, du vil udføre. Hvis du vil evaluere modellen, kan du beregne målepunkter for ydeevne, f.eks. nøjagtighed eller præcision. De tilgængelige målepunkter afhænger også af den opgave, din model skal udføre, og hjælper dig med at beslutte, om en model lykkes i dens opgave.
Udforsk et eksempel
Overvej et scenarie, hvor du vil afgøre, om patienter har diabetes. Det problem, du forsøger at løse, og den tilgængelige datatype bestemmer den maskinel indlæringsopgave, du vælger. I dette tilfælde er de tilgængelige data andre tilstandsdatapunkter fra patienter. Vi kan repræsentere det output, vi ønsker, som kategoriske oplysninger om, at enten patienten har diabetes eller ikke har diabetes. Derfor er machine learning-opgaven klassificering.
Hvis du forstår hele processen, før du starter, får du mulighed for at kortlægge de beslutninger, du skal træffe for at designe en vellykket løsning til maskinel indlæring. Følgende er et diagram, der viser en måde at gribe problemet med at identificere diabetes i en patient. I diagrammet er dataene overskredet, opdelt og oplært ved hjælp af bestemte algoritmer. Derefter evalueres modellen for kvalitet.
- Indlæs data: Importér og undersøg datasættet.
- Forbehandlingsdata: Normaliser og rengør for at sikre ensartethed.
- Opdel data: Adskil dem i oplærings- og testsæt.
- Vælg model: Vælg og konfigurer en algoritme.
- Oplær model: Få mere at vide om mønstre fra oplæringsdataene.
- Resultatmodel: Generér forudsigelser for testdata.
- Evaluer: Beregn målepunkter for ydeevne.
Oplæring af en model til maskinel indlæring er ofte en iterativ proces, hvor du gennemgår hvert af disse trin flere gange for at finde den model, der præsterer bedst. Lad os derefter undersøge processen til forberedelse af data til udvikling af en maskinel indlæringsløsning.