Definer problemet
Fra og med det første trinnet vil du definere problemet modellen skal løse, ved å forstå:
- Hva modellens utdata skal være.
- Hvilken type maskinlæringsoppgave du bruker.
- Hvilke kriterier gjør en modell vellykket.
Avhengig av dataene du har og forventet utdata fra modellen, kan du identifisere maskinlæringsoppgaven. Oppgaven bestemmer hvilke typer algoritmer du kan bruke til å lære opp modellen.
Noen vanlige maskinlæringsoppgaver er:
- Klassifisering: Forutsi en kategorisk verdi.
- Regresjon: Forutsi en numerisk verdi.
- Prognose for tidsserier: Forutsi fremtidige numeriske verdier basert på tidsseriedata.
- Datasyn: Klassifisere bilder eller oppdage objekter i bilder.
- Behandling av naturlig språk (NLP): Trekk ut innsikt fra tekst.
Hvis du vil lære opp en modell, har du et sett med algoritmer som du kan bruke, avhengig av oppgaven du vil utføre. Hvis du vil evaluere modellen, kan du beregne ytelsesmåledata som nøyaktighet eller presisjon. Måledataene som er tilgjengelige, avhenger også av oppgaven modellen må utføre og hjelpe deg med å avgjøre om en modell er vellykket i oppgaven.
Utforske et eksempel
Vurder et scenario der du vil avgjøre om pasienter har diabetes. Problemet du prøver å løse, og hvilken type data som er tilgjengelig, bestemmer maskinlæringsoppgaven du velger. I dette tilfellet er de tilgjengelige dataene andre helsedatapunkter fra pasienter. Vi kan representere utdataene vi ønsker som kategorisk informasjon om at enten pasienten har diabetes eller ikke har diabetes. Derfor er maskinlæringsoppgaven klassifisering.
Hvis du forstår hele prosessen før du begynner, får du mulighet til å kartlegge beslutningene du må ta for å utforme en vellykket maskinlæringsløsning. Følgende er et diagram som viser en måte å nærme seg problemet med å identifisere diabetes hos en pasient. I diagrammet er dataene klargjort, delt og opplært ved hjelp av bestemte algoritmer. Etterpå evalueres modellen for kvalitet.
- Last inn data: Importer og undersøk datasettet.
- Forhåndsbearbeide data: Normaliser og rengjør for konsekvens.
- Del data: Skill deg inn i opplærings- og testsett.
- Velg modell: Velg og konfigurer en algoritme.
- Opplæringsmodell: Lær mønstre fra opplæringsdataene.
- Resultatmodell: Generer prognoser for testdata.
- Evaluer: Beregn ytelsesmåledata.
Opplæring av en maskinlæringsmodell er ofte en iterativ prosess, der du går gjennom hvert av disse trinnene flere ganger for å finne modellen med best ytelse. La oss deretter undersøke prosessen for klargjøring av data for utvikling av en maskinlæringsløsning.