Het probleem definiëren
Vanaf de eerste stap wilt u het probleem definiëren dat het model moet oplossen door het volgende te begrijpen:
- Wat de uitvoer van het model moet zijn.
- Welk type machine learning-taak u gebruikt.
- Welke criteria ervoor zorgen dat een model succesvol is.
Afhankelijk van de gegevens die u hebt en de verwachte uitvoer van het model, kunt u de machine learning-taak identificeren. De taak bepaalt welke typen algoritmen u kunt gebruiken om het model te trainen.
Enkele veelvoorkomende machine learning-taken zijn:
- Classificatie: Een categorische waarde voorspellen.
- Regressie: Een numerieke waarde voorspellen.
- Tijdreeksprognose: Toekomstige numerieke waarden voorspellen op basis van tijdreeksgegevens.
- Computer Vision: Afbeeldingen classificeren of objecten in afbeeldingen detecteren.
- Natuurlijke taalverwerking (NLP): Inzichten extraheren uit tekst.
Als u een model wilt trainen, hebt u een set algoritmen die u kunt gebruiken, afhankelijk van de taak die u wilt uitvoeren. Als u het model wilt evalueren, kunt u metrische prestatiegegevens berekenen, zoals nauwkeurigheid of precisie. De beschikbare metrische gegevens zijn ook afhankelijk van de taak die uw model moet uitvoeren en helpen om te bepalen of een model succesvol is in de taak.
Een voorbeeld verkennen
Overweeg een scenario waarin u wilt bepalen of patiënten diabetes hebben. Het probleem dat u probeert op te lossen en het type gegevens dat beschikbaar is, bepaalt de machine learning-taak die u kiest. In dit geval zijn de beschikbare gegevens andere gezondheidsgegevenspunten van patiënten. We kunnen de gewenste uitvoer vertegenwoordigen als categorische informatie die de patiënt diabetes heeft of geen diabetes heeft. De machine learning-taak is dus classificatie.
Als u het hele proces begrijpt voordat u begint, krijgt u de mogelijkheid om de beslissingen die u moet nemen om een succesvolle machine learning-oplossing te ontwerpen. Hieronder volgt een diagram met een manier om het probleem van het identificeren van diabetes bij een patiënt te benaderen. In het diagram worden de gegevens voorbereid, gesplitst en getraind met behulp van specifieke algoritmen. Daarna wordt het model geëvalueerd op kwaliteit.
- Gegevens laden: importeer en inspecteer de gegevensset.
- Gegevens vooraf verwerken: normaliseren en opschonen voor consistentie.
- Gegevens splitsen: gescheiden in trainings- en testsets.
- Model kiezen: Selecteer en configureer een algoritme.
- Model trainen: Leer patronen van de trainingsgegevens.
- Scoremodel: voorspellingen genereren voor testgegevens.
- Evalueren: Metrische prestatiegegevens berekenen.
Het trainen van een machine learning-model is vaak een iteratief proces, waarbij u elk van deze stappen meerdere keren doorloopt om het best presterende model te vinden. Laten we vervolgens het proces voor gegevensvoorbereiding bekijken voor het ontwikkelen van een machine learning-oplossing.