Inzicht in het data science-proces
Een veelgebruikte manier om inzichten uit gegevens te extraheren, is door de gegevens te visualiseren. Wanneer u complexe gegevenssets hebt, wilt u misschien dieper ingaan en proberen complexe patronen in de gegevens te vinden.
Als data scientist kunt u machine learning-modellen trainen om patronen in uw gegevens te vinden. U kunt deze patronen gebruiken om nieuwe inzichten of voorspellingen te genereren. U kunt bijvoorbeeld het verwachte aantal producten voorspellen dat u verwacht te verkopen in de komende week.
Hoewel het trainen van het model belangrijk is, is het niet de enige taak in een data science-project. Voordat u een typisch data science-proces verkent, gaan we algemene machine learning-modellen verkennen die u kunt trainen.
Algemene machine learning-modellen verkennen
Het doel van machine learning is om modellen te trainen die patronen in grote hoeveelheden gegevens kunnen identificeren. Vervolgens kunt u de patronen gebruiken om voorspellingen te doen waarmee u nieuwe inzichten krijgt waarop u acties kunt ondernemen.
De mogelijkheden met machine learning kunnen eindeloos lijken, dus laten we beginnen met het begrijpen van de vier algemene typen machine learning-modellen:
- Classificatie: Voorspel een categorische waarde, zoals of een klant kan verloopen.
- Regressie: Voorspel een numerieke waarde zoals de prijs van een product.
- Clustering: groepeer vergelijkbare gegevenspunten in clusters of groepen.
- Prognoses: Voorspel toekomstige numerieke waarden op basis van tijdreeksgegevens, zoals de verwachte verkoop voor de komende maand.
Als u wilt bepalen welk type machine learning-model u moet trainen, moet u eerst het zakelijke probleem en de gegevens begrijpen die voor u beschikbaar zijn.
Inzicht in het data science-proces
Voor het trainen van een machine learning-model omvat het proces meestal de volgende stappen:
- Definieer het probleem: bepaal samen met zakelijke gebruikers en analisten wat het model moet voorspellen en wanneer het succesvol is.
- Haal de gegevens op: Zoek gegevensbronnen en krijg toegang door uw gegevens op te slaan in een Lakehouse.
- De gegevens voorbereiden: verken de gegevens door deze vanuit een Lakehouse in een notebook te lezen. Schoon en transformeer de gegevens op basis van de vereisten van het model.
- Het model trainen: Kies een algoritme en hyperparameterwaarden op basis van de evaluatie en fout door uw experimenten bij te houden met MLflow.
- Inzichten genereren: modelbatchscore gebruiken om de aangevraagde voorspellingen te genereren.
Als data scientist wordt de meeste tijd besteed aan het voorbereiden van de gegevens en het trainen van het model. Hoe u de gegevens voorbereidt en welk algoritme u kiest om een model te trainen, kan invloed hebben op het succes van uw model.
U kunt een model voorbereiden en trainen met behulp van opensource-bibliotheken die beschikbaar zijn voor de taal van uw keuze. Als u bijvoorbeeld met Python werkt, kunt u de gegevens voorbereiden met Pandas en Numpy en een model trainen met bibliotheken zoals Scikit-Learn, PyTorch of SynapseML.
Bij het experimenteren wilt u een overzicht houden van alle verschillende modellen die u hebt getraind. U wilt weten hoe uw keuzes van invloed zijn op het succes van het model. Door uw experimenten bij te houden met MLflow in Microsoft Fabric, kunt u eenvoudig de modellen beheren en implementeren die u hebt getraind.