Inzicht in het data science-proces

Voltooid

Een veelgebruikte manier om inzichten uit gegevens te extraheren, is door de gegevens te visualiseren. Wanneer u complexe gegevenssets hebt, wilt u misschien dieper ingaan en proberen complexe patronen in de gegevens te vinden.

Als data scientist kunt u machine learning-modellen trainen om patronen in uw gegevens te vinden. U kunt deze patronen gebruiken om nieuwe inzichten of voorspellingen te genereren. U kunt bijvoorbeeld het verwachte aantal producten voorspellen dat u verwacht te verkopen in de komende week.

Hoewel het trainen van het model belangrijk is, is het niet de enige taak in een data science-project. Voordat u een typisch data science-proces verkent, gaan we algemene machine learning-modellen verkennen die u kunt trainen.

Algemene machine learning-modellen verkennen

Het doel van machine learning is om modellen te trainen die patronen in grote hoeveelheden gegevens kunnen identificeren. Vervolgens kunt u de patronen gebruiken om voorspellingen te doen waarmee u nieuwe inzichten krijgt waarop u acties kunt ondernemen.

De mogelijkheden met machine learning kunnen eindeloos lijken, dus laten we beginnen met het begrijpen van de vier algemene typen machine learning-modellen:

Diagram of the four common types of machine learning models.

  1. Classificatie: Voorspel een categorische waarde, zoals of een klant kan verloopen.
  2. Regressie: Voorspel een numerieke waarde zoals de prijs van een product.
  3. Clustering: groepeer vergelijkbare gegevenspunten in clusters of groepen.
  4. Prognoses: Voorspel toekomstige numerieke waarden op basis van tijdreeksgegevens, zoals de verwachte verkoop voor de komende maand.

Als u wilt bepalen welk type machine learning-model u moet trainen, moet u eerst het zakelijke probleem en de gegevens begrijpen die voor u beschikbaar zijn.

Inzicht in het data science-proces

Voor het trainen van een machine learning-model omvat het proces meestal de volgende stappen:

Diagram of sequential steps in the data science process.

  1. Definieer het probleem: bepaal samen met zakelijke gebruikers en analisten wat het model moet voorspellen en wanneer het succesvol is.
  2. Haal de gegevens op: Zoek gegevensbronnen en krijg toegang door uw gegevens op te slaan in een Lakehouse.
  3. De gegevens voorbereiden: verken de gegevens door deze vanuit een Lakehouse in een notebook te lezen. Schoon en transformeer de gegevens op basis van de vereisten van het model.
  4. Het model trainen: Kies een algoritme en hyperparameterwaarden op basis van de evaluatie en fout door uw experimenten bij te houden met MLflow.
  5. Inzichten genereren: modelbatchscore gebruiken om de aangevraagde voorspellingen te genereren.

Als data scientist wordt de meeste tijd besteed aan het voorbereiden van de gegevens en het trainen van het model. Hoe u de gegevens voorbereidt en welk algoritme u kiest om een model te trainen, kan invloed hebben op het succes van uw model.

U kunt een model voorbereiden en trainen met behulp van opensource-bibliotheken die beschikbaar zijn voor de taal van uw keuze. Als u bijvoorbeeld met Python werkt, kunt u de gegevens voorbereiden met Pandas en Numpy en een model trainen met bibliotheken zoals Scikit-Learn, PyTorch of SynapseML.

Bij het experimenteren wilt u een overzicht houden van alle verschillende modellen die u hebt getraind. U wilt weten hoe uw keuzes van invloed zijn op het succes van het model. Door uw experimenten bij te houden met MLflow in Microsoft Fabric, kunt u eenvoudig de modellen beheren en implementeren die u hebt getraind.