Delen via


Rollen en taken in het team-Datawetenschap proces

Het Team Datawetenschap Process (TDSP) is een framework dat door Microsoft is ontwikkeld en een gestructureerde methodologie biedt voor het efficiënt bouwen van predictive analytics-oplossingen en intelligente toepassingen. Dit artikel bevat een overzicht van de belangrijkste personeelsrollen en bijbehorende taken voor een data science-team dat standaardiseert voor dit proces.

Er wordt een git-compatibele omgeving voorgesteld om de MLflow-artefacten die zijn opgeslagen in Azure Machine Learning, aan te vullen. Azure Machine Learning kan worden geïntegreerd met Git-opslagplaatsen, zodat u veel git-compatibele services kunt gebruiken, zoals GitHub, GitLab, Bitbucket, Azure DevOps of een andere met Git compatibele service.

Structuur van data science-groepen en -teams

Data science-functies in ondernemingen worden vaak ingedeeld in de volgende hiërarchie:

  • Data science-groep
  • Data science-teams binnen de groep

In een dergelijke structuur zijn er groepsleiders en teamleiders. Normaal gesproken voert een data science-team een data science-project uit. Data science-teams hebben projectleiders voor projectmanagement- en governancetaken, en individuele gegevenswetenschappers en technici om de onderdelen data science en data engineering van het project uit te voeren. De groeps-, team- of projectleiders voeren de eerste installatie en governance van het project uit.

Definitie en taken voor de vier TDSP-rollen

Met de veronderstelling dat de data science-eenheid bestaat uit teams binnen een groep, zijn er vier verschillende rollen voor TDSP-personeel:

  • Groepsbeheerder: beheert de hele data science-eenheid in een onderneming. Een data science-eenheid kan meerdere teams hebben, die elk werken aan meerdere data science-projecten in verschillende bedrijfsgebieden. Een groepsbeheerder kan hun taken delegeren aan een surrogaat, maar de taken die aan de rol zijn gekoppeld, worden niet gewijzigd.

  • Teamleider: Beheert een team in de data science-eenheid van een onderneming. Een team bestaat uit gegevenswetenschappers. Voor een kleine data science-eenheid kunnen de groepsmanager en de teamleider dezelfde persoon zijn.

  • Projectleider: beheert de dagelijkse activiteiten van individuele gegevenswetenschappers voor een specifiek data science-project.

  • Individuele inzenders project: gegevenswetenschappers, bedrijfsanalisten, gegevenstechnici, architecten en anderen die een data science-project uitvoeren.

Notitie

Afhankelijk van de structuur en grootte van een onderneming kan één persoon meer dan één rol hebben of kan meer dan één persoon een rol vervullen.

Taken voor de vier rollen

In het volgende diagram ziet u de taken op het hoogste niveau voor elke TDSP-rol. Dit overzicht en het volgende gedetailleerde overzicht van taken voor elke TDSP-rol kan u helpen bij het kiezen van de zelfstudie die u nodig hebt op basis van uw verantwoordelijkheden.

Diagram that shows an overview of the roles and tasks.

Groepsbeheertaken

De groepsbeheerder of een aangewezen TDSP-systeembeheerder voert de volgende taken uit om de TDSP te implementeren:

  • Hiermee maakt u een Azure DevOps-organisatie en een groepsproject binnen de organisatie.

  • Hiermee maakt u een opslagplaats voor projectsjablonen in het Azure DevOps-groepsproject en maakt u deze op basis van de projectsjabloonopslagplaats die is ontwikkeld door het Microsoft TDSP-team. De microsoft TDSP-projectsjabloonopslagplaats biedt:

    • Een gestandaardiseerde mapstructuur, waaronder mappen voor gegevens, code en documenten.
    • Een set gestandaardiseerde documentsjablonen om een efficiënt data science-proces te begeleiden.
  • Hiermee maakt u een opslagplaats voor het hulpprogramma en maakt u deze op basis van de opslagplaats van het hulpprogramma dat is ontwikkeld door het Microsoft TDSP-team. De opslagplaats van het TDSP-hulpprogramma van Microsoft biedt een set nuttige hulpprogramma's om het werk van een data scientist efficiënter te maken. De opslagplaats van het Microsoft-hulpprogramma bevat hulpprogramma's voor interactieve gegevensverkenning, analyse, rapportage en basislijnmodellering en -rapportage.

  • Hiermee stelt u het beveiligingsbeheerbeleid voor het organisatieaccount in.

Zie Groepsbeheertaken voor een data science-team voor meer informatie.

Taken van teamleider

De teamleider of een aangewezen projectbeheerder voert de volgende taken uit om de TDSP te implementeren:

  • Hiermee maakt u een teamproject in de Azure DevOps-organisatie van de groep.

  • Hiermee maakt u de opslagplaats voor projectsjablonen in het project en stelt u deze in vanuit de opslagplaats voor groepsprojectsjablonen die is ingesteld door de groepsbeheerder of gemachtigde.

  • Hiermee maakt u de opslagplaats voor het teamhulpprogramma, stelt u deze in vanuit de opslagplaats voor groepshulpprogramma's en voegt u teamspecifieke hulpprogramma's toe aan de opslagplaats.

  • U kunt eventueel Azure-bestandsopslag maken om nuttige gegevensassets voor het team op te slaan. Andere teamleden kunnen dit gedeelde cloudbestandsarchief koppelen op hun analytische bureaubladen.

  • Koppelt eventueel de Azure-bestandsopslag op de virtuele machine van het team en voegt er teamgegevensassets aan toe.

  • Hiermee stelt u beveiligingsbeheer in door teamleden toe te voegen en hun machtigingen te configureren.

Zie Taken voor teamleider voor een data science-team voor meer informatie.

Project leadtaken

De projectleider voert de volgende taken uit om de TDSP te implementeren:

  • Hiermee maakt u een projectopslagplaats in het teamproject en stelt u deze in vanuit de opslagplaats van de projectsjabloon.

  • U kunt eventueel Azure-bestandsopslag maken om de gegevensassets van het project op te slaan.

  • Koppelt de Azure-bestandsopslag desgewenst aan de virtuele data science-machine en voegt er projectgegevensassets aan toe.

  • Hiermee stelt u beveiligingsbeheer in door projectleden toe te voegen en hun machtigingen te configureren.

Zie Voor meer informatie project lead-taken voor een data science-team.

Afzonderlijke inzendertaken van project

De individuele inzender van het project, meestal een data scientist, voert de volgende taken uit met behulp van de TDSP:

  • Kloont de projectopslagplaats die is ingesteld door de projectleider.

  • Koppelt eventueel het gedeelde team en project Azure-bestandsopslag op hun virtuele data science-machine.

  • Hiermee wordt het project uitgevoerd.

Zie Afzonderlijke inzendertaken van Project voor een data science-team voor meer informatie.

Werkstroom voor het uitvoeren van data science-projecten

Gegevenswetenschappers, projectleiders en teamleiders kunnen werkitems maken om alle taken en fasen voor het project van begin tot eind bij te houden. In de volgende afbeelding ziet u een overzicht van de TDSP-werkstroom voor projectuitvoering:

Diagram that shows the typical data science project workflow.

De werkstroomstappen kunnen worden gegroepeerd in drie activiteiten:

  • Projectleiders voeren sprintplanning uit.

  • Gegevenswetenschappers ontwikkelen artefacten op git vertakkingen om werkitems aan te pakken.

  • Projectleiders of andere teamleden voeren codebeoordelingen uit en voegen werkbranches samen met de primaire vertakking.

Medewerkers

Dit artikel wordt onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.

Hoofdauteur:

Als u niet-openbare LinkedIn-profielen wilt zien, meldt u zich aan bij LinkedIn.