Rôles et tâches dans le TDSP

Team Data Science Process (TDSP) est une infrastructure développée par Microsoft qui fournit une méthodologie structurée pour créer efficacement des solutions d’analyse prédictive et des applications intelligentes. Cet article présente les rôles du personnel clé et les tâches qui incombent à une équipe de science des données dans le cadre de ce processus.

Un environnement compatible Git est suggéré pour compléter les artefacts MLflow stockés dans Azure Machine Learning. Azure Machine Learning s’intègre aux référentiels Git, ce qui vous permet d’utiliser de nombreux services compatibles avec Git, tels que GitHub, GitLab, Bitbucket, Azure DevOps, etc.

Structure des groupes et équipes de science des données

Les fonctions de science des données dans les entreprises sont souvent organisées selon la hiérarchie suivante :

  • Groupe de science des données
  • Équipes de science des données au sein du groupe

Ce type de structure comporte des responsables de groupe et des responsables d’équipe. En règle générale, c’est une équipe dédiée à la science des données qui réalise les projet de science des données. Les équipes de science des données ont des coordinateurs de projet pour les tâches de gestion et de gouvernance de projet ainsi que des ingénieurs et des scientifiques des données individuels pour la réalisation des parties de science des données et d’engineering données du projet. La configuration et la gouvernance initiales du projet sont effectuées par les responsables de groupe, d’équipe ou de projet.

Définition et tâches pour les quatre rôles TDSP

En supposant que l’unité de science des données se compose d’équipes au sein d’un groupe, il existe quatre rôles distincts pour le personnel TDSP :

  • Responsable de groupe : gère l’ensemble de l’unité de science des données dans une entreprise. Une unité de science des données peut avoir plusieurs équipes. Chacune travaille sur plusieurs projets de science des données dans différents domaines. Un responsable de groupe peut déléguer ses tâches à un remplaçant, mais les tâches associées au rôle ne changent pas.

  • Responsable d’équipe : gère une équipe dans l’unité de science des données d’une entreprise. Cette équipe est constituée de scientifiques des données. Pour une petite unité de science des données, une même personne peut jouer le rôle de responsable de groupe et de responsable d’équipe.

  • Coordinateur de projet : gère les activités quotidiennes des différents scientifiques des données dans le cadre d’un projet de science des données spécifique.

  • Contributeurs individuels de projet : scientifiques des données, analystes d’entreprise, ingénieurs de données, architectes et autres personnes qui exécutent un projet de science des données.

Remarque

Selon la structure et la taille de l’entreprise, une même personne peut avoir plusieurs rôles ou plusieurs personnes peuvent remplir un même rôle.

Tâches de chacun des quatre rôles

Le diagramme suivant présente les tâches de niveau supérieur de chaque rôle TDSP. Cette vue d’ensemble et la présentation détaillée suivante des tâches pour chaque rôle TDSP vous aident à choisir le tutoriel dont vous avez besoin en fonction de vos responsabilités.

Diagram that shows an overview of the roles and tasks.

Tâches du responsable de groupe

Le responsable de groupe ou un administrateur du système TDSP désigné effectue les tâches suivantes afin d’adopter TDSP :

  • Crée une organisation Azure DevOps et un projet de groupe au sein de l’organisation.

  • Crée un dépôt de modèle de projet dans le projet de groupe Azure DevOps et l’alimente à l’aide du dépôt de modèles de projet développé par l’équipe TDSP de Microsoft. Le dépôt de modèles de projet TDSP de Microsoft fournit :

    • une structure de répertoires normalisée pour les données, le code et les documents ;
    • un ensemble de modèles de documents normalisés pour aider à créer un processus de science des données efficace.
  • Crée un dépôt d’utilitaire et l’alimente à l’aide du dépôt d’utilitaires développé par l’équipe TDSP de Microsoft. Le dépôt d’utilitaires TDSP de Microsoft fournit un ensemble d’utilitaires pour améliorer l’efficacité du travail d’un scientifique des données. Le dépôt d’utilitaires de Microsoft comprend des utilitaires pour l’exploration interactive des données, l’analyse, la création de rapports ainsi que la modélisation et la création de rapports de base.

  • Configure la stratégie de contrôle de la sécurité pour le compte de l’organisation.

Pour plus d’informations, consultez la rubrique Tâches du responsable de groupe pour une équipe de science des données.

Tâches du responsable d’équipe

Le responsable d’équipe ou un administrateur de projet désigné effectue les tâches suivantes afin d’adopter TDSP :

  • Crée un projet d’équipe dans l’organisation Azure DevOps du groupe.

  • Crée le dépôt de modèles du projet dans le projet, puis l’alimente à l’aide du dépôt de modèle de projet de groupe configuré par le responsable de groupe ou un délégué.

  • Crée le dépôt d’utilitaire d’équipe, l’alimente à l’aide du dépôt d’utilitaire de groupe et y ajoute des utilitaires spécifiques à l’équipe.

  • Crée éventuellement un stockage de fichiers Azure afin de stocker des ressources de données utiles pour l’équipe. D’autres membres de l’équipe peuvent monter ce magasin de fichiers partagés cloud sur leur bureau d’analyse.

  • (Facultatif) Monte le stockage de fichiers Azure sur la Data Science Virtual Machine de l’équipe, et y ajoute des ressources de données.

  • Configure le contrôle de sécurité en ajoutant des membres d’équipe et en configurant leurs autorisations.

Pour plus d’informations, consultez la rubrique Tâches du responsable d’une équipe de science des données.

Tâches du coordinateur de projet

Le coordinateur de projet effectue les tâches suivantes pour adopter TDSP :

  • Crée un dépôt de projet dans le projet d’équipe et l’alimente à l’aide du dépôt du modèle de projet.

  • Crée éventuellement un stockage de fichiers Azure afin de stocker les ressources de données du projet.

  • (Facultatif) Monte le stockage de fichiers Azure sur la Data Science Virtual Machine, et y ajoute des ressources de données de projet.

  • Configure le contrôle de sécurité en ajoutant des membres de projet et en configurant leurs autorisations.

Pour plus d’informations, consultez la rubrique Tâches du coordinateur de projet pour une équipe de science des données.

Tâches du contributeur individuel de projet

Le contributeur individuel de projet, généralement un scientifique des données, effectue les tâches suivantes à l’aide du TDSP :

  • Clone le dépôt de projet configuré par le responsable de projet.

  • Monte éventuellement le stockage de fichiers Azure partagé de l’équipe et du projet sur leur Data Science Virtual Machine.

  • Exécute le projet.

Pour plus d’informations, consultez la rubrique Tâches d’un contributeur individuel de projet pour une équipe de science des données.

Workflow d’exécution du projet de science des données

Les scientifiques des données, les coordinateurs de projet et les responsables d’équipe peuvent créer des éléments de travail afin d’effectuer le suivi de toutes les tâches et phases du projet du début à la fin. La figure suivante présente le workflow TDSP pour l’exécution du projet :

Diagram that shows the typical data science project workflow.

Les étapes du workflow peuvent être regroupées en trois activités :

  • Les coordinateurs de projet effectuent la planification des sprints.

  • Les scientifiques des données développent des artefacts sur les branches git pour traiter les éléments de travail.

  • Les coordinateurs de projet ou d’autres membres de l’équipe effectuent des révisions du code et fusionnent les branches de travail dans la branche principale.

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteur principal :

Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.