Tarefas e funções no Processo de Ciência de Dados de Equipe

O TDSP (Processo de Ciência de Dados de Equipe) é uma estrutura desenvolvida pela Microsoft que oferece uma metodologia estruturada para criar, com eficiência, soluções de análise preditiva e de aplicativos inteligentes. Este artigo descreve as principais funções dos membros da equipe e das tarefas associadas que são realizadas por uma equipe de ciência de dados com a padronização nesse processo.

Um ambiente compatível com Git é sugerido para complementar os artefatos MLflow armazenados no Azure Machine Learning. O Azure Machine Learning integra-se aos repositórios Git, para que você possa usar muitos serviços compatíveis com git, como GitHub, GitLab, Bitbucket, Azure DevOps ou qualquer outro serviço compatível com Git.

Estrutura de equipes e grupos de ciência de dados

As funções de ciência de dados em empresas geralmente são geralmente organizadas nesta hierarquia:

  • Grupo de ciência de dados
  • Equipes de ciência de dados no grupo

Em tal estrutura, há líderes de grupo e de equipe. Normalmente, uma equipe de ciência de dados conduz um projeto de ciência de dados. As equipes de ciência de dados têm líderes de projeto para tarefas de gerenciamento de projeto e de governança, além de cientistas e engenheiros individuais para realizar as partes do projeto referentes a ciência de dados e engenharia de dados. O grupo, a equipe ou os líderes do projeto realizam a configuração inicial e a governança do projeto.

Definição e tarefas das quatro funções do TDSP

Supondo que a unidade de ciência de dados consiste em equipes dentro de um grupo, há quatro funções para a equipe de TDSP:

  • Gerente de grupo: gerencia toda a unidade de ciência de dados em uma empresa. Uma unidade de ciência de dados pode ter várias equipes, onde cada uma trabalha em vários projetos de ciência de dados em áreas comerciais distintas. Um gerente de grupo pode delegar suas tarefas a um substituto, mas as tarefas associadas à função não são alteradas.

  • Líder de equipe: gerencia uma equipe na unidade de ciência de dados de uma empresa. Uma equipe consiste em cientistas de dados. Em uma unidade de ciência de dados pequena, o gerente de grupo e o líder de equipe podem ser a mesma pessoa.

  • Líder de projetos: gerencia as atividades diárias de cientistas de dados em um projeto de ciência de dados específico.

  • Colaboradores individuais do projeto: cientistas de dados, analistas de negócios, engenheiros de dados, arquitetos e outros que executam um projeto de ciência de dados.

Observação

Dependendo da estrutura e do tamanho de uma empresa, uma única pessoa pode desempenhar mais de uma função ou pode haver mais de uma pessoa em uma função.

Tarefas para as quatro funções

O diagrama a seguir mostra as tarefas de nível superior para cada função TDSP. Esta visão geral e o resumo a seguir mostram as tarefas de cada função do TDSP e podem ajudar você a escolher o tutorial ideal para você segundo suas responsabilidades.

Diagram that shows an overview of the roles and tasks.

Tarefas do gerente de grupo

O gerente de grupo ou um administrador do sistema de TDSP designado realiza as seguintes tarefas para adotar o TDSP:

  • Cria uma organização do Azure DevOps e um projeto de grupo dentro da organização.

  • Cria um repositório de modelos de projeto no projeto do grupo no Azure DevOps e o preenche com o repositório de modelos de projeto elaborado pela equipe de TDSP da Microsoft. O repositório de modelos de projeto do TDSP da Microsoft oferece:

    • Uma estrutura de diretórios padronizada incluindo diretórios para dados, código e documentos.
    • Um conjunto de modelos de documento padronizados para orientar um processo de ciência de dados eficiente.
  • Cria um repositório de utilitários e o propaga do repositório de utilitários desenvolvido pela equipe de TDSP da Microsoft. O repositório de utilitários de TDSP da Microsoft contém um conjunto de utilitários úteis para tornar o trabalho de cientistas de dados mais eficiente. O repositório de utilitários da Microsoft inclui utilitários para exploração de dados interativa, análise, relatórios e modelagem de linha de base e relatórios.

  • Configura a política de controle de segurança para a conta da organização.

Para obter mais informações, consulte Tarefas do gerente de grupo em uma equipe de ciência de dados.

Tarefas do líder da equipe

O líder da equipe ou um administrador de projeto designado realiza as seguintes tarefas para adotar o TDSP:

  • Crie um projeto de equipe na organização do grupo no Azure DevOps.

  • Cria o repositório de modelos de projeto no projeto e o propaga do repositório de modelos de projeto de grupo configurado pelo gerente do grupo ou pelo delegado.

  • Cria o repositório do utilitário de equipe, propaga-o do repositório do utilitário de grupo e adiciona utilitários específicos da equipe ao repositório.

  • Opcionalmente, cria o armazenamento de arquivos do Azure para armazenar ativos de dados úteis para a equipe. Outros membros da equipe podem montar esse armazenamento de arquivo de nuvem compartilhado em suas áreas de trabalho de análise.

  • Opcionalmente monta o armazenamento de arquivos do Azure para a máquina virtual de ciência de dados do líder da equipe e adicione ativos de dados nele.

  • Configura o controle de segurança adicionando membros da equipe e configurando as permissões.

Para obter mais informações, consulte Tarefas do líder de equipe em uma equipe de ciência de dados.

Tarefas do líder de projetos

O líder do projeto realiza as seguintes tarefas para aderir ao TDSP:

  • Cria um repositório do projeto no projeto de equipe e o propaga do repositório de modelos de projeto.

  • Opcionalmente, cria o armazenamento de arquivos do Azure para armazenar os ativos de dados do projeto.

  • Opcionalmente monta o armazenamento de arquivos do Azure para a máquina virtual de ciência de dados do líder do projeto e adicione ativos de dados nele.

  • Configura o controle de segurança adicionando membros do projeto e configurando as permissões.

Para obter mais informações, consulte Tarefas do líder de projeto em uma equipe de ciência de dados.

Tarefas do colaborador individual do projeto

O colaborador individual do projeto, geralmente um cientista de dados, realiza as seguintes tarefas usando o TDSP:

  • Clona o repositório do projeto configurado pelo líder de projeto.

  • Opcionalmente, monta o armazenamento de arquivo do Azure compartilhado da equipe e do projeto na máquina virtual de ciência de dados.

  • Executa o projeto.

Para obter mais informações, consulte Tarefas do colaborador individual do projeto em uma equipe de ciência de dados.

Fluxo de trabalho de execução de projetos de ciência de dados

Cientistas de dados, líderes de projeto e líderes de equipe podem criar itens de trabalho para acompanhar todas as tarefas e estágios do projeto do começo ao fim. A figura a seguir descreve o fluxo de trabalho do TDSP para execução do projeto:

Diagram that shows the typical data science project workflow.

As etapas do fluxo de trabalho podem ser agrupadas em três atividades:

  • Os líderes do projeto conduzem o planejamento do sprint.

  • Cientistas de dados desenvolvem artefatos em ramificações do git para lidar com itens de trabalho.

  • Os líderes do projeto ou outros membros da equipe revisam o código e mesclam as ramificações funcionais à ramificação principal.

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.

Autor principal:

Para ver perfis não públicos do LinkedIn, entre no LinkedIn.