O que é o Processo de Ciência de Dados de Equipa?

Azure Machine Learning

O Team Ciência de Dados Process (TDSP) é uma metodologia de ciência de dados ágil e iterativa para fornecer de forma eficiente soluções de análise preditiva e aplicações inteligentes. O TDSP ajuda a melhorar a colaboração e a aprendizagem da equipa ao sugerir como as funções de equipa funcionam melhor em conjunto. O TDSP inclui melhores práticas e estruturas da Microsoft e de outros líderes do setor para ajudar na implementação bem-sucedida de iniciativas de ciência de dados. O objetivo é ajudar as empresas a atingir todo o potencial dos benefícios dos respetivos programas de análise.

Este artigo fornece uma descrição geral do TDSP e dos respetivos componentes principais. Fornecemos uma descrição genérica do processo aqui que pode ser implementado com diferentes tipos de ferramentas. É fornecida uma descrição mais detalhada das tarefas e funções do projeto envolvidas no ciclo de vida do processo em tópicos ligados adicionais. Também são fornecidas orientações sobre como implementar o TDSP com um conjunto específico de ferramentas e infraestruturas da Microsoft que utilizamos para implementar o TDSP nas nossas equipas.

Componentes principais do TDSP

O TDSP tem os seguintes componentes principais:

  • Uma definição de ciclo de vida da ciência de dados
  • Uma estrutura de projeto padronizada
  • Infraestrutura e recursos recomendados para projetos de ciência de dados
  • Ferramentas e utilitários recomendados para a execução do projeto

Ciclo de vida da ciência de dados

O Team Ciência de Dados Process (TDSP) fornece um ciclo de vida para estruturar o desenvolvimento dos seus projetos de ciência de dados. O ciclo de vida descreve os passos completos que os projetos com êxito seguem.

Se estiver a utilizar outro ciclo de vida de ciência de dados, como CRISP-DM, KDD ou o processo personalizado da sua própria organização, ainda pode utilizar o TDSP baseado em tarefas no contexto desses ciclos de vida de desenvolvimento. A um nível elevado, estas diferentes metodologias têm muito em comum.

Este ciclo de vida foi concebido para projetos de ciência de dados que são enviados como parte de aplicações inteligentes. Estas aplicações implementam modelos de machine learning ou inteligência artificial para análise preditiva. Os projetos exploratórios de ciência de dados ou projetos de análise improvisado também podem beneficiar da utilização deste processo. Mas, nesses casos, alguns dos passos descritos podem não ser necessários.

O ciclo de vida descreve as principais fases que os projetos normalmente executam, muitas vezes iterativamente:

  • Business Understanding
  • Aquisição e Compreensão de Dados
  • Modelação
  • Implementação

Eis uma representação visual do ciclo de vida do Processo Ciência de Dados de Equipa.

O diagrama mostra o ciclo de vida da ciência de dados, incluindo compreensão empresarial, aquisição/compreensão de dados, modelação e implementação.

Os objetivos, tarefas e artefactos de documentação para cada fase do ciclo de vida no TDSP são descritos no tópico Ciclo de vida do Processo de Ciência de Dados de Equipa. Estas tarefas e artefactos estão associados a funções de projeto:

  • Arquiteto de soluções
  • Gestor do projeto
  • Engenheiro de dados
  • Cientista de dados
  • Programador de aplicações
  • Líder de projeto

O diagrama seguinte fornece uma vista de grelha das tarefas (a azul) e dos artefactos (a verde) associados a cada fase do ciclo de vida (no eixo horizontal) para estas funções (no eixo vertical).

TDSP-roles-and-tasks

Estrutura de projeto padronizada

Ter todos os projetos a partilhar uma estrutura de diretório e a utilizar modelos para documentos de projeto torna mais fácil para os membros da equipa encontrar informações sobre os respetivos projetos. Todos os códigos e documentos são armazenados num sistema de controlo de versões (VCS), como Git, TFS ou Subversion, para permitir a colaboração em equipa. Controlar tarefas e funcionalidades num sistema ágil de controlo de projetos, como Jira, Rally e Azure DevOps, permite um controlo mais aprofundado do código para funcionalidades individuais. Este controlo também permite que as equipas obtenham melhores estimativas de custos. O TDSP recomenda a criação de um repositório separado para cada projeto no VCS para controlo de versões, segurança de informações e colaboração. A estrutura padronizada para todos os projetos ajuda a criar conhecimentos institucionais em toda a organização.

Fornecemos modelos para a estrutura de pastas e documentos necessários em localizações padrão. Esta estrutura de pastas organiza os ficheiros que contêm código para exploração de dados e extração de funcionalidades e que registam iterações de modelos. Estes modelos facilitam a compreensão do trabalho realizado por outras pessoas e a adição de novos membros às equipas. É fácil ver e atualizar modelos de documentos no formato markdown. Utilize modelos para fornecer listas de verificação com perguntas-chave para cada projeto para garantir que o problema está bem definido e que os materiais a entregar cumprem a qualidade esperada. Os exemplos incluem:

  • uma carta de projeto para documentar o problema empresarial e o âmbito do projeto
  • relatórios de dados para documentar a estrutura e as estatísticas dos dados não processados
  • relatórios de modelo para documentar as funcionalidades derivadas
  • métricas de desempenho do modelo, como curvas ROC ou MSE

TDSP-directories

A estrutura do diretório pode ser clonada a partir do GitHub.

Infraestrutura e recursos para projetos de ciência de dados

O TDSP fornece recomendações para gerir a infraestrutura de armazenamento e análise partilhada, tais como:

  • sistemas de ficheiros na cloud para armazenar conjuntos de dados
  • Bases de dados
  • clusters de macrodados (SQL ou Spark)
  • serviço de machine learning

A infraestrutura de análise e armazenamento, onde os conjuntos de dados processados e não processados são armazenados, pode estar na cloud ou no local. Esta infraestrutura permite uma análise reproduzível. Também evita a duplicação, o que pode levar a inconsistências e custos de infraestrutura desnecessários. São fornecidas ferramentas para aprovisionar os recursos partilhados, controlá-los e permitir que cada membro da equipa se ligue a esses recursos de forma segura. Também é uma boa prática fazer com que os membros do projeto criem um ambiente de computação consistente. Em seguida, diferentes membros da equipa podem replicar e validar experimentações.

Eis um exemplo de uma equipa a trabalhar em vários projetos e a partilhar vários componentes de infraestrutura de análise na cloud.

TDSP-infrastructure

Ferramentas e utilitários para a execução de projetos

A introdução de processos na maioria das organizações é desafiante. As ferramentas fornecidas para implementar o processo de ciência de dados e o ciclo de vida ajudam a reduzir as barreiras e a aumentar a consistência da sua adoção. O TDSP fornece um conjunto inicial de ferramentas e scripts para dar início à adoção do TDSP dentro de uma equipa. Também ajuda a automatizar algumas das tarefas comuns no ciclo de vida da ciência de dados, como a exploração de dados e a modelação de linha de base. Existe uma estrutura bem definida para que os indivíduos contribuam com ferramentas e utilitários partilhados para o repositório de código partilhado da sua equipa. Estes recursos podem então ser aproveitados por outros projetos dentro da equipa ou da organização. A Microsoft fornece ferramentas extensas dentro do Azure Machine Learning que suportam o open source (Python, R, ONNX e arquiteturas comuns de aprendizagem profunda) e também as próprias ferramentas (AutoML) da Microsoft.

Passos seguintes

Processo de Ciência de Dados de Equipa: Funções e tarefas Descreve as principais funções de pessoal e as respetivas tarefas associadas para uma equipa de ciência de dados que uniformiza este processo.