O que é o Processo de Ciência de Dados de Equipe?

Azure Machine Learning

O TDSP (Processo de Ciência de Dados de Equipe) é uma metodologia de ciência de dados ágil e iterativa que você pode usar para fornecer com eficiência soluções de análise preditiva e de aplicativos inteligentes. O TDSP ajuda a aprimorar a colaboração e o aprendizado da equipe sugerindo como as funções de equipe funcionam melhor em conjunto. O TDSP inclui práticas recomendadas e estruturas da Microsoft e de outros líderes do setor para ajudar sua equipe a implementar com sucesso iniciativas de ciência de dados e aproveitar totalmente os benefícios de seu programa de análise.

Este artigo fornece uma visão geral do TDSP e de seus principais componentes. Ele apresenta orientações sobre como implementar o TDSP usando ferramentas e infraestrutura da Microsoft. Você pode encontrar recursos mais detalhados ao longo do artigo.

Principais componentes do TDSP

O TDSP tem os seguintes componentes principais:

  • Uma definição de ciclo de vida de ciência de dados
  • Uma estrutura de projeto padronizada
  • Infraestrutura e recursos recomendados para projetos de ciência de dados
  • Ferramentas e utilitários recomendados para a execução do projeto

Ciclo de vida de ciência de dados

O TDSP fornece um ciclo de vida que você pode usar para estruturar o desenvolvimento de seus projetos de ciência de dados. O ciclo de vida descreve as etapas completas que projetos bem-sucedidos seguem.

Você pode combinar o TDSP baseado em tarefas com outros ciclos de vida da ciência de dados, como o processo padrão intersetorial para mineração de dados (CRISP-DM), o processo de descoberta de conhecimento em bancos de dados (KDD) ou outro processo personalizado. Em um alto nível, essas metodologias diferentes têm muito em comum.

Você deve usar esse ciclo de vida se tiver um projeto de ciência de dados que faça parte de um aplicativo inteligente. Aplicativos inteligentes implantam modelos de aprendizado de máquina ou IA para análise preditiva. Você também pode usar este processo para projetos de ciência de dados exploratórios e os projetos de análise improvisados.

O ciclo de vida do TDSP é composto por cinco estágios principais que sua equipe executa de forma iterativa. Esses estágios incluem:

Esta é uma representação visual do ciclo de vida do TDSP:

Diagram that shows the stages of the TDSP lifecycle.

Para obter informações sobre as metas, tarefas e artefatos de documentação para cada estágio, consulte O ciclo de vida do Processo de Ciência de Dados de Equipe.

Essas tarefas e artefatos estão associados a funções do projeto, por exemplo:

  • Arquiteto de solução.
  • Gerente de projeto.
  • Engenheiro de dados.
  • Cientista de dados.
  • Desenvolvedor de aplicativo.
  • Líder de projeto.

O diagrama exibe as tarefas (em azul), e os artefatos (em verde) associados a cada estágio do ciclo de vida (no eixo horizontal) para essas funções (no eixo vertical).

Diagram that shows the tasks and artifacts for each stage.

Estrutura de projeto padronizada

Sua equipe pode usar a infraestrutura do Azure para organizar seus ativos de ciência de dados.

O Azure Machine Learning dá suporte ao MLflow de código aberto. Recomendamos o uso do MLflow para ciência de dados e gerenciamento de projetos de IA. O MLflow foi projetado para gerenciar o ciclo de vida completo do aprendizado de máquina. Ele treina e serve modelos em diferentes plataformas, para que você possa usar um conjunto consistente de ferramentas, independentemente de onde seus experimentos são executados. Você pode usar o MLflow localmente em seu computador, em um destino de computação remoto, em uma máquina virtual ou em uma instância de computação do Machine Learning.

O MLflow consiste em várias funcionalidades principais:

  • Acompanhar experimentos: com o MLflow, você pode acompanhar os experimentos, incluindo parâmetros, versões de código, métricas e arquivos de saída. Esse recurso ajuda você a comparar diferentes execuções e gerenciar o processo de experimentação de forma eficiente.

  • Código do pacote: ele oferece um formato padronizado para empacotar código de aprendizado de máquina, que inclui dependências e configurações. Esse empacotamento facilita a reprodução de execuções e o compartilhamento de código com outras pessoas.

  • Gerenciar modelos: o MLflow fornece funcionalidades para gerenciamento e controle de versão de modelos. Ele oferece suporte a várias estruturas de aprendizado de máquina, para que você possa armazenar e fornecer modelos, bem como controlar suas versões.

  • Fornecer e implantar modelos: o MLflow integra recursos de serviço e implantação de modelos, para que você possa implantar modelos facilmente em diversos ambientes.

  • Registrar modelos: você pode gerenciar o ciclo de vida de um modelo, incluindo controle de versão, transições de estágio e anotações. O MLflow é útil para manter um repositório de modelo centralizado em um ambiente colaborativo.

  • Use uma API e uma interface do usuário: dentro do Azure, o MLflow é empacotado na API do Machine Learning versão 2, para que você possa interagir com o sistema programaticamente. Você pode usar o portal do Azure para interagir com uma interface do usuário.

O MLflow tem como objetivo simplificar e padronizar o processo de desenvolvimento de aprendizado de máquina, desde a experimentação até a implantação.

O Machine Learning integra-se aos repositórios Git, portanto, você possa usar muitos serviços compatíveis com git: GitHub, GitLab, Bitbucket, Azure DevOps ou outro serviço compatível com Git. Além dos ativos já rastreados no Machine Learning, sua equipe pode desenvolver sua própria taxonomia dentro de seu serviço compatível com Git para armazenar outras informações do projeto, como:

  • Documentação
    • Projeto, por exemplo, o relatório final do projeto
    • Relatório de dados, por exemplo, o dicionário de dados ou relatórios de qualidade de dados
    • Modelo, por exemplo, relatórios de modelo
  • Código
    • Preparação de dados
    • Desenvolvimento do modelo
    • Operacionalização, incluindo segurança e conformidade

Infraestrutura e recursos

O TDSP fornece recomendações para o gerenciamento de infraestrutura compartilhada de análise e armazenamento, como:

  • Sistemas de arquivos de nuvem para armazenar conjuntos de dados
  • Bancos de dados
  • Clusters de Big Data, por exemplo, SQL ou Spark
  • Serviços de aprendizado de máquina

Você pode colocar a infraestrutura de análise e armazenamento, onde os conjuntos de dados brutos e processados são armazenados, na nuvem ou localmente. Essa infraestrutura permite a reprodução da análise. Isso também evita duplicação, o que pode resultar em inconsistências e custos de infraestrutura desnecessários. A infraestrutura tem ferramentas para provisionar os recursos compartilhados, acompanhá-los e permitir que cada membro da equipe se conecte a esses recursos com segurança. Também é uma prática recomendada que os membros do projeto criem um ambiente de computação consistente. Vários membros da equipe podem replicar e validar experiências.

Confira um exemplo de uma equipe que trabalha em vários projetos e compartilha vários componentes da infraestrutura de análise em nuvem:

Diagram that shows the infrastructure of a team.

Ferramentas e utilitários

Na maioria das organizações, é um desafio introduzir processos. A infraestrutura fornece ferramentas para implementar o TDSP e o ciclo de vida ajuda a reduzir as barreiras e a aumentar a consistência da sua adoção.

Com o Machine Learning, os cientistas de dados podem aplicar ferramentas de código aberto como parte do pipeline ou fluxo de trabalho de ciência de dados. Dentro do Machine Learning, a Microsoft promove ferramentas de IA responsável, o que ajuda a alcançar o Padrão de IA Responsável da Microsoft.

Citações revisadas por pares

O TDSP é uma metodologia bem estabelecida usada em todos os contratos da Microsoft e, portanto, foi documentada e estudada na literatura revisada por pares. Essas citações fornecem uma oportunidade de investigar as características e aplicações do TDSP. Consulte a página de visão geral do ciclo de vida para obter uma lista de citações.

Tarefas e funções no Processo de Ciência de Dados de Equipe