Aquisição de dados e etapa de reconhecimento do Processo de Ciência de Dados da Equipe

Este artigo descreve as metas, as tarefas e os resultados associados ao estágio de aquisição de dados e entendimento do TDSP (Processo de Ciência de Dados da Equipe). Esse processo fornece um ciclo de vida recomendado que a sua equipe pode usar para estruturar seus projetos de ciência de dados. O ciclo de vida descreve os principais estágios que sua equipe executa, geralmente de forma iterativa:

  • Noções básicas sobre negócios
  • Aquisição de dados e entendimento
  • Modelagem
  • Implantação
  • Aceitação do cliente

Esta é uma representação visual do ciclo de vida do TDSP:

Diagram that shows the stages of the TDSP lifecycle.

Metas

Os objetivos da etapa de aquisição e reconhecimento de dados são:

  • Produzir um conjunto de dados limpo e de alta qualidade que se relacione claramente com as variáveis de destino. Localizar o conjunto de dados no ambiente de análise apropriado para que sua equipe esteja pronta para o estágio de modelagem.

  • Desenvolva uma arquitetura da solução do pipeline de dados que atualize e pontua os dados regularmente.

Como concluir as tarefas

A etapa de aquisição e reconhecimento de dados tem três tarefas principais:

  • Ingestão de dados no ambiente de análise da meta.

  • Exploração dos dados para determinar se eles podem responder à pergunta.

  • Configuração de um pipeline de dados para pontuar dados novos ou atualizados regularmente.

Ingerir dados

Configure um processo para mover dados dos locais de origem para os locais de destino em que você executa operações de análise, como treinamento e previsões.

Explorar dados

Antes de treinar seus modelos, você precisa desenvolver uma compreensão total dos dados. Em geral, conjuntos de dados do mundo real apresentam ruído, são valores ausentes ou têm uma série de outras discrepâncias. É possível usar o resumo e a visualização de dados para auditar a qualidade dos dados e reunir informações para processá-los antes que estejam prontos para modelagem. Esse processo costuma ser iterativo. Para obter diretrizes sobre como limpar os dados, consulte Tarefas para preparar dados para o machine learning avançado.

Depois que você estiver satisfeito com a qualidade dos dados limpos, a próxima etapa será entender melhor os padrões dos dados. Essa análise de dados ajuda você a escolher e desenvolver um modelo preditivo apropriado para seu destino. Determine o quanto os dados correspondem à meta. Em seguida, determine se a sua equipe tem dados suficientes para passar para as próximas etapas de modelagem. Novamente, esse processo costuma ser iterativo. Talvez você precise encontrar novas fontes de dados que tenham dados mais precisos ou mais relevantes para ajustar o conjunto de dados inicialmente identificado no estágio anterior.

Configurar um pipeline de dados

Além de ingerir e limpar os dados, normalmente, você precisa configurar um processo para pontuar novos dados ou atualizar os dados regularmente como parte de um processo de aprendizado contínuo. Você pode usar um pipeline de dados ou fluxo de trabalho para pontuar dados. Recomendamos um pipeline que use o Azure Data Factory.

Neste estágio, você desenvolverá uma arquitetura da solução do pipeline de dados. Você cria o pipeline em paralelo com o próximo estágio do projeto de ciência de dados. Dependendo das suas necessidades de negócios e das restrições dos seus sistemas existentes aos quais esta solução está sendo integrada, o pipeline poderá ser:

  • Baseado em lote
  • Streaming ou tempo real
  • Híbrido

Integração com o MLflow

Durante a fase de reconhecimento de dados, você pode usar o rastreamento de experimentos do MLflow para rastrear e documentar várias estratégias de pré-processamento de dados e análise exploratória de dados.

Artifacts

Nesta etapa, sua equipe entrega:

  • Um relatório de qualidade de dados que inclui resumos de dados, as relações entre cada atributo e o destino, classificação de variável e mais.

  • Uma arquitetura de solução, como um diagrama ou descrição do pipeline de dados que sua equipe usa para executar previsões em novos dados. Este diagrama também contém o pipeline para treinar novamente seu modelo com base nos novos dados. Ao usar o modelo de estrutura de diretório TDSP, armazene o documento no diretório do projeto.

  • Decisão de um ponto de verificação. Antes de começar a engenharia de recursos completos e a criação do modelo, é possível reavaliar o projeto para determinar se o valor esperado é suficiente para continuar investindo nele. Por exemplo, talvez você esteja pronto para continuar, precise coletar mais dados ou abandone o projeto, se você não conseguir encontrar dados que respondam às perguntas..

Literatura revisada por pares

Os pesquisadores publicam estudos sobre o TDSP em literatura revisada por pares. As citações fornecem uma oportunidade para investigar outras aplicações ou ideias semelhantes ao TDSP, incluindo o estágio do ciclo de vida de obtenção de dados e reconhecimento.

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.

Autor principal:

Para ver perfis não públicos do LinkedIn, entre no LinkedIn.

Estes artigos descrevem os outros estágios do ciclo de vida do TDSP: