Executar tarefas de ciência de dados: exploração, modelagem e implantação
Em geral, entre as tarefas de ciência de dados, temos: exploração, modelagem e implantação. Este artigo descreve as tarefas que devem realizadas para concluir várias tarefas de ciência de dados comuns como exploração interativa de dados, análise de dados, relatórios e criação de modelo. As opções para implantar um modelo em um ambiente de produção podem incluir:
- Recomendado: Azure Machine Learning
- Possível: SQL Server com serviços de ML
1. Exploração
Um cientista de dados pode realizar exploração e geração de relatórios de várias maneiras: usando bibliotecas e pacotes disponíveis para Python (matplotlib, por exemplo) ou com R (ggplot ou malha, por exemplo). Os cientistas de dados podem personalizar esse código para atender às necessidades de exploração de dados para cenários específicos. As necessidades de lidar com dados estruturados são diferentes daquelas de dados não estruturados, como texto ou imagens.
Produtos como o Azure Machine Learning também fornecem uma preparação avançada de dados para estruturação e exploração de dados, incluindo a criação de recursos. O usuário deve decidir quais ferramentas, bibliotecas e pacotes se ajustam melhor às suas necessidades.
A entrega ao final dessa fase é um relatório de exploração de dados. O relatório deve fornecer uma exibição bastante abrangente dos dados a serem usados para modelagem e uma avaliação de se os dados são adequados para prosseguir para a etapa de modelagem.
2. Modelagem
Há vários kits de ferramentas e pacotes para treinar modelos em diversas linguagens. Os cientistas de dados devem ficar à vontade para usar aqueles com os quais estão acostumados, desde que as considerações de desempenho em relação à precisão e latência sejam atendidas para os casos de uso nos negócios e cenários de produção relevantes.
Gerenciamento de modelos
Depois de vários modelos terem sido compilados, geralmente é necessário ter um sistema para registrar e gerenciar os modelos. Geralmente, é necessária uma combinação de scripts ou APIs e um sistema de controle de versão ou de banco de dados de back-end. O Azure Machine Learning fornece a implantação de modelos ONNX ou a implantação de modelos do ML Flow.
3. Implantação
A implantação de produção permite que um modelo execute uma função ativa em uma empresa. Previsões de um modelo implantado podem ser usadas para decisões de negócios.
Plataformas de produção
Há várias abordagens e plataformas para colocar modelos em produção. Recomendamos a implantação no Azure Machine Learning.
Observação
Antes da implantação, é necessário garantir que a latência da pontuação do modelo seja baixa o suficiente para ser usada em produção.
Testes de A/B
Quando vários modelos estão em produção, pode ser útil executar Testes de A/B para comparar o desempenho dos modelos.
Colaboradores
Esse artigo é mantido pela Microsoft. Ele foi escrito originalmente pelos colaboradores a seguir.
Autor principal:
- Mark Tabladillo | Arquiteto sênior de soluções de nuvem
Para ver perfis não públicos do LinkedIn, entre no LinkedIn.
Próximas etapas
Acompanhar o progresso de projetos de ciência de dados mostra como um cientista de dados pode acompanhar o progresso de um projeto de ciência de dados.
A Operação de modelo e CI/CD mostra como a CI/CD pode ser executada com modelos desenvolvidos.