Operações de aprendizado de máquina( MLOps) v2

Artigo
10/05/2023

Este artigo descreve três arquiteturas do Azure para operações de aprendizado de máquina. Todos eles têm CI (integração contínua), CD (entrega contínua) e pipelines de retreinamento de ponta a ponta. As arquiteturas são para esses aplicativos de IA:

Aprendizado de máquina clássico
Pesquisa visual computacional (CV)
NLP (processamento de linguagem natural)

As arquiteturas são o produto do projeto MLOps v2. Elas incorporam as práticas recomendadas que os arquitetos de solução descobriram no processo de criação de várias soluções de aprendizado de máquina. O resultado são padrões implantáveis, repetíveis e sustentáveis, conforme descrito aqui.

Todas as arquiteturas usam o serviço do Azure Machine Learning.

Para obter uma implementação com modelos de implantação de exemplo para o MLOps v2, consulte o acelerador de solução do Azure MLOps (v2) no GitHub.

Possíveis casos de uso

Aprendizado de máquina clássico: previsão, regressão e classificação de série temporal em dados estruturados tabulares são os casos de uso mais comuns nessa categoria. São exemplos:
- Classificação binária e de vários rótulos
- Regressões linear, polinomial, de ridge, de laço, quantílica e bayesiana
- ARIMA, autoregressiva (AR), SARIMA, VAR, SES, LSTM
CV: A estrutura de MLOps apresentada aqui concentra-se principalmente nos casos de uso de CV de segmentação e classificação de imagem.
NLP: essa estrutura do MLOps pode implementar qualquer um desses casos de uso e outros não listados:
- Reconhecimento de entidade nomeada
- Classificação de texto
- Geração de texto
- Análise de sentimento
- Tradução
- Respostas às perguntas
- Resumo
- Detecção de sentenças
- Detecção de idioma
- Marcação de parte do discurso

Simulações, aprendizado de reforço profundo e outras formas de IA não são abordados por este artigo.

Arquitetura

O padrão de arquitetura do MLOps v2 é composto por quatro elementos modulares principais que representam essas fases do ciclo de vida do MLOps:

Acervo de dados
Administração e configuração
Desenvolvimento de modelo (loop interno)
Implantação de modelo (loop externo)

Esses elementos, as relações entre eles e as personas normalmente associadas a eles são comuns para todas as arquiteturas de cenários do MLOps v2. Pode haver variações nos detalhes de cada um, dependendo do cenário.

A arquitetura base do MLOps v2 para Machine Learning é o cenário clássico de aprendizado de máquina em dados tabulares. As arquiteturas CV e NLP se baseiam nessa arquitetura base e modificam.

Arquiteturas atuais

As arquiteturas atualmente abordadas pelo MLOps v2 e discutidas neste artigo são:

Arquitetura do aprendizado de máquina clássico
Arquitetura CV do Machine Learning
Arquitetura NLP do Machine Learning

Arquitetura do aprendizado de máquina clássico

Baixe um Arquivo Visio dessa arquitetura.

Fluxo de trabalho para a arquitetura do aprendizado de máquina clássico

Acervo de dados

Esse elemento ilustra o patrimônio de dados da organização e as possíveis fontes e destinos de dados para um projeto de ciência de dados. Os engenheiros de dados são os principais proprietários desse elemento do ciclo de vida do MLOps v2. As plataformas de dados do Azure neste diagrama não são completas nem prescritivas. As fontes e destinos de dados que representam as melhores práticas recomendadas com base no caso de uso do cliente são indicados por uma marca de seleção verde.
Administração e configuração

Esse elemento é a primeira etapa na implantação do acelerador MLOps v2. Ele consiste em todas as tarefas relacionadas à criação e gerenciamento de recursos e funções associadas ao projeto. Elas podem incluir as seguintes tarefas e, talvez, outras:
1. Criação de repositórios de código-fonte do projeto
2. Criação de workspaces do Machine Learning usando Bicep ou Terraform
3. Criação ou modificação de conjuntos de dados e recursos de computação usados para desenvolvimento e implantação de modelos
4. Definição de usuários da equipe de projeto, suas funções e controles de acesso a outros recursos
5. Criação de pipelines de CI/CD
6. Criação de monitores para coleta e notificação de métricas de modelo e infraestrutura
A principal persona associada a essa fase é a equipe de infraestrutura, mas também pode haver engenheiros de dados, engenheiros de aprendizado de máquina e cientistas de dados.
Desenvolvimento de modelo (loop interno)

O elemento de loop interno consiste no fluxo de trabalho de ciência de dados iterativo que atua dentro de um workspace dedicado e seguro do Machine Learning. Um fluxo de trabalho típico é ilustrado no diagrama. Ele vai da ingestão de dados, análise de dados exploratórias, experimentação, desenvolvimento e avaliação de modelos até o registro de um candidato a modelo para produção. Esse elemento modular, conforme implementado no acelerador MLOps v2, é independente e adaptável ao processo que sua equipe de ciência de dados usa para desenvolver modelos.

As personas associadas a essa fase incluem cientistas de dados e engenheiros de aprendizado de máquina.
Registros do Machine Learning

Depois que a equipe de ciência de dados desenvolver um modelo que seja um candidato para implantação em produção, o modelo poderá ser registrado no registro do workspace do Machine Learning. Os pipelines de CI que são disparados, automaticamente por registro de modelo ou por aprovação human-in-the-loop fechada, promovem o modelo e quaisquer outras dependências de modelo para a fase de implantação do modelo.

Personas associadas a esse estágio normalmente são engenheiros de aprendizado de máquina.
Implantação de modelo (loop externo)

A fase de implantação de modelo ou loop externo consiste no processo de preparo e teste de pré-produção, implantação de produção e monitoramento de modelo, dados e infraestrutura. Os pipelines de CD gerenciam a promoção do modelo e dos ativos relacionados por meio da produção, monitoramento e possível retreinamento à medida que os critérios apropriados para sua organização e caso de uso são atendidos.

Personas associadas a essa fase são principalmente engenheiros de aprendizado de máquina.
Processo de preparo e teste

A fase de processo de preparo e teste pode variar com as práticas do cliente, mas normalmente inclui operações como retreinamento e teste do candidato a modelo em dados de produção, implantações de teste para desempenho de ponto de extremidade, verificações de qualidade de dados, teste de unidade e verificações de IA responsável para identificar vieses de modelos e de dados. Essa fase ocorre em um ou mais workspaces dedicados e seguros do Machine Learning.
Implantação de produção

Depois que um modelo passa na fase de preparo e teste, ele pode ser promovido à produção usando uma aprovação fechada human-in-the-loop. As opções de implantação de modelo incluem um ponto de extremidade em lote gerenciado para cenários de lote ou, para cenários online quase em tempo real, um ponto de extremidade online gerenciado ou uma implantação do Kubernetes usando o Azure Arc. Normalmente, a produção ocorre em um ou mais workspaces dedicados e seguros do Machine Learning.
Monitoramento

O monitoramento do processo de preparo, teste e produção possibilita coletar métricas e agir sobre as alterações no desempenho do modelo, dos dados e da infraestrutura. O monitoramento de modelos e dados pode incluir verificação do descompasso de modelo e de dados, desempenho do modelo em novos dados e problemas de IA responsável. O monitoramento de infraestrutura pode observar a resposta lenta do ponto de extremidade, a capacidade de computação inadequada ou problemas de rede.
Monitoramento de dados e modelos: eventos e ações

Com base em critérios para questões preocupantes relativas a modelo e dados como limites de métrica ou agendamentos, gatilhos automatizados e notificações podem implementar ações apropriadas a serem tomadas. Isso pode ser regularmente agendado usando um treinamento automatizado do modelo em dados de produção mais recentes e um loopback para preparo e teste para avaliação de pré-produção. Ou pode ser devido a gatilhos em problemas de modelo ou dados que exigem um loopback para a fase de desenvolvimento do modelo em que os cientistas de dados podem investigar e potencialmente desenvolver um novo modelo.
Monitoramento de infraestrutura: eventos e ações

Com base em critérios de questões de infraestrutura preocupantes, como atraso de resposta de ponto de extremidade ou computação insuficiente para a implantação, gatilhos automatizados e notificações podem implementar ações apropriadas a serem tomadas. Eles disparam um loopback para a fase de instalação e administração, na qual a equipe de infraestrutura pode investigar e potencialmente reconfigurar os recursos de computação e rede.

Arquitetura de CV do Machine Learning

Baixe um Arquivo Visio dessa arquitetura.

Fluxo de trabalho para a arquitetura de CV

A arquitetura de CV do Machine Learning baseia-se na arquitetura de aprendizado de máquina clássica, mas tem modificações que são particulares para cenários de CV supervisionados.

Acervo de dados

Esse elemento ilustra o patrimônio de dados da organização e possíveis fontes e destinos de dados para um projeto de ciência de dados. Os engenheiros de dados são os principais proprietários desse elemento do ciclo de vida do MLOps v2. As plataformas de dados do Azure neste diagrama não são completas nem prescritivas. As imagens para cenários de CV podem vir de várias fontes de dados diferentes. Para obter eficiência ao desenvolver e implantar modelos de CV com o Machine Learning, as fontes de dados recomendadas do Azure para imagens são o Armazenamento de Blobs do Azure e o Azure Data Lake Storage.
Administração e configuração

Esse elemento é a primeira etapa na implantação do acelerador MLOps v2. Ele consiste em todas as tarefas relacionadas à criação e gerenciamento de recursos e funções associadas ao projeto. Para cenários de CV, a administração e a instalação do ambiente do MLOps v2 são praticamente iguais ao aprendizado de máquina clássico, mas com uma etapa adicional: criar projetos de rotulagem e anotação de imagem usando o recurso de rotulagem do Machine Learning ou outra ferramenta.
Desenvolvimento de modelo (loop interno)

O elemento de loop interno consiste no fluxo de trabalho de ciência de dados iterativo executado em um workspace dedicado e seguro do Machine Learning. A principal diferença entre esse fluxo de trabalho e o cenário clássico de aprendizado de máquina é que a rotulagem e a anotação de imagem são um elemento-chave desse loop de desenvolvimento.
Registros do Machine Learning

Depois que a equipe de ciência de dados desenvolver um modelo que seja um candidato para implantação em produção, o modelo poderá ser registrado no registro do workspace do Machine Learning. Os pipelines de CI que são disparados automaticamente pelo registro do modelo ou pela aprovação human-in-the-loop promovem o modelo e quaisquer outras dependências de modelo para a fase de implantação do modelo.
Implantação de modelo (loop externo)

A fase de implantação de modelo ou loop externo consiste no processo de preparo e teste de pré-produção, implantação de produção e monitoramento de modelo, dados e infraestrutura. Os pipelines de CD gerenciam a promoção do modelo e dos ativos relacionados por meio de produção, monitoramento e possível retreinamento como critérios apropriados para sua organização e caso de uso são atendidos.
Processo de preparo e teste

A fase de preparo e teste pode variar com as práticas do cliente, mas normalmente inclui operações como implantações de teste para desempenho de ponto de extremidade, verificações de qualidade de dados, teste de unidade e verificações de IA responsável para identificar vieses de modelos e de dados. Para cenários de CV, o retreinamento do candidato a modelo em dados de produção pode ser omitido devido a restrições de recursos e tempo. Em vez disso, a equipe de ciência de dados pode usar dados de produção para o desenvolvimento de modelos e o candidato a modelo registrado no loop de desenvolvimento é o modelo avaliado para produção. Essa fase ocorre em um ou mais workspaces dedicados e seguros do Machine Learning.
Implantação de produção

Depois que um modelo passa na fase de preparo e teste, ele pode ser promovido para a produção por meio de aprovações fechadas human-in-the-loop. As opções de implantação de modelo incluem um ponto de extremidade em lote gerenciado para cenários de lote ou, para cenários online quase em tempo real, um ponto de extremidade online gerenciado ou uma implantação do Kubernetes usando o Azure Arc. Normalmente, a produção ocorre em um ou mais workspaces dedicados e seguros do Machine Learning.
Monitoramento

O monitoramento no processo de preparo, no teste e na produção possibilita coletar métricas e agir sobre as alterações no desempenho do modelo, dos dados e da infraestrutura. O monitoramento de modelo e de dados podem incluir a verificação do desempenho do modelo em novas imagens. O monitoramento de infraestrutura pode observar a resposta lenta do ponto de extremidade, a capacidade de computação inadequada ou problemas de rede.
Monitoramento de dados e modelos: eventos e ações

O monitoramento de dados e de modelos e as fases de evento e ação do MLOps para NLP são as principais diferenças do aprendizado de máquina clássico. O retreinamento automatizado normalmente não é feito em cenários de CV quando uma degradação do desempenho do modelo em novas imagens é detectada. Nesse caso, novas imagens nas quais o modelo tem um desempenho ruim devem ser revisadas e anotadas por um processo human-in-the-loop e, muitas vezes, a próxima ação volta para o loop de desenvolvimento do modelo para atualizar o modelo com as novas imagens.
Monitoramento de infraestrutura: eventos e ações

Com base em critérios de questões de infraestrutura preocupantes, como atraso de resposta de ponto de extremidade ou computação insuficiente para a implantação, gatilhos automatizados e notificações podem implementar ações apropriadas a serem tomadas. Isso dispara um loopback para a fase de instalação e administração, na qual a equipe de infraestrutura pode investigar e potencialmente reconfigurar recursos de ambiente, computação e rede.

Arquitetura NLP do Machine Learning

Baixe um Arquivo Visio dessa arquitetura.

Fluxo de trabalho para a arquitetura NLP

A arquitetura de NLP do Machine Learning baseia-se na arquitetura de aprendizado de máquina clássico, mas tem algumas modificações que são particulares para cenários NLP.

Acervo de dados

Esse elemento ilustra o patrimônio de dados da organização e possíveis fontes e destinos de dados para um projeto de ciência de dados. Os engenheiros de dados são os principais proprietários desse elemento do ciclo de vida do MLOps v2. As plataformas de dados do Azure neste diagrama não são completas nem prescritivas. Fontes e destinos de dados que representam as melhores práticas recomendadas com base no caso de uso do cliente são indicados por uma marca de seleção verde.
Administração e configuração

Esse elemento é a primeira etapa na implantação do acelerador MLOps v2. Ele consiste em todas as tarefas relacionadas à criação e gerenciamento de recursos e funções associadas ao projeto. Para cenários de NLP, a administração e a instalação do ambiente MLOps v2 são praticamente iguais ao aprendizado de máquina clássico, mas com uma etapa adicional: criar projetos de rotulagem e anotação de imagem usando o recurso de rotulagem do Machine Learning ou outra ferramenta.
Desenvolvimento de modelo (loop interno)

O elemento de loop interno consiste no fluxo de trabalho de ciência de dados iterativo executado em um workspace dedicado e seguro do Machine Learning. O loop de desenvolvimento de modelos NLP típico pode ser significativamente diferente do cenário de aprendizado de máquina clássico, pois os anotadores para sentenças e geração de tokens, normalização e inserções para dados de texto são as etapas típicas de desenvolvimento para esse cenário.
Registros do Machine Learning

Depois que a equipe de ciência de dados desenvolver um modelo que seja um candidato para implantação em produção, o modelo poderá ser registrado no registro do workspace do Machine Learning. Os pipelines de CI que são disparados automaticamente pelo registro do modelo ou pela aprovação human-in-the-loop promovem o modelo e quaisquer outras dependências de modelo para a fase de implantação do modelo.
Implantação de modelo (loop externo)

A fase de implantação de modelo ou loop externo consiste no processo de preparo e teste de pré-produção, implantação de produção e monitoramento do modelo, dos dados e da infraestrutura. Os pipelines de implantação contínua gerenciam a promoção do modelo e dos ativos relacionados por meio da produção, monitoramento e possível retreinamento, conforme os critérios para sua organização e caso de uso são atendidos.
Processo de preparo e teste

A fase de preparo e teste pode variar de acordo com as práticas do cliente, mas normalmente inclui operações como retreinamento e teste do candidato a modelo em dados de produção, implantações de teste para desempenho de ponto de extremidade, verificações de qualidade de dados, teste de unidade e verificações de IA responsável para identificar vieses de modelos e de dados. Essa fase ocorre em um ou mais workspaces dedicados e seguros do Machine Learning.
Implantação de produção

Depois que um modelo passar na fase de preparo e teste, ele pode ser promovido à produção por uma aprovação fechada human-in-the-loop. As opções de implantação de modelo incluem um ponto de extremidade em lote gerenciado para cenários de lote ou, para cenários online quase em tempo real, um ponto de extremidade online gerenciado ou uma implantação do Kubernetes usando o Azure Arc. Normalmente, a produção ocorre em um ou mais workspaces dedicados e seguros do Machine Learning.
Monitoramento

O monitoramento do processo de preparo, teste e produção possibilita coletar e agir sobre as alterações no desempenho do modelo, dos dados e da infraestrutura. O monitoramento de modelos e dados pode incluir a verificação de descompasso de modelos e de dados, de desempenho do modelo em novos dados de texto e de problemas de IA responsável. O monitoramento de infraestrutura pode ficar atento a problemas como resposta lenta de ponto de extremidade, capacidade de computação inadequada e problemas de rede.
Monitoramento de dados e modelos: eventos e ações

Assim como acontece com a arquitetura de CV, o monitoramento de dados e de modelos e as fases de eventos e ações de MLOps para NLP são as principais diferenças do aprendizado de máquina clássico. O retreinamento automatizado normalmente não é feito em cenários NLP quando uma degradação do desempenho do modelo em um novo texto é detectada. Nesse caso, novos dados de texto para os quais o modelo tem um desempenho ruim devem ser revisados e anotados por um processo human-in-the-loop. Geralmente, a próxima ação é voltar ao loop de desenvolvimento do modelo para atualizar o modelo com os novos dados de texto.
Monitoramento de infraestrutura: eventos e ações

Com base em critérios de questões de infraestrutura preocupantes, como atraso de resposta de ponto de extremidade ou computação insuficiente para a implantação, gatilhos automatizados e notificações podem implementar ações apropriadas a serem tomadas. Eles disparam um loopback para a fase de instalação e administração, na qual a equipe de infraestrutura pode investigar e potencialmente reconfigurar os recursos de computação e rede.

Componentes

Machine Learning: um serviço de nuvem para treinamento, pontuação, implantação e gerenciamento de modelos de aprendizado de máquina em escala.
Azure Pipelines: esse sistema de compilação e teste é baseado no Azure DevOps e usado para os pipelines de compilação e lançamento. O Azure Pipelines divide esses pipelines em etapas lógicas chamadas tarefas.
GitHub: uma plataforma de hospedagem de código para controle de versão, colaboração e fluxos de trabalho de CI/CD.
Azure Arc: uma plataforma para gerenciar recursos locais e do Azure usando o Azure Resource Manager. Os recursos podem incluir máquinas virtuais, clusters do Kubernetes e bancos de dados.
Kubernetes: um sistema de código aberto para automatizar a implantação, o dimensionamento e o gerenciamento de aplicativos em contêineres.
Azure Data Lake: um sistema de arquivos compatível com o Hadoop. Tem um namespace hierárquico integrado e a grande escala e economia do Armazenamento de Blobs do Azure.
Azure Synapse Analytics: um serviço de análise ilimitado que reúne integração de dados, data warehouse empresarial e análise de Big Data.
Hubs de Eventos do Azure. Um serviço que ingere fluxos de dados gerados por aplicativos cliente. Depois, eles ingerem e armazenam os dados de streaming preservando a sequência de eventos recebidos. Os consumidores podem se conectar aos pontos de extremidade do hub para recuperar mensagens para processamento. Aqui, estamos aproveitando a integração com o Data Lake Storage.

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.

Principais autores:

Scott Donohoo | Arquiteto sênior de soluções de nuvem
Moritz Steller | Arquiteto sênior de soluções de nuvem

Para ver perfis não públicos do LinkedIn, entre no LinkedIn.

Compartilhar via

Operações de aprendizado de máquina( MLOps) v2

Possíveis casos de uso