Operações de machine learning

2025-04-21

Este artigo descreve três arquiteturas do Azure para operações de aprendizado de máquina que têm pipelines de CI/CD (integração contínua e entrega contínua) de ponta a ponta e pipelines de retreinamento. As arquiteturas são para esses aplicativos de IA:

Aprendizado de máquina clássico
Visão computacional (CV)
Processamento de idioma natural

Essas arquiteturas são resultado do projeto MLOps v2. Elas incorporam as práticas recomendadas que os arquitetos de solução identificaram no processo de desenvolvimento de várias soluções de aprendizado de máquina. O resultado são padrões implantáveis, repetíveis e sustentáveis. As três arquiteturas usam o serviço do Azure Machine Learning.

Para obter uma implementação com modelos de implantação de exemplo para MLOps v2, consulte o repositório GitHub do Azure MLOps v2.

Possíveis casos de uso

Aprendizado de máquina clássico: previsão, regressão e classificação de série temporal em dados estruturados tabulares são os casos de uso mais comuns nessa categoria. Os exemplos incluem:
- Classificação binária e de vários rótulos.
- Regressão linear, polinomial, de crista, de laço, de quantil e bayesiana.
- ARIMA, autorregressivo, SARIMA, VAR, SES, LSTM.
CV: A estrutura MLOps nesse artigo se concentra principalmente nos casos de uso de segmentação e classificação de imagens do CV.
Processamento de linguagem natural: use esta estrutura MLOps para implementar:
- Reconhecimento de entidade nomeada
- Classificação de texto
- Geração de texto
- Análise de sentimento
- Tradução
- Respostas às perguntas
- Resumo
- Detecção de sentenças
- Detecção de idioma
- Etiquetagem de partes do discurso

Simulações de IA, aprendizado de reforço profundo e outras formas de IA não são abordados neste artigo.

MLOps como uma área de design fundamental para cargas de trabalho de IA

O planejamento e a implementação de um MLOps e GenAIOps são uma área de design principal em cargas de trabalho de IA no Azure. Para saber por que essas cargas de trabalho de machine learning precisam de operações especializadas, consulte MLOps e GenAIOps para cargas de trabalho de IA no Azure no Azure Well-Architected Framework.

Arquitetura

O padrão de arquitetura MLOps v2 tem quatro componentes modulares,ou fases, principais do ciclo de vida do MLOps:

Acervo de dados
Administração e configuração
Desenvolvimento do modelo ou fase do ciclo interno
Implantação do modelo ou fase do loop externo

Os componentes anteriores, as conexões entre eles e as personas típicas envolvidas são padrão em todas as arquiteturas de cenário MLOps v2. Pode haver variações nos detalhes de cada um, dependendo do cenário.

A arquitetura base do MLOps v2 para Machine Learning é o cenário clássico de aprendizado de máquina para dados tabulares. As arquiteturas CV e NLP se baseiam na arquitetura inicial e depois a modificam.

O MLOps v2 abrange as seguintes arquiteturas descritas neste artigo:

Arquitetura clássica de machine learning
Arquitetura de CV do Machine Learning
Arquitetura de processamento de linguagem natural do Machine Learning

Arquitetura do aprendizado de máquina clássico

Baixe um arquivo do Visio dessa arquitetura.

Fluxo de trabalho para a arquitetura do aprendizado de máquina clássico

Acervo de dados

Esse componente ilustra o patrimônio de dados da organização e as possíveis fontes e destinos de dados para um projeto de ciência de dados. Os engenheiros de dados são os principais proprietários desse componente do ciclo de vida do MLOps v2. As plataformas de dados do Azure neste diagrama não são completas nem prescritivas. Uma marca de seleção verde indica as fontes de dados e os destinos que representam as melhores práticas recomendadas com base no caso de uso do cliente.
Administração e configuração

Esse componente é a primeira etapa na implantação da solução MLOps v2. Ele consiste em todas as tarefas relacionadas à criação e gerenciamento de recursos e funções que são associadas ao projeto. Por exemplo, a equipe de infraestrutura pode:
1. Crie repositórios de código-fonte do projeto.
2. Use o Bicep ou o Terraform para criar workspaces do Machine Learning.
3. Crie ou modifique conjuntos de dados e recursos de computação para desenvolvimento e implantação de modelos.
4. Defina de usuários da equipe de projeto, suas funções e controles de acesso a outros recursos.
5. Criar pipelines CI/CD.
6. Crie componentes de monitoramento para coletar e criar alertas para métricas de modelo e infraestrutura.
A principal persona associada a essa fase é a equipe de infraestrutura, mas uma organização também pode contar com engenheiros de dados, engenheiros de aprendizado de máquina e cientistas de dados.
Desenvolvimento de modelo (fase de loop interno)

A fase do ciclo interno consiste em um fluxo de trabalho iterativo de ciência de dados que atua dentro de um espaço de trabalho dedicado e seguro de aprendizado de máquina. O diagrama anterior mostra um fluxo de trabalho típico. O processo começa com a ingestão de dados, passa pela análise exploratória de dados, experimentação, desenvolvimento e avaliação de modelos e, em seguida, registra um modelo para uso em produção. Esse componente modular é agnóstico e adaptável ao processo que sua equipe de ciência de dados usa para desenvolver modelos.

As personas associadas a essa fase incluem cientistas de dados e engenheiros de aprendizado de máquina.
Registros do Machine Learning

Depois que a equipe de ciência de dados desenvolve um modelo que pode ser implantado em produção, a equipe registra o modelo no registro do espaço de trabalho do Machine Learning. Os pipelines de CI que são acionados, seja automaticamente pelo registro do modelo ou pela aprovação humana no loop, promovem o modelo e quaisquer outras dependências do modelo para a fase de implantação do modelo.

Personas associadas a esse estágio normalmente são engenheiros de aprendizado de máquina.
Implantação do modelo (fase de loop externo)

A fase de implantação de modelo ou loop externo consiste no processo de preparo e teste de pré-produção, implantação de produção e monitoramento do modelo, dos dados e da infraestrutura. Quando o modelo atende aos critérios da organização e do caso de uso, os pipelines de CD promovem o modelo e os ativos relacionados por meio da produção, do monitoramento e de possível retreinamento.

Personas associadas a essa fase são principalmente engenheiros de aprendizado de máquina.
Processo de preparo e teste

A fase de preparação e teste varia de acordo com as práticas do cliente. Essa fase normalmente inclui operações como retreinamento e teste do modelo candidato em dados de produção, implantações de teste para desempenho de ponto de extremidade, verificações de qualidade de dados, testes de unidade e verificações de IA responsáveis para viés de modelo e dados. Essa fase ocorre em um ou mais workspaces dedicados e seguros do Machine Learning.
Implantação de produção

Depois que um modelo passa pela fase de preparação e teste, os engenheiros de aprendizado de máquina podem usar a aprovação humana para promovê-lo à produção. As opções de implantação de modelo incluem um ponto de extremidade em lote gerenciado para cenários em lote ou um ponto de extremidade online gerenciado ou uma implantação do Kubernetes que usa o Azure Arc para cenários online quase em tempo real. A produção costuma ocorrer em um ou mais workspaces dedicados e seguros do Machine Learning.
Monitoramento

Os engenheiros de aprendizado de máquina monitoraram componentes em preparação, teste e produção para análises detalhadas relacionadas a alterações no desempenho do modelo, dados e infraestrutura. Eles podem usar essas métricas para tomar medidas. O monitoramento de modelos e dados pode incluir a verificação do deslocamento de modelos e de dados, o desempenho do modelo em novos dados e questões de IA responsável. O monitoramento de infraestrutura pode identificar a resposta lenta do ponto de extremidade, a capacidade de computação inadequada ou problemas de rede.
Monitoramento de dados e modelos: eventos e ações

Com base em critérios relativos a modelo e dados como limites de métrica ou agendamentos, gatilhos automatizados e notificações podem implementar ações apropriadas a serem tomadas. Por exemplo, um gatilho pode retreinar um modelo para usar novos dados de produção e, em seguida, retornar o modelo para preparação e teste para uma avaliação de pré-produção. Ou um problema de modelo ou dados pode acionar uma ação que exija um loopback para a fase de desenvolvimento do modelo em que os cientistas de dados podem investigar o problema e potencialmente desenvolver um novo modelo.
Monitoramento de infraestrutura: eventos e ações

Gatilhos e notificações automatizados podem implementar ações apropriadas a serem tomadas com base em critérios de infraestrutura, como atraso de resposta de ponto de extremidade ou computação insuficiente para a implantação. Os gatilhos e notificações automáticos podem acionar um retorno para a fase de instalação e administração, em que a equipe de infraestrutura pode investigar o problema e talvez reconfigurar os recursos de computação e rede.

Arquitetura de CV do Machine Learning

Baixe um arquivo do Visio dessa arquitetura.

Fluxo de trabalho para a arquitetura de CV

A arquitetura de CV do Machine Learning baseia-se na arquitetura de aprendizado de máquina clássica, mas tem modificações que são específicas para cenários de CV supervisionados.

Acervo de dados

Esse componente demonstra o patrimônio de dados da organização e as possíveis fontes e destinos de dados para um projeto de ciência de dados. Os engenheiros de dados são os principais proprietários desse componente no ciclo de vida do MLOps v2. As plataformas de dados do Azure neste diagrama não são completas nem prescritivas. As imagens para cenários de CV podem vir de diversas fontes de dados. Para obter eficiência ao desenvolver e implantar modelos de CV com o Machine Learning, recomendamos o Armazenamento de Blobs do Azure e o Azure Data Lake Storage.
Administração e configuração

Esse componente é a primeira etapa na implantação do MLOps v2. Ele consiste em todas as tarefas relacionadas à criação e gerenciamento de recursos e funções associadas ao projeto. Para cenários de CV, a administração e a configuração do ambiente MLOps v2 são basicamente as mesmas do aprendizado de máquina clássico, mas incluem uma etapa extra. A equipe de infraestrutura usa o recurso de rotulagem do Machine Learning ou outra ferramenta para criar projetos de rotulagem e anotação de imagens.
Desenvolvimento de modelo (fase de loop interno)

A fase de loop interno consiste em um fluxo de trabalho iterativo de ciência de dados, executado em um espaço de trabalho dedicado e seguro de Aprendizado de Máquina. A principal diferença entre esse fluxo de trabalho e o cenário clássico de aprendizado de máquina é que a rotulagem e a anotação de imagem são um componente-chave desse loop de desenvolvimento.
Registros do Machine Learning

Depois que a equipe de ciência de dados desenvolve um modelo que pode ser implantado em produção, a equipe registra o modelo no registro do espaço de trabalho do Machine Learning. Os pipelines de CI que são acionados automaticamente pelo registro do modelo ou pela aprovação humana no loop promovem o modelo e quaisquer outras dependências do modelo para a fase de implantação do modelo.
Implantação do modelo (fase de loop externo)

A fase de implantação de modelo ou loop externo consiste no processo de preparo e teste de pré-produção, implantação de produção e monitoramento do modelo, dos dados e da infraestrutura. Quando o modelo atende aos critérios da organização e do caso de uso, os pipelines de CD promovem o modelo e os ativos relacionados por meio da produção, do monitoramento e de possível retreinamento.
Processo de preparo e teste

A fase de preparação e teste varia de acordo com as práticas do cliente. Essa fase normalmente inclui operações como implantações de teste para desempenho de ponto de extremidade, verificações de qualidade de dados, testes de unidade e verificações de IA responsáveis para viés de modelo e dados. Para cenários de CV, os engenheiros de aprendizado de máquina não precisam treinar novamente o modelo candidato em dados de produção devido a restrições de recursos e tempo. Em vez disso, a equipe de ciência de dados pode usar dados de produção para o desenvolvimento do modelo. O modelo candidato, registrado no loop de desenvolvimento, é avaliado para produção. Essa fase ocorre em um ou mais workspaces dedicados e seguros do Machine Learning.
Implantação de produção

Depois que um modelo passa pela fase de preparação e teste, os engenheiros de aprendizado de máquina podem usar a aprovação humana para promovê-lo à produção. As opções de implantação de modelo incluem um ponto de extremidade em lote gerenciado para cenários em lote ou um ponto de extremidade online gerenciado ou uma implantação do Kubernetes que usa o Azure Arc para cenários online quase em tempo real. A produção costuma ocorrer em um ou mais workspaces dedicados e seguros do Machine Learning.
Monitoramento

Os engenheiros de aprendizado de máquina monitoraram componentes em preparação, teste e produção para análises detalhadas relacionadas a alterações no desempenho do modelo, dados e infraestrutura. Eles podem usar essas métricas para tomar medidas. O monitoramento de modelo e de dados podem incluir a verificação do desempenho do modelo em novas imagens. O monitoramento de infraestrutura pode identificar a resposta lenta do ponto de extremidade, a capacidade de computação inadequada ou problemas de rede.
Monitoramento de dados e modelos: eventos e ações

O monitoramento de dados e de modelos e as fases de evento e ação do MLOps para processamento de linguagem natural são as principais diferenças do aprendizado de máquina clássico. O retreinamento automatizado normalmente não é feito em cenários de CV quando é detectada degradação do desempenho do modelo em novas imagens. Nesse caso, um processo com intervenção humana é necessário para revisar e anotar novas imagens para o modelo que apresenta um desempenho insatisfatório. A próxima ação costuma ser voltar ao loop de desenvolvimento do modelo para atualizar o modelo com as novas imagens.
Monitoramento de infraestrutura: eventos e ações

Gatilhos e notificações automatizados podem implementar ações apropriadas a serem tomadas com base em critérios de infraestrutura, como atraso de resposta de ponto de extremidade ou computação insuficiente para a implantação. Os gatilhos e notificações automáticos podem acionar um loopback para a fase de configuração e administração, na qual a equipe de infraestrutura pode investigar o problema e potencialmente reconfigurar os recursos de ambiente, computação e rede.

Arquitetura de processamento de linguagem natural de aprendizado de máquina

Baixe um arquivo do Visio dessa arquitetura.

Fluxo de trabalho para a arquitetura de processamento de linguagem natural

A arquitetura de processamento de linguagem natural do Machine Learning baseia-se na arquitetura de aprendizado de máquina clássico, mas tem algumas modificações que são específicos a cenários de NLP.

Acervo de dados

Esse componente demonstra o patrimônio de dados da organização e as possíveis fontes e destinos de dados para um projeto de ciência de dados. Os engenheiros de dados são os principais proprietários desse componente no ciclo de vida do MLOps v2. As plataformas de dados do Azure neste diagrama não são completas nem prescritivas. Uma marca de seleção verde indica fontes e destinos que representam as melhores práticas recomendadas com base no caso de uso do cliente.
Administração e configuração

Esse componente é a primeira etapa na implantação do MLOps v2. Ele consiste em todas as tarefas relacionadas à criação e gerenciamento de recursos e funções associadas ao projeto. Para cenários de processamento de linguagem natural, a administração e a configuração do ambiente MLOps v2 são praticamente iguais ao aprendizado de máquina clássico, mas com uma etapa extra: criar projetos de rotulagem e anotação de texto usando o recurso de rotulagem do Machine Learning ou outra ferramenta.
Desenvolvimento de modelo (fase de loop interno)

A fase de loop interno consiste em um fluxo de trabalho iterativo de ciência de dados, executado em um espaço de trabalho dedicado e seguro de Aprendizado de Máquina. O ciclo típico de desenvolvimento de modelo de PNL difere do cenário clássico de aprendizado de máquina porque as etapas típicas de desenvolvimento para esse cenário incluem anotadores para frases e tokenização, normalização e incorporações para dados de texto.
Registros do Machine Learning

Depois que a equipe de ciência de dados desenvolve um modelo que pode ser implantado em produção, a equipe registra o modelo no registro do espaço de trabalho do Machine Learning. Os pipelines de CI que são acionados automaticamente pelo registro do modelo ou pela aprovação humana no loop promovem o modelo e quaisquer outras dependências do modelo para a fase de implantação do modelo.
Implantação do modelo (fase de loop externo)

A fase de implantação de modelo ou loop externo consiste no processo de preparo e teste de pré-produção, implantação de produção e monitoramento do modelo, dos dados e da infraestrutura. Quando o modelo atende aos critérios da organização e do caso de uso, os pipelines de CD promovem o modelo e os ativos relacionados por meio da produção, do monitoramento e de possível retreinamento.
Processo de preparo e teste

A fase de preparação e teste varia de acordo com as práticas do cliente. Essa fase normalmente inclui operações como retreinamento e teste do modelo candidato em dados de produção, implantações de teste para desempenho de ponto de extremidade, verificações de qualidade de dados, testes de unidade e verificações de IA responsáveis para viés de modelo e dados. Essa fase ocorre em um ou mais workspaces dedicados e seguros do Machine Learning.
Implantação de produção

Depois que um modelo passa pela fase de preparação e teste, os engenheiros de aprendizado de máquina podem usar a aprovação humana para promovê-lo à produção. As opções de implantação de modelo incluem um ponto de extremidade em lote gerenciado para cenários em lote ou um ponto de extremidade online gerenciado ou uma implantação do Kubernetes que usa o Azure Arc para cenários online quase em tempo real. A produção costuma ocorrer em um ou mais workspaces dedicados e seguros do Machine Learning.
Monitoramento

Os engenheiros de aprendizado de máquina monitoraram componentes em preparação, teste e produção para análises detalhadas relacionadas a alterações no desempenho do modelo, dados e infraestrutura. Eles podem usar essas métricas para tomar medidas. O monitoramento de modelos e dados pode incluir a verificação de desvio de modelos e de dados, do desempenho do modelo em novos dados de texto e de problemas relacionados à IA responsável. O monitoramento de infraestrutura pode identificar problemas como resposta lenta de ponto de extremidade, capacidade de computação inadequada e problemas de rede.
Monitoramento de dados e modelos: eventos e ações

Assim como acontece com a arquitetura de CV, o monitoramento de dados e de modelos e as fases de eventos e ações de MLOps para processamento de linguagem natural são as principais diferenças do aprendizado de máquina clássico. O retreinamento automatizado normalmente não é feito em cenários de processamento de linguagem natural quando uma degradação do desempenho do modelo em um novo texto é detectada. Nesse caso, é necessário um processo humano para revisar e anotar novos dados de texto para o modelo que apresenta baixo desempenho. Geralmente, a próxima ação é voltar ao loop de desenvolvimento do modelo para atualizar o modelo com os novos dados de texto.
Monitoramento de infraestrutura: eventos e ações

Gatilhos e notificações automatizados podem implementar ações apropriadas a serem tomadas com base em critérios de infraestrutura, como atraso de resposta de ponto de extremidade ou computação insuficiente para a implantação. Os gatilhos e notificações automáticos podem iniciar um retorno para a fase de instalação e administração, na qual a equipe de infraestrutura pode investigar o problema e, possivelmente, reconfigurar os recursos de computação e rede.

Componentes

O Machine Learning é um serviço de nuvem que você pode usar para treinar, pontuar, implantar e gerenciar modelos de machine learning em escala.
O Azure Pipelines é um sistema de build e teste baseado no Azure DevOps e é usado para pipelines de build e lançamento. O Azure Pipelines divide esses pipelines em etapas lógicas chamadas tarefas.
O GitHub é uma plataforma de hospedagem de código para controle de versão, colaboração e fluxos de trabalho de CI/CD.
O Azure Arc é uma plataforma que usa o Azure Resource Manager para gerenciar recursos do Azure e recursos locais. Os recursos podem incluir máquinas virtuais, clusters do Kubernetes e bancos de dados.
O Kubernetes é um sistema de software livre que você pode usar para automatizar a implantação, o dimensionamento e o gerenciamento de aplicativos em contêineres.
O Azure Data Lake Storage é um sistema de arquivos compatível com Hadoop. Ele tem um namespace hierárquico integrado e a escala e economia massivas do Blob Storage.
O Azure Synapse Analytics é um serviço de análise ilimitado que reúne integração de dados, armazenamento de dados corporativos e análise de Big Data.
Os Hubs de Eventos do Azure são um serviço que ingere fluxos de dados gerados por aplicativos cliente. Depois, ele ingere e armazena os dados de streaming, o que preserva a sequência de eventos recebidos. Os consumidores podem se conectar aos pontos de extremidade do hub para recuperar mensagens para processamento. Essa arquitetura usa a integração do Data Lake Storage.

Outras considerações

O padrão de arquitetura MLOps v2 anterior tem vários componentes críticos, incluindo RBAC (controle de acesso baseado em função) que se alinha com as partes interessadas de negócios, gerenciamento eficiente de pacotes e mecanismos de monitoramento robustos. Esses componentes contribuem coletivamente para a implementação e o gerenciamento bem-sucedidos de fluxos de trabalho de aprendizado de máquina.

RBAC baseado em persona

É crucial que você gerencie o acesso a dados e recursos de aprendizado de máquina. O RBAC fornece uma estrutura robusta para ajudar você a gerenciar quem pode executar ações específicas e acessar áreas específicas em sua solução. Projete sua estratégia de segmentação de identidade para que se alinhe ao ciclo de vida dos modelos de aprendizado de máquina no Machine Learning e às personas incluídas no processo. Cada persona tem um conjunto específico de responsabilidades que são refletidas em suas funções no RBAC e na participação no grupo.

Personas de exemplo

Para dar suporte à segmentação apropriada em uma carga de trabalho de aprendizado de máquina, considere as seguintes personas comuns que informam o design do grupo RBAC baseado em identidade.

Cientista de dados e engenheiro de aprendizado de máquina

Cientistas de dados e engenheiros de aprendizado de máquina executam várias atividades de aprendizado de máquina e ciência de dados em todo o ciclo de vida de desenvolvimento de software de um projeto. Suas funções incluem análise exploratória de dados e pré-processamento de dados. Cientistas de dados e engenheiros de aprendizado de máquina são responsáveis por treinar, avaliar e implantar modelos. As responsabilidades dessas funções também incluem atividades de reparo para modelos, pacotes e dados de aprendizado de máquina. Essas funções estão fora do escopo da equipe de suporte técnico da plataforma.