Operações de machine learning

2024-07-16

Este artigo descreve três arquiteturas do Azure para operações de aprendizado de máquina que têm pipelines de integração contínua e entrega contínua (CI/CD) de ponta a ponta e pipelines de retreinamento. As arquiteturas são para estas aplicações de IA:

Aprendizagem automática clássica
Visão computacional (CV)
Processamento de linguagem natural

Essas arquiteturas são o produto do projeto MLOps v2. Eles incorporam as melhores práticas que os arquitetos de soluções identificaram no processo de desenvolvimento de várias soluções de aprendizado de máquina. O resultado são padrões implantáveis, repetíveis e fáceis de manter. Todas as três arquiteturas usam o serviço Azure Machine Learning.

Para obter uma implementação com modelos de implantação de exemplo para MLOps v2, consulte Repositório GitHub do Azure MLOps v2.

Potenciais casos de utilização

Aprendizado de máquina clássico: previsão de séries temporais, regressão e classificação em dados estruturados tabulares são os casos de uso mais comuns nesta categoria. Exemplos incluem:
- Classificação binária e multi-etiquetagem.
- Regressão linear, polinomial, crista, laço, quantil e bayesiana.
- ARIMA, autorregressiva, SARIMA, VAR, SES, LSTM.
CV: A estrutura de MLOps deste artigo destina-se principalmente aos casos de uso de CV, como segmentação e classificação de imagem.
Processamento de linguagem natural: Você pode usar esta estrutura MLOps para implementar:
- Reconhecimento de entidade nomeada
- Classificação de textos
- Geração de texto
- Análise de sentimentos
- Tradução
- Perguntas e respostas
- Resumo
- Deteção de sentenças
- Deteção de idioma
- Marcação de partes do discurso

Simulações de IA, aprendizagem por reforço profundo e outras formas de IA não são descritas neste artigo.

MLOps como uma área-chave de conceção para aplicações de IA

O planejamento e a implementação de um MLOps e GenAIOps são uma área de design central em cargas de trabalho de IA no Azure. Para obter informações básicas sobre por que essas cargas de trabalho de aprendizado de máquina precisam de operações especializadas, consulte MLOps e GenAIOps para cargas de trabalho de IA no Azure no Azure Well-Architected Framework.

Arquitetura

O padrão de arquitetura MLOps v2 tem quatro componentes modulares principais, ou fases, do ciclo de vida do MLOps:

Património de dados
Administração e configuração
Desenvolvimento do modelo, ou a fase de loop interno
Implantação do modelo ou a fase de ciclo externo

Os componentes anteriores, as conexões entre eles e as personas típicas envolvidas são padrão em todas as arquiteturas de cenário MLOps v2. As variações nos detalhes de cada componente dependem do cenário.

A arquitetura base para MLOps v2 for Machine Learning é o cenário clássico de aprendizado de máquina para dados tabulares. As arquiteturas CV e NLP se baseiam e modificam essa arquitetura base.

O MLOps v2 abrange as seguintes arquiteturas descritas neste artigo:

Arquitetura clássica de aprendizado de máquina
Arquitetura de CV de Machine Learning
Arquitetura de processamento de linguagem natural de Machine Learning

Arquitetura clássica de aprendizado de máquina

Descarregue um ficheiro do Visio desta arquitetura.

Fluxo de trabalho para a arquitetura clássica de aprendizado de máquina

Património de dados

Este componente ilustra o patrimônio de dados da organização e potenciais fontes de dados e alvos para um projeto de ciência de dados. Os engenheiros de dados são os principais proprietários desse componente do ciclo de vida MLOps v2. As plataformas de dados do Azure neste diagrama não são exaustivas ou prescritivas. Um sinal de visto verde indica as fontes de dados e os destinos que representam as práticas recomendadas com base no caso de uso do cliente.
Administração e configuração

Este componente é a primeira etapa na implantação da solução MLOps v2. Consiste em todas as tarefas relacionadas com a criação e gestão de recursos e funções que estão associados ao projeto. Por exemplo, a equipe de infraestrutura pode:
1. Crie repositórios de código-fonte do projeto.
2. Use o Bicep ou o Terraform para criar espaços de trabalho de Machine Learning.
3. Crie ou modifique conjuntos de dados e recursos de computação para desenvolvimento e implantação de modelos.
4. Defina os usuários da equipe de projeto, suas funções e controles de acesso a outros recursos.
5. Crie pipelines de CI/CD.
6. Crie componentes de monitoramento para coletar e criar alertas para métricas de modelo e infraestrutura.
A persona principal associada a essa fase é a equipe de infraestrutura, mas uma organização também pode ter engenheiros de dados, engenheiros de aprendizado de máquina ou cientistas de dados.
Desenvolvimento do modelo (fase de loop interno)

A fase de loop interno consiste em um fluxo de trabalho iterativo de ciência de dados que atua dentro de um espaço de trabalho dedicado e seguro de Machine Learning. O diagrama anterior mostra um fluxo de trabalho típico. O processo começa com a ingestão de dados, passa pela análise exploratória de dados, experimentação, desenvolvimento e avaliação do modelo e, em seguida, registra um modelo para uso na produção. Esse componente modular é agnóstico e adaptável ao processo que sua equipe de ciência de dados usa para desenvolver modelos.

As personas associadas a esta fase incluem cientistas de dados e engenheiros de aprendizagem automática.
Registos de Aprendizagem Automática

Depois que a equipe de ciência de dados desenvolve um modelo que pode implantar na produção, eles registram o modelo no registro do espaço de trabalho do Aprendizado de Máquina. Os pipelines de Integração Contínua que são acionados, automaticamente pelo registo do modelo ou por aprovação com intervenção humana, promovem o modelo e quaisquer outras dependências do modelo para a fase de implementação do modelo.

As personas associadas a este estágio são tipicamente engenheiros de aprendizado de máquina.
Implantação do modelo (fase de ciclo externo)

A implantação do modelo, ou fase de loop externo, consiste em preparação e teste de pré-produção, implantação de produção e monitoramento do modelo, dados e infraestrutura. Quando o modelo atende aos critérios da organização e do caso de uso, os pipelines de CD promovem o modelo e os ativos relacionados por meio de produção, monitoramento e potencial retreinamento.

As personas associadas a esta fase são principalmente engenheiros de machine learning.
Estadiamento e teste

A fase de preparação e teste varia de acordo com as práticas do cliente. Essa fase geralmente inclui operações como retreinamento e teste do candidato a modelo em dados de produção, implementações de teste para desempenho de endpoint, verificações de qualidade de dados, testes de unidade e verificações de IA responsável para viés em modelos e dados. Esta fase ocorre em um ou mais espaços de trabalho dedicados e seguros de Machine Learning.
Implementação de produção

Depois que um modelo passa pela fase de preparação e teste, os engenheiros de aprendizagem automática podem usar a aprovação com interação humana para promovê-lo à produção. As opções de implementação do modelo incluem um endpoint de batch gerido para cenários batch ou um endpoint online gerido ou uma implementação de Kubernetes que utiliza o Azure Arc para cenários online quase em tempo real. A produção normalmente ocorre em um ou mais espaços de trabalho dedicados e seguros de Machine Learning.
Monitorização

Os engenheiros de aprendizado de máquina monitoram componentes em preparação, teste e produção para coletar métricas relacionadas a alterações no desempenho do modelo, dos dados e da infraestrutura. Eles podem usar essas métricas para agir. A monitorização de modelos e dados pode incluir a verificação de desvio de modelos e dados, o desempenho do modelo em novos dados e problemas associados à IA responsável. O monitoramento de infraestrutura pode identificar resposta lenta do ponto final, capacidade de computação inadequada ou problemas de rede.
Monitoramento de dados e modelos: eventos e ações

Com base em critérios de modelo e dados, como limites ou cronogramas métricos, gatilhos e notificações automatizados podem implementar ações apropriadas a serem tomadas. Por exemplo, um gatilho pode treinar novamente um modelo para usar novos dados de produção e, em seguida, retornar o modelo para as fases de preparação e teste para uma avaliação de pré-produção. Ou um problema de modelo ou de dados pode desencadear uma ação que requer um loopback para a fase de desenvolvimento do modelo, onde os cientistas de dados podem investigar o problema e, potencialmente, desenvolver um novo modelo.
Monitoramento de infraestrutura: eventos e ações

Gatilhos e notificações automatizados podem implementar ações apropriadas a serem tomadas com base em critérios de infraestrutura, como um atraso na resposta do ponto final ou computação insuficiente para a implantação. Gatilhos e notificações automáticas podem provocar um retorno à fase de configuração e administração, onde a equipa de infraestrutura pode investigar o problema e, potencialmente, reconfigurar os recursos de rede e computação.

Arquitetura de CV de Machine Learning

Descarregue um ficheiro do Visio desta arquitetura.

Fluxo de trabalho para a arquitetura CV

A arquitetura de CV de Machine Learning é baseada na arquitetura clássica de aprendizado de máquina, mas tem modificações que são específicas para cenários de CV supervisionados.

Património de dados

Este componente demonstra o património de dados da organização e potenciais fontes e alvos de dados para um projeto de ciência de dados. Os engenheiros de dados são os principais proprietários desse componente no ciclo de vida MLOps v2. As plataformas de dados do Azure neste diagrama não são exaustivas ou prescritivas. As imagens para cenários de CV podem provir de várias fontes de dados. Para obter eficiência ao desenvolver e implantar modelos CV com Machine Learning, recomendamos o Armazenamento de Blobs do Azure e o Armazenamento do Azure Data Lake.
Administração e configuração

Este componente é a primeira etapa na implantação do MLOps v2. Consiste em todas as tarefas relacionadas com a criação e gestão de recursos e funções associadas ao projeto. Para cenários CV, a administração e configuração do ambiente MLOps v2 é basicamente a mesma que para o aprendizado de máquina clássico, mas inclui uma etapa extra. A equipe de infraestrutura usa o recurso de rotulagem do Machine Learning ou outra ferramenta para criar projetos de etiquetagem e anotação de imagens.
Desenvolvimento do modelo (fase de loop interno)

A fase de ciclo interno consiste num processo de trabalho iterativo de ciência de dados realizado num espaço de trabalho dedicado e seguro de Aprendizagem Automática. A principal diferença entre esse fluxo de trabalho e o cenário clássico de aprendizado de máquina é que a rotulagem e a anotação de imagens são um componente-chave desse ciclo de desenvolvimento.
Registos de Aprendizagem Automática

Depois que a equipe de ciência de dados desenvolve um modelo que pode implantar na produção, eles registram o modelo no registro do espaço de trabalho do Aprendizado de Máquina. Os pipelines de CI que são acionados automaticamente pelo registro do modelo ou pela aprovação human-in-the-loop fechada promovem o modelo e quaisquer outras dependências do modelo para a fase de implantação do modelo.
Implantação do modelo (fase de ciclo externo)

A implantação do modelo ou fase de loop externo consiste em preparo e teste de pré-produção, implantação de produção e monitoramento do modelo, dados e infraestrutura. Quando o modelo atende aos critérios da organização e do caso de uso, os pipelines de CD promovem o modelo e os ativos relacionados por meio de produção, monitoramento e potencial retreinamento.
Estadiamento e teste

A fase de preparação e teste varia de acordo com as práticas do cliente. Essa fase geralmente inclui operações como implementações de teste para avaliar o desempenho dos pontos finais, verificações de qualidade dos dados, testes de unidade e verificações de IA responsável para identificar viés em modelos e dados. Para cenários de CV, os engenheiros de aprendizado de máquina não precisam treinar novamente o candidato a modelo em dados de produção devido a restrições de recursos e tempo. Em vez disso, a equipe de ciência de dados pode usar dados de produção para o desenvolvimento de modelos. O modelo candidato registrado a partir do ciclo de desenvolvimento é avaliado para produção. Esta fase ocorre em um ou mais espaços de trabalho dedicados e seguros de Machine Learning.
Implementação de produção

Depois que um modelo passa pela fase de preparação e teste, os engenheiros de aprendizagem automática podem usar a aprovação com interação humana para promovê-lo à produção. As opções de implementação do modelo incluem um endpoint de batch gerido para cenários batch ou um endpoint online gerido ou uma implementação de Kubernetes que utiliza o Azure Arc para cenários online quase em tempo real. A produção normalmente ocorre em um ou mais espaços de trabalho dedicados e seguros de Machine Learning.
Monitorização

Os engenheiros de aprendizado de máquina monitoram componentes em preparação, teste e produção para coletar métricas relacionadas a alterações no desempenho do modelo, dos dados e da infraestrutura. Eles podem usar essas métricas para agir. O monitoramento de modelos e dados pode incluir a verificação do desempenho do modelo em novas imagens. O monitoramento de infraestrutura pode identificar resposta lenta do ponto final, capacidade de computação inadequada ou problemas de rede.
Monitoramento de dados e modelos: eventos e ações

O monitoramento de dados e modelos e as fases de eventos e ações do MLOps para processamento de linguagem natural são as principais diferenças do aprendizado de máquina clássico. O retreinamento automatizado normalmente não é feito em cenários de CV quando a degradação do desempenho do modelo em novas imagens é detetada. Neste caso, é necessário um processo human-in-the-loop para rever e anotar novas imagens para o modelo que tem um mau desempenho. A próxima ação geralmente volta ao loop de desenvolvimento do modelo para atualizar o modelo com as novas imagens.
Monitoramento de infraestrutura: eventos e ações

Gatilhos e notificações automatizados podem implementar ações apropriadas a serem tomadas com base em critérios de infraestrutura, como um atraso na resposta do ponto final ou computação insuficiente para a implantação. Gatilhos e notificações automáticos podem originar um retorno para a fase de configuração e administração, onde a equipe de infraestrutura pode investigar o problema e, potencialmente, reconfigurar o ambiente, a capacidade de computação e os recursos de rede.

Arquitetura de processamento de linguagem natural de Machine Learning

Descarregue um ficheiro do Visio desta arquitetura.

Fluxo de trabalho para a arquitetura de processamento de linguagem natural

A arquitetura de processamento de linguagem natural do Machine Learning é baseada na arquitetura clássica de aprendizado de máquina, mas tem algumas modificações que são específicas para cenários de PNL.

Património de dados

Este componente demonstra o património de dados da organização e as fontes e destinos de dados potenciais para um projeto de ciência de dados. Os engenheiros de dados são os principais proprietários desse componente no ciclo de vida MLOps v2. As plataformas de dados do Azure neste diagrama não são exaustivas ou prescritivas. Um visto verde indica fontes e destinos que representam as práticas recomendadas com base no caso de uso do cliente.
Administração e configuração

Este componente é a primeira etapa na implantação do MLOps v2. Consiste em todas as tarefas relacionadas com a criação e gestão de recursos e funções associadas ao projeto. Para cenários de processamento de linguagem natural, a administração e configuração do ambiente MLOps v2 é basicamente a mesma do aprendizado de máquina clássico, mas com uma etapa extra: criar projetos de rotulagem e anotação de texto usando o recurso de rotulagem do Machine Learning ou outra ferramenta.
Desenvolvimento do modelo (fase de loop interno)

A fase de ciclo interno consiste num processo de trabalho iterativo de ciência de dados realizado num espaço de trabalho dedicado e seguro de Aprendizagem Automática. O loop de desenvolvimento de modelo de PNL típico difere do cenário clássico de aprendizado de máquina porque as etapas típicas de desenvolvimento para esse cenário incluem anotadores para frases e tokenização, normalização e incorporações para dados de texto.
Registos de Aprendizagem Automática

Depois que a equipe de ciência de dados desenvolve um modelo que pode implantar na produção, eles registram o modelo no registro do espaço de trabalho do Aprendizado de Máquina. Os pipelines de CI que são acionados automaticamente pelo registro do modelo ou pela aprovação human-in-the-loop fechada promovem o modelo e quaisquer outras dependências do modelo para a fase de implantação do modelo.
Implantação do modelo (fase de ciclo externo)

A implantação do modelo ou fase de loop externo consiste em preparo e teste de pré-produção, implantação de produção e monitoramento do modelo, dados e infraestrutura. Quando o modelo atende aos critérios da organização e do caso de uso, os pipelines de CD promovem o modelo e os ativos relacionados por meio de produção, monitoramento e potencial retreinamento.
Estadiamento e teste

A fase de preparação e teste varia de acordo com as práticas do cliente. Essa fase geralmente inclui operações como retreinamento e teste do candidato a modelo em dados de produção, implementações de teste para desempenho de endpoint, verificações de qualidade de dados, testes de unidade e verificações de IA responsável para viés em modelos e dados. Esta fase ocorre em um ou mais espaços de trabalho dedicados e seguros de Machine Learning.
Implementação de produção

Depois que um modelo passa pela fase de preparação e teste, os engenheiros de aprendizagem automática podem usar a aprovação com interação humana para promovê-lo à produção. As opções de implementação do modelo incluem um endpoint de batch gerido para cenários batch ou um endpoint online gerido ou uma implementação de Kubernetes que utiliza o Azure Arc para cenários online quase em tempo real. A produção normalmente ocorre em um ou mais espaços de trabalho dedicados e seguros de Machine Learning.
Monitorização

Os engenheiros de aprendizado de máquina monitoram componentes em preparação, teste e produção para coletar métricas relacionadas a alterações no desempenho do modelo, dos dados e da infraestrutura. Eles podem usar essas métricas para agir. O monitoramento de modelos e dados pode incluir a verificação de desvio de modelos e dados, o desempenho do modelo em novos dados de texto e problemas de IA responsáveis. O monitoramento da infraestrutura pode identificar problemas, como resposta lenta do ponto final, capacidade de computação inadequada e problemas de rede.
Monitoramento de dados e modelos: eventos e ações

Tal como acontece com a arquitetura CV, o monitoramento de dados e modelos e as fases de eventos e ações do MLOps para processamento de linguagem natural são as principais diferenças do aprendizado de máquina clássico. O retreinamento automatizado normalmente não é feito em cenários de processamento de linguagem natural quando a degradação do desempenho do modelo em um novo texto é detetada. Nesse caso, um processo human-in-the-loop é necessário para revisar e anotar novos dados de texto para o modelo que tem um desempenho ruim. Muitas vezes, a próxima ação é voltar ao loop de desenvolvimento do modelo para atualizar o modelo com os novos dados de texto.
Monitoramento de infraestrutura: eventos e ações

Gatilhos e notificações automatizados podem implementar ações apropriadas a serem tomadas com base em critérios de infraestrutura, como um atraso na resposta do ponto final ou computação insuficiente para a implantação. Gatilhos e notificações automáticos podem iniciar um retorno à fase de configuração e administração, onde a equipa de infraestrutura pode investigar o problema e, potencialmente, reconfigurar os recursos de processamento e rede.

Componentes

O Machine Learning é um serviço de nuvem que você pode usar para treinar, pontuar, implantar e gerenciar modelos de aprendizado de máquina em escala.
O Azure Pipelines é um sistema de compilação e teste baseado no Azure DevOps e usado para pipelines de compilação e lançamento. O Azure Pipelines divide esses pipelines em etapas lógicas chamadas tarefas.
O GitHub é uma plataforma de hospedagem de código para controle de versão, colaboração e fluxos de trabalho de CI/CD.
O Azure Arc é uma plataforma que usa o Azure Resource Manager para gerenciar recursos do Azure e recursos locais. Os recursos podem incluir máquinas virtuais, clusters Kubernetes e bancos de dados.
O Kubernetes é um sistema de código aberto que você pode usar para automatizar a implantação, o dimensionamento e o gerenciamento de aplicativos em contêineres.
Azure Data Lake Storage é um sistema de ficheiros compatível com Hadoop. Ele tem um namespace hierárquico integrado e a enorme escala e economia do Blob Storage.
O Azure Synapse Analytics é um serviço de análise ilimitado que reúne integração de dados, armazenamento de dados corporativos e análise de big data.
Azure Event Hubs é um serviço que ingere fluxos de dados gerados por aplicações cliente. Em seguida, ingere e armazena dados de streaming, o que preserva a sequência de eventos recebidos. Os clientes podem se conectar aos pontos de extremidade do hub para recuperar mensagens para processamento. Essa arquitetura usa a integração do Data Lake Storage.

Outras considerações

O padrão de arquitetura MLOps v2 anterior tem vários componentes críticos, incluindo RBAC (controle de acesso baseado em função) que se alinha com as partes interessadas do negócio, gerenciamento eficiente de pacotes e mecanismos de monitoramento robustos. Esses componentes contribuem coletivamente para a implementação e o gerenciamento bem-sucedidos de fluxos de trabalho de aprendizado de máquina.

RBAC baseado em persona

É crucial que você gerencie o acesso a dados e recursos de aprendizado de máquina. O RBAC fornece uma estrutura robusta para ajudá-lo a gerenciar quem pode executar ações específicas e acessar áreas específicas em sua solução. Projete sua estratégia de segmentação de identidade para se alinhar com o ciclo de vida dos modelos de aprendizado de máquina no Machine Learning e as personas incluídas no processo. Cada persona tem um conjunto específico de responsabilidades que se refletem em suas funções RBAC e participação no grupo.

Exemplo de personas

Para dar suporte à segmentação apropriada em uma carga de trabalho de aprendizagem de máquina, considere as seguintes personas comuns que informam o design de grupo RBAC baseado em identidade.

Cientista de dados e engenheiro de aprendizado de máquina

Cientistas de dados e engenheiros de aprendizado de máquina executam várias atividades de aprendizado de máquina e ciência de dados em todo o ciclo de vida de desenvolvimento de software de um projeto. As suas funções incluem a análise exploratória de dados e o pré-processamento de dados. Cientistas de dados e engenheiros de aprendizado de máquina são responsáveis por treinar, avaliar e implantar modelos. As responsabilidades dessas funções também incluem atividades de correção de falhas para modelos, pacotes e dados de aprendizado de máquina. Essas funções estão fora do escopo da equipe de suporte técnico da plataforma.