Operações de machine learning

Artigo
07/16/2024

Este artigo descreve três arquiteturas do Azure para operações de aprendizado de máquina que têm pipelines de integração contínua e entrega contínua (CI/CD) de ponta a ponta e pipelines de retreinamento. As arquiteturas são para estas aplicações de IA:

Aprendizagem automática clássica
Visão computacional (CV)
Processamento de linguagem natural

Essas arquiteturas são o produto do projeto MLOps v2. Eles incorporam as melhores práticas que os arquitetos de soluções identificaram no processo de desenvolvimento de várias soluções de aprendizado de máquina. O resultado são padrões implantáveis, repetíveis e fáceis de manter. Todas as três arquiteturas usam o serviço Azure Machine Learning.

Para obter uma implementação com modelos de implantação de exemplo para MLOps v2, consulte Repositório GitHub do Azure MLOps v2.

Potenciais casos de utilização

Aprendizado de máquina clássico: previsão de séries temporais, regressão e classificação em dados estruturados tabulares são os casos de uso mais comuns nesta categoria. Exemplos incluem:
- Classificação binária e multi-rótulo.
- Regressão linear, polinomial, crista, laço, quantil e bayesiana.
- ARIMA, autorregressiva, SARIMA, VAR, SES, LSTM.
CV: A estrutura MLOps neste artigo se concentra principalmente nos casos de uso de CV de segmentação e classificação de imagem.
Processamento de linguagem natural: Você pode usar esta estrutura MLOps para implementar:
- Reconhecimento da entidade nomeada:
- Classificação de textos
- Geração de texto
- Análise de sentimentos
- Tradução
- Perguntas e respostas
- Resumo
- Deteção de sentenças
- Deteção de idioma
- Identificação de classe gramatical

Simulações de IA, aprendizagem por reforço profundo e outras formas de IA não são descritas neste artigo.

Arquitetura

O padrão de arquitetura MLOps v2 tem quatro componentes modulares principais, ou fases, do ciclo de vida do MLOps:

Património de dados
Administração e configuração
Desenvolvimento do modelo, ou a fase de loop interno
Implantação do modelo ou a fase de loop externo

Os componentes anteriores, as conexões entre eles e as personas típicas envolvidas são padrão em todas as arquiteturas de cenário MLOps v2. As variações nos detalhes de cada componente dependem do cenário.

A arquitetura base para MLOps v2 for Machine Learning é o cenário clássico de aprendizado de máquina para dados tabulares. As arquiteturas CV e NLP se baseiam e modificam essa arquitetura base.

O MLOps v2 abrange as seguintes arquiteturas descritas neste artigo:

Arquitetura clássica de aprendizado de máquina
Arquitetura de CV de Machine Learning
Arquitetura de processamento de linguagem natural de Machine Learning

Arquitetura clássica de aprendizado de máquina

Transfira um ficheiro do Visio desta arquitetura.

Fluxo de trabalho para a arquitetura clássica de aprendizado de máquina

Património de dados

Este componente ilustra o patrimônio de dados da organização e potenciais fontes de dados e alvos para um projeto de ciência de dados. Os engenheiros de dados são os principais proprietários desse componente do ciclo de vida MLOps v2. As plataformas de dados do Azure neste diagrama não são exaustivas ou prescritivas. Uma marca de seleção verde indica as fontes de dados e os destinos que representam as práticas recomendadas baseadas no caso de uso do cliente.
Administração e configuração

Este componente é a primeira etapa na implantação da solução MLOps v2. Consiste em todas as tarefas relacionadas com a criação e gestão de recursos e funções que estão associados ao projeto. Por exemplo, a equipe de infraestrutura pode:
1. Crie repositórios de código-fonte do projeto.
2. Use o Bicep ou o Terraform para criar espaços de trabalho de Machine Learning.
3. Crie ou modifique conjuntos de dados e recursos de computação para desenvolvimento e implantação de modelos.
4. Defina os usuários da equipe de projeto, suas funções e controles de acesso a outros recursos.
5. Crie pipelines de CI/CD.
6. Crie componentes de monitoramento para coletar e criar alertas para métricas de modelo e infraestrutura.
A persona principal associada a essa fase é a equipe de infraestrutura, mas uma organização também pode ter engenheiros de dados, engenheiros de aprendizado de máquina ou cientistas de dados.
Desenvolvimento do modelo (fase de loop interno)

A fase de loop interno consiste em um fluxo de trabalho iterativo de ciência de dados que atua dentro de um espaço de trabalho dedicado e seguro de Machine Learning. O diagrama anterior mostra um fluxo de trabalho típico. O processo começa com a ingestão de dados, passa pela análise exploratória de dados, experimentação, desenvolvimento e avaliação do modelo e, em seguida, registra um modelo para uso na produção. Esse componente modular é agnóstico e adaptável ao processo que sua equipe de ciência de dados usa para desenvolver modelos.

As personas associadas a esta fase incluem cientistas de dados e engenheiros de aprendizagem automática.
Registos de Aprendizagem Automática

Depois que a equipe de ciência de dados desenvolve um modelo que pode implantar na produção, eles registram o modelo no registro do espaço de trabalho do Aprendizado de Máquina. Os pipelines de CI que são acionados, automaticamente pelo registro do modelo ou pela aprovação human-in-the-loop fechada, promovem o modelo e quaisquer outras dependências do modelo para a fase de implantação do modelo.

As personas associadas a este estágio são tipicamente engenheiros de aprendizado de máquina.
Implantação do modelo (fase de loop externo)

A implantação do modelo, ou fase de loop externo, consiste em preparação e teste de pré-produção, implantação de produção e monitoramento do modelo, dados e infraestrutura. Quando o modelo atende aos critérios da organização e do caso de uso, os pipelines de CD promovem o modelo e os ativos relacionados por meio de produção, monitoramento e potencial retreinamento.

As personas associadas a esta fase são principalmente engenheiros de machine learning.
Estadiamento e teste

A fase de preparação e teste varia de acordo com as práticas do cliente. Essa fase geralmente inclui operações como retreinamento e teste do candidato a modelo em dados de produção, implantações de teste para desempenho de endpoint, verificações de qualidade de dados, testes de unidade e verificações de IA responsáveis para viés de modelo e dados. Esta fase ocorre em um ou mais espaços de trabalho dedicados e seguros de Machine Learning.
Implementação de produção

Depois que um modelo passa na fase de preparação e teste, os engenheiros de aprendizado de máquina podem usar a aprovação fechada human-in-the-loop para promovê-lo à produção. As opções de implantação de modelo incluem um ponto de extremidade de lote gerenciado para cenários em lote ou um ponto de extremidade online gerenciado ou implantação do Kubernetes que usa o Azure Arc para cenários online quase em tempo real. A produção normalmente ocorre em um ou mais espaços de trabalho dedicados e seguros de Machine Learning.
Monitorização

Os engenheiros de aprendizado de máquina monitoram componentes em preparação, teste e produção para coletar métricas relacionadas a alterações no desempenho do modelo, dos dados e da infraestrutura. Eles podem usar essas métricas para agir. O monitoramento de modelos e dados pode incluir a verificação de desvio de modelos e dados, o desempenho do modelo em novos dados e problemas de IA responsáveis. O monitoramento de infraestrutura pode identificar resposta lenta do ponto final, capacidade de computação inadequada ou problemas de rede.
Monitoramento de dados e modelos: eventos e ações

Com base em critérios de modelo e dados, como limites ou cronogramas métricos, gatilhos e notificações automatizados podem implementar ações apropriadas a serem tomadas. Por exemplo, um gatilho pode treinar novamente um modelo para usar novos dados de produção e, em seguida, fazer loopback do modelo para preparação e teste para uma avaliação de pré-produção. Ou um problema de modelo ou de dados pode desencadear uma ação que requer um loopback para a fase de desenvolvimento do modelo, onde os cientistas de dados podem investigar o problema e, potencialmente, desenvolver um novo modelo.
Monitoramento de infraestrutura: eventos e ações

Gatilhos e notificações automatizados podem implementar ações apropriadas a serem tomadas com base em critérios de infraestrutura, como um atraso na resposta do ponto final ou computação insuficiente para a implantação. Gatilhos e notificações automáticos podem disparar um loopback para a fase de configuração e administração, onde a equipe de infraestrutura pode investigar o problema e, potencialmente, reconfigurar os recursos de computação e rede.

Arquitetura de CV de Machine Learning

Transfira um ficheiro do Visio desta arquitetura.

Fluxo de trabalho para a arquitetura CV

A arquitetura de CV de Machine Learning é baseada na arquitetura clássica de aprendizado de máquina, mas tem modificações que são específicas para cenários de CV supervisionados.

Património de dados

Este componente demonstra a propriedade de dados da organização e potenciais fontes de dados e destinos para um projeto de ciência de dados. Os engenheiros de dados são os principais proprietários desse componente no ciclo de vida MLOps v2. As plataformas de dados do Azure neste diagrama não são exaustivas ou prescritivas. As imagens para cenários de CV podem provir de várias fontes de dados. Para obter eficiência ao desenvolver e implantar modelos CV com Machine Learning, recomendamos o Armazenamento de Blobs do Azure e o Armazenamento do Azure Data Lake.
Administração e configuração

Este componente é a primeira etapa na implantação do MLOps v2. Consiste em todas as tarefas relacionadas com a criação e gestão de recursos e funções associadas ao projeto. Para cenários CV, a administração e configuração do ambiente MLOps v2 é basicamente a mesma que para o aprendizado de máquina clássico, mas inclui uma etapa extra. A equipe de infraestrutura usa o recurso de rotulagem do Machine Learning ou outra ferramenta para criar projetos de etiquetagem e anotação de imagens.
Desenvolvimento do modelo (fase de loop interno)

A fase de loop interno consiste em um fluxo de trabalho iterativo de ciência de dados executado em um espaço de trabalho dedicado e seguro de Machine Learning. A principal diferença entre esse fluxo de trabalho e o cenário clássico de aprendizado de máquina é que a rotulagem e a anotação de imagens são um componente-chave desse ciclo de desenvolvimento.
Registos de Aprendizagem Automática

Depois que a equipe de ciência de dados desenvolve um modelo que pode implantar na produção, eles registram o modelo no registro do espaço de trabalho do Aprendizado de Máquina. Os pipelines de CI que são acionados automaticamente pelo registro do modelo ou pela aprovação human-in-the-loop fechada promovem o modelo e quaisquer outras dependências do modelo para a fase de implantação do modelo.
Implantação do modelo (fase de loop externo)

A implantação do modelo ou fase de loop externo consiste em preparo e teste de pré-produção, implantação de produção e monitoramento do modelo, dados e infraestrutura. Quando o modelo atende aos critérios da organização e do caso de uso, os pipelines de CD promovem o modelo e os ativos relacionados por meio de produção, monitoramento e potencial retreinamento.
Estadiamento e teste

A fase de preparação e teste varia de acordo com as práticas do cliente. Essa fase geralmente inclui operações como implantações de teste para desempenho de endpoint, verificações de qualidade de dados, testes de unidade e verificações responsáveis de IA para viés de modelo e dados. Para cenários de CV, os engenheiros de aprendizado de máquina não precisam treinar novamente o candidato a modelo em dados de produção devido a restrições de recursos e tempo. Em vez disso, a equipe de ciência de dados pode usar dados de produção para o desenvolvimento de modelos. O modelo candidato registrado a partir do ciclo de desenvolvimento é avaliado para produção. Esta fase ocorre em um ou mais espaços de trabalho dedicados e seguros de Machine Learning.
Implementação de produção

Depois que um modelo passa na fase de preparação e teste, os engenheiros de aprendizado de máquina podem usar a aprovação fechada human-in-the-loop para promovê-lo à produção. As opções de implantação de modelo incluem um ponto de extremidade de lote gerenciado para cenários em lote ou um ponto de extremidade online gerenciado ou implantação do Kubernetes que usa o Azure Arc para cenários online quase em tempo real. A produção normalmente ocorre em um ou mais espaços de trabalho dedicados e seguros de Machine Learning.
Monitorização

Os engenheiros de aprendizado de máquina monitoram componentes em preparação, teste e produção para coletar métricas relacionadas a alterações no desempenho do modelo, dos dados e da infraestrutura. Eles podem usar essas métricas para agir. O monitoramento de modelos e dados pode incluir a verificação do desempenho do modelo em novas imagens. O monitoramento de infraestrutura pode identificar resposta lenta do ponto final, capacidade de computação inadequada ou problemas de rede.
Monitoramento de dados e modelos: eventos e ações

O monitoramento de dados e modelos e as fases de eventos e ações do MLOps para processamento de linguagem natural são as principais diferenças do aprendizado de máquina clássico. O retreinamento automatizado normalmente não é feito em cenários de CV quando a degradação do desempenho do modelo em novas imagens é detetada. Nesse caso, um processo human-in-the-loop é necessário para revisar e anotar novos dados de texto para o modelo que tem um desempenho ruim. A próxima ação geralmente volta ao loop de desenvolvimento do modelo para atualizar o modelo com as novas imagens.
Monitoramento de infraestrutura: eventos e ações

Gatilhos e notificações automatizados podem implementar ações apropriadas a serem tomadas com base em critérios de infraestrutura, como um atraso na resposta do ponto final ou computação insuficiente para a implantação. Gatilhos e notificações automáticos podem disparar um loopback para a fase de configuração e administração, onde a equipe de infraestrutura pode investigar o problema e, potencialmente, reconfigurar o ambiente, a computação e os recursos de rede.

Arquitetura de processamento de linguagem natural de Machine Learning

Transfira um ficheiro do Visio desta arquitetura.

Fluxo de trabalho para a arquitetura de processamento de linguagem natural

A arquitetura de processamento de linguagem natural do Machine Learning é baseada na arquitetura clássica de aprendizado de máquina, mas tem algumas modificações que são específicas para cenários de PNL.

Património de dados

Este componente demonstra a propriedade de dados da organização e potenciais fontes de dados e destinos para um projeto de ciência de dados. Os engenheiros de dados são os principais proprietários desse componente no ciclo de vida MLOps v2. As plataformas de dados do Azure neste diagrama não são exaustivas ou prescritivas. Uma marca de seleção verde indica fontes e destinos que representam as práticas recomendadas com base no caso de uso do cliente.
Administração e configuração

Este componente é a primeira etapa na implantação do MLOps v2. Consiste em todas as tarefas relacionadas com a criação e gestão de recursos e funções associadas ao projeto. Para cenários de processamento de linguagem natural, a administração e configuração do ambiente MLOps v2 é basicamente a mesma que para o aprendizado de máquina clássico, mas com uma etapa extra: criar projetos de etiquetagem e anotação de imagem usando o recurso de rotulagem do Machine Learning ou outra ferramenta.
Desenvolvimento do modelo (fase de loop interno)

A fase de loop interno consiste em um fluxo de trabalho iterativo de ciência de dados executado em um espaço de trabalho dedicado e seguro de Machine Learning. O loop de desenvolvimento de modelo de PNL típico difere do cenário clássico de aprendizado de máquina porque as etapas típicas de desenvolvimento para esse cenário incluem anotadores para frases e tokenização, normalização e incorporações para dados de texto.
Registos de Aprendizagem Automática

Depois que a equipe de ciência de dados desenvolve um modelo que pode implantar na produção, eles registram o modelo no registro do espaço de trabalho do Aprendizado de Máquina. Os pipelines de CI que são acionados automaticamente pelo registro do modelo ou pela aprovação human-in-the-loop fechada promovem o modelo e quaisquer outras dependências do modelo para a fase de implantação do modelo.
Implantação do modelo (fase de loop externo)

A implantação do modelo ou fase de loop externo consiste em preparo e teste de pré-produção, implantação de produção e monitoramento do modelo, dados e infraestrutura. Quando o modelo atende aos critérios da organização e do caso de uso, os pipelines de CD promovem o modelo e os ativos relacionados por meio de produção, monitoramento e potencial retreinamento.
Estadiamento e teste

A fase de preparação e teste varia de acordo com as práticas do cliente. Essa fase geralmente inclui operações como retreinamento e teste do candidato a modelo em dados de produção, implantações de teste para desempenho de endpoint, verificações de qualidade de dados, testes de unidade e verificações de IA responsáveis para viés de modelo e dados. Esta fase ocorre em um ou mais espaços de trabalho dedicados e seguros de Machine Learning.
Implementação de produção

Depois que um modelo passa na fase de preparação e teste, os engenheiros de aprendizado de máquina podem usar a aprovação fechada human-in-the-loop para promovê-lo à produção. As opções de implantação de modelo incluem um ponto de extremidade de lote gerenciado para cenários em lote ou um ponto de extremidade online gerenciado ou implantação do Kubernetes que usa o Azure Arc para cenários online quase em tempo real. A produção normalmente ocorre em um ou mais espaços de trabalho dedicados e seguros de Machine Learning.
Monitorização

Os engenheiros de aprendizado de máquina monitoram componentes em preparação, teste e produção para coletar métricas relacionadas a alterações no desempenho do modelo, dos dados e da infraestrutura. Eles podem usar essas métricas para agir. O monitoramento de modelos e dados pode incluir a verificação de desvio de modelos e dados, o desempenho do modelo em novos dados de texto e problemas de IA responsáveis. O monitoramento da infraestrutura pode identificar problemas, como resposta lenta do ponto final, capacidade de computação inadequada e problemas de rede.
Monitoramento de dados e modelos: eventos e ações

Tal como acontece com a arquitetura CV, o monitoramento de dados e modelos e as fases de eventos e ações do MLOps para processamento de linguagem natural são as principais diferenças do aprendizado de máquina clássico. O retreinamento automatizado normalmente não é feito em cenários de processamento de linguagem natural quando a degradação do desempenho do modelo em um novo texto é detetada. Nesse caso, um processo human-in-the-loop é necessário para revisar e anotar novos dados de texto para o modelo que tem um desempenho ruim. Muitas vezes, a próxima ação é voltar ao loop de desenvolvimento do modelo para atualizar o modelo com os novos dados de texto.
Monitoramento de infraestrutura: eventos e ações

Gatilhos e notificações automatizados podem implementar ações apropriadas a serem tomadas com base em critérios de infraestrutura, como um atraso na resposta do ponto final ou computação insuficiente para a implantação. Gatilhos e notificações automáticos podem desencadear um loopback para a fase de configuração e administração, onde a equipe de infraestrutura pode investigar o problema e, potencialmente, reconfigurar recursos de computação e rede.

Componentes

O Machine Learning é um serviço de nuvem que você pode usar para treinar, pontuar, implantar e gerenciar modelos de aprendizado de máquina em escala.
O Azure Pipelines é um sistema de compilação e teste baseado no Azure DevOps e usado para pipelines de compilação e lançamento. O Azure Pipelines divide esses pipelines em etapas lógicas chamadas tarefas.
O GitHub é uma plataforma de hospedagem de código para controle de versão, colaboração e fluxos de trabalho de CI/CD.
O Azure Arc é uma plataforma que usa o Azure Resource Manager para gerenciar recursos do Azure e recursos locais. Os recursos podem incluir máquinas virtuais, clusters Kubernetes e bancos de dados.
O Kubernetes é um sistema de código aberto que você pode usar para automatizar a implantação, o dimensionamento e o gerenciamento de aplicativos em contêineres.
O Armazenamento Azure Data Lake é um sistema de arquivos compatível com Hadoop. Ele tem um namespace hierárquico integrado e a enorme escala e economia do Blob Storage.
O Azure Synapse Analytics é um serviço de análise ilimitado que reúne integração de dados, armazenamento de dados corporativos e análise de big data.
Os Hubs de Eventos do Azure são um serviço que ingere fluxos de dados gerados por aplicativos cliente. Em seguida, ingere e armazena dados de streaming, o que preserva a sequência de eventos recebidos. Os clientes podem se conectar aos pontos de extremidade do hub para recuperar mensagens para processamento. Essa arquitetura usa a integração do Data Lake Storage.

Outras considerações

O padrão de arquitetura MLOps v2 anterior tem vários componentes críticos, incluindo RBAC (controle de acesso baseado em função) que se alinha com as partes interessadas do negócio, gerenciamento eficiente de pacotes e mecanismos de monitoramento robustos. Esses componentes contribuem coletivamente para a implementação e o gerenciamento bem-sucedidos de fluxos de trabalho de aprendizado de máquina.

RBAC baseado em persona

É crucial que você gerencie o acesso a dados e recursos de aprendizado de máquina. O RBAC fornece uma estrutura robusta para ajudá-lo a gerenciar quem pode executar ações específicas e acessar áreas específicas em sua solução. Projete sua estratégia de segmentação de identidade para se alinhar com o ciclo de vida dos modelos de aprendizado de máquina no Machine Learning e as personas incluídas no processo. Cada persona tem um conjunto específico de responsabilidades que se refletem em suas funções RBAC e participação no grupo.

Exemplo de personas

Para dar suporte à segmentação apropriada em uma carga de trabalho de aprendizado de máquina, considere as seguintes personas comuns que informam o design de grupo RBAC baseado em identidade.

Cientista de dados e engenheiro de aprendizado de máquina

Cientistas de dados e engenheiros de aprendizado de máquina executam várias atividades de aprendizado de máquina e ciência de dados em todo o ciclo de vida de desenvolvimento de software de um projeto. As suas funções incluem a análise exploratória de dados e o pré-processamento de dados. Cientistas de dados e engenheiros de aprendizado de máquina são responsáveis por treinar, avaliar e implantar modelos. As responsabilidades dessas funções também incluem atividades de correção de falhas para modelos, pacotes e dados de aprendizado de máquina. Essas funções estão fora do escopo da equipe de suporte técnico da plataforma.