Operações de IA generativa para organizações com investimentos em MLOps

2025-05-09

Este artigo fornece diretrizes para equipes de carga de trabalho que têm investimentos em MLOps (operações de machine learning) existentes e deseja estender esses investimentos para incluir tecnologia de IA e padrões geradores em sua carga de trabalho. Para operacionalizar os recursos de carga de trabalho de IA generativos, você precisa estender seus investimentos em MLOps com genAIOps (operações de IA generativas), às vezes conhecidas como LLMOps. Este artigo descreve padrões técnicos que são comuns às cargas de trabalho tradicionais de machine learning e ia generativa e padrões exclusivos para IA generativa. Entenda onde você pode aplicar investimentos existentes na operacionalização e onde precisa estender esses investimentos.

O planejamento e a implementação de MLOps e GenAIOps fazem parte de uma área de design principal em cargas de trabalho de IA no Azure. Para obter mais informações sobre por que essas cargas de trabalho precisam de operações especializadas, consulte MLOps e GenAIOps para cargas de trabalho de IA no Azure.

Padrões técnicos de IA generativa

As cargas de trabalho de IA generativas diferem das cargas de trabalho de machine learning tradicionais de várias maneiras:

Concentre-se em modelos generativos. As cargas de trabalho tradicionais de machine learning se concentram no treinamento de novos modelos para tarefas específicas. Cargas de trabalho de IA generativa consomem e, às vezes, ajustam modelos generativos que podem resolver uma gama mais ampla de casos de uso. Alguns desses modelos são multimodal.
Concentre-se em estender os modelos. O principal ativo no aprendizado de máquina tradicional é o modelo treinado e implantado. O acesso ao modelo é fornecido ao código do cliente em uma ou mais cargas de trabalho, mas a carga de trabalho geralmente não faz parte do processo MLOps. Com soluções de IA generativas, um aspecto fundamental da solução é o prompt fornecido ao modelo generativo. O prompt deve ser composto de instruções e geralmente contém dados de contexto de um ou mais armazenamentos de dados. O sistema que orquestra a lógica, chama os vários back-ends ou agentes, gera o prompt e chama o modelo generativo faz parte do sistema de IA generativo que você gerencia através do GenAIOps.

Algumas soluções de IA generativas usam práticas tradicionais de machine learning, como treinamento de modelo e ajuste fino. No entanto, essas soluções introduzem novos padrões que você deve padronizar. Há três categorias amplas de padrões técnicos para soluções de IA generativas:

Pré-treinamento e ajuste fino
Engenharia de prompt
Geração aumentada de recuperação (RAG)

Treinamento e ajuste fino de modelos de linguagem

Muitas soluções de IA generativas usam modelos de linguagem de base existentes que não exigem ajuste fino antes do uso. No entanto, alguns casos de uso podem se beneficiar do ajuste fino de um modelo de base ou do treinamento de um novo modelo de IA generativa, como um modelo de linguagem pequeno (SLM).

Treinar um novo SLM e ajustar um modelo de base generativo seguem os mesmos processos lógicos que treinar modelos tradicionais de machine learning. Esses processos devem usar seus investimentos existentes em MLOps.

Engenharia de prompt

A engenharia de prompts inclui todos os processos envolvidos na criação de um prompt eficaz que é enviado como entrada para um modelo generativo. Geralmente, há um orquestrador que controla um fluxo de trabalho que gera a solicitação. O orquestrador pode chamar vários bancos de dados direta ou indiretamente por meio de agentes para coletar informações, incluindo dados de base. Em seguida, aplica a lógica necessária para gerar o prompt mais eficaz. Em seguida, o orquestrador é implantado como um endpoint de API que o código cliente acessa em um aplicativo inteligente.

O diagrama a seguir mostra uma arquitetura para engenharia de solicitação.

Essa categoria de padrões técnicos pode resolver muitos casos de uso:

Classificação
Tradução
Resumo
TRAPO

TRAPO

O RAG é um padrão arquitetônico que utiliza a engenharia de solicitação para incorporar dados específicos do domínio como dados base para um modelo de processamento de linguagem. O modelo de linguagem é treinado em relação a um conjunto específico de dados. Sua carga de trabalho pode exigir raciocínio sobre dados específicos de sua empresa, clientes ou domínio. Em soluções RAG, seus dados são consultados e os resultados mais relevantes são fornecidos para o modelo de linguagem como parte do prompt, geralmente por meio de uma camada de orquestração.

Uma implementação típica de RAG é dividir seus dados de origem em partes e armazená-los em um repositório de vetores junto com metadados. Os repositórios de vetores, como a Pesquisa de IA do Azure permitem que você execute pesquisas de similaridade textual e de vetor para retornar resultados contextualmente relevantes. As soluções RAG também podem usar outros armazenamentos de dados para retornar dados de fundamentação.

O diagrama a seguir ilustra uma arquitetura RAG que inclui dados de documentos.

Estender o MLOps para padrões técnicos de IA generativos

O seu processo de MLOps trata tanto dos processos de loop interno quanto dos de loop externo. Os padrões técnicos de IA generativa também têm muitas das mesmas atividades. Em alguns casos, você aplica seus investimentos existentes em MLOps. Em outros casos, você precisa estendê-los:

Loop Interno
Loop externo
- Implantação
- Inferência e monitoramento
- Ciclo de feedback

Operações de Dados

O MLOps e o GenAIOps aplicam os conceitos básicos das operações de dados (DataOps) para criar fluxos de trabalho extensíveis e reproduzíveis. Esses fluxos de trabalho garantem que os dados sejam limpos, transformados e formatados corretamente para experimentação e avaliação. Reprodutibilidade de fluxo de trabalho e controle de versão de dados são recursos importantes do DataOps para todos os padrões técnicos. As fontes, os tipos e a intenção dos dados dependem do padrão.

Treinamento e otimização

Essa norma técnica deve aproveitar totalmente os investimentos existentes de DataOps na sua implementação de MLOps. A reprodutibilidade e o controle de versão de dados permitem que você experimente diferentes dados de engenharia de recursos, compare o desempenho dos diferentes modelos e reproduza resultados.

RAG e engenharia de solicitação

A intenção dos dados em soluções RAG é fornecer dados de base (ou contexto) apresentados ao modelo de linguagem natural como parte de um prompt. As soluções RAG geralmente exigem o processamento de documentos grandes ou conjuntos de dados em uma coleção de partes de tamanho certo e semanticamente relevantes e a persistência dessas partes em um repositório de vetores. Para obter mais informações, consulte Design e desenvolva uma solução RAG. A reprodutibilidade e o controle de versão de dados para soluções RAG permitem que você experimente diferentes estratégias de agrupamento e incorporação, compare o desempenho e reverta para versões anteriores.

Os pipelines de dados para agrupamento de documentos não fazem parte do DataOps em MLOps tradicionais, portanto, você precisa estender sua arquitetura e operações. Os pipelines de dados podem ler dados de fontes diferentes que incluem dados estruturados e não estruturados. Eles também podem gravar os dados transformados em destinos diferentes. Você deve estender seus pipelines para incluir os armazenamentos de dados que você usa para dados de fundamentação. Armazenamentos de dados típicos para esses padrões são repositórios de vetores, como a Pesquisa de IA.

Assim como o treinamento e o ajuste fino, os pipelines do Azure Machine Learning ou outras ferramentas de pipelining de dados podem ser usados para orquestrar os estágios de divisão em blocos.

Manutenção do índice de pesquisa

Você também deve estender suas operações para manter a atualização e a validade dos índices de pesquisa em seus armazenamentos de dados. Talvez seja necessário recompilar periodicamente esses índices se não puder adicionar, remover ou atualizar dados de forma incremental. As atualizações de índice devem atender aos requisitos de negócios para atualização de dados, os requisitos não funcionais, como desempenho e disponibilidade, e os requisitos de conformidade, como solicitações de direito a serem esquecidas . Você precisa estender o processo MLOps existente para considerar a manutenção e atualização de índices de pesquisa para garantir a precisão, a conformidade e o desempenho ideal.

Experimentação

A experimentação, uma parte do ciclo interno, é o processo iterativo de criar, avaliare refinar sua solução. As seções a seguir descrevem a experimentação para os padrões técnicos de IA generativos típicos.

Treinamento e otimização

Ao ajustar um modelo de idioma existente ou treinar um SLM, você pode aproveitar os investimentos atuais do MLOps. Por exemplo, os pipelines do Machine Learning fornecem um kit de ferramentas para realizar experimentos de forma eficiente e eficaz. Esses pipelines permitem que você gerencie todo o processo de ajuste fino, desde o pré-processamento de dados até o treinamento e a avaliação do modelo.

RAG e engenharia de solicitação

A experimentação com engenharia de solicitação e cargas de trabalho RAG requer a extensão de seus investimentos em MLOps. Para esses padrões técnicos, a carga de trabalho não termina com o modelo. As tarefas requerem um orquestrador, que é um sistema capaz de executar lógica, chamar armazenamentos de dados ou agentes para obter informações necessárias, como dados fundamentais, gerar prompts e chamar modelos de linguagem. Os armazenamentos de dados e índices nos repositórios também fazem parte da carga de trabalho. Estenda suas operações para controlar esses aspectos da carga de trabalho.

Existem várias dimensões a serem experimentadas para soluções de engenharia de solicitação, incluindo diferentes instruções, personas, exemplos, restrições e técnicas avançadas, como encadeamento de solicitações. Ao experimentar soluções RAG, você também pode experimentar outras áreas:

Estratégias de agrupamento
Métodos para enriquecer partes
Inserindo seleção de modelo
Configuração do índice de pesquisa
Tipos de pesquisas a serem executadas, como vetor, texto completo e híbrido

Conforme descrito no DataOps, a reprodução e o controle de versão de dados são fundamentais para a experimentação. Uma boa estrutura de experimentação permite que você armazene entradas, como alterações em hiperparâmetros ou solicitações, juntamente com saídas a serem usadas ao avaliar o experimento.

Assim como em seu ambiente MLOps existente, você pode aproveitar estruturas como pipelines de aprendizado de máquina. Os pipelines do Machine Learning têm recursos que dão suporte à indexação integrando-se a repositórios de vetores, como a Pesquisa de IA. Seu ambiente GenAIOps pode se beneficiar desses recursos de pipeline e combiná-los com funcionalidades de fluxo de prompts que gerenciam a engenharia de prompts e a lógica de pré-processamento personalizada.

Avaliação e experimentação

A avaliação é fundamental no processo de experimentação iterativa de compilação, avaliação e refinamento de sua solução. A avaliação de suas alterações fornece o feedback necessário para fazer seus refinamentos ou validar se a iteração atual atende aos seus requisitos. As seções a seguir descrevem a avaliação na fase de experimentação para os padrões técnicos de IA generativos típicos.

Treinamento e otimização

Para a avaliação de modelos de IA generativos ajustados ou treinados, você deve tirar proveito de seus investimentos atuais em MLOps. Por exemplo, se você usar pipelines do Machine Learning para orquestrar o treinamento do modelo de machine learning, poderá usar os mesmos recursos de avaliação para ajustar os modelos de linguagem de base ou treinar novos SLMs. Esses recursos incluem o componente Avaliar Modelo, que calcula métricas de avaliação padrão do setor para tipos de modelo específicos e compara os resultados entre os modelos. Caso sua carga de trabalho utilize o Azure AI Foundry, você poderá expandir seu processo de MLOps para incluir suas capabilidades de avaliação encontradas no SDK de Avaliação.

RAG e engenharia de solicitação

Você precisa estender seus investimentos existentes em MLOps para avaliar soluções de IA generativa. Você pode usar ferramentas como o Prompt Flow, que fornece uma estrutura para avaliação. Prompt Flow possibilita que as equipes definam uma lógica de avaliação personalizada, especificando critérios e métricas para avaliar o desempenho de várias variantes de solicitação e modelos de linguagem extensos (LLMs). Essa abordagem estruturada permite comparar diferentes configurações lado a lado, como hiperparâmetros ou variações arquitetônicas, para identificar a configuração ideal para tarefas específicas.

Tarefas no fluxo de prompts capturam automaticamente dados de entrada e saída em todo o processo de experimentação para criar um registro de teste abrangente. Você pode obter insights e identificar configurações promissoras que podem informar iterações futuras analisando esses dados. Você pode acelerar o desenvolvimento de suas soluções de IA generativa usando fluxos de comandos para realizar experimentos eficientes e sistemáticos.

O processo de experimentação permanece consistente, independentemente do caso de uso para sua solução de IA generativa. Esses casos de uso incluem classificação, resumo, tradução e RAG. A diferença importante são as métricas que você usa para avaliar os diferentes casos de uso. Considere as seguintes métricas com base no caso de uso:

Tradução: BLEU
Resumização: ROUGE, BLEU, BERTScore, METEOR
Classificação: Precisão, Revocação, Exatidão, Entropia cruzada
RAG: fundamentação, relevância

Observação

Para obter mais informações sobre como avaliar modelos de linguagem e soluções RAG, consulte a avaliação de ponta a ponta da LLM.

As soluções de IA generativas geralmente ampliam as responsabilidades da equipe de machine learning, passando de treinamento de modelos para engenharia de prompts e gestão de dados de fundamentação. Como a engenharia de solicitação e a experimentação e avaliação RAG não exigem necessariamente cientistas de dados, é tentador usar outras funções, como engenheiros de software e engenheiros de dados, para realizar essas funções. Você poderá encontrar desafios se omitir cientistas de dados do processo de experimentação com soluções de engenharia de prompt e RAG. Outras funções geralmente não têm o treinamento especializado necessário para avaliar cientificamente os resultados tão efetivamente quanto os cientistas de dados. Para obter mais informações, consulte Design e desenvolva uma solução RAG.

Investir em soluções de IA generativas ajuda a aliviar parte da carga de trabalho em seus recursos de ciência de dados. O papel dos engenheiros de software aumenta nessas soluções. Por exemplo, os engenheiros de software são ótimos profissionais para gerenciar a responsabilidade de orquestração em soluções de IA generativas e são hábeis em configurar as métricas de avaliação em ferramentas como o prompt flow. É importante que os cientistas de dados revisem esse trabalho. Eles têm o treinamento e a experiência para entender como avaliar adequadamente os experimentos.

Implantação

Algumas soluções de IA generativas incluem a implantação de modelos treinados personalizados ou o ajuste fino de modelos existentes. Para soluções de IA generativas, você precisa incluir as tarefas extras de implantação dos orquestradores e quaisquer armazenamentos de dados. As seções a seguir descrevem a implantação para padrões técnicos típicos de IA generativa.

Treinamento e otimização

Você deve usar seus investimentos existentes do MLOps, com alguns ajustes possíveis, para implantar modelos de IA generativos e ajustar modelos de base. Por exemplo, para ajustar uma LLM no Serviço Azure OpenAI, você precisa garantir que seus conjuntos de dados de treinamento e validação estejam no formato JSONL e você precise carregar os dados por meio de uma API REST. Você também precisa criar um trabalho de ajuste fino. Para implantar um SLM treinado, você pode aproveitar os investimentos existentes do MLOps.

RAG e engenharia de solicitação

Para rag e engenharia de prompt, outras considerações incluem lógica de orquestração, modificações em armazenamentos de dados, como índices e esquemas, e ajustes na lógica do pipeline de dados. A lógica de orquestração normalmente é encapsulada em estruturas como Prompt Flow, Kernel Semântico ou LangChain. Você pode implantar o orquestrador em diferentes recursos de computação, incluindo os recursos nos quais você pode implantar modelos personalizados no momento. Para obter mais informações sobre como implantar o fluxo de prompt em pontos de extremidade online que o Machine Learning gerencia ou no Serviço de Aplicativo do Azure, consulte a arquitetura de referência de chat do Baseline AI Foundry. Para implantar no Serviço de Aplicativo, a arquitetura de chat do Azure OpenAI empacota o fluxo e suas dependências como um contêiner. Essa prática aumenta a portabilidade e a consistência em diferentes ambientes.

Implantações de alterações em recursos de banco de dados, como alterações em modelos de dados ou índices, são novas tarefas que precisam ser tratadas no GenAIOps. Uma prática comum ao trabalhar com LLMs é usar um gateway na frente da LLM.

Muitas arquiteturas de IA generativa que consomem modelos de linguagem hospedados na plataforma, como aqueles servidos da Azure OpenAI, incluem um gateway, como o Azure API Management. Os casos de uso do gateway incluem balanceamento de carga, autenticação e monitoramento. O gateway pode desempenhar um papel na implantação de modelos recém-treinados ou ajustados, o que permite que você implemente progressivamente novos modelos. O uso de um gateway, juntamente com o controle de versão do modelo, permite minimizar o risco ao implantar alterações e reverter para versões anteriores quando ocorrerem problemas.

As implantações de elementos específicos à IA gerativa, como o orquestrador, devem seguir os procedimentos operacionais adequados:

Testes rigorosos, incluindo testes de unidade
Testes de integração
Testes A/B
Testes de ponta a ponta
Estratégias de distribuição, como implantações canárias ou implantações azul-verde

Como as responsabilidades de implantação para aplicativos de IA gerativos vão além da implantação do modelo, talvez seja necessário ter funções de trabalho extras para gerenciar a implantação e o monitoramento de componentes como a interface do usuário, o orquestrador e os armazenamentos de dados. Essas funções geralmente estão alinhadas aos conjuntos de habilidades do engenheiro de DevOps.

Inferência e monitoramento

A inferência é o processo de passar a entrada para um modelo treinado e implantado, que gera uma resposta. Você deve monitorar o aprendizado de máquina tradicional e as soluções de IA generativas das perspectivas do monitoramento operacional, do aprendizado com a produção e do gerenciamento de recursos.

Monitoramento de operações

O monitoramento operacional é o processo de observação das operações em andamento do sistema, incluindo DataOps e treinamento de modelo. Esse tipo de monitoramento procura desvios, incluindo erros, alterações nas taxas de erro e alterações nos tempos de processamento.

Para treinamento de modelo e ajuste fino, você geralmente observa o DataOps para processar dados de recursos, treinamento de modelo e ajuste fino. O monitoramento desses processos de loop interno deve aproveitar seus investimentos existentes em MLOps e DataOps.

Para engenharia de solicitação em soluções de IA generativa, você tem outras preocupações de monitoramento. Você deve monitorar os pipelines de dados que processam os dados de fundamentação ou outros dados usados para gerar solicitações. Esse processamento pode incluir operações de armazenamento de dados, como compilação e recompilação de índices.

Em um sistema de vários agentes, você precisa monitorar a disponibilidade, as características de desempenho e a qualidade e consistência das respostas dos agentes com os quais o orquestrador interage.

Aprenda com a produção

Um aspecto crucial do monitoramento durante a fase de inferência é aprender com a produção. O monitoramento de modelos tradicionais de aprendizado de máquina rastreia métricas como acurácia, precisão e recall. Um objetivo fundamental é evitar o desvio de previsão. As soluções que usam modelos generativos para previsões, como um modelo GPT para classificação, devem aproveitar os investimentos existentes de monitoramento de MLOps.

Soluções que usam modelos generativos para raciocinar sobre dados de fundamentação utilizam métricas como fundamentação, integridade, uso e relevância. O objetivo é garantir que o modelo responda totalmente à consulta e baseie a resposta no contexto. Nesta solução, você precisa tentar evitar problemas como descompasso de dados. Você deseja garantir que os dados de fundamentação e a solicitação que você está fornecendo ao modelo sejam relevantes ao máximo para a consulta do usuário.

Soluções que usam modelos generativos para tarefas não preditivas, como soluções RAG, geralmente se beneficiam de feedback de usuários finais para avaliar sentimentos de utilidade. As interfaces do usuário podem capturar comentários como polegares para cima ou para baixo. Você pode usar esses dados para avaliar periodicamente as respostas.

Um padrão típico para soluções de IA generativas é implantar um gateway na frente dos modelos generativos. Um dos casos de uso para o gateway é monitorar os modelos de base. Você pode usar o gateway para registrar os prompts de entrada e a saída do modelo.

Outra área importante a ser monitorada para soluções generativas é a segurança do conteúdo. O objetivo é moderar as respostas e detectar conteúdo prejudicial ou indesejável. O Microsoft Azure AI Content Safety Studio é uma ferramenta que você pode usar para moderar o conteúdo.

Gerenciamento de recursos

As soluções generativas que usam modelos expostos como um serviço, como o OpenAI do Azure, têm preocupações de gerenciamento de recursos diferentes dos modelos que você implanta por conta própria. Para modelos expostos como um serviço, o gerenciamento de infraestrutura não é uma preocupação. Em vez disso, o foco está na taxa de transferência, cota e limitação do serviço. O Azure OpenAI usa tokens para cobrança, controle de tráfego e cotas. Você deve monitorar o uso da cota para gerenciamento de custos e eficiência de desempenho. O Azure OpenAI também fornece recursos de log para acompanhar o uso de token.

Ferramentas

Muitos profissionais de MLOps usam um kit de ferramentas padronizado para organizar atividades como automação, acompanhamento, implantação e experimentação. Essa abordagem abstrai preocupações comuns e detalhes de implementação, o que torna esses processos mais eficientes e gerenciáveis. Uma plataforma unificada popular é o MLflow. Antes de procurar novas ferramentas para dar suporte a padrões GenAIOps, você deve examinar as ferramentas MLOps existentes para avaliar seu suporte para IA generativa. Por exemplo, o MLflow dá suporte a uma ampla gama de recursos para modelos de linguagem.

Você também pode explorar os benefícios e as compensações da introdução de novas ferramentas ao seu fluxo. Por exemplo, o SDK de Avaliação de IA do Azure para Python pode ser uma opção viável porque tem suporte nativo no portal do Azure AI Foundry.

Modelos de maturidade MLOps e GenAIOps

Você pode ter usado o modelo de maturidade do MLOps para avaliar a maturidade do seu ambiente e do MLOps atual. À medida que você estende seus investimentos em MLOps para cargas de trabalho de IA generativa, você deve usar o modelo de maturidade GenAIOps para avaliar essas operações. Talvez você queira combinar os dois modelos de maturidade, mas recomendamos que você meça cada modelo independentemente porque MLOps e GenAIOps evoluem separadamente. Por exemplo, você pode estar no nível quatro no modelo de maturidade do MLOps, mas apenas no nível um no modelo de maturidade do GenAIOps.

Use a avaliação do Modelo de Maturidade do GenAIOps. Essa avaliação ajuda você a entender como seus investimentos no GenAIOps estão progredindo.

Resumo

À medida que você começa a estender seus investimentos em MLOps para incluir IA generativa, é importante entender que você não precisa recomeçar. Você pode usar seus investimentos existentes do MLOps para vários dos padrões técnicos de IA generativos. O ajuste fino de modelos generativos é um ótimo exemplo. Alguns processos em soluções de IA generativas, como engenharia de comandos e RAG, são novos. Como eles não fazem parte dos fluxos de trabalho tradicionais de IA, você precisa estender seus investimentos em operações existentes e obter novas habilidades para usá-los efetivamente.

Colaboradores

A Microsoft mantém este artigo. Os colaboradores a seguir escreveram este artigo.

Luiz Braz | Especialista técnico sênior
Marco Aurélio Cardoso | Engenheiro de software sênior
Paulo Lacerda | Arquiteto de soluções na nuvem
Ritesh Modi | Engenheiro de software líder

Para ver perfis não públicos no LinkedIn, entre no LinkedIn.

Compartilhar via

Operações de IA generativa para organizações com investimentos em MLOps

Padrões técnicos de IA generativa

Treinamento e ajuste fino de modelos de linguagem

Engenharia de prompt

TRAPO

Estender o MLOps para padrões técnicos de IA generativos

Operações de Dados

Treinamento e otimização

RAG e engenharia de solicitação

Manutenção do índice de pesquisa

Experimentação

Treinamento e otimização

RAG e engenharia de solicitação

Avaliação e experimentação

Treinamento e otimização

RAG e engenharia de solicitação

Implantação

Treinamento e otimização

RAG e engenharia de solicitação

Inferência e monitoramento

Monitoramento de operações

Aprenda com a produção

Gerenciamento de recursos

Ferramentas

Modelos de maturidade MLOps e GenAIOps

Resumo

Colaboradores

Próximas etapas

Recursos relacionados

Comentários

Recursos adicionais