Compartilhar via


Padrões de orquestração de agentes de IA

À medida que arquitetos e desenvolvedores projetam sua carga de trabalho para aproveitar ao máximo as funcionalidades do modelo de linguagem, os sistemas de agente de IA se tornam cada vez mais complexos. Esses sistemas geralmente excedem as habilidades de um único agente que tem acesso a muitas ferramentas e fontes de conhecimento. Em vez disso, esses sistemas usam orquestrações de vários agentes para lidar com tarefas complexas e colaborativas de forma confiável. Este guia aborda padrões de orquestração fundamentais para arquiteturas de vários agentes e ajuda você a escolher a abordagem que atende aos seus requisitos específicos.

Visão geral

Ao usar vários agentes de IA, você pode dividir problemas complexos em unidades especializadas de trabalho ou conhecimento. Você atribui cada tarefa a agentes de IA dedicados que têm recursos específicos. Essas abordagens espelham estratégias encontradas no trabalho em equipe humano. O uso de vários agentes oferece várias vantagens em comparação com soluções monolíticas de agente único.

  • Especialização: Agentes individuais podem se concentrar em um domínio ou recurso específico, o que reduz a complexidade do código e do prompt.

  • Escalabilidade: Os agentes podem ser adicionados ou modificados sem reprojetar todo o sistema.

  • Manutenibilidade: O teste e a depuração podem ser focados em agentes individuais, o que reduz a complexidade dessas tarefas.

  • Optimização: Cada agente pode usar modelos distintos, abordagens de resolução de tarefas, conhecimento, ferramentas e computação para obter seus resultados.

Os padrões neste guia mostram abordagens comprovadas para orquestrar vários agentes para trabalharem juntos e alcançarem um resultado. Cada padrão é otimizado para diferentes tipos de requisitos de coordenação. Esses padrões de orquestração do agente de IA complementam e estendem os padrões tradicionais de design de nuvem, abordando os desafios exclusivos de coordenar componentes autônomos em recursos de carga de trabalho controlados por IA.

Orquestração sequencial

O padrão de orquestração sequencial encadeia agentes de IA em uma ordem linear predefinida. Cada agente processa a saída do agente anterior na sequência, o que cria um pipeline de transformações especializadas.

Diagrama que mostra a orquestração sequencial em que os agentes processam tarefas em uma ordem de pipeline definida. A saída flui de um agente para o próximo.

O padrão de orquestração sequencial resolve problemas que exigem processamento passo a passo, em que cada estágio se baseia no estágio anterior. Ele atende a fluxos de trabalho que têm dependências claras e melhoram a qualidade da saída por meio do refinamento progressivo. Esse padrão se assemelha ao padrão de design de nuvem Pipes e Filtros , mas usa agentes de IA em vez de componentes de processamento codificados personalizados. A escolha de qual agente é invocado em seguida é definida deterministicamente como parte do fluxo de trabalho e não é uma escolha dada aos agentes no processo.

Quando usar orquestração sequencial

Considere o padrão de orquestração sequencial nos seguintes cenários:

  • Processos de vários estágios que têm dependências lineares claras e progressão previsível do fluxo de trabalho

  • Pipelines de transformação de dados, em que cada estágio adiciona um valor específico do qual o próximo estágio depende

  • Estágios de fluxo de trabalho que não podem ser paralelizados

  • Requisitos incrementais de refinamento, como fluxos de trabalho de rascunho, revisão e aprimoramento

  • Sistemas em que você entende as características de disponibilidade e desempenho de cada agente de IA no pipeline e em que falhas ou atrasos no processamento de um agente de IA são toleráveis para que a tarefa geral seja realizada

Quando evitar orquestração sequencial

Evite esse padrão nos seguintes cenários:

  • Os estágios são perfeitamente paralelos. Você pode paralelizá-los sem comprometer a qualidade ou criar contenção de estado compartilhado.

  • Processos que incluem apenas alguns estágios que um único agente de IA pode realizar efetivamente.

  • Os estágios iniciais podem falhar ou produzir saída de baixa qualidade e não há uma maneira razoável de impedir que as etapas posteriores sejam processadas usando a saída de erro acumulada.

  • Os agentes de IA precisam colaborar em vez de entregar o trabalho.

  • O fluxo de trabalho requer retrocesso ou iteração.

  • Você precisa de roteamento dinâmico com base em resultados intermediários.

Exemplo de orquestração sequencial

O software de gerenciamento de documentos de um escritório de advocacia usa agentes sequenciais para geração de contratos. O aplicativo inteligente processa solicitações por meio de um pipeline de quatro agentes especializados. As etapas sequenciais e predefinidas do fluxo de trabalho garantem que cada agente trabalhe com a saída completa do estágio anterior.

Diagrama que mostra a orquestração sequencial em que um pipeline de criação de documento é implementado com agentes.

  1. O agente de seleção de modelo recebe especificações do cliente, como tipo de contrato, jurisdição e partes envolvidas, e seleciona o modelo base apropriado na biblioteca da empresa.

  2. O agente de personalização de cláusula usa o modelo selecionado e modifica cláusulas padrão com base em termos de negócios negociados, incluindo agendas de pagamento e limitações de responsabilidade.

  3. O agente de conformidade regulatória revisa o contrato personalizado em relação às leis aplicáveis e às regulamentações específicas do setor.

  4. O agente de avaliação de risco executa uma análise abrangente do contrato completo. Ele avalia os mecanismos de exposição de responsabilidade e resolução de controvérsias, fornecendo classificações de risco e recomendações de linguagem de proteção.

Orquestração simultânea

O padrão de orquestração simultânea executa vários agentes de IA simultaneamente na mesma tarefa. Essa abordagem permite que cada agente forneça análises ou processamentos independentes de sua perspectiva ou especialização exclusivas.

Diagrama que mostra a orquestração simultânea em que vários agentes processam a mesma tarefa de entrada simultaneamente e seus resultados são agregados.

Esse padrão aborda cenários em que você precisa de insights ou abordagens diversas para o mesmo problema. Em vez de processamento sequencial, todos os agentes trabalham em paralelo, o que reduz o tempo de execução geral e fornece uma cobertura abrangente do espaço problemático. Esse padrão de orquestração se assemelha ao padrão de design de nuvem Fan-out/Fan-in. Os resultados de cada agente geralmente são agregados para retornar um resultado final, mas isso não é necessário. Cada agente pode produzir independentemente seus próprios resultados dentro da carga de trabalho, como invocar ferramentas para realizar tarefas ou atualizar diferentes armazenamentos de dados em paralelo.

Os agentes operam de forma independente e não entregam resultados uns aos outros. Um agente pode invocar agentes extras de IA usando sua própria abordagem de orquestração como parte de seu processamento independente. Os agentes disponíveis devem saber quais agentes estão disponíveis para processamento. Esse padrão dá suporte a chamadas determinísticas a todos os agentes registrados e à seleção dinâmica de quais agentes invocar com base nos requisitos de tarefa.

Quando usar orquestração simultânea

Considere o padrão de orquestração simultâneo nos seguintes cenários:

  • Tarefas que você pode executar em paralelo, usando um conjunto fixo de agentes ou escolhendo dinamicamente agentes de IA com base em requisitos específicos de tarefa.

  • Tarefas que se beneficiam de várias perspectivas independentes ou especializações diferentes, como abordagens técnicas, comerciais e criativas, que podem contribuir para o mesmo problema. Essa colaboração normalmente ocorre em cenários que apresentam as seguintes técnicas de tomada de decisão de vários agentes:

    • Tempestade de ideias

    • Raciocínio de conjunto

    • Quorum e decisões baseadas em votação

  • Cenários sensíveis ao tempo em que o processamento paralelo reduz a latência.

Quando evitar orquestração simultânea

Evite esse padrão de orquestração nos seguintes cenários:

  • Os agentes precisam se basear no trabalho uns dos outros ou exigir contexto cumulativo em uma sequência específica.

  • A tarefa requer uma ordem específica de operações ou resultados determinísticos e reproduzíveis da execução em uma sequência definida.

  • Restrições de recurso, como cota de modelo, tornam o processamento paralelo ineficiente ou impossível.

  • Os agentes não podem coordenar de forma confiável as alterações no estado compartilhado ou nos sistemas externos durante a execução simultânea.

  • Não há uma estratégia clara de resolução de conflitos para lidar com resultados contraditórios ou conflitantes de cada agente.

  • A lógica de agregação de resultados é muito complexa ou reduz a qualidade dos resultados.

Exemplo de orquestração simultânea

Uma empresa de serviços financeiros criou um aplicativo inteligente que usa agentes simultâneos especializados em diferentes tipos de análise para avaliar o mesmo estoque simultaneamente. Cada agente contribui com insights de sua perspectiva especializada, que fornece entradas diversas e sensíveis ao tempo para decisões rápidas de investimento.

Diagrama que mostra a orquestração simultânea para avaliar um estoque.

A imagem contém três seções principais. Na seção superior, uma seta aponta do símbolo ticker para o agente de análise de ações. Uma linha conecta o Modelo e o conhecimento de mapeamento de símbolos de câmbio ao agente de análise de ações. Uma seta aponta do agente de análise de estoque para uma seção onde se lê Decisão com evidência de apoio baseada em resultados intermediários combinados. Uma linha conecta o agente de análise de ações a uma linha que aponta para quatro seções separadas. Essas seções são quatro fluxos separados: agente de análise fundamental, agente de análise técnica, agente de análise de sentimento e agente ESG. Uma linha conecta o Modelo ao fluxo do agente de análise fundamental. Uma seta aponta do fluxo do agente de análise fundamentalista para o resultado intermediário. Uma linha aponta do fluxo do agente de análise fundamental e se divide em dois fluxos: agente de análise financeira e de receita e agente de análise competitiva. Uma linha conecta o agente de análise de receitas e finanças a uma seção onde se lê Modelo, conhecimento de finanças relatadas. Uma linha conecta o agente de análise competitiva a uma seção onde se lê Modelo, conhecimento competitivo. Uma seta aponta do agente de análise técnica para o resultado intermediário. Uma linha conecta o agente de análise técnica a uma seção onde se lê modelo ajustado, APIs de mercado. Uma seta aponta do agente de análise de sentimentos para o resultado intermediário. Uma linha conecta o agente de análise de Sentimento a uma seção que lê Modelo, APIs sociais, APIs de notícias. Uma seta indica a direção do agente ESG para o resultado intermediário. Uma linha conecta o agente ESG a uma seção intitulada "Modelo, Conhecimento ESG."

O sistema processa solicitações de análise de ações enviando o mesmo símbolo de ação para quatro agentes especializados que são executados em paralelo.

  • O agente de análise fundamental avalia demonstrações financeiras, tendências de receita e posicionamento competitivo para avaliar o valor intrínseco.

  • O agente de análise técnica examina padrões de preço, indicadores de volume e sinais de impulso para identificar oportunidades de negociação.

  • O agente de análise de sentimento processa artigos de notícias, menções de mídia social e relatórios de analistas para medir o sentimento do mercado e a confiança dos investidores.

  • O agente ambiental, social e de governança (ESG) analisa os relatórios de impacto ambiental, responsabilidade social e prática de governança para avaliar riscos e oportunidades de sustentabilidade.

Esses resultados independentes são então combinados em uma recomendação abrangente de investimento, que permite aos gestores de portfólio tomar decisões informadas rapidamente.

Orquestração de chat em grupo

O padrão de orquestração de chat em grupo permite que vários agentes resolvam problemas, tomam decisões ou validem o trabalho participando de um thread de conversa compartilhada em que colaboram durante a discussão. Um gerenciador de chat coordena o fluxo determinando quais agentes podem responder em seguida e gerenciando diferentes modos de interação, desde o brainstorming colaborativo até os portões de qualidade estruturados.

Diagrama que mostra a orquestração de chat em grupo em que vários agentes participam de uma conversa gerenciada. Um gerenciador de chat central coordena o fluxo de discussão.

Esse padrão aborda cenários que são melhor realizados por meio da discussão em grupo para chegar a decisões. Esses cenários podem incluir ideação colaborativa, validação estruturada ou processos de controle de qualidade. O padrão dá suporte a vários modos de interação, desde o brainstorming mais livre até fluxos de trabalho de revisão formal que têm funções fixas e etapas de aprovação.

Esse padrão funciona bem para cenários humanos no loop em que os humanos podem, opcionalmente, assumir responsabilidades dinâmicas do gerenciador de chat e orientar conversas em direção a resultados produtivos. Nesse padrão de orquestração, os agentes normalmente estão em um modo somente leitura. Eles não usam ferramentas para fazer alterações em sistemas em execução.

Quando usar a orquestração de chat em grupo

Considere a orquestração de chat em grupo quando seu cenário puder ser resolvido por meio de colaboração espontânea ou guiada ou de loops iterativos de verificação do criador. Todas essas abordagens apoiam a supervisão ou a participação humana em tempo real. Como todos os agentes e humanos no loop emitem saída em um único thread de acúmulo, esse padrão oferece transparência e capacidade de auditoria.

Cenários colaborativos

  • Sessões criativas de debate em que agentes que têm diferentes perspectivas e fontes de conhecimento se baseiam nas contribuições uns dos outros para o bate-papo

  • Processos decisórios que se beneficiam do debate e da construção de consensos

  • Cenários de tomada de decisão que exigem refinamento iterativo por meio da discussão

  • Problemas multidisciplinares que exigem diálogo multifuncional

Cenários de controle de qualidade e validação

  • Requisitos de garantia de qualidade que envolvem processos de revisão estruturados e iteração

  • Conformidade e validação regulatória que exigem várias perspectivas de especialistas

  • Fluxos de trabalho de criação de conteúdo que exigem revisão editorial com uma clara separação de preocupações entre criação e validação

Quando evitar a orquestração de conversas em grupo

Evite esse padrão nos seguintes cenários:

  • A delegação de tarefas simples ou o processamento de pipeline linear são suficientes.

  • Os requisitos de processamento em tempo real tornam a sobrecarga de discussão inaceitável.

  • A tomada de decisão hierárquica clara ou os fluxos de trabalho determinísticos sem discussão são mais apropriados.

  • O gerenciador de chat não tem nenhuma maneira objetiva de determinar se a tarefa está concluída.

O gerenciamento do fluxo de conversa e a prevenção de loops infinitos exigem atenção cuidadosa, especialmente à medida que mais agentes tornam o controle mais difícil de manter. Para manter o controle efetivo, considere limitar a orquestração de chat em grupo a três ou menos agentes.

Loops de maker-checker

O loop maker-checker é um tipo específico de orquestração de chat em grupo em que um agente, o criador, cria ou propõe algo. Outro agente, o verificador, fornece uma crítica ao resultado. Esse padrão é iterativo, com o agente verificador encaminhando a conversa de volta para o agente criador para fazer atualizações e repetir o processo. Embora o padrão de chat em grupo não exija que os agentes se revezem conversando, o loop do maker-checker requer uma sequência formal baseada em turnos que o gerenciador de chat conduz.

Exemplo de orquestração de chat em grupo

Um departamento de parques e recreação da cidade usa software que inclui orquestração de chat em grupo para avaliar novas propostas de desenvolvimento de parques. O software lê a proposta, e vários agentes especialistas debatem diferentes perspectivas de impacto da comunidade e trabalham em direção a um consenso sobre a proposta. Esse processo ocorre antes que a proposta seja aberta para revisão da comunidade para ajudar a prever os comentários que ela pode receber.

Diagrama que mostra a orquestração de chat em grupo para planejamento de parques municipais com agentes especializados em planejamento urbano.

O sistema processa propostas de desenvolvimento de parques iniciando uma consulta em grupo com agentes municipais especializados que se envolvem na tarefa de várias perspectivas cívicas.

  • O agente de engajamento da comunidade avalia os requisitos de acessibilidade, os comentários antecipados dos residentes e os padrões de uso para garantir o acesso equitativo à comunidade.

  • O agente de planejamento ambiental avalia o impacto ecológico, as medidas de sustentabilidade, o deslocamento de vegetação nativa e a conformidade com as normas ambientais.

  • O agente de orçamento e operações analisa os custos de construção, as despesas de manutenção contínuas, os requisitos de pessoal e a sustentabilidade operacional de longo prazo.

O gerenciador de chat facilita o debate estruturado em que os agentes desafiam as recomendações uns dos outros e defendem seu raciocínio. Um funcionário do departamento de parques participa do thread de chat para adicionar insights e responder às solicitações de conhecimento dos agentes em tempo real. Esse processo permite que o funcionário atualize a proposta original para resolver as preocupações identificadas e se preparar melhor para comentários da comunidade.

Orquestração de entrega

O padrão de orquestração de entrega permite a delegação dinâmica de tarefas entre agentes especializados. Cada agente pode avaliar a tarefa em questão e decidir se deseja lidar com ela diretamente ou transferi-la para um agente mais apropriado com base no contexto e nos requisitos.

Diagrama que mostra a orquestração de entrega em que um agente roteia tarefas de forma inteligente para agentes especialistas apropriados com base na análise dinâmica.

Esse padrão aborda cenários em que o agente ideal para uma tarefa não é conhecido antecipadamente ou em que os requisitos de tarefa ficam claros somente durante o processamento. Ele habilita o roteamento inteligente e garante que as tarefas atinjam o agente mais capaz. Normalmente, os agentes nesse padrão não funcionam em paralelo. O controle total é transferido de um agente para outro agente.

Quando usar a orquestração de entrega

Considere o padrão de entrega do agente nos seguintes cenários:

  • Tarefas que exigem conhecimento especializado ou ferramentas, mas em que o número de agentes necessários ou seu pedido não pode ser predeterminado

  • Cenários em que os requisitos de experiência surgem durante o processamento, resultando em roteamento dinâmico de tarefas com base na análise de conteúdo

  • Problemas de vários domínios que exigem diferentes especialistas que operam um de cada vez

  • Relações lógicas e sinais que você pode predeterminar para indicar quando um agente atinge seu limite de capacidade e qual agente deve lidar com a tarefa em seguida

Quando evitar a orquestração de entrega

Evite esse padrão nos seguintes cenários:

  • Os agentes apropriados e sua ordem são sempre conhecidos antecipadamente.

  • O roteamento de tarefas é simples e deterministicamente baseado em regras, não com base na janela de contexto dinâmico ou na interpretação dinâmica.

  • Decisões de roteamento abaixo do ideal podem levar a uma experiência de usuário ruim ou frustrante.

  • Várias operações devem ser executadas simultaneamente para resolver a tarefa.

  • Evitar um loop de entrega infinito ou evitar saltos excessivos entre agentes é um desafio.

Exemplo de padrão de transferência do agente

Uma solução de CRM (gerenciamento de relacionamento com o cliente) de telecomunicações usa agentes de entrega em seu portal da Web de suporte ao cliente. Um agente inicial começa a ajudar os clientes, mas descobre que precisa de conhecimento especializado durante a conversa. O agente inicial passa a tarefa para o agente mais apropriado para resolver a preocupação do cliente. Apenas um agente de cada vez opera na entrada original e a cadeia de entrega resulta em um único resultado.

Diagrama que mostra a orquestração de entrega em que um agente de triagem encaminha perguntas de forma inteligente para agentes especialistas apropriados com base na análise dinâmica.

Nesse sistema, o agente de suporte de triagem interpreta a solicitação e tenta lidar diretamente com problemas comuns. Quando atinge seus limites, ele entrega problemas de rede a um agente de infraestrutura técnica, disputas de cobrança a um agente de resolução financeira e assim por diante. Outras transferências ocorrem dentro desses agentes quando o agente atual reconhece seus próprios limites de capacidade e conhece que outro agente pode dar um melhor suporte ao cenário.

Cada agente é capaz de concluir a conversa se determinar que o sucesso do cliente foi alcançado ou se nenhum outro agente pode beneficiar ainda mais o cliente. Alguns agentes também são projetados para entregar a experiência do usuário a um agente de suporte humano quando o problema é importante para resolver, mas nenhum agente de IA atualmente tem os recursos para resolvê-lo.

Um exemplo de uma instância de entrega está destacado no diagrama. Ele começa com o agente de triagem que entrega a tarefa ao agente de infraestrutura técnica. Em seguida, o agente de infraestrutura técnica decide entregar a tarefa ao agente de resolução financeira, o que, em última análise, redireciona a tarefa para o suporte ao cliente.

Orquestração magêntica

O padrão de orquestração magnética foi projetado para problemas abertos e complexos que não têm um plano de abordagem predeterminado. Os agentes nesse padrão normalmente têm ferramentas que permitem que eles façam alterações diretas em sistemas externos. O foco é tanto na criação e documentação da abordagem para resolver o problema quanto na implementação dessa abordagem. A lista de tarefas é criada e refinada dinamicamente como parte do fluxo de trabalho por meio da colaboração entre agentes especializados e um agente de gerenciamento magnético. À medida que o contexto evolui, o agente gerente magnético constrói um registro de tarefas para desenvolver o plano de abordagem com metas e submetas, que acaba sendo finalizado, seguido e rastreado para concluir o resultado desejado.

Diagrama que mostra a orquestração magêntica.

O agente gestor se comunica diretamente com agentes especializados para coletar informações à medida que cria e refina o registro de tarefas. Itera, retrocede e delega quantas vezes for necessário para criar um plano completo que possa ser realizado com êxito. O agente do gerente frequentemente avalia se a solicitação original está totalmente satisfeita ou paralisada. Ele atualiza o razão para ajustar o plano.

De certa forma, esse padrão de orquestração é uma extensão do padrão de chat em grupo . O padrão de orquestração magnética concentra-se em um agente que cria um plano de abordagem, enquanto outros agentes usam ferramentas para fazer alterações em sistemas externos, em vez de usar apenas seus repositórios de conhecimento para alcançar um resultado.

Quando usar orquestração magnética

Considere o padrão magnético nos seguintes cenários:

  • Um caso de uso complexo ou aberto que não tem um caminho de solução predeterminado.

  • Um requisito para considerar a entrada e os comentários de vários agentes especializados para desenvolver um caminho de solução válido.

  • Um requisito para que o sistema de IA gere um plano de abordagem totalmente desenvolvido que um humano possa examinar antes ou depois da implementação.

  • Agentes equipados com ferramentas que interagem com sistemas externos, consomem recursos externos ou podem induzir alterações em sistemas em execução. Um plano documentado que mostra como esses agentes são sequenciados pode ser apresentado a um usuário antes de permitir que os agentes sigam as tarefas.

Quando evitar a orquestração magnética

Evite esse padrão nos seguintes cenários:

  • O caminho da solução é desenvolvido ou deve ser abordado de forma determinística.

  • Não há nenhum requisito para produzir uma razão.

  • A tarefa tem baixa complexidade e um padrão mais simples pode resolvê-la.

  • O trabalho é sensível ao tempo, pois o padrão se concentra em elaborar e debater planos viáveis, não na otimização para resultados finais.

  • Você prevê paradas frequentes ou loops infinitos que não têm um caminho claro para a resolução.

Exemplo de orquestração magêntica

Uma equipe de SRE (engenharia de confiabilidade do site) criou uma automação que usa orquestração magnática para lidar com cenários de resposta a incidentes de baixo risco. Quando ocorre uma interrupção de serviço no escopo da automação, o sistema deve criar e implementar dinamicamente um plano de correção. Ele faz isso sem saber as etapas específicas necessárias antecipadamente.

Diagrama que mostra a orquestração magêntica para automação de SRE.

A imagem mostra a seção do agente do gerenciador de automação do SRE que inclui entrada e um modelo. Uma seta aponta do agente do gerenciador de automação do SRE para a seção de razão de Tarefas e progresso. Uma seta rotulada como Invocar agentes de conhecimento e ação aponta para uma linha que aponta para os agentes de Infraestrutura, Diagnóstico, Reversão e Comunicação. Uma seta com o rótulo Avaliar loop de meta aponta do agente do gerenciador de automação do SRE para a seção Problema resolvido no site ao vivo. Uma seta rotulada Sim aponta de problema de site ao vivo resolvido para Resultado. A seção Tarefa e progresso do registro inclui um plano de abordagem de resolução, status das tarefas de resolução e a seção de problemas do site ao vivo resolvidos. Uma seta rotulada como Não aponta do problema no site ao vivo para o agente do gerenciador de automação SRE. Uma linha começa no agente de diagnóstico, passa pela seção de conhecimento de log, modelo e métricas e aponta para sistemas de Workload. Uma linha começa no agente de infraestrutura, passa pela seção de modelo, conhecimento de grafos e ferramentas da CLI, e se une à linha que aponta para os sistemas de carga de trabalho. Uma linha começa no agente de Reversão, passa pelo modelo, acesso ao Git, seção de ferramentas de CLI e aponta para sistemas de Workload. Uma linha começa no agente de Comunicação, passa pela seção de Modelo e de acesso à API de comunicação, e aponta para a seção de Participante humano.

Quando a automação detecta um incidente qualificado, o agente do gerenciador magnético começa criando um diário de tarefas inicial com metas de alto nível, como a restauração da disponibilidade do serviço e a identificação da causa raiz. Em seguida, o agente gerente consulta agentes especializados para coletar informações e refinar o plano de correção.

  1. O agente de diagnóstico analisa logs do sistema, métricas de desempenho e padrões de erro para identificar possíveis causas. Ele relata as descobertas para o agente gerente.

  2. Com base nos resultados do diagnóstico, o agente gerente atualiza o livro razão de tarefas com etapas específicas de investigação e consulta o agente de infraestrutura para entender o estado atual do sistema e as opções de recuperação disponíveis.

  3. O agente de comunicação fornece recursos de notificação de partes interessadas e o agente gerente incorpora pontos de verificação de comunicação e portões de aprovação no plano em evolução de acordo com os procedimentos de escalonamento da equipe da SRE.

  4. À medida que o cenário fica mais claro, o agente gerenciador pode adicionar o agente de reversão ao plano se a reversão de implantação for necessária ou escalar para engenheiros SRE humanos se o incidente exceder o escopo da automação.

Ao longo desse processo, o agente gestor refina continuamente o registro da tarefa com base em novas informações. Ele adiciona, remove ou reordena tarefas à medida que o incidente evolui. Por exemplo, se o agente de diagnóstico descobrir um problema de conexão de banco de dados, o agente gerente poderá mudar todo o plano de uma estratégia de reversão de implantação para um plano que se concentre na restauração da conectividade de banco de dados.

O agente gerenciador fica atento a atrasos excessivos na restauração do serviço e protege contra loops de correção infinitos. Ele mantém uma trilha de auditoria completa do plano em evolução e das etapas de implementação, o que fornece transparência para a revisão pós-incidente. Essa transparência garante que a equipe do SRE possa melhorar a carga de trabalho e a automação com base nas lições aprendidas.

Considerações sobre implementação

Quando você implementa qualquer um desses padrões de design de agente, várias considerações devem ser tratadas. A revisão dessas considerações ajuda você a evitar armadilhas comuns e garante que a orquestração do agente seja robusta, segura e fácil de manter.

Agente único, multitool

Você pode resolver alguns problemas com um único agente se lhe der acesso suficiente a ferramentas e fontes de conhecimento. À medida que o número de fontes de conhecimento e ferramentas aumenta, torna-se difícil fornecer uma experiência de agente previsível. Se um único agente puder resolver seu cenário de forma confiável, considere adotar essa abordagem. A tomada de decisões e a sobrecarga de controle de fluxo geralmente excedem os benefícios de dividir a tarefa em vários agentes. No entanto, limites de segurança, linha de visão de rede e outros fatores ainda podem tornar inviável uma abordagem de agente único.

Roteamento determinístico

Alguns padrões exigem que você roteie o fluxo entre agentes deterministicamente. Outros dependem de agentes para escolher suas próprias rotas. Se seus agentes estiverem definidos em um ambiente sem código ou de baixo código, talvez você não controle esses comportamentos. Se você definir seus agentes no código usando SDKs como o Microsoft Agent Framework ou o Kernel Semântico, você terá mais controle.

Janela de contexto

Os agentes de IA geralmente têm janelas de contexto limitadas. Essa restrição pode afetar a capacidade de processar tarefas complexas. Ao implementar esses padrões, decida qual contexto o próximo agente precisa para ser eficaz. Em alguns cenários, você precisa do contexto completo e bruto coletado até agora. Em outros cenários, uma versão resumida ou truncada é mais apropriada. Se o agente puder trabalhar sem contexto acumulado e exigir apenas um novo conjunto de instruções, use essa abordagem em vez de fornecer um contexto que não ajude a realizar a tarefa do agente.

Fiabilidade

Esses padrões exigem agentes de funcionamento adequado e transições confiáveis entre eles. Geralmente, eles resultam em problemas de sistemas distribuídos clássicos, como falhas de nó, partições de rede, perda de mensagens e erros em cascata. Estratégias de mitigação devem estar em vigor para enfrentar esses desafios. Os agentes e seus orquestradores devem executar as etapas a seguir.

  • Implementar mecanismos de tempo de espera e repetição.

  • Inclua uma implementação de degradação gradual para lidar com um ou mais agentes em um padrão de falha.

  • Em vez de ocultar os erros, exponha-os para que os agentes posteriores e a lógica do orquestrador possam responder de maneira adequada.

  • Considere padrões de disjuntor para dependências de agente.

  • Projete os agentes para serem tão isolados quanto for praticável uns dos outros, com pontos únicos de falha que não são compartilhados entre eles. Por exemplo:

    • Certifique-se de isolamento de computação entre agentes.

    • Avaliar como usar um único modelo como um modelo de serviço (MaaS) ou um repositório de conhecimento compartilhado pode resultar em limitação de taxa quando os agentes são executados simultaneamente.

  • Use recursos de ponto de verificação disponíveis em seu SDK para ajudar a se recuperar de uma orquestração interrompida, como de uma falha ou de uma nova implantação de código.

Segurança

Implementar mecanismos de segurança adequados nesses padrões de design minimiza o risco de expor seu sistema de IA a ataques ou vazamento de dados. Proteger a comunicação entre agentes e limitar o acesso de cada agente a dados confidenciais são as principais estratégias de design de segurança. Considere as seguintes medidas de segurança:

  • Implemente a autenticação e use a rede segura entre agentes.

  • Considere as implicações de privacidade de dados das comunicações do agente.

  • Crie trilhas de auditoria para atender aos requisitos de conformidade.

  • Projete agentes e seus orquestradores para seguir o princípio do menor privilégio.

  • Considere como lidar com a identidade do usuário entre agentes. Os agentes devem ter amplo acesso aos repositórios de conhecimento para lidar com solicitações de todos os usuários, mas não devem retornar dados inacessíveis para o usuário. A restrição de segurança deve ser implementada em todos os agentes no modelo.

Observabilidade e teste

Distribuir seu sistema de IA entre vários agentes requer monitorar e testar cada agente individualmente, bem como o sistema como um todo, para garantir a funcionalidade adequada. Ao projetar suas estratégias de observabilidade e teste, considere as seguintes recomendações:

  • Instrumente todas as operações e entregas do agente. A solução de problemas de sistemas distribuídos é um desafio de ciência da computação e os agentes de IA orquestrados não são exceção.

  • Acompanhe as métricas de desempenho e uso de recursos para cada agente para que você possa estabelecer uma linha de base, encontrar gargalos e otimizar.

  • Criar interfaces testáveis para agentes individuais.

  • Implementar testes de integração para fluxos de trabalho de vários agentes.

Armadilhas comuns e antipadrões

Evite esses erros comuns ao implementar padrões de orquestração de agente:

  • Criar complexidade de coordenação desnecessária usando um padrão complexo quando uma orquestração sequencial ou simultânea simples seria suficiente.

  • Adicionar agentes que não fornecem especialização significativa.

  • Ignorar os impactos de latência da comunicação de vários saltos.

  • Compartilhar o estado mutável entre agentes simultâneos pode resultar em dados transacionalmente inconsistentes devido a suposições de atualizações de forma síncrona nos limites entre agentes.

  • Usando padrões determinísticos para fluxos de trabalho inerentemente não determinísticos.

  • Usando padrões não determinísticos para fluxos de trabalho inerentemente determinísticos.

  • Ignorando restrições de recurso quando você escolhe a orquestração simultânea.

  • Consumindo recursos de modelo excessivos porque as janelas de contexto crescem à medida que os agentes acumulam mais informações e consultam seu modelo para progredir em suas tarefas.

Combinando padrões de orquestração

Às vezes, os aplicativos exigem que você combine vários padrões de orquestração para atender aos requisitos deles. Por exemplo, você pode usar a orquestração sequencial para os estágios iniciais de processamento de dados e, em seguida, alternar para orquestração simultânea para tarefas de análise paralelizáveis. Não tente fazer com que um fluxo de trabalho se ajuste a um único padrão quando diferentes estágios da carga de trabalho têm características diferentes e podem se beneficiar de cada estágio usando um padrão diferente.

Relação com padrões de design de nuvem

Os padrões de orquestração do agente de IA estendem e complementam padrões tradicionais de design de nuvem , abordando os desafios exclusivos de coordenar componentes inteligentes e autônomos. Os padrões de design de nuvem se concentram em preocupações estruturais e comportamentais em sistemas distribuídos, mas os padrões de orquestração do agente de IA abordam especificamente a coordenação de componentes com recursos de raciocínio, comportamentos de aprendizagem e saídas não determinísticas.

Implementações baseadas em SDK

Muitos desses padrões dependem de uma implementação baseada em código para abordar a lógica de orquestração. Os SDKs que dão suporte a uma estrutura de agente geralmente oferecem suporte para muitos dos padrões de orquestração do agente.

Estrutura do Microsoft Agent

O SDK do Microsoft Agent Framework tem diretrizes de implementação para orquestração do Agent Framework.

Para implementação prática, explore exemplos de fluxo de trabalho declarativo do Agent Framework no GitHub que demonstram alguns desses padrões na prática.

Núcleo Semântico

O SDK do Kernel Semântico tem diretrizes de implementação para sua estrutura de agente.

Para implementação prática, explore exemplos de orquestração de vários agentes do Kernel Semântico no GitHub que demonstram esses padrões na prática.

Você também pode encontrar muitos desses padrões no AutoGen, como o Magentic-One.

Implementações no Serviço do Azure AI Foundry Agent

Você também pode usar o Serviço do Agente do Azure AI Foundry para encadear agentes em fluxos de trabalho relativamente simples usando sua funcionalidade de agentes conectados . Os fluxos de trabalho que você implementa usando esse serviço são principalmente não determinísticos, o que limita quais padrões podem ser totalmente implementados nesse ambiente sem código.

Contribuidores

A Microsoft mantém este artigo. Os colaboradores a seguir escreveram este artigo.

Autores principais:

  • Chad Kittel | Engenheiro de Software Principal – Padrões e Práticas do Azure
  • Clayton Siemens | Principal Desenvolvedor de Conteúdo – Padrões e Práticas do Azure

Outros colaboradores:

Para ver perfis não públicos no LinkedIn, entre no LinkedIn.

Próxima etapa