Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Depois que uma startup decide ir além dos protótipos e criar agentes de IA de nível de produção, o foco muda da experimentação para a arquitetura. A criação de um agente para clientes corporativos requer segurança, confiabilidade e adaptabilidade em vários clientes. As startups também devem procurar equilibrar o design atencioso com velocidade e simplicidade.
Ao criar agentes no Azure, há quatro áreas de projeto principais que cada startup deve abordar.
- Multitenância: como atender com segurança e eficiência a vários clientes isolando dados, contexto e computação.
- Camada de Aplicação: como os usuários interagem com o agente por meio de APIs, aplicativos do Teams ou experiências na web e como essas interfaces mapeiam a lógica e a segurança específicas do locatário.
- Camada de orquestração: como o raciocínio, o uso de ferramentas e a coordenação de ações são gerenciados para produzir resultados confiáveis e auditáveis em diversas tarefas e modelos.
- Camada de Contexto: como o agente recupera, estruturas e motivos sobre o conhecimento relevante usando pesquisa de vetor, armazenamentos de memória e integração de dados ao vivo.
Essas quatro áreas formam o backbone de uma arquitetura agente escalonável. Eles determinam não apenas o desempenho do agente, mas como ele evolui, oferecendo suporte a melhoria contínua, personalização por locatário e integração mais profunda aos ecossistemas do cliente.
Multilocação
Para as startups, a multilocação é a base para criar uma plataforma de agentes sustentável e escalável. Ele define como seu sistema atende a vários clientes, cada um com seus próprios dados, modelos e contexto, mantendo a segurança, o desempenho e a eficiência de custo. No mundo dos agentes de IA, onde o contexto e a personalização são centrais para a criação de valor, a multilocação também rege como a inteligência é particionada, compartilhada e desenvolvida entre os locatários.
Azure fornece vários padrões e serviços nativos que tornam a multilocação flexível e segura. A abordagem certa depende do modelo de produto, da confidencialidade de dados e dos requisitos de escala.
Multitenância lógica versus física
- Multilocação lógica é obtida isolando dados e configurações do cliente em recursos compartilhados (por exemplo, uma única instância do Cosmos DB com partições ou coleções específicas de locatário, ou um único serviço Pesquisa de IA do Azure com índices por locatário). Esse modelo oferece alta eficiência e operações mais simples, tornando-o ideal para inicializações em estágio inicial.
- Multitenância física fornece um isolamento mais forte ao provisionar recursos dedicados por locatário, como bancos de dados separados, contas de armazenamento ou implantações inteiras usando ofertas do Aplicativo Azure. Essa abordagem é comum para setores regulamentados ou clientes empresariais que exigem garantias de residência de dados.
A maioria das startups adota um modelo híbrido: isolamento lógico para a maioria dos inquilinos e isolamento físico para clientes de alto valor ou orientados por conformidade. Isso geralmente é conhecido como uma implantação particionada horizontalmente. Implantações particionadas horizontais são ideais para startups em estágio inicial, pois permitem uma infraestrutura mínima de aplicação, ao mesmo tempo que fornecem isolamento de dados de tenant para clientes B2B. Isso reduz a necessidade de particionamento de dados complexos e reduz os custos de infraestrutura redundante.
Identidade e Controle de Acesso
No núcleo da multiusuário está a identidade. Microsoft Entra ID (Azure AD) fornece a base para um controle de acesso seguro e com reconhecimento de locatário.
- Cada locatário pode ser associado a uma organização Entra, permitindo atribuições de função refinadas, acesso à API e integração com o SSO corporativo.
- As identidades gerenciadas simplificam a autenticação serviço a serviço sem armazenar credenciais.
- O Acesso Condicional e as Funções de Aplicativo Personalizadas garantem que somente usuários e serviços autorizados possam acessar dados e contexto específicos do locatário.
Muitas soluções multiclientes operam como SaaS. No entanto, sua escolha de usar Microsoft Entra ID ou ID Externa depende, em parte, de como você define seus locatários ou base de clientes.
- Se seus locatários ou clientes forem organizações, eles já poderão usar Microsoft Entra ID para serviços como Microsoft 365, Microsoft Teams ou para seus próprios ambientes Azure. Você pode criar um aplicativo multitenant em seu próprio diretório Microsoft Entra ID para disponibilizar sua solução para outros diretórios Microsoft Entra ID. Você também pode listar sua solução em Azure Marketplace e torná-la acessível para organizações que usam Microsoft Entra ID.
- Se seus locatários ou clientes não usarem Microsoft Entra ID ou se forem indivíduos em vez de organizações, considere usar IDExternal. O ID externo oferece recursos para controlar como os usuários se inscrevem e se registram. Por exemplo, você pode restringir o acesso à sua solução somente aos usuários que você convidar ou habilitar a inscrição por autoatendimento. Você pode usar a identidade visual personalizada. Para permitir que sua própria equipe entre, você pode invite usuários de seu locatário Microsoft Entra ID como convidados para a ID Externa por meio do acesso de convidado. A ID externa também habilita a federação com outros IdPs.
- Algumas soluções de múltiplos locatários são destinadas a ambos os cenários. Alguns locatários podem ter seus próprios locatários Microsoft Entra ID, e outros locatários podem não ter. Você pode usar o ID Externo para esse cenário e usar a federação para permitir a entrada de usuário a partir do diretório Microsoft Entra ID de um inquilino.
Siga este guia (Converta um aplicativo de locatário único em multilocatário no Microsoft Entra ID: plataforma de identidade da Microsoft | Microsoft Learn) para usar o Entra ID e habilitar um aplicativo multilocatário.
Isolamento de dados e contexto
Como os agentes dependem muito do conhecimento contextual, isolar a recuperação de dados e as incorporações por locatário é fundamental. Cache do Azure para Redis, Cosmos DB, e Armazenamento do Azure dão suporte a namespaces e índices específicos do locatário, enquanto serviços como Azure Confidential Computing ou Private Endpoints protegem interações confidenciais.
Ao usar bancos de dados vetoriais para geração aumentada de recuperação (RAG), as startups devem implementar namespaces de vetores por cliente ou coleções separadas para evitar o vazamento de dados entre os clientes. Isso também simplifica o dimensionamento e a cobrança por locatário.
Observabilidade, custo e escala
A visibilidade operacional é fundamental em uma plataforma de agente multilocatário.
- Azure Monitor e Application Insights podem ser estendidos para o uso de log por locatário, ajudando na solução de problemas, ajuste de desempenho e cobrança baseada em uso.
- Aplicativos de Contêiner do Azure e AKS permitem o dimensionamento automático com base na carga do locatário, mantendo a eficiência de custo.
- Ao monetizar por meio do Marketplace comercial da Microsoft, os dados de uso do locatário podem alimentar diretamente as APIs de medição para cobrança e relatórios automatizados.
Por que isso importa
Implementar multilocação desde o início permite que as startups:
- Atenda a muitos clientes sem duplicar a infraestrutura.
- Impor limites de dados fortes e controles de conformidade.
- Dê suporte a locatários pequenos e empresariais com isolamento personalizado.
- Simplifique a monetização do marketplace futuro e a preparação para venda conjunta.
Em suma, a multilocação transforma o agente de um protótipo autônomo em um negócio plataforma, capaz de atender centenas de organizações por meio de um backbone do Azure único, seguro e elástico.
Camada de Aplicativo
A camada application é onde os usuários interagem com seu agente por meio de interfaces de chat, APIs ou copilots inseridos em ferramentas como Microsoft Teams. Para startups, essa camada é onde o valor para o cliente se torna tangível. Ele converte a lógica de orquestração e a inteligência contextual em uma experiência do usuário que parece responsiva, personalizada e segura por parte dos clientes.
No Azure, a camada de aplicativo atende a duas funções críticas:
- Ele atua como o gateway para solicitações específicas do locatário e validação de identidade.
- Ele define a camada de experiência com a qual usuários, desenvolvedores e sistemas externos interagem.
Limites de Aplicativo Sensível ao Locatário
A camada de aplicativo deve estar totalmente ciente de qual locatário está fazendo a solicitação e quais dados ou recursos eles têm direito de acessar. Azure fornece vários serviços para habilitar isso:
- Azure Front Door ou API Management (APIM) podem atuar como o ponto de entrada global, roteando solicitações para ambientes ou funções específicos do locatário.
- Entra ID gerencia a autenticação e a autorização, garantindo que os tokens de usuário e serviço sejam mapeados para o contexto de locatário correto.
- Configuração de Aplicativos do Azure e Key Vault gerenciam configurações específicas do locatário, chaves de API e segredos de ambiente.
Esses limites garantem que cada locatário experimente a mesma plataforma de agente, mas dentro de sua própria área restrita lógica segura, que é uma etapa crítica na prevenção do cruzamento de dados e na manutenção da conformidade de nível empresarial.
Entrega de vários canais
A experiência do agente moderno vai além de uma única interface do usuário de chat. Startups podem expor seu agente por meio de vários canais de entrega.
- Copilotos do Teams e extensões de mensagens para colaboração no local de trabalho e fluxos de trabalho conversacionais.
- Web e Aplicativos Móveis criados usando estruturas como React ou React Native, hospedadas em Serviço de Aplicativo do Azure ou Aplicativos Web Estáticos.
- Pontos de extremidade API protegidos por Entra ID ou APIM, permitindo a integração programática com os sistemas dos clientes. Geralmente, elas são criadas usando Azure Functions.
Azure camada de identidade garante que todas essas interfaces compartilhem um modelo unificado de autenticação e autorização, mesmo que se conectem a diferentes serviços de back-end. Essa consistência permite que as startups mantenham um núcleo de agente único ao mesmo tempo em que fornecem front-ends personalizados para cada cliente ou caso de uso.
Gerenciamento de Estado e Contexto de Sessão
Em aplicativos de agentes, as sessões normalmente abrangem várias interações e modalidades. Por exemplo, um usuário pode iniciar uma conversa no Teams, continuar por meio da API e examinar insights em um painel da Web.
Para manter a coerência:
- Azure Cosmos DB ou Cache do Azure para Redis podem persistir o estado da sessão e o contexto de conversa por locatário.
- Durable Functions habilitar fluxos de trabalho de execução longa que acompanham as etapas de raciocínio do agente, mesmo entre componentes distribuídos.
- Event Grid ou Barramento de Serviço pode propagar contexto e sinais entre módulos quando usuários ou sistemas disparam atualizações.
Esse design com reconhecimento de sessão permite que os agentes se sintam contínuos e contextualmente inteligentes, sem codificar fluxos de trabalho para cada modo de interação.
Insights de telemetria e experiência
A camada de aplicativo também é onde as startups obtêm informações sobre como os clientes se envolvem com seus agentes.
- O Application Insights captura métricas de interação, latência e sinais de satisfação do usuário.
- O registro em log personalizado pode acompanhar as taxas de sucesso de intenção, os tempos de conclusão ou os ciclos de feedback para melhorar continuamente a qualidade da orquestração.
- Startups podem agregar telemetria por inquilino para gerar preços baseados em uso ou relatórios SLA (Acordo de Nível de Serviço). Esses dados também alimentam a medição do marketplace para monetização.
Por que isso importa
A camada de aplicativo define a superfície de experiência do cliente da plataforma do agente. Ao projetar o sistema para ser multi-inquilino, flexível em canais e seguro para dados desde o início, as startups podem:
- Forneça interações consistentes e confiáveis entre o Teams, a Web e as APIs.
- Dê suporte aos requisitos de identidade, auditoria e conformidade de nível empresarial.
- Colete insights valiosos que melhoram o raciocínio e o desempenho do agente.
- Habilite a monetização futura do marketplace por meio de telemetria e medição de uso.
Essencialmente, a camada de aplicação é a porta de entrada para a inteligência do agente, onde o design do produto, a segurança e a experiência do usuário convergem.
Integrando interfaces de usuário para fluxos de trabalho autônomos
Embora a camada de aplicativo defina como seu agente expõe APIs e gerencia o acesso, a integração da interface do usuário define como os usuários finais experimentam o agente. Para startups, essa é uma alavanca poderosa. Inserir agentes em superfícies de colaboração e fluxo de trabalho existentes, como Microsoft Teams, Outlook e aplicativos Microsoft 365 pode reduzir os ciclos de adoção e aumentar a adesão.
Construindo em Microsoft Teams
O Teams é uma interface natural para agentes de nível empresarial. Por meio dos Aplicativos do Teams, as startups podem inserir seus agentes diretamente em chat, reuniões e canais, permitindo que os usuários interajam com o agente onde já trabalham.
- Bots e Extensões de Mensagem permitem interações de conversa ou ações rápidas que se conectam diretamente à camada de orquestração do agente por meio de uma API segura.
- Cartões Adaptáveis e Task Modules podem apresentar saída estruturada, permitindo fluxos de trabalho guiados e aprovações.
- SaaS ou vinculação de ofertas de aplicativos Azure no Teams permite experiências monetizadas vinculadas às listagens do Azure Marketplace.
- Integração Entra ID garante logon único e controle de acesso a nível de inquilino, simplificando a implantação multi-locatário entre as organizações.
O Teams atua como um canal de entrega e uma camada de confiança, fazendo a ponte do sistema de IA com fluxos de trabalho corporativos no modelo de segurança da Microsoft. O M365 Agents Toolkit está disponível para simplificar a criação de agentes prontos para empresas para integração com o Teams e outros produtos do pacote M365. O Toolkit é uma extensão Visual Studio Code e CLI que simplifica a criação, a depuração e a implantação de agentes personalizados para plataformas Microsoft 365 como Copilot e Teams. Ele automatiza tarefas como gerenciamento de manifesto, carregamento lateral e provisionamento de recursos Azure, permitindo que os desenvolvedores criem agentes declarativos ou pró-código com acesso integrado à identidade e a dados.
Inserindo em experiências de Microsoft 365
Além do Teams, as startups podem estender seus agentes em todo o ecossistema mais amplo do M365.
- Complementos do Outlook permitem assistência proativa ou reativa em emails (por exemplo, resumindo conversas ou gerando ações de acompanhamento).
- Graph Connectors podem fornecer dados estruturados para as experiências de Pesquisa do M365 e do Copilot, estendendo o alcance do agente ao conhecimento corporativo.
Ao integrar com superfícies do M365, as startups podem aproveitar a Microsoft API do Graph para unificar o contexto, reunindo mensagens, eventos de calendário, documentos e tarefas, e tornando seu agente contextualmente ciente do ambiente de trabalho de um usuário.
Outras opções de interface
Para cenários externos ou híbridos, startups também podem integrar:
- Web aplicativos ou portais criados com Serviço de Aplicativo do Azure ou Aplicativos Web Estáticos, geralmente servindo como consoles de gerenciamento ou dashboards.
- Mobile Apps desenvolvidos com React Native ou .NET MAUI, autenticados via Entra ID e conectados por meio do API Management.
- Integrações de terceiros usando APIs REST ou Microsoft Graph para Slack, Salesforce ou ServiceNow, garantindo que seu agente possa interagir entre ecossistemas.
Projetando com experiência e segurança
Independentemente da interface, as startups devem projetar considerando:
- Contextual grounding que permite ao agente obter dados relevantes do locatário ou do usuário a partir do Microsoft Graph ou de APIs internas.
- Autenticação de baixo atrito usando o logon único do Entra ou tokens delegados para uma experiência de usuário perfeita.
- UX e identidade visual consistentes para garantir que as interações do agente se sintam naturais em cada ambiente de host.
Integrar agentes ao ecossistema de Microsoft 365 não se trata apenas de conveniência. Trata-se de conhecer os usuários onde eles trabalham e tornar sua solução de IA uma extensão natural de suas ferramentas de produtividade, em vez de outro aplicativo silo.
Camada de orquestração
Se a camada de aplicação for a porta da frente para sua plataforma de agente, a camada de orquestração será o cérebro, coordenando o raciocínio, as ferramentas e os fluxos de trabalho para fornecer resultados coerentes e sensíveis ao contexto. É aqui que a inteligência se encontra com a ação.
A camada de orquestração conecta a intenção do usuário (da camada do aplicativo) à lógica de domínio, aos dados e aos sistemas externos. Para startups agenticas, é a parte mais estratégica da arquitetura, equilibrando flexibilidade, escalabilidade e observabilidade, enquanto abstrai a complexidade da interface frontal.
Funções principais da camada de orquestração
A camada de orquestração normalmente executa cinco responsabilidades principais:
- Interpretação da intenção: traduzir prompts de usuário ou chamadas à API em ações ou metas estruturadas.
- Montagem de contexto: recuperação de dados, memória ou ferramentas relevantes antes de invocar os modelos de raciocínio.
- Invocação de ferramenta: executando chamadas à API, fluxos de trabalho ou integrações em nome do agente.
- Síntese de resposta: combinando a saída do raciocínio com a lógica de domínio para gerar respostas significativas.
- Observação e aprendizado: registro de resultados, erros e métricas para melhoria contínua.
Para empresas, essas funções podem ser modeladas como um pipeline de micro-orquestrações em vez de um único monolito. Startups, no entanto, tendem a aproveitar padrões de design mais monolíticos nas fases iniciais para otimizar a rapidez e a simplicidade.
Implementando no Azure
Azure fornece uma base nativa para criar e dimensionar a lógica de orquestração:
- Azure Functions servem como nós de computação sem estado que executam fluxos de tarefa ou raciocínio específicos. Cada função pode ser vinculada a um tenant, tópico ou tipo de evento específico.
- Durable Functions habilitam padrões de orquestração de longa execução ou de várias etapas, que são adequados para loops de raciocínio, colaboração entre agentes ou fluxos de trabalho de várias voltas.
- Barramento de Serviço do Azure fornece entrega de mensagens ordenadas e confiáveis entre componentes de orquestração, o que é essencial para a execução determinística entre serviços distribuídos.
Esses primitivos sem servidor permitem que as inicializações evoluam de agentes simples de solicitação-resposta para sistemas de IA reativos e controlados por eventos que se adaptam ao contexto do usuário e do sistema dinamicamente.
Raciocínio de IA e uso de ferramentas
No centro da camada de orquestração está o raciocínio, alimentado por modelos Azure OpenAI como GPT-5 ou outras ofertas de modelo Azure-Direct.
Esses modelos são melhor aproveitados não como inteligências monolíticas, mas como nós de raciocínio dentro de um fluxo de trabalho estruturado:
- Utilize prompts do sistema e chamadas de função para orientar modelos de raciocínio de forma controlada.
- Armazenar definições de ferramenta e metadados de ponto de extremidade em um registro de ferramentas central (por exemplo, Cosmos DB ou Configuração de Aplicativos do Azure) que cada instância do agente pode consultar dinamicamente.
- Execute ações de alto privilégio por meio de Managed Identities para que os agentes invoquem Azure ou APIs externas com segurança sem inserir credenciais.
Ao separar o que o modelo decide de como a execução acontece, você obtém isolamento de segurança e observabilidade no processo de raciocínio.
Montagem de Contexto e Coordenação de Memória
O raciocínio é tão bom quanto o contexto fornecido. A camada de orquestração é responsável por montar esse contexto de várias fontes antes da invocação do modelo:
- Consultar Pesquisa de IA do Azure ou Cosmos DB para buscar conhecimento específico do locatário.
- Recupere o histórico ou as preferências do usuário de Redis ou PostgreSQL.
- Extrair memórias semânticas de repositórios de vetores (por exemplo, Pesquisa Vetorial no Azure DB para PostgreSQL).
Essa abordagem permite o raciocínio com reconhecimento de contexto. É uma marca registrada de sistemas agente avançados.
Loops de observabilidade e ciclos de feedback
Para garantir que os agentes permaneçam confiáveis e passíveis de depuração em escala, a camada de orquestração deve emitir telemetria rica:
- Aplicativo Azure Insights pode rastrear todas as etapas de raciocínio, chamada de modelo e execução de API.
- Azure Monitor Logs podem acompanhar o desempenho do agente por assinante, intenção ou utilização de ferramentas.
- Sinais de feedback (por exemplo, correções do usuário ou taxas de êxito) podem ser utilizados em pipelines de otimização de ajuste fino ou de prompt na camada de IA.
Por que isso importa
A camada de orquestração é o que torna um agente agente, capaz de planejar, decidir e agir de forma autônoma.
Ao implementar essa camada usando a infraestrutura serverless e orientada a eventos de Azure, as startups podem:
- Dimensionar a orquestração dinamicamente para cada locatário ou carga de trabalho.
- Habilite o controle refinado sobre o acesso à ferramenta e o contexto de raciocínio.
- Mantenha uma cadeia de raciocínio rastreável para conformidade e depuração.
- Estenda rapidamente seu agente com novas ferramentas, canais ou comportamentos.
Em suma, a camada de orquestração transforma Azure de uma plataforma de nuvem em uma malha execução para agentes inteligentes, em que o raciocínio, as ferramentas e o contexto convergem perfeitamente.
Camada de Contexto
A camada de contexto é onde seu agente obtém compreensão. Ele conecta o raciocínio com o conhecimento do mundo real, garantindo que as respostas sejam precisas, relevantes e específicas do locatário. Sem uma camada de contexto bem projetada, mesmo os modelos de raciocínio mais avançados correm o risco de se tornarem não confiáveis ou genéricos.
Para startups, essa camada é um diferencial competitivo. É onde dados proprietários, insights do cliente e integrações de sistema convergem para tornar um agente realmente útil. O desafio é projetá-lo para ser seguro, multitenância e dinamicamente composível em diferentes casos de uso e entre clientes.
A função de contexto em sistemas agente
A inteligência de um agente de IA depende não apenas de seu modelo, mas do que ele sabe no momento do raciocínio. O contexto serve a três finalidades essenciais:
- Fundamentação de conhecimento: enriquecendo respostas do modelo com fatos, dados e lógica de negócios estruturada.
- Memória: mantendo a continuidade entre conversas, fluxos de trabalho ou sessões.
- Recuperação e síntese: buscar, filtrar e resumir dados relevantes em tempo real.
Juntas, essas funções transformam um modelo sem estado em um sistema de raciocínio com estado que aprende e se adapta a cada interação.
Composição de contexto no Azure
Azure fornece vários serviços que podem ser compostos em uma pilha de contexto robusta de várias camadas:
- Pesquisa de IA do Azure : a base para a geração com recuperação aumentada (RAG). Ele indexa dados estruturados e não estruturados, permitindo que os agentes acessem conhecimento específico do cliente no momento da consulta.
- Cosmos DB: ideal para armazenar conhecimento de domínio semiestruturado, metadados de ferramenta e configuração por locatário.
- Armazenamento do Azure ou Data Lake: usado para pipelines de indexação em lote e armazenamento de documentos de longo prazo.
- Cache Redis ou PostgreSQL: dá suporte à memória de sessão e de curto prazo, permitindo a continuidade do contexto entre conversas.
- Azure OpenAI Embeddings: habilita a vetorização semântica dos dados do locatário, impulsionando a busca por similaridade para a recuperação de contexto.
Quando orquestrados juntos, esses serviços formam um sistema de memória hierárquico, combinando caches de acesso rápido com camadas de recuperação mais profundas para aterramento de longo prazo.
Isolamento de dados multilocatário
As startups devem criar sistemas de contexto que separem os limites de conhecimento claramente.
- Use índices ou partições por locatário no Pesquisa de IA do Azure e no Cosmos DB para isolar representações embutidas e documentos.
- Imponha o controle de acesso baseado em Identidade Gerenciada para que os agentes só possam recuperar dados para seu locatário atual.
- Considere um sistema de marcação de metadados que define o escopo da recuperação por locatário, função e tipo de conteúdo.
Essa arquitetura garante a conformidade e ajuda a evitar o vazamento de dados entre locatários. É essencial para a confiança da empresa.
Raciocínio com Recuperação Aprimorada
Em runtime, a camada de contexto enriquece prompts com conhecimento dinâmico usando pipelines RAG. Um fluxo típico pode ser semelhante a:
- Receba uma consulta ou intenção do usuário da camada de orquestração.
- Execute a pesquisa semântica em Pesquisa de IA do Azure para documentos relevantes.
- Recuperar dados de suporte ou definições de ferramentas.
- Construa um prompt composto com o contexto recuperado.
- Envie o prompt enriquecido para o modelo de raciocínio (por exemplo, GPT-4 Turbo).
Ao externalizar a obtenção de conhecimento, as startups podem manter os prompts de modelo leves, garantindo uma contextualização atualizada e específica para o locatário.
Sistemas de memória para comportamento adaptável
Além da recuperação, o contexto inclui memória de curto e longo prazo, os mecanismos que permitem que um agente evolua:
- Conhecimento: dados estáticos que fundamentam o comportamento do agente (pense em RAG).
- Memória de longo prazo: memória semântica acumulada por agentes por meio da experiência e interação. Isso dá suporte à personalização e à melhor experiência do usuário ao longo do tempo.
- Memória de curto prazo: memória de trabalho para gerenciamento de contexto em uma sessão. Isso é fundamental para a persistência de sessão e soluções de vários agentes.
Essa abordagem de memória em camadas permite que os agentes adaptem o comportamento ao longo do tempo sem treinar novamente o modelo.
Observabilidade e Gerenciamento de Custos
A recuperação de contexto e a busca vetorial podem se tornar dispendiosas em grande escala, especialmente com grandes conjuntos de dados de usuário. Azure ajuda a gerenciar isso por meio de:
- Camadas de pesquisa e escalabilidade no Pesquisa de IA do Azure para alinhar com o tamanho dos dados e a demanda de consulta.
- Indexação incremental para otimizar os custos de armazenamento arquivando dados frios.
- Telemetria do Application Insights para monitorar latência, qualidade de recuperação e custo por consulta.
Startups podem otimizar ainda mais os custos ao armazenar em cache recuperações de alta frequência, compactar embeddings ou processar a ingestão de documentos em lote.
Por que a camada de contexto importa
A camada de contexto é a base da inteligência confiável. Ele garante que seu agente não tenha alucinações, permaneça fundamentado nos dados do cliente e evolua com o uso do mundo real. Ao implementá-lo com serviços nativos do Azure, as startups obtêm:
- Acesso de conhecimento seguro e isolado pelo locatário.
- Recuperação escalonável e gerenciamento de memória.
- Raciocínio consistente e factualmente preciso entre usuários e contextos. Quando projetada corretamente, essa camada transforma seu agente de um sistema de conversação em um assistente experiente, capaz de entender os negócios de cada locatário como se fosse seu.