Observabilidade na IA generativa

O ciclo de vida das aplicações de IA requer quadros robustos de avaliação para garantir que os sistemas de IA fornecem resultados precisos, relevantes e fiáveis. Sem uma avaliação rigorosa, os sistemas de IA correm o risco de gerar respostas que são imprecisas, inconsistentes, mal fundamentadas ou potencialmente prejudiciais. A observabilidade permite às equipas medir e melhorar tanto a qualidade como a segurança dos resultados da IA ao longo de todo o ciclo de vida do desenvolvimento — desde a seleção do modelo até à monitorização da produção.

O que é observabilidade?

A observabilidade da IA refere-se à capacidade de monitorizar, compreender e resolver problemas de sistemas de IA ao longo do seu ciclo de vida. Pode rastrear, avaliar, integrar portas automáticas de qualidade em pipelines CI/CD, e recolher sinais como métricas de avaliação, logs, traços e saídas de modelos para obter visibilidade sobre desempenho, qualidade, segurança e saúde operacional.

Capacidades principais de observabilidade

A Microsoft Foundry oferece três capacidades essenciais que trabalham em conjunto para garantir uma observabilidade abrangente ao longo do ciclo de vida das aplicações de IA:

Evaluation

Os avaliadores medem a qualidade, segurança e fiabilidade das respostas de IA ao longo do desenvolvimento. A Microsoft Foundry fornece avaliadores integrados, incluindo métricas de qualidade de uso geral (coerência, fluência), métricas específicas do RAG (fundamento, relevância), segurança e proteção (ódio/injustiça, violência, materiais protegidos) e métricas específicas do agente (precisão nas chamadas de ferramenta, conclusão de tarefas), entre outras. Também pode criar avaliadores personalizados adaptados aos requisitos específicos do seu domínio.

Para uma lista completa de avaliadores incorporados, veja Referência de avaliadores incorporados.

Monitorização

A monitorização da produção garante que as suas aplicações de IA implementadas mantêm a qualidade e o desempenho em condições reais. Integrado com o Azure Monitor Application Insights, o Microsoft Foundry oferece painéis de controlo em tempo real que acompanham métricas operacionais, consumo de tokens, latência, taxas de erro e pontuações de qualidade. Pode configurar alertas quando os resultados falham nos limiares de qualidade ou produzem conteúdo prejudicial, permitindo uma resolução rápida de problemas.

Para obter detalhes sobre a configuração da monitorização de produção, consulte o "Painel de Monitorização de Agentes".

Rastreio

O rastreamento distribuído capta o fluxo de execução das aplicações de IA, proporcionando visibilidade sobre chamadas LLM, invocações de ferramentas, decisões de agentes e dependências entre serviços. Construído sobre os padrões OpenTelemetry e integrado com o Azure Monitor Application Insights, o rastreamento permite depurar comportamentos complexos de agentes, identificar gargalos de desempenho e compreender cadeias de raciocínio em múltiplas etapas. O Microsoft Foundry suporta rastreamento para frameworks populares, incluindo LangChain, LangGraph, o SDK OpenAI Agents e o Microsoft Agent Framework.

Para orientações sobre como implementar o rastreio, consulte Visão geral do agente de rastreamento.

O que são os avaliadores?

Os avaliadores são ferramentas especializadas que medem a qualidade, segurança e fiabilidade das respostas da IA ao longo do ciclo de vida do desenvolvimento.

Para uma lista completa de avaliadores incorporados, veja Referência de avaliadores incorporados.

Os avaliadores integram-se em cada etapa do ciclo de vida da IA para garantir fiabilidade, segurança e eficácia.

As três fases da avaliação do ciclo de vida de aplicações de IA

Seleção do modelo de base

Selecione o modelo de fundação certo comparando a qualidade, desempenho da tarefa, considerações éticas e perfis de segurança entre diferentes modelos.

Ferramentas disponíveis: Microsoft Foundry benchmark para comparar modelos em conjuntos de dados públicos ou nos seus próprios dados, e o Azure AI Evaluation SDK para testar endpoints específicos de modelos.

Avaliação pré-produção

Antes da implementação, testes rigorosos garantem que o seu agente ou aplicação de IA está pronto para produção. Esta fase valida o desempenho através de conjuntos de dados de avaliação, identifica casos limite, avalia a robustez e mede métricas-chave incluindo adesão à tarefa, fundamento, relevância e segurança. Para construir agentes preparados para produção com conversas em múltiplos turnos, chamadas de ferramentas e gestão de estado, consulte Foundry Agent Service.

Ferramentas e abordagens de avaliação:

Traga os seus próprios dados: Avalie aplicações de IA usando os seus próprios dados com avaliadores de qualidade, segurança ou personalizados. Utilize o assistente de avaliação do portal Foundry ou o SDK Foundry e veja os resultados no portal Foundry.
AI red teaming agent: O agente de red teaming AI simula ataques complexos usando o framework PyRIT da Microsoft para identificar vulnerabilidades de segurança e proteção antes da implementação. É melhor utilizado com processos com intervenção humana.

Monitorização pós-produção

Após a implementação, a monitorização contínua assegura que a sua aplicação de IA mantém a qualidade em condições reais:

Métricas operacionais: Medição regular das principais métricas operacionais de agentes de IA
Avaliação contínua: Avaliação da qualidade e segurança do tráfego de produção a uma taxa amostrada
Avaliação agendada: Avaliação agendada de qualidade e segurança utilizando conjuntos de dados de teste para detetar deriva do sistema
Red teaming agendado: Testes adversariais agendados para investigar vulnerabilidades de segurança
Alertas do Azure Monitor: Notificações quando as saídas não cumprem os limiares de qualidade ou produzem conteúdo prejudicial

Integrado com o Azure Monitor Application Insights, o painel Foundry Observability oferece insights em tempo real sobre desempenho, segurança e métricas de qualidade, permitindo uma resolução rápida de problemas e mantendo a confiança dos utilizadores.

Guia rápido de avaliação

Propósito	Processo	Parâmetros, orientações e amostras
Como configurar o rastreio?	Configurar rastreamento distribuído	Visão geral do traço Rastreio com SDK de Agentes
Para que está a avaliar?	Identificar ou construir avaliadores relevantes	Avaliadores incorporados Avaliadores personalizados Exemplos de SDK Python Exemplos de SDK C#
Que dados deve utilizar?	Carregar ou gerar conjunto de dados relevante	Selecionar ou criar um conjunto de dados
Como realizar avaliações?	Executar avaliação	Execuções de avaliação do agente Execução remota na cloud
Como correu a minha aplicação de modelo/IA?	Analisar os resultados	Ver resultados da avaliação Análise de clusters
Como posso melhorar?	Analisar resultados e otimizar agentes	Analisar falhas de avaliação com análise de clusters. Otimize os agentes e reavalie. Rever os resultados das avaliações.

Suporte regional, limites de taxa e suporte a rede virtual

Para saber quais as regiões que suportam avaliadores assistidos por IA, os limites de taxa que se aplicam às execuções de avaliação e como configurar suporte de rede virtual para isolamento de rede, consulte suporte regional, limites de taxa e suporte a rede virtual para avaliação.

Preços

Características de observabilidade, como avaliações de risco e segurança e avaliações no ambiente de testes dos agentes, são faturadas com base no consumo, conforme listado na página de preços da Azure.

Importante

As avaliações no ambiente de teste dos agentes são ativadas automaticamente para todos os projetos da Foundry e estão incluídas na faturação baseada no consumo. Para desativar as avaliações do playground, selecione "Métricas" no canto superior direito do playground do agente e desmarque todos os avaliadores.

Comentários

Esta página foi útil?

Last updated on 2026-04-03