Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
O ciclo de vida das aplicações de IA requer quadros robustos de avaliação para garantir que os sistemas de IA fornecem resultados precisos, relevantes e fiáveis. Sem uma avaliação rigorosa, os sistemas de IA correm o risco de gerar respostas que são imprecisas, inconsistentes, mal fundamentadas ou potencialmente prejudiciais. A observabilidade permite às equipas medir e melhorar tanto a qualidade como a segurança dos resultados da IA ao longo de todo o ciclo de vida do desenvolvimento — desde a seleção do modelo até à monitorização da produção.
O que é observabilidade?
A observabilidade da IA refere-se à capacidade de monitorizar, compreender e resolver problemas de sistemas de IA ao longo do seu ciclo de vida. Pode rastrear, avaliar, integrar portas automáticas de qualidade em pipelines CI/CD, e recolher sinais como métricas de avaliação, logs, traços e saídas de modelos para obter visibilidade sobre desempenho, qualidade, segurança e saúde operacional.
Capacidades principais de observabilidade
A Microsoft Foundry oferece três capacidades essenciais que trabalham em conjunto para garantir uma observabilidade abrangente ao longo do ciclo de vida das aplicações de IA:
Evaluation
Os avaliadores medem a qualidade, segurança e fiabilidade das respostas de IA ao longo do desenvolvimento. A Microsoft Foundry fornece avaliadores integrados, incluindo métricas de qualidade de uso geral (coerência, fluência), métricas específicas do RAG (fundamento, relevância), segurança e proteção (ódio/injustiça, violência, materiais protegidos) e métricas específicas do agente (precisão nas chamadas de ferramenta, conclusão de tarefas), entre outras. Também pode criar avaliadores personalizados adaptados aos requisitos específicos do seu domínio.
Para uma lista completa de avaliadores incorporados, veja Referência de avaliadores incorporados.
Monitorização
A monitorização da produção garante que as suas aplicações de IA implementadas mantêm a qualidade e o desempenho em condições reais. Integrado com o Azure Monitor Application Insights, o Microsoft Foundry oferece painéis de controlo em tempo real que acompanham métricas operacionais, consumo de tokens, latência, taxas de erro e pontuações de qualidade. Pode configurar alertas quando os resultados falham nos limiares de qualidade ou produzem conteúdo prejudicial, permitindo uma resolução rápida de problemas.
Para obter detalhes sobre a configuração da monitorização de produção, consulte o "Painel de Monitorização de Agentes".
Rastreio
O rastreamento distribuído capta o fluxo de execução das aplicações de IA, proporcionando visibilidade sobre chamadas LLM, invocações de ferramentas, decisões de agentes e dependências entre serviços. Construído sobre os padrões OpenTelemetry e integrado com o Azure Monitor Application Insights, o rastreamento permite depurar comportamentos complexos de agentes, identificar gargalos de desempenho e compreender cadeias de raciocínio em múltiplas etapas. O Microsoft Foundry suporta rastreamento para frameworks populares, incluindo LangChain, LangGraph, o SDK OpenAI Agents e o Microsoft Agent Framework.
Para orientações sobre como implementar o rastreio, consulte Visão geral do agente de rastreamento.
O que são os avaliadores?
Os avaliadores são ferramentas especializadas que medem a qualidade, segurança e fiabilidade das respostas da IA ao longo do ciclo de vida do desenvolvimento.
Para uma lista completa de avaliadores incorporados, veja Referência de avaliadores incorporados.
Os avaliadores integram-se em cada etapa do ciclo de vida da IA para garantir fiabilidade, segurança e eficácia.
As três fases da avaliação do ciclo de vida de aplicações de IA
Seleção do modelo de base
Selecione o modelo de fundação certo comparando a qualidade, desempenho da tarefa, considerações éticas e perfis de segurança entre diferentes modelos.
Ferramentas disponíveis: Microsoft Foundry benchmark para comparar modelos em conjuntos de dados públicos ou nos seus próprios dados, e o Azure AI Evaluation SDK para testar endpoints específicos de modelos.
Avaliação pré-produção
Antes da implementação, testes rigorosos garantem que o seu agente ou aplicação de IA está pronto para produção. Esta fase valida o desempenho através de conjuntos de dados de avaliação, identifica casos limite, avalia a robustez e mede métricas-chave incluindo adesão à tarefa, fundamento, relevância e segurança. Para construir agentes preparados para produção com conversas em múltiplos turnos, chamadas de ferramentas e gestão de estado, consulte Foundry Agent Service.
Ferramentas e abordagens de avaliação:
Traga os seus próprios dados: Avalie aplicações de IA usando os seus próprios dados com avaliadores de qualidade, segurança ou personalizados. Utilize o assistente de avaliação do portal Foundry ou o SDK Foundry e veja os resultados no portal Foundry.
AI red teaming agent: O agente de red teaming AI simula ataques complexos usando o framework PyRIT da Microsoft para identificar vulnerabilidades de segurança e proteção antes da implementação. É melhor utilizado com processos com intervenção humana.
Monitorização pós-produção
Após a implementação, a monitorização contínua assegura que a sua aplicação de IA mantém a qualidade em condições reais:
- Métricas operacionais: Medição regular das principais métricas operacionais de agentes de IA
- Avaliação contínua: Avaliação da qualidade e segurança do tráfego de produção a uma taxa amostrada
- Avaliação agendada: Avaliação agendada de qualidade e segurança utilizando conjuntos de dados de teste para detetar deriva do sistema
- Red teaming agendado: Testes adversariais agendados para investigar vulnerabilidades de segurança
- Alertas do Azure Monitor: Notificações quando as saídas não cumprem os limiares de qualidade ou produzem conteúdo prejudicial
Integrado com o Azure Monitor Application Insights, o painel Foundry Observability oferece insights em tempo real sobre desempenho, segurança e métricas de qualidade, permitindo uma resolução rápida de problemas e mantendo a confiança dos utilizadores.
Guia rápido de avaliação
| Propósito | Processo | Parâmetros, orientações e amostras |
|---|---|---|
| Como configurar o rastreio? | Configurar rastreamento distribuído |
Visão geral do traço Rastreio com SDK de Agentes |
| Para que está a avaliar? | Identificar ou construir avaliadores relevantes |
Avaliadores incorporados Avaliadores personalizados Exemplos de SDK Python Exemplos de SDK C# |
| Que dados deve utilizar? | Carregar ou gerar conjunto de dados relevante | Selecionar ou criar um conjunto de dados |
| Como realizar avaliações? | Executar avaliação |
Execuções de avaliação do agente Execução remota na cloud |
| Como correu a minha aplicação de modelo/IA? | Analisar os resultados |
Ver resultados da avaliação Análise de clusters |
| Como posso melhorar? | Analisar resultados e otimizar agentes | Analisar falhas de avaliação com análise de clusters. Otimize os agentes e reavalie. Rever os resultados das avaliações. |
Suporte regional, limites de taxa e suporte a rede virtual
Para saber quais as regiões que suportam avaliadores assistidos por IA, os limites de taxa que se aplicam às execuções de avaliação e como configurar suporte de rede virtual para isolamento de rede, consulte suporte regional, limites de taxa e suporte a rede virtual para avaliação.
Preços
Características de observabilidade, como avaliações de risco e segurança e avaliações no ambiente de testes dos agentes, são faturadas com base no consumo, conforme listado na página de preços da Azure.
Importante
As avaliações no ambiente de teste dos agentes são ativadas automaticamente para todos os projetos da Foundry e estão incluídas na faturação baseada no consumo. Para desativar as avaliações do playground, selecione "Métricas" no canto superior direito do playground do agente e desmarque todos os avaliadores.