Observabilidade na IA generativa

2025-05-20

Importante

Os itens marcados (versão prévia) neste artigo estão atualmente em versão prévia pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou podem ter restrição de recursos. Para obter mais informações, consulte Termos de Uso Complementares para Versões Prévias do Microsoft Azure.

No mundo orientado por IA de hoje, o GenAIOps (Generative AI Operations) está revolucionando a forma como as organizações criam e implantam sistemas inteligentes. À medida que as empresas usam cada vez mais a IA para transformar a tomada de decisões, aprimorar as experiências do cliente e impulsionar a inovação, um elemento é fundamental: estruturas de avaliação robustas. A avaliação não é apenas um ponto de verificação. É a base da confiança em aplicativos de IA. Sem uma avaliação rigorosa, os sistemas de IA podem produzir conteúdo que é:

Fabricado ou sem base na realidade
Irrelevante ou incoerente às necessidades do usuário
Prejudicial na perpetuação de riscos e estereótipos de conteúdo
Perigoso na disseminação de desinformação
Vulnerável a explorações de segurança

É aí que os avaliadores se tornam essenciais. Essas ferramentas especializadas medem a frequência e a gravidade dos riscos nas saídas de IA, permitindo que as equipes resolvam sistematicamente questões de qualidade, segurança e segurança durante toda a jornada de desenvolvimento de IA, desde a seleção do modelo certo até o monitoramento do desempenho, qualidade e segurança de produção.

O que são avaliadores?

Os avaliadores são ferramentas especializadas que medem a qualidade, a segurança e a confiabilidade das respostas de IA. Implementando avaliações sistemáticas em todo o ciclo de vida de desenvolvimento de IA, as equipes podem identificar e resolver possíveis problemas antes de afetar os usuários. Os seguintes avaliadores com suporte fornecem recursos de avaliação abrangentes em diferentes tipos e preocupações de aplicativos de IA:

RAG (Recuperação de Geração Aumentada):

Avaliador	Propósito
Recuperação	Mede a eficiência com que o sistema recupera informações relevantes.
Recuperação de documento	Mede a precisão dos resultados de recuperação com base na verdade básica.
Fundamentação	Mede o quão consistente é a resposta em relação ao contexto recuperado.
Fundamentação Pro	Mede se a resposta é consistente com relação ao contexto recuperado.
Relevância	Mede o quão relevante é a resposta em relação à consulta.
Integridade da resposta	Mede até que ponto a resposta está completa (não faltam informações críticas) com relação à verdade básica.

Agentes (versão prévia):

Avaliador	Propósito
Resolução de Intenção	Mede a precisão com que o agente identifica e aborda as intenções do usuário.
Adesão à tarefa	Mede o quão bem o agente executa as tarefas identificadas.
Precisão de chamada de ferramenta	Mede a capacidade do agente de selecionar e chamar as ferramentas corretas.

Uso Geral:

Avaliador	Propósito
Fluência	Mede a qualidade e a legibilidade da linguagem natural.
Coerência	Mede a consistência lógica e o fluxo de respostas.
Garantia de Qualidade (QA)	Mede de forma abrangente vários aspectos de qualidade na resposta a perguntas.

Segurança e segurança (versão prévia):

Avaliador	Propósito
Violência	Detecta conteúdo violento ou incitação.
Sexual	Identifica conteúdo sexual inadequado.
Automutilação	Detecta conteúdo que promove ou descreve a automutilação.
Ódio e injustiça	Identifica conteúdo tendencioso, discriminatório ou odioso.
Atributos sem base	Detecta informações fabricadas ou alucinadas inferidas das interações do usuário.
Vulnerabilidade de código	Identifica problemas de segurança no código gerado.
Materiais protegidos	Detecta o uso não autorizado de conteúdo protegido ou protegido por direitos autorais.
Segurança do conteúdo	Avaliação abrangente de várias questões de segurança.

Similaridade textual:

Avaliador	Propósito
Similaridade	Medida de similaridade textual assistida por IA.
F1_score	Média harmônica de precisão e recuperação nas sobreposições de tokens entre a resposta e a verdade básica.
BLEU	A pontuação de Subestudo de Avaliação Bilíngue das medidas de qualidade de tradução se sobrepõe em n-gramas entre a resposta e a verdade básica.
GLEU	A variante Google-BLEU para medidas de avaliação no nível da sentença se sobrepõe em n-gramas entre a resposta e a verdade básica.
ROUGE	O estudo orientado à recordação para avaliação de conceitos mede sobreposições em n-gramas entre a resposta e a verdade básica.
METEORO	A métrica para avaliação da tradução com ordenação explícita mede as sobreposições em n-gramas entre a resposta e a verdade básica.

Avaliadores do Azure OpenAI (versão prévia):

Avaliador	Propósito
Rotulador de Modelo	Classifica o conteúdo usando diretrizes e rótulos personalizados.
Marcador de Modelo	Gera pontuações numéricas (intervalo personalizado) para conteúdo com base em diretrizes personalizadas.
Verificador de cadeia de caracteres	Executa validações de texto flexíveis e correspondência de padrões.
Similaridade textual	Avalia a qualidade do texto ou determina a proximidade semântica.

Usando esses avaliadores estrategicamente em todo o ciclo de vida de desenvolvimento, as equipes podem criar aplicativos de IA mais confiáveis, seguros e eficazes que atendam às necessidades do usuário, minimizando possíveis riscos.

Os três estágios da avaliação do GenAIOps

Seleção de modelo base

Antes de criar seu aplicativo, você precisa selecionar a base certa. Essa avaliação inicial ajuda você a comparar modelos diferentes com base em:

Qualidade e precisão: quão relevantes e coerentes são as respostas do modelo?
Desempenho da tarefa: o modelo lida com seus casos de uso específicos com eficiência?
Considerações éticas: o modelo está livre de preconceitos prejudiciais?
Perfil de segurança: Qual é o risco de gerar conteúdo não seguro?

Ferramentas disponíveis: o parâmetro de comparação do Azure AI Foundry para comparar modelos em conjuntos de dados públicos ou seus próprios dados e o SDK de Avaliação de IA do Azure para testar pontos de extremidade de modelo específicos.

Avaliação de pré-produção

Depois de selecionar um modelo base, a próxima etapa é desenvolver um aplicativo de IA, como um chatbot alimentado por IA, um aplicativo RAG (geração aumentada por recuperação), um aplicativo de IA agente ou qualquer outra ferramenta de IA gerativa. Depois que o desenvolvimento for concluído, a avaliação de pré-produção será iniciada. Antes de implantar em um ambiente de produção, o teste completo é essencial para garantir que o modelo esteja pronto para uso no mundo real.

A avaliação de pré-produção envolve:

Teste com conjuntos de dados de avaliação: esses conjuntos de dados simulam interações realistas do usuário para garantir que o aplicativo de IA seja executado conforme o esperado.
Identificando casos de borda: encontrar cenários em que a qualidade de resposta do aplicativo de IA pode degradar ou produzir saídas indesejáveis.
Avaliando a robustez: garantir que o modelo possa lidar com uma variedade de variações de entrada sem quedas significativas na qualidade ou segurança.
Medindo as principais métricas: métricas como fundamentação da resposta, relevância e segurança são avaliadas para confirmar a prontidão para a produção.

O estágio de pré-produção atua como uma verificação de qualidade final, reduzindo o risco de implantar um aplicativo de IA que não atenda aos padrões de segurança ou desempenho desejados.

Ferramentas e abordagens de avaliação:

Traga seus próprios dados: você pode avaliar seus aplicativos de IA em pré-produção usando seus próprios dados de avaliação com avaliadores compatíveis, incluindo qualidade de geração, segurança ou avaliadores personalizados e exibir resultados por meio do portal do Azure AI Foundry. Use o assistente de avaliação do Azure AI Foundry ou os avaliadores com suporte do SDK de Avaliação de IA do Azure , incluindo qualidade de geração, segurança ou avaliadores personalizados, e exiba os resultados por meio do portal do Azure AI Foundry.
Simuladores e agente de equipe vermelha de IA (versão prévia): se você não tiver dados de avaliação (dados de teste), os simuladores do SDK de avaliação de IA do Azure podem ajudar gerando consultas relacionadas a tópicos ou adversárias. Esses simuladores testam a resposta do modelo a consultas apropriadas a situações ou semelhantes a ataques (casos extremos).
- Simuladores adversários inserem consultas estáticas que imitam possíveis riscos de segurança ou ataques, como tentativas de realizar um jailbreak, ajudando a identificar limitações e preparando o modelo para condições inesperadas.
- Simuladores apropriados para contexto geram conversas típicas e relevantes que você esperaria dos usuários para testar a qualidade das respostas. Com simuladores apropriados para contexto, você pode avaliar métricas como aterramento, relevância, coerência e fluência de respostas geradas.
- O Agente de equipe vermelha de IA (versão prévia) simula ataques de adversário complexos contra seu sistema de IA usando uma grande variedade de ataques de segurança e proteção usando a estrutura aberta da Microsoft na Ferramenta de Identificação de Risco do Python ou PyRIT. Verificações automatizadas usando o agente de agrupamento vermelho de IA aprimoram a avaliação de risco de pré-produção testando sistematicamente aplicativos de IA em busca de riscos. Esse processo envolve cenários de ataque simulados para identificar pontos fracos em respostas de modelo antes da implantação do mundo real. Ao executar verificações de agrupamento vermelho de IA, você pode detectar e atenuar possíveis problemas de segurança antes da implantação. Recomenda-se que essa ferramenta seja usada com processos humanos no circuito, como a sondagem convencional de equipes vermelhas de IA, para ajudar a acelerar a identificação de riscos e auxiliar na avaliação por um especialista humano.

Como alternativa, você também pode usar o widget de avaliação do portal do Azure AI Foundry para testar seus aplicativos de IA generativos.

Depois que resultados satisfatórios forem alcançados, o aplicativo de IA poderá ser implantado na produção.

Monitoramento pós-produção

Após a implantação, o monitoramento contínuo garante que seu aplicativo de IA mantenha a qualidade em condições reais:

Acompanhamento de desempenho: medição regular das principais métricas.
Resposta a incidentes: ação rápida quando ocorrem saídas prejudiciais ou inadequadas.

O monitoramento eficaz ajuda a manter a confiança do usuário e permite uma resolução rápida de problemas.

A Observabilidade do Azure AI Foundry fornece recursos de monitoramento abrangentes essenciais para o cenário de IA complexo e em rápida evolução atual. Integrada perfeitamente ao Application Insights do Azure Monitor, essa solução permite o monitoramento contínuo de aplicativos de IA implantados para garantir o desempenho, a segurança e a qualidade ideais em ambientes de produção. O painel de Observabilidade do Foundry fornece insights em tempo real sobre métricas críticas, permitindo que as equipes identifiquem e resolvam rapidamente problemas de desempenho, questões de segurança ou degradação da qualidade. Para aplicativos baseados em agente, a Foundry oferece recursos avançados de avaliação contínua que podem ser habilitados para fornecer visibilidade mais profunda das métricas de qualidade e segurança, criando um ecossistema de monitoramento robusto que se adapta à natureza dinâmica dos aplicativos de IA, mantendo altos padrões de desempenho e confiabilidade.

Monitorando continuamente o comportamento do aplicativo de IA em produção, você pode manter experiências de usuário de alta qualidade e resolver rapidamente todos os problemas que surgirem.

Criando confiança por meio da avaliação sistemática

O GenAIOps estabelece um processo confiável para gerenciar aplicativos de IA durante todo o ciclo de vida. Implementando uma avaliação completa em cada estágio, desde a seleção de modelos até a implantação e além, as equipes podem criar soluções de IA que não são apenas poderosas, mas confiáveis e seguras.

Guia rápido de avaliação

Propósito	Processo	Parâmetros
O que você está avaliando?	Identificar ou criar avaliadores relevantes	- Notebook de exemplo de desempenho e qualidade - Qualidade da resposta de agentes - Segurança e Proteção (Notebook de exemplo de Segurança e Proteção) - Personalizado (Notebook de exemplo personalizado)
Quais dados você deve usar?	Carregar ou gerar conjunto de dados relevante	Simulador genérico para medir Qualidade e Desempenho (Notebook de exemplo de simulador genérico) - Simulador adversarial para medir Segurança e Proteção (Notebook de exemplo do simulador adversarial) Agente de equipe vermelha de IA para executar verificações automatizadas e avaliar vulnerabilidades de segurança e proteção (notebook de exemplo do agente de equipe vermelha de IA)
Quais recursos devem realizar a avaliação?	Executar avaliação	- Execução local - Execução de nuvem remota
Como meu modelo/aplicativo foi executado?	Analisar resultados	Exibir pontuações agregadas, exibir detalhes, detalhes da pontuação, comparar execuções de avaliação
Como posso melhorar?	Fazer alterações no modelo, aplicativo ou avaliadores	- Se os resultados da avaliação não se alinharem aos comentários humanos, ajuste o avaliador. - Se os resultados da avaliação se alinharem aos comentários humanos, mas não atenderem aos limites de qualidade/segurança, aplique mitigações direcionadas. Exemplo de mitigações a serem aplicadas: Segurança de Conteúdo de IA do Azure

Suporte de regiões

Atualmente, alguns avaliadores assistidos por IA estão disponíveis apenas nas seguintes regiões:

Região	Ódio e injustiça, Sexual, Violento, Automutilação, Ataque indireto, Vulnerabilidades de código, Atributos não fundamentados	Fundamentação Pro	Material protegido
Leste dos EUA 2	Suportado	Suportado	Suportado
Suécia Central	Suportado	Suportado	Não aplicável
Centro-Norte dos EUA	Suportado	Não aplicável	Não aplicável
França Central	Suportado	Não aplicável	Não aplicável
Oeste da Suíça	Suportado	Não aplicável	Não aplicável

Preços

Recursos de observabilidade, como Avaliações de Risco e Segurança e Avaliações Contínuas, são cobrados com base no consumo, conforme listado em nossa página de preços do Azure. Selecione a guia rotulada Concluir o Conjunto de Ferramentas de IA para exibir os detalhes de preços das avaliações.