Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Importante
Os itens marcados como (pré-visualização) neste artigo estão neste momento em pré-visualização pública. Esta pré-visualização é fornecida sem um acordo de nível de serviço, e não a recomendamos para trabalhos em produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.
No mundo atual orientado por IA, as Generative AI Operations (GenAIOps) estão revolucionando a forma como as organizações constroem e implantam sistemas inteligentes. À medida que as empresas usam cada vez mais a IA para transformar a tomada de decisões, melhorar as experiências dos clientes e impulsionar a inovação, um elemento é fundamental: estruturas de avaliação robustas. A avaliação não é apenas um ponto de verificação. É a base da confiança nas aplicações de IA. Sem uma avaliação rigorosa, os sistemas de IA podem produzir conteúdo que:
- Fabricado ou sem fundamento na realidade
- Irrelevante ou incoerente para as necessidades do utilizador
- Nocivo por perpetuar riscos e estereótipos nos conteúdos
- Perigoso na disseminação de desinformação
- Vulnerável a explorações de segurança
É aqui que os avaliadores se tornam essenciais. Essas ferramentas especializadas medem a frequência e a gravidade dos riscos nas saídas de IA, permitindo que as equipes abordem sistematicamente as preocupações de qualidade, segurança e proteção ao longo de toda a jornada de desenvolvimento de IA — desde a seleção do modelo certo até o monitoramento do desempenho, da qualidade e da segurança da produção.
O que são os avaliadores?
Os avaliadores são ferramentas especializadas que medem a qualidade, segurança e fiabilidade das respostas de IA. Ao implementar avaliações sistemáticas ao longo do ciclo de vida de desenvolvimento da IA, as equipas podem identificar e resolver potenciais problemas antes que estes afetem os utilizadores. Os seguintes avaliadores apoiados fornecem capacidades de avaliação abrangentes em diferentes tipos de aplicações e preocupações de IA:
RAG (Geração Aumentada de Recuperação):
Avaliador | Propósito |
---|---|
Recuperação | Mede a eficácia com que o sistema recupera informações relevantes. |
Recuperação de documentos | Mede a precisão na recuperação de resultados dada a verdade do terreno. |
Fundamentação | Mede o quão consistente é a resposta em relação ao contexto recuperado. |
Enraizamento Pro | Mede se a resposta é consistente em relação ao contexto recuperado. |
Pertinência | Mede o quão relevante é a resposta em relação à consulta. |
Completude da resposta | Mede até que ponto a resposta é completa (não faltando informação crítica) em relação à verdade fundamental. |
Avaliador | Propósito |
---|---|
Resolução de intenções | Mede a precisão com que o agente identifica e aborda as intenções do usuário. |
Adesão à tarefa | Mede o quão bem o agente executa as tarefas identificadas. |
Precisão no acionamento da ferramenta | Mede o quão bem o agente seleciona e chama as ferramentas corretas. |
Avaliador | Propósito |
---|---|
Fluência | Mede a qualidade e legibilidade da linguagem natural. |
Coerência | Mede a consistência lógica e o fluxo de respostas. |
Garantia de Qualidade | Mede de forma abrangente vários aspetos de qualidade na resposta a perguntas. |
Segurança e proteção (pré-visualização):
Avaliador | Propósito |
---|---|
Violência | Deteta conteúdo violento ou incitamento. |
Sexual | Identifica conteúdo sexual impróprio. |
Automutilação | Deteta conteúdo que promove ou descreve automutilação. |
Ódio e injustiça | Identifica conteúdo tendencioso, discriminatório ou odioso. |
Atributos sem fundamento | Deteta informações fabricadas ou alucinadas inferidas a partir de interações do usuário. |
Vulnerabilidade de código | Identifica problemas de segurança no código gerado. |
Materiais Protegidos | Deteta o uso não autorizado de conteúdo protegido por direitos de autor. |
Segurança de conteúdo | Avaliação exaustiva de várias questões de segurança. |
Avaliador | Propósito |
---|---|
Semelhança | Medição de similaridade textual assistida por IA. |
Pontuação F1 | Média harmônica de precisão e recordação em sobreposições simbólicas entre resposta e verdade fundamental. |
UEBL | Avaliação Bilíngue A pontuação do Understudy para medidas de qualidade de tradução sobrepõe-se em n-gramas entre a resposta e a verdade básica. |
GLEU | Google-BLEU variante para medidas de avaliação de nível de sentença sobrepõe-se em n-gramas entre resposta e verdade fundamentada. |
ROUGE | Recall-Oriented Understudy for Gisting Evaluation mede sobreposições em n-gramas entre resposta e veracidade fundamental. |
METEORO | As medidas da Métrica para Avaliação da Tradução com Ordenação Explícita sobrepõem-se em n-gramas entre a resposta e a verdade fundamental. |
Azure OpenAI Graders (visualização):
Avaliador | Propósito |
---|---|
Etiquetador de Modelos | Classifica o conteúdo usando diretrizes e rótulos personalizados. |
Marcador de modelos | Gera pontuações numéricas (intervalo personalizado) para o conteúdo com base em diretrizes personalizadas. |
Verificador de cordas | Executa validações de texto flexíveis e correspondência de padrões. |
Semelhança textual | Avalia a qualidade do texto ou determina a proximidade semântica. |
Ao usar esses avaliadores estrategicamente durante todo o ciclo de vida do desenvolvimento, as equipes podem construir aplicativos de IA mais confiáveis, seguros e eficazes que atendam às necessidades do usuário enquanto minimizam os riscos potenciais.
As três etapas da avaliação do GenAIOps
Seleção do modelo de base
Antes de criar seu aplicativo, você precisa selecionar a base certa. Esta avaliação inicial ajuda-o a comparar diferentes modelos com base em:
- Qualidade e precisão: quão relevantes e coerentes são as respostas do modelo?
- Desempenho da tarefa: o modelo lida com seus casos de uso específicos de forma eficiente?
- Considerações éticas: O modelo está isento de preconceitos prejudiciais?
- Perfil de segurança: Qual é o risco de gerar conteúdos não seguros?
Ferramentas disponíveis: Azure AI Foundry para comparação de modelos em conjuntos de dados públicos ou nos seus próprios dados e o SDK de Avaliação de IA do Azure para testar endpoints específicos de modelos.
Avaliação pré-produção
Depois de selecionar um modelo base, a próxima etapa é desenvolver um aplicativo de IA — como um chatbot alimentado por IA, um aplicativo de geração aumentada de recuperação (RAG), um aplicativo de IA agentic ou qualquer outra ferramenta de IA generativa. Quando o desenvolvimento estiver concluído, inicia-se a avaliação da pré-produção. Antes de implantar em um ambiente de produção, testes completos são essenciais para garantir que o modelo esteja pronto para uso no mundo real.
A avaliação pré-produção envolve:
- Teste com conjuntos de dados de avaliação: esses conjuntos de dados simulam interações realistas do usuário para garantir que o aplicativo de IA tenha o desempenho esperado.
- Identificação de casos de borda: Encontrar cenários em que a qualidade de resposta do aplicativo de IA pode degradar ou produzir saídas indesejáveis.
- Avaliação da robustez: Garantir que o modelo possa lidar com uma gama de variações de entrada sem quedas significativas na qualidade ou segurança.
- Medição de métricas-chave: métricas como fundamentação da resposta, relevância e segurança são avaliadas para confirmar a prontidão para a produção.
A etapa de pré-produção atua como uma verificação final de qualidade, reduzindo o risco de implantação de um aplicativo de IA que não atenda aos padrões de desempenho ou segurança desejados.
Ferramentas e abordagens de avaliação:
- Traga seus próprios dados: você pode avaliar seus aplicativos de IA na pré-produção usando seus próprios dados de avaliação com avaliadores suportados, incluindo qualidade de geração, segurança ou avaliadores personalizados, e exibir resultados por meio do portal do Azure AI Foundry. Utilize o assistente de avaliação do Azure AI Foundry ou os avaliadores suportados do Azure AI Evaluation SDK , incluindo avaliadores de qualidade de geração, segurança ou personalizados, e veja os resultados através do portal do Azure AI Foundry.
- Simuladores e agente de agrupamento vermelho de IA (visualização): Se você não tiver dados de avaliação (dados de teste), os simuladores do SDK de Avaliação de IA do Azure podem ajudar gerando consultas relacionadas a tópicos ou adversárias. Esses simuladores testam a resposta do modelo a consultas apropriadas à situação ou semelhantes a ataques (casos extremos).
- Os simuladores adversariais injetam consultas estáticas que imitam potenciais riscos ou ataques de segurança, como tentativas de jailbreak, ajudando a identificar limitações e preparando o modelo para condições inesperadas.
- Simuladores apropriados ao contexto geram conversas típicas e relevantes que você esperaria dos usuários para testar a qualidade das respostas. Com simuladores apropriados ao contexto, você pode avaliar métricas como fundamentação, relevância, coerência e fluência das respostas geradas.
- AI red teaming agent (preview) simula ataques adversários complexos contra seu sistema de IA usando uma ampla gama de ataques de segurança e proteção usando a estrutura aberta da Microsoft para Python Risk Identification Tool ou PyRIT. As varreduras automatizadas usando o agente de agrupamento vermelho de IA aprimoram a avaliação de risco de pré-produção testando sistematicamente os aplicativos de IA quanto a riscos. Esse processo envolve cenários de ataque simulados para identificar fraquezas nas respostas do modelo antes da implantação no mundo real. Ao executar verificações de agrupamento vermelho de IA, você pode detetar e mitigar possíveis problemas de segurança antes da implantação. Esta ferramenta é recomendada para utilização em processos com interação humana no processo, como os testes de equipa vermelha de IA convencional, a fim de acelerar a identificação de riscos e apoiar a avaliação por um especialista humano.
Como alternativa, você também pode usar o widget de avaliação do portal do Azure AI Foundry para testar seus aplicativos de IA generativa.
Uma vez que os resultados satisfatórios são alcançados, o aplicativo de IA pode ser implantado na produção.
Monitorização pós-produção
Após a implantação, o monitoramento contínuo garante que seu aplicativo de IA mantenha a qualidade em condições reais:
- Acompanhamento de desempenho: Medição regular das principais métricas.
- Resposta a incidentes: Ação rápida quando ocorrem saídas prejudiciais ou inadequadas.
O monitoramento eficaz ajuda a manter a confiança do usuário e permite a rápida resolução de problemas.
A Observabilidade do Azure AI Foundry fornece recursos de monitoramento abrangentes essenciais para o cenário de IA complexo e em rápida evolução de hoje. Perfeitamente integrada com o Azure Monitor Application Insights, esta solução permite a monitorização contínua de aplicações de IA implementadas para garantir o desempenho, a segurança e a qualidade ideais em ambientes de produção. O painel Observabilidade do Foundry fornece informações em tempo real sobre métricas críticas, permitindo que as equipes identifiquem e resolvam rapidamente problemas de desempenho, problemas de segurança ou degradação da qualidade. Para aplicações baseadas em agentes, o Foundry oferece recursos aprimorados de avaliação contínua que podem ser habilitados para fornecer uma visibilidade mais profunda das métricas de qualidade e segurança, criando um ecossistema de monitoramento robusto que se adapta à natureza dinâmica dos aplicativos de IA, mantendo altos padrões de desempenho e confiabilidade.
Ao monitorar continuamente o comportamento do aplicativo de IA na produção, você pode manter experiências de usuário de alta qualidade e resolver rapidamente quaisquer problemas que surjam.
Reforçar a confiança através de uma avaliação sistemática
O GenAIOps estabelece um processo confiável para gerenciar aplicativos de IA durante todo o seu ciclo de vida. Ao implementar uma avaliação completa em cada estágio, desde a seleção do modelo até a implantação e além, as equipes podem criar soluções de IA que não sejam apenas poderosas, mas confiáveis e seguras.
Folha de dicas de avaliação
Propósito | Processo | Parâmetros |
---|---|---|
Para que está a avaliar? | Identificar ou construir avaliadores relevantes |
-
Amostra de notebook de qualidade e desempenho - Qualidade de resposta dos agentes - Segurança e proteção (caderno de exemplo de segurança e proteção) - Personalizado (caderno de exemplos personalizado) |
Que dados deve utilizar? | Carregar ou gerar conjunto de dados relevante |
Simulador genérico para medir Qualidade e Desempenho (Caderno de amostra do simulador genérico) - Simulador adversarial para medição de segurança e proteção (notebook de amostra de simulador adversarial) Agente de "red teaming" de IA para executar análises automatizadas a fim de avaliar vulnerabilidades de segurança e proteção (caderno de amostra do agente de red teaming de IA) |
Que recursos devem conduzir a avaliação? | Executar avaliação |
-
Corrida local - Execução remota na nuvem |
Qual foi o desempenho do meu modelo/aplicativo? | Analisar os resultados | Ver pontuações agregadas, ver detalhes, detalhes da pontuação, comparar execuções de avaliação |
Como posso melhorar? | Fazer alterações no modelo, aplicativo ou avaliadores | - Se os resultados da avaliação não estiverem alinhados com o feedback humano, ajuste o seu avaliador. - Se os resultados da avaliação estiverem alinhados com o feedback humano, mas não atingirem os limites de qualidade/segurança, aplique mitigações direcionadas. Exemplo de atenuações a serem aplicadas: Segurança de Conteúdo do Azure AI |
Suporte de região
Atualmente, alguns avaliadores assistidos por IA estão disponíveis apenas nas seguintes regiões:
Região | Ódio e injustiça, Sexual, Violento, Automutilação, Ataque indireto, Vulnerabilidades de código, Atributos infundados | Enraizamento Pro | Material protegido |
---|---|---|---|
Região Leste dos EUA 2 | Suportado | Suportado | Suportado |
Suécia Central | Suportado | Suportado | N/A |
E.U.A. Centro-Norte | Suportado | N/A | N/A |
França Central | Suportado | N/A | N/A |
Suíça Oeste | Suportado | N/A | N/A |
Preços
Os recursos de observabilidade, como Avaliações de Risco e Segurança e Avaliações Contínuas, são cobrados com base no consumo, conforme listado em nossa página de preços do Azure. Selecione a guia Complete AI Toolchain para visualizar os detalhes de preços das avaliações.