Partilhar via


Exibir os resultados da avaliação no portal do Azure AI Foundry

Você pode usar a página de avaliação do portal do Azure AI Foundry para visualizar e avaliar seus resultados. Você pode usá-lo como um centro de controle para otimizar, solucionar problemas e selecionar o modelo de IA ideal para suas necessidades de implantação. O portal pode ajudá-lo com a tomada de decisões orientada por dados e o aprimoramento de desempenho em seus projetos do Azure AI Foundry. Você pode acessar e interpretar os resultados de várias fontes, incluindo seu fluxo, a sessão de teste rápido do playground, a interface do usuário de envio de avaliação e o SDK. Tem a flexibilidade de interagir com os seus resultados da forma que melhor se adapte ao seu fluxo de trabalho e preferências.

Depois de visualizar os resultados da avaliação, você pode mergulhar em um exame minucioso. Você pode visualizar resultados individuais e compará-los em várias execuções de avaliação. Você pode identificar tendências, padrões e discrepâncias, o que ajuda a obter informações inestimáveis sobre o desempenho do seu sistema de IA sob várias condições.

Neste artigo, você aprenderá a:

  • Veja o resultado e as métricas da avaliação.
  • Compare os resultados da avaliação.
  • Melhore o desempenho.

Encontre os resultados da sua avaliação

Depois de enviar sua avaliação, você pode localizar a execução da avaliação enviada dentro da lista de execução. Vá para a página Avaliação .

Você pode monitorar e gerenciar suas execuções de avaliação dentro da lista de execução. Você tem a flexibilidade de modificar as colunas usando o editor de colunas e implementar filtros, e pode personalizar e criar sua própria versão da lista de execução. Além disso, você pode revisar rapidamente as métricas de avaliação agregadas em todas as sessões e realizar comparações rápidas.

Captura de tela que mostra a lista de execução da avaliação.

Sugestão

Você pode visualizar uma execução de avaliação com qualquer versão do promptflow-evals SDK ou azure-ai-evaluation versões 1.0.0b1, 1.0.0b2, 1.0.0b3. Habilite a alternância Mostrar todas as execuções para localizar a execução.

Para uma compreensão mais profunda de como as métricas de avaliação são derivadas, você pode acessar uma explicação abrangente selecionando a opção Saiba mais sobre métricas . Este recurso detalhado fornece informações sobre o cálculo e a interpretação das métricas que são usadas no processo de avaliação.

Captura de tela que mostra detalhes das métricas de avaliação.

Ao revisar a tabela de execuções de avaliação, você pode selecionar uma específica, que o levará à página de detalhes da execução. Aqui, você pode acessar informações abrangentes, incluindo detalhes de avaliação, como conjunto de dados de teste, tipo de tarefa, prompt, temperatura e muito mais. Você também pode exibir as métricas associadas a cada amostra de dados. O painel de métricas fornece uma representação visual da taxa de aprovação de um conjunto de dados em cada métrica testada.

Atenção

Os utilizadores que anteriormente geriam as suas implementações de modelo e realizavam avaliações usando oai.azure.com e que a seguir integraram na plataforma de desenvolvimento do Azure AI Foundry, enfrentam estas limitações quando usam ai.azure.com:

  • Esses usuários não podem exibir suas avaliações que foram criadas por meio da API do Azure OpenAI. Para ver essas avaliações, eles têm que voltar para oai.azure.com.
  • Esses usuários não podem usar a API do Azure OpenAI para executar avaliações no Azure AI Foundry. Em vez disso, eles devem continuar a usar oai.azure.com para essa tarefa. No entanto, eles podem usar os avaliadores do Azure OpenAI que estão disponíveis diretamente no Azure AI Foundry (ai.azure.com) na opção para a criação de avaliação de conjunto de dados. A opção para avaliação de modelo ajustada não é suportada se a implantação for uma migração do Azure OpenAI para o Azure AI Foundry.

Para o cenário de upload de conjunto de dados e trazer seu próprio armazenamento, há alguns requisitos de configuração:

  • A autenticação da conta deve ser Microsoft Entra ID.
  • O armazenamento deve ser adicionado à conta. Adicioná-lo ao projeto causa erros de serviço.
  • Os usuários devem adicionar seu projeto à sua conta de armazenamento por meio do controle de acesso no portal do Azure.

Para saber mais sobre como criar avaliações com classificadores de avaliação OpenAI no hub OpenAI do Azure, consulte Como usar o Azure OpenAI na avaliação de modelos do Azure AI Foundry.

Painel de métricas

Na seção Painel de métricas , as visualizações agregadas são divididas por métricas que incluem qualidade de IA (AI Assisted),Risco e segurança (visualização),Qualidade de IA (NLP) e Personalizada (quando aplicável). Os resultados são medidos como percentagens de aprovação/reprovação com base nos critérios selecionados quando a avaliação foi criada. Para obter informações mais detalhadas sobre definições de métricas e como elas são calculadas, consulte O que são avaliadores?.

  • Para métricas de qualidade de IA (AI Assisted), os resultados são agregados calculando uma média em todas as pontuações de cada métrica. Se você calcular usando a métrica Groundedness Pro , a saída será binária e a pontuação agregada será a taxa de passagem, que é calculada por (#trues / #instances) × 100. Captura de tela que mostra a guia do painel de métricas de qualidade de IA (AI Assisted).
  • Para métricas de risco e segurança (visualização), os resultados são agregados calculando uma taxa de defeitos para cada métrica.
    • Para métricas de danos ao conteúdo, a taxa de defeitos é definida como a porcentagem de instâncias em seu conjunto de dados de teste que ultrapassam um limite na escala de gravidade em todo o tamanho do conjunto de dados. Por padrão, o valor limite é Medium.
    • Para material protegido e ataque indireto, a taxa de defeitos é calculada como a porcentagem de instâncias em que a saída é true usando a fórmula (Defect Rate = (#trues / #instances) × 100). Captura de tela que mostra a guia do painel de métricas de risco e segurança.
  • Para métricas de qualidade de IA (PNL), os resultados são agregados calculando uma média em todas as pontuações de cada métrica. Captura de tela que mostra a guia do painel de qualidade de IA (NLP).

Tabela detalhada de resultados de métricas

Na seção de dados, você pode realizar um exame abrangente de cada amostra de dados individual e das métricas associadas. Aqui, você pode examinar a saída gerada e sua pontuação métrica de avaliação correspondente. Você também pode ver se ele passou com base na nota de aprovação quando o teste foi executado. Com esse nível de detalhe, você pode tomar decisões baseadas em dados e tomar ações específicas para melhorar o desempenho do seu modelo.

Alguns itens de ação potenciais com base nas métricas de avaliação podem incluir:

  • Reconhecimento de padrões: filtrando por valores numéricos e métricas, você pode detalhar amostras com pontuações mais baixas. Investigue essas amostras para identificar padrões ou problemas recorrentes nas respostas do seu modelo. Por exemplo, você pode notar que pontuações baixas geralmente ocorrem quando o modelo gera conteúdo sobre um determinado tópico.
  • Refinamento do modelo: utilize os insights de amostras com pontuações mais baixas para melhorar a instrução de prompt do sistema ou ajustar o seu modelo. Se você observar problemas consistentes com, por exemplo, coerência ou relevância, também poderá ajustar os dados ou parâmetros de treinamento do modelo de acordo.
  • Personalização de colunas: você pode usar o editor de colunas para criar uma exibição personalizada da tabela, concentrando-se nas métricas e nos dados mais relevantes para suas metas de avaliação. O editor de colunas pode agilizar sua análise e ajudá-lo a identificar tendências de forma mais eficaz.
  • Pesquisa por palavra-chave: Você pode usar a caixa de pesquisa para procurar palavras ou frases específicas na saída gerada e para identificar problemas ou padrões relacionados a tópicos ou palavras-chave específicos. Em seguida, você pode abordá-los especificamente.

A tabela de detalhes das métricas oferece uma grande variedade de dados que podem orientar seus esforços de melhoria do modelo. Você pode reconhecer padrões, personalizar sua exibição para uma análise eficiente e refinar seu modelo com base em problemas identificados.

Aqui estão alguns exemplos dos resultados das métricas para o cenário de resposta a perguntas:

Captura de tela que mostra os resultados das métricas para o cenário de resposta a perguntas.

Algumas avaliações têm sub-avaliadores, que permitem visualizar o JSON dos resultados das sub-avaliações. Para visualizar os resultados, selecione Exibir em JSON.

Captura de tela que mostra resultados detalhados de métricas com JSON selecionado.

Veja o JSON na Visualização JSON:

Captura de tela que mostra a visualização JSON.

Aqui estão alguns exemplos dos resultados das métricas para o cenário de conversa. Para rever os resultados ao longo de uma conversa de várias voltas, selecione Ver resultados da avaliação por turno na coluna Conversação .

Captura de tela que mostra os resultados das métricas para o cenário de conversa.

Ao selecionar Exibir resultados da avaliação por turno, você verá a seguinte tela:

Captura de ecrã que mostra os resultados da avaliação por turno.

Para uma avaliação de segurança em um cenário multimodal (texto e imagens), você pode entender melhor o resultado da avaliação revisando as imagens de entrada e saída na tabela de resultados de métricas detalhadas. Como a avaliação multimodal atualmente é suportada apenas para cenários de conversação, você pode selecionar Exibir resultados da avaliação por turno para examinar a entrada e a saída de cada turno.

Captura de tela que mostra a caixa de diálogo de imagem da coluna de conversa.

Selecione a imagem para expandi-la e visualizá-la. Por padrão, todas as imagens são desfocadas para protegê-lo de conteúdo potencialmente prejudicial. Para visualizar a imagem com clareza, ative a opção Verificar imagem de desfoque .

Captura de ecrã que mostra uma imagem desfocada e a alternância Verificar imagem desfocada.

Os resultados da avaliação podem ter significados diferentes para públicos diferentes. Por exemplo, as avaliações de segurança podem gerar um rótulo para Baixa gravidade de conteúdo violento que pode não estar alinhado com a definição de um revisor humano de quão grave esse conteúdo violento específico pode ser. A nota de aprovação definida durante a criação da avaliação determina se uma aprovação ou reprovação é atribuída. Há uma coluna de feedback humano onde você pode selecionar um ícone de polegar para cima ou polegar para baixo enquanto revisa os resultados da avaliação. Você pode usar esta coluna para registrar quais instâncias foram aprovadas ou sinalizadas como incorretas por um revisor humano.

Captura de tela que mostra os resultados das métricas de risco e segurança com feedback humano.

Para entender cada métrica de risco de conteúdo, você pode exibir definições de métrica voltando para a seção Relatório ou pode revisar o teste na seção Painel de métricas .

Se houver algo errado com a execução, pode também usar os registos para depurar o seu processo de avaliação. Aqui estão alguns exemplos de logs que você pode usar para depurar sua execução de avaliação:

Captura de tela que mostra os logs que você pode usar para depurar sua execução de avaliação.

Caso esteja a avaliar um fluxo de prompt, pode selecionar o botão Visualizar no fluxo para acessar a página do fluxo avaliado e atualizar o seu fluxo. Por exemplo, você pode adicionar instruções de meta prompt extras ou alterar alguns parâmetros e reavaliar.

Comparar os resultados da avaliação

Para facilitar uma comparação abrangente entre duas ou mais execuções, pode-se selecionar as execuções desejadas e executar o processo. Selecione o botão Comparar ou, para uma visualização detalhada geral do painel, o botão Alternar para o modo de exibição do painel . Você tem o poder de analisar e contrastar o desempenho e os resultados de várias execuções, permitindo uma tomada de decisão mais informada e melhorias direcionadas.

Captura de tela que mostra a opção de comparar avaliações.

Na visualização do painel, você tem acesso a dois componentes valiosos: o Gráfico de comparação de distribuição métrica e a Tabela de comparação. Você pode usar essas ferramentas para executar uma análise lado a lado das execuções de avaliação selecionadas. Você pode comparar vários aspetos de cada amostra de dados com facilidade e precisão.

Observação

Por padrão, as execuções de avaliação mais antigas têm linhas correspondentes entre colunas. No entanto, as avaliações recentemente executadas têm de ser intencionalmente configuradas para terem colunas correspondentes no momento da criação da avaliação. Certifique-se de que o mesmo nome seja usado como o valor Nome do critério em todas as avaliações que você deseja comparar.

A captura de tela a seguir mostra a experiência quando os campos são os mesmos:

Captura de tela que mostra avaliações automatizadas quando os campos são os mesmos.

Quando um usuário não usa o mesmo Nome de Critério na criação da avaliação, os campos não correspondem, o que faz com que a plataforma não consiga comparar diretamente os resultados:

Captura de tela que mostra avaliações automatizadas quando os campos não são os mesmos.

Na tabela de comparação, você pode estabelecer uma linha de base para sua comparação passando o mouse sobre a execução específica que deseja usar como ponto de referência e definir como linha de base. Você também pode ativar a alternância Mostrar delta para visualizar prontamente as diferenças entre a execução da linha de base e as outras execuções para valores numéricos. Além disso, você pode selecionar a alternância Mostrar apenas diferença para que a tabela exiba apenas as linhas que diferem entre as execuções selecionadas, ajudando na identificação de variações distintas.

Usando esses recursos de comparação, você pode tomar uma decisão informada para selecionar a melhor versão:

  • Comparação de linha de base: definindo uma execução de linha de base, você pode identificar um ponto de referência com o qual comparar as outras execuções. Você pode ver como cada execução se desvia do padrão escolhido.
  • Avaliação de valor numérico: habilitar a opção Mostrar delta ajuda a entender a extensão das diferenças entre a linha de base e outras execuções. Estas informações podem ajudá-lo a avaliar como várias execuções se comportam em termos de métricas específicas de avaliação.
  • Isolamento de diferenças: o recurso Mostrar apenas diferença simplifica sua análise destacando apenas as áreas onde há discrepâncias entre as execuções. Essas informações podem ser fundamentais para identificar onde melhorias ou ajustes são necessários.

Ao usar essas ferramentas de comparação de forma eficaz, você pode identificar qual versão do seu modelo ou sistema tem o melhor desempenho em relação aos seus critérios e métricas definidos, ajudando-o, em última análise, a selecionar a opção mais ideal para sua aplicação.

Captura de ecrã que mostra os resultados da avaliação lado a lado.

Meça a vulnerabilidade de jailbreak

Avaliar a vulnerabilidade de jailbreak é uma medida comparativa, não uma métrica assistida por IA. Execute avaliações em dois conjuntos de dados diferentes com equipe vermelha: um conjunto de dados de teste adversário de linha de base versus o mesmo conjunto de dados de teste adversário com injeções de jailbreak no primeiro turno. Você pode usar o simulador de dados adversário para gerar o conjunto de dados com ou sem injeções de jailbreak. Certifique-se de que o valor Criteria Name seja o mesmo para cada métrica de avaliação ao configurar as execuções.

Para entender se seu aplicativo é vulnerável a jailbreak, você pode especificar a linha de base e, em seguida, ativar a alternância Taxas de defeito de jailbreak na tabela de comparação. A taxa de defeito de jailbreak é a porcentagem de instâncias em seu conjunto de dados de teste em que uma injeção de jailbreak gerou uma pontuação de gravidade mais alta para qualquer métrica de risco de conteúdo em relação a uma linha de base em todo o tamanho do conjunto de dados. Você pode selecionar várias avaliações no painel Comparar para visualizar a diferença nas taxas de defeitos.

Imagem de ecrã que mostra os resultados da avaliação lado a lado com a falha de jailbreak ativada.

Sugestão

A taxa de defeitos de jailbreak é comparativamente calculada apenas para conjuntos de dados do mesmo tamanho e somente quando todas as execuções incluem risco de conteúdo e métricas de segurança.

Compreender as métricas de avaliação incorporadas

Compreender as métricas incorporadas é vital para avaliar o desempenho e a eficácia da sua aplicação de IA. Ao obter informações sobre essas principais ferramentas de medição, você está mais bem equipado para interpretar os resultados, tomar decisões informadas e ajustar seu aplicativo para alcançar resultados ideais. Consulte Métricas de Avaliação e Monitoramento para saber mais sobre os seguintes aspetos:

  • A significância de cada métrica
  • Como é calculado
  • O seu papel na avaliação de diferentes aspetos do seu modelo
  • Como interpretar os resultados para fazer melhorias orientadas por dados

Saiba mais sobre como avaliar suas aplicações de IA generativa:

Saiba mais sobre técnicas de mitigação de danos.