Avaliar manualmente os prompts no playground do Estúdio de IA do Azure

Artigo
05/21/2024

Importante

Alguns dos recursos descritos nesse artigo podem estar disponíveis apenas na versão prévia. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou podem ter restrição de recursos. Para obter mais informações, consulte Termos de Uso Complementares de Versões Prévias do Microsoft Azure.

Quando você começa a usar a engenharia de prompt, pode ser muito demorado testar diferentes entradas uma de cada vez para avaliar a eficácia do prompt. Isso ocorre porque é importante verificar se os filtros de conteúdo estão funcionando corretamente, se a resposta é precisa, entre outros.

Para simplificar esse processo, utilize a avaliação manual do Estúdio de IA do Azure, uma ferramenta de avaliação que permite iterar e avaliar o prompt de maneira contínua em relação aos dados de teste em uma só interface. Além disso, classifique manualmente as saídas, as respostas do modelo, para ajudar a ganhar confiança no prompt.

A avaliação manual pode ajudar você a começar a entender o nível de desempenho do prompt e iterar no prompt a fim de garantir que você chegue ao nível de confiança desejado.

Neste artigo, você aprenderá a:

Gerar os resultados da avaliação manual
Classificar as respostas do modelo
Iterar no prompt e reavaliá-lo
Salvar e comparar os resultados
Avaliá-los com métricas internas

Pré-requisitos

Para gerar resultados de avaliação manual, você precisa ter os seguintes itens prontos:

Um conjunto de dados de teste em um destes formatos: CSV ou JSONL. Se você não tiver um conjunto de dados disponível, também permitiremos que você insira dados manualmente por meio da interface do usuário.
Uma implantação de um destes modelos: modelos GPT 3.5, GPT 4 ou Davinci. Para saber mais sobre como criar uma implantação, consulte Implantar modelos.

Observação

A avaliação manual só tem suporte para modelos do Azure OpenAI neste momento para tipos de tarefa de chat e de conclusão.

Gerar os resultados da avaliação manual

No Playground, selecione Avaliação manual para iniciar o processo de revisão manual das respostas do modelo com base nos dados de teste e no prompt. O prompt passa automaticamente para a avaliação manual, e, nesse momento, você só precisa adicionar dados de teste para avaliá-lo.

Isso pode ser feito manualmente por meio das caixas de texto da coluna Entrada.

Você também pode importar dados para escolher um dos conjuntos de dados existentes anteriores no projeto ou carregar um conjunto de dados que esteja no formato CSV ou JSONL. Depois de carregar os dados, você será solicitado a mapear as colunas adequadamente. Após a conclusão e a seleção de Importar, os dados serão preenchidos adequadamente nas colunas abaixo.

Observação

Você pode adicionar até 50 linhas de entrada à avaliação manual. Se os dados de teste tiverem mais de 50 linhas de entrada, carregaremos as primeiras 50 na coluna de entrada.

Agora que os dados foram adicionados, selecione Executar para preencher a coluna de saída com a resposta do modelo.

Classificar as respostas do modelo

Você pode fornecer uma classificação positiva ou negativa para cada resposta a fim de avaliar a saída do prompt. Com base nas classificações fornecidas, você pode visualizar essas pontuações de resposta nos resumos de visão geral.

Iterar no prompt e reavaliá-lo

Com base no resumo, é interessante fazer alterações no prompt. Você pode usar os controles de prompt acima para editar a configuração do prompt. Isso pode ser uma atualização da mensagem do sistema, uma alteração do modelo ou a edição dos parâmetros.

Depois de fazer as edições, você pode optar por executar tudo novamente para atualizar a tabela inteira ou se concentrar em executar novamente as linhas específicas que não atenderam às suas expectativas na primeira vez.

Salvar e comparar os resultados

Depois de preencher os resultados, salve os resultados para compartilhar o progresso com sua equipe ou continuar a avaliação manual mais tarde no ponto em que parou.

Você também pode comparar as classificações positivas e negativas em diferentes avaliações manuais salvando-as e visualizando-as na guia Avaliação em Avaliação manual.

Próximas etapas

Saiba mais sobre como avaliar seus aplicativos de IA generativa:

Saiba mais sobre as técnicas de mitigação de danos.

Compartilhar via