Partilhar via


Enviar uma execução em lote e avaliar um fluxo

Importante

Os itens marcados (visualização) neste artigo estão atualmente em visualização pública. Essa visualização é fornecida sem um contrato de nível de serviço e não a recomendamos para cargas de trabalho de produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.

Para avaliar o desempenho do fluxo com um grande conjunto de dados, você pode enviar a execução em lote e usar um método de avaliação no fluxo de prompt.

Neste artigo você aprende a:

  • Enviar uma execução em lote e usar um método de avaliação
  • Ver o resultado e as métricas da avaliação
  • Iniciar uma nova ronda de avaliação
  • Verifique o histórico de execução em lote e compare métricas
  • Compreender os métodos de avaliação incorporados
  • Formas de melhorar o desempenho do fluxo

Pré-requisitos

Para uma execução em lote e para usar um método de avaliação, você precisa ter o seguinte pronto:

  • Um conjunto de dados de teste para execução em lote. Seu conjunto de dados deve estar em um destes formatos: .csv, .tsv, ou .jsonl. Seus dados também devem incluir cabeçalhos que correspondam aos nomes de entrada do seu fluxo. Se as entradas de fluxo incluírem uma estrutura complexa, como uma lista ou dicionário, use jsonl o formato para representar seus dados.
  • Uma sessão de computação disponível para executar sua execução em lote. Uma sessão de computação é um recurso baseado em nuvem que executa seu fluxo e gera saídas. Para saber mais sobre sessões de computação, consulte sessão de computação.

Enviar uma execução em lote e usar um método de avaliação

Uma execução em lote permite executar seu fluxo com um grande conjunto de dados e gerar saídas para cada linha de dados. Você também pode escolher um método de avaliação para comparar a saída do seu fluxo com certos critérios e metas. Um método de avaliação é um tipo especial de fluxo que calcula métricas para sua saída de fluxo com base em diferentes aspetos. Uma execução de avaliação é executada para calcular as métricas quando enviadas com a execução em lote.

Para iniciar uma execução em lote com avaliação, você pode selecionar no botão Avaliar - Avaliação personalizada. Ao selecionar Avaliação personalizada, você pode enviar uma execução em lote com métodos de avaliação ou enviar uma execução em lote sem avaliação para seu fluxo.

Esta captura de tela mostra o botão de gatilho de execução e avaliação em lote

Primeiro, você é solicitado a dar à execução do lote um nome descritivo e reconhecível. Você também pode escrever uma descrição e adicionar tags (pares chave-valor) à execução em lote. Depois de concluir a configuração, selecione Avançar para continuar.

Esta captura de tela mostra a configuração básica da avaliação personalizada

Em segundo lugar, você precisa selecionar ou carregar um conjunto de dados com o qual deseja testar seu fluxo. Você também precisa selecionar uma sessão de computação disponível para executar essa execução em lote.

O fluxo de prompt também oferece suporte ao mapeamento da entrada de fluxo para uma coluna de dados específica no conjunto de dados. Isso significa que você pode atribuir uma coluna a uma determinada entrada. Você pode atribuir uma coluna a uma entrada fazendo referência ao ${data.XXX} formato. Se quiser atribuir um valor constante a uma entrada, você pode digitar diretamente esse valor.

Esta captura de tela mostra a configuração de execução em lote da avaliação personalizada

Então, na próxima etapa, você pode decidir usar um método de avaliação para validar o desempenho desse fluxo. Você pode selecionar diretamente o botão Avançar para pular esta etapa se não quiser aplicar nenhum método de avaliação ou calcular nenhuma métrica. Caso contrário, se você quiser executar a execução em lote com avaliação agora, você pode selecionar um ou mais métodos de avaliação. A avaliação começa após a conclusão da execução do lote. Você também pode iniciar outra rodada de avaliação depois que a execução do lote for concluída. Para saber mais sobre como iniciar uma nova ronda de avaliação, consulte Iniciar uma nova ronda de avaliação.

Esta captura de tela mostra como selecionar métodos de avaliação.

Na seção de mapeamento de entrada da próxima etapa, você precisa especificar as fontes dos dados de entrada que são necessários para o método de avaliação. Por exemplo, a coluna de verdade básica pode vir de um conjunto de dados. Por padrão, a avaliação usa o mesmo conjunto de dados que o conjunto de dados de teste fornecido para a execução testada. No entanto, se os rótulos correspondentes ou os valores de verdade do terreno de destino estiverem em um conjunto de dados diferente, você poderá alternar facilmente para esse conjunto.

  • Se a fonte de dados for da saída de execução, a fonte será indicada como ${run.output.[ OutputName]}
  • Se a fonte de dados for do seu conjunto de dados de teste, a fonte será indicada como ${data.[ ColumnName]}

Esta captura de tela mostra como definir as configurações de avaliação, incluindo mapeamento de entrada e conexão.

Nota

Se sua avaliação não exigir dados do conjunto de dados, você não precisará fazer referência a nenhuma coluna do conjunto de dados na seção de mapeamento de entrada, indicando que a seleção do conjunto de dados é uma configuração opcional. A seleção do conjunto de dados não afetará o resultado da avaliação.

Se um método de avaliação usa LLMs (Large Language Models) para medir o desempenho da resposta de fluxo, também é necessário definir conexões para os nós LLM nos métodos de avaliação.

Em seguida, você pode selecionar Avançar para revisar suas configurações e selecionar em Enviar para iniciar a execução em lote com avaliação.

Ver o resultado e as métricas da avaliação

Após o envio, você pode encontrar a execução do lote enviado na guia lista de execução na página de fluxo de prompt. Selecione uma execução para navegar até a página de resultados da execução.

Na página de detalhes da execução, você pode selecionar Detalhes para verificar os detalhes dessa execução em lote.

Saída

Resultado básico e rastreio

Em primeiro lugar, isso irá direcioná-lo para a guia Saída para visualizar as entradas e saídas linha por linha. A página da guia saída exibe uma lista de resultados da tabela, incluindo o ID da linha, entrada, saída, status, métricas do sistema e hora de criação.

Para cada linha, selecionar Exibir rastreamento permite observar e depurar esse caso de teste específico em sua página detalhada de rastreamento.

Esta captura de tela mostra a saída de execução em lote.

 Captura de tela de detalhes de rastreamento.

Anexar o resultado da avaliação e traçar

Selecionar Acrescentar saída de avaliação permite selecionar execuções de avaliação relacionadas e você vê colunas anexadas no final da tabela mostrando o resultado da avaliação para cada linha de dados. Vários resultados de avaliação podem ser anexados para comparação.

Captura de tela das saídas de execução em lote para acrescentar a saída da avaliação.

Você pode ver as métricas de avaliação mais recentes no painel esquerdo Visão geral.

Visão geral essencial

No lado direito, a Visão geral oferece informações gerais sobre a execução, como o número de execuções por ponto de dados, o total de tokens e a duração da execução.

As métricas agregadas da execução de avaliação mais recente são mostradas aqui por padrão, você pode selecionar Exibir execução de avaliação para saltar para visualizar a própria execução de avaliação.

Captura de tela das informações de visão geral da execução em lote na página de saída.

A visão geral pode ser expandida e recolhida aqui, e você pode selecionar Exibir informações completas que o direcionarão para a guia Visão geral ao lado da guia Saída, onde contém informações mais detalhadas desta execução.

Iniciar uma nova ronda de avaliação

Se você já concluiu uma execução em lote, pode iniciar outra rodada de avaliação para enviar uma nova execução de avaliação para calcular métricas para as saídas sem executar seu fluxo novamente. Isso é útil e pode economizar seu custo para executar novamente seu fluxo quando:

  • Você não selecionou um método de avaliação para calcular as métricas ao enviar a execução em lote e decidiu fazê-lo agora.
  • Você já usou o método de avaliação para calcular uma métrica. Você pode iniciar outra rodada de avaliação para calcular outra métrica.
  • Sua execução de avaliação falhou, mas seu fluxo gerou saídas com sucesso. Pode submeter novamente a sua avaliação.

Você pode ir para a guia Execuções de fluxo de prompt. Em seguida, vá para a página de detalhes da execução em lote e selecione Avaliar para iniciar outra rodada de avaliação.

Esta captura de tela mostra como iniciar uma nova avaliação com base em uma execução em lote.

Depois de configurar a configuração, você pode selecionar "Enviar" para esta nova rodada de avaliação. Após o envio, você poderá ver um novo registro na lista de execução do fluxo de prompt. Após a conclusão da execução da avaliação, da mesma forma, você pode verificar o resultado da avaliação na guia "Saídas" do painel de detalhes da execução em lote. Você precisa selecionar a nova execução de avaliação para ver seu resultado.

Para saber mais sobre as métricas calculadas pelos métodos de avaliação incorporados, navegue para compreender os métodos de avaliação incorporados.

Descrição geral

Selecionar a guia Visão geral mostra informações abrangentes sobre a execução, incluindo propriedades de execução, conjunto de dados de entrada, conjunto de dados de saída, tags e descrição.

Registos

Selecionar a guia Logs permite visualizar os logs de execução, o que pode ser útil para depuração detalhada de erros de execução. Você pode baixar os arquivos de log para sua máquina local.

Instantâneo

Selecionar a guia Instantâneo mostra o instantâneo de execução. Você pode visualizar o DAG do seu fluxo. Além disso, você tem a opção de cloná-lo para criar um novo fluxo. Você também pode implantá-lo como um ponto de extremidade online.

Captura de tela do instantâneo de execução em lote.

Verifique o histórico de execução em lote e compare métricas

Em alguns cenários, você modifica seu fluxo para melhorar seu desempenho. Você pode enviar mais de uma execução em lote para comparar o desempenho do seu fluxo com versões diferentes. Você também pode comparar as métricas calculadas por diferentes métodos de avaliação para ver qual é mais adequada para o seu fluxo.

Para verificar o histórico de execução em lote do seu fluxo, você pode selecionar o botão Exibir execução em lote da sua página de fluxo. Você verá uma lista de execuções em lote enviadas para esse fluxo.

Esta captura de tela mostra o botão visualizar saída na página de listagem de execução.

Você pode selecionar em cada lote executado para verificar os detalhes. Você também pode selecionar várias execuções em lote e selecionar as saídas de visualização para comparar as métricas e as saídas das execuções em lote.

No painel "Visualizar saída", a tabela de métricas Execuções & mostra as informações das execuções selecionadas com destaque. Outras execuções que tomam as saídas das execuções selecionadas como entrada também são listadas.

Na tabela "Saídas", você pode comparar as execuções de lote selecionadas por cada linha de amostra. Ao selecionar o ícone "visualização de olhos" na tabela "Execuções & métricas", as saídas dessa execução serão anexadas à execução base correspondente.

Compreender os métodos de avaliação incorporados

No fluxo imediato, fornecemos vários métodos de avaliação integrados para ajudá-lo a medir o desempenho de sua saída de fluxo. Cada método de avaliação calcula métricas diferentes. Consulte a tabela a seguir para obter uma lista de métodos de avaliação internos e suas descrições.

Método de Avaliação Métricas do Description Conexão necessária Entrada necessária Valor da pontuação
Avaliação da Precisão da Classificação Precisão Mede o desempenho de um sistema de classificação comparando seus resultados com a verdade do terreno. Não previsão, verdade fundamentada no intervalo [0, 1].
Avaliação de Pontuações de Relevância QnA em Par Pontuação, vitória/derrota Avalia a qualidade das respostas geradas por um sistema de resposta a perguntas. Envolve atribuir pontuações de relevância a cada resposta com base em quão bem ela corresponde à pergunta do usuário, comparar diferentes respostas a uma resposta de linha de base e agregar os resultados para produzir métricas como taxas médias de vitória e pontuações de relevância. Sim pergunta, resposta (sem verdade ou contexto) Pontuação: 0-100, vitória/perda: 1/0
Avaliação de Fundamentação QnA Fundamentação Mede o quão fundamentadas estão as respostas previstas do modelo na fonte de entrada. Mesmo que as respostas do LLM sejam verdadeiras, se não forem verificáveis contra a fonte, então não têm fundamento. Sim pergunta, resposta, contexto (sem verdade fundada) 1 a 5, sendo 1 o pior e 5 o melhor.
Avaliação de similaridade QnA GPT Semelhança GPT Mede a semelhança entre as respostas de verdade fornecidas pelo usuário e a resposta prevista do modelo usando o Modelo GPT. Sim pergunta, resposta, verdade fundamentada (contexto não necessário) no intervalo [0, 1].
Avaliação da relevância da QnA Relevância Mede a relevância das respostas previstas do modelo para as perguntas feitas. Sim pergunta, resposta, contexto (sem verdade fundada) 1 a 5, sendo 1 o pior e 5 o melhor.
Avaliação da Coerência QnA Coerência Mede a qualidade de todas as frases na resposta prevista de um modelo e como elas se encaixam naturalmente. Sim pergunta, resposta (sem verdade ou contexto) 1 a 5, sendo 1 o pior e 5 o melhor.
Avaliação de Fluência QnA Fluência Mede o quão gramatical e linguisticamente correta é a resposta prevista do modelo. Sim pergunta, resposta (sem verdade ou contexto) 1 a 5, sendo 1 o pior e 5 o melhor
Avaliação das pontuações QnA f1 Pontuação F1 Mede a razão do número de palavras compartilhadas entre a previsão do modelo e a verdade do terreno. Não pergunta, resposta, verdade fundamentada (contexto não necessário) no intervalo [0, 1].
Avaliação de Similaridade QnA Ada Ada Semelhança Calcula incorporações de nível de frase (documento) usando a API de incorporação de Ada para verdade e previsão básicas. Em seguida, calcula a semelhança de cosseno entre eles (um número de ponto flutuante) Sim pergunta, resposta, verdade fundamentada (contexto não necessário) no intervalo [0, 1].

Formas de melhorar o desempenho do fluxo

Depois de verificar os métodos internos da avaliação, você pode tentar melhorar seu desempenho de fluxo ao:

  • Verifique os dados de saída para depurar qualquer falha potencial do seu fluxo.
  • Modifique seu fluxo para melhorar seu desempenho. Isto inclui, mas não está limitado a:
    • Modificar o prompt
    • Modificar a mensagem do sistema
    • Modificar parâmetros do fluxo
    • Modificar a lógica de fluxo

Para saber mais sobre como construir um prompt que pode atingir seu objetivo, consulte Introdução à engenharia de prompt, Técnicas de engenharia de prompt e Recomendações de modelo e estrutura de mensagem do sistema para LLMs (Large Language Models).

Neste documento, você aprendeu como enviar uma execução em lote e usar um método de avaliação interno para medir a qualidade da saída do fluxo. Você também aprendeu como visualizar o resultado e as métricas da avaliação e como iniciar uma nova rodada de avaliação com um método ou subconjunto diferente de variantes. Esperamos que este documento o ajude a melhorar o desempenho do seu fluxo e a atingir os seus objetivos com um fluxo rápido.

Próximos passos