Enviar execução em lote e avaliar um fluxo

Artigo
05/21/2024

Para avaliar o desempenho do fluxo com um grande conjunto de dados, você pode enviar a execução em lote e usar métodos de avaliação internos no fluxo de prompt.

Neste artigo você aprende a:

Enviar uma execução em lote e usar um método de avaliação interno
Ver o resultado e as métricas da avaliação
Iniciar uma nova ronda de avaliação
Verifique o histórico de execução em lote e compare métricas
Compreender as métricas de avaliação incorporadas
Maneiras de melhorar o desempenho do fluxo
Leitura adicional: Orientação para a criação de conjuntos de dados dourados usados para garantia de qualidade do Copilot

Você pode começar rapidamente a testar e avaliar seu fluxo seguindo este tutorial em vídeo, enviar execução em lote e avaliar um tutorial em vídeo de fluxo.

Pré-requisitos

Para executar uma execução em lote e usar um método de avaliação, você precisa ter o seguinte pronto:

Um conjunto de dados de teste para execução em lote. Seu conjunto de dados deve estar em um destes formatos: .csv, .tsv, ou .jsonl. Seus dados também devem incluir cabeçalhos que correspondam aos nomes de entrada do seu fluxo. Leitura adicional: Se você estiver construindo seu próprio copiloto, recomendamos consultar o Guia para criar conjuntos de dados dourados usados para garantia de qualidade do copiloto.

Enviar uma execução em lote e usar um método de avaliação interno

Uma execução em lote permite executar seu fluxo com um grande conjunto de dados e gerar saídas para cada linha de dados. Você também pode escolher um método de avaliação para comparar a saída do seu fluxo com certos critérios e metas. Um método de avaliação é um tipo especial de fluxo que calcula métricas para sua saída de fluxo com base em diferentes aspetos. Uma execução de avaliação é executada para calcular as métricas quando enviadas com a execução em lote.

Para iniciar uma execução em lote com avaliação, você pode selecionar no botão "Avaliar" no canto superior direito da sua página de fluxo.

Para enviar a execução em lote, você pode selecionar um conjunto de dados para testar seu fluxo. Você também pode selecionar um método de avaliação para calcular métricas para sua saída de fluxo. Se você não quiser usar um método de avaliação, você pode pular esta etapa e executar a execução em lote sem calcular nenhuma métrica. Você também pode começar uma nova rodada de avaliação mais tarde.

Primeiro, você é solicitado a dar à execução do lote um nome descritivo e reconhecível. Você também pode escrever uma descrição e adicionar tags (pares chave-valor) à execução em lote. Depois de concluir a configuração, selecione "Next" para continuar.

Em segundo lugar, você precisa selecionar ou carregar um conjunto de dados com o qual deseja testar seu fluxo. O fluxo de prompt também oferece suporte ao mapeamento da entrada de fluxo para uma coluna de dados específica no conjunto de dados. Isso significa que você pode atribuir uma coluna a uma determinada entrada. Você pode atribuir uma coluna a uma entrada fazendo referência ao ${data.XXX} formato. Se quiser atribuir um valor constante a uma entrada, você pode digitar diretamente esse valor.

Em seguida, na próxima etapa, você pode decidir usar um método de avaliação para validar o desempenho dessa execução imediatamente ou posteriormente. Para uma execução em lote concluída, uma nova rodada de avaliação ainda pode ser adicionada.

Você pode selecionar diretamente o botão "Next" para pular esta etapa e executar a execução em lote sem usar nenhum método de avaliação para calcular métricas. Dessa forma, essa execução em lote gera apenas saídas para seu conjunto de dados. Você pode verificar as saídas manualmente ou exportá-las para análise adicional com outros métodos.

Caso contrário, se você quiser executar a execução em lote com avaliação agora, poderá selecionar um ou mais métodos de avaliação com base na descrição fornecida. Você pode selecionar o botão "Mais detalhes" para ver mais informações sobre o método de avaliação, como as métricas que ele gera e as conexões e entradas necessárias.

Vá para a próxima etapa e defina as configurações de avaliação. Na seção "Mapeamento de entrada de avaliação", você precisa especificar as fontes dos dados de entrada que são necessários para o método de avaliação. Por exemplo, a coluna verdade básica pode vir de um conjunto de dados. Por padrão, a avaliação usa o mesmo conjunto de dados que o conjunto de dados de teste fornecido para a execução testada. No entanto, se os rótulos correspondentes ou os valores de verdade do terreno de destino estiverem em um conjunto de dados diferente, você poderá alternar facilmente para esse conjunto.

Portanto, para executar uma avaliação, você precisa indicar as fontes desses insumos necessários. Para fazer isso, ao enviar uma avaliação, você verá uma seção "Mapeamento de entrada de avaliação".

Se a fonte de dados for da sua saída de execução, a fonte será indicada como "${run.output.[ OutputName]}"
Se a fonte de dados for do seu conjunto de dados de teste, a fonte será indicada como "${data.[ ColumnName]}"

Nota

Se sua avaliação não exigir dados do conjunto de dados, você não precisará fazer referência a nenhuma coluna do conjunto de dados na seção de mapeamento de entrada, indicando que a seleção do conjunto de dados é uma configuração opcional. A seleção do conjunto de dados não afetará o resultado da avaliação.

Se um método de avaliação usa LLMs (Large Language Models) para medir o desempenho da resposta de fluxo, também é necessário definir conexões para os nós LLM nos métodos de avaliação.

Nota

Alguns métodos de avaliação requerem GPT-4 ou GPT-3 para serem executados. Você deve fornecer conexões válidas para esses métodos de avaliação antes de usá-los. Algum processo de avaliação pode ocupar muitos tokens, por isso é recomendado usar um modelo que possa suportar >tokens =16k.

Depois de concluir o mapeamento de entrada, selecione em "Next" para revisar suas configurações e selecione em "Submit" para iniciar a execução em lote com avaliação.

Nota

As execuções em lote têm uma duração máxima de 10 horas. Se uma execução em lote exceder esse limite, ela será encerrada e marcada como falha. Aconselhamos a monitorização da sua capacidade de Large Language Model (LLM) para evitar limitações. Se necessário, considere reduzir o tamanho dos seus dados. Se continuar a ter problemas ou precisar de mais assistência, não hesite em contactar a nossa equipa de produtos através do formulário de feedback ou do pedido de suporte.

Ver o resultado e as métricas da avaliação

Após o envio, você pode encontrar a execução do lote enviado na guia lista de execução na página de fluxo de prompt.

Selecione uma execução para navegar até a página Resultado da execução, para verificar os resultados dessa execução em lote.

Saída

Resultado básico e rastreio

Em primeiro lugar, isso irá direcioná-lo para a guia Saída para visualizar as entradas e saídas linha por linha. A página da guia saída exibe uma lista de resultados da tabela, incluindo o ID da linha, entrada, saída, status, métricas do sistema e hora de criação.

Para cada linha, selecionar Exibir rastreamento permite observar e depurar esse caso de teste específico em sua página detalhada de rastreamento.

Anexar o resultado da avaliação e traçar

Selecionar Acrescentar saída de avaliação permite selecionar execuções de avaliação relacionadas e você vê colunas anexadas no final da tabela mostrando o resultado da avaliação para cada linha de dados. Vários resultados de avaliação podem ser anexados para comparação.

Você pode ver as métricas de avaliação mais recentes no painel esquerdo Visão geral.

Visão geral essencial

No lado direito, a Visão geral oferece informações gerais sobre a execução, como o número de execuções por ponto de dados, o total de tokens e a duração da execução.

As métricas agregadas da execução de avaliação mais recente são mostradas aqui por padrão, você pode selecionar Exibir execução de avaliação para saltar para visualizar a própria execução de avaliação.

A visão geral pode ser expandida e recolhida aqui, e você pode selecionar Exibir informações completas, que o direcionará para a guia Visão geral ao lado da guia Saída, onde contém informações mais detalhadas desta execução.

Iniciar uma nova ronda de avaliação

Se você já concluiu uma execução em lote, pode iniciar outra rodada de avaliação para enviar uma nova execução de avaliação para calcular métricas para as saídas sem executar seu fluxo novamente. Isso é útil e pode economizar seu custo para executar novamente seu fluxo quando:

Você não selecionou um método de avaliação para calcular as métricas ao enviar a execução em lote e decidiu fazê-lo agora.
Você já usou o método de avaliação para calcular uma métrica. Você pode iniciar outra rodada de avaliação para calcular outra métrica.
Sua execução de avaliação falhou, mas seu fluxo gerou saídas com sucesso. Pode submeter novamente a sua avaliação.

Você pode selecionar Avaliar para iniciar outra rodada de avaliação.

Depois de configurar a configuração, você pode selecionar "Enviar" para esta nova rodada de avaliação. Após o envio, você poderá ver um novo registro na lista de execução do fluxo de prompt. Após a conclusão da execução da avaliação, da mesma forma, você pode verificar o resultado da avaliação na guia "Saídas" do painel de detalhes da execução em lote. Você precisa selecionar a nova execução de avaliação para ver seu resultado.

Para saber mais sobre as métricas calculadas pelos métodos de avaliação incorporados, navegue para compreender as métricas de avaliação incorporadas.

Descrição geral

Selecionar a guia Visão geral mostra informações abrangentes sobre a execução, incluindo propriedades de execução, conjunto de dados de entrada, conjunto de dados de saída, tags e descrição.

Registos

Selecionar a guia Logs permite visualizar os logs de execução, o que pode ser útil para depuração detalhada de erros de execução. Você pode baixar os arquivos de log para sua máquina local.

Instantâneo

Selecionar a guia Instantâneo mostra o instantâneo de execução. Você pode visualizar o DAG do seu fluxo. Além disso, você tem a opção de cloná-lo para criar um novo fluxo. Você também pode implantá-lo como um ponto de extremidade online.

Verifique o histórico de execução em lote e compare métricas

Em alguns cenários, você modifica seu fluxo para melhorar seu desempenho. Você pode enviar várias execuções de lotes para comparar o desempenho do seu fluxo com versões diferentes. Você também pode comparar as métricas calculadas por diferentes métodos de avaliação para ver qual é mais adequada para o seu fluxo.

Para verificar o histórico de execução em lote do seu fluxo, você pode selecionar o botão "Exibir execução em lote" no canto superior direito da página de fluxo. Você verá uma lista de execuções em lote enviadas para esse fluxo.

Você pode selecionar em cada lote executado para verificar os detalhes. Você também pode selecionar várias execuções em lote e selecionar em "Visualizar saídas" para comparar as métricas e as saídas dessas execuções em lote.

No painel "Visualizar saída", a tabela de métricas Execuções & mostra as informações das execuções selecionadas com destaque. Outras execuções que tomam as saídas das execuções selecionadas como entrada também são listadas.

Na tabela "Saídas", você pode comparar as execuções de lote selecionadas por cada linha de amostra. Ao selecionar o ícone "visualização de olhos" na tabela "Execuções & métricas", as saídas dessa execução serão anexadas à execução base correspondente.

Compreender as métricas de avaliação incorporadas

No fluxo imediato, fornecemos vários métodos de avaliação integrados para ajudá-lo a medir o desempenho de sua saída de fluxo. Cada método de avaliação calcula métricas diferentes. Agora fornecemos nove métodos de avaliação integrados disponíveis. Você pode verificar a tabela a seguir para obter uma referência rápida:

Método de Avaliação	Métricas do	Description	Conexão necessária	Entrada necessária	Valor da pontuação
Avaliação da Precisão da Classificação	Precisão	Mede o desempenho de um sistema de classificação comparando seus resultados com a verdade do terreno.	Não	previsão, verdade fundamentada	no intervalo [0, 1].
Avaliação de Pontuações de Relevância QnA em Par	Pontuação, vitória/derrota	Avalia a qualidade das respostas geradas por um sistema de resposta a perguntas. Envolve atribuir pontuações de relevância a cada resposta com base em quão bem ela corresponde à pergunta do usuário, comparar diferentes respostas a uma resposta de linha de base e agregar os resultados para produzir métricas como taxas médias de vitória e pontuações de relevância.	Sim	pergunta, resposta (sem verdade ou contexto)	Pontuação: 0-100, vitória/perda: 1/0
Avaliação de Fundamentação QnA	Fundamentação	Mede o quão fundamentadas estão as respostas previstas do modelo na fonte de entrada. Mesmo que as respostas do LLM sejam verdadeiras, se não forem verificáveis contra a fonte, então não têm fundamento.	Sim	pergunta, resposta, contexto (sem verdade fundada)	1 a 5, sendo 1 o pior e 5 o melhor.
Avaliação de similaridade QnA GPT	Semelhança GPT	Mede a semelhança entre as respostas de verdade fornecidas pelo usuário e a resposta prevista do modelo usando o Modelo GPT.	Sim	pergunta, resposta, verdade fundamentada (contexto não necessário)	1 a 5, sendo 1 o pior e 5 o melhor.
Avaliação da relevância da QnA	Relevância	Mede a relevância das respostas previstas do modelo para as perguntas feitas.	Sim	pergunta, resposta, contexto (sem verdade fundada)	1 a 5, sendo 1 o pior e 5 o melhor.
Avaliação da Coerência QnA	Coerência	Mede a qualidade de todas as frases na resposta prevista de um modelo e como elas se encaixam naturalmente.	Sim	pergunta, resposta (sem verdade ou contexto)	1 a 5, sendo 1 o pior e 5 o melhor.
Avaliação de Fluência QnA	Fluência	Mede o quão gramatical e linguisticamente correta é a resposta prevista do modelo.	Sim	pergunta, resposta (sem verdade ou contexto)	1 a 5, sendo 1 o pior e 5 o melhor
Avaliação das pontuações QnA f1	Pontuação F1	Mede a razão do número de palavras compartilhadas entre a previsão do modelo e a verdade do terreno.	Não	pergunta, resposta, verdade fundamentada (contexto não necessário)	no intervalo [0, 1].
Avaliação de Similaridade QnA Ada	Ada Semelhança	Calcula incorporações de nível de frase (documento) usando a API de incorporação de Ada para verdade e previsão básicas. Em seguida, calcula a semelhança de cosseno entre eles (um número de ponto flutuante)	Sim	pergunta, resposta, verdade fundamentada (contexto não necessário)	no intervalo [0, 1].

Formas de melhorar o desempenho do fluxo

Depois de verificar as métricas incorporadas da avaliação, você pode tentar melhorar seu desempenho de fluxo ao:

Verifique os dados de saída para depurar qualquer falha potencial do seu fluxo.
Modifique seu fluxo para melhorar seu desempenho. Isto inclui, mas não está limitado a:
- Modificar o prompt
- Modificar a mensagem do sistema
- Modificar parâmetros do fluxo
- Modificar a lógica de fluxo

A construção rápida pode ser difícil. Nós fornecemos uma Introdução à engenharia de prompt para ajudá-lo a aprender sobre o conceito de construir um prompt que pode alcançar seu objetivo. Consulte técnicas de engenharia de prompt para saber mais sobre como construir um prompt que pode alcançar seu objetivo.

Mensagem do sistema, às vezes referida como um metaprompt ou prompt do sistema que pode ser usado para orientar o comportamento de um sistema de IA e melhorar o desempenho do sistema. Leia este documento sobre Recomendações de modelo e estrutura de mensagem do sistema para LLMs (Large Language Models) para saber como melhorar o desempenho do fluxo com a mensagem do sistema.

Leitura adicional: Orientação para a criação de conjuntos de dados dourados usados para garantia de qualidade do Copilot

A criação de um copiloto que usa modelos de linguagem grande (LLMs) normalmente envolve fundamentar o modelo na realidade usando conjuntos de dados de origem. No entanto, para garantir que os LLMs forneçam as respostas mais precisas e úteis às consultas dos clientes, é necessário um "Golden Dataset".

Um Golden Dataset é uma coleção de perguntas realistas dos clientes e respostas habilmente elaboradas. Ele serve como uma ferramenta de garantia de qualidade para LLMs usados pelo seu copiloto. Golden Datasets não são usados para treinar um LLM ou injetar contexto em um prompt LLM. Em vez disso, eles são utilizados para avaliar a qualidade das respostas geradas pelo LLM.

Se o seu cenário envolve um copiloto ou se você está no processo de construção de seu próprio copiloto, recomendamos consultar este documento específico: Producing Golden Datasets: Guidance for creating Golden Datasets used for Copilot quality assurance para obter orientações mais detalhadas e melhores práticas.

Próximos passos

Neste documento, você aprendeu como enviar uma execução em lote e usar um método de avaliação interno para medir a qualidade da saída do fluxo. Você também aprendeu como visualizar o resultado e as métricas da avaliação e como iniciar uma nova rodada de avaliação com um método ou subconjunto diferente de variantes. Esperamos que este documento o ajude a melhorar o desempenho do seu fluxo e a atingir os seus objetivos com o Prompt flow.

Partilhar via

Enviar execução em lote e avaliar um fluxo

Pré-requisitos

Enviar uma execução em lote e usar um método de avaliação interno

Ver o resultado e as métricas da avaliação

Saída

Resultado básico e rastreio

Anexar o resultado da avaliação e traçar

Visão geral essencial

Iniciar uma nova ronda de avaliação

Descrição geral

Registos

Instantâneo

Verifique o histórico de execução em lote e compare métricas

Compreender as métricas de avaliação incorporadas

Formas de melhorar o desempenho do fluxo

Leitura adicional: Orientação para a criação de conjuntos de dados dourados usados para garantia de qualidade do Copilot

Próximos passos

Comentários

Comentários

Recursos adicionais