Compartilhar via


Usar os parâmetros de comparação em um espaço do Genie

Esta página explica como usar parâmetros de comparação para avaliar a precisão do espaço do Genie.

Visão geral

Os parâmetros de comparação permitem que você crie um conjunto de perguntas de teste que você pode executar para avaliar a precisão geral da resposta do Genie. Um conjunto bem projetado de parâmetros de comparação que cobre as perguntas mais frequentes do usuário ajuda a avaliar a precisão do seu espaço Genie à medida que você o refina. Cada espaço do Genie pode conter até 500 perguntas de parâmetro de comparação.

As perguntas de parâmetro de comparação são executadas como novas conversas. Elas não têm o mesmo contexto que uma conversa encadeada do Genie. Cada pergunta é processada como uma nova consulta, usando as instruções definidas no espaço, incluindo qualquer exemplo fornecido de funções SQL e SQL.

Exemplo de benchmarks com precisão informada em nove perguntas.

Adicionar perguntas de parâmetro de comparação

As perguntas de parâmetro de comparação devem refletir diferentes maneiras de formular as perguntas comuns que seus usuários fazem. Você pode usá-las para verificar a resposta do Genie a variações na formulação das perguntas ou em diferentes formatos de perguntas.

Ao criar uma pergunta de parâmetro de comparação, você pode incluir opcionalmente uma consulta SQL cujo conjunto de resultados é a resposta correta. Durante as execuções de parâmetros de comparação, a precisão é avaliada comparando o conjunto de resultados da consulta SQL com o gerado pelo Genie. Você também pode usar as funções SQL do Catálogo do Unity como respostas de padrão ouro para benchmarks.

Para adicionar uma pergunta de parâmetro de comparação:

  1. Próximo à parte superior do espaço do Genie, clique em Parâmetros de Comparação.

  2. Clique em Adicionar parâmetro de comparação.

  3. No campo Pergunta, insira uma pergunta de parâmetro de comparação para testar.

  4. (Opcional) Forneça uma consulta SQL que responda à pergunta. Você pode escrever sua própria consulta digitando no campo de texto SQL Answer, incluindo funções SQL do Unity Catalog. Como alternativa, clique em Gerar SQL para que o Genie escreva a consulta SQL para você. Use uma instrução SQL que responda com precisão à pergunta que você inseriu.

    Observação

    Esta etapa é recomendada. Somente as perguntas que incluem este exemplo de instrução SQL podem ser avaliadas automaticamente quanto à precisão. Quaisquer perguntas que não incluam uma resposta do SQL requerem revisão manual para serem pontuadas. Se você usar o botão Gerar SQL , examine a instrução para ter certeza de que ela está respondendo com precisão à pergunta.

  5. (Opcional) Clique em Executar para executar sua consulta e exibir os resultados.

  6. Quando terminar de editar, clique em Adicionar parâmetro de comparação.

  7. Para atualizar uma pergunta depois de salvar, clique no ícone de lápis Ícone Editar para abrir a caixa de diálogo Atualizar pergunta.

Usar parâmetros de comparação para testar frases de perguntas alternativas

Ao avaliar a precisão do espaço do Genie, é importante estruturar testes para refletir cenários realistas. Os usuários podem fazer a mesma pergunta de maneiras diferentes. O Databricks recomenda adicionar várias frases para a mesma pergunta e usar o mesmo SQL de exemplo em seus testes de parâmetro de comparação para avaliar totalmente a precisão. A maioria dos espaços do Genie deve incluir entre duas e quatro frases da mesma pergunta.

Executar perguntas de parâmetros de comparação

Usuários com pelo menos permissões CAN EDIT em um espaço do Genie podem executar uma avaliação de parâmetro de comparação a qualquer momento. Você pode executar todas as perguntas de parâmetro de comparação ou selecionar um subconjunto de perguntas para testar.

Para cada pergunta, o Genie interpreta a entrada, gera SQL e retorna resultados. O SQL gerado e os resultados são comparados com a Resposta SQL definida na pergunta de parâmetro de comparação.

Para executar todas as perguntas de parâmetro de comparação:

  1. Próximo à parte superior do espaço do Genie, clique em Parâmetros de Comparação.
  2. Clique em Executar parâmetros de comparação para iniciar a execução do teste.

Para executar um subconjunto de perguntas de parâmetro de comparação:

  1. Próximo à parte superior do espaço do Genie, clique em Parâmetros de Comparação.
  2. Selecione as caixas de seleção ao lado das perguntas que você deseja testar.
  3. Clique em Executar seleção para iniciar o teste nas perguntas selecionadas.

Você também pode selecionar um subconjunto de perguntas de um resultado de parâmetro de comparação anterior e executar novamente essas perguntas específicas para testar melhorias.

Os benchmarks continuam a ser executados quando você navega para fora da página. Você pode verificar os resultados na guia Avaliação quando a execução for concluída.

Interpretar classificações

Os critérios a seguir determinam como as respostas do Genie são classificadas:

Condição Rating
O Genie gera SQL que corresponde exatamente à Resposta SQL fornecida Boa
O Genie gera um conjunto de resultados que corresponde exatamente ao conjunto de resultados produzido pela Resposta do SQL Boa
O Genie gera um conjunto de resultados com os mesmos dados que a Resposta sql, mas classificado de forma diferente Boa
O Genie gera um conjunto de resultados com valores numéricos que arredondam para os mesmos 4 dígitos significativos que a Resposta SQL Boa
O Genie gera o SQL que produz um conjunto de resultados vazio ou retorna um erro Mau
O Genie gera um conjunto de resultados que inclui colunas extras em comparação com o conjunto de resultados produzido pela Resposta do SQL Mau
O Genie gera um resultado de célula única diferente do resultado de célula única produzido pela Resposta sql Mau

Revisão manual necessária: as respostas são marcadas com esse rótulo quando o Genie não pode avaliar a correção ou quando os resultados da consulta gerada pelo Genie não contêm uma correspondência exata com os resultados da Resposta SQL fornecida. Todas as perguntas de parâmetro de comparação que não incluem uma Resposta do SQL devem ser revisadas manualmente.

Acesse avaliações de parâmetro de comparação

Você pode acessar todas as suas avaliações de parâmetro de comparação para acompanhar a exatidão no espaço Genie ao longo do tempo. Quando você abre os Benchmarks de um espaço, uma lista de execuções de avaliação com carimbo de data/hora aparece na guia Avaliações . Se nenhuma execução de avaliação for encontrada, consulte Adicionar perguntas de parâmetro de comparação ou executar perguntas de parâmetro de comparação.

Tela de avaliações conforme descrito no texto a seguir.

A guia Avaliações mostra uma visão geral das avaliações e seu desempenho relatado nas seguintes categorias:

Nome da avaliação: um carimbo de data/hora que indica quando ocorreu um processo de avaliação. Clique no carimbo de data/hora para ver os detalhes dessa avaliação. Status de execução: indica se a avaliação foi concluída, pausada ou malsucedida. Se uma execução de avaliação incluir perguntas de parâmetro de comparação que não tenham respostas do SQL predefinidas, ela será marcada para revisão nesta coluna. Precisão: uma avaliação numérica da precisão em todas as perguntas de parâmetro de comparação. Para execuções de avaliação que exigem revisão manual, uma medida de precisão aparece somente depois que essas perguntas são revisadas. Criada por: indica o nome do usuário que executou a avaliação.

Examinar avaliações individuais

Você pode revisar avaliações individuais para obter uma visão detalhada de cada resposta. Você pode editar a avaliação de qualquer pergunta e atualizar todos os itens que precisam de revisão manual.

Para revisar avaliações individuais:

  1. Próximo à parte superior do espaço do Genie, clique em Parâmetros de Comparação.

  2. Clique no carimbo de data/hora de qualquer avaliação na coluna Nome da avaliação para abrir uma exibição detalhada dessa execução de teste.

    Uma tela que mostra os resultados de uma única execução de avaliação. Todas as perguntas estão listadas à esquerda. Se aplicável, as perguntas individuais são mostradas à direita com a saída do modelo e a saída da verdade fundamental.

  3. Use a lista de perguntas no lado esquerdo da tela para ver uma exibição detalhada de cada pergunta.

  4. Revise e compare a resposta da Saída do modelo com a resposta da Verdade fundamental.

    Para resultados classificados como incorretos, uma explicação aparece descrevendo por que o resultado foi classificado como Ruim. Isso ajuda você a entender diferenças específicas entre a saída gerada e a verdade de base esperada.

    Observação

    Os resultados dessas respostas aparecem nos detalhes da avaliação por uma semana. Após uma semana, os resultados não são mais visíveis. A instrução SQL gerada e a instrução SQL de exemplo permanecem.

  5. Clique em Atualizar verdade de referência para definir a resposta como a nova verdade de referência para essa pergunta. Isso é útil se nenhuma verdade fundamental existir ou se a resposta for melhor ou mais precisa do que a declaração de verdade fundamental existente.

  6. Clique em Ícone Editar no rótulo para editar a avaliação.

    Marque cada resultado como Boa ou Ruim para obter uma pontuação precisa para esta avaliação.