Teste e monitore Genie Space

Teste um Genie Space com perguntas do mundo real, examine o SQL gerado e as visualizações, edite respostas quando o Genie receber algo errado e monitore o uso de espaço e os comentários do usuário para que você possa manter o espaço preciso à medida que os dados e as perguntas evoluem. Use parâmetros de comparação para pontuar a precisão da resposta em escala.

Teste seu Genie Space

A maioria das interações do usuário ocorre na janela de chat. A melhor maneira de saber se seu espaço está funcionando como você deseja é testá-lo com perguntas realistas que você espera que seus usuários empresariais façam.

Nova janela de chat, conforme descrito no texto a seguir.

Perguntas de exemplo configuradas nas configurações de espaço aparecem na janela de chat. O Genie também pode gerar perguntas de exemplo com base no contexto do espaço para ajudar os usuários a começar a explorar os dados. Os usuários podem clicar em uma pergunta de exemplo ou inserir suas próprias perguntas no campo de texto na parte inferior da tela.

As respostas aparecem acima do campo de texto. Depois que um usuário insere uma pergunta, ela é salva no histórico de chat.

Para iniciar uma nova conversa:

Clique em Novo chat para iniciar um novo chat. Clique no Para abrir uma conversa anterior.
Digite sua pergunta no campo de entrada de texto Faça sua pergunta….

Examinar respostas

Normalmente, as respostas são entregues como respostas de linguagem natural para as perguntas e uma tabela mostrando o conjunto de resultados relevante. Quando o Genie detecta que uma visualização poderia melhorar a clareza da resposta, ele também retorna uma visualização. A estrutura de resposta precisa varia de acordo com a pergunta. Se uma consulta SQL foi gerada para responder à pergunta, ela será incluída na resposta.

Uma resposta de exemplo com visualização, comentários e outras opções é mostrada.

Note

Assim como outros LLMs (modelos de linguagem grandes), o Genie pode exibir comportamentos não determinísticos. Isso significa que, ocasionalmente, você pode receber saídas diferentes ao enviar o mesmo prompt várias vezes. Forneça consultas SQL de exemplo com as quais o Genie pode aprender pode ajudar a tornar o Genie mais consistente. Consulte Adicionar consultas e funções SQL de exemplo.

Comentários de resposta

Cada resposta solicita que o usuário responda Se isso estiver correto?. Os usuários podem responder de uma das seguintes maneiras:

Sim: Confirma que a resposta parece precisa.
Corrija-o: Sinaliza a resposta como incorreta. Os usuários podem selecionar entre problemas comuns ou inserir sua própria explicação. Em seguida, eles podem:
- Clique em Enviar e tente novamente regenerar a resposta usando os comentários fornecidos.
- Clique em Enviar para enviar os comentários sem regenerar a resposta.
Revisão de solicitação: Sinaliza a resposta para revisão manual. Os usuários podem adicionar um comentário opcional para fornecer contexto adicional.

Como editor, você pode exibir comentários e respostas sinalizadas na interface do Genie. O comportamento do Genie Space não é alterado apenas com base nos comentários do usuário. Você deve usar comentários para identificar oportunidades de melhoria ou responder diretamente às perguntas do usuário. O Databricks recomenda incentivar os usuários a fornecer comentários sobre o espaço usando esse mecanismo.

Os usuários empresariais podem exibir atualizações para as perguntas que marcaram para revisão na página Monitor . Os usuários com pelo menos permissão CAN MANAGE no Genie Space podem examinar a troca específica, comentar a solicitação e confirmar ou corrigir a resposta. Eles podem acessar comentários e examinar solicitações na página de monitoramento. Em seguida, você pode usar esse feedback para ajustar as respostas e fazer melhorias no seu espaço. Veja Monitorar o espaço.

Outras ações de resposta

Para respostas que incluem SQL gerado, opções adicionais permitem que você interaja com os dados retornados.

Copiar CSV: Os usuários de espaço podem baixar até aproximadamente 1 GB de dados de resultados como um CSV. O tamanho do download do arquivo final pode ser ou pouco maior ou menor que 1 GB, pois o limite de 1 GB é aplicado a uma etapa anterior ao download do arquivo final. Para baixar os resultados, clique no ícone de download na resposta.
Mostrar código: Clique em Mostrar código para exibir a consulta gerada. Isso pode ser útil para solucionar problemas de respostas não confiáveis. Consulte Editar e salvar consultas.
O menu kebab: Acesse as seguintes ações:
- Copiar CSV: Copie a resposta CSV para sua área de transferência.
- Adicione como instrução: Para interações que podem ser úteis para ensinar o Genie a responder perguntas semelhantes, clique em Adicionar como instrução. Isso abre a interface do usuário para salvar consultas SQL de exemplo, preenchidas com a pergunta e o SQL gerado. Você pode deixar o exemplo como escrito ou editar e salvar para fazer alterações. Consulte Adicionar consultas e funções SQL de exemplo.
- Adicionar como referência: Adicionar a pergunta como uma pergunta de referência. Consulte Benchmarks.
- Atualizar dados: atualize os dados executando a consulta gerada anteriormente.
- Regenere a resposta: envie a pergunta novamente e fazer com que o Genie regenere a resposta.

Editar e salvar consultas

As consultas SQL do Genie podem ser revisadas quanto à precisão e editadas conforme necessário. Os autores do Genie Space normalmente conhecem o domínio e os dados que lhes permitem reconhecer quando o Genie está gerando uma resposta incorreta. Frequentemente, os erros podem ser corrigidos com um pequeno ajuste manual na consulta SQL gerada. Clique em Mostrar código gerado para inspecionar a consulta e exibir o SQL gerado para qualquer resposta.

Você pode editar a instrução SQL gerada para corrigi-la se tiver privilégios CAN EDIT ou maiores no Genie Space. Depois de fazer as correções, execute a consulta. Em seguida, você pode salvá-la como uma instrução para ensinar o Genie a responder no futuro. Para salvar a consulta editada, clique em Adicionar como instrução.

Monitorar o espaço

Um Genie Space pode ser considerado como uma ferramenta de colaboração de longo prazo entre equipes de dados e usuários de negócios. Ele acumula conhecimento ao longo do tempo em vez de servir como uma implantação única. À medida que os usuários fazem novas perguntas, você pode refinar o espaço para melhorar a cobertura e a precisão.

Use a guia Monitor para examinar perguntas e respostas individuais, exibir comentários do usuário e identificar as respostas sinalizadas para revisão.

Uma guia de monitoramento de exemplo mostrando os recursos descritos.

A aba de monitoramento mostra todas as perguntas e respostas realizadas no ambiente. Você pode filtrar perguntas por tempo, classificação, usuário ou status. Ao monitorar o espaço, os usuários com permissões CAN MANAGE podem entender proativamente as consultas levantadas pelos usuários empresariais e como o Genie Space respondeu.

Identificar as perguntas com as quais o Genie luta pode ajudá-lo a atualizar o Genie Space com instruções específicas para melhorar suas respostas. Clique em uma pergunta para abrir o texto de pergunta e resposta e exibir o thread de chat completo.

Examinar o uso e as tendências

Use a seção Resumo semanal da guia Monitor para revisar o volume semanal de mensagens, os usuários ativos e as reações positivas/negativas. Para identificar as principais tendências de uso e problemas comuns, clique em Analisar o uso do espaço. Isso inicia o Genie Code, que analisa os dados de monitoramento do espaço e resume os padrões de uso e as áreas para melhoria. As respostas do Genie Code incluem citações com links para as conversas relevantes no seu espaço. Clique em uma citação para abrir a conversa diretamente no thread Genie Code.

A seção Resumo semanal da guia Monitoramento mostrando mensagens semanais, usuários e comentários.

Avaliar a qualidade das conversas

Importante

Esse recurso está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Quando uma conversa é definida como Revisável pelos gerentes de espaço, os usuários com a permissão CAN MANAGE podem abrir a conversa na guia monitoramento para examinar a troca completa. Isso permite que você avalie a qualidade da resposta do Genie, responda aos comentários do usuário e identifique áreas em que instruções adicionais ou consultas de exemplo melhorariam a precisão. Para conversas definidas como Privadas, os gerentes de espaço podem ver os prompts do usuário na guia monitoramento, mas não podem exibir a conversa completa ou os resultados. Para obter mais informações, consulte Compartilhar uma conversa.

Note

As conversas criadas antes da habilitação do Beta permanecem privadas. Conversas criadas após o recurso ser habilitado passam a ser padrão como Revisado por administradores do espaço.

Benchmarks

Os parâmetros de comparação permitem que você crie um conjunto de perguntas de teste que você pode executar para avaliar a precisão geral da resposta do Genie. Um conjunto bem projetado de parâmetros de comparação que abrangem as perguntas mais frequentes do usuário ajuda a avaliar a precisão do seu Genie Space à medida que você o refina. Cada Espaço do Genie pode conter até 500 perguntas de parâmetro de comparação.

As perguntas de parâmetro de comparação são executadas como novas conversas. Elas não têm o mesmo contexto que uma conversa encadeada do Genie. Cada pergunta é processada como uma nova consulta, usando as instruções definidas no espaço, incluindo qualquer exemplo fornecido de funções SQL e SQL.

As perguntas de parâmetro de comparação dão suporte a dois modos:

Modo de chat: o modo padrão. O Genie avalia a precisão comparando seus resultados gerados por SQL com uma resposta SQL fornecida.
Modo de agente: executa perguntas de parâmetro de comparação usando o mesmo raciocínio de várias etapas que o modo agente do Genie. Um juiz LLM avalia as respostas. Você pode fornecer uma nota de avaliação opcional para orientar a classificação.

Exemplo de benchmarks com precisão informada em nove perguntas.

Adicionar perguntas de parâmetro de comparação

As perguntas de parâmetro de comparação devem refletir diferentes maneiras de formular as perguntas comuns que seus usuários fazem. Você pode usá-las para verificar a resposta do Genie a variações na formulação das perguntas ou em diferentes formatos de perguntas.

Ao criar uma pergunta de parâmetro de comparação, você pode incluir opcionalmente uma consulta SQL cujo conjunto de resultados é a resposta correta. Durante as execuções de parâmetros de comparação, a precisão é avaliada comparando o conjunto de resultados da consulta SQL com o gerado pelo Genie. Você também pode usar as funções SQL do Catálogo do Unity como respostas de padrão ouro para benchmarks.

Para adicionar uma pergunta de parâmetro de comparação:

Próximo à parte superior do Genie Space, clique em Benchmarks.
Clique em Adicionar parâmetro de comparação.
No campo Pergunta, insira uma pergunta de parâmetro de comparação para testar.
Selecione um modo: Chat ou Agente.
- Modo de chat: o Genie avalia a precisão comparando seus resultados com uma resposta SQL que você fornece.
- Modo de agente: o Genie usa o raciocínio de várias etapas para responder à pergunta. Um LLM atua como juiz e avalia as respostas.
(Somente modo de chat) Forneça uma consulta SQL que responda à pergunta. Você pode escrever sua própria consulta digitando na caixa SQL Answer, incluindo funções SQL do Unity Catalog. Como alternativa, clique em Gerar SQL para que o Genie escreva a consulta SQL para você. Use uma instrução SQL que responda com precisão à pergunta que você inseriu.

Note

Esta etapa é recomendada. Somente as perguntas que incluem este exemplo de instrução SQL podem ser avaliadas automaticamente quanto à precisão. Quaisquer perguntas que não incluam uma resposta do SQL requerem revisão manual para serem pontuadas. Se você usar o botão Gerar SQL , examine a instrução para ter certeza de que ela está respondendo com precisão à pergunta.
(Apenas no modo de agente, opcional) No campo Nota de avaliação, insira diretrizes sobre a resposta correta ou o conteúdo esperado. Genie passa a nota de avaliação para o juiz da LLM. A nota pode referenciar o conteúdo esperado em relatórios de texto gerados pelo modo Agent.
(Somente modo de chat, opcional) Clique em Executar para executar sua consulta e exibir os resultados.
Quando terminar de editar, clique em Adicionar parâmetro de comparação.
Para atualizar uma pergunta depois de salvar, clique no ícone de lápis para abrir a caixa de diálogo Atualizar pergunta.

Usar parâmetros de comparação para testar frases de perguntas alternativas

Ao avaliar a precisão do Genie Space, é importante estruturar testes para refletir cenários realistas. Os usuários podem fazer a mesma pergunta de maneiras diferentes. O Databricks recomenda adicionar várias frases para a mesma pergunta e usar o mesmo SQL de exemplo em seus testes de parâmetro de comparação para avaliar totalmente a precisão. A maioria dos Espaços Genie deve incluir entre duas e quatro frases da mesma pergunta.

Executar perguntas de parâmetros de comparação

Usuários com pelo menos permissões para editar em um Genie Space podem executar uma avaliação de benchmark a qualquer momento. Você pode executar todas as perguntas de parâmetro de comparação ou selecionar um subconjunto de perguntas para testar.

Para cada pergunta, o Genie interpreta a entrada, gera SQL e retorna resultados. O SQL gerado e os resultados são comparados com a Resposta SQL definida na pergunta de parâmetro de comparação.

Para executar todas as perguntas de parâmetro de comparação:

Próximo à parte superior do Genie Space, clique em Benchmarks.
Clique em Executar parâmetros de comparação para iniciar a execução do teste.

Para executar um subconjunto de perguntas de parâmetro de comparação:

Próximo à parte superior do Genie Space, clique em Benchmarks.
Selecione as caixas de seleção ao lado das perguntas que você deseja testar.
Clique em Executar seleção para iniciar o teste nas perguntas selecionadas.

Você também pode selecionar um subconjunto de perguntas de um resultado de parâmetro de comparação anterior e executar novamente essas perguntas específicas para testar melhorias.

Os benchmarks continuam a ser executados quando você navega para fora da página. Você pode verificar os resultados na guia Avaliação quando a execução for concluída.

Interpretar classificações

O modo de parâmetro de comparação determina como o Genie calcula as classificações.

Classificações do modo de chat

Os critérios a seguir determinam como o Genie classifica as respostas do modo chat:

Condition	Pontuação
O Genie gera SQL que corresponde exatamente à Resposta SQL fornecida	Boa
O Genie gera um conjunto de resultados que corresponde exatamente ao conjunto de resultados produzido pela Resposta do SQL	Boa
O Genie gera um conjunto de resultados com os mesmos dados que a Resposta sql, mas classificado de forma diferente	Boa
O Genie gera um conjunto de resultados com valores numéricos que arredondam para os mesmos 4 dígitos significativos que a Resposta SQL	Boa
O Genie gera o SQL que produz um conjunto de resultados vazio ou retorna um erro	Mau
O Genie gera um conjunto de resultados que inclui colunas extras em comparação com o conjunto de resultados produzido pela Resposta do SQL	Mau
O Genie gera um resultado de célula única diferente do resultado de célula única produzido pela SQL Answer	Mau

Revisão manual necessária: as respostas são marcadas com esse rótulo quando o Genie não pode avaliar a correção ou quando os resultados da consulta gerada pelo Genie não contêm uma correspondência exata com os resultados da Resposta SQL fornecida. Todas as perguntas de parâmetro de comparação que não incluem uma Resposta do SQL devem ser revisadas manualmente.

Classificações de modo de agente

Um juiz LLM classifica as respostas do modo Agent em vez de usar a comparação de SQL. Se você forneceu uma nota de avaliação, o juiz LLM a usa como orientação ao avaliar a resposta, incluindo qualquer conteúdo esperado no relatório textual que o modo Agent gera. O juiz classifica as respostas que atendem aos critérios de nota de avaliação como Boas.

Acesse avaliações de parâmetro de comparação

Você pode acessar todas as suas avaliações de benchmark para acompanhar a precisão no seu Genie Space ao longo do tempo. Quando você abre os Benchmarks de um espaço, uma lista de execuções de avaliação com carimbo de data/hora aparece na guia Avaliações . Se nenhuma execução de avaliação for encontrada, consulte Adicionar perguntas de parâmetro de comparação ou executar perguntas de parâmetro de comparação.

Tela de avaliações conforme descrito no texto a seguir.

A guia Avaliações mostra uma visão geral das avaliações e seu desempenho relatado nas seguintes categorias:

Nome da avaliação: um carimbo de data/hora que indica quando ocorreu um processo de avaliação. Clique no carimbo de data/hora para ver os detalhes dessa avaliação. Status de execução: indica se a avaliação foi concluída, pausada ou malsucedida. Se uma execução de avaliação incluir perguntas de parâmetro de comparação que não tenham respostas do SQL predefinidas, ela será marcada para revisão nesta coluna. Precisão: uma avaliação numérica da precisão em todas as perguntas de parâmetro de comparação. Para execuções de avaliação que exigem revisão manual, uma medida de precisão aparece somente depois que essas perguntas são revisadas. Criada por: indica o nome do usuário que executou a avaliação.

Examinar avaliações individuais

Você pode revisar avaliações individuais para obter uma visão detalhada de cada resposta. Você pode editar a avaliação de qualquer pergunta e atualizar todos os itens que precisam de revisão manual.

Para revisar avaliações individuais:

Na parte superior do Genie Space, clique em Benchmark.
Clique no carimbo de data/hora de qualquer avaliação na coluna Nome da avaliação para abrir uma exibição detalhada dessa execução de teste.
Use a lista de perguntas no lado esquerdo da tela para ver uma exibição detalhada de cada pergunta.
Revise e compare a resposta da Saída do modelo com a resposta da Verdade fundamental.

Para resultados classificados como incorretos, uma explicação aparece descrevendo por que o resultado foi classificado como Ruim. Isso ajuda você a entender diferenças específicas entre a saída gerada e a verdade de base esperada.

Note

Os resultados dessas respostas aparecem nos detalhes da avaliação por uma semana. Após uma semana, os resultados não são mais visíveis. A instrução SQL gerada e a instrução SQL de exemplo permanecem.
Clique em Atualizar verdade de referência para definir a resposta como a nova verdade de referência para essa pergunta. Isso é útil se nenhuma verdade fundamental existir ou se a resposta for melhor ou mais precisa do que a declaração de verdade fundamental existente.
Clique em no rótulo para editar a avaliação.

Marque cada resultado como Boa ou Ruim para obter uma pontuação precisa para esta avaliação.

Comentários

Esta página foi útil?

Last updated on 2026-05-30