Prueba y supervisión de un espacio de Genie

Pruebe un espacio de Genie con preguntas del mundo real, revise las visualizaciones y SQL generadas, edite las respuestas cuando Genie recibe algo incorrecto y supervise el uso del espacio y los comentarios del usuario para que pueda mantener el espacio preciso a medida que evolucionan los datos y las preguntas. Use pruebas comparativas para puntuar la precisión de la respuesta a escala.

Prueba tu Genie Space

La mayoría de las interacciones del usuario tienen lugar en la ventana de chat. La mejor manera de aprender si su espacio funciona como quiere es probarlo con preguntas realistas que espera que los usuarios empresariales hagan.

Nueva ventana de chat tal como se describe en el texto siguiente.

Las preguntas de ejemplo configuradas en la configuración del espacio aparecen en la ventana de chat. Genie también puede generar preguntas de ejemplo basadas en el contexto del espacio para ayudar a los usuarios a empezar a explorar los datos. Los usuarios pueden hacer clic en una pregunta de ejemplo o escribir sus propias preguntas en el campo de texto de la parte inferior de la pantalla.

Las respuestas aparecen encima del campo de texto. Una vez que un usuario escribe una pregunta, se guarda en el historial de chat.

Para iniciar una nueva conversación:

Haga clic en Nuevo chat para iniciar un nuevo chat. Haga clic en abrir una conversación anterior.
Escribe tu pregunta en el campo de entrada de texto Escribe tu pregunta….

Revisión de respuestas

Las respuestas normalmente se entregan como respuestas de lenguaje natural a las preguntas y una tabla que muestra el conjunto de resultados pertinente. Cuando Genie detecta que una visualización podría mejorar la claridad de la respuesta, también devuelve una visualización. La estructura precisa de la respuesta varía en función de la pregunta. Si se generó una consulta SQL para responder a la pregunta, se incluye en la respuesta.

Se muestra una respuesta de ejemplo con visualización, comentarios y otras opciones.

Note

Al igual que otros modelos de lenguaje grande (LLM), Genie puede mostrar comportamientos no deterministas. Esto significa que, en ocasiones, podría recibir respuestas diferentes al enviar el mismo mensaje varias veces. Proporcionar consultas SQL de ejemplo de las que Genie puede aprender puede ayudar a hacer que Genie sea más coherente. Consulte Adición de consultas y funciones SQL de ejemplo.

Comentarios de respuesta

Cada respuesta pide al usuario que responda ¿Es correcto?. Los usuarios pueden responder de una de las maneras siguientes:

Sí: Confirma que la respuesta aparece precisa.
Corrijalo: Marca la respuesta como incorrecta. Los usuarios pueden seleccionar entre problemas comunes o escribir su propia explicación. Después, pueden:
- Haga clic en Enviar e inténtelo de nuevo para volver a generar la respuesta mediante los comentarios proporcionados.
- Haga clic en Enviar para enviar los comentarios sin regenerar la respuesta.
Revisión de solicitudes: Marca la respuesta para la revisión manual. Los usuarios pueden agregar un comentario opcional para proporcionarle contexto adicional.

Como editor, puede ver los comentarios y las respuestas marcadas en la interfaz Genie. El comportamiento de Genie Space no cambia en función de los comentarios del usuario por sí solos. Debe usar comentarios para identificar las oportunidades de mejora o responder directamente a las preguntas del usuario. Databricks recomienda animar a los usuarios a proporcionar comentarios sobre el espacio mediante este mecanismo.

Los usuarios empresariales pueden ver las actualizaciones de las preguntas que han marcado para su revisión en su página Supervisión . Los usuarios con al menos el permiso CAN MANAGE en Genie Space pueden revisar el intercambio específico, comentar la solicitud y confirmar o corregir la respuesta. Pueden acceder a los comentarios y revisar las solicitudes en la página de supervisión. Después, puedes usar esos comentarios para ajustar las respuestas e iterar en tu espacio. Consulte Monitorizar el espacio.

Otras acciones de respuesta

En el caso de las respuestas que incluyen SQL generado, las opciones adicionales permiten interactuar con los datos devueltos.

Copiar CSV: Los usuarios del espacio pueden descargar aproximadamente 1 GB de datos de resultados en formato CSV. El tamaño final de descarga de archivos puede ser ligeramente mayor o menor que 1 GB, ya que el límite de 1 GB se aplica a un paso anterior que la descarga final de archivos. Para descargar los resultados, haga clic en el icono de descarga en la respuesta.
Mostrar código: Haga clic en Mostrar código para ver la consulta generada. Esto puede ser útil para solucionar problemas de respuestas no confiables. Consulte Editar y guardar consultas.
Icono del menú kebab: Acceda a las siguientes acciones:
- Copiar CSV: copie el CSV de la respuesta en el portapapeles.
- Agregue como instrucción: Para las interacciones que podrían resultar útiles para enseñar a Genie cómo responder a preguntas similares, haga clic en Agregar como instrucción. Se abre la interfaz de usuario para guardar consultas SQL de ejemplo, rellenadas con la pregunta y SQL generada. Puede dejar el ejemplo como escrito o editar y guardar para realizar cambios. Consulte Adición de consultas y funciones SQL de ejemplo.
- Agregar como prueba comparativa: agregue la pregunta como una pregunta comparativa. Consulte Pruebas comparativas.
- Actualizar datos: actualice los datos mediante la ejecución de la consulta generada anteriormente.
- Regenerar respuesta: vuelva a enviar la pregunta y haga que Genie vuelva a generar la respuesta.

Edición y guardado de consultas

Las consultas SQL de Genie se pueden revisar para obtener precisión y editarlas según sea necesario. Los autores de Genie Space suelen conocer el dominio y los datos que les permiten reconocer cuándo Genie genera una respuesta incorrecta. A menudo, los errores se pueden corregir con una pequeña cantidad de ajuste manual a la consulta SQL generada. Haga clic en Mostrar código generado para inspeccionar la consulta y ver el CÓDIGO SQL generado para cualquier respuesta.

Puede editar la instrucción SQL generada para corregirla si tiene privilegios CAN EDIT o mayores en Genie Space. Después de realizar las correcciones, ejecute la consulta. A continuación, puede guardarla como una instrucción para enseñar a Genie a responder en el futuro. Para guardar la consulta editada, haga clic en Agregar como instrucción.

Monitorea el espacio

Un espacio de Genie se puede considerar como una herramienta de colaboración a largo plazo entre los equipos de datos y los usuarios empresariales. Acumula conocimiento a lo largo del tiempo en lugar de servir como una implementación única. A medida que los usuarios hacen nuevas preguntas, puede refinar el espacio para mejorar la cobertura y la precisión.

Use la pestaña Supervisión para revisar preguntas y respuestas individuales, ver los comentarios del usuario e identificar las respuestas marcadas para su revisión.

Una pestaña de supervisión de ejemplo que muestra las características descritas.

En la pestaña monitor se muestran todas las preguntas y respuestas que se han hecho en el espacio. Puede filtrar las preguntas por hora, clasificación, usuario o estado. Al supervisar el espacio, los usuarios con permisos CAN MANAGE pueden comprender proactivamente las consultas generadas por los usuarios empresariales y cómo respondió Genie Space.

Identificar las preguntas con las que Genie tiene dificultades puede ayudarle a actualizar Genie Space con instrucciones específicas para mejorar sus respuestas. Haga clic en una pregunta para abrir el texto de la pregunta y la respuesta, y ver el hilo de chat completo.

Revisión del uso y las tendencias

Use la sección Resumen semanal de la pestaña Supervisión para revisar el volumen semanal de mensajes, los usuarios activos y los comentarios hacia arriba y abajo. Para identificar las principales tendencias de uso y los problemas comunes, haga clic en Analizar el uso del espacio. Esto inicia Genie Code, que analiza los datos de supervisión del espacio y resume los patrones de uso y las áreas para mejorar. Las respuestas de Genie Code incluyen citas que enlazan con las conversaciones pertinentes de tu espacio. Haga clic en una referencia para abrir la conversación directamente en el hilo de Genie Code.

La sección Resumen semanal de la pestaña Supervisión que muestra mensajes semanales, usuarios y comentarios.

Revisar las conversaciones para evaluar su calidad

Important

Esta característica se encuentra en su versión beta. Los administradores del área de trabajo pueden controlar el acceso a esta característica desde la página Vistas previas . Consulte Administrar versiones preliminares de Azure Databricks.

Cuando una conversación se establece en Revisable por los administradores de espacio, los usuarios con el permiso CAN MANAGE pueden abrir la conversación desde la pestaña supervisión para revisar el intercambio completo. Esto le permite evaluar la calidad de respuesta de Genie, responder a los comentarios del usuario e identificar áreas en las que las instrucciones adicionales o las consultas de ejemplo mejorarían la precisión. En el caso de las conversaciones establecidas en Privado, los administradores de espacios pueden ver las indicaciones del usuario en la pestaña supervisión, pero no pueden ver la conversación completa o los resultados. Para obtener más información, consulte Compartir una conversación.

Note

Las conversaciones creadas antes de habilitar la versión beta permanecen privadas. Las conversaciones creadas después de habilitarlo tienen como configuración predeterminada revisable por los administradores de espacio.

Benchmarks

Las pruebas comparativas le permiten crear un conjunto de preguntas de prueba que puede ejecutar para evaluar la precisión general de la respuesta de Genie. Un conjunto bien diseñado de pruebas comparativas que cubren las preguntas más frecuentes del usuario ayuda a evaluar la precisión de su espacio de Genie a medida que lo perfecciona. Cada espacio de Genie puede contener hasta 500 preguntas comparativas.

Las preguntas comparativas se ejecutan como nuevas conversaciones. No llevan el mismo contexto que una conversación de Genie en subproceso. Cada pregunta se procesa como una nueva consulta, mediante las instrucciones definidas en el espacio, incluidas las funciones SQL y SQL de ejemplo proporcionadas.

Las preguntas comparativas admiten dos modos:

Modo de chat: modo predeterminado. Genie evalúa la precisión comparando sus resultados generados por SQL con una respuesta SQL proporcionada.
Modo de agente: ejecuta preguntas comparativas con el mismo razonamiento de varios pasos que el modo agente de Genie. Un juez LLM califica las respuestas. Puede proporcionar una nota de evaluación opcional para guiar la calificación.

Pruebas comparativas de ejemplo con precisión reportada en nueve preguntas.

Adición de preguntas comparativas

Las preguntas comparativas deben reflejar diferentes formas de expresar las preguntas comunes que hacen los usuarios. Puede usarlos para comprobar la respuesta de Genie a las variaciones en expresiones de preguntas o formatos de pregunta diferentes.

Al crear una pregunta de prueba comparativa, puede incluir opcionalmente una consulta SQL cuyo conjunto de resultados sea la respuesta correcta. Durante las ejecuciones comparativas, la precisión se evalúa comparando el conjunto de resultados de la consulta SQL con el generado por Genie. También puede usar las funciones SQL del catálogo de Unity como respuestas estándar gold para pruebas comparativas.

Para agregar una pregunta comparativa:

Cerca de la parte superior del espacio de Genie, haga clic en Pruebas comparativas.
Haga clic en Agregar prueba comparativa.
En el campo Pregunta, escriba una pregunta de prueba comparativa que se va a probar.
Seleccione un modo: Chat o Agente.
- Modo de chat: Genie evalúa la precisión comparando sus resultados con una respuesta SQL que proporcione.
- Modo de agente: Genie usa el razonamiento de varios pasos para responder a la pregunta. Un juez LLM califica las respuestas.
(Solo modo chat) Proporcione una consulta SQL que responda a la pregunta. Puede escribir su propia consulta escribiéndola en el cuadro SQL Answer, incluidas las funciones SQL de Unity Catalog. Como alternativa, haga clic en Generar SQL para que Genie escriba la consulta SQL automáticamente. Use una instrucción SQL que responda con precisión a la pregunta especificada.

Note

Este paso es recomendado. Solo las preguntas que incluyen esta instrucción SQL de ejemplo se pueden evaluar automáticamente para obtener precisión. Las preguntas que no incluyan una respuesta SQL requieren que se puntúe una revisión manual. Si usa el botón Generar SQL , revise la instrucción para asegurarse de que responde con precisión a la pregunta.
(Solo modo agente, opcional) En el campo Nota de evaluación, escriba instrucciones sobre la respuesta correcta o el contenido esperado. Genie pasa la nota de evaluación al juez LLM. La nota puede hacer referencia al contenido esperado en los informes de texto que genera el modo agente.
(Solo modo de chat, opcional) Haga clic en Ejecutar para ejecutar la consulta y ver los resultados.
Cuando haya terminado de editarlo, haga clic en Agregar prueba comparativa.
Para actualizar una pregunta después de guardarla, haga clic en el icono de lápiz para abrir el cuadro de diálogo Actualizar pregunta.

Uso de pruebas comparativas para probar expresiones de preguntas alternativas

Al evaluar la precisión del espacio de Genie, es importante estructurar las pruebas para reflejar escenarios realistas. Los usuarios pueden formular la misma pregunta de maneras diferentes. Databricks recomienda agregar varias expresiones de la misma pregunta y usar el mismo ejemplo de SQL en las pruebas comparativas para evaluar completamente la precisión. La mayoría de Genie Spaces deben incluir entre dos y cuatro expresiones de la misma pregunta.

Ejecución de preguntas comparativas

Los usuarios con al menos permisos CAN EDIT en un espacio de Genie pueden ejecutar una evaluación comparativa en cualquier momento. Puede ejecutar todas las preguntas comparativas o seleccionar un subconjunto de preguntas que se van a probar.

Para cada pregunta, Genie interpreta la entrada, genera SQL y devuelve resultados. A continuación, los resultados y SQL generados se comparan con la respuesta SQL definida en la pregunta de prueba comparativa.

Para ejecutar todas las preguntas comparativas:

Cerca de la parte superior del espacio de Genie, haga clic en Pruebas comparativas.
Haga clic en Ejecutar pruebas comparativas para iniciar la ejecución de pruebas.

Para ejecutar un subconjunto de preguntas comparativas:

Cerca de la parte superior del espacio de Genie, haga clic en Pruebas comparativas.
Active las casillas situadas junto a las preguntas que desea probar.
Haga clic en Ejecutar selección para iniciar la prueba en las preguntas seleccionadas.

También puede seleccionar un subconjunto de preguntas de un resultado de prueba comparativa anterior y volver a ejecutar esas preguntas específicas para probar las mejoras.

Las benchmarks continúan ejecutándose cuando navega fuera de la página. Puede comprobar los resultados en la pestaña Evaluación cuando se complete la ejecución.

Interpretación de las clasificaciones

El modo de prueba comparativa determina cómo Genie calcula las clasificaciones.

Clasificaciones del modo de chat

Los criterios siguientes determinan cómo Genie evalúa las respuestas del modo chat:

Condition	Calificación
Genie genera SQL que coincide exactamente con la respuesta SQL proporcionada.	Bien
Genie genera un conjunto de resultados que coincide exactamente con el conjunto de resultados generado por la respuesta SQL	Bien
Genie genera un conjunto de resultados con los mismos datos que la respuesta SQL , pero ordenado de forma diferente	Bien
Genie genera un conjunto de resultados con valores numéricos que redondean a los mismos 4 dígitos significativos que la respuesta SQL	Bien
Genie genera SQL que genera un conjunto de resultados vacío o devuelve un error.	Malo
Genie genera un conjunto de resultados que incluye columnas adicionales en comparación con el conjunto de resultados generado por la respuesta SQL.	Malo
Genie genera un único resultado de celda diferente del resultado de una sola celda generado por la respuesta SQL.	Malo

Revisión manual necesaria: las respuestas se marcan con esta etiqueta cuando Genie no puede evaluar la exactitud o cuando los resultados de la consulta generados por Genie no contienen una coincidencia exacta con los resultados de la respuesta SQL proporcionada. Las preguntas comparativas que no incluyan una respuesta SQL deben revisarse manualmente.

Clasificaciones del modo agente

Un juez LLM clasifica las respuestas del modo agente en lugar de usar la comparación de SQL. Si ha proporcionado una nota de evaluación, el evaluador LLM la utiliza como guía al evaluar la respuesta, incluido cualquier contenido previsto en el informe textual que genera el modo Agente. El juez evalúa las respuestas que cumplen los criterios de la nota de evaluación como Correcto.

Acceso a las evaluaciones de pruebas comparativas

Puede acceder a todas las evaluaciones comparativas para realizar un seguimiento de la precisión en su espacio de Genie a lo largo del tiempo. Al abrir las pruebas comparativas de un espacio, aparece una lista con marcas de tiempo de ejecuciones de evaluación en la pestaña Evaluaciones . Si no se encuentra ninguna ejecución de evaluación, consulte Incorporación de preguntas de pruebas comparativas o Preguntas de pruebas comparativas de ejecución.

Pantalla Evaluaciones como se describe en el texto siguiente.

En la pestaña Evaluaciones, se muestra un resumen de las evaluaciones y su rendimiento mostrado en las siguientes categorías:

Nombre de evaluación: marca de tiempo que indica cuándo se produjo una ejecución de evaluación. Haga clic en la marca de tiempo para ver los detalles de esa evaluación. Estado de ejecución: indica si la evaluación se ha completado, pausado o incorrecto. Si una ejecución de evaluación incluye preguntas comparativas que no tienen respuestas SQL predefinidas, se marca para su revisión en esta columna. Precisión: una evaluación numérica de la precisión en todas las preguntas comparativas. En el caso de las ejecuciones de evaluación que requieren una revisión manual, solo aparece una medida de precisión después de que se hayan revisado esas preguntas. Creada por: indica el nombre del usuario que ejecutó la evaluación.

Revisión de evaluaciones individuales

Puede revisar las evaluaciones individuales para obtener una visión detallada de cada respuesta. Puede editar la evaluación de cualquier pregunta y actualizar los elementos que necesiten revisión manual.

Para revisar evaluaciones individuales:

Cerca de la parte superior del espacio de Genie, haga clic en Benchmark.
Haga clic en la marca de tiempo de cualquier evaluación de la columna Nombre de evaluación para abrir una vista detallada de esa ejecución de prueba.
Use la lista de preguntas en el lado izquierdo de la pantalla para ver una vista detallada de cada pregunta.
Revise y compare la respuesta de salida del modelo con la respuesta de la verdad básica.

En el caso de los resultados clasificados como incorrectos, aparece una explicación que describe por qué el resultado se ha clasificado como Incorrecto. Esto le ayuda a comprender las diferencias específicas entre la salida generada y la verdad básica esperada.

Note

Los resultados de estas respuestas aparecen en los detalles de evaluación durante una semana. Después de una semana, los resultados ya no son visibles. La instrucción SQL generada y la instrucción SQL de ejemplo permanecen.
Haga clic en Actualizar verdad de base para guardar la respuesta como la nueva verdad de base para esta pregunta. Esto es útil si no existe ninguna verdad básica, o si la respuesta es mejor o más precisa que la declaración de la verdad fundamental existente.
Haga clic en la etiqueta para editar la evaluación.

Marque cada resultado como Bueno o Malo para obtener una puntuación precisa para esta evaluación.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-06-01