Compartir a través de


Uso de pruebas comparativas en un espacio de Genie

En esta página se explica cómo usar pruebas comparativas para evaluar la precisión del espacio de Genie.

Información general

Las pruebas comparativas le permiten crear un conjunto de preguntas de prueba que puede ejecutar para evaluar la precisión general de la respuesta de Genie. Un conjunto bien diseñado de pruebas comparativas que cubren las preguntas más frecuentes del usuario ayuda a evaluar la precisión del espacio de Genie a medida que lo refina.

Las preguntas comparativas se ejecutan como nuevas conversaciones. No llevan el mismo contexto que una conversación de Genie en subproceso. Cada pregunta se procesa como una nueva consulta, mediante las instrucciones definidas en el espacio, incluidas las funciones SQL y SQL de ejemplo proporcionadas.

Pruebas comparativas de ejemplo con precisión reportada en nueve preguntas.

Adición de preguntas comparativas

Las preguntas comparativas deben reflejar diferentes formas de expresar las preguntas comunes que hacen los usuarios. Puede usarlos para comprobar la respuesta de Genie a las variaciones en expresiones de preguntas o formatos de pregunta diferentes.

Al crear una pregunta de prueba comparativa, puede incluir opcionalmente una consulta SQL cuyo conjunto de resultados sea la respuesta correcta. Durante las ejecuciones comparativas, la precisión se evalúa comparando el conjunto de resultados de la consulta SQL con el generado por Genie.

Para agregar una pregunta comparativa:

  1. Haga clic en el icono de menú Kebab. Menú kebab en la esquina superior derecha del espacio de Genie. A continuación, haga clic en Pruebas comparativas.

  2. Haga clic en Agregar prueba comparativa.

  3. En el campo Pregunta, escriba una pregunta de prueba comparativa que se va a probar.

  4. (Opcional) Escriba la instrucción SQL que responda con precisión a la pregunta que escribió.

    Nota

    Este paso es recomendado. Solo las preguntas que incluyen esta instrucción SQL de ejemplo se pueden evaluar automáticamente para obtener precisión. Las preguntas que no incluyan una respuesta SQL requieren que se puntúe una revisión manual.

  5. (Opcional) Haga clic en Ejecutar para ejecutar la consulta y ver los resultados.

  6. Cuando haya terminado de editarlo, haga clic en Agregar prueba comparativa.

  7. Para actualizar una pregunta después de guardarla, haga clic en el icono de lápiz Icono Editar para abrir el cuadro de diálogo Actualizar pregunta.

Uso de pruebas comparativas para probar expresiones de preguntas alternativas

Al evaluar la precisión del espacio de Genie, es importante estructurar las pruebas para reflejar escenarios realistas. Los usuarios pueden formular la misma pregunta de maneras diferentes. Databricks recomienda agregar varias expresiones de la misma pregunta y usar el mismo ejemplo de SQL en las pruebas comparativas para evaluar completamente la precisión. La mayoría de los espacios de Genie deben incluir 2 - 4 expresiones de la misma pregunta.

Ejecución de preguntas comparativas

Los usuarios al menos con permisos PUEDE CREAR en un espacio Genie pueden crear una ejecución de prueba comparativa en cualquier momento, que evaluará automáticamente a través de todas las preguntas de prueba comparativa. Para evaluar cada pregunta comparativa, primero enviaremos la pregunta a Genie y, a continuación, compararemos los resultados de Genie con el banco de pruebas. Una de las siguientes etiquetas se aplica a cada prueba comparativa:

  • Correcta: las respuestas se marcan con esta etiqueta cuando el resultado de la consulta generado por Genie coincide con los resultados de la respuesta SQL proporcionada. Cuando una respuesta se marca como Buena, significa que los valores de fila coinciden exactamente, independientemente del criterio de ordenación o de los nombres de columna. Las columnas adicionales de SQL generadas son aceptables, siempre y cuando todas las columnas de la respuesta comparativa estén presentes en el SQL generado.
  • Revisión manual necesaria: las respuestas se marcan con esta etiqueta cuando Genie no puede evaluar la exactitud o cuando los resultados de la consulta generados por Genie no contienen una coincidencia exacta con los resultados de la respuesta SQL proporcionada. Si hay cambios inesperados en una dimensión de tablas en la respuesta SQL proporcionada, es posible que la pregunta se marque para su revisión. Las preguntas comparativas que no incluyan una respuesta SQL deben revisarse manualmente.
  • Incorrecta: las respuestas nunca se etiquetan automáticamente como Malas. Si los resultados de la consulta generados por Genie no coinciden con el conjunto de resultados de la respuesta SQL proporcionada, la pregunta se marca como revisión manual necesaria. Al revisar esos puntos de referencia, puede marcar un resultado como Incorrecto si no cree que los resultados de la consulta generados por Genie respondan a la pregunta.

Para ejecutar todas las preguntas comparativas:

  1. Haga clic en el icono de menú Kebab. Menú kebab en la esquina superior derecha del espacio de Genie. A continuación, haga clic en Pruebas comparativas.
  2. Haga clic en Ejecutar pruebas comparativas para iniciar la ejecución de pruebas.

Nota

Si cierra esta página, la prueba comparativa se pausa automáticamente. Puede reanudar la prueba al volver a abrir la página.

Acceso a las evaluaciones de pruebas comparativas

Puede acceder a todas las evaluaciones comparativas para realizar un seguimiento de la precisión en el espacio de Genie a lo largo del tiempo. Al abrir las pruebas comparativas de un espacio, aparece una lista con marcas de tiempo de ejecuciones de evaluación en la pestaña Evaluaciones . Si no se encuentra ninguna ejecución de evaluación, consulte Incorporación de preguntas de pruebas comparativas o Preguntas de pruebas comparativas de ejecución.

Pantalla Evaluaciones como se describe en el texto siguiente.

En la pestaña Evaluaciones, se muestra un resumen de las evaluaciones y su rendimiento mostrado en las siguientes categorías:

Nombre de evaluación: marca de tiempo que indica cuándo se produjo una ejecución de evaluación. Haga clic en la marca de tiempo para ver los detalles de esa evaluación. Estado de ejecución: indica si la evaluación se ha completado, pausado o incorrecto. Si una ejecución de evaluación incluye preguntas comparativas que no tienen respuestas SQL predefinidas, se marca para su revisión en esta columna. Precisión: una evaluación numérica de la precisión en todas las preguntas comparativas. En el caso de las ejecuciones de evaluación que requieren una revisión manual, solo aparece una medida de precisión después de que se hayan revisado esas preguntas. Creada por: indica el nombre del usuario que ejecutó la evaluación.

Revisión de evaluaciones individuales

Puede revisar las evaluaciones individuales para obtener una visión detallada de cada respuesta. Puede editar la evaluación de cualquier pregunta y actualizar los elementos que necesiten revisión manual.

Para revisar evaluaciones individuales:

  1. Haga clic en el icono de menú Kebab. Menú kebab en la esquina superior derecha del espacio de Genie. A continuación, haga clic en Pruebas comparativas.

  2. Haga clic en la marca de tiempo de cualquier evaluación de la columna Nombre de evaluación para abrir una vista detallada de esa ejecución de prueba.

    Pantalla que muestra los resultados de una sola ejecución de evaluación. Todas las preguntas aparecen a la izquierda. Si procede, las preguntas individuales se muestran a la derecha con la salida del modelo y la salida de la verdad básica.

  3. Haga clic en una pregunta cerca del lado izquierdo de la pantalla para ver los detalles asociados. Use la pantalla de detalles de evaluación para realizar los pasos siguientes.

  4. Revise y compare la respuesta de salida del modelo con la respuesta de la verdad básica.

    Nota

    Los resultados de estas respuestas aparecen en los detalles de evaluación para una semana. Después de una semana, los resultados ya no son visibles. La instrucción SQL generada y la instrucción SQL de ejemplo permanecen.

  5. Haga clic en la etiqueta Icono Editar para editar la evaluación.

    Marque cada resultado como Bueno o Malo para obtener una puntuación precisa para esta evaluación.