Тестирование и мониторинг пространства Genie

Тестируйте пространство Genie на реальных вопросах, проверяйте сгенерированные SQL-запросы и визуализации, редактируйте ответы, если Genie ошибается, и отслеживайте, как используется пространство, а также отзывы пользователей, чтобы пространство оставалось точным по мере изменения данных и пользовательских вопросов. Используйте бенчмарки для оценки точности ответов в больших масштабах.

Протестируйте пространство Genie

Большинство взаимодействий с пользователем происходят в окне чата. Лучший способ узнать, работает ли ваше пространство, как вы хотите, чтобы протестировать его с реалистичными вопросами, которые вы ожидаете, что ваши бизнес-пользователи будут задавать.

окно нового чата, как описано в следующем тексте.

Примеры вопросов, настроенных в параметрах пространства, отображаются в окне чата. Genie также может создавать примеры вопросов на основе контекста пространства, чтобы помочь пользователям начать изучение данных. Пользователи могут щелкнуть пример вопроса или ввести собственные вопросы в текстовом поле в нижней части экрана.

Ответы отображаются над текстовым полем. После того как пользователь вводит вопрос, он сохраняется в журнале чата.

Чтобы начать новую беседу, выполните приведенные далее действия.

  1. Нажмите кнопку "Создать чат ", чтобы начать новый чат. Щелкните иконку истории. чтобы открыть предыдущую беседу.
  2. Введите свой вопрос в текстовое поле Задать свой вопрос....

Просмотр ответов

Ответы обычно предоставляются в виде естественного языка, а также в форме таблицы, показывающей соответствующий набор результатов. Когда Genie обнаруживает, что визуализация может улучшить ясность ответа, она также возвращает визуализацию. Точная структура ответа зависит от вопроса. Если sql-запрос был создан для ответа на этот вопрос, он включается в ответ.

Показан пример ответа с визуализацией, отзывом и другими параметрами.

Note

Как и другие крупные языковые модели (LLMs), Genie может проявлять недетерминированное поведение. Это означает, что при отправке одного и того же запроса иногда могут возникать разные выходные данные. Предоставление примеров SQL-запросов, из которых Genie может извлечь уроки, поможет сделать Genie более согласованным. Смотрите примеры запросов и функций SQL.

Отзывы об ответе

Каждый ответ предложит пользователю ответить Это правильно? Пользователи могут реагировать одним из следующих способов:

  • Да: Подтверждает, что ответ является правильным.
  • Исправьте: Отметить ответ как неправильный. Пользователи могут выбрать из распространенных проблем или ввести собственное объяснение. Затем они могут:
    • Нажмите кнопку "Отправить" и повторите попытку, чтобы повторно создать ответ с помощью предоставленной обратной связи.
    • Нажмите кнопку "Отправить ", чтобы отправить отзыв без повторного создания ответа.
  • Запрос на проверку: Отмечает ответ для ручной проверки. Пользователи могут добавить необязательный комментарий для предоставления дополнительного контекста.

В качестве редактора можно просматривать отзывы и помеченные ответы в интерфейсе Genie. Поведение Genie Space не изменяется исключительно на основании отзывов пользователей. Вы должны использовать отзывы для выявления возможностей улучшения или реагирования непосредственно на вопросы пользователей. Databricks рекомендует поощрять пользователей предоставлять отзывы о пространстве с помощью этого механизма.

Бизнес-пользователи могут просматривать обновления вопросов, помеченных для проверки на странице "Монитор ". Пользователи, имеющие по крайней мере разрешение CAN MANAGE в пространстве Genie, могут просматривать конкретный обмен, комментировать запрос и подтвердить или исправить ответ. Они могут получать доступ к отзывам и просматривать запросы на странице мониторинга. Затем вы можете использовать эту обратную связь для настройки ответов и изменения вашей среды. См. раздел "Мониторинг пространства".

Другие действия ответа

Для ответов, включающих созданный SQL, дополнительные параметры позволяют взаимодействовать с возвращаемыми данными.

  • Копирование CSV-файла: Пользователи пространства могут скачать до примерно 1 ГБ данных результатов в виде CSV- файла. Размер окончательного скачивания файла может быть немного больше или меньше 1 ГБ, так как ограничение на 1 ГБ применяется к предыдущему шагу, чем к окончательному скачиванию файла. Чтобы скачать результаты, щелкните значок скачивания в ответе.

  • Показать код: Нажмите кнопку "Показать код ", чтобы просмотреть созданный запрос. Это может быть полезно для устранения неполадок с ненадежными ответами. См. статью "Изменение и сохранение запросов".

  • Значок меню Kebab. Кебаб меню : Доступ к следующим действиям:

    • Скопируйте CSV: скопируйте CSV-ответ в буфер обмена.
    • Добавьте инструкцию: Для взаимодействия, которые могут быть полезны для обучения Genie, как ответить на аналогичные вопросы, нажмите кнопку "Добавить как инструкцию". Это откроет пользовательский интерфейс для сохранения примеров SQL-запросов, заполненных вопросом и сгенерированным SQL. Вы можете оставить пример как написанный или изменить и сохранить, чтобы внести изменения. Смотрите примеры запросов и функций SQL.
    • Добавьте в качестве теста: добавьте вопрос в качестве контрольного вопроса. См. тесты производительности.
    • Обновление данных: обновите данные, выполнив ранее созданный запрос.
    • Повторное создание ответа: отправьте вопрос еще раз и повторно создайте ответ Genie.

Изменение и сохранение запросов

Запросы SQL Genie можно проверить на точность и изменить при необходимости. Авторы Genie Space обычно знают домен и данные, которые позволяют им распознавать, когда Genie создает неправильный ответ. Часто ошибки можно исправить с небольшим количеством ручной настройки в созданном SQL-запросе. Нажмите кнопку "Показать созданный код ", чтобы проверить запрос и просмотреть созданный SQL для любого ответа.

Вы можете изменить созданную инструкцию SQL, чтобы исправить ее, если у вас есть возможность ИЗМЕНИТЬ или повысить привилегии в пространстве Genie. После внесения исправлений выполните запрос. Затем вы можете сохранить его в качестве инструкции для обучения Genie, как ответить в будущем. Чтобы сохранить измененный запрос, нажмите кнопку "Добавить как инструкцию".

Мониторинг пространства

Genie Space можно рассматривать как долгосрочное средство совместной работы между командами данных и бизнес-пользователями. Он накапливает знания с течением времени, а не выступает в качестве разового использования. По мере того как пользователи задают новые вопросы, вы можете уточнить пространство для повышения охвата и точности.

Перейдите на вкладку "Монитор " для просмотра отдельных вопросов и ответов, просмотра отзывов пользователей и определения ответов, помеченных для проверки.

Пример вкладки мониторинга с описанными функциями.

На вкладке "Монитор" отображаются все вопросы и ответы, которые были заданы в данном пространстве. Вы можете фильтровать вопросы по времени, рейтингу, пользователю или состоянию. Пользователи с разрешениями CAN MANAGE, отслеживая пространство, могут проактивно понять запросы, создаваемые бизнес-пользователями, и как "Genie Space" ответил.

Определение вопросов, с которыми борется Genie, может помочь вам обновить Пространство Genie с конкретными инструкциями, чтобы улучшить свои ответы. Щелкните вопрос, чтобы открыть текст вопроса и ответа и просмотреть полный поток чата.

Используйте раздел " Еженедельный дайджест " на вкладке "Монитор " для просмотра еженедельного объема сообщений, активных пользователей и обратной связи вверх и вниз. Чтобы определить основные тенденции использования и распространенные проблемы, щелкните "Анализ использования пространства". Это запускает Genie Code, анализирующий данные мониторинга вашего пространства и обобщающий шаблоны использования и выявляющий области, требующие улучшения. Ответы Genie Code включают ссылки на источники, которые ведут к соответствующим беседам в вашем пространстве. Щелкните цитату, чтобы открыть переписку непосредственно в ветке Genie Code.

Еженедельный дайджест на вкладке

Оценка качества бесед

Important

Эта функция доступна в бета-версии. Администраторы рабочей области могут управлять доступом к этой функции на странице "Предварительные версии ". См. статью "Управление предварительными версиями Azure Databricks".

Если для беседы задано значение "Доступно для просмотра менеджерами пространства", пользователи с разрешением МОЖЕТ УПРАВЛЯТЬ могут открыть беседу на вкладке мониторинга, чтобы просмотреть полный обмен сообщениями. Это позволяет оценить качество ответа Genie, ответить на отзывы пользователей и определить области, в которых дополнительные инструкции или примеры запросов повышают точность. Для бесед, установленных как частные, менеджеры пространства могут просматривать запросы пользователей на вкладке мониторинга, но не имеют доступа к полному диалогу или результатам. Дополнительные сведения см. в разделе "Общий доступ к беседе".

Note

Беседы, созданные до включения бета-версии, остаются закрытыми. Беседы, которые создаются после включения, по умолчанию доступны для просмотра менеджерами пространства.

Benchmarks

Эталонные тесты позволяют создавать набор тестовых вопросов, которые можно выполнить для оценки точности ответа Genie в целом. Хорошо разработанный набор эталонов, охватывающий наиболее часто задаваемые пользователем вопросы, помогает оценить точность вашего *Genie Space* в процессе его проработки. Каждый Genie Space может содержать до 500 эталонных вопросов.

Контрольные вопросы запускаются как новые беседы. Они не несут тот же контекст, что и потоковые беседы Genie. Вопрос обрабатывается как новый запрос, используя инструкции, определенные в пространстве, включая любые указанные примеры и функции SQL.

Вопросы теста поддерживают два режима:

  • Режим чата: режим по умолчанию. Genie оценивает точность, сравнивая результаты, сгенерированные с помощью SQL, с предоставленным SQL-ответом.
  • Режим агента: обрабатывает контрольные вопросы, используя то же многошаговое рассуждение, что и в режиме агента Genie. Судья LLM оценивает ответы. Вы можете добавить необязательное примечание, которое поможет при оценивании.

примеры тестов с точностью, указанной для девяти вопросов.

Добавление вопросов теста

Вопросы теста должны отражать различные способы выражения распространенных вопросов, которые задают пользователи. Их можно использовать для проверки ответа Genie на варианты выражения вопросов или различные форматы вопросов.

При создании вопроса теста можно дополнительно включить SQL-запрос, результирующий набор которого является правильным ответом. Во время выполнения теста точность оценивается путем сравнения результирующего набора данных из вашего SQL-запроса с тем, который формируется Genie. Вы также можете использовать функции SQL каталога Unity в качестве стандартных ответов на тесты.

Чтобы добавить контрольный вопрос, выполните указанные действия.

  1. В верхней части пространства Genie щелкните "Тесты".

  2. Нажмите кнопку "Добавить тест".

  3. В поле "Вопрос" введите тестовый вопрос для тестирования.

  4. Выберите режим : чат или агент.

    • Режим чата: Genie оценивает точность, сравнивая результаты с предоставленным вами ответом SQL.
    • Режим агента: Genie использует многошаговое рассуждение, чтобы ответить на вопрос. Судья LLM оценивает ответы.
  5. (только режим чата) Укажите SQL-запрос, который отвечает на вопрос. Вы можете написать собственный запрос в поле SQL Answer, в том числе с использованием SQL-функций Unity Catalog. Кроме того, нажмите "Создать SQL", чтобы Genie создал SQL-запрос для вас. Используйте инструкцию SQL, которая точно отвечает на введенный вопрос.

    Note

    Этот шаг рекомендуется. Только вопросы, содержащие этот пример инструкции SQL, можно автоматически оценить для точности. Любые вопросы, не содержащие ответ SQL, требуют оценки вручную. Если вы используете кнопку "Создать SQL ", просмотрите инструкцию, чтобы убедиться, что она точно отвечает на этот вопрос.

  6. (Только режим агента, необязательный) В поле "Примечание о оценке " введите рекомендации по правильному ответу или ожидаемому содержимому. Джени передает записку об оценке судье LLM. Примечание может ссылаться на ожидаемое содержимое в текстовых отчетах, создаваемых режимом агента.

  7. (Только режим чата, необязательный) Нажмите кнопку "Выполнить" , чтобы запустить запрос и просмотреть результаты.

  8. После завершения редактирования нажмите кнопку "Добавить тест".

  9. Чтобы обновить вопрос после сохранения, щелкните значок карандаша Значок , чтобы открыть диалоговое окно "Обновить вопрос ".

Использование эталонных показателей для тестирования альтернативных фраз вопросов

При оценке точности Genie Space важно структурировать тесты, чтобы отразить реалистичные сценарии. Пользователи могут задавать один и тот же вопрос разными способами. Databricks рекомендует добавлять несколько формулировок одного и того же вопроса и использовать один и тот же пример SQL в тестах для полной проверки точности. Большинство Genie Spaces должны включать от двух до четырех различных формулировок одного и того же вопроса.

Запуск эталонных вопросов

Пользователи с правами уровня CAN EDIT в пространстве Genie могут запускать бенчмаркинг в любое время. Вы можете выполнить все вопросы теста или выбрать подмножество вопросов для тестирования.

Для каждого вопроса Genie интерпретирует входные данные, создает SQL и возвращает результаты. Затем созданные SQL и результаты сравниваются с SQL-ответом, определенным в вопросе теста.

Чтобы запустить все эталонные вопросы:

  1. В верхней части пространства Genie щелкните "Тесты".
  2. Нажмите кнопку "Запустить тестовые тесты", чтобы запустить тестовый запуск.

Чтобы выполнить подмножество вопросов теста, выполните следующие действия.

  1. В верхней части пространства Genie щелкните "Тесты".
  2. Установите флажки рядом с вопросами, которые вы хотите проверить.
  3. Нажмите кнопку "Запустить", чтобы запустить тестовый запуск по выбранным вопросам.

Вы также можете выбрать подмножество вопросов из предыдущего результата теста и повторно запустить эти конкретные вопросы для тестирования улучшений.

Тесты по-прежнему выполняются при переходе от страницы. После завершения выполнения можно проверить результаты на вкладке "Оценка ".

Интерпретация оценок

В режиме теста определяется способ вычисления рейтингов Genie.

Оценки режима чата

Следующие критерии определяют, как Genie оценивает ответы в режиме чата:

Состояние Rating
Genie создает SQL, который точно соответствует предоставленному ответу SQL Хороший
Genie создает результирующий набор, который точно соответствует результирующему набору, созданному ответом SQL Хороший
Genie создает результирующий набор с теми же данными, что и ответ SQL , но отсортирован по-разному. Хороший
Genie создает результирующий набор с числовыми значениями, округляемыми до тех же 4 значимых цифр, что и ответ SQL Хороший
Genie генерирует SQL-запрос, который создает пустой результат или возвращает ошибку Плохой
Genie создает результирующий набор, включающий дополнительные столбцы по сравнению с тем, который создается ответом SQL. Плохой
Genie создает результат одной ячейки, отличный от результата одной ячейки, созданного ответом SQL Плохой

Требуется ручная проверка: ответы помечаются с этой меткой, если Genie не может оценить правильность или если результаты запроса, созданные Genie, не содержат точного совпадения с результатами предоставленного ответа SQL. Все вопросы теста, не содержащие ответ SQL, должны быть проверены вручную.

Оценки режима агента

LLM-судья оценивает ответы режима агента, а не с помощью сравнения SQL. Если вы предоставили примечание по оценке, судья LLM использует его в качестве руководства при оценке ответа, включая любое ожидаемое содержимое в текстовом отчете, который создает режим агента. Судья оценивает ответы, которые соответствуют критериям оценочного примечания, как хорошие.

Доступ к базовым оценкам

Вы можете получить доступ ко всем оценкам производительности для отслеживания точности в вашем пространстве Genie с течением времени. При открытии Бенчмарков пространства, на вкладке Оценки появится список запусков оценок с отметкой времени. Если запуски оценок не найдены, см. Добавить бенчмарк-вопросы или Запустить бенчмарк-вопросы.

Экран оценки, как описано в следующем тексте.

На вкладке оценки содержится общий обзор оценок и их эффективности в следующих категориях:

Имя оценки: метка времени, указывающая, когда произошла оценка. Щелкните метку времени, чтобы просмотреть сведения об этой оценке. Состояние выполнения: указывает, завершена ли оценка, приостановлена или неудачна. Если выполнение оценки содержит эталонные вопросы, которые не имеют предопределенных ответов SQL, выполнение оценки помечается для пересмотра в этом столбце. Точность: числовая оценка точности по всем вопросам теста. Для оценочных процессов, требующих ручной проверки, точность отображается только после проверки этих вопросов. Создано: указывает имя пользователя, выполнившего оценку.

Просмотр отдельных оценок

Вы можете просмотреть отдельные оценки, чтобы получить подробный обзор каждого ответа. Вы можете изменить оценку для любого вопроса и обновить все элементы, которые нуждаются в ручной проверке.

Чтобы просмотреть отдельные оценки.

  1. В верхней части пространства Genie щелкните Benchmark.

  2. Щелкните метку времени для любой оценки в столбце имени оценки, чтобы открыть подробное представление тестового запуска.

    Экран, показывающий результаты выполнения одной оценки. Все вопросы перечислены слева. Если применимо, справа отображаются отдельные вопросы с выходными данными модели и истинными выходными данными.

  3. Используйте список вопросов в левой части экрана, чтобы просмотреть подробное представление каждого вопроса.

  4. Просмотрите и сравните выходной ответ модели с эталонным ответом.

    Для результатов, оцененных как неверные, появляется объяснение, описывающее, почему результат был оценен как плохой. Это помогает понять конкретные различия между сгенерированными выходными данными и ожидаемой эталонной истиной.

    Note

    Результаты этих ответов отображаются в сведениях об оценке в течение одной недели. Через одну неделю результаты больше не видны. Созданная инструкция SQL и пример инструкции SQL остаются.

  5. Нажмите Обновить эталонные данные, чтобы сохранить ответ в качестве новых Эталонных данных для этого вопроса. Это полезно, если эталонные данные не существуют, или если ответ лучше или более точен, чем существующее эталонное утверждение.

  6. Щелкните по значку на метке, чтобы отредактировать оценку.

    Пометьте каждый результат как хороший или плохой , чтобы получить точный показатель для этой оценки.