Просмотр результатов оценки в Azure AI Studio

Статья
05/21/2024

Внимание

Некоторые функции, описанные в этой статье, могут быть доступны только в предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.

Страница оценки Azure AI Studio — это универсальный центр, который позволяет не только визуализировать и оценивать результаты, но и служить центром управления для оптимизации, устранения неполадок и выбора идеальной модели ИИ для ваших потребностей развертывания. Это однократное решение для принятия решений на основе данных и повышения производительности в проектах AI Studio. Вы можете легко получить доступ к результатам из различных источников, включая поток, сеанс быстрого тестирования на площадке, пользовательский интерфейс отправки оценки и пакет SDK. Эта гибкость гарантирует, что вы можете взаимодействовать с результатами таким образом, чтобы лучше подходить к рабочему процессу и предпочтениям.

Когда вы визуализировали результаты оценки, вы можете подробно изучить его. Это включает возможность не только просматривать отдельные результаты, но и сравнивать эти результаты в нескольких запусках оценки. Таким образом, вы можете определить тенденции, шаблоны и несоответствия, получить бесценные аналитические сведения о производительности системы ИИ в различных условиях.

Из этой статьи вы узнаете:

Просмотрите результат оценки и метрики.
Сравните результаты оценки.
Ознакомьтесь со встроенными метриками оценки.
Повышение производительности.
Просмотрите результаты оценки и метрики.

Поиск результатов оценки

После отправки оценки можно найти отправленное выполнение оценки в списке выполнения, перейдя на страницу оценки .

Вы можете отслеживать выполнение оценки и управлять ими в списке выполнения. Благодаря гибкости для изменения столбцов с помощью редактора столбцов и реализации фильтров можно настроить и создать собственную версию списка выполнения. Кроме того, вы можете быстро просмотреть агрегированные метрики оценки во всех запусках, что позволяет выполнять быстрые сравнения.

Для более глубокого понимания того, как производные метрики оценки, можно получить полное объяснение, выбрав параметр "Подробнее о метриках". Этот подробный ресурс предоставляет ценные сведения о вычислении и интерпретации метрик, используемых в процессе оценки.

Вы можете выбрать конкретный запуск, который приведет вас к странице сведений о выполнении. Здесь можно получить доступ к исчерпывающей информации, включая сведения об оценке, такие как тестовый набор данных, тип задачи, запрос, температура и многое другое. Кроме того, можно просмотреть метрики, связанные с каждым примером данных. Диаграммы показателей метрик предоставляют визуальное представление о том, как оценки распределяются для каждой метрики во всем наборе данных.

В таблице подробных сведений о метриках можно проводить комплексный анализ каждого отдельного примера данных. Здесь можно тщательно изучить созданные выходные данные и соответствующую оценку метрики оценки. Этот уровень детализации позволяет принимать решения на основе данных и принимать конкретные действия для повышения производительности модели.

Некоторые потенциальные элементы действий на основе метрик оценки могут включать:

Распознавание шаблонов. Отфильтровав числовые значения и метрики, можно детализировать до примеров с более низкими оценками. Изучите эти примеры, чтобы определить повторяющиеся шаблоны или проблемы в ответах модели. Например, вы можете заметить, что низкие оценки часто возникают при создании содержимого в определенной теме.
Уточнение модели. Используйте аналитические сведения из примеров с более низкой оценкой, чтобы улучшить инструкцию системного запроса или точно настроить модель. Если вы наблюдаете согласованные проблемы, например, согласованность или релевантность, вы также можете соответствующим образом настроить данные или параметры обучения модели.
Настройка столбцов: редактор столбцов позволяет создавать настраиваемое представление таблицы, фокусируясь на метриках и данных, наиболее важных для целей оценки. Это упрощает анализ и помогает более эффективно выявлять тенденции.
Поиск ключевых слов: поле поиска позволяет искать определенные слова или фразы в созданных выходных данных. Это может быть полезно для определения проблем или шаблонов, связанных с определенными разделами или ключевое слово, и их конкретного решения.

Таблица сведений о метриках предлагает множество данных, которые могут управлять усилиями по улучшению модели, от распознавания шаблонов до настройки представления для эффективного анализа и уточнения модели на основе выявленных проблем.

Мы разбиваем агрегированные представления или метрики попроизводительности и качеству и рискам и метрикам безопасности. Вы можете просмотреть распределение показателей по вычисляемому набору данных и просмотреть статистические оценки для каждой метрики.

Для показателей производительности и качества мы агрегируем, вычисляя среднее значение для всех показателей для каждой метрики.
Для метрик риска и безопасности мы агрегируем на основе порогового значения, чтобы вычислить частоту дефектов для всех показателей для каждой метрики. Частота дефектов определяется как процент экземпляров в тестовом наборе данных, превышающий пороговое значение шкалы серьезности по всему размеру набора данных.

Ниже приведены некоторые примеры результатов метрик для сценария ответа на вопросы:

Ниже приведены некоторые примеры результатов метрик для сценария беседы:

Для сценария многоэтапной беседы можно выбрать "Просмотреть результаты оценки на поворот", чтобы проверка метрики оценки для каждого из них в беседе.

Для метрик риска и безопасности оценка предоставляет оценку серьезности и причины для каждой оценки. Ниже приведены некоторые примеры результатов метрик риска и безопасности для сценария ответа на вопросы:

Результаты оценки могут иметь разные значения для разных аудиторий. Например, оценки безопасности могут создать метку для "низкой" серьезности насильственного содержимого, которое может не соответствовать определению рецензента человека о том, насколько сильно это конкретное насильственное содержимое может быть. Мы предоставляем столбец обратной связи с большими пальцами вверх и пальцем вниз при проверке результатов оценки на поверхность, какие экземпляры были утверждены или помечены как неверные рецензентом человека.

При понимании каждой метрики риска содержимого можно легко просмотреть каждое определение метрик и масштаб серьезности, выбрав имя метрик над диаграммой, чтобы просмотреть подробное описание во всплывающем смысле.

Если с выполнением что-то не так, можно также выполнить отладку выполнения оценки с помощью журнала и трассировки.

Ниже приведены некоторые примеры журналов, которые можно использовать для отладки выполнения оценки:

Ниже приведен пример представления трассировки и отладки:

При оценке потока запроса можно выбрать кнопку "Вид в потоке ", чтобы перейти на страницу вычисляемого потока, чтобы обновить поток. Например, добавление дополнительной инструкции метазаставки или изменение некоторых параметров и повторное вычисление.

Сравнение результатов оценки

Чтобы упростить комплексное сравнение двух или более запусков, можно выбрать нужные запуски и инициировать процесс, нажав кнопку "Сравнить ", или для общего подробного представления панели мониторинга кнопка "Переключиться на панель мониторинга ". Эта функция позволяет анализировать и контрастировать производительность и результаты нескольких запусков, обеспечивая более информированное принятие решений и целевые улучшения.

В представлении панели мониторинга есть доступ к двум ценным компонентам: диаграмме сравнения метрик и таблице сравнения. Эти средства позволяют выполнять параллельный анализ выбранных запусков оценки, что позволяет сравнить различные аспекты каждого примера данных с легкостью и точностью.

В таблице сравнения у вас есть возможность установить базовый план для сравнения, наведите указатель мыши на конкретный запуск, который вы хотите использовать в качестве эталонной точки и задать в качестве базового плана. Кроме того, активировав переключатель show delta, можно легко визуализировать различия между базовым запуском и другими запусками для числовых значений. Кроме того, при включении переключателя "Показать только разницу" в таблице отображаются только строки, которые отличаются между выбранными запусками, помогая в идентификации различных вариантов.

Используя эти функции сравнения, вы можете принять обоснованное решение, чтобы выбрать лучшую версию:

Сравнение базовых показателей. Задав базовый запуск, можно определить эталонную точку, с которой можно сравнить другие запуски. Это позволяет узнать, как каждый запуск отклоняется от выбранного стандарта.
Оценка числовых значений: включение параметра Show delta помогает понять степень различий между базовыми и другими запусками. Это полезно для оценки того, как различные запуски выполняются с точки зрения конкретных метрик оценки.
Изоляция различий: функция "Показать только разницу" упрощает анализ, выделяя только области, в которых существуют несоответствия между запусками. Это может быть важно в том, чтобы определить, где необходимы улучшения или корректировки.

С помощью этих средств сравнения можно определить, какая версия модели или системы лучше всего подходит для определенных критериев и метрик, в конечном счете помогая вам выбрать наиболее оптимальный вариант для вашего приложения.

Измерение уязвимости в тюрьме

Оценка тюрьмы — это сравнительное измерение, а не метрика с поддержкой ИИ. Запустите оценки на двух разных наборах данных с красными командами: базовый набор данных состязательного теста и один и тот же состязательный тестовый набор с внедрением в тюрьму в первую очередь. Вы можете использовать симулятор состязательности данных для создания набора данных с внедрением или без нее.

Чтобы понять, уязвим ли ваше приложение к джейл-брейк, можно указать базовый показатель, а затем включить переключатель "Скорость дефектов в тюрьме" в таблице сравнения. Частота дефектов в тюрьме определяется как процент экземпляров в тестовом наборе данных, где внедрение с помощью тюрьмы создало более высокую оценку серьезности для любой метрики риска содержимого относительно базового уровня по всему размеру набора данных. Вы можете выбрать несколько вычислений на панели мониторинга сравнения, чтобы просмотреть разницу в скорости дефектов.

Совет

Частота дефектов в тюрьме сравнительно вычисляется только для наборов данных одного размера и только если все запуски включают риск содержимого и метрики безопасности.

Общие сведения о встроенных метриках оценки

Понимание встроенных метрик жизненно важно для оценки производительности и эффективности приложения ИИ. Получив аналитические сведения об этих ключевых средствах измерения, вы лучше можете интерпретировать результаты, принимать обоснованные решения и настраивать приложение для достижения оптимальных результатов. Чтобы узнать больше о важности каждой метрики, о том, как она вычисляется, ее роль в оценке различных аспектов модели, а также о том, как интерпретировать результаты для улучшения на основе данных, см. в разделе "Метрики оценки и мониторинга".

Следующие шаги

Узнайте больше о том, как оценить созданные приложения ИИ:

Узнайте больше о методах устранения вреда.

Поделиться через