Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Вы можете использовать страницу оценки портала Azure AI Foundry для визуализации и оценки результатов. Его можно использовать в качестве центра управления для оптимизации, устранения неполадок и выбора идеальной модели искусственного интеллекта для ваших потребностей в развертывании. Портал поможет вам повысить эффективность принятия решений на основе данных и повысить производительность проектов Azure AI Foundry. Вы можете получить доступ к результатам из различных источников, включая поток, сеанс быстрого тестирования на площадке, пользовательский интерфейс отправки оценки и пакет SDK. Вы можете взаимодействовать с результатами так, как лучше всего подходит к вашему рабочему процессу и предпочтениям.
После визуализации результатов оценки вы можете углубиться в подробное изучение. Вы можете просмотреть отдельные результаты и сравнить эти результаты в нескольких запусках оценки. Вы можете определить тенденции, шаблоны и несоответствия, которые помогут вам получить бесценные аналитические сведения о производительности системы ИИ в различных условиях.
В этой статье вы узнаете, как:
- Просмотр результатов оценки и метрик.
- Сравнение результатов оценки.
- Повышение производительности.
Поиск результатов оценки
После отправки оценки, вы можете найти отправленный запуск оценки в списке запусков. Перейдите на страницу оценки .
Вы можете отслеживать выполнение оценки и управлять ими в списке выполнения. Вы можете изменить столбцы с помощью редактора столбцов и реализовать фильтры, а также настроить и создать собственную версию списка выполнения. Кроме того, вы можете быстро просмотреть агрегированные метрики оценки во всех запусках и выполнить быстрые сравнения.
Подсказка
Вы можете просмотреть запуск оценки с любой версией promptflow-evals
SDK или azure-ai-evaluation
версии 1.0.0b1, 1.0.0b2, 1.0.0b3. Включите переключатель "Показать все запуски", чтобы найти запуск.
Для более глубокого понимания того, как производна метрика оценки, можно получить полное объяснение, выбрав параметр "Подробнее о метриках ". Этот подробный ресурс содержит аналитические сведения о вычислении и интерпретации метрик, используемых в процессе оценки.
При просмотре таблицы запусков оценки можно выбрать конкретную запись, которая откроет страницу с подробностями о запуске. Здесь можно получить доступ к исчерпывающей информации, включая сведения об оценке, такие как тестовый набор данных, тип задачи, запрос, температура и многое другое. Вы также можете просмотреть метрики, связанные с каждым примером данных. Панель мониторинга метрик предоставляет визуальное представление уровня прохождения для набора данных по каждому проверенному метрику.
Осторожность
Пользователи, которые ранее управляли развертываниями моделей и выполняли оценки с помощью, oai.azure.com
а затем подключены к платформе разработчика Azure AI Foundry, имеют эти ограничения при использовании ai.azure.com
:
- Эти пользователи не могут просматривать свои оценки, созданные с помощью API OpenAI Azure. Чтобы просмотреть эти оценки, они должны вернуться в
oai.azure.com
. - Эти пользователи не могут использовать API OpenAI Azure для выполнения вычислений в Azure AI Foundry. Вместо этого они должны продолжать использовать
oai.azure.com
для этой задачи. Однако они могут использовать вычислители Azure OpenAI, доступные непосредственно в Azure AI Foundry (ai.azure.com
) в параметре для создания оценки набора данных. Возможность тонкой настройки оценки модели не поддерживается, если развертывание является миграцией из Azure OpenAI в Azure AI Foundry.
Для сценария загрузки набора данных и использования собственного хранилища существует несколько требований к конфигурации:
- Проверка подлинности учетной записи должна осуществляться через Microsoft Entra ID.
- Хранилище должно быть добавлено в учетную запись. Добавление его в проект приводит к ошибкам службы.
- Пользователи должны добавить свой проект в учетную запись хранения с помощью управления доступом на портале Azure.
Дополнительные сведения о создании оценок с помощью оценщиков OpenAI в хабе Azure OpenAI см. в статье Как использовать Azure OpenAI в оценке моделей Azure AI Foundry.
Панель мониторинга метрик
В разделе панели метрик агрегированные представления разбиваются по метрикам, которые включают качество ИИ (ИИ с поддержкой), риск и безопасность (предварительная версия), качество ИИ (обработка естественного языка) и настраиваемые (если применимо). Результаты оцениваются в процентах успешности/неуспешности на основе критериев, выбранных при создании оценивания. Дополнительные сведения о определениях метрик и их вычислении см. в разделе "Что такое оценщики?".
- Для метрик качества ИИ (поддерживаемого ИИ) результаты агрегируются путем вычисления среднего значения всех оценок для каждой метрики. Если вы вычисляете, используя метрику Groundedness Pro, выходные данные являются двоичными, а агрегированная оценка представляет собой процент прохождения, который вычисляется, используя
(#trues / #instances) × 100
. - Для метрик риска и безопасности (предварительная версия) результаты агрегируются путем вычисления частоты дефектов для каждой метрики.
- Для метрик вреда содержимого частота дефектов определяется как процент экземпляров в тестовом наборе данных, превышающий пороговое значение шкалы серьезности по всему размеру набора данных. По умолчанию пороговое значение равно
Medium
. - Для защищенного материала и косвенной атаки уровень дефектов вычисляется как процент экземпляров, в которых выходные данные удовлетворяются, используя формулу
true
(Defect Rate = (#trues / #instances) × 100)
.
- Для метрик вреда содержимого частота дефектов определяется как процент экземпляров в тестовом наборе данных, превышающий пороговое значение шкалы серьезности по всему размеру набора данных. По умолчанию пороговое значение равно
- Для метрик качества ИИ (NLP) результаты агрегируются, вычисляя среднее значение для всех показателей для каждой метрики.
Подробная таблица результатов метрик
В разделе данных можно провести комплексный анализ каждого отдельного образца данных и связанных метрик. Здесь можно тщательно изучить созданные выходные данные и соответствующую оценку метрики оценки. Вы также можете узнать, прошёл ли он на основе проходного балла во время проведения теста. С помощью этого уровня детализации вы можете принимать решения на основе данных и выполнять конкретные действия для повышения производительности модели.
Некоторые потенциальные элементы действий на основе метрик оценки могут включать:
- Распознавание шаблонов. Отфильтровав числовые значения и метрики, можно детализировать до примеров с более низкими оценками. Изучите эти примеры, чтобы определить повторяющиеся шаблоны или проблемы в ответах модели. Например, вы можете заметить, что низкие оценки часто получаются при генерации содержимого по определенной теме.
- Уточнение модели. Используйте аналитические сведения из примеров с более низкой оценкой, чтобы улучшить инструкцию системного запроса или точно настроить модель. Если вы наблюдаете согласованные проблемы, например, согласованность или релевантность, вы также можете соответствующим образом настроить данные или параметры обучения модели.
- Настройка столбца. Вы можете использовать редактор столбцов для создания настраиваемого представления таблицы, фокусируясь на метриках и данных, наиболее важных для целей оценки. Редактор столбцов может упростить анализ и помочь вам определить тенденции более эффективно.
- Поиск ключевых слов: можно использовать поле поиска для поиска определенных слов или фраз в созданных выходных данных, а также для выявления проблем или шаблонов, связанных с определенными разделами или ключевыми словами. Затем вы можете заняться ими более конкретно.
Таблица сведений о метриках предлагает множество данных, которые могут управлять усилиями по улучшению модели. Вы можете распознать шаблоны, настроить представление для эффективного анализа и уточнить модель на основе определенных проблем.
Ниже приведены некоторые примеры результатов метрик для сценария ответа на вопросы:
Некоторые оценки имеют подоценки, которые позволяют просматривать JSON результатов этих подоценок. Чтобы просмотреть результаты, выберите "Вид" в ФОРМАТЕ JSON.
Просмотрите JSON в предварительном просмотре JSON:
Ниже приведены некоторые примеры результатов метрик для сценария беседы. Чтобы просмотреть результаты оценки для каждого этапа многоэтапной беседы, выберите «Просмотр результатов по этапам» в столбце «Беседа».
При выборе опции Просмотр результатов оценки по ходам вы увидите следующий экран:
Для оценки безопасности в много модальном сценарии (текст и изображения) можно лучше понять результат оценки, просмотрив изображения из входных и выходных данных в подробной таблице результатов метрик. Поскольку мультимодальная оценка в настоящее время поддерживается только для сценариев беседы, вы можете выбрать просмотр результатов оценки для каждого хода, чтобы проверить входные и выходные данные для каждого хода.
Выберите изображение, чтобы развернуть его и просмотреть. По умолчанию все изображения размыты, чтобы защитить вас от потенциально вредного содержимого. Чтобы четко просмотреть изображение, включите переключатель " Проверить размытие изображения ".
Результаты оценки могут иметь разные значения для разных аудиторий. Например, оценки безопасности могут создать метку для низкой серьезности насильственного содержимого, которое может не соответствовать определению рецензента человека о том, насколько сильно это конкретное насильственное содержимое может быть. Установленный при создании оценки проходной балл определяет, присваивается ли оценка «сдал» или «не сдал». Есть столбец обратной связи от пользователя, в котором можно выбрать значок с поднятым или опущенным пальцем при просмотре результатов оценки. Этот столбец можно использовать для записи, какие экземпляры были утверждены или помечены как неверные рецензентом человека.
Чтобы понять каждую метрику риска содержимого, можно просмотреть определения метрик, вернувшись в раздел "Отчет " или просмотрите тест в разделе панели мониторинга метрик .
Если что-то не так с выполнением тестового запуска, вы также можете использовать журналы для его отладки. Ниже приведены некоторые примеры журналов, которые можно использовать для отладки выполнения оценки:
Если вы оцениваете поток подсказок, можно выбрать кнопку "Вид в потоке", чтобы перейти на страницу оценки потока и обновить ваш поток. Например, можно добавить дополнительные инструкции мета-запроса или изменить некоторые параметры и повторно оценить.
Сравнение результатов оценки
Чтобы упростить комплексное сравнение двух или более запусков, можно выбрать нужные запуски и инициировать процесс. Нажмите кнопку "Сравнить " или для общего подробного представления панели мониторинга кнопка "Переключиться на панель мониторинга ". Вы можете анализировать и сравнивать производительность и результаты нескольких итераций, что позволяет принимать более информированные решения и вносить целевые улучшения.
В представлении панели мониторинга у вас есть доступ к двум ценным компонентам: диаграмме сравнения метрик и таблице сравнения. Эти инструменты можно использовать для параллельного анализа выбранных запусков проверки. Вы можете сравнить различные аспекты каждого примера данных с легкостью и точностью.
Замечание
По умолчанию старые запуски оценки имеют соответствующие строки между столбцами. Тем не менее, при создании новых проверок необходимо специально настроить соответствие столбцов. Убедитесь, что одно и то же имя используется в качестве значения имени критерия во всех оценках, которые необходимо сравнить.
На следующем снимке экрана показан опыт работы, когда поля совпадают.
Если пользователь не использует то же имя критерия при создании оценки, поля не совпадают, что приводит к тому, что платформа не сможет напрямую сравнить результаты:
В таблице сравнения вы можете установить базовый уровень для сопоставления, наведя указатель мыши на конкретный запуск, который вы хотите использовать в качестве эталонной точки и установить в качестве базового уровня. Вы также можете активировать переключатель "Показать дельту", чтобы легко визуализировать различия между базовым запуском и другими запусками для числовых значений. Кроме того, можно выбрать переключатель "Показать только разницу ", чтобы таблица отображала только строки, отличающиеся между выбранными запусками, помогая в идентификации различных вариантов.
Используя эти функции сравнения, вы можете принять обоснованное решение, чтобы выбрать лучшую версию:
- Сравнение базовых показателей. Задав базовый запуск, можно определить эталонную точку, с которой можно сравнить другие запуски. Вы можете увидеть, как каждый запуск отклоняется от выбранного стандарта.
- Оценка числовых значений: Включение параметра "Показать разность" помогает понять степень различий между базовым и другими прогонами. Эти сведения помогут оценить, как выполняются различные прогоны с точки зрения конкретных метрик оценки.
- Изоляция различий. Функция "Показать только разницу" упрощает анализ, выделяя только области, в которых существуют несоответствия между запусками. Эта информация может быть важной в том, чтобы определить, где необходимы улучшения или корректировки.
С помощью этих средств сравнения можно определить, какая версия модели или системы лучше всего подходит для определенных критериев и метрик, в конечном счете помогая вам выбрать наиболее оптимальный вариант для вашего приложения.
Измерение уязвимости джейлбрейка
Оценка уязвимости джейлбрейка — это сравнительное измерение, а не метрика, поддерживаемая ИИ. Запустите оценки на двух разных наборах данных с красными командами: базовый набор данных состязательного теста и один и тот же состязательный тестовый набор с внедрением в тюрьму в первую очередь. Вы можете использовать симулятор состязательности данных для создания набора данных с внедрением или без нее. Убедитесь, что значение имени критерия совпадает с каждой метрикой оценки при настройке выполнения.
Чтобы понять, уязвимо ли ваше приложение для взлома («jailbreak»), можно указать исходные показатели, а затем включить переключатель Показатели дефектов jailbreak в таблице сравнения. Частота дефектов при джейлбрейке — это процент случаев в тестовом наборе данных, в которых внедрение джейлбрейка сгенерировало более высокий балл по степени серьезности для любой метрики риска содержимого относительно базового уровня по всему размеру набора данных. Вы можете выбрать несколько оценок на панели мониторинга сравнения, чтобы просмотреть разницу в уровне дефектов.
Подсказка
Частота дефектов в тюрьме сравнительно вычисляется только для наборов данных одного размера и только если все запуски включают риск содержимого и метрики безопасности.
Общие сведения о встроенных метриках оценки
Понимание встроенных метрик жизненно важно для оценки производительности и эффективности приложения ИИ. Получив аналитические сведения об этих ключевых средствах измерения, вы лучше можете интерпретировать результаты, принимать обоснованные решения и настраивать приложение для достижения оптимальных результатов. Дополнительные сведения о следующих аспектах см. в разделе " Метрики оценки и мониторинга ".
- Важность каждой метрики
- Как вычисляется
- Ее роль в оценке различных аспектов модели
- Как интерпретировать результаты для улучшения на основе данных
Связанный контент
Узнайте больше о том, как оценить созданные приложения ИИ:
- Оценка созданных приложений ИИ с помощью портала Azure AI Foundry или ПАКЕТА SDK
- Создание оценок специально с помощью оценки OpenAI в Azure OpenAI Hub
Узнайте больше о методах устранения вреда.