Справочник по встроенным вычислителям

Это важно

Элементы, обозначенные в этой статье как (предварительная версия), сейчас предлагаются в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в разделе Supplemental Terms of Use for Microsoft Azure Previews.

Майкрософт Foundry включает встроенные вычислители для оценки качества, безопасности и надежности ответов ИИ на протяжении всего жизненного цикла разработки. В этом справочнике перечислены все доступные вычислители, их цели и рекомендации по выбору подходящего для вашего варианта использования. Вы также можете создавать пользовательские оценщики, адаптированные к вашим конкретным критериям оценки.

Оценщики общего назначения

Оценщик Цель
Согласованность Измеряет логическую согласованность и поток ответов.
Беглость Измеряет качество естественного языка и удобочитаемость.

Дополнительные сведения см. в разделе "Оценка общего назначения".

Оценщики сходства текстов

Оценщик Цель
Сходство Измерение текстового сходства с помощью искусственного интеллекта.
F1-мера Гармоничный средний коэффициент точности и отзыва в токене перекрывается между ответом и земной правдой.
BLEU Двуязычная оценка BLEU для измерения качества перевода оценивает совпадения n-грамм между ответом и эталонным текстом.
GLEU Google-BLEU вариант для оценки на уровне предложения определяет совпадения в n-граммах между ответом и эталонными данными.
ROUGE Recall-Oriented Замена для оценки Gisting измеряет перекрытия в n-граммах между ответом и эталонными данными.
МЕТЕОР Метрика для оценки перевода с явным упорядочением измеряет пересечение n-грамм между ответом и истинными данными.

Дополнительные сведения см. в разделе оценщики текстового сходства.

Оценщики RAG

Оценщик Цель
Возвращение Измеряет, насколько эффективно система получает соответствующую информацию.
Извлечение документов Измеряет точность в результатах извлечения, учитывая эталонные данные.
Groundedness Измеряет, насколько заземлен ответ находится в полученном контексте. Возвращает оценку от 1 до 5, используя модельное решение.
Groundedness Pro (предварительная версия) Измеряет, находится ли ответ в полученном контексте с помощью службы Безопасность содержимого ИИ Azure. Возвращает двоичный проход или сбой, не требуя развертывания модели.
Актуальность Измеряет, насколько соответствующий ответ соответствует запросу.
Полнота ответа (предварительная версия) Меры в той степени, в какой ответ завершен (не отсутствует критическая информация) по отношению к эталонным данным.

Дополнительные сведения см. в статье о вычислителях расширенного поколения (RAG).

Оценщики рисков и безопасности

Оценщик Цель
Ненависть и несправедливость Определяет предвзятое, дискриминационное или ненавистное содержимое.
Половой Определяет неуместное сексуальное содержимое.
Насилие Обнаруживает насильственное содержимое или подстрекательство.
Самоповредение Обнаруживает содержимое, повышающее или описывающее самоповредение.
Защищенные материалы Обнаруживает несанкционированное использование содержимого, защищенного авторским правом или иным образом защищенного.
Непрямая атака (XPIA) Измеряет, упал ли ответ на непрямую попытку взлома тюрьмы, введенную с помощью полученного контекста.
Уязвимость кода Определяет проблемы безопасности в созданном коде.
Необоснованные атрибуты Обнаруживает вымышленные или галлюцинированные сведения, полученные из взаимодействия с пользователем.
Запрещенные действия (предварительная версия) Измеряет способность агента ИИ участвовать в поведении, которые нарушают явно запрещенные действия.
Утечка конфиденциальных данных (предварительная версия) Измеряет уязвимость агента ИИ к раскрытию конфиденциальной информации.

Дополнительные сведения см. в статье о оценках рисков и безопасности.

Оценщики агентов

Оценщик Цель
Соблюдение задач (предварительная версия) Измеряет, выполняет ли агент задачи, определенные в соответствии с системными инструкциями.
Завершение задачи (предварительная версия) Измеряет, успешно ли агент выполнил запрошенную задачу.
Intent Resolution (предварительная версия) Измеряет, насколько точно агент определяет и решает намерения пользователей.
Эффективность навигации по задачам Определяет, соответствует ли последовательность шагов агента оптимальному или ожидаемому пути для измерения эффективности.
Точность вызова инструмента Измеряет общее качество вызовов инструментов, включая выбор, правильность параметров и эффективность.
Выбор инструмента Измеряет, был ли агентом выбран наиболее подходящие и эффективные инструменты для выполнения задачи.
Точность ввода инструмента Проверяет правильность всех параметров вызова средства со строгими критериями, включая заземление, тип, формат, полноту и соответствие.
Использование выходных данных средства Измеряет, правильно ли агент интерпретирует и использует контекстно выходные данные средства в ответах и последующих вызовах.
Успех вызова инструмента Определяет, успешно ли выполняются все вызовы инструментов без технических сбоев.

Дополнительные сведения смотрите в разделе Оценка агентов.

Azure оценки OpenAI

Оценщик Цель
Метчик моделей Классифицирует содержимое с помощью пользовательских рекомендаций и меток.
Средство проверки строки Выполняет гибкие проверки текста и сопоставление шаблонов.
Сходство текста Оценивает качество текста или определяет семантическую близость.
Средство оценки модели Создает числовые оценки (настраиваемый диапазон) для содержимого на основе пользовательских рекомендаций.

Дополнительные сведения см. в статье Azure OpenAI Graders.

Пользовательские оценщики (предварительная версия)

Помимо встроенных оценщиков, вы можете создавать пользовательские вычислители, адаптированные к конкретным критериям оценки. Пользовательские оценщики позволяют вам определять уникальную логику оценки, правила валидации и метрики качества, которые соответствуют вашим бизнес-требованиям и потребностям конкретного приложения.

Дополнительные сведения см. в разделе "Пользовательские оценщики".

Объединение оценщиков

Для комплексной оценки качества объедините несколько оценщиков:

  • Приложения RAG: поиск + обоснованность + релевантность + безопасность содержимого
  • Приложения агента: точность вызова инструмента + соблюдение задач + разрешение намерений + безопасность содержимого
  • Приложения перевода: BLEU + МЕТЕОР + Беглость + Согласованность
  • Все приложения: добавьте оценщиков рисков и безопасности (ненависть и несправедливость, сексуальное содержание, насилие, самоповреждение) для ответственного использования ИИ