Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Это важно
Элементы, обозначенные в этой статье как (предварительная версия), сейчас предлагаются в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в разделе Supplemental Terms of Use for Microsoft Azure Previews.
Майкрософт Foundry включает встроенные вычислители для оценки качества, безопасности и надежности ответов ИИ на протяжении всего жизненного цикла разработки. В этом справочнике перечислены все доступные вычислители, их цели и рекомендации по выбору подходящего для вашего варианта использования. Вы также можете создавать пользовательские оценщики, адаптированные к вашим конкретным критериям оценки.
Оценщики общего назначения
| Оценщик | Цель |
|---|---|
| Согласованность | Измеряет логическую согласованность и поток ответов. |
| Беглость | Измеряет качество естественного языка и удобочитаемость. |
Дополнительные сведения см. в разделе "Оценка общего назначения".
Оценщики сходства текстов
| Оценщик | Цель |
|---|---|
| Сходство | Измерение текстового сходства с помощью искусственного интеллекта. |
| F1-мера | Гармоничный средний коэффициент точности и отзыва в токене перекрывается между ответом и земной правдой. |
| BLEU | Двуязычная оценка BLEU для измерения качества перевода оценивает совпадения n-грамм между ответом и эталонным текстом. |
| GLEU | Google-BLEU вариант для оценки на уровне предложения определяет совпадения в n-граммах между ответом и эталонными данными. |
| ROUGE | Recall-Oriented Замена для оценки Gisting измеряет перекрытия в n-граммах между ответом и эталонными данными. |
| МЕТЕОР | Метрика для оценки перевода с явным упорядочением измеряет пересечение n-грамм между ответом и истинными данными. |
Дополнительные сведения см. в разделе оценщики текстового сходства.
Оценщики RAG
| Оценщик | Цель |
|---|---|
| Возвращение | Измеряет, насколько эффективно система получает соответствующую информацию. |
| Извлечение документов | Измеряет точность в результатах извлечения, учитывая эталонные данные. |
| Groundedness | Измеряет, насколько заземлен ответ находится в полученном контексте. Возвращает оценку от 1 до 5, используя модельное решение. |
| Groundedness Pro (предварительная версия) | Измеряет, находится ли ответ в полученном контексте с помощью службы Безопасность содержимого ИИ Azure. Возвращает двоичный проход или сбой, не требуя развертывания модели. |
| Актуальность | Измеряет, насколько соответствующий ответ соответствует запросу. |
| Полнота ответа (предварительная версия) | Меры в той степени, в какой ответ завершен (не отсутствует критическая информация) по отношению к эталонным данным. |
Дополнительные сведения см. в статье о вычислителях расширенного поколения (RAG).
Оценщики рисков и безопасности
| Оценщик | Цель |
|---|---|
| Ненависть и несправедливость | Определяет предвзятое, дискриминационное или ненавистное содержимое. |
| Половой | Определяет неуместное сексуальное содержимое. |
| Насилие | Обнаруживает насильственное содержимое или подстрекательство. |
| Самоповредение | Обнаруживает содержимое, повышающее или описывающее самоповредение. |
| Защищенные материалы | Обнаруживает несанкционированное использование содержимого, защищенного авторским правом или иным образом защищенного. |
| Непрямая атака (XPIA) | Измеряет, упал ли ответ на непрямую попытку взлома тюрьмы, введенную с помощью полученного контекста. |
| Уязвимость кода | Определяет проблемы безопасности в созданном коде. |
| Необоснованные атрибуты | Обнаруживает вымышленные или галлюцинированные сведения, полученные из взаимодействия с пользователем. |
| Запрещенные действия (предварительная версия) | Измеряет способность агента ИИ участвовать в поведении, которые нарушают явно запрещенные действия. |
| Утечка конфиденциальных данных (предварительная версия) | Измеряет уязвимость агента ИИ к раскрытию конфиденциальной информации. |
Дополнительные сведения см. в статье о оценках рисков и безопасности.
Оценщики агентов
| Оценщик | Цель |
|---|---|
| Соблюдение задач (предварительная версия) | Измеряет, выполняет ли агент задачи, определенные в соответствии с системными инструкциями. |
| Завершение задачи (предварительная версия) | Измеряет, успешно ли агент выполнил запрошенную задачу. |
| Intent Resolution (предварительная версия) | Измеряет, насколько точно агент определяет и решает намерения пользователей. |
| Эффективность навигации по задачам | Определяет, соответствует ли последовательность шагов агента оптимальному или ожидаемому пути для измерения эффективности. |
| Точность вызова инструмента | Измеряет общее качество вызовов инструментов, включая выбор, правильность параметров и эффективность. |
| Выбор инструмента | Измеряет, был ли агентом выбран наиболее подходящие и эффективные инструменты для выполнения задачи. |
| Точность ввода инструмента | Проверяет правильность всех параметров вызова средства со строгими критериями, включая заземление, тип, формат, полноту и соответствие. |
| Использование выходных данных средства | Измеряет, правильно ли агент интерпретирует и использует контекстно выходные данные средства в ответах и последующих вызовах. |
| Успех вызова инструмента | Определяет, успешно ли выполняются все вызовы инструментов без технических сбоев. |
Дополнительные сведения смотрите в разделе Оценка агентов.
Azure оценки OpenAI
| Оценщик | Цель |
|---|---|
| Метчик моделей | Классифицирует содержимое с помощью пользовательских рекомендаций и меток. |
| Средство проверки строки | Выполняет гибкие проверки текста и сопоставление шаблонов. |
| Сходство текста | Оценивает качество текста или определяет семантическую близость. |
| Средство оценки модели | Создает числовые оценки (настраиваемый диапазон) для содержимого на основе пользовательских рекомендаций. |
Дополнительные сведения см. в статье Azure OpenAI Graders.
Пользовательские оценщики (предварительная версия)
Помимо встроенных оценщиков, вы можете создавать пользовательские вычислители, адаптированные к конкретным критериям оценки. Пользовательские оценщики позволяют вам определять уникальную логику оценки, правила валидации и метрики качества, которые соответствуют вашим бизнес-требованиям и потребностям конкретного приложения.
Дополнительные сведения см. в разделе "Пользовательские оценщики".
Объединение оценщиков
Для комплексной оценки качества объедините несколько оценщиков:
- Приложения RAG: поиск + обоснованность + релевантность + безопасность содержимого
- Приложения агента: точность вызова инструмента + соблюдение задач + разрешение намерений + безопасность содержимого
- Приложения перевода: BLEU + МЕТЕОР + Беглость + Согласованность
- Все приложения: добавьте оценщиков рисков и безопасности (ненависть и несправедливость, сексуальное содержание, насилие, самоповреждение) для ответственного использования ИИ
Связанный контент
- Наблюдаемость в генеративном ИИ
- Вычислители общего назначения
- Средство оценки сходства текста
- Оцениватели Retrieval-augmented Generation (RAG)
- Вычислители рисков и безопасности
- Оценщики агентов
- Azure OpenAI Graders
- Пользовательские оценщики
- Оценка созданных приложений искусственного интеллекта в Foundry