Таблицы лидеров моделей на портале Foundry Microsoft (предварительная версия)

Важно

Элементы, помеченные (предварительная версия) в этой статье, в настоящее время находятся в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или могут иметь ограниченные возможности. Дополнительные сведения см. в разделе Supplemental Terms of Use for Microsoft Azure Previews.

Таблицы лидеров моделей (предварительная версия) на портале Foundry помогают сравнивать модели в каталоге моделей Foundry с использованием эталонных показателей модели в отрасли.

Чтобы приступить к работе, сравните и выберите модели с помощью таблицы лидеров моделей на портале Foundry.

Вы можете ознакомиться с подробной методологией тестирования для каждой категории рейтингов.

Проверка качества языковых моделей, чтобы понять, насколько хорошо модели работают в основных задачах, включая аргументацию, знания, ответы на вопросы, математику и кодирование.
Тестирование безопасности языковых моделей для понимания того, как безопасные модели являются против создания вредного поведения.
Тестирование производительности языковых моделей для понимания того, как модели выполняются с точки зрения задержки и пропускной способности.
Оценка затрат языковых моделей для понимания предполагаемой стоимости использования моделей.
Тестирование языковых моделей на основе рейтингов поможет вам найти лучшую модель для вашей специфической задачи или сценария.
Качество моделей встраивания оценивается, чтобы понять, насколько хорошо модели выполняют задачи, основанные на встраивании, включая поиск и извлечение.

При поиске подходящей модели можно открыть его подробные результаты тестирования в каталоге моделей. Оттуда вы можете развернуть модель, попробовать ее на детской площадке или оценить ее на собственных данных. В таблицах лидеров поддерживаются тестовые показатели для текстовых моделей (включая крупные языковые модели (LLMs) и небольшие языковые модели (SLM)) и модели внедрения.

Тесты моделей оценивают LLMs и SLMs по параметрам качества, безопасности, стоимости и пропускной способности. Модели внедрения оцениваются с помощью стандартных эталонных показателей качества. Таблицы лидеров обновляются по мере того, как становятся доступными новые модели и наборы данных теста.

Область тестирования моделей

В списках лидеров моделей представлен выделенный фрагмент текстовых языковых моделей из каталога моделей Foundry. Модели включаются на основе следующих критериев:

Приоритетные прямые модели Azure: Прямые модели Azure выбираются за их релевантность к распространенным сценариям генеративного искусственного интеллекта.
Применимость основных эталонных показателей: модели должны поддерживать языковые задачи общего назначения, такие как рассуждения, знания, ответы на вопросы, математические рассуждения и кодирование. Специализированные модели (например, свертывания белка или QA для конкретного домена) и другие модальности не поддерживаются.

Это определение гарантирует, что таблицы лидеров отражают текущие, высококачественные модели, относящиеся к основным сценариям искусственного интеллекта.

Интерпретация результатов таблицы лидеров

Таблицы лидеров помогают сравнивать модели в нескольких измерениях, чтобы выбрать подходящую модель для вашего варианта использования. Ниже приведены некоторые рекомендации по интерпретации результатов.

Индекс качества: более высокий индекс качества указывает на более высокую общую производительность при анализе, кодировании, математике и задачах знаний. Сравните индекс качества между моделями, чтобы определить лучших исполнителей для задач языка общего назначения.
Оценки безопасности: более низкие показатели успеха атаки указывают на более надежные модели. Рассмотрим оценки безопасности вместе с оценками качества, особенно для приложений, стоящих перед клиентами, где вредные выходные данные являются значительной проблемой.
Компромиссы с производительностью: используйте метрики задержки и пропускной способности, чтобы понять реальную скорость реагирования модели. Модель с высоким качеством, но высокая задержка может не соответствовать приложениям в режиме реального времени.
Соображения по затратам. Оценочная метрика стоимости использует соотношение токенов три к одному. Настройте ожидания на основе коэффициента ввода и вывода фактической рабочей нагрузки.
Таблицы лидеров сценариев: если вариант использования сопоставляется с конкретным сценарием (например, программированием или математикой), начните с таблицы лидеров сценариев, чтобы найти модели, оптимизированные для этой задачи, а не полагаться исключительно на общий индекс качества.

Совет

Признаковые показатели предоставляют стандартизированные сравнения для моделей, используя общедоступные наборы данных. Чтобы оценить производительность модели в конкретных данных и варианте использования, см. статью "Оценка создаваемых приложений ИИ".

Тесты качества языковых моделей

Foundry оценивает качество LLM и SLM, используя показатели точности из эталонных наборов данных, которые измеряют умение рассуждать, знания, способность отвечать на вопросы, а также математические и программировочные возможности.

Индекс	Описание
Индекс качества	Вычисляется путем усреднения применимых показателей точности (`exact_match`, `pass@1`, ) `arena_hard`в наборах данных теста.

Значения индекса качества варьируются от нуля до одного, где более высокие значения указывают на более высокую производительность. Наборы данных, включенные в индекс качества:

Имя набора данных	Категории
bigbench_hard (субвыборка до 1000 примеров)	Рассуждения
chembench	Химии
frontierscience	Научное обоснование
gpqa	Обеспечение качества
mbppplus	Кодирование
mmlu_pro (сокращённый до 1000 примеров)	Общие знания
musr	Рассуждения
tau2_telecom	Выбор агентичных и инструментальных вызовов

Дополнительные сведения см. в оценках точности:

Метрика Описание

Точность Оценки точности доступны на уровне набора данных и уровней модели. На уровне набора данных оценка — среднее значение метрики точности, вычисленной во всех примерах в наборе данных. Метрика точности используется exact_match во всех случаях, за исключением наборов данных HumanEval и MBPP , использующих pass@1 метрику. Точное совпадение сравнивает текст, созданный моделью, с правильным ответом в соответствии с набором данных и возвращает один, если текст модели точно соответствует ответу, и ноль в противном случае. pass@1 Метрика измеряет долю решений модели, которые проходят набор модульных тестов в задаче генерации кода. На уровне модели оценка точности является средним значением оценок точности на уровне набора данных для каждой модели.

Метрика	Описание
Точность	Оценки точности доступны на уровне набора данных и уровней модели. На уровне набора данных оценка — среднее значение метрики точности, вычисленной во всех примерах в наборе данных. Метрика точности используется `exact_match` во всех случаях, за исключением наборов данных HumanEval и MBPP , использующих `pass@1` метрику. Точное совпадение сравнивает текст, созданный моделью, с правильным ответом в соответствии с набором данных и возвращает один, если текст модели точно соответствует ответу, и ноль в противном случае. `pass@1` Метрика измеряет долю решений модели, которые проходят набор модульных тестов в задаче генерации кода. На уровне модели оценка точности является средним значением оценок точности на уровне набора данных для каждой модели.

Оценки точности варьируются от нуля до одного, где более высокие значения лучше.

Тесты безопасности языковых моделей

Критерии безопасности выбираются через структурированный процесс проверки и валидации, предназначенный для обеспечения релевантности и строгости. Эталон соответствует требованиям для включения, если он устраняет риски с высоким приоритетом. Рейтинги безопасности включают эталоны, которые достаточно надежны, чтобы предоставить значимые сигналы по актуальным темам, связанным с безопасностью. Таблицы лидеров используют HarmBench для обеспечения безопасности модели и организуют таблицы лидеров сценариев следующим образом:

Имя набора данных	Сценарий таблицы лидеров	Метрика	Интерпретация
HarmBench (стандартный)	Стандартное вредное поведение	Частота успешных атак	Более низкие значения означают лучшую надежность от атак, предназначенных для получения стандартного вредного содержимого
HarmBench (контекстуальный)	Контекстно вредное поведение	Частота успешных атак	Более низкие значения означают лучшую надежность от атак, предназначенных для получения контекстно-вредного содержимого
HarmBench (нарушения авторских прав)	Нарушения авторских прав	Частота успешных атак	Более низкие значения указывают на более высокую надежность в отношении нарушений авторских прав
WMDP	Знания в конфиденциальных доменах	Точность	Более высокие значения указывают на большее знание в конфиденциальных доменах
Toxigen	Обнаружение токсичного содержимого	Оценка F1	Более высокие значения указывают на более высокую производительность обнаружения

Обнаружение вредного поведения

Контрольный показатель HarmBench измеряет вредное поведение, используя запросы, предназначенные для получения небезопасных ответов. Она охватывает семь семантических категорий:

Киберкримия и несанкционированное вторжение
Химическое и биологическое оружие или наркотики
Нарушения авторских прав
Дезинформация и преднамеренная дезинформация
Домогательства и издевательства
Незаконные действия
Общий вред

Эти категории группируются в три функциональные области:

Стандартное вредное поведение
Контекстно вредное поведение
Нарушения авторских прав

Каждая функциональная категория представлена в отдельной таблице лидеров для сценариев. В оценке используются прямые запросы от HarmBench (без атак) и вычислители HarmBench для вычисления частоты успешности атак (ASR). Более низкие значения ASR означают более безопасные модели. Стратегии атаки не используются для оценки, и модельное тестирование выполняется с отключенными Foundry Guardrails (ранее фильтры содержимого).

Обнаружение токсичного содержимого

Toxigen — это масштабируемый набор данных для обнаружения состязательной и неявной речи о ненависти. Включает неявно токсичные и безобидные предложения, ссылающиеся на 13 групп меньшинств. Foundry использует аннотированные примеры Toxigen и вычисляет оценки F1 для измерения производительности классификации. Более высокие оценки указывают на более эффективное обнаружение токсичных содержимого. Тестирование выполняется при отключенных Foundry Guardrails (ранее известных как фильтры содержимого).

Знание конфиденциальной области

Эталон Weapons of Mass Destruction Proxy (WMDP) оценивает знания модели в чувствительных областях, включая биобезопасность, кибербезопасность и химическую безопасность. В таблице лидеров используются средние оценки точности в области кибербезопасности, биобезопасности и химической безопасности. Более высокая оценка точности WMDP обозначает больше знаний об опасных возможностях (что означает худшее поведение с точки зрения безопасности). Тестирование модели выполняется с помощью стандартных Foundry Guardrails (ранее фильтров содержимого) по умолчанию. Эти ограничения обнаруживают и блокируют вредоносный контент, связанный с насилием, самоповреждением, сексуальным содержанием, ненавистью и несправедливостью, но не нацелены на категории в кибербезопасности, биобезопасности и химической безопасности.

Ограничения эталонных показателей безопасности

Безопасность — это сложная тема с несколькими измерениями. Ни один тест с открытым исходным кодом не может тестировать или представлять полную безопасность системы во всех сценариях. Кроме того, многие тесты страдают от насыщенности или несоответствия между проектированием тестов и определением рисков. Некоторые тесты также не содержат четкой документации о том, как целевые риски концептуализируются и операционализируются, что затрудняет оценку того, насколько точно результаты отражают нюансы реальных рисков. Эти ограничения могут привести к чрезмерному оценке или недооценке производительности модели в реальных сценариях безопасности.

Тесты производительности языковых моделей

Метрики производительности агрегируются в течение 14 дней с использованием 24 пробных версий в день с двумя запросами на пробную версию, отправляемую через один час. Если не указано иное, следующие параметры по умолчанию применяются как к безсерверным API развертываниям, так и к Azure OpenAI.

Параметр	Значение	Применимо для
Регион	Восточная часть США и восточная часть США2	Развертывания бессерверных API и Azure OpenAI
Лимит скорости токенов в минуту (TPM)	30k (180 запросов в минуту на основе Azure OpenAI) для неиндуктивных задач и 100k для моделей рассуждений N/A (бессерверные развертывания API)	Для моделей OpenAI Azure выбор доступен для пользователей с диапазонами ограничений скорости на основе типа развертывания (бессерверный API, глобальный, глобальный стандарт и т. д.). Для развертываний бессерверных API этот параметр абстрагируется.
Количество запросов	Два запроса в пробной версии за каждый час (24 пробных версий в день)	Развертывания бессерверных API, Azure OpenAI
Количество проб или запусков	14 дней с 24 пробными версиями в день для 336 запусков	Развертывания бессерверных API, Azure OpenAI
Длина запроса и контекста	Средняя длина	Развертывания бессерверных API, Azure OpenAI
Количество обработанных токенов (умеренный)	Коэффициент 80:20 для входных маркеров вывода, то есть 800 входных маркеров до 200 выходных маркеров.	Развертывания бессерверных API, Azure OpenAI
Число одновременных запросов	Один (запросы отправляются последовательно один за другим)	Развертывания бессерверных API, Azure OpenAI
Данные	Искусственный (входные запросы, подготовленные из статического текста)	Развертывания бессерверных API, Azure OpenAI
Тип развертывания	бессерверный API	Применимо только для Azure OpenAI
Стриминг	Истина	Применяется к бессерверным развертываниям API и Azure OpenAI. Для моделей, развернутых с помощью управляемых вычислений, или для конечных точек, если потоковая передача не поддерживается TTFT, представлена как метрика задержки P50.
SKU (артикул)	Standard_NC24ads_A100_v4 (24 ядра, 220 ГБ ОЗУ, 64 ГБ хранилища)	Применимо только для управляемых вычислений (для оценки затрат и метрик производительности)

Производительность LLM и SLM оценивается по следующим метрикам:

Метрика	Описание
Среднее значение задержки	Среднее время в секундах для обработки запроса, вычисленное по нескольким запросам. Запрос отправляется в конечную точку каждый час в течение двух недель, а среднее вычисляется.
Задержка P50	Медианная задержка (50-й процентиль). 50% запросов завершаются в течение этого времени.
Задержка P90	Задержка в 90-м процентиле. 90% запросов завершаются за этот период времени.
Задержка P95	Задержка на 95-м процентиле. 95% запросов завершено в течение этого времени.
Задержка P99	Задержка 99-го процентиля. 99% запросов завершено в течение этого времени.
Пропускная способность GTPS	Созданные маркеры в секунду (GTPS) — это количество выходных маркеров, создаваемых в секунду с момента отправки запроса в конечную точку.
Пропускная способность TTPS	Общее количество токенов в секунду (TTPS) — это число токенов, обрабатываемых в секунду, включая как токены входного запроса, так и созданные выходные токены. Для моделей, которые не поддерживают потоковую передачу, время до первого токена (ttft) представляет значение задержки P50 (время, затраченное на получение ответа).
Задержка TTFT	Общее время до первого токена (TTFT) — это время, необходимое для возвращения первого токена из конечной точки при активированной потоковой передаче.
Время между токенами	Эта метрика — это время между полученными токенами.

Foundry суммирует производительность с помощью:

Метрика	Описание
Задержки	Среднее время до первого токена. Ниже лучше.
Пропускная способность	Средние созданные токены в секунду. Выше лучше.

Для метрик производительности, таких как задержка или пропускная способность, время первого маркера и созданные маркеры в секунду дают лучшее представление о типичной производительности и поведении модели. Номера производительности периодически обновляются, чтобы отразить последние конфигурации развертывания.

Эталоны затрат языковых моделей

Эталонные показатели затрат измеряют фактические расходы на выполнение каждой модели на эталонных наборах данных качества, а не на основе предполагаемых затрат, рассчитанных по ценам на токены.

Затраты на тест вычисляются с помощью следующих вычислений:

Фактическое количество входных, рассуждений и выходных токенов, потребляемых во время выполнения бенчмаркинга.
Конфигурация усилий рассуждений, специфичных для модели, которая используется для оценки (обычно high или xhigh).
Характеристики и сложность набора данных, влияющие на использование маркеров и время выполнения.

В отличие от оценки на основе фиксированного соотношения маркеров, этот подход отражает истинную сквозную стоимость выполнения рабочих нагрузок теста.

Интерпретация результатов затрат

Стоимость сообщается в долларах США за тестовые показатели по стандартным наборам данных качества.
Значения представляют собой реальные затраты на выполнение и обеспечивают прямое сравнение моделей.
Более низкие значения указывают на более экономичную производительность в наборе тестов.

Бенчмаркинг таблицы лидеров сценариев

Таблицы лидеров сценариев группируют наборы данных тестовых эталонов по общим целям оценки в реальном мире. Вы можете быстро определить сильные и слабые стороны модели по варианту использования. Каждый сценарий объединяет один или несколько общедоступных наборов данных теста.

Используйте следующую таблицу, чтобы найти вариант использования в столбце "Сценарий ", а затем просмотреть связанные наборы данных теста и результаты. В следующей таблице перечислены доступные списки лидеров сценариев и связанные с ними наборы данных и описания.

Сценарий	Наборы данных	Описание
Стандартное вредное поведение	HarmBench (стандартный)	Частота успешных атак по стандартным вредоносным запросам. Ниже лучше. См. раздел "Обнаружение вредного поведения".
Контекстно вредное поведение	HarmBench (contextual)	Частота успешных атак на контекстные вредоносные запросы. Ниже лучше. См. раздел "Обнаружение вредного поведения".
Нарушения авторских прав	HarmBench (авторские права)	Частота успешных атак при использовании запросов на нарушение авторских прав. Ниже лучше. См. раздел "Обнаружение вредного поведения".
Знания в конфиденциальных доменах	WMDP (биобезопасность, химическая безопасность, кибербезопасность)	Точность в трех подмножествах конфиденциального домена. Более высокая точность означает больше знаний о конфиденциальных возможностях. См. сведения о конфиденциальном домене.
Обнаружение токсикации	ToxiGen (аннотированный)	Оценка F1 для способности обнаружения токсичного содержимого. Выше лучше. См. обнаружение токсичного содержимого.
Рассуждения	BIG-Bench Hard (1000 подвыборок)	Оценка способности к мышлению. Более высокие значения лучше.
Кодирование	BigCodeBench (инструктирование), LiveBench (кодирование), LiveCodeBench medium MBPPPlus	Измеряет точность задач, связанных с кодом. Более высокие значения лучше.
Общие знания	MMLU-Pro (1K английский подсемпли)	1000-примерная подвыборка только на английском языке MMLU-Pro.
Вопросы и ответы	Arena-Hard, GPQA (алмаз)	Состязательный QA на основе предпочтений человека (Arena-Hard) и многодисциплинарный QA уровня выпускника (бриллиант GPQA). Более высокие значения лучше.
Математика	MATH (500 подвыборка)	Измеряет математические возможности логики языковых моделей. Более высокие значения лучше.
Заземленность	TruthfulQA (MC1)	Оценка обоснованности и правдивости языковых моделей с использованием тестов с несколькими вариантами ответов. Более высокие значения лучше.

Тесты качества внедрения моделей

Индекс качества внедрения моделей определяется как средняя оценка точности комплексного набора бессерверных наборов данных API, предназначенных для получения информации, кластеризации документов и задач суммирования.

Метрика	Описание
Точность	Точность — это доля правильных прогнозов среди общего числа обработанных прогнозов.
Оценка F1	F1 Score — это весовое значение точности и отзыва, где лучшее значение — одно (идеальная точность и отзыв), а худшее — ноль.
Средняя точность (MAP)	MAP оценивает качество систем ранжирования и рекомендаций. Он измеряет как релевантность предлагаемых элементов, так и то, насколько хороша система при размещении более релевантных элементов в верхней части. Значения могут варьироваться от нуля до одного, и чем выше MAP, тем лучше система может размещать соответствующие элементы в списке.
Нормализованный совокупный прирост с скидкой (NDCG)	NDCG оценивает способность алгоритма машинного обучения сортировать элементы на основе релевантности. Он сравнивает ранжирование с идеальным порядком, где все соответствующие элементы находятся в верхней части списка, где k является длиной списка при оценке качества ранжирования. В этих тестах k=10, обозначаемый метрикой `ndcg_at_10`, что означает, что первые 10 элементов оцениваются.
Точность	Точность измеряет способность модели правильно определять экземпляры определенного класса. Точность показывает, как часто модель машинного обучения правильна при прогнозировании целевого класса.
Корреляция Spearman	Корреляция Spearman на основе сходства косинуса вычисляется сначала путем вычисления сходства косинуса между переменными, а затем ранжирования этих показателей и использования рангов для вычисления корреляции Spearman.
Мера V	Мера V — это метрика, используемая для оценки качества кластеризации. Мера V вычисляется как гармоническое значение однородности и полноты, обеспечивая баланс между двумя для значимой оценки. Возможные оценки лежат между нулем и одним, где один означает идеальное завершение маркировки.

Вычисление показателей

Отдельные оценки

Результаты теста происходят из общедоступных наборов данных, которые обычно используются для оценки языковой модели. В большинстве случаев данные размещаются в GitHub репозиториях, поддерживаемых создателями или кураторами данных. Конвейеры оценки данных загружают информацию из исходных источников, извлекают подсказки из каждой строки, создают ответы модели, а затем вычисляют соответствующие метрики точности.

Создание запросов соответствует лучшим практикам для каждого набора данных, как указано в документе, представляющем набор данных, и отраслевым стандартам. В большинстве случаев каждый запрос содержит несколько шотов, то есть несколько примеров полных вопросов и ответов, чтобы подготовить модель к выполнению задачи. Количество снимков зависит от набора данных и соответствует методологии, указанной в исходной публикации каждого набора данных. Конвейеры оценки создают снимки путем выборки вопросов и ответов из части данных, предназначенных для исключения из оценки.

Ограничения бенчмарка

Все тесты имеют встроенные ограничения, которые следует учитывать при интерпретации результатов:

Тесты качества. Тестовые наборы данных могут быть насыщенными с течением времени, так как модели обучены или настроены на аналогичные данные. Результаты оценки также могут отличаться в зависимости от построения подсказки и количества использованных примеров few-shot.
Тесты производительности: Метрики собираются с помощью синтетических рабочих нагрузок с фиксированным соотношением между маркерами ввода и вывода и развертываниями в одном регионе. Производительность реального мира может отличаться в зависимости от шаблонов рабочих нагрузок, параллелизма, региона и конфигурации развертывания.
Эталонные показатели стоимости: оценки стоимости основаны на соотношении входных и выходных токенов три к одному и текущих ценах на момент измерения. Фактические затраты зависят от рабочей нагрузки и подвергаются изменениям цен.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-03-19