Выбор моделей с помощью бенчмарков
Tip
Дополнительные сведения см. на вкладке "Текст и изображения ".
Перед развертыванием модели необходимо понять, как она выполняется в разных измерениях. Тесты моделей предоставляют целевые, измеримые данные для сравнения моделей и принятия обоснованных решений по выбору. Портал Microsoft Foundry предлагает комплексные средства тестирования, организованные в области качества, безопасности, затрат и показателей производительности.
бенчмарки модели Access
Вы можете просматривать тесты двумя способами на портале Microsoft Foundry:
В каталоге моделей просмотрите список лидеров модели , чтобы просмотреть относительные рейтинги для всех доступных моделей. Это представление помогает определить наиболее высокопроизводительные модели для конкретных метрик или сценариев. В таблице лидеров отображаются лучшие модели, ранжированные по качеству, безопасности, предполагаемой стоимости и пропускной способности.
Чтобы получить подробные тесты для конкретной модели, откройте карточку модели и перейдите на вкладку "Тесты". В этом представлении показано, как отдельная модель выполняется по различным метрикам и наборам данных, при этом диаграммы сравнения размещают ее относительно аналогичных моделей.
Тесты качества
Тесты качества оценивают, насколько хорошо модель создает точные, последовательные и контекстно соответствующие ответы. Эти метрики используют общедоступные наборы данных и стандартизированные методы оценки для обеспечения согласованности.
Индекс "Качество" предоставляет общий обзор с помощью средней оценки точности в нескольких наборах данных теста, которые измеряют причины, знания, ответы на вопросы, математические возможности и навыки кодирования. Более высокие значения индекса качества указывают на более высокую общую производительность в задачах языка общего назначения.
Тесты качества используют такие наборы данных, как:
- Arena-Hard - конкурентная система вопросно-ответов
- BIG-Bench Сложное — способности рассуждения
- GPQA - вопросы многодисциплинарного уровня магистратуры или аспирантуры
- HumanEval+ и MBPP+ — задачи создания кода
- MATH - математическое обоснование
- MMLU-Pro — общая оценка знаний
- IFEval — инструкция ниже
Оценки тестовых показателей нормализованы от нуля до одного, где более высокие значения указывают на более высокую производительность.
Тесты безопасности
Метрики безопасности гарантируют, что модели не создают вредное, предвзятое или неуместное содержимое. Эти тесты важны для приложений, предоставляемых конечным пользователям, особенно в регулируемых отраслях или сценариях, с которыми сталкиваются клиенты.
Microsoft Foundry оценивает модели в нескольких измерениях безопасности:
Обнаружение вредного поведения использует тест HarmBench для измерения того, насколько хорошо модели сопротивляются созданию небезопасного содержимого. Оценка вычисляет частоту успешности атак (ASR), где более низкие значения указывают на более безопасные, более надежные модели. HarmBench проверяет три функциональные области:
- Стандартное вредное поведение — киберкримия, незаконные действия, общий вред
- Контекстно вредное поведение - дезинформация, домогательства, травля
- Нарушения авторских прав — воспроизведение охраняемого авторским правом материала
Обнаружение токсичного содержимого использует набор данных ToxiGen для измерения того, насколько хорошо модели определяют враждебные и неявные слова ненависти. Более высокие значения F1 указывают на лучшую эффективность обнаружения в упоминаниях о группах меньшинств.
Чувствительное знание домена использует эталон WMDP (Прокси оружия массового уничтожения) для измерения знания модели в области биобезопасности, кибербезопасности и химической безопасности. Более высокие оценки WMDP указывают на больше знаний о потенциально опасных возможностях.
Оценки безопасности помогают понять надежность модели, особенно важной для клиентских приложений, где вредные выходные данные представляют значительные проблемы.
Эталонные показатели стоимости
Понимание финансового влияния использования модели помогает сбалансировать требования к качеству с ограничениями бюджета. Критерии затрат в Microsoft Foundry показывают цены на бессерверные развертывания API и модели Azure OpenAI.
Стоимость за входные маркеры показывает цену на обработку 1 миллиона входных маркеров (текст, отправляемый в модель).
Затраты на выходные маркеры указывают цену на создание 1 миллиона выходных маркеров (текст, создаваемый моделью).
Предполагаемые затраты объединяют затраты на входные и выходные данные с использованием типичного соотношения 3:1 (три входных маркера для каждого выходного маркера), что дает вам одно число для сравнения. Более низкие значения указывают на более экономичные модели.
Тесты затрат помогают определить модели, которые обеспечивают качество, необходимое в ценовой точке, которая соответствует шаблонам использования приложения и бюджету.
Тесты производительности
Метрики производительности измеряют, как быстро и эффективно модели реагируют на запросы. Эти тесты имеют значение для приложений в режиме реального времени, где взаимодействие с пользователем зависит от скорости реагирования.
К измерениям задержки относятся:
- Среднее значение задержки — среднее время в секундах для обработки запроса
- Задержка P50 (медиана) — 50% запросов выполняются быстрее, чем в этот раз
- Задержка P90 – 90% запросов завершается быстрее, чем это время
- P95 задержка — 95% запросов выполняется быстрее этого времени
- Задержка P99 – 99% запросов завершается быстрее, чем в этот раз
- Время до первого маркера (TTFT) — время до тех пор, пока не будет доставлен первый маркер при использовании потоковой передачи.
К измерениям пропускной способности относятся:
- Созданные токены в секунду (GTPS) — количество токенов, созданных в секунду
- Общий объем маркеров в секунду (TTPS) — объединенные входные и выходные маркеры, обработанные в секунду
- Время между маркерами — интервал между получением последовательных маркеров
В таблице лидеров приводится сводка производительности с использованием среднего времени до первого токена (ниже лучше) и среднего количества сгенерированных токенов в секунду (выше лучше). Модели с высокой пропускной способностью, низкой задержкой обеспечивают лучшие возможности пользователей в интерактивных приложениях. Для заданий пакетной обработки, где скорость меньше затрат, можно определить приоритеты других факторов.
Использование списков лидеров и функций сравнения
В таблице лидеров модели можно просматривать топ-модели для конкретных метрик. Вы можете сортировать по качеству, безопасности, предполагаемой стоимости и пропускной способности, чтобы определить модели, которые лучше всего соответствуют вашим требованиям.
Таблицы лидеров по сценариям помогают найти модели, оптимизированные для конкретных вариантов использования, таких как обоснование, программирование, математика, ответы на вопросы или фактическая обоснованность. Если приложение сопоставляется с определенным сценарием, начните с соответствующего списка лидеров сценариев, а не полагаться исключительно на общий индекс качества.
Диаграммы с компромиссом одновременно отображают две метрики, такие как качество и стоимость или качество, а также пропускная способность. Эти визуализации помогают найти оптимальный баланс для ваших требований. Используйте раскрывающийся список, чтобы сравнить качество с затратами, пропускной способностью или безопасностью. Модели ближе к правому верхнему углу диаграммы хорошо работают на обоих метриках. Модель, которая немного менее точная, но значительно быстрее и дешевле, может лучше соответствовать вашим нуждам.
Параллельное сравнение позволяет выбрать две или три модели из таблицы лидеров и сравнить их между несколькими измерениями:
- Тесты производительности (качество, безопасность, пропускная способность)
- Сведения о модели (контекстное окно, данные обучения, поддерживаемые языки)
- Поддерживаемые конечные точки (параметры развертывания)
- Поддержка функций (вызов функции, структурированные выходные данные, визуальное представление)
Выберите модели, установив флажки рядом с именами, а затем нажмите кнопку "Сравнить ", чтобы открыть подробное представление сравнения.