Поделиться через


Отправка пакетного запуска и оценка потока

Чтобы оценить, насколько хорошо выполняется поток с большим набором данных, можно отправить пакетный запуск и использовать встроенные методы оценки в потоке запросов.

Из этой статьи вы узнаете:

  • Отправка пакетного запуска и использование встроенного метода оценки
  • Просмотр результатов оценки и метрик
  • Запуск нового раунда оценки
  • Проверка журнала выполнения пакетной службы и сравнение метрик
  • Общие сведения о встроенных метриках оценки
  • Способы повышения производительности потока
  • Дополнительные сведения: руководство по созданию золотых наборов данных, используемых для обеспечения качества Copilot

Вы можете быстро приступить к тестированию и оценке потока, выполнив этот видеоролик , отправьте пакетное выполнение и оцените учебник по видеопотоку.

Необходимые компоненты

Чтобы запустить пакетный запуск и использовать метод оценки, необходимо подготовить следующее:

Отправка пакетного запуска и использование встроенного метода оценки

Пакетный запуск позволяет запускать поток с большим набором данных и создавать выходные данные для каждой строки данных. Вы также можете выбрать метод оценки для сравнения выходных данных потока с определенными критериями и целями. Метод оценки — это специальный тип потока , который вычисляет метрики для выходных данных потока на основе различных аспектов. Выполнение оценки выполняется для вычисления метрик при отправке с помощью пакетного запуска.

Чтобы запустить пакетный запуск с помощью оценки, можно нажать кнопку "Оценить" в правом верхнем углу страницы потока.

Снимок экрана: веб-классификация с выделенным пакетным запуском.

Чтобы отправить пакетный запуск, можно выбрать набор данных для тестирования потока. Вы также можете выбрать метод оценки, чтобы вычислить метрики для выходных данных потока. Если вы не хотите использовать метод оценки, можно пропустить этот шаг и запустить пакетный запуск без вычисления метрик. Вы также можете начать новый раунд оценки позже.

Во-первых, вам будет предложено предоставить пакетному запуску описательное и распознаваемое имя. Вы также можете написать описание и добавить теги (пары "ключ-значение") в пакетный запуск. После завершения настройки нажмите кнопку "Далее" , чтобы продолжить.

Снимок экрана: параметры пакетного запуска, в которых указывается имя и описание запуска.

Во-вторых, необходимо выбрать или отправить набор данных, с которым вы хотите протестировать поток. Поток запросов также поддерживает сопоставление входных данных потока с определенным столбцом данных в наборе данных. Это означает, что столбец можно назначить определенному входу. Столбец можно назначить входным данным, ссылаясь на ${data.XXX} формат. Если вы хотите назначить константное значение входным данным, можно напрямую ввести это значение.

Снимок экрана: параметры пакетного запуска, в которых выбран тестовый набор данных.

Затем на следующем шаге можно решить использовать метод оценки для проверки производительности этого запуска немедленно или более поздней версии. Для завершенного пакетного выполнения можно добавить новый раунд оценки.

Вы можете напрямую нажать кнопку "Далее" , чтобы пропустить этот шаг и запустить пакетный запуск без использования метода оценки для вычисления метрик. Таким образом, этот пакетный запуск создает только выходные данные для набора данных. Вы можете проверка выходные данные вручную или экспортировать их для дальнейшего анализа с другими методами.

В противном случае, если вы хотите выполнить пакетное выполнение с помощью оценки, можно выбрать один или несколько методов оценки на основе предоставленного описания. Нажмите кнопку "Подробнее", чтобы просмотреть дополнительные сведения о методе оценки, например метрики, которые он создает, и подключения и необходимые входные данные.

Снимок экрана: параметры оценки, где можно выбрать встроенный метод оценки.

Перейдите к следующему шагу и настройте параметры оценки. В разделе "Сопоставление входных данных оценки" необходимо указать источники входных данных, необходимых для метода оценки. Например, столбец правды земли может поступать из набора данных. По умолчанию оценка использует тот же набор данных, что и тестовый набор данных, предоставленный для тестового запуска. Однако если соответствующие метки или целевые значения правды находятся в другом наборе данных, можно легко переключиться на этот.

Поэтому для выполнения оценки необходимо указать источники этих необходимых входных данных. Для этого при отправке оценки отображается раздел "Сопоставление входных данных оценки".

  • Если источник данных получен из выходных данных запуска, источник указывается как ${run.output.[ OutputName]}"
  • Если источник данных находится из тестового набора данных, источник указывается как ${data.[ ColumnName]}"

Снимок экрана: сопоставление входных данных оценки.

Примечание.

Если оценка не требует данных из набора данных, вам не нужно ссылаться на столбцы набора данных в разделе сопоставления входных данных, указывая, что выбор набора данных является необязательной конфигурацией. Выбор набора данных не влияет на результат оценки.

Если метод оценки использует большие языковые модели (LLM) для измерения производительности ответа потока, необходимо также задать подключения для узлов LLM в методах оценки.

Снимок экрана: подключение, в котором можно настроить подключение для метода оценки.

Примечание.

Для выполнения некоторых методов оценки требуется GPT-4 или GPT-3. Перед их использованием необходимо указать допустимые подключения для этих методов оценки. Некоторые процессы оценки могут занять много токенов, поэтому рекомендуется использовать модель, которая может поддерживать >токены =16k.

После завершения сопоставления входных данных нажмите кнопку "Далее" , чтобы просмотреть параметры и нажмите кнопку "Отправить" , чтобы запустить пакетный запуск с оценкой.

Примечание.

Пакетные запуски имеют максимальную длительность 10 часов. Если пакетный запуск превышает это ограничение, он будет завершен и помечен как неудачный. Мы советуем отслеживать емкость большой языковой модели (LLM), чтобы избежать регулирования. При необходимости рассмотрите возможность уменьшения размера данных. Если вы продолжаете сталкиваться с проблемами или нуждаетесь в дополнительной помощи, не стесняйтесь обращаться к нашей группе продуктов через форму обратной связи или запрос на поддержку.

Просмотр результатов оценки и метрик

После отправки можно найти отправленную пакетную команду на вкладке списка выполнения на странице потока запроса.

Снимок экрана: страница списка выполнения потока запросов, на которой вы найдете пакетные запуски.

Выберите запуск, чтобы перейти на страницу результатов выполнения, чтобы проверка результаты выполнения этого пакета.

Выходные данные

Базовый результат и трассировка

Сначала вы будете направлять вас на вкладку "Выходные данные", чтобы просмотреть входные и выходные данные по строкам. На странице вкладки вывода отображается список результатов, включая идентификатор строки, входные данные, выходные данные, состояние, системные метрики и время создания.

Для каждой строки выбор трассировки представления позволяет наблюдать и отлаживать конкретный тестовый случай на его подробной странице трассировки.

Снимок экрана: страница результатов пакетного выполнения на вкладке выходных данных, где проверка выходные данные пакетного запуска.

 Снимок экрана: кнопка вывода представления в двух расположениях.

Добавление результата оценки и трассировки

При выборе выходных данных оценки "Добавить" можно выбрать связанные запуски оценки, а в конце таблицы отображаются добавленные столбцы, показывающие результат оценки для каждой строки данных. Для сравнения можно добавить несколько выходных данных оценки.

Снимок экрана: выходные данные пакетного выполнения для добавления выходных данных оценки.

Последние метрики оценки отображаются на левой панели обзора .

Основные сведения

В правой части обзора представлены общие сведения о выполнении, такие как количество выполнения для каждой точки данных, общее количество маркеров и длительность выполнения.

Последние статистические метрики запуска оценки отображаются здесь по умолчанию, чтобы перейти к просмотру самого запуска оценки.

Снимок экрана: общие сведения о пакетном запуске на странице выходных данных.

Обзор можно развернуть и свернуть здесь, и вы можете выбрать "Просмотреть полную информацию", которая будет направлять вас на вкладку "Обзор" рядом с вкладкой "Вывод", где содержатся более подробные сведения об этом запуске.

Запуск нового раунда оценки

Если вы уже завершили пакетное выполнение, можно запустить еще один раунд оценки, чтобы отправить новый запуск оценки, чтобы вычислить метрики для выходных данных без повторного запуска потока. Это полезно и может сэкономить затраты для повторного запуска потока, когда:

  • Вы не выбрали метод оценки, чтобы вычислить метрики при отправке пакетного запуска и решить сделать это сейчас.
  • Вы уже использовали метод оценки для вычисления метрики. Вы можете начать еще один раунд оценки, чтобы вычислить другую метрику.
  • Сбой выполнения оценки, но поток успешно создал выходные данные. Вы можете снова отправить оценку.

Вы можете выбрать "Оценить" , чтобы начать другой раунд оценки.

Снимок экрана: страница выходных данных пакетного запуска, на которой начинается новый раунд оценки.

После настройки конфигурации можно выбрать "Отправить" для этого нового раунда оценки. После отправки вы сможете увидеть новую запись в списке выполнения потока запроса. После завершения выполнения оценки можно проверка результат оценки на вкладке "Выходные данные" панели сведений о пакетном запуске. Чтобы просмотреть результат, необходимо выбрать новый запуск оценки.

Чтобы узнать больше о метриках, вычисляемых встроенными методами оценки, перейдите к встроенным метрикам оценки.

Обзор

На вкладке "Обзор" отображаются подробные сведения о выполнении, включая свойства выполнения, входной набор данных, выходной набор данных, теги и описание.

Журналы

Выбор вкладки "Журналы" позволяет просматривать журналы выполнения, которые могут быть полезны для подробной отладки ошибок выполнения. Файлы журнала можно скачать на локальный компьютер.

Снимок

На вкладке "Моментальный снимок" отображается моментальный снимок запуска. Вы можете просмотреть DAG потока. Кроме того, вы можете клонировать его для создания нового потока. Вы также можете развернуть его как конечную точку в сети.

Снимок экрана: моментальный снимок пакетного запуска.

Проверка журнала выполнения пакетной службы и сравнение метрик

В некоторых сценариях вы изменяете поток, чтобы повысить его производительность. Вы можете отправить несколько пакетов, чтобы сравнить производительность потока с разными версиями. Вы также можете сравнить метрики, вычисляемые различными методами оценки, чтобы увидеть, какой из них подходит для вашего потока.

Чтобы проверка журнал выполнения пакета потока, нажмите кнопку "Просмотреть пакетный запуск" в правом верхнем углу страницы потока. Вы увидите список пакетных запусков, отправленных для этого потока.

Снимок экрана: веб-классификация с выбранной кнопкой массового запуска представления.

Вы можете выбрать каждый пакетный запуск, чтобы проверка подробных сведений. Можно также выбрать несколько пакетных запусков и выбрать "Визуализировать выходные данные" , чтобы сравнить метрики и выходные данные этого пакета.

Снимок экрана: выполнение пакетной службы с журналом.

На панели "Визуализировать выходные данные" в таблице "Запуски и метрики" отображаются сведения о выбранных запусках с выделением. Другие запуски, которые принимают выходные данные выбранных запусков в качестве входных данных, также перечислены.

В таблице "Выходные данные" можно сравнить выбранный пакет, выполняемый по каждой строке примера. Выбрав значок визуализации глаза в таблице "Запуски и метрики", выходные данные этого запуска будут добавлены в соответствующий базовый запуск.

Снимок экрана: сравнение метрик нескольких пакетных запусков.

Общие сведения о встроенных метриках оценки

В потоке запросов мы предоставляем несколько встроенных методов оценки, которые помогут оценить производительность выходных данных потока. Каждый метод оценки вычисляет различные метрики. Теперь мы предоставляем девять встроенных методов оценки. Вы можете проверка следующую таблицу для краткой справки:

Метод оценки Показатели Description обязательный Подключение ion Обязательные входные данные Значение оценки
Оценка точности классификации Правильность Измеряет производительность системы классификации, сравнивая выходные данные с правдой. No прогнозирование, земная правда в диапазоне [0, 1].
Оценка релевантности QnA по парной оценке Оценка, победа и потеря Оценивает качество ответов, созданных системой ответов на вопросы. Он включает назначение показателей релевантности каждому ответу на основе того, насколько хорошо он соответствует пользовательскому вопросу, сравнивая различные ответы на базовый ответ, и агрегирование результатов для получения метрик, таких как средние показатели выигрыша и оценки релевантности. Да вопрос, ответ (нет оснований или контекста) Оценка: 0-100, победа/проигрыш: 1/0
Оценка заземления QnA Заземленность Измеряет, насколько прогнозируемые ответы модели находятся в источнике входных данных. Даже если ответы LLM являются истинными, если не проверяются по источнику, то не является необоснованным. Да вопрос, ответ, контекст (без правды) От 1 до 5, с 1 быть худшим и 5 быть лучшим.
Оценка сходства GPT QnA Сходство GPT Измеряет сходство между ответами на истину, предоставленными пользователем, и прогнозируемой моделью с помощью модели GPT. Да вопрос, ответ, земная истина (контекст не нужен) От 1 до 5, с 1 быть худшим и 5 быть лучшим.
Оценка релевантности QnA С сортировкой по релевантности Измеряет, насколько релевантны прогнозируемые ответы модели, относятся к заданным вопросам. Да вопрос, ответ, контекст (без правды) От 1 до 5, с 1 быть худшим и 5 быть лучшим.
Оценка согласованности QnA Согласованность Измеряет качество всех предложений в прогнозируемом ответе модели и как они соответствуют естественно. Да вопрос, ответ (нет оснований или контекста) От 1 до 5, с 1 быть худшим и 5 быть лучшим.
Оценка fluency QnA Беглости Измеряет, как грамматически и лингвистически исправить прогнозируемый ответ модели. Да вопрос, ответ (нет оснований или контекста) 1 до 5, с 1 быть худшим и 5 быть лучшим
Оценка показателей QnA f1 Оценка F1 Измеряет соотношение количества общих слов между прогнозом модели и правдой земли. No вопрос, ответ, земная истина (контекст не нужен) в диапазоне [0, 1].
Оценка сходства QnA Ada Сходство Ada Вычисляет внедрения на уровне предложения (документ) с помощью API внедрения Ada внедрения для как земной истины, так и прогнозирования. Затем вычисляет сходство косинуса между ними (одно число с плавающей запятой) Да вопрос, ответ, земная истина (контекст не нужен) в диапазоне [0, 1].

Способы повышения производительности потока

После проверка встроенных метрик из оценки можно попытаться улучшить производительность потока, выполнив следующие действия.

  • Проверьте выходные данные для отладки любого потенциального сбоя потока.
  • Измените поток, чтобы повысить производительность. Это включает в себя, но не ограничивается следующими:
    • Изменение запроса
    • Изменение системного сообщения
    • Изменение параметров потока
    • Изменение логики потока

Создание запроса может быть сложной задачей. Мы предоставляем введение, чтобы помочь вам узнать о концепции создания запроса, который может достичь вашей цели. Узнайте больше о том, как создать запрос, который может достичь цели.

Системное сообщение, иногда называемое метапроимптом или системным запросом , которое можно использовать для управления поведением системы ИИ и повышения производительности системы. Ознакомьтесь с этим документом в системной платформе сообщений и рекомендациях по шаблонам для крупных языковых моделей (LLMs), чтобы узнать, как повысить производительность потока с помощью системного сообщения.

Дополнительные сведения: руководство по созданию золотых наборов данных, используемых для обеспечения качества Copilot

Создание copilot, использующего крупные языковые модели (LLM), обычно включает приземление модели в реальности с помощью исходных наборов данных. Тем не менее, чтобы обеспечить наиболее точные и полезные ответы на запросы клиентов, необходим "золотой набор данных".

Золотой набор данных — это коллекция реалистичных вопросов клиентов и экспертно созданных ответов. Он служит средством проверки качества для LLM, используемых вашим copilot. Золотые наборы данных не используются для обучения LLM или внедрения контекста в запрос LLM. Вместо этого они используются для оценки качества ответов, созданных LLM.

Если ваш сценарий включает в себя copilot или если вы находитесь в процессе создания собственного copilot, мы рекомендуем ссылаться на этот конкретный документ: Создание золотых наборов данных: руководство по созданию золотых наборов данных, используемых для проверки качества Copilot, для получения более подробных рекомендаций и рекомендаций.

Следующие шаги

В этом документе вы узнали, как отправить пакетное выполнение и использовать встроенный метод оценки для измерения качества выходных данных потока. Вы также узнали, как просмотреть результат оценки и метрики, а также как начать новый раунд оценки с другим методом или подмножеством вариантов. Мы надеемся, что этот документ поможет улучшить производительность потока и достичь целей с помощью потока запроса.