Поделиться через


Как оценить созданные приложения ИИ с помощью Azure AI Studio

Внимание

Некоторые функции, описанные в этой статье, могут быть доступны только в предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.

Чтобы тщательно оценить производительность создаваемого приложения ИИ при применении к существенному набору данных, можно инициировать процесс оценки. Во время этой оценки приложение тестируется с помощью заданного набора данных, а его производительность будет количественно измеряться как с математическими метриками, так и с помощью ИИ. Этот запуск оценки предоставляет подробные сведения о возможностях и ограничениях приложения.

Чтобы выполнить эту оценку, можно использовать функции оценки в Azure AI Studio, комплексную платформу, которая предлагает средства и функции для оценки производительности и безопасности модели создания искусственного интеллекта. В AI Studio вы можете записывать, просматривать и анализировать подробные метрики оценки.

Из этой статьи вы узнаете, как создать ознакомительный запуск из тестового набора данных или потока со встроенными метриками оценки из пользовательского интерфейса Azure AI Studio. Для повышения гибкости можно установить пользовательский поток оценки и использовать пользовательскую функцию оценки . Кроме того, если цель заключается исключительно в проведении пакетного выполнения без какой-либо оценки, вы также можете использовать пользовательскую функцию оценки.

Необходимые компоненты

Чтобы запустить оценку с помощью метрик с помощью ИИ, необходимо подготовить следующее:

  • Тестовый набор данных в одном из следующих форматов: csv или jsonl.
  • Подключение Azure OpenAI.
  • Развертывание одной из этих моделей: модели GPT 3.5, GPT 4 или Davinci.

Создание оценки со встроенными метриками оценки

Выполнение оценки позволяет создавать выходные данные метрик для каждой строки данных в тестовом наборе данных. Вы можете выбрать одну или несколько метрик оценки, чтобы оценить выходные данные из разных аспектов. Вы можете создать ознакомительный запуск на страницах потока оценки и запроса в AI Studio. Затем откроется мастер создания оценки, который поможет вам настроить выполнение оценки.

На странице оценки

В раскрывающемся меню слева выберите "Оценка>+ Новая оценка".

Снимок экрана: кнопка для создания новой оценки.

На странице потока

В раскрывающемся меню слева выберите "Оценка>встроенной оценки потока>запроса".

Снимок экрана: выбор встроенной оценки.

Основные сведения

При вводе мастера создания оценки можно указать необязательное имя для выполнения оценки и выбрать сценарий, который лучше всего соответствует целям приложения. В настоящее время мы предлагаем поддержку следующих сценариев:

  • Вопрос и ответ с контекстом: этот сценарий предназначен для приложений, которые включают ответы на запросы пользователей и предоставляют ответы с контекстной информацией.
  • Вопрос и ответ без контекста. Этот сценарий предназначен для приложений, которые включают ответы на запросы пользователей и предоставляют ответы без контекста.

Панель справки можно использовать для проверка часто задаваемых вопросы и руководства по мастеру.

Снимок экрана: страница основных сведений при создании новой оценки.

Указав соответствующий сценарий, мы можем адаптировать оценку к определенной природе приложения, обеспечивая точность и соответствующие метрики.

  • Оценка из данных. Если у вас уже есть созданные модели выходные данные в тестовом наборе данных, пропустите поток для оценки и непосредственно перейдите к следующему шагу, чтобы настроить тестовые данные.
  • Оценка потока. Если вы инициируете оценку на странице "Поток", мы автоматически выбираем поток для оценки. Если вы планируете оценить другой поток, можно выбрать другой. Важно отметить, что в потоке может быть несколько узлов, каждый из которых может иметь собственный набор вариантов. В таких случаях необходимо указать узел и варианты, которые необходимо оценить во время процесса оценки.

Снимок экрана: выбор потока для оценки страницы при создании новой оценки.

Настройка тестовых данных

Вы можете выбрать существующие наборы данных или передать новый набор данных специально для оценки. Тестовый набор данных должен создавать выходные данные модели для оценки, если на предыдущем шаге не выбран поток.

  • Выберите существующий набор данных: можно выбрать тестовый набор данных из установленной коллекции наборов данных.

    Снимок экрана: параметр выбора тестовых данных при создании новой оценки.

  • Добавьте новый набор данных: вы можете отправлять файлы из локального хранилища. Мы поддерживаем .csv только форматы и .jsonl форматы файлов.

    Снимок экрана: параметр отправки файла при создании новой оценки.

  • Сопоставление данных для потока. Если вы выбираете поток для оценки, убедитесь, что столбцы данных настроены на соответствие необходимым входным данным для выполнения пакетного выполнения, создавая выходные данные для оценки. Затем оценка будет проведена с помощью выходных данных потока. Затем настройте сопоставление данных для входных данных на следующем шаге.

    Снимок экрана: сопоставление набора данных при создании новой оценки.

Выберите метрики

Мы поддерживаем два типа метрик, курируемых корпорацией Майкрософт, для упрощения комплексной оценки приложения:

  • Метрики производительности и качества: эти метрики оценивают общее качество и согласованность созданного содержимого.
  • Метрики риска и безопасности: эти метрики сосредоточены на выявлении потенциальных рисков содержимого и обеспечении безопасности созданного содержимого.

Вы можете обратиться к таблице для полного списка метрик, для которых мы предлагаем поддержку в каждом сценарии. Дополнительные сведения о определении каждой метрики и ее вычислении см. в разделе "Оценка и мониторинг метрик".

Сценарий Метрики производительности и качества Метрики риска и безопасности
Вопрос и ответ с контекстом Заземленность, релевантность, согласованность, Флуенти, Сходство GPT, оценка F1 Содержимое, связанное с самостоятельной вредом, ненавистное и несправедливое содержимое, насильственное содержимое, сексуальное содержимое
Вопрос и ответ без контекста Согласованность, Fluency, GPT сходства, F1 оценка Содержимое, связанное с самостоятельной вредом, ненавистное и несправедливое содержимое, насильственное содержимое, сексуальное содержимое

При использовании метрик СИ для оценки производительности и качества необходимо указать модель GPT для процесса вычисления. Выберите подключение Azure OpenAI и развертывание с помощью GPT-3.5, GPT-4 или модели Davinci для наших вычислений.

Снимок экрана: страница выбора метрик с метриками качества, выбранными при создании новой оценки.

Для метрик риска и безопасности вам не нужно предоставлять подключение и развертывание. Серверная служба оценки безопасности Azure AI Studio подготавливает модель GPT-4, которая может генерировать оценки серьезности содержимого и причины, чтобы вы могли оценить ваше приложение за вред содержимого.

Можно задать пороговое значение, чтобы вычислить частоту дефектов для метрик риска и безопасности. Скорость дефектов вычисляется путем принятия процента экземпляров с уровнями серьезности (очень низкий, низкий, средний, высокий) над пороговым значением. По умолчанию пороговое значение устанавливается как "Средний".

Снимок экрана: страница выбора метрик с метриками безопасности, выбранными при создании новой оценки.

Примечание.

Метрики риска и безопасности с поддержкой искусственного интеллекта размещаются в серверной службе оценки безопасности Azure AI Studio и доступны только в следующих регионах: Восточная часть США 2, Центральная Франция, Южная Великобритания, Центральная Швеция

Сопоставление данных для оценки: необходимо указать, какие столбцы данных в наборе данных соответствуют входным данным, необходимым для оценки. Различные метрики оценки требуют различных типов входных данных для точных вычислений.

Снимок экрана: сопоставление набора данных с входным данными оценки.

Примечание.

Если вы оцениваете данные, "ответ" должен сопоставить столбец ответа в наборе ${data$answer}данных. Если вы оцениваете поток, то "ответ" должен поступать из выходных данных ${run.outputs.answer}потока.

Рекомендации по конкретным требованиям сопоставления данных для каждой метрики см. в этой таблице:

Требования к метрику ответа на вопросы
Metric Вопрос Ответ Контекст Земля истина
Заземленность Обязательный: Str Обязательный: Str Обязательный: Str Н/П
Согласованность Обязательный: Str Обязательный: Str Неприменимо Неприменимо
Беглости Обязательный: Str Обязательный: Str Неприменимо Неприменимо
С сортировкой по релевантности Обязательный: Str Обязательный: Str Обязательный: Str Н/П
Сходство GPT Обязательный: Str Обязательный: Str Н/П Обязательный: Str
Оценка Обязательный: Str Обязательный: Str Н/П Обязательный: Str
Содержимое, связанное с самостоятельной вредом Обязательный: Str Обязательный: Str Неприменимо Неприменимо
Ненавистное и несправедливое содержимое Обязательный: Str Обязательный: Str Неприменимо Неприменимо
Насильственное содержимое Обязательный: Str Обязательный: Str Неприменимо Неприменимо
Сексуальное содержимое Обязательный: Str Обязательный: Str Неприменимо Неприменимо
  • Вопрос: вопрос, заданный пользователем в паре "Ответ на вопрос"
  • Ответ: ответ на вопрос, созданный моделью в качестве ответа
  • Контекст: источник, который ответ создается относительно (т. е. документов, заземляющих)
  • Земля истина: ответ на вопрос, созданный пользователем или человеком в качестве истинного ответа

Проверка и завершение

После завершения всех необходимых конфигураций можно просмотреть и перейти к нажатию кнопки "Отправить", чтобы отправить выполнение оценки.

Снимок экрана: страница проверки и завершения для создания новой оценки.

Создание оценки с помощью пользовательского потока оценки

Вы можете разрабатывать собственные методы оценки:

На странице потока: в раскрывающемся меню слева выберите пункт "Оценка>пользовательской оценки потока>запроса".

Снимок экрана: создание пользовательской оценки из потока запроса.

Просмотр и управление вычислителями в библиотеке оценщиков

Библиотека вычислителя — это централизованное место, которое позволяет просматривать сведения и состояние оценщиков. Вы можете просматривать и управлять вычислителями майкрософт.

Совет

Вы можете использовать пользовательские вычислители с помощью пакета SDK потока запроса. Дополнительные сведения см. в статье "Оценка с помощью пакета SDK потока запросов".

Библиотека вычислителя также включает управление версиями. При необходимости можно сравнить различные версии работы, восстановить предыдущие версии и упростить совместную работу с другими пользователями.

Чтобы использовать библиотеку вычислителя в AI Studio, перейдите на страницу оценки проекта и перейдите на вкладку библиотеки вычислителя.

Снимок экрана: страница выбора оценщиков из библиотеки оценщика.

Чтобы просмотреть дополнительные сведения, можно выбрать имя вычислителя. Вы можете просмотреть имя, описание и параметры, а также проверка любые файлы, связанные с оценщиком. Ниже приведены некоторые примеры курированных вычислителей Майкрософт:

  • Для оценки производительности и качества, курируемых корпорацией Майкрософт, можно просмотреть запрос заметки на странице сведений. Эти запросы можно адаптировать к собственному варианту использования, изменив параметры или критерии в соответствии с данными и целями с помощью пакета SDK потока запросов. Например, можно выбрать средство оценки заземления и проверка файл запроса, показывающий способ вычисления метрики.
  • Для оценщиков рисков и безопасности, курируемых корпорацией Майкрософт, можно увидеть определение метрик. Например, можно выбрать средство оценки содержимого, связанного с самообслуживанием, и узнать, что это означает, и как корпорация Майкрософт определяет различные уровни серьезности для этой метрики безопасности.

Следующие шаги

Узнайте больше о том, как оценить созданные приложения ИИ: