Мониторинг моделей для созданных приложений ИИ (предварительная версия)

Статья
10/16/2024

Модели мониторинга в рабочей среде являются важной частью жизненного цикла ИИ. Изменения в поведении данных и потребителей могут повлиять на создание приложения ИИ с течением времени, что приводит к устаревшим системам, которые негативно влияют на бизнес-результаты и предоставляют организациям соответствие, экономические и репутационные риски.

Внимание

Мониторинг моделей для создаваемых приложений ИИ в настоящее время находится в общедоступной предварительной версии. Эти предварительные версии предоставляются без соглашения об уровне обслуживания и не рекомендуются для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.

Машинное обучение Azure мониторинг моделей для создаваемых приложений ИИ упрощает мониторинг приложений LLM в рабочей среде для обеспечения безопасности и качества на уровне, чтобы обеспечить максимальное влияние на бизнес. Мониторинг в конечном счете помогает поддерживать качество и безопасность создаваемых приложений ИИ. К возможностям и интеграции относятся следующие возможности:

Сбор рабочих данных с помощью сборщика данных модели.
Метрики оценки ответственного искусственного интеллекта, такие как заземленность, согласованность, беглость, релевантность и сходство, которые взаимодействуют с метриками оценки потока запросов Машинное обучение Azure.
Возможность настройки оповещений для нарушений на основе целевых объектов организации и выполнения мониторинга на регулярной основе
Потребляйте результаты на богатой панели мониторинга в рабочей области в Студия машинного обучения Azure.
Интеграция с Машинное обучение Azure метрики оценки потока запроса, анализ собранных производственных данных для своевременного оповещения и визуализация метрик с течением времени.

Основные понятия мониторинга моделей см. в статье "Мониторинг моделей" с помощью Машинное обучение Azure (предварительная версия). Из этой статьи вы узнаете, как отслеживать создание приложения искусственного интеллекта, поддерживаемого управляемой конечной точкой в Сети. Теперь необходимо выполнить следующие шаги:

Настройка необходимых компонентов
Создание монитора
Подтверждение состояния мониторинга
Использование результатов мониторинга

Метрики оценки

Метрики создаются следующими языковыми моделями GPT, настроенными с определенными инструкциями по оценке (шаблонами запроса), которые служат моделями оценки для задач последовательности и последовательности. Эта методика показала сильные эмпирические результаты и высокую корреляцию с человеческим решением по сравнению со стандартными метриками оценки и анализа искусственного интеллекта. Дополнительные сведения об оценке потока запроса см. в статье "Отправка массового теста" и оценка потока (предварительная версия) для получения дополнительных сведений об оценке потока запроса.

Эти модели GPT поддерживаются и будут настроены в качестве ресурса Azure OpenAI:

GPT-3.5 Turbo
GPT-4
GPT-4-32k

Поддерживаются следующие метрики. Дополнительные сведения о каждой метрии см. в описании метрик оценки мониторинга и вариантах использования.

Приземление: оценивает, насколько хорошо сформированные ответы модели соответствуют данным из источника входных данных.
Релевантность: оценивает степень, в которой сформированные ответы модели имеют отношение к заданным вопросам и непосредственно связаны с заданными вопросами.
Согласованность: оценивает, насколько хорошо языковая модель может производить потоки вывода гладко, считывает естественно и напоминает человеческий язык.
Fluency: оценивает язык знания о прогнозируемом ответе генерируемого ИИ. Он оценивает, насколько хорошо сформированный текст соответствует грамматические правила, синтактические структуры и соответствующее использование словаря, что приводит к лингвистически правильным и естественным звуковым ответам.
Сходство: оценивает сходство между наземным предложением истины (или документом) и предложением прогнозирования, созданным моделью ИИ.

Требования к конфигурации метрик

Для измерения безопасности и качества поколения требуются следующие входные данные (имена столбцов данных).

текст запроса — исходный запрос (также известный как "входные" или "вопрос")
Текст завершения — окончательное завершение вызова API, возвращаемого (также известное как "выходные данные" или "ответ")
текст контекста — все данные контекста, отправляемые вызову API, вместе с исходным запросом. Например, если вы надеетесь получить результаты поиска только из определенных сертифицированных источников информации или веб-сайта, можно определить на этапах оценки. Это необязательный шаг, который можно настроить с помощью потока запроса.
текст конечной истины — определяемый пользователем текст как "источник истины" (необязательно)

Какие параметры настраиваются в ресурсе данных, определяют, какие метрики можно создать, в соответствии с этой таблицей:

Metric	Prompt	Completion	Контекст	Земля истина
Согласованность	Обязательное поле	Обязательное поле	-	-
Беглость	Обязательное поле	Обязательное поле	-	-
Заземленность	Обязательное поле	Обязательно	Обязательное поле	-
С сортировкой по релевантности	Обязательное поле	Обязательно	Обязательное поле	-
Similarity	Обязательное поле	Обязательно	-	Обязательное поле

Необходимые компоненты

Ресурс Azure OpenAI: у вас должен быть ресурс Azure OpenAI, созданный с достаточной квотой. Этот ресурс используется в качестве конечной точки оценки.
Управляемое удостоверение: создайте управляемое удостоверение, назначаемое пользователем (UAI) и присоедините его к рабочей области с помощью управляемого удостоверения, назначаемого пользователем, с помощью CLI версии 2с достаточным доступом к роли, как определено на следующем шаге.
Доступ к роли для назначения роли с необходимыми разрешениями необходимо иметь разрешение владельца или Microsoft.Authorization/roleAssignments/write в ресурсе. Обновление подключений и разрешений может занять несколько минут. Эти дополнительные роли должны быть назначены вашему UAI:
- Ресурс: рабочая область
- Роль: Машинное обучение Azure Специалист по обработке и анализу данных
Подключение к рабочей области. Для вычисления метрик мониторинга используется управляемое удостоверение, представляющее учетные данные для конечной точки Azure OpenAI. Не удаляйте подключение после его использования в потоке.
- Версия API: 2023-03-15-preview
Развертывание потока запроса: создайте среду выполнения потока запроса, выполнив этот поток, и убедитесь, что развертывание настроено с помощью этой статьи в качестве руководства.
- Входные и выходные данные потока: необходимо соответствующим образом назвать выходные данные потока и запомнить эти имена столбцов при создании монитора. В этой статье мы используем следующее:
  - Входные данные (обязательно): "запрос"
  - Выходные данные (обязательно): "завершение"
    - Выходные данные (необязательно): "context" | "земля истина"
- Сбор данных: в разделе "Развертывание" (шаг 2 мастера развертывания потока запроса) переключатель "сбор данных вывода" должен быть включен с помощью сборщика данных модели.
- Выходные данные. В окне "Выходные данные" (шаг 3 мастера развертывания потока запроса) убедитесь, что вы выбрали необходимые выходные данные, перечисленные выше (например, завершение | контекст | ground_truth), которые соответствуют требованиям к конфигурации метрик

Примечание.

Если вычислительный экземпляр находится за виртуальной сетью, см . раздел "Сетевая изоляция" в потоке запросов.

Создание монитора

Создание монитора на странице обзора мониторинга

Настройка основных параметров мониторинга

В мастере создания мониторинга измените тип задачи модели на запрос и завершение, как показано на снимке экрана (A).

Настройка ресурса данных

Если вы использовали сборщик данных модели, выберите два ресурса данных (входные и выходные данные).

Выбор сигналов мониторинга

Настройка подключения к рабочей области (A) на снимке экрана.
1. Необходимо правильно настроить подключение к рабочей области или увидеть следующее:
Введите имя развертывания средства оценки Azure OpenAI (B).
(Необязательно) Присоединение входных и выходных данных рабочей модели: входные и выходные данные рабочей модели автоматически присоединяются службой мониторинга (C). Это можно настроить при необходимости, но никаких действий не требуется. По умолчанию столбец соединения является корреляцией.
(Необязательно) Настройка пороговых значений метрик: допустимая оценка для каждого экземпляра фиксирована в 3/5. Вы можете настроить допустимый общий процент передачи между диапазоном [1,99] %

Вручную введите имена столбцов из потока запроса (E). Стандартные имена : ("запрос" | "завершение" | "context" | "ground_truth") но его можно настроить в соответствии с ресурсом данных.
(необязательно) Установка частоты выборки (F)
После настройки сигнал больше не будет отображать предупреждение.

Настройка уведомлений

Предпринимать какие-либо действия не требуется. При необходимости можно настроить больше получателей.

Подтверждение конфигурации сигнала мониторинга

При успешной настройке монитор должен выглядеть следующим образом:

Подтверждение состояния мониторинга

В случае успешной настройки задание конвейера мониторинга показывает следующее:

Использование результатов

Страница обзора мониторинга

Обзор монитора содержит общие сведения о производительности сигнала. Вы можете ввести страницу сведений о сигнале для получения дополнительных сведений.

Страница сведений о сигнале

Страница сведений о сигнале позволяет просматривать метрики с течением времени (А) и просматривать гистограммы распределения (B).

Разрешение оповещений

Только можно настроить пороговые значения сигнала. Допустимая оценка фиксирована на 3/5, и можно настроить поле "приемлемый общий процент передачи".

Поделиться через