Поделиться через


Пользовательские категории (предварительная версия)

Безопасность содержимого ИИ Azure позволяет создавать собственные категории con режим палатки ration для расширенной модерации и фильтрации, которые соответствуют определенным политикам или вариантам использования.

Типы настройки

Существует несколько способов определения и использования пользовательских категорий, которые подробно и сравниваются в этом разделе.

API Функция
API пользовательских категорий (стандартный) Используйте настраиваемую модель машинного обучения для создания, получения, запроса и удаления настраиваемой категории. Или перечислите все настраиваемые категории для дальнейших задач заметки.
API пользовательских категорий (быстрый) Используйте большую языковую модель (LLM) для быстрого изучения конкретных шаблонов контента в возникающих инцидентах содержимого.

API пользовательских категорий (стандартный)

API пользовательских категорий (стандартный) позволяет клиентам определять категории, относящиеся к их потребностям, предоставлять примеры данных, обучать пользовательскую модель машинного обучения и использовать его для классификации нового содержимого в соответствии с изученными категориями.

Это стандартный рабочий процесс для настройки с помощью моделей машинного обучения. В зависимости от качества обучающих данных он может достичь очень хороших уровней производительности, но может занять до нескольких часов для обучения модели.

Эта реализация работает над текстовым содержимым, а не содержимым изображения.

API пользовательских категорий (быстрый)

API пользовательских категорий (быстрый) предназначен для более быстрого и гибкого, чем стандартный метод. Оно предназначено для выявления, анализа, хранения, искоренения и восстановления от кибер-инцидентов, которые включают неуместное или вредное содержимое на онлайн-платформах.

Инцидент может включать набор новых шаблонов содержимого (текст, изображение или другие модальности), которые нарушают правила сообщества Майкрософт или собственные политики и ожидания клиентов. Эти инциденты необходимо быстро и точно устранить, чтобы избежать потенциальных проблем с веб-сайтом или вреда пользователям и общинам.

Эта реализация работает с текстовым содержимым и содержимым изображения.

Совет

Одним из способов борьбы с возникающими инцидентами содержимого является использование блок-списков, но это позволяет точно совпадать с текстом и без сопоставления изображений. API пользовательских категорий (быстрый) предлагает следующие расширенные возможности:

  • сопоставление семантического текста с помощью внедрения поиска с упрощенным классификатором
  • сопоставление изображений с упрощенной моделью отслеживания объектов и внедрением поиска.

Принцип работы

Функция пользовательских категорий безопасности контента Azure использует многоэтапный процесс для создания, обучения и использования пользовательских моделей классификации контента. Ниже приведен обзор рабочего процесса:

Шаг 1. Определение и настройка

При определении настраиваемой категории необходимо научить ИИ, какой тип контента вы хотите определить. Это включает в себя предоставление четкого имени категории и подробное определение , инкапсулирующее характеристики содержимого.

Затем вы собираете сбалансированный набор данных с положительными и (необязательно) отрицательными примерами, чтобы помочь ИИ узнать нюансы вашей категории. Эти данные должны быть репрезентативными различными содержимым, которые модель будет встречаться в реальном сценарии.

Шаг 2. Обучение модели

Подготовив набор данных и определив категории, служба безопасности содержимого ИИ Azure обучает новую модель машинного обучения. Эта модель использует определения и загруженный набор данных для расширения данных с помощью крупной языковой модели. В результате набор данных обучения становится более большим и более качественным. Во время обучения модель ИИ анализирует данные и учится различать содержимое, которое соответствует указанной категории и содержимому, которое не соответствует.

Шаг 3. Вывод модели

После обучения необходимо оценить модель, чтобы убедиться, что она соответствует вашим требованиям точности. Протестируйте модель с новым содержимым, который он не получил раньше. Этап оценки помогает определить возможные корректировки, необходимые для развертывания модели в рабочей среде.

Шаг 4. Использование модели

Api анализаCustomCategory используется для анализа текстового содержимого и определения того, соответствует ли он определенной пользовательской категории. Служба возвращает логическое значение, указывающее, соответствует ли содержимое указанной категории.

Ограничения

Доступность языка

API пользовательских категорий поддерживают все языки, поддерживаемые модерированием текста безопасности содержимого. См. статью Поддержка языка.

Ограничения ввода

См. следующую таблицу для ограничений ввода пользовательского API категорий (стандартный):

Object Ограничение
Поддерживаемые языки Только на английском языке
Количество категорий на пользователя 3
Количество версий на категорию 3
Число параллельных сборок (процессов) для каждой категории 1
Операции вывода в секунду 5
Количество примеров в версии категории Положительные примеры(обязательные): минимум 50, максимум 5 КБ
В общей сложности (как отрицательные, так и положительные примеры): 10K
Повторяющиеся примеры не разрешены.
Размер примера файла максимум 128000 байт
Длина текстового примера максимум 125K символов
Длина определения категории максимум 1000 символов
Длина имени категории максимум 128 символов
Длина URL-адреса большого двоичного объекта максимум 500 символов