Мониторинг злоупотреблений

2025-07-02

Azure OpenAI в моделях Azure AI Foundry обнаруживает и устраняет экземпляры повторяющегося содержимого и (или) поведения, которые предполагают использование службы таким образом, что может нарушить кодекс поведения. Сведения о том, как обрабатываются данные, можно найти на странице "Данные", " Конфиденциальность" и "Безопасность ".

Компоненты мониторинга злоупотреблений

Существует несколько компонентов для мониторинга злоупотреблений:

Классификация содержимого: модели классификатора обнаруживают вредоносный текст и (или) изображения в запросах пользователей (входных данных) и завершениях (выходных данных). Система ищет категории вреда, как определено в требованиях к содержимому, и назначает уровни серьезности, как описано более подробно на странице фильтрации содержимого. Сигналы классификации контента способствуют обнаружению шаблонов, как описано ниже.
Сбор шаблонов злоупотреблений: система мониторинга злоупотреблений Azure OpenAI рассматривает шаблоны использования клиентов и использует алгоритмы и эвристики для обнаружения и оценки показателей потенциальных злоупотреблений. Обнаруженные шаблоны рассматривают, например, частоту и серьезность обнаружения вредного содержимого (как указано в сигналах классификатора содержимого) в запросах и завершениях клиента, а также преднамеренность поведения. Тенденции и срочность обнаруженного шаблона также повлияют на оценку потенциальной серьезности злоупотреблений. Например, более высокий объем вредного содержимого, классифицируемый как более высокий уровень серьезности, или повторяющееся поведение, указывающее на преднамеренность (например, повторяющиеся попытки тюрьмы) чаще получают высокую оценку, указывающую на потенциальное злоупотребление.
Проверка и решение. Запросы и завершения, помеченные с помощью классификации содержимого и /или идентифицированные как часть потенциально оскорбительных шаблонов использования, подвергаются другому процессу проверки, чтобы помочь подтвердить анализ системы и информировать решения о действиях по мониторингу злоупотреблений. Такая проверка проводится двумя способами: автоматизированным обзором и анализом человека.
- По умолчанию, если запросы и завершения помечаются в результате классификации содержимого как вредные и/или идентифицированы как часть потенциально оскорбительных шаблонов использования, они могут быть отобраны для проверки с помощью автоматизированных средств, включая модели ИИ, такие как LLM, вместо рецензента-человека. Модель, используемая для этой цели, обрабатывает запросы и завершения только для подтверждения анализа системы и информирования о принятии решений о действиях; запросы и завершения, которые проходят такие проверки, не хранятся системой мониторинга злоупотреблений или используются для обучения модели ИИ или других систем.
- В некоторых случаях, когда автоматическая проверка не соответствует применимым пороговым значениям достоверности в сложных контекстах или если автоматизированные системы проверки недоступны, может быть введена проверка человеком, чтобы сделать дополнительное заключение. Авторизованные сотрудники Майкрософт могут оценивать содержимое, помеченное с помощью классификации контента и /или определяемых как часть потенциально оскорбительных шаблонов использования, а также подтвердить или исправить классификацию или определение на основе предопределенных рекомендаций и политик. К таким подсказкам и завершениям могут получить доступ только авторизованные сотрудники Microsoft через рабочие станции с защищенным доступом (SAWs) с одобрением запроса JIT-In-Time (JIT), предоставленным руководителями команд. Для ресурсов Azure OpenAI, развернутых в Европейской экономической зоне, авторизованные сотрудники Майкрософт находятся в Европейской экономической зоне. Этот процесс мониторинга злоупотреблений людьми не будет происходить, если клиент был утвержден для измененного мониторинга злоупотреблений.
Уведомление и действие. Если порог жестокого поведения подтвержден на основе предыдущих шагов, клиент уведомляется об определении по электронной почте. За исключением случаев серьезных или повторяющихся злоупотреблений, клиенты обычно имеют возможность объяснить или исправить их, а также реализовать механизмы для предотвращения повторения — жестокого поведения. Неспособность устранить поведение (или повторяющиеся или серьезные нарушения) может привести к приостановке или прекращению доступа клиента к ресурсам Azure OpenAI и (или) возможностям.

Изменен мониторинг злоупотреблений

Некоторые клиенты могут захотеть использовать Azure OpenAI для случаев использования, которые предполагают обработку высокочувствительных или строго конфиденциальных данных. В противном случае они могут прийти к выводу, что не хотят или не имеют права разрешить Microsoft хранить и выполнять проверку человеком их запросов и результатов для обнаружения злоупотреблений. Чтобы решить эти проблемы, Майкрософт позволяет клиентам, которые соответствуют дополнительным критериям доступности, подать заявку на изменение мониторинга злоупотреблений, заполнив этуформу. Дополнительные сведения о подаче заявки на измененный мониторинг злоупотреблений см. на странице "Ограниченный доступ к Azure OpenAI".

Замечание

Если мониторинг злоупотреблений изменен и проверка человека не выполняется, обнаружение потенциальных злоупотреблений может быть менее точным. Клиенты уведомляются о потенциальном обнаружении злоупотреблений, как описано выше, и должны быть готовы реагировать на такое уведомление, чтобы избежать прерывания работы службы, если это возможно.

Дальнейшие шаги

Ознакомьтесь с дополнительными сведениями о базовых моделях, лежащих в основе Azure OpenAI.
Узнайте больше о понимании и снижении рисков, связанных с вашим приложением: Обзор методик ответственного ИИ для моделей Azure OpenAI.
Узнайте больше о том, как данные обрабатываются в фильтрации содержимого и мониторинге злоупотреблений: данные, конфиденциальность и безопасность Для Azure OpenAI.

Поделиться через

Мониторинг злоупотреблений

Компоненты мониторинга злоупотреблений

Изменен мониторинг злоупотреблений

Дальнейшие шаги

Обратная связь

Дополнительные ресурсы