Экраны запросов

Статья
06/13/2024

Модели генерного искусственного интеллекта могут представлять риск эксплуатации вредоносными субъектами. Чтобы устранить эти риски, мы интегрируем механизмы безопасности для ограничения поведения больших языковых моделей (LLM) в безопасной рабочей области. Однако, несмотря на эти меры защиты, LLM по-прежнему могут быть уязвимы для состязательные входные данные, которые обходят интегрированные протоколы безопасности.

Экраны запросов — это единый API, который анализирует входные данные LLM и обнаруживает атаки пользовательского запроса и атаки документов, которые являются двумя общими типами состязательной входной информации.

Экраны запросов для пользователей

Ранее называется обнаружение рисков в тюрьме, этот экран предназначен для атак внедрения запросов пользователей, где пользователи намеренно эксплуатируют уязвимости системы для несанкционированного поведения от LLM. Это может привести к неправильному поколению содержимого или нарушениям системных ограничений.

Экраны запроса для документов

Этот щит предназначен для защиты от атак, которые используют информацию, не предоставляемую пользователем или разработчиком, например внешние документы. Злоумышленники могут внедрить скрытые инструкции в эти материалы, чтобы получить несанкционированный контроль над сеансом LLM.

Типы атак ввода

В этой таблице описаны два типа атак ввода, обнаруженных экранами запроса.

Тип	Злоумышленник	Точка входа	Способ	Цель или влияние	Результаты выполнения операции
Атаки пользовательского запроса	User	Запросы пользователей	Игнорировать системные запросы и обучение RLHF	Изменение предполагаемого поведения LLM	Выполнение ограниченных действий для обучения
Атаки документов	Сторонние	Сторонний контент (документы, сообщения электронной почты)	Неправильное толкование стороннего содержимого	Получение несанкционированного доступа или контроля	Выполнение непреднамеренных команд или действий

Подтипы атак пользовательского запроса

Экраны запросов для атак пользовательского запроса распознают следующие классы атак:

Категория	Description
Попытка изменить системные правила	Эта категория включает в себя, но не ограничивается запросами на использование новой неограниченной системы/помощника по искусственному интеллекту без правил, принципов или ограничений, а также запросов, которые предписывают ИИ игнорировать и игнорировать свои правила, инструкции и предыдущие повороты.
Внедрение макета диалога, чтобы запутать модель	Эта атака использует созданные пользователем диалоговые повороты, внедренные в один запрос пользователя, чтобы указать помощнику по системе или искусственному интеллекту игнорировать правила и ограничения.
Ролевое воспроизведение	Эта атака предписывает помощнику системы или ИИ выступать в качестве другого "системного человека", который не имеет существующих системных ограничений, или он назначает антропоморфные человеческие качества системе, такие как эмоции, мысли и мнения.
Атаки на кодировку	Эта атака пытается использовать кодировку, например метод преобразования символов, стили создания, шифры или другие варианты естественного языка, чтобы обойти системные правила.

Подтипы атак Document

Запрос экранов для атак "Документы" распознает следующие классы атак:

Категория	Description
Управление содержимым	Команды, связанные с фальсифицированием, скрытием, манипуляцией или отправкой конкретной информации.
Внедрение	Команды, связанные с созданием backdoor, несанкционированной эскалацией привилегий и получением доступа к LLMs и системам
Сбор сведений	Команды, связанные с удалением, изменением или доступом к данным или краже данных.
Доступность	Команды, которые делают модель непригодной для пользователя, блокируют определенную возможность или принудительно создают неверные сведения.
Мошенничество	Команды, связанные с обманом пользователя из денег, паролей, сведений или действий от имени пользователя без авторизации
Вредоносные программы	Команды, связанные с распространением вредоносных программ через вредоносные ссылки, сообщения электронной почты и т. д.
Попытка изменить системные правила	Эта категория включает в себя, но не ограничивается запросами на использование новой неограниченной системы/помощника по искусственному интеллекту без правил, принципов или ограничений, а также запросов, которые предписывают ИИ игнорировать и игнорировать свои правила, инструкции и предыдущие повороты.
Внедрение макета диалога, чтобы запутать модель	Эта атака использует созданные пользователем диалоговые повороты, внедренные в один запрос пользователя, чтобы указать помощнику по системе или искусственному интеллекту игнорировать правила и ограничения.
Ролевое воспроизведение	Эта атака предписывает помощнику системы или ИИ выступать в качестве другого "системного человека", который не имеет существующих системных ограничений, или он назначает антропоморфные человеческие качества системе, такие как эмоции, мысли и мнения.
Атаки на кодировку	Эта атака пытается использовать кодировку, например метод преобразования символов, стили создания, шифры или другие варианты естественного языка, чтобы обойти системные правила.

Ограничения

Доступность языка

В настоящее время API экранирования запросов поддерживает английский язык. Хотя наш API не ограничивает отправку содержимого, отличного от английского языка, мы не можем гарантировать тот же уровень качества и точности в анализе такого содержимого. Мы рекомендуем пользователям в первую очередь отправлять содержимое на английском языке, чтобы обеспечить наиболее надежные и точные результаты из API.

Ограничения длины текста

См . сведения о требованиях к входным данным для ограничений максимальной длины текста.

Регионы

Чтобы использовать этот API, необходимо создать ресурс безопасности содержимого Искусственного интеллекта Azure в поддерживаемых регионах. См . сведения о доступности региона.

Ограничения TPS

См. сведения о тарифах запросов.

Если вам нужна более высокая ставка, обратитесь к нам , чтобы запросить его.

Следующие шаги

Следуйте краткому руководству, чтобы приступить к работе с безопасностью содержимого ИИ Azure для обнаружения рисков ввода пользователей.

Краткое руководство по экранам запроса

Поделиться через