Поделиться через


Агент AI для Red Teaming (предварительная версия)

Это важно

Элементы, обозначенные в этой статье как (предварительная версия), сейчас предлагаются в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.

Агент Red Teaming для искусственного интеллекта (предварительная версия) — это мощный инструмент, который помогает организациям заранее находить риски безопасности, связанные с генерирующими системами ИИ во время разработки и разработки моделей и приложений сгенерированных ИИ.

Традиционная этика взлома включает эксплуатацию кибер-цепочки атак и описывает процесс тестирования системы на уязвимости. Тем не менее, с ростом генерирующего ИИ был введен термин "команда красной группы ИИ", чтобы описать выявление новых рисков (связанных как с содержанием, так и с безопасностью), которые эти системы представляют, а также для обозначения имитации поведения враждебного пользователя, который пытается вызвать некорректное поведение вашей системы ИИ определенным образом.

Агент Red Teaming для искусственного интеллекта использует платформу с открытым исходным кодом Майкрософт для возможностей средства идентификации рисков Python (PyRIT) ИИ red teaming, а также оценки рисков и безопасности Azure AI Foundry, чтобы помочь вам автоматически оценить проблемы безопасности тремя способами:

  • Автоматическое сканирование рисков содержимого: Во-первых, вы можете автоматически сканировать модель и конечные точки приложений для рисков безопасности, имитируя состязательный анализ.
  • Оцените успешность пробы: Затем вы можете оценить и присвоить оценку каждой паре атака-реакция, чтобы создать информативные метрики, такие как уровень успешности атак (ASR).
  • Отчеты и ведение журнала Наконец, вы можете создать карту оценки методов анализа атак и категорий рисков, чтобы помочь вам решить, готова ли система к развертыванию. Результаты можно регистрировать, отслеживать и отслеживать с течением времени непосредственно в Azure AI Foundry, обеспечивая соответствие требованиям и непрерывное устранение рисков.

Вместе эти компоненты (сканирование, оценка и отчеты) помогают командам понять, как системы ИИ реагируют на распространенные атаки, в конечном итоге управляя комплексной стратегией управления рисками.

Когда следует использовать сканирование агента Red Teaming для искусственного интеллекта

При разработке надежных систем искусственного интеллекта корпорация Майкрософт использует платформу NIST для эффективного устранения рисков: управление, сопоставление, измерение, управление и управление. Мы сосредоточимся на последних трех частях в связи с жизненным циклом разработки генерированных ИИ:

  • Карта: определение соответствующих рисков и определение варианта использования.
  • Мера. Оценка рисков в масштабе.
  • Управление. Устранение рисков в рабочей среде и мониторинг с помощью плана реагирования на инциденты.

Схема использования агента ИИ Red Teaming, показывающего упреждающий реактивный и менее дорогостоящий для более дорогостоящих действий.

Агент Red Teaming для искусственного интеллекта можно использовать для запуска автоматизированных проверок и имитации состязательной проверки, чтобы ускорить идентификацию и оценку известных рисков в масштабе. Это помогает командам "перейти влево" от дорогостоящих реактивных инцидентов к более упреждающим платформам тестирования, которые могут перехватывать проблемы перед развертыванием. Процесс проверки команды искусственного интеллекта — это время- и ресурсоемкий процесс. Он полагается на творческий подход специалистов по безопасности и охране для моделирования враждебных проверок. Этот процесс может создать узкие места для многих организаций для ускорения внедрения искусственного интеллекта. С помощью агента red Teaming AI организации теперь могут использовать глубокие знания Майкрософт для масштабирования и ускорения разработки ИИ с помощью надежного ИИ на переднем крае.

Мы рекомендуем командам использовать агент Red Teaming ИИ для запуска автоматизированных проверок на протяжении всего этапа проектирования, разработки и предварительного развертывания:

  • Проектирование. Выбор самой безопасной базовой модели в вашем варианте использования.
  • Разработка: обновление моделей в приложении или создание точно настроенных моделей для конкретного приложения.
  • Перед развертыванием приложений GenAI в рабочих средах.

В рабочей среде рекомендуется реализовать такие меры безопасности , как фильтры безопасности содержимого ИИ Azure или реализация системных сообщений системы безопасности с помощью наших шаблонов.

Как работает красная команда ИИ

Агент Red Teaming для искусственного интеллекта помогает автоматизировать имитацию состязательной проверки целевой системы ИИ. Он предоставляет проверенный набор данных начальных запросов или целей атаки на поддерживаемые категории рисков. Их можно использовать для автоматизации прямого состязательного проверки. Однако прямые состязательные пробы могут быть легко пойманы существующими выравниваниями безопасности развертывания модели. Применение стратегий атак из PyRIT обеспечивает дополнительное преобразование, которое может помочь обойти или подорвать систему ИИ для создания нежелательного содержимого.

На схеме мы видим, что прямой запрос к вашей системе ИИ о том, как разграбить банк активирует ответ на отказ. Однако применение стратегии атаки, например перевернуть все символы, может помочь обмануть модель в ответ на вопрос.

Схема работы агента Red Teaming для ИИ.

Кроме того, агент Red Teaming для искусственного интеллекта предоставляет пользователям специально настроенную состязательную модель большого языкового слоя, предназначенную для моделирования атак и оценки ответов, которые могут содержать вредоносное содержимое, с помощью средств анализа риска и безопасности. Ключевая метрика для оценки состояния риска системы ИИ — это частота успешного выполнения атак (ASR), которая вычисляет процент успешных атак по количеству общих атак.

Поддерживаемые категории рисков

Категории рисков, поддерживаемых агентом ИИ Red Teaming из Risk and Safety Evaluations, следующие. Поддерживаются только текстовые сценарии.

Категория риска Описание
Ненавистное и несправедливое содержимое Ненавистное и несправедливое содержание относится к любому языку или образу, относящегося к ненависти к или несправедливому представлению отдельных лиц и социальных групп вместе с факторами, включая, но не ограничивается расой, этнической принадлежности, национальностью, полом, сексуальной ориентацией, религией, иммиграционным статусом, способностью, личным видом и размером тела. Несправедливость возникает, когда системы ИИ обрабатывают или представляют социальные группы несправедливо, создавая или способствуя социальному неравенствам.
Сексуальное содержимое Сексуальное содержимое включает язык или образы, относящиеся к анатомическим органам и половым органам, романтические отношения, действия, изображаемые в эротических терминах, беременности, физических сексуальных актов (включая насилие или сексуальное насилие), проституцию, порнографию и сексуальное насилие.
Насильственное содержимое Насильственное содержимое включает язык или образы, относящиеся к физическим действиям, предназначенным для травмы, повреждения, повреждения или убийства кого-то или чего-то. Она также содержит описания оружия и оружия (и связанных сущностей, таких как производители и ассоциации).
СамостоятельноеHarm-Related содержимое Содержимое, связанное с самоповреждениями, включает язык или изображения, относящиеся к действиям, предназначенным для того, чтобы причинить вред своему телу или покончить с собой.

Поддерживаемые стратегии атак

Следующие стратегии атаки поддерживаются в агенте AI Red Teaming от PyRIT:

Стратегия атак Описание
AnsiAttack Использует escape-последовательности ANSI для управления внешним видом и поведением текста.
ASCII-арт Создает визуальное искусство с помощью символов ASCII, часто используемых для творческих или скрытых целей.
AsciiSmuggler Скрывает данные в символах ASCII, что затрудняет обнаружение.
Atbash Реализует шифр Атбаш, простой шифр подстановки, в котором каждая буква соответствует своей обратной букве.
Base64 Кодирует двоичные данные в текстовый формат с помощью Base64, часто используемого для передачи данных.
Бинарный Преобразует текст в двоичный код, представляющий данные в серии 0 и 1s.
Цезарь Применяет шифр Цезаря, шифр подстановки, который перемещает символы на фиксированное количество позиций.
CharacterSpace Изменяет текст путем добавления пробелов между символами, часто используемых для маскировки.
Замена символов Переключает символы в тексте, чтобы создать варианты или скрыть исходное содержимое.
Диакритический знак Добавляет диакритические знаки к символам, меняя их внешний вид и иногда их смысл.
Перевернуть Переворачивает символы спереди назад, создавая зеркальный эффект.
Leetspeak Преобразует текст в Leetspeak, форму кодирования, которая заменяет буквы похожими числами или символами.
Морзе Кодирует текст в код Morse, используя точки и дефисы для представления символов.
ROT13 Применяет шифр ROT13, простой шифр подстановки, который перемещает символы на 13 позиций.
СуффиксДобавить Добавляет состязательный суффикс к запросу
Объединить строки Объединяет несколько строк, часто используемых для объединения или маскирования.
ЮникодConfusable Использует символы Юникода, похожие на стандартные символы, создавая визуальную путаницу.
ЮникодСубституция Заменяет стандартные символы эквивалентами Юникода, часто для маскировки.
URL Кодирует текст в формате URL-адреса
Джейлбрейк Внедряет специально созданные команды для обхода защитных мер ИИ, известных как атаки с пользовательскими запросами (UPIA).
Время Изменяет время глагола в тексте, преобразуя его в прошедшее время.

Подробнее

Приступая к работе с нашей документацией по запуску автоматического сканирования рисков безопасности с помощью агента ИИ Red Teaming.

Узнайте больше о средствах, которые используются агентом ИИ для Red Teaming.

Наиболее эффективные стратегии оценки рисков, которые мы видели, используют автоматизированные средства для покрытия потенциальных рисков, которые затем анализируются экспертными группами людей для более глубокой аналитики. Если ваша организация только начинает работу с тестированием искусственного интеллекта методом красного тиминга, мы рекомендуем вам изучить ресурсы, созданные нашей собственной командой по красному тимингу в компании Майкрософт, чтобы помочь вам начать.