Безопасные автономные агентные системы ИИ

Имя компонента: мониторинг и обнаружение угроз
Имя шаблона: безопасные агентические системы ИИ


Контекст и проблема

Автономные системы ИИ могут планировать, вызывать средства, получать доступ к данным и выполнять действия с ограниченным вмешательством человека. С увеличением автономности потенциальное воздействие несоответствия, неправильного использования и компрометации также возрастает.

Статья "Шаблоны и методики" Уменьшение рисков для автономных агентных систем ИИ описывает риски, связанные с проектированием, безопасностью и управлением, возникающие из-за поведения агентов. Этот шаблон переходит от идентификации риска к сокращению рисков, акцентируя внимание на элементах управления и решениях по проектированию, которые на практике устраняют эти риски.

Решение

Для защиты агентических систем требуется стратегия глубинной защиты , которая предполагает сбой на отдельных уровнях и системах конструкций, чтобы ни один сбой не приводит к неприемлемой вреду.

Элементы управления в слоях устранения рисков

Элементы управления уровня модели

Модель выступает в качестве движка логических рассуждений агента и влияет на то, как агент интерпретирует инструкции, планирует действия и реагирует на враждебные входные данные. Различные модели предлагают различные возможности и функции безопасности, влияющие на выходные данные и действия агента. Выбор соответствующей модели помогает избежать несоответствия, ошибок и небезопасных результатов.

Рекомендуемые элементы управления:

  • Преднамеренный выбор модели: Выберите модели, глубина рассуждений, поведение отказа и использование инструментов которых соответствуют автономности агента и его профиля риска. Устраняет несоответствие задач и небезопасные действия.
  • Управление цепочками поставок моделей: Рассматривать модели как критические компоненты безопасности, отслеживая версии, оценивая обновления и подтверждая изменения перед внедрением. Устраняет компрометацию цепочки поставок.
  • Оценка и красная команда: Непрерывно тестируйте модели для агентических угроз, таких как внедрение перекрестных запросов, нарушение намерений и небезопасный выбор средства. Устраняет угон агента и непреднамеренные действия.
  • Выравнивание возможностей: Избегайте чрезмерно способных моделей, если более простые или более ограниченные модели соответствуют потребностям системы. Снижает чрезмерную автономию и увеличивает радиус взрыва.

Элементы управления уровнем системы безопасности

Уровень системы безопасности перехватывает сбои во время выполнения, когда агенты взаимодействуют с ненадежным содержимым, инструментами, API и пользователями. Эти меры защиты формируют важную защиту от операционных рисков, включая перехват агента, вредные выходные данные, утечку конфиденциальных данных и неправильное использование среды выполнения.

Рекомендуемые элементы управления:

  • Фильтрация входных и выходных данных: Обнаружение и блокировка вредоносных, манипулятивных или небезопасных входных и выходных данных, включая непрямую внедрение запроса. Уменьшает риск незаконного захвата агентов и утечек конфиденциальных данных.
  • Агент ограничители: Принудительно обеспечивайте выполнение задач и предотвращайте небезопасные вызовы инструментов во время выполнения. Снижает вероятность непреднамеренных действий и неправомерного использования с высоким воздействием.
  • Логирование и наблюдаемость: Сбор планов агента, вызовов инструментов, решений и результатов для поддержки аудита, реагирования на инциденты и улучшения. Устраняет сбои понятности и невыявленное неправильное использование.
  • Обнаружение злоупотреблений и аномалий: Отслеживайте повторяющиеся попытки обхода или аномальные шаблоны поведения. Ослабляет постоянное сканирование и скрытую утечку данных.

Элементы управления уровня приложений

Уровень приложений определяет, как создается агент, какие действия он может предпринять, а также как применяются элементы управления. Именно в этом случае принципы безопасности становятся принудительным поведением системы.

Рекомендуемые элементы управления:

  • Агенты в качестве микрослужб: Агенты проектирования, такие как микрослужбы с изолированными разрешениями и узким доступом к средствам. Смягчает несоответствие, радиус взрыва и утечку конфиденциальных данных.
  • Явные схемы действий: Определите допустимые действия, необходимые входные данные, уровни риска, ограничения выполнения и требования к ведению журнала. Снижает риск непреднамеренных действий и небезопасных вызовов инструментов.
  • Детерминированный человек в цикле (HITL): Обеспечение человеческой проверки для высокорискованных или необратимых действий с помощью логики оркестратора, а не модели. Устраняет пробелы в контроле надзорных функций и несоответствия.
  • Наименее привилегированный и минимальный дизайн действий: Начните без разрешенных действий по умолчанию и постепенно включите возможности на основе ролей и рисков. Назначьте каждому агенту уникальное проверяемое удостоверение для принудительного применения RBAC. Устраняет утечку конфиденциальных данных, агентское разрастание и излишние права доступа.
  • Системные сообщения в качестве подкрепления: Используйте структурированные системные инструкции для укрепления ролей и границ, всегда поддерживаемых детерминированными элементами управления. Ослабляет угон агента и неправильное согласование.

Размещение элементов управления слоями

Уровень позиционирования определяет, как люди понимают, доверяют и полагаются на агентную систему. Плохое расположение может привести к риску даже в тех случаях, когда технические элементы управления сильны.

Рекомендуемые элементы управления:

  • Четкое раскрытие: Сделать его явным, когда пользователи взаимодействуют с автономным агентом ИИ. Устраняет ошибки прозрачности и раскрытия информации.
  • Прозрачность возможностей: Обмен данными о том, что агент может и не может сделать, включая ограничения и неопределенность. Избегайте позиционирования агентов как авторитетных или непобедимых. Снижает неуместную зависимость.
  • Видимые пользователю границы: Отображайте запланированные действия, утверждения и результаты, чтобы пользователи могли обнаруживать ненормальное поведение. Устраняет сбои понятности.
  • Безопасные шаблоны пользовательского интерфейса: Убедитесь, что механизмы проверки, утверждения и завершения работы доступны и защищены. Устраняет неправильное использование и чрезмерное использование.

Решения Майкрософт

Приведенные выше элементы управления описывают, что следует реализовать. Следующие решения Microsoft помогают реализовать эти меры по снижению рисков в области идентификации, управления, операционного применения и обнаружения.

Основная плоскость управления

  • Microsoft Agent 365:
    • Предоставляет централизованную инвентаризацию, управление, границы доступа и видимость между агентами.
    • Поддерживает: предотвращение разрастания агента, минимальные привилегии и управление. Поддерживает: предотвращение неконтролируемого разрастания агентов, наименьшие возможные привилегии, управление.

Выбор модели и оценка

Система безопасности и меры по снижению рисков в среде выполнения

  • Microsoft Foundry (Guardrails, фильтры содержимого, мониторинг злоупотреблений)
    • Применяет соблюдение требований к задачам, фильтрует ненадежные входные и выходные данные и обнаруживает шаблоны неправильного использования.
    • Поддерживает: устранение рисков внедрения запросов, предотвращение утечки.

Защита удостоверений и данных

  • Microsoft Entra:

    • Предоставляет идентификацию, условный доступ и управление доступом на основе ролей для агентов.
    • Поддерживает: наименьший уровень привилегий, управление доступом.
  • Microsoft Purview:

    • Предоставляет классификацию данных, управление и применение политик.
    • Поддерживает: защиту конфиденциальных данных.

Проектирование пользовательского интерфейса

Обнаружение и ответ (поддержка)

  • Microsoft Defender и Microsoft Sentinel для управления безопасностью, корреляции сигналов и реагирования на инциденты в рабочих нагрузках агента.
  • Azure Monitor и Application Insights для телеметрии и наблюдаемости для поведения и производительности агента.

Руководство

Организации, стремящиеся принять этот шаблон, могут применять следующие практические методики:

Категория практики Рекомендуемые действия Ресурс
Управление средствами, агентами и моделями Подключение агентов к Foundry с помощью поддерживаемых платформ или регистрации пользовательских агентов Контрольная плоскость Microsoft Foundry
Безопасность содержимого и устойчивость внедрения запросов Входные и выходные данные фильтруются; полученное содержимое обрабатывается как ненадежное; Блокируется непрямое внедрение приглашения Фильтрация содержимого Foundry и защитные экраны для запросов
Соблюдение задач и безопасность инструментов Обеспечение разрешённых списков инструментов и детерминированной проверки Foundry Agent Guardrails
Проверка систем безопасности искусственного интеллекта Непрерывное тестирование на внедрение командного ввода, разрыв намерений, выбор небезопасного инструмента и утечка данных Агент Foundry AI Red Teaming / PyRIT
Идентификация и доступ для агентов Применение минимальных привилегий, условного доступа и управления жизненным циклом Microsoft Entra
Управление данными и соответствие требованиям Классификация и защита конфиденциальных данных Майкрософт Purview
Управление позицией Оценка конфигурации и уязвимостей Microsoft Defender для облака
Обнаружение неправильного использования Сопоставление журналов и трассировок Microsoft Sentinel

Результаты

Преимущества

  • Агенты работают в пределах определенного намерения, разрешений и границ.
  • Действия с высоким риском требуют однозначного утверждения человеком.
  • Поведение агента является наблюдаемым, проверяемым и управляемым в масштабе.
  • Уязвимость конфиденциальных данных снижается с помощью минимальных привилегий и применения политик.
  • Организации сохраняют видимость и контроль по мере роста использования агента.
  • Доверие создается благодаря прозрачности, подотчетности и предсказуемому поведению.

Компромиссы

  • Для реализации многоуровневого элемента управления требуется дополнительная инженерная работа.
  • Автономные системы представляют архитектуру и операционную сложность.
  • Человеческий надзор добавляет трения к рабочим процессам с высоким риском.
  • Для управления и наблюдаемости требуются устойчивые операционные инвестиции.

Ключевые факторы успеха

  • Соблюдение задач
  • Участие человека
  • Детерминированные гарантии
  • Прозрачность и раскрытие информации
  • Сопротивление перехвату
  • Наименьшие привилегии и управление
  • Осведомленность о цепочке поставок

Сводка

Разблокировка человеческого потенциала начинается с доверия. Способность агентических систем планировать, решать и действовать автономно означает, что небольшие несоответствия, надзоры или пробелы в безопасности могут привести к значительным последствиям и потере доверия.

По мере того как эти системы становятся более глубоко интегрированными с инструментами, API и другими агентами, их поведение становится все более сложным, что усложняет пути, которыми может быть нанесен вред. Риски, связанные с поведением агента, являются системными и требуют стратегий устранения рисков, охватывающих полный системный стек.

Применив защиту в глубине модели, системы безопасности, приложения и размещения слоев, а также используя интегрированную экосистему управления безопасностью и агентами Корпорации Майкрософт, организации могут развертывать агентические системы, которые являются автономными, наблюдаемыми и устойчивыми.