Безопасные автономные агентные системы ИИ

Имя компонента: мониторинг и обнаружение угроз
Имя шаблона: безопасные агентические системы ИИ

Контекст и проблема

Автономные системы ИИ могут планировать, вызывать средства, получать доступ к данным и выполнять действия с ограниченным вмешательством человека. С увеличением автономности потенциальное воздействие несоответствия, неправильного использования и компрометации также возрастает.

Статья "Шаблоны и методики" Уменьшение рисков для автономных агентных систем ИИ описывает риски, связанные с проектированием, безопасностью и управлением, возникающие из-за поведения агентов. Этот шаблон переходит от идентификации риска к сокращению рисков, акцентируя внимание на элементах управления и решениях по проектированию, которые на практике устраняют эти риски.

Решение

Для защиты агентических систем требуется стратегия глубинной защиты , которая предполагает сбой на отдельных уровнях и системах конструкций, чтобы ни один сбой не приводит к неприемлемой вреду.

Элементы управления в слоях устранения рисков

Элементы управления уровня модели

Модель выступает в качестве движка логических рассуждений агента и влияет на то, как агент интерпретирует инструкции, планирует действия и реагирует на враждебные входные данные. Различные модели предлагают различные возможности и функции безопасности, влияющие на выходные данные и действия агента. Выбор соответствующей модели помогает избежать несоответствия, ошибок и небезопасных результатов.

Рекомендуемые элементы управления:

Преднамеренный выбор модели: Выберите модели, глубина рассуждений, поведение отказа и использование инструментов которых соответствуют автономности агента и его профиля риска. Устраняет несоответствие задач и небезопасные действия.
Управление цепочками поставок моделей: Рассматривать модели как критические компоненты безопасности, отслеживая версии, оценивая обновления и подтверждая изменения перед внедрением. Устраняет компрометацию цепочки поставок.
Оценка и красная команда: Непрерывно тестируйте модели для агентических угроз, таких как внедрение перекрестных запросов, нарушение намерений и небезопасный выбор средства. Устраняет угон агента и непреднамеренные действия.
Выравнивание возможностей: Избегайте чрезмерно способных моделей, если более простые или более ограниченные модели соответствуют потребностям системы. Снижает чрезмерную автономию и увеличивает радиус взрыва.

Элементы управления уровнем системы безопасности

Уровень системы безопасности перехватывает сбои во время выполнения, когда агенты взаимодействуют с ненадежным содержимым, инструментами, API и пользователями. Эти меры защиты формируют важную защиту от операционных рисков, включая перехват агента, вредные выходные данные, утечку конфиденциальных данных и неправильное использование среды выполнения.

Рекомендуемые элементы управления:

Фильтрация входных и выходных данных: Обнаружение и блокировка вредоносных, манипулятивных или небезопасных входных и выходных данных, включая непрямую внедрение запроса. Уменьшает риск незаконного захвата агентов и утечек конфиденциальных данных.
Агент ограничители: Принудительно обеспечивайте выполнение задач и предотвращайте небезопасные вызовы инструментов во время выполнения. Снижает вероятность непреднамеренных действий и неправомерного использования с высоким воздействием.
Логирование и наблюдаемость: Сбор планов агента, вызовов инструментов, решений и результатов для поддержки аудита, реагирования на инциденты и улучшения. Устраняет сбои понятности и невыявленное неправильное использование.
Обнаружение злоупотреблений и аномалий: Отслеживайте повторяющиеся попытки обхода или аномальные шаблоны поведения. Ослабляет постоянное сканирование и скрытую утечку данных.

Элементы управления уровня приложений

Уровень приложений определяет, как создается агент, какие действия он может предпринять, а также как применяются элементы управления. Именно в этом случае принципы безопасности становятся принудительным поведением системы.

Рекомендуемые элементы управления:

Агенты в качестве микрослужб: Агенты проектирования, такие как микрослужбы с изолированными разрешениями и узким доступом к средствам. Смягчает несоответствие, радиус взрыва и утечку конфиденциальных данных.
Явные схемы действий: Определите допустимые действия, необходимые входные данные, уровни риска, ограничения выполнения и требования к ведению журнала. Снижает риск непреднамеренных действий и небезопасных вызовов инструментов.
Детерминированный человек в цикле (HITL): Обеспечение человеческой проверки для высокорискованных или необратимых действий с помощью логики оркестратора, а не модели. Устраняет пробелы в контроле надзорных функций и несоответствия.
Наименее привилегированный и минимальный дизайн действий: Начните без разрешенных действий по умолчанию и постепенно включите возможности на основе ролей и рисков. Назначьте каждому агенту уникальное проверяемое удостоверение для принудительного применения RBAC. Устраняет утечку конфиденциальных данных, агентское разрастание и излишние права доступа.
Системные сообщения в качестве подкрепления: Используйте структурированные системные инструкции для укрепления ролей и границ, всегда поддерживаемых детерминированными элементами управления. Ослабляет угон агента и неправильное согласование.

Размещение элементов управления слоями

Уровень позиционирования определяет, как люди понимают, доверяют и полагаются на агентную систему. Плохое расположение может привести к риску даже в тех случаях, когда технические элементы управления сильны.

Рекомендуемые элементы управления:

Четкое раскрытие: Сделать его явным, когда пользователи взаимодействуют с автономным агентом ИИ. Устраняет ошибки прозрачности и раскрытия информации.
Прозрачность возможностей: Обмен данными о том, что агент может и не может сделать, включая ограничения и неопределенность. Избегайте позиционирования агентов как авторитетных или непобедимых. Снижает неуместную зависимость.
Видимые пользователю границы: Отображайте запланированные действия, утверждения и результаты, чтобы пользователи могли обнаруживать ненормальное поведение. Устраняет сбои понятности.
Безопасные шаблоны пользовательского интерфейса: Убедитесь, что механизмы проверки, утверждения и завершения работы доступны и защищены. Устраняет неправильное использование и чрезмерное использование.

Решения Майкрософт

Приведенные выше элементы управления описывают, что следует реализовать. Следующие решения Microsoft помогают реализовать эти меры по снижению рисков в области идентификации, управления, операционного применения и обнаружения.

Основная плоскость управления

Microsoft Agent 365:
- Предоставляет централизованную инвентаризацию, управление, границы доступа и видимость между агентами.
- Поддерживает: предотвращение разрастания агента, минимальные привилегии и управление. Поддерживает: предотвращение неконтролируемого разрастания агентов, наименьшие возможные привилегии, управление.

Выбор модели и оценка

Каталог моделей Microsoft Foundry для оценки и выбора моделей, подходящих для варианта использования, включая базовые показатели безопасности и безопасности.
Агент по Red Teaming от Microsoft Foundry и инструмент Python Risk Identification Tool (PyRIT) для Red Team и непрерывной оценки.

Система безопасности и меры по снижению рисков в среде выполнения

Microsoft Foundry (Guardrails, фильтры содержимого, мониторинг злоупотреблений)
- Применяет соблюдение требований к задачам, фильтрует ненадежные входные и выходные данные и обнаруживает шаблоны неправильного использования.
- Поддерживает: устранение рисков внедрения запросов, предотвращение утечки.

Защита удостоверений и данных

Microsoft Entra:
- Предоставляет идентификацию, условный доступ и управление доступом на основе ролей для агентов.
- Поддерживает: наименьший уровень привилегий, управление доступом.
Microsoft Purview:
- Предоставляет классификацию данных, управление и применение политик.
- Поддерживает: защиту конфиденциальных данных.

Проектирование пользовательского интерфейса

Набор средств взаимодействия с искусственным интеллектом (HAX) для открытости и ориентированных на человека шаблонов пользовательского интерфейса.
Secure by Design инструментарий UX для безопасных UX шаблонов

Обнаружение и ответ (поддержка)

Microsoft Defender и Microsoft Sentinel для управления безопасностью, корреляции сигналов и реагирования на инциденты в рабочих нагрузках агента.
Azure Monitor и Application Insights для телеметрии и наблюдаемости для поведения и производительности агента.

Руководство

Организации, стремящиеся принять этот шаблон, могут применять следующие практические методики:

Категория практики	Рекомендуемые действия	Ресурс
Управление средствами, агентами и моделями	Подключение агентов к Foundry с помощью поддерживаемых платформ или регистрации пользовательских агентов	Контрольная плоскость Microsoft Foundry
Безопасность содержимого и устойчивость внедрения запросов	Входные и выходные данные фильтруются; полученное содержимое обрабатывается как ненадежное; Блокируется непрямое внедрение приглашения	Фильтрация содержимого Foundry и защитные экраны для запросов
Соблюдение задач и безопасность инструментов	Обеспечение разрешённых списков инструментов и детерминированной проверки	Foundry Agent Guardrails
Проверка систем безопасности искусственного интеллекта	Непрерывное тестирование на внедрение командного ввода, разрыв намерений, выбор небезопасного инструмента и утечка данных	Агент Foundry AI Red Teaming / PyRIT
Идентификация и доступ для агентов	Применение минимальных привилегий, условного доступа и управления жизненным циклом	Microsoft Entra
Управление данными и соответствие требованиям	Классификация и защита конфиденциальных данных	Майкрософт Purview
Управление позицией	Оценка конфигурации и уязвимостей	Microsoft Defender для облака
Обнаружение неправильного использования	Сопоставление журналов и трассировок	Microsoft Sentinel

Результаты

Преимущества

Агенты работают в пределах определенного намерения, разрешений и границ.
Действия с высоким риском требуют однозначного утверждения человеком.
Поведение агента является наблюдаемым, проверяемым и управляемым в масштабе.
Уязвимость конфиденциальных данных снижается с помощью минимальных привилегий и применения политик.
Организации сохраняют видимость и контроль по мере роста использования агента.
Доверие создается благодаря прозрачности, подотчетности и предсказуемому поведению.

Компромиссы

Для реализации многоуровневого элемента управления требуется дополнительная инженерная работа.
Автономные системы представляют архитектуру и операционную сложность.
Человеческий надзор добавляет трения к рабочим процессам с высоким риском.
Для управления и наблюдаемости требуются устойчивые операционные инвестиции.

Ключевые факторы успеха

Соблюдение задач
Участие человека
Детерминированные гарантии
Прозрачность и раскрытие информации
Сопротивление перехвату
Наименьшие привилегии и управление
Осведомленность о цепочке поставок

Сводка

Разблокировка человеческого потенциала начинается с доверия. Способность агентических систем планировать, решать и действовать автономно означает, что небольшие несоответствия, надзоры или пробелы в безопасности могут привести к значительным последствиям и потере доверия.

По мере того как эти системы становятся более глубоко интегрированными с инструментами, API и другими агентами, их поведение становится все более сложным, что усложняет пути, которыми может быть нанесен вред. Риски, связанные с поведением агента, являются системными и требуют стратегий устранения рисков, охватывающих полный системный стек.

Применив защиту в глубине модели, системы безопасности, приложения и размещения слоев, а также используя интегрированную экосистему управления безопасностью и агентами Корпорации Майкрософт, организации могут развертывать агентические системы, которые являются автономными, наблюдаемыми и устойчивыми.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-03-19

Безопасные автономные агентные системы ИИ

Контекст и проблема

Решение

Элементы управления в слоях устранения рисков

Элементы управления уровня модели

Элементы управления уровнем системы безопасности

Элементы управления уровня приложений

Размещение элементов управления слоями

Решения Майкрософт

Основная плоскость управления

Выбор модели и оценка

Система безопасности и меры по снижению рисков в среде выполнения

Защита удостоверений и данных

Проектирование пользовательского интерфейса

Обнаружение и ответ (поддержка)

Руководство

Результаты

Преимущества

Компромиссы

Ключевые факторы успеха

Сводка

Обратная связь

Дополнительные ресурсы