Поделиться через


Выполнение мер по снижению рисков в агенте SRE Azure

Агент диагностирует проблемы и устраняет их. Система перезапускает службы, масштабирует ресурсы, ужесточает параметры безопасности и собирает диагностические данные, все на уровне контроля, который вы выбираете.

[! видео <VIDEO_URL>/Azure_SRE_Agent__Verified_Fix.mp4]

Подсказка

  • Попросите агента устранить проблему. Он предлагает решение, утверждает его и выполняет исправление.
  • Полный след аудита: кто его инициировал, что изменилось и сработало ли это.
  • Выберите уровень доверия: режим проверки (утвердить каждое действие) или автономный режим (агент обрабатывает его).

Проблема: диагностика без действий тратит время

Вы определили проблему. Что дальше? Перейдите на портал Azure, найдите нужный блейд, подтвердите ресурс, подтвердите в диалоговых окнах, дождитесь завершения операции и проверьте, что она выполнена корректно. Расследование заняло пять минут. Исправление занимает еще десять минут.

Это трение существует в рабочих рабочих процессах:

  • Ежедневные операции: масштабирование ресурсов для ожидаемой нагрузки, перезапуск служб во время периодов обслуживания.
  • Проверки соответствия требованиям: защита параметров безопасности в десятках учетных записей хранения.
  • Ответ на звонок: быстро выполняйте известные исправления, чтобы инженеры могли вернуться в спящий режим.
  • Упреждающая оптимизация: настройте артикулы SKU на основе шаблонов использования до возникновения проблем.

Закрытие цикла вашим агентом

Когда агент идентифицирует проблему, он не останавливается на том, чтобы просто сказать, в чем проблема. Он предлагает определенное действие исправления и в зависимости от режима выполнения либо ожидает утверждения, либо немедленно выполняет действие.

Агент следует согласованному шаблону: диагностика → выявления действий → проверки разрешений → выполнения (или предложения) → проверить, работает ли исправление. Каждое действие регистрируется в журнале с тем, кто активировал его, что изменилось, почему и было ли оно выполнено успешно.

Схема, показывающего пути отклика агента: выполнение исправления, создание рабочего элемента или отправку уведомлений.

После изучения агент может предпринять прямые действия, создать задачи для отслеживания или уведомить команду — при этом каждое действие будет иметь полный контекст.

Что отличается от сценариев

Скрипты являются жесткими. Они выполняют одно и то же действие независимо от контекста. Ваш агент сначала анализирует ситуацию. Учитываются результаты расследования, воспоминания о прошлых инцидентах, а также то, что рекомендуют ваши навыки и база знаний. Тот же симптом может привести к перезапуску в одном случае и масштабированию в другом, потому что агент адаптируется на основе доказательств.

Режимы работы дают вам доверие с градацией. Начните в режиме проверки , где агент предлагает и утверждает. Перейдите в автономный режим, если вы уверены в шаблоне. Используйте ReadOnly для агентов, используемых только для мониторинга, которые никогда не выполняют действия.

Что может сделать агент

Агент может выполнять любое действие Azure с помощью команд Azure CLI. Если вы можете запустить это в az, агент также может это сделать. Эта возможность включает управление любым типом ресурсов, изменение конфигураций, создание ресурсов и выполнение любой операции Azure.

Тип команды Что он позволяет
Чтение команд Запрос любого ресурса Azure : az webapp list, az containerapp show, az vm list. az network vnet show Выполняется немедленно, утверждение не требуется.
Написание команд Измените любой ресурс Azure: az webapp restart, az containerapp update, az vm resize. az role assignment create Требуется утверждение в режиме проверки.

Действия агента ограничены только разрешениями, назначенными управляемому удостоверению. Если вы предоставляете роль "Сотрудник" в группе ресурсов, ваш агент может управлять всем в этой группе. Если вы назначаете агенту пользовательскую роль с определенными действиями, он ограничен выполнением только этих действий.

Защитные перила

Агент применяет ограничения безопасности на уровне команды.

  • Операции удаления заблокированы — агент никогда не выполняет команды delete и remove. Она возвращает ошибку, которая направляет пользователей на портал Azure для удаления.
  • Команды Key Vault заблокированы . Агент блокирует все az keyvault команды, чтобы предотвратить воздействие учетных данных.
  • Блокировки управления соблюдаются . Перед изменением любого ресурса агент проверяет наличие блокировок управления Azure. Ресурсы с блокировками ReadOnly нельзя изменить.
  • Проверка подписки — агент проверяет идентификаторы подписок в командах для правильного формата GUID перед выполнением.

До и после

В следующей таблице сравнивается процесс устранения рисков вручную с подходом с помощью агента.

До После
Исправление выполнения Перейдите на портал Azure, найдите ресурс, пройдите через панели Запрос агента, утверждение, готово
Проверка Проверка работы исправления вручную Агент проверяет и сообщает результат
Аудит Надеюсь, кто-то задокументировал то, что они сделали Полный путь аудита в Application Insights
Знания Один инженер знает исправление Агент постоянно применяет обучаемые шаблоны

Требования к разрешениям

По умолчанию агенты имеют доступ читателя и не могут выполнять действия. Вы предоставляете разрешения на запись явным образом, назначая роли управляемому удостоверению агента.

Объем На что агент может воздействовать Рекомендуется для
Ресурс Только один ресурс Максимальное ограничение, начните здесь
Группа ресурсов Все ресурсы в одной группе Нагрузки в производственной среде
Subscription Любой ресурс в подписке Только разработка и тестирование

Предупреждение

Агент проверяет блокировки управления Azure перед изменением любого ресурса. Нельзя изменять ресурсы с блокировками ReadOnly независимо от разрешений или режима выполнения. Операции удаления и изъятия полностью блокируются. Портал Azure можно использовать для удаления.

Альтернативные пути отклика

Прямые способы устранения рисков не являются единственным вариантом. Многие команды предпочитают направлять результаты в рабочие элементы или системы билетов, а не выполнять действия напрямую. Рабочие элементы особенно полезны, если применяются процессы управления изменениями или требуется проверка человеком.

Путь ответа Принцип работы лучше всего подходит для
Прямое устранение рисков Агент выполняет перезапуск, масштабирование или ужесточение Надежные шаблоны, непроизводственные
Создание рабочего элемента Агент создает задачу GitHub или рабочий элемент Azure DevOps Управление изменениями с участием человека
Отправка уведомления Публикация агентом в Teams и отправка электронной почты Осведомленность без действий
Рабочий процесс триггера Агент запускает GitHub Actions или Logic Apps Интеграция CI/CD, многоэтапные процессы

Настройте создание рабочих элементов и уведомления через соединители. Например, подключите сервер GitHub MCP, чтобы разрешить агенту создавать проблемы или подключать Azure DevOps для автоматического создания рабочих элементов.

Дополнительные сведения см. в статье "Отправка уведомлений и автоматизация рабочих процессов " для объединения этих типов ответов.

Пример: устранение рисков, инициируемых инцидентом

В следующем примере показано, как ваш агент обрабатывает инцидент с памятью в 3:47, пока вы спите.

03:47 — PagerDuty запускает оповещение: "Высокое использование памяти на prod-api"

Ваш агент (в режиме проверки) берет на себя всю работу:

  1. Подтверждает инцидент — PagerDuty показывает сообщение "Подтверждено агентом SRE".

  2. Автоматически исследуется

    • Запросы App Insights: память на уровне 94%, тенденция роста в течение последних 2 часов.
    • Проверка истории развертывания: недавних развертываний нет.
    • Вспоминает: "В прошлый раз это исправилось перезагрузкой."
  3. Предлагает исправление — публикует в теме с инцидентом:

    Memory at 94% on prod-api (App Service).
    Recommended action: Restart the App Service.
    
    Evidence:
    - Memory climbing since 1:30 AM
    - No recent deployments
    - Past incident: restart resolved similar issue on 2026-01-15
    
    [Approve] [Deny]
    
  4. Вы утверждаете (или агент в автономном режиме выполняет немедленно).

  5. Агент выполняет и проверяет:

    ✓ Restarted prod-api
    ✓ Memory now at 42%
    ✓ Incident resolved
    

Что случилось: Вы нажали "Утвердить", и агент завершил расследование, действие и проверку.

Аудиторский след

Система записывает все действия по устранению рисков вместе с полным контекстом.

Поле Захваченные сведения
Идентичность Агент и управляемое удостоверение
Действие Точную операцию, выполненную
Метка времени При выполнении операции
Trigger Диагноз или условие, которое привело к действию
Результат Успешное выполнение или неудача с верификацией после выполнения

Вы можете запросить журнал аудита в Application Insights с помощью журналов мониторинга > на портале агента. Система регистрирует каждую azAgentAzCliExecution команду как настраиваемое событие. Дополнительные сведения см. в разделе "Действия агента аудита".

Следующий шаг