Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Агент диагностирует проблемы и устраняет их. Система перезапускает службы, масштабирует ресурсы, ужесточает параметры безопасности и собирает диагностические данные, все на уровне контроля, который вы выбираете.
[! видео <VIDEO_URL>/Azure_SRE_Agent__Verified_Fix.mp4]
Подсказка
- Попросите агента устранить проблему. Он предлагает решение, утверждает его и выполняет исправление.
- Полный след аудита: кто его инициировал, что изменилось и сработало ли это.
- Выберите уровень доверия: режим проверки (утвердить каждое действие) или автономный режим (агент обрабатывает его).
Проблема: диагностика без действий тратит время
Вы определили проблему. Что дальше? Перейдите на портал Azure, найдите нужный блейд, подтвердите ресурс, подтвердите в диалоговых окнах, дождитесь завершения операции и проверьте, что она выполнена корректно. Расследование заняло пять минут. Исправление занимает еще десять минут.
Это трение существует в рабочих рабочих процессах:
- Ежедневные операции: масштабирование ресурсов для ожидаемой нагрузки, перезапуск служб во время периодов обслуживания.
- Проверки соответствия требованиям: защита параметров безопасности в десятках учетных записей хранения.
- Ответ на звонок: быстро выполняйте известные исправления, чтобы инженеры могли вернуться в спящий режим.
- Упреждающая оптимизация: настройте артикулы SKU на основе шаблонов использования до возникновения проблем.
Закрытие цикла вашим агентом
Когда агент идентифицирует проблему, он не останавливается на том, чтобы просто сказать, в чем проблема. Он предлагает определенное действие исправления и в зависимости от режима выполнения либо ожидает утверждения, либо немедленно выполняет действие.
Агент следует согласованному шаблону: диагностика → выявления действий → проверки разрешений → выполнения (или предложения) → проверить, работает ли исправление. Каждое действие регистрируется в журнале с тем, кто активировал его, что изменилось, почему и было ли оно выполнено успешно.
После изучения агент может предпринять прямые действия, создать задачи для отслеживания или уведомить команду — при этом каждое действие будет иметь полный контекст.
Что отличается от сценариев
Скрипты являются жесткими. Они выполняют одно и то же действие независимо от контекста. Ваш агент сначала анализирует ситуацию. Учитываются результаты расследования, воспоминания о прошлых инцидентах, а также то, что рекомендуют ваши навыки и база знаний. Тот же симптом может привести к перезапуску в одном случае и масштабированию в другом, потому что агент адаптируется на основе доказательств.
Режимы работы дают вам доверие с градацией. Начните в режиме проверки , где агент предлагает и утверждает. Перейдите в автономный режим, если вы уверены в шаблоне. Используйте ReadOnly для агентов, используемых только для мониторинга, которые никогда не выполняют действия.
Что может сделать агент
Агент может выполнять любое действие Azure с помощью команд Azure CLI. Если вы можете запустить это в az, агент также может это сделать. Эта возможность включает управление любым типом ресурсов, изменение конфигураций, создание ресурсов и выполнение любой операции Azure.
| Тип команды | Что он позволяет |
|---|---|
| Чтение команд | Запрос любого ресурса Azure : az webapp list, az containerapp show, az vm list. az network vnet show Выполняется немедленно, утверждение не требуется. |
| Написание команд | Измените любой ресурс Azure: az webapp restart, az containerapp update, az vm resize. az role assignment create Требуется утверждение в режиме проверки. |
Действия агента ограничены только разрешениями, назначенными управляемому удостоверению. Если вы предоставляете роль "Сотрудник" в группе ресурсов, ваш агент может управлять всем в этой группе. Если вы назначаете агенту пользовательскую роль с определенными действиями, он ограничен выполнением только этих действий.
Защитные перила
Агент применяет ограничения безопасности на уровне команды.
-
Операции удаления заблокированы — агент никогда не выполняет команды
deleteиremove. Она возвращает ошибку, которая направляет пользователей на портал Azure для удаления. -
Команды Key Vault заблокированы . Агент блокирует все
az keyvaultкоманды, чтобы предотвратить воздействие учетных данных. - Блокировки управления соблюдаются . Перед изменением любого ресурса агент проверяет наличие блокировок управления Azure. Ресурсы с блокировками ReadOnly нельзя изменить.
- Проверка подписки — агент проверяет идентификаторы подписок в командах для правильного формата GUID перед выполнением.
До и после
В следующей таблице сравнивается процесс устранения рисков вручную с подходом с помощью агента.
| До | После | |
|---|---|---|
| Исправление выполнения | Перейдите на портал Azure, найдите ресурс, пройдите через панели | Запрос агента, утверждение, готово |
| Проверка | Проверка работы исправления вручную | Агент проверяет и сообщает результат |
| Аудит | Надеюсь, кто-то задокументировал то, что они сделали | Полный путь аудита в Application Insights |
| Знания | Один инженер знает исправление | Агент постоянно применяет обучаемые шаблоны |
Требования к разрешениям
По умолчанию агенты имеют доступ читателя и не могут выполнять действия. Вы предоставляете разрешения на запись явным образом, назначая роли управляемому удостоверению агента.
| Объем | На что агент может воздействовать | Рекомендуется для |
|---|---|---|
| Ресурс | Только один ресурс | Максимальное ограничение, начните здесь |
| Группа ресурсов | Все ресурсы в одной группе | Нагрузки в производственной среде |
| Subscription | Любой ресурс в подписке | Только разработка и тестирование |
Предупреждение
Агент проверяет блокировки управления Azure перед изменением любого ресурса. Нельзя изменять ресурсы с блокировками ReadOnly независимо от разрешений или режима выполнения. Операции удаления и изъятия полностью блокируются. Портал Azure можно использовать для удаления.
Альтернативные пути отклика
Прямые способы устранения рисков не являются единственным вариантом. Многие команды предпочитают направлять результаты в рабочие элементы или системы билетов, а не выполнять действия напрямую. Рабочие элементы особенно полезны, если применяются процессы управления изменениями или требуется проверка человеком.
| Путь ответа | Принцип работы | лучше всего подходит для |
|---|---|---|
| Прямое устранение рисков | Агент выполняет перезапуск, масштабирование или ужесточение | Надежные шаблоны, непроизводственные |
| Создание рабочего элемента | Агент создает задачу GitHub или рабочий элемент Azure DevOps | Управление изменениями с участием человека |
| Отправка уведомления | Публикация агентом в Teams и отправка электронной почты | Осведомленность без действий |
| Рабочий процесс триггера | Агент запускает GitHub Actions или Logic Apps | Интеграция CI/CD, многоэтапные процессы |
Настройте создание рабочих элементов и уведомления через соединители. Например, подключите сервер GitHub MCP, чтобы разрешить агенту создавать проблемы или подключать Azure DevOps для автоматического создания рабочих элементов.
Дополнительные сведения см. в статье "Отправка уведомлений и автоматизация рабочих процессов " для объединения этих типов ответов.
Пример: устранение рисков, инициируемых инцидентом
В следующем примере показано, как ваш агент обрабатывает инцидент с памятью в 3:47, пока вы спите.
03:47 — PagerDuty запускает оповещение: "Высокое использование памяти на prod-api"
Ваш агент (в режиме проверки) берет на себя всю работу:
Подтверждает инцидент — PagerDuty показывает сообщение "Подтверждено агентом SRE".
Автоматически исследуется
- Запросы App Insights: память на уровне 94%, тенденция роста в течение последних 2 часов.
- Проверка истории развертывания: недавних развертываний нет.
- Вспоминает: "В прошлый раз это исправилось перезагрузкой."
Предлагает исправление — публикует в теме с инцидентом:
Memory at 94% on prod-api (App Service). Recommended action: Restart the App Service. Evidence: - Memory climbing since 1:30 AM - No recent deployments - Past incident: restart resolved similar issue on 2026-01-15 [Approve] [Deny]Вы утверждаете (или агент в автономном режиме выполняет немедленно).
Агент выполняет и проверяет:
✓ Restarted prod-api ✓ Memory now at 42% ✓ Incident resolved
Что случилось: Вы нажали "Утвердить", и агент завершил расследование, действие и проверку.
Аудиторский след
Система записывает все действия по устранению рисков вместе с полным контекстом.
| Поле | Захваченные сведения |
|---|---|
| Идентичность | Агент и управляемое удостоверение |
| Действие | Точную операцию, выполненную |
| Метка времени | При выполнении операции |
| Trigger | Диагноз или условие, которое привело к действию |
| Результат | Успешное выполнение или неудача с верификацией после выполнения |
Вы можете запросить журнал аудита в Application Insights с помощью журналов мониторинга > на портале агента. Система регистрирует каждую azAgentAzCliExecution команду как настраиваемое событие. Дополнительные сведения см. в разделе "Действия агента аудита".