Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Подсказка
- Используйте исследование на основе гипотез, а не случайный поиск по журналам.
- Предоставьте полную цепочку доказательств, показывающую , почему это причина.
- Вспомните аналогичные прошлые инциденты и их исправления.
Проблема: поиск по журналам не является исследованием
Большинство процессов отладки начинается с того, что мы говорим "показать мне ошибки". Осуществляется запрос в журналах, прокрутка результатов, копирование временной метки, смена инструментов и выполнение следующего запроса. Ты не расследуешь. Вы сопоставляете данные вручную и удерживаете мысленный процесс в голове.
Основная проблема не в поиске журналов. Важно знать, какие вопросы задавать, какими инструментами пользоваться и как связать данные между журналами, метриками, развертываниями и прошлыми инцидентами. Эта умственная модель живет в головах старших инженеров, и они не могут быть на каждом звонке. Новые члены команды тратят часы на решения проблем, которые ветераны решают за считанные минуты, потому что аргументация нигде не задокументирована.
Как агент Azure SRE решает эту проблему
Агент исследует профессионально, как опытный инженер по надежности сайта (SRE). Это не только функция поиска в журналах. Он формирует гипотезы о том, что пошло не так и систематически проверяет каждый из них, используя доказательства.
- Собирает контекст: запросы Application Insights, Azure Monitor, журнал развертывания, журналы действий и свойства ресурсов.
- Формы гипотез: создает теории на основе шаблона доказательств.
- Подтверждает каждую гипотезу: тестирует гипотезы систематически, исключая ложные предпосылки.
- Объясняет вывод: показывает полный аргумент с поддержкой доказательств и ссылок.
Что делает это разными
В отличие от поиска по журналам, ваш агент анализирует проблему. "Показать ошибки" дает вам данные для интерпретации. Агент интерпретирует данные для вас, формируя теории, тестируя их и объясняя выводы.
В отличие от статических панелей мониторинга, агент адаптируется к конкретному инциденту. Он не просто показывает метрики. Он решает, какие метрики имеют значение, сопоставляет их с другими доказательствами и сообщает вам, почему.
В отличие от сценариев, агент обрабатывает новые ситуации. Скрипт выполняет одни и те же действия каждый раз. Агент анализирует, что изменилось в этот раз, и корректирует своё расследование соответственно.
| Функциональность | Каков его вклад |
|---|---|
| Память | Мы видели эту самую проблему 3 недели назад. Исправление было X. |
| База знаний | Руководства по выполнению инструкций (runbooks) и документы по архитектуре помогают в формировании гипотез. |
| Исходный код | Сопоставление ошибок с исходным кодом и поиск связанных изменений |
| Субагенты | Делегировать специалистам по конкретным службам (Application Insights, AKS, Container Apps и т. д.) |
До и после
| Категория | До | После |
|---|---|---|
| Подход к расследованию | Просмотрите журналы, надеюсь, вы найдете что-то | Формы агента и тесты гипотез |
| Открытые инструменты | 4+ порталов, ручная корреляция | 0 (агент запрашивает все источники) |
| Reasoning | "Я думаю, что это база данных..." | База данных DTU загружена на 98%, проверка выполнена. |
| След доказательств | В голове | Полная цепочка с объяснением |
| Следующий раз | Начать с нуля | Память вспоминает аналогичные инциденты |
Пример: исследование времени ожидания базы данных
Симптом: «500 ошибок в конечной точке API /api/orders»
HYPOTHESIS 1: Recent deployment broke something
├─ Checked: Last deployment was 3 days ago
├─ Evidence: Error rate stable until 30 minutes ago
└─ Result: INVALIDATED
HYPOTHESIS 2: Database overloaded
├─ Checked: Azure SQL metrics (CPU, DTU, connections)
├─ Evidence: DTU at 98%, query duration 4x normal
├─ Traced: SELECT * FROM orders WHERE... taking 8.2s
└─ Result: VALIDATED
ROOT CAUSE: Orders table missing index on customer_id column.
Query plan shows full table scan on 2.1M rows.
RECOMMENDED ACTION: Add index on orders.customer_id
Similar fix applied in INC-2341 (3 weeks ago)
Начало работы
Анализ первопричин работает автоматически со встроенными средствами Azure. Чтобы включить более глубокий анализ, рассмотрите следующие улучшения.
| Повышение | Что он позволяет | Setup |
|---|---|---|
| Управление исходным кодом | Корреляция ошибок в коде, поиск семантического кода | Подключение исходного кода |
| База знаний | Контекст для создания гипотез | Отправка знаний |
| Пользовательская телеметрия | Бизнес-метрики в Kusto | Соединитель Kusto |