Поделиться через


Project Flash. Использование Azure Resource Graph для мониторинга доступности виртуальных машин Azure

Azure Resource Graph — это одно решение, предлагаемое Flash. Flash — это внутреннее имя проекта, выделенного для создания надежного, надежного и быстрого механизма для мониторинга работоспособности виртуальных машин(виртуальных машин).

В этой статье описывается использование Azure Resource Graph для мониторинга доступности виртуальных машин Azure. Общие сведения о решениях Flash см. в обзоре Flash.

Для документации, конкретной для других решений, предлагаемых Flash, выберите в следующих статьях:

Azure Resource Graph — HealthResources

Эта функция в настоящее время общедоступна. Это полезно для проведения крупномасштабных расследований. Он предоставляет удобный пользовательский интерфейс для получения информации с использованием языка запросов Kusto (KQL). Он также может служить центральным центром для сведений о ресурсах и позволяет легко извлекать исторические данные.

Помимо уже потоковых состояний доступности виртуальных машин, мы опубликовали заметки о доступности виртуальных машин в Azure Resource Graph (ARG) для подробного анализа ошибок и простоя, а также включение механизма отслеживания 14-дневного отслеживания изменений в доступности виртуальных машин для быстрого отладки. С этими новыми дополнениями мы рады сообщить о общедоступной доступности сведений о доступности виртуальных машин в наборе данных HealthResources в ARG! С помощью этого предложения пользователи могут:

  • Эффективно запрашивать последний моментальный снимок доступности виртуальной машины во всех подписках Azure одновременно и при низкой задержке для периодического и автопарка мониторинга.
  • Точно оцените влияние на соглашения об уровне обслуживания по всему бизнесу и быстро активируйте решительные действия по устранению рисков в ответ на нарушения и тип сигнатуры сбоя.
  • Настройте пользовательские панели мониторинга для обеспечения полной работоспособности приложений путем объединения сведений о доступности виртуальных машин с метаданными ресурсов, присутствующих в ARG.
  • Отслеживайте соответствующие изменения в доступности виртуальных машин в 14-дневном окне с помощью механизма отслеживания изменений для проведения подробных исследований.

Примеры запросов

Начало работы

Пользователи могут запрашивать ARG через PowerShell, REST API, Azure CLI или даже портал Azure. Ниже описано, как получить доступ к данным из портал Azure.

  1. После портал Azure перейдите в обозреватель Resource Graph.

    Снимок экрана: целевая страница обозревателя Azure Resource Graph на портал Azure.

  2. Выберите вкладку "Таблица" и (один) щелкните таблицу HealthResources, чтобы получить последний моментальный снимок сведений о доступности виртуальной машины (состояние доступности и заметки о работоспособности).

    Снимок экрана: окно обозревателя Azure Resource Graph с последними состояниями доступности виртуальной машины и заметками о доступности виртуальных машин в таблице

В таблице HealthResources заполнены два типа событий:

Моментальный снимок типа событий в таблице

  • resourcehealth/availabilitystatuses

Это событие обозначает последнее состояние доступности виртуальной машины на основе проверок работоспособности, выполняемых базовой платформой Azure. Состояния доступности, которые в настоящее время создаются для виртуальных машин:

  • Доступно: виртуальная машина запущена и работает должным образом.
  • Недоступно. Мы обнаружили нарушения нормальной работы виртуальной машины, поэтому приложения не будут работать должным образом.
  • Неизвестно: платформа не может точно определить работоспособность виртуальной машины. Обычно пользователи могут вернуться в течение нескольких минут для обновленного состояния.

Чтобы провести опрос последнего состояния доступности виртуальной машины, см. поле свойств, содержащее следующие сведения:

Пример

{
 "targetResourceType": "Microsoft.Compute/virtualMachines",
 "previousAvailabilityState": "Available",
 "targetResourceId": "/subscriptions//resourceGroups//providers/Microsoft.Compute/virtualMachines/",
 "occurredTime": "2022-10-11T11:13:59.9570000Z",
 "availabilityState": "Unavailable"
 }

Описание свойства

Свойство Description Соответствующая категория работоспособности ресурсов (RHC)
targetResourceType Тип ресурса, для которого потоки данных о работоспособности resourceType
targetResourceId ИД ресурса resourceId
произошло время Метка времени, когда платформа выдает последнее состояние доступности eventTimestamp
previousAvailabilityState Предыдущее состояние доступности виртуальной машины previousHealthStatus
availabilityState Текущее состояние доступности виртуальной машины currentHealthStatus

Дополнительные сведения об этих данных см. в разделе HealthResources документации по запросам примеров для получения списка начальных запросов.

  • resourcehealth/resourceannotations (NEWLY ADDED)

Это событие контекстуализирует любые изменения доступности виртуальных машин, детализируя необходимые атрибуты сбоя, чтобы помочь пользователям изучить и устранить неполадки по мере необходимости. Полный список заметок доступности виртуальных машин, создаваемых платформой. Эти заметки можно классифицировать в три сегмента:

  • Заметки простоя. Эти заметки создаются при обнаружении доступности виртуальной машины на недоступность. (Например, во время непредвиденных сбоев узла, операции перезагрузки восстановления).
  • Информационные заметки. Эти заметки создаются во время действий уровня управления без влияния на доступность виртуальной машины. (Например, выделение виртуальной машины, остановка, удаление и запуск). Как правило, дальнейшие действия клиента не требуются в ответ.
  • Пониженные заметки. Эти заметки создаются при обнаружении доступности виртуальных машин под угрозой. (Например, если модели прогнозирования сбоев прогнозируют снижение производительности оборудования, что может привести к перезагрузке виртуальной машины в любое время). Мы настоятельно призываем пользователей повторно развернуть срок, указанный в сообщении заметки, чтобы избежать непреднамеренной потери данных или простоя. Вы можете получить оповещение в масштабируемых наборах виртуальных машин Azure Работоспособность ресурсов или журнал действий в одном из следующих сценариев:

Чтобы провести опрос связанных примечаний доступности виртуальной машины для ресурса, обратитесь к полю свойств, которое содержит следующие сведения:

Пример

{
 "targetResourceType": "Microsoft.Compute/virtualMachines", "targetResourceId": "/subscriptions//resourceGroups//providers/Microsoft.Compute/virtualMachines/",
 "annotationName": "VirtualMachineHostRebootedForRepair",
 "occurredTime": "2022-09-25T20:21:37.5280000Z",
 "category": "Unplanned",
 "summary": "We're sorry, your virtual machine isn't available because an unexpected failure on the host server. Azure has begun the auto-recovery process and is currently rebooting the host server. No further action is required from you at this time. The virtual machine will be back online after the reboot completes.",
 "context": "Platform Initiated",
 "reason": "Unexpected host failure"
 }

Описание свойства

Свойство Description Соответствующий RHC
targetResourceType Тип ресурса, для которого потоки данных о работоспособности resourceType
targetResourceId ИД ресурса resourceId
произошло время Метка времени, когда последнее состояние доступности создается платформой eventTimestamp
annotationName Имя создаваемой заметки eventName
reason Краткий обзор влияния на доступность, наблюдаемую клиентом title
Категория Указывает, было ли действие платформы, активировающее заметку, либо плановое обслуживание, либо незапланированное восстановление. Это поле не применимо к событиям, инициированным клиентом или виртуальной машиной. Возможные значения: Planned, Unplanned, Not Applicable, Null Категория
контекстные Указывает, было ли действие, активировающее заметку, связано с авторизованным пользователем или процессом (инициированным клиентом), платформой Azure (инициированной платформой) или действием в гостевой ОС, которая привела к влиянию на доступность (виртуальная машина, инициированная виртуальной машиной). Возможные значения: инициированные платформой, инициированные пользователем, инициированные виртуальными машинами, неприменимо, NULL контекстные
Итоги Заявление, подробное описание причины выбросов заметок, а также действия по исправлению, которые пользователи могут предпринять Итоги

Дополнительные сведения об этих данных см. в разделе HealthResources документации по запросам примеров для получения списка начальных запросов.

У нас есть несколько улучшений, запланированных для метаданных заметки, которые отображаются в наборе данных HealthResources. Эти обогащения дают пользователям доступ к более богатым атрибутам сбоя, чтобы решительно подготовить ответ на нарушение. Параллельно мы стремимся продлить период исторического просмотра до минимума 30 дней, чтобы пользователи могли комплексно отслеживать прошлые изменения в доступности виртуальных машин.

Следующие шаги

Чтобы узнать больше о предлагаемых решениях, перейдите к соответствующей статье решения:

Общие сведения о мониторинге Виртуальные машины Azure см. в справочнике по мониторингу виртуальных машин Azure и мониторингу виртуальных машин Azure.