Поделиться через


Project Flash — мониторинг доступности виртуальных машин Azure

Flash, так как проект является внутренним именем, является производным от нашей постоянной приверженности созданию надежного, надежного и быстрого механизма для мониторинга работоспособности виртуальной машины (виртуальной машины). Наша основная цель заключается в том, чтобы клиенты могли надежно получать доступ к эффективной и точной телеметрии, быстро получать оповещения об изменениях и периодически отслеживать данные в масштабе. Мы также уделяем особое внимание разработке централизованного и согласованного опыта, который клиенты могут удобно использовать для удовлетворения своих уникальных требований к наблюдаемости. Это наша миссия гарантировать, что вы можете:

  • Потребляйте точные и практические данные о сбоях доступности виртуальных машин (например, перезагрузки и перезапуска виртуальных машин, замораживание приложений из-за обновлений сетевого драйвера и 30-секундных обновлений ОС узла), а также точные сведения о сбоях (например, платформа и инициированные пользователем, перезагрузка и замораживание, запланированные и незапланированные).
  • Анализ и оповещение о тенденциях доступности виртуальных машин для быстрого отладки и ежемесячной отчетности.
  • Периодически отслеживайте данные в масштабе и создавайте пользовательские панели мониторинга для обновления последних состояний доступности всех ресурсов.
  • Получение автоматических анализов первопричин (RCA) с подробными сведениями о затронутых виртуальных машинах, причина простоя и длительность, последующие исправления и аналогичные— все для включения целевых исследований и последующего анализа.
  • Получайте мгновенные уведомления о критических изменениях доступности виртуальной машины, чтобы быстро активировать действия по исправлению и предотвратить влияние конечных пользователей.
  • Динамически настраивайте и автоматизируйте политики восстановления платформы на основе постоянно изменяющихся требований рабочей нагрузки и отработки отказа.

Решения Флэш-памяти

Инициатива Flash посвящена разработке решений на протяжении многих лет, которые удовлетворяют разнообразным потребностям мониторинга наших клиентов. Чтобы определить наиболее подходящие решения для мониторинга Flash для конкретных требований, ознакомьтесь со следующей таблицей:

Решение Description
Azure Resource Graph (общая доступность) Для расследований с масштабируемым централизованным репозиторием ресурсов и поиском журнала крупные клиенты хотят периодически использовать данные телеметрии доступности ресурсов во всех рабочих нагрузках одновременно с помощью Azure Resource Graph (ARG).
Системный раздел сетки событий (общедоступная предварительная версия) Чтобы активировать чувствительные к времени и критически важные способы устранения рисков (повторное развертывание, перезагрузка действий виртуальной машины) для предотвращения влияния конечных пользователей (например, Pearl Abyss, Krafton), хотят получать оповещения в течение нескольких секунд после критических изменений доступности ресурсов с помощью обработчиков событий в Сетке событий.
Azure Monitor (общедоступная предварительная версия) Чтобы отслеживать тенденции, агрегировать метрики платформы (ЦП, диск и т. д.) и настроить точные оповещения на основе пороговых значений, клиенты хотят использовать метрику доступности виртуальных машин с помощью Azure Monitor.
Работоспособность ресурсов (общедоступная версия) Чтобы выполнить мгновенные и удобные проверки работоспособности пользовательского интерфейса портала для каждого ресурса, клиенты могут быстро просмотреть колонку RHC на портале. Они также могут получить доступ к 30-дневному журналу проверок работоспособности для этого ресурса для быстрого и простого устранения неполадок.

Комплексный мониторинг доступности виртуальных машин

Для комплексного подхода к мониторингу доступности виртуальных машин, включая сценарии планового обслуживания, динамической миграции, восстановления служб и снижения производительности виртуальных машин, рекомендуется использовать как запланированные события (SE), так и события работоспособности Flash.

Запланированные события предназначены для раннего предупреждения, предоставляя до 15-минутного уведомления до действий по обслуживанию. Это время приводит к принятию обоснованных решений о предстоящих простоях, что позволяет либо избежать, либо подготовиться к нему. Вы можете подтвердить эти события или отложить действия в течение этого 15-минутного периода в зависимости от готовности к предстоящему обслуживанию.

С другой стороны, события работоспособности флэш-памяти сосредоточены на отслеживании текущих и завершенных сбоев доступности, включая снижение производительности виртуальных машин. Эта функция позволяет эффективно отслеживать время простоя и управлять ими, поддерживая автоматическое устранение рисков, исследования и анализ после смерти.

Чтобы приступить к работе с возможностями наблюдения, вы можете изучить набор продуктов Azure, в которые мы получаем высококачественные данные о доступности виртуальных машин. К этим продуктам относятся работоспособности ресурсов, журналы действий, граф ресурсов Azure, метрики Azure Monitor и системный раздел Сетка событий Azure.

Следующие шаги

Чтобы узнать больше о предлагаемых решениях, перейдите к соответствующей статье решения:

Общие сведения о мониторинге Виртуальные машины Azure см. в справочнике по мониторингу виртуальных машин Azure и мониторингу виртуальных машин Azure.