Отслеживание состояния резервных копий с помощью метрик резервного копирования Azure (предварительная версия)

Azure Backup предоставляет набор встроенных метрик с помощью Azure Monitor, позволяющих отслеживать работоспособность резервных копий. Вы также можете настроить правила оповещения, которые срабатывают, если метрика превышает определенные пороговые значения.

Azure Backup предлагает следующие основные возможности:

  • Возможность просмотра готовых метрик, связанных с резервной копией и восстановлением работоспособности элементов резервной копии, а также связанных тенденций.
  • Возможность создавать настраиваемые правила оповещения для этих метрик для эффективного отслеживания работоспособности резервных копий.
  • Возможность маршрутизации оповещений метрик в различные каналы уведомлений, поддерживаемые Azure Monitor, такие как электронная почта, ITSM, веб-перехватчик, приложения логики и т. д.

Узнайте больше о метриках Azure Monitor.

Поддерживаемые сценарии

  • Поддерживает встроенные метрики для следующих типов рабочей нагрузки:

    • Виртуальная машина Azure, Базы данных SQL в виртуальной машине Azure
    • Базы данных SAP HANA в виртуальной машине Azure
    • Файлы Azure
    • Большие двоичные объекты Azure.

    Метрики для типа рабочей нагрузки экземпляра HANA в настоящее время не поддерживаются.

  • Метрики можно просмотреть для всех хранилищ Служб восстановления в каждом регионе и подписке за раз. Просмотр метрик для более широкой области на портале Azure сейчас не поддерживается. Те же ограничения применяются к настройке правил генерации оповещений для метрик.

Поддерживаемые встроенные метрики

В настоящее время Azure Backup поддерживает следующие метрики:

  • События работоспособности резервного копирования. Значение этой метрики представляет количество событий работоспособности заданий резервного копирования, которые возникли для хранилища в течение определенного времени. Когда задание резервного копирования завершается, Azure Backup создает событие резервного копирования. В зависимости от состояния задания (успешно выполнено или завершилось сбоем) измерения, связанные с событием, могут различаться.

  • События работоспособности восстановления. Значение этой метрики представляет количество событий работоспособности заданий восстановления, которые возникли для хранилища в течение определенного времени. Когда задание восстановления завершается, Azure Backup создает событие восстановления. В зависимости от состояния задания (успешно выполнено или завершилось сбоем) измерения, связанные с событием, могут различаться.

Примечание

Мы поддерживаем события работоспособности восстановления только для рабочей нагрузки большого двоичного объекта Azure, так как резервные копии выполняются непрерывно и понятие задач резервного копирования здесь не применяется.

По умолчанию значения подсчитываются на уровне хранилища. Чтобы просмотреть значения для определенного элемента резервной копии и состояния задания, можно отфильтровать метрики по любому из поддерживаемых измерений.

В следующей таблице перечислены измерения, поддерживаемые метриками "События работоспособности резервного копирования" и "События работоспособности восстановления":

Название измерения Описание
Идентификатор источника данных Уникальный идентификатор источника данных, связанного с заданием.

  • Для ресурсов Azure, таких как виртуальные машины и файлы, содержит содержат идентификатор Azure Resource Manager (ARM) ресурса.
    Например /subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/testRG/providers/Microsoft.Compute/virtualMachines/testVM.


  • Для баз данных SQL или HANA внутри виртуальных машин содержит идентификатор ARM виртуальной машины, за которым следуют сведения о базе данных.
    Например /subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/testRG/providers/Microsoft.Compute/virtualMachines/testVM/providers/Microsoft.RecoveryServices/backupProtectedItem/SQLDataBase;mssqlserver;msdb.


Для резервное копирования базы данных SQL в группе доступности поле Идентификатор источника данных пустое, так как в таких сценариях нет источника данных (виртуальной машины). Чтобы просмотреть метрики для конкретной базы данных в группе доступности, используйте поле Идентификатор экземпляра резервной копии.
Тип источника данных Тип источника данных, связанного с заданием. Поддерживаются следующие типы источников данных:

  • Microsoft.Compute/virtualMachines (Виртуальные машины Microsoft Azure)


  • Microsoft.Storage/storageAccounts/fileServices/shares (Файлы Azure)


  • SQLDatabase (SQL на виртуальной машине Azure)


  • SAPHANADataBase (SAP HANA на виртуальной машине Azure)
Идентификатор экземпляра резервной копии Идентификатор ARM экземпляра резервной копии, связанного с заданием.

Например /subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/testRG/providers/Microsoft.RecoveryServices/vaults/testVault/backupFabrics/Azure/protectionContainers/IaasVMContainer;iaasvmcontainerv2;testRG;testVM/protectedItems/VM;iaasvmcontainerv2;testRG;testVM.
Имя экземпляра резервной копии Понятное имя экземпляра резервной копии для удобного чтения. Оно имеет следующий формат: {protectedContainerName};{backupItemFriendlyName}.

Например testStorageAccount;testFileShare.
Состояние работоспособности Представляет работоспособность элемента резервной копии после завершения задания. Может принимать одно из следующих значений: Healthy (Работоспособный), Transient Unhealthy (Временно неработоспособный), Persistent Unhealthy (Постоянно неработоспособный), Transient Degraded (Временное ухудшение работоспособности), Persistent Degraded (Постоянное ухудшение работоспособности).

  • При успешном выполнении задания резервного копирования и восстановления появляется событие работоспособности с состоянием Healthy.


  • Состояние Unheathy появляется в случае сбоя задания из-за ошибок службы, а Degraded — в случае сбоя из-за ошибки пользователя.


  • Если для одного и того же элемента резервной копии многократно возникает одна и та же ошибка, состояние меняется с Transient Unhealthy/Degraded на Persistent Unhealthy/Degraded.

Сценарии мониторинга

Просмотр метрик на портале Azure

Чтобы просмотреть метрики на портале Azure, выполните следующие действия:

  1. Перейдите в Центр резервного копирования на портале Azure и выберите в меню пункт Метрики.

    Снимок экрана: выбор метрик в центре резервного копирования.

  2. Выберите хранилище или группу хранилищ, для которых вы хотите просмотреть метрики.

    В настоящее время максимальной областью, для которой можно просмотреть метрики, являются: все хранилища Служб восстановления в определенной подписке и регионе. Например, все хранилища Служб восстановления в восточной части США в подписке TestSubscription1.

  3. Выберите метрику, чтобы просмотреть события работоспособности резервного копирования или события работоспособности восстановления.

    При этом будет отрисована диаграмма, на которой показано количество событий работоспособности для хранилищ. Вы можете настроить диапазон времени и степень детализации агрегирования с помощью фильтров в верхней части экрана.

    Снимок экрана: процесс выбора метрики

  4. Чтобы отфильтровать метрики по различным измерениям, нажмите кнопку Добавить фильтр и выберите соответствующие значения измерений.

    • Например, если вы хотите узнать количество событий работоспособности только для резервных копий виртуальных машин Azure, добавьте фильтр Datasource Type = Microsoft.Compute/virtualMachines.
    • Чтобы просмотреть события работоспособности для определенного источника данных или экземпляра резервного копирования в хранилище, используйте фильтры идентификатора источника данных или экземпляра резервного копирования.
    • Чтобы просмотреть события работоспособности только для операций резервного копирования, которые завершились сбоем, используйте фильтр по HealthStatus, выбрав значения, соответствующие состоянию неработоспособности или ухудшения работоспособности.

    Снимок экрана: процесс фильтрации метрик по разным измерениям.

Настраивайте оповещения и уведомления для метрик

Чтобы настроить оповещения и уведомления для метрик, выполните указанные ниже действия.

  1. Выберите Новое правило генерации оповещений над диаграммами метрик.

  2. Выберите область, для которой вы хотите создать оповещения.

    Ограничения по области совпадают с ограничениями, описанными в разделе Просмотр метрики.

  3. Выберите условие, при котором оповещение должно сработать.

    По умолчанию некоторые поля заполняются предварительно на основе выбранных элементов на диаграмме метрик. При необходимости вы можете изменить параметры. Для создания отдельных оповещений для каждого источника данных выберите измерения в правиле оповещений о метрике. Ниже приведены примеры сценариев.

    • Создание оповещений о сбоях заданиях резервного копирования для каждого источника данных:

      Правило генерации оповещений: создать оповещение, если события работоспособности резервного копирования > 0 за последние 24 часа для:

      • Dimensions["HealthStatus"]= “Persistent Unhealthy / Transient Unhealthy”
      • Dimensions["DatasourceId"]= “All current and future values”
    • Создание оповещений в случае успешного выполнения заданий резервного копирования в хранилище за день:

      Правило генерации оповещений: создать оповещение, если события работоспособности резервного копирования < 1 за последние 24 часа для:

      • Dimensions["HealthStatus"]="Persistent Unhealthy / Transient Unhealthy / Persistent Degraded / Transient Degraded"

    Снимок экрана: вариант выбора условия, при котором должно срабатывать оповещение.

    Примечание

    При выборе дополнительных измерений в условии правила оповещения стоимость увеличивается (пропорционально количеству уникальных сочетаний возможных значений измерений). Выбор дополнительных измерений позволяет получить больше сведений об оповещении.

  4. Чтобы настроить уведомления для этих оповещений с помощью групп действий, настройте группу действий как часть правила оповещения или создайте отдельное правило.

    Мы поддерживаем различные каналы уведомлений, такие как электронная почта, ITSM, веб-перехватчик, приложение логики, SMS. Узнайте больше о группах действий.

    Снимок экрана: процесс настройки уведомлений для этих оповещений с помощью групп действий.

  5. Настройка автоматического разрешения. Вы можете настроить оповещения о метриках без отслеживания состояния или с отслеживанием состояния.

    • Чтобы оповещение создавалось о каждом сбое задания, даже если причина сбоя повторяется (без отслеживания состояния), снимите флажок Автоматически разрешать оповещения.
    • Чтобы получать оповещения с учетом состояния выберите этот флажок. При срабатывании оповещения о метрике в области повторный сбой не приведет к созданию нового оповещения. Оповещение автоматически разрешается, если условие генерации оповещений не выполняется в трех последовательных циклах оценки. Если условие снова будет выполняться, будут созданы новые оповещения.

Узнайте больше об оповещениях о метриках Azure Monitor с учетом состояния и без него.

Снимок экрана: процесс настройки реакции на событие автоматического разрешения.

Управление оповещениями

Чтобы просмотреть созданные оповещения о метриках, выполните приведенные ниже действия.

  1. Перейдите в Центр резервного копирования>Оповещения.

  2. Отфильтруйте по Тип сигнала = Метрика и Тип оповещения = Настроено.

  3. Выберите оповещение, чтобы просмотреть дополнительные сведения о нем и изменить его состояние.

    Снимок экрана: процесс просмотра оповещений о метриках, которые сработали.

Примечание

Оповещение имеет два поля: Состояние монитора (создан/разрешен) и Состояние оповещения (новое/подтверждение/закрытое).

  • Состояние оповещения — вы можете изменить это поле (как показано на снимке экрана ниже).
  • Состояние монитора — изменить это поле нельзя. Это поле используется больше в сценариях, когда оповещение разрешает сама служба. Например, при автоматическом разрешении в оповещениях о метриках для разрешении оповещения используется поле Условие монитора.

Оповещения об источниках данных и глобальные оповещения

В зависимости от конфигурации правил оповещения созданное оповещение отображается в разделе Оповещения источника данных или разделе Глобальные оповещения Центре резервного копирования:

  • Если с оповещением связано измерение идентификатора источника данных, то это активированное оповещение отображается в разделе Оповещения источника данных.
  • Если с оповещением не связано измерение идентификатора источника данных, созданное оповещение отображается в разделе Глобальные оповещения из-за отсутствия информации, связывающей оповещение с определенным источником данных.

Дополнительные сведения об оповещениях источниках данных и глобальных оповещениях.

Примечание

В настоящее время оповещения о восстановлении больших двоичных объектах отображаются в оповещениях об источнике данных, только если при создании правила генерации оповещений выбраны оба измерения: datasourceId и datasourceType. Если какие-то измерения не выбраны, оповещения отображаются в разделе глобальных оповещений.

Программный доступ к метрикам

Для доступа к функциям метрик можно использовать различные программные клиенты, такие как PowerShell, CLI или REST API. Дополнительные сведения см. в документации по REST API Azure Monitor.

Примеры сценариев с генерацией оповещений

Создать оповещение, если все активированные резервные копии для хранилища были успешно созданы за последние 24 часа

Правило генерации оповещений: создать оповещение, если получено менее 1-го события работоспособности резервного копирования за последние 24 часа для:

Dimensions["HealthStatus"] != "Healthy"

Создавать оповещение после каждого неудачного задания резервного копирования

Правило генерации оповещений: создать оповещение, если получено более 0 событий работоспособности резервного копирования за последние 5 минут для:

  • Dimensions["HealthStatus"]!= "Healthy"
  • Dimensions["DatasourceId"]= "All current and future values"

Создавать оповещение при возникновении последовательных сбоев резервного копирования для одного и того же элемента за последние 24 часа

Правило генерации оповещений: создать оповещение, если получено менее 1-го события работоспособности резервного копирования за последние 24 часа для:

  • Dimensions["HealthStatus"]!= "Healthy"
  • Dimensions["DatasourceId"]= "All current and future values"

Создать оповещение, если для элемента за последние 24 часа не выполнялось заданий резервного копирования

Правило генерации оповещений: создать оповещение, если события работоспособности резервного копирования < 1 за последние 24 часа для:

Dimensions["DatasourceId"]= "All current and future values"

Дальнейшие действия