Мониторинг Site Recovery с помощью журналов Azure Monitor

В этой статье приводятся сведения о мониторинге компьютеров, реплицируемых Azure Site Recovery, с помощью журналов Azure Monitor и Log Analytics.

Журналы Azure Monitor являются платформой регистрации данных для сбора данных журналов действий и ресурсов, а также других данных мониторинга. В журналах Azure Monitor вы используете Log Analytics для записи и тестирования запросов журналов и интерактивного анализа данных журнала. Вы можете визуализировать и запрашивать результаты журнала запросов и настраивать оповещения для выполнения действий на основе данных мониторинга.

При работе с Site Recovery можно использовать журналы Azure Monitor для выполнения следующих задач.

  • Наблюдение за работоспособностью и состоянием Site Recovery. Например, можно отслеживать работоспособность репликации, состояние тестовой отработки отказа, события Site Recovery, целевые точки восстановления (RPO) для защищенных компьютеров и частоту изменения дисков и данных.
  • Настройка оповещений для Site Recovery. Например, можно настроить оповещения о работоспособности компьютера, состоянии тестовой отработки отказа или состоянии задания Site Recovery.

Использование журналов Azure Monitor с Site Recovery поддерживается для Azure реплика tion и виртуальной машины VMware или физического сервера в Azure реплика tion.

Примечание.

Для получения журналов о скорости изменения данных и журналов о скорости отправки данных для VMware и физических компьютеров необходимо установить Microsoft Monitoring Agent на сервере обработки. Этот агент отправляет журналы реплицируемых компьютеров в рабочую область. Эта возможность доступна только для версии агента мобильности 9.30.

Необходимые компоненты

Вам потребуется следующее.

  • По крайней мере один компьютер защищен в хранилище служб восстановления.
  • Рабочая область Log Analytics для хранения журналов Site Recovery. Узнайте о настройке рабочей области.
  • Базовые сведения о том, как писать, выполнять и анализировать запросы журналов в Log Analytics. Подробнее.

Перед началом работы рекомендуется ознакомиться с общими вопросами о мониторинге.

Журналы событий, доступные для Azure Site Recovery

Azure Site Recovery предоставляет следующие таблицы ресурсов и устаревшие таблицы. Каждое событие предоставляет подробные данные по определенному набору связанных артефактов site recovery.

Таблицы, относящиеся к ресурсам:

Устаревшие таблицы:

  • События Azure Site Recovery
  • Реплицированные элементы Azure Site Recovery
  • Статистика репликации Azure Site Recovery
  • Точки Azure Site Recovery
  • Периодичность отправки данных репликации Azure Site Recovery
  • Обновление данных защищенного диска Azure Site Recovery
  • Сведения о реплицированном элементе Azure Site Recovery

Настройка Site Recovery для отправки журналов

  1. В хранилище щелкните Параметры диагностики>Добавить параметр диагностики.

    Снимок экрана: параметр

  2. В окне Параметры диагностикиукажите имя параметра и установите флажок Отправить в Log Analytics.

  3. Выберите подписку Azure Monitor Logs и рабочую область Log Analytics.

  4. Установите переключатель в положение Диагностика Azure.

  5. В списке журналов выберите все журналы с префиксом AzureSiteRecovery. Затем выберите OK.

    Снимок экрана: страница

Журналы Site Recovery начнут поступать в таблицу (AzureDiagnostics) в выбранной рабочей области.

Настройка Microsoft Monitoring Agent на сервере обработки для отправки журналов о скорости изменения данных и журналов о скорости отправки данных

Вы можете собирать сведения о скорости изменения данных и скорости отправки данных для виртуальных машин VMware или физических компьютеров в локальной среде. Для этого на сервере обработки должен быть установлен Microsoft Monitoring Agent.

  1. Перейдите в рабочую область Log Analytics и выберите Дополнительные параметры.

  2. Выберите страницу Подключенные источники и щелкните Серверы Windows.

  3. Скачайте агент Windows (64-разрядную версию) на сервере обработки.

  4. Получите идентификатор и ключ рабочей области.

  5. Настройте агента для использования TLS 1.2.

  6. Завершите установку агента, указав полученный идентификатор и ключ рабочей области.

  7. После завершения установки перейдите в рабочую область Log Analytics и выберите управление устаревшими агентами. Перейдите на страницу Данные и выберите Счетчики производительности Windows.

  8. Выберите "+", чтобы добавить следующие два счетчика с интервалом в 300 секунд:

    • ASRAnalytics(*)\SourceVmChurnRate
    • ASRAnalytics(*)\SourceVmThrpRate

    В рабочую область начнут поступать сведения о скорости изменения данных и скорости отправки данных.

  9. В настоящее время следующие счетчики Site Recovery недоступны для поиска.

    • ASRAnalytics(*)\SourceVmChurnRate
    • ASRAnalytics(*)\SourceVmThrpRate
      Однако их можно добавить, вставив имена в полном объеме.

    Снимок экрана: счетчик производительности Windows.

  • ASRAnalytics(*)\SourceVmChurnRateпредоставляет аналитические сведения о скорости обработки реплика виртуальных машин.
  • ASRAnalytics(*)\SourceVmThrpRateпредставляет скорость пропускной способности для реплика виртуальных машин, которые являются индикатором скорости передачи данных между источником и целевым объектом во время реплика.

Выполнение запросов журналов — примеры

Данные из журналов извлекаются с помощью запросов журналов, написанных на языке запросов Kusto. В этом разделе приводится несколько примеров распространенных запросов, которые можно использовать для мониторинга Site Recovery.

Примечание.

В некоторых примерах используется replicationProviderName_s со значением A2A. Это извлекает виртуальные машины Azure, которые реплика в дополнительный регион Azure с помощью Site Recovery. В этих примерах можно заменить A2Aна InMageRcm, если вы хотите получить локальные виртуальные машины VMware или физические серверы, которые реплика в Azure с помощью Site Recovery.

Выполнение запроса о работоспособности репликации

Этот запрос отображает круговую диаграмму для текущей реплика работоспособности всех защищенных виртуальных машин Azure, разделенных на три состояния: "Обычный", "Предупреждение" или "Критическое".

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s  
| project name_s , replicationHealth_s  
| summarize count() by replicationHealth_s  
| render piechart   

Выполнение запроса о версии службы "Мобильность"

Этот запрос отображает круговую диаграмму для виртуальных машин Azure, реплика с помощью Site Recovery, разбитую на версию агента Mobility, которую они выполняют.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s  
| project name_s , agentVersion_s  
| summarize count() by agentVersion_s  
| render piechart 

Выполнение запроса о времени RPO

Этот запрос отображает линейчатую диаграмму виртуальных машин Azure, реплика с помощью Site Recovery, с разбивкой по целевой точке восстановления (RPO): менее 15 минут, от 15 до 30 минут, более 30 минут.

AzureDiagnostics 
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)  
| extend RPO = case(rpoInSeconds_d <= 900, "<15Min",   
rpoInSeconds_d <= 1800, "15-30Min", ">30Min")  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s  
| project name_s , RPO  
| summarize Count = count() by RPO  
| render barchart 

Снимок экрана: линейчатая диаграмма виртуальных машин Azure, реплика с помощью Site Recovery.

Выполнение запроса заданий Azure Site Recovery

Этот запрос извлекает все задания Site Recovery (для всех сценариев аварийного восстановления), запущенные за последние 72 часа, и их состояние завершения.

AzureDiagnostics  
| where Category == "AzureSiteRecoveryJobs"  
| where TimeGenerated >= ago(72h)   
| project JobName = OperationName , VaultName = Resource , TargetName = affectedResourceName_s, State = ResultType  

Выполнение запроса событий Azure Site Recovery

Этот запрос извлекает все события Site Recovery (для всех сценариев аварийного восстановления), возникшие за последние 72 часа, и уровень их серьезности.

AzureDiagnostics   
| where Category == "AzureSiteRecoveryEvents"   
| where TimeGenerated >= ago(72h)   
| project AffectedObject=affectedResourceName_s , VaultName = Resource, Description_s = healthErrors_s , Severity = Level  

Выполнение запроса о состояние тестовой отработки отказа (с созданием круговой диаграммы)

Этот запрос отображает круговую диаграмму для тестового состояния отработки отказа виртуальных машин Azure, реплика с помощью Site Recovery.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)  
| where isnotempty(failoverHealth_s) and isnotnull(failoverHealth_s)  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s  
| project name_s , Resource, failoverHealth_s  
| summarize count() by failoverHealth_s  
| render piechart 

Выполнение запроса о состоянии тестовой отработки отказа (с созданием таблицы)

Этот запрос отображает таблицу для состояния тестовой отработки отказа виртуальных машин Azure, реплика с помощью Site Recovery.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)   
| where isnotempty(failoverHealth_s) and isnotnull(failoverHealth_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project VirtualMachine = name_s , VaultName = Resource , TestFailoverStatus = failoverHealth_s 

Выполнение запроса целевой точки восстановления (RPO) виртуальной машины

Этот запрос отображает график тренда, отслеживающий RPO конкретной виртуальной машины Azure (ContosoVM123) за последние 72 часа.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where TimeGenerated > ago(72h)  
| where isnotempty(name_s) and isnotnull(name_s)   
| where name_s == "ContosoVM123"  
| project TimeGenerated, name_s , RPO_in_seconds = rpoInSeconds_d   
| render timechart 

Снимок экрана: граф трендов, отслеживающий RPO конкретной виртуальной машины Azure.

Скорость изменения данных запросов (отток) и скорость отправки для виртуальной машины Azure

Этот запрос отображает график тренда для определенной виртуальной машины Azure (ContosoVM123), которая представляет частоту изменения данных (запись байтов в секунду) и скорость отправки данных.

AzureDiagnostics   
| where Category in ("AzureSiteRecoveryProtectedDiskDataChurn", "AzureSiteRecoveryReplicationDataUploadRate")   
| extend CategoryS = case(Category contains "Churn", "DataChurn",   
Category contains "Upload", "UploadRate", "none")  
| extend InstanceWithType=strcat(CategoryS, "_", InstanceName_s)   
| where TimeGenerated > ago(24h)   
| where InstanceName_s startswith "ContosoVM123"   
| project TimeGenerated , InstanceWithType , Churn_MBps = todouble(Value_s)/1048576   
| render timechart  

Снимок экрана: диаграмма тренда для конкретной виртуальной машины Azure.

Выполнение запроса скорости изменения данных и скорости отправки данных для конкретной виртуальной машины VMware или физического компьютера

Примечание.

Убедитесь, что на сервере обработки настроен агент мониторинга для извлечения этих журналов. См. описание действий по настройке агента мониторинга.

Этот запрос формирует график тенденций для конкретного диска disk0 реплицированного элемента Win-9r7sfh9qlru, который представляет скорость изменения данных (байт записи в секунду) и скорость отправки данных. Имя диска можно найти в колонке "Диски" реплика реплика элемента в хранилище служб восстановления. Имя экземпляра, используемое в запросе, — это DNS-имя компьютера, за которым следует _ и имя диска, как в этом примере.

Perf
| where ObjectName == "ASRAnalytics"
| where InstanceName contains "win-9r7sfh9qlru_disk0"
| where TimeGenerated >= ago(4h) 
| project TimeGenerated ,CounterName, Churn_MBps = todouble(CounterValue)/5242880 
| render timechart

Сервер обработки отправляет эти данные в рабочую область Log Analytics каждые 5 минут. Эти точки данных представляют среднее значение, вычисленное за 5 минут.

Выполнение запроса сводки параметров аварийного восстановления (из Azure в Azure)

Этот запрос отображает сводную таблицу для виртуальных машин Azure, реплика в дополнительный регион Azure. В нем показаны имя виртуальной машины, состояние реплика и состояние защиты, RPO, состояние тестовой отработки отказа, версия агента мобильности, все активные ошибки реплика и исходное расположение.

AzureDiagnostics 
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project VirtualMachine = name_s , Vault = Resource , ReplicationHealth = replicationHealth_s, Status = protectionState_s, RPO_in_seconds = rpoInSeconds_d, TestFailoverStatus = failoverHealth_s, AgentVersion = agentVersion_s, ReplicationError = replicationHealthErrors_s, SourceLocation = primaryFabricName_s 

Выполнение запроса сводки параметра аварийного восстановления (для виртуальных машин VMware или физических серверов)

Этот запрос отображает сводную таблицу для виртуальных машин VMware и физических серверов, реплика в Azure. В нем отображаются имя компьютера, состояние реплика и защита, RPO, состояние тестовой отработки отказа, версия агента мобильности, все активные ошибки реплика и соответствующий сервер обработки.

AzureDiagnostics  
| where replicationProviderName_s == "InMageRcm"   
| where isnotempty(name_s) and isnotnull(name_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project VirtualMachine = name_s , Vault = Resource , ReplicationHealth = replicationHealth_s, Status = protectionState_s, RPO_in_seconds = rpoInSeconds_d, TestFailoverStatus = failoverHealth_s, AgentVersion = agentVersion_s, ReplicationError = replicationHealthErrors_s, ProcessServer = processServerName_g  

Настройка оповещений — примеры

Вы можете настроить оповещения Site Recovery на основе данных Azure Monitor данных. Дополнительные сведения о настройке оповещений см. здесь.

Примечание.

В некоторых примерах используется replicationProviderName_s со значением A2A. Это задает оповещения для виртуальных машин Azure, которые реплика в дополнительный регион Azure. В этих примерах можно заменить A2Aна InMageRcm, если вы хотите задать оповещения для локальных виртуальных машин VMware или физических серверов, реплика в Azure.

Несколько виртуальных машин в критическом состоянии

Настройте оповещение, если более 20 реплика виртуальных машин Azure попадают в критическое состояние.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where replicationHealth_s == "Critical"  
| where isnotempty(name_s) and isnotnull(name_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| summarize count() 

Для оповещения задайте для параметра "Пороговое значение20".

Одна виртуальная машина в критическом состоянии

Настройте оповещение, если определенная реплика виртуальная машина Azure переходит в критическое состояние.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where replicationHealth_s == "Critical"  
| where name_s == "ContosoVM123"  
| where isnotempty(name_s) and isnotnull(name_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| summarize count()  

Для оповещения задайте для параметра "Пороговое значение1".

Превышение RPO для нескольких виртуальных машин

Настройте оповещение, если RPO в течение более чем 20 виртуальных машин Azure превышает 30 минут.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)   
| where rpoInSeconds_d > 1800  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project name_s , rpoInSeconds_d   
| summarize count()  

Для оповещения задайте для параметра "Пороговое значение20".

Превышение RPO для одной виртуальной машины

Настройте оповещение, если RPO для одной виртуальной машины Azure превышает 30 минут.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)   
| where name_s == "ContosoVM123"  
| where rpoInSeconds_d > 1800  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project name_s , rpoInSeconds_d   
| summarize count()  

Для оповещения задайте для параметра "Пороговое значение1".

Тестовая отработка отказа для нескольких компьютеров превышает 90 дней

Настройте оповещение, если последняя успешная отработка отказа составила более 90 дней, на более чем 20 виртуальных машинах.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where Category == "AzureSiteRecoveryReplicatedItems"  
| where isnotempty(name_s) and isnotnull(name_s)   
| where lastSuccessfulTestFailoverTime_t <= ago(90d)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| summarize count()  

Для оповещения задайте для параметра "Пороговое значение20".

Тестовая отработка отказа для одного компьютера превышает 90 дней

Настройте оповещение, если последний успешный тест отработки отказа для конкретной виртуальной машины был более 90 дней назад.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where Category == "AzureSiteRecoveryReplicatedItems"  
| where isnotempty(name_s) and isnotnull(name_s)   
| where lastSuccessfulTestFailoverTime_t <= ago(90d)   
| where name_s == "ContosoVM123"  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| summarize count()  

Для оповещения задайте для параметра "Пороговое значение1".

Сбой задания восстановления Site Recovery

Настройте оповещение, если задание Site Recovery (в данном случае задание повторной защиты) завершается сбоем для любого сценария Site Recovery в течение последнего дня.

AzureDiagnostics   
| where Category == "AzureSiteRecoveryJobs"   
| where OperationName == "Reprotect"  
| where ResultType == "Failed"  
| summarize count()  

Задайте параметру Пороговое значение значение "1", параметру Период — "1440 минут", чтобы проверить ошибки за последний день.

Следующие шаги

Дополнительные сведения о мониторинге Site Recovery.