Мониторинг нескольких кластеров Azure Stack HCI с помощью Insights

Область применения: Azure Stack HCI версии 22H2

В этой статье объясняется, как использовать Аналитику для мониторинга нескольких кластеров Azure Stack HCI. Сведения об одном кластере Azure Stack HCI см. в статье Мониторинг Azure Stack HCI с помощью аналитики.

Важно!

Если вы зарегистрировали кластер Azure Stack HCI и настроили аналитику до ноября 2023 года, некоторые функции, использующие агент Azure Monitor (AMA), такие как Arc для серверов, VM Insights, Defender для облака или Sentinel, могут неправильно собирать журналы и данные о событиях. Инструкции по устранению неполадок см. в разделе Устранение неполадок кластеров, зарегистрированных до ноября 2023 г.

Сведения о преимуществах, предварительных требованиях и о том, как включить Аналитику в каждом кластере, см. в разделах Преимущества, Предварительные требования и Включение аналитики.

Просмотрите видео, чтобы ознакомиться с кратким введением:

Просмотр аналитических сведений о работоспособности, производительности и использовании

Аналитика хранит свои данные в рабочей области Log Analytics, что позволяет предоставлять мощные возможности агрегирования, фильтрации и анализа тенденций данных с течением времени. Прямые затраты на Аналитику отсутствуют. Счета за пользователей выставляются на основе объема принятых данных и параметров хранения данных в рабочей области Log Analytics.

Вы можете получить доступ к аналитике из центра > Аналитики Azure Monitor > Azure Stack HCI. Вы увидите следующие вкладки для переключения между представлениями: Добавить в мониторинг, Работоспособность кластера, Серверы, Виртуальные машины, Хранилище.

Фильтрация результатов

Визуализацию можно фильтровать по подпискам. Вы можете отфильтровать результаты по следующим раскрывающимся меню:

  • Диапазон времени: Этот фильтр позволяет выбрать диапазон для представления тренда. Значение по умолчанию — Последние 24 часа.
  • Подписки: Показывает подписки, в которых зарегистрированы кластеры Azure Stack HCI. В этом фильтре можно выбрать несколько подписок.
  • Кластеры HCI: Списки зарегистрированные кластеры Azure Stack HCI с включенными возможностями журналов и мониторинга в выбранном диапазоне времени. В этом фильтре можно выбрать несколько кластеров.
  • Группы ресурсов: Этот фильтр позволяет выбрать все кластеры в группе ресурсов.

Добавление в мониторинг

Эта функция предоставляет сведения о кластерах, которые не отслеживаются пользователем. Чтобы начать мониторинг кластера, выберите его, чтобы открыть его, а затем выберите Аналитика возможностей>. Если вы не видите свой кластер, убедитесь, что он недавно подключен к Azure.

Снимок экрана: выбор кластера для мониторинга.

Столбец Описание Пример
Кластер Имя кластера. 27cls1
Состояние подключения Azure Состояние ресурса HCI. Подключен
Версия ОС Сборка операционной системы на сервере. 10.0.20348.10131

По умолчанию в представлении сетки отображаются первые 250 строк. Значение можно задать, изменив строки сетки, как показано на следующем рисунке:

Снимок экрана: экран настройки значений сетки.

Вы можете экспортировать сведения в Excel, выбрав Экспорт в Excel , как показано на следующем рисунке:

Снимок экрана: ссылка для экспорта в Excel.

Excel предоставит состояние подключения Azure следующим образом:

  • 0: не зарегистрировано
  • 1: отключен
  • 2: не недавно
  • 3: подключено

Работоспособность кластера

В этом представлении представлен обзор работоспособности кластеров.

Снимок экрана: общие сведения о работоспособности кластера.

Столбец Описание Пример
Кластер Имя кластера. 27cls1
Последнее обновление Метка времени последнего обновления сервера. 09.04.2022, 12:15:42
Состояние Обеспечивает работоспособность ресурсов сервера в кластере. Это может быть работоспособное, предупреждающее, критическое или другое. Работоспособно
Ресурс сбоя Описание того, какой ресурс вызвал ошибку. Server, StoragePool, Подсистема
Всего серверов Количество серверов в кластере. 4

Если кластер отсутствует или отображает состояние Другое, перейдите в рабочую область Log Analytics , используемую для кластера, и убедитесь, что конфигурация агента собирает данные из журнала microsoft-windows-health/operational . Кроме того, убедитесь, что кластеры недавно подключены к Azure и проверка, что кластеры не отфильтрованы в этой книге.

Сервер

В этом представлении представлен обзор работоспособности и производительности сервера, а также использования выбранных кластеров. Это представление создается с помощью идентификатора события сервера 3000 канала журнала событий Microsoft-Windows-SDDC-Management/Operational Windows. Каждую строку можно дополнительно развернуть, чтобы увидеть состояние работоспособности узла. Вы можете взаимодействовать с ресурсом кластера и сервера, чтобы перейти на соответствующую страницу ресурса.

Снимок экрана: работоспособность серверов.

Виртуальные машины

В этом представлении отображается состояние всех виртуальных машин в выбранном кластере. Представление создается с помощью идентификатора события виртуальной машины 3003 канала журнала событий Microsoft-Windows-SDDC-Management/Operational Windows. Каждую строку можно дополнительно развернуть, чтобы просмотреть распределение виртуальных машин между серверами в кластере. Вы можете взаимодействовать с ресурсом кластера и узла, чтобы перейти на соответствующую страницу ресурса.

Снимок экрана: работоспособность виртуальных машин.

Metric Описание Пример
Сервер кластера > Имя кластера. При расширении отображаются серверы в кластере. Пример виртуальной машины 1
Последнее обновление Метка даты и времени последнего обновления сервера. 09.04.2022, 12:24:02
Общее число виртуальных машин Количество виртуальных машин в узле сервера в кластере. 1 из 2 запущенных
Запущен Количество виртуальных машин, работающих в узле сервера в кластере. 2
Остановлена Количество виртуальных машин, остановленных на узле сервера в кластере. 3
Сбой Число виртуальных машин, завершилось сбоем на серверном узле в кластере. 2
Другое Если виртуальная машина находится в одном из следующих состояний ("Неизвестно", "Запуск", "Моментальный снимок", "Сохранение", "Остановка", "Приостановка", "Возобновление", "Приостановлено"), она считается "Другим". 2

Память

В этом представлении показана работоспособность томов, использование и производительность в отслеживаемых кластерах. Разверните кластер, чтобы просмотреть состояние отдельных томов. Это представление создается с помощью идентификатора события тома 3002 канала журнала событий Microsoft-Windows-SDDC-Management/Operational Windows. Плитки в верхней части содержат общие сведения о работоспособности хранилища.

Снимок экрана: работоспособность томов хранилища.

Metric Описание Пример
Том кластера > Имя кластера. При расширении отображаются тома в кластере. AltaylCluster1 > ClusterPerformanceHistory
Последнее обновление Метка даты и времени последнего обновления хранилища. 14.04.2022 г., 14:58:55
Работоспособности тома Состояние тома. Это может быть работоспособное, предупреждающее, критическое или другое. Работоспособно
Размер Общая емкость устройства в байтах за отчетный период. 25B
Использование Процент доступной емкости за отчетный период. 23.54%
Iops Количество операций ввода-вывода в секунду. 45 в секунду
Тренд Тренд операций ввода-вывода в секунду.
Пропускная способность Количество байтов в секунду, обрабатываемых Шлюзом приложений 5B/с
Тренд (B/s) Тренд пропускной способности.
Среднее время задержки Задержка — это среднее время, необходимое для выполнения запроса ввода-вывода. 334 мкс

Настройка аналитики

Так как пользовательский интерфейс основан на шаблонах книг Azure Monitor, пользователи могут изменять визуализации и запросы и сохранять их в виде настраиваемой книги.

Если вы используете визуализацию из центра > Аналитики Azure Monitor > Azure Stack HCI, выберите Настроить > изменение > сохранить как, чтобы сохранить копию измененной версии в пользовательской книге.

Книги сохраняются в группе ресурсов. Все пользователи, имеющие доступ к группе ресурсов, могут получить доступ к настроенной книге.

Большинство запросов написаны с помощью язык запросов Kusto (KQL). Некоторые запросы записываются с помощью запроса Resource Graph. Дополнительные сведения см. в следующих статьях:

Поддержка

Чтобы открыть запрос в службу поддержки Insights, используйте тип службы Insights для Azure Stack HCI в разделе Мониторинг & Management.

Канал журнала событий

Представления аналитики и мониторинга основаны на канале журнала событий Microsoft-Windows-SDDC-Management/Operational Windows. Если мониторинг включен, данные из этого канала сохраняются в рабочей области Log Analytics.

Просмотр и изменение интервала кэширования дампа

Интервал по умолчанию для дампа кэша — 3600 секунд (1 час).

Используйте следующие командлеты PowerShell для просмотра значения интервала дампа кэша:

Get-ClusterResource "sddc management" | Get-ClusterParameter

Чтобы изменить частоту дампа кэша, используйте следующие командлеты. Если задано значение 0, публикация событий будет прекращена:

Get-ClusterResource "sddc management" | Set-ClusterParameter -Name CacheDumpIntervalInSeconds -Value <value in seconds>

События Windows в канале журнала

Этот канал включает пять событий. Каждое событие имеет имя кластера и идентификатор Resource Manager Azure в качестве EventData.

Идентификатор события Тип события
3000 Сервер
3001 Накопитель
3002 Громкость
3003 Виртуальная машина
3004 Кластер

Значение столбца RenderedDescription события сервера 3000

{
   "m_servers":[
      {
         "m_statusCategory":"Integer",
         "m_status":[
            "Integer",
            "…"
         ],
         "m_id":"String",
         "m_name":"String",
         "m_totalPhysicalMemoryInBytes":"Integer",
         "m_usedPhysicalMemoryInBytes":"Integer",
         "m_totalProcessorsUsedPercentage":"Integer",
         "m_totalClockSpeedInMHz":"Integer",
         "m_uptimeInSeconds":"Integer",
         "m_InboundNetworkUsage":"Double (Bits/sec)",
         "m_OutboundNetworkUsage":"Double (Bits/sec)",
         "m_InboundRdmaUsage":"Double (Bits/sec)",
         "m_OutboundRdmaUsage":"Double (Bits/sec)",
         "m_site":"String",
         "m_location":"String",
         "m_vm":{
            "m_totalVmsUnknown":"Integer",
            "m_totalVmsRunning":"Integer",
            "m_totalVmsStopped":"Integer",
            "m_totalVmsFailed":"Integer",
            "m_totalVmsPaused":"Integer",
            "m_totalVmsSuspended":"Integer",
            "m_totalVmsStarting":"Integer",
            "m_totalVmsSnapshotting":"Integer",
            "m_totalVmsSaving":"Integer",
            "m_totalVmsStopping":"Integer",
            "m_totalVmsPausing":"Integer",
            "m_totalVmsResuming":"Integer"
         },
         "m_osVersion":"String",
         "m_buildNumber":"String",
         "m_totalPhysicalProcessors":"Integer",
         "m_totalLogicalProcessors":"Integer"
      },
      "…"
   ],
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
} 

Большинство переменных являются понятными на основе этих сведений JSON. Однако в таблице ниже перечислены некоторые переменные, которые немного сложнее понять.

Переменная Описание
m_servers Массив узлов сервера.
m_statusCategory Состояние работоспособности сервера.
m_status Состояние сервера. Это массив, который может содержать одно или два значения. Первое значение является обязательным (0–4). Второе значение является необязательным (5–9).

Ниже приведены значения переменной m_statusCategory .

Значение Значение
0 Работоспособно
1 Предупреждение
2 Unhealthy
255 Другое

Ниже приведены значения переменной m_status .

Значение Значение
0 Вверх
1 Down
2 Обслуживание
3 Соединение
4 Норм.
5 Isolated
6 Помещено в карантин
7 Слива
8 Очистка завершена
9 Сбой стока
0xffff Неизвестно

Значение столбца RenderedDescription события диска 3001

Событие Drive 3001

{
    "m_drives":[
        {
            "m_uniqueId":"String",
            "m_model":"String",
            "m_type":"Integer",
            "m_canPool":"Boolean",
            "m_sizeInBytes":"Integer",
            "m_sizeUsedInBytes":"Integer",
            "m_alerts":{
                "m_totalUnknown":"Integer",
                "m_totalHealthy":"Integer",
                "m_totalWarning":"Integer",
                "m_totalCritical":"Integer"
            }
        },
        "…"
    ],
    "m_correlationId":"String",
    "m_isLastElement":"Boolean"
}

Значение столбца События тома 3002 RenderedDescription

Событие тома 3002

{
   "VolumeList":[
      {
         "m_Id":"String",
         "m_Label":"String",
         "m_Path":"String",
         "m_StatusCategory":"Integer",
         "m_Status":[
            "Integer",
            "…"
         ],
         "m_Size":"Integer (Bytes)",
         "m_SizeUsed":"Integer (Bytes)",
         "m_TotalIops":"Double (Count/second)",
         "m_TotalThroughput":"Double (Bytes/Second)",
         "m_AverageLatency":"Double (Seconds)",
         "m_Resiliency":"Integer",
         "m_IsDedupEnabled":"Boolean",
         "m_FileSystem":"String"
      },
      "…"
   ],
   "m_Alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
} 

Большинство переменных понятны на основе приведенных выше сведений JSON. Однако в таблице ниже перечислены некоторые переменные, которые немного сложнее понять.

Переменная Описание
VolumeList Массив томов.
m_StatusCategory Состояние работоспособности тома.
m_Status Состояние тома. Это массив, который может содержать одно или два значения. Первое значение является обязательным (0–4). Второе значение является необязательным (5–9).

Ниже приведены значения переменной m_statusCategory .

Значение Значение
0 Работоспособно
1 Предупреждение
2 Unhealthy
255 Другое

Ниже приведены значения переменной m_status .

Значение Значение
0 Неизвестно
1 Другое
2 OK
3 Требуется ремонт
4 Подчеркнул
5 Прогнозируемый сбой
6 Ошибка
7 Неустранимая ошибка
8 Запуск
9 Остановка
10 Остановлена
11 Обслуживается
12 Нет контакта
13 Связь потеряна
14 Прерывание
15 Бездействует
16 Ошибка поддержки сущности
17 Завершено
18 Режим питания
19 Перемещение
0xD002 Down
0xD003 Требуется повторная синхронизация

Значение столбца RenderedDescription события виртуальной машины 3003

Событие виртуальной машины 3003

{
   "m_totalVmsUnknown":"Integer",
   "m_totalVmsRunning":"Integer",
   "m_totalVmsStopped":"Integer",
   "m_totalVmsFailed":"Integer",
   "m_totalVmsPaused":"Integer",
   "m_totalVmsSuspended":"Integer",
   "m_totalVmsStarting":"Integer",
   "m_totalVmsSnapshotting":"Integer",
   "m_totalVmsSaving":"Integer",
   "m_totalVmsStopping":"Integer",
   "m_totalVmsPausing":"Integer",
   "m_totalVmsResuming":"Integer",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

Значение столбца RenderedDescription события кластера 3004

Событие кластера 3004

{
   "m_cpuUsage":"Double (%)",
   "m_totalVolumeIops":"Double",
   "m_averageVolumeLatency":"Double (Seconds)",
   "m_totalVolumeThroughput":"Double (Bytes/Second)",
   "m_totalVolumeSizeInBytes":"Integer",
   "m_usedVolumeSizeInBytes":"Integer",
   "m_totalMemoryInBytes":"Integer",
   "m_usedMemoryInBytes":"Integer",
   "m_isStretch":"Boolean",
   "m_QuorumType":"String",
   "m_QuorumMode":"String",
   "m_QuorumState":"String",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }

Дополнительные сведения о собираемых данных см. в разделе Ошибки службы работоспособности.

Дальнейшие действия

Связанные сведения: