Устранение неполадок с состояниями серых агентов в System Center Operations Manager

Статья
04/15/2024

В этой статье описывается, как устранять неполадки, при которых агент, сервер управления или шлюз недоступен или неактивен в System Center Operations Manager (OpsMgr).

Исходная версия продукта: Microsoft System Center 2012 Operations Manager
Исходный номер базы знаний: 2288515

Агент, сервер управления или шлюз могут иметь одно из следующих состояний, о чем свидетельствуют цвет имени агента и значок на панели Мониторинг .

State	Оформление	Описание
Healthy	Зеленый проверка знак	Агент или сервер управления работает в обычном режиме.
Critical	Красная проверка метка	Возникла проблема на агенте или сервере управления.
Unknown	Имя агента серого цвета, серый проверка метка	Наблюдатель службы работоспособности на сервере управления, наблюдающий за работой службы работоспособности на отслеживаемом компьютере, больше не получает пульс от агента. Наблюдатель службы здравоохранения ранее получил сердцебиение, и состояние было сообщено как здоровое. Это также означает, что серверы управления больше не получают никакой информации от агента. Эта проблема может возникнуть, если компьютер, на котором запущен агент, не работает или возникли проблемы с подключением.
Unknown	Зеленый кружок без проверка метки	Состояние обнаруженного элемента неизвестно. Монитор для этого конкретного обнаруженного элемента отсутствует.

Причины серого состояния

Агент, сервер управления или шлюз могут стать недоступными по любой из следующих причин:

Сбой пульса
Недопустимая конфигурация
Сбой системных рабочих процессов
Проблемы с производительностью базы данных Или хранилища данных Operations Manager
Проблемы с производительностью сервера управления или сервера шлюза
Проблемы с сетью или проверкой подлинности
Служба работоспособности не запущена

Область проблемы

Прежде чем приступить к устранению проблемы с неактивным агентом, сначала следует понять топологию Operations Manager, а затем определить область проблемы. Следующие вопросы могут помочь вам определить область проблемы:

Сколько агентов затронуто?
Возникает ли проблема с агентами в одном сегменте сети?
Передают ли агенты отчет на один и тот же сервер управления?
Как часто агенты входят и остаются в сером состоянии?
Как обычно восстановиться после этой ситуации (например, перезапустить службу работоспособности агента, очистить кэш, использовать автоматическое восстановление)?
Создаются ли оповещения о сбоях пульса для этих агентов?
Возникает ли эта проблема в определенное время суток?
Сохраняется ли эта проблема при отработки отказа этих агентов на другой сервер управления или шлюз?
Когда возникла эта проблема?
Вносились ли какие-либо изменения в агенты, серверы управления, шлюз или группу управления?
Являются ли затронутые агенты кластеризованными системами Windows?
Исключена ли папка Состояние службы работоспособности из антивирусной проверки?

Стратегия устранения неполадок

Стратегия устранения неполадок будет зависеть от того, какой компонент неактивен, где он находится в топологии и насколько широко распространена проблема. Учитывайте следующие условия:

Если агенты, отчитывающиеся на определенный сервер управления или шлюз, недоступны, устранение неполадок должно начинаться на уровне сервера управления или шлюза.
Если шлюзы, отчитывающиеся на определенный сервер управления, недоступны, устранение неполадок должно начинаться на уровне сервера управления.
Для систем без агента, для сетевых устройств, а также для серверов Unix и Linux устранение неполадок должно начинаться с агента, сервера управления или шлюза, отслеживающего эти объекты.
Устранение неполадок обычно начинается на уровне сразу над недоступным компонентом.

Сценарий 1

Проблема затрагивает только несколько агентов. Эти агенты передают отчеты на разные серверы управления. Агенты остаются недоступными на регулярной основе. Хотя вы можете очистить кэш агента, чтобы помочь временно устранить проблему, проблема повторяется через несколько дней.

Решение для сценария 1

Чтобы устранить проблему в этом сценарии, выполните следующие действия.

Примените соответствующее исправление к затронутым операционным системам.
Исключите кэш агента из антивирусной проверки. Дополнительные сведения см. в статье Рекомендации по исключениям антивирусной программы, связанным с Operations Manager.
Остановите службу работоспособности.
Очистите кэш агента.
Запустите службу работоспособности.

Сценарий 2

Проблема затрагивает только несколько агентов. Эти агенты передают отчеты на разные серверы управления. Агенты остаются неактивными постоянно. Хотя вы можете очистить кэш агента, это не поможет устранить проблему.

Решение для сценария 2

Чтобы устранить проблему в этом сценарии, выполните следующие действия.

Определите, включена ли служба работоспособности и работает ли она в настоящее время на сервере управления или шлюзе. Если служба работоспособности перестала отвечать на запросы, создайте дамп ADPlus в режиме зависания службы, чтобы определить причину проблемы. Дополнительные сведения см. в статье Использование ADPlus.vbs для устранения неполадок при зависаниях и сбоях.
Просмотрите журнал событий Operations Manager в агенте, чтобы найти любое из следующих событий:

Идентификатор события: 1102
Источник события: HealthService
Описание события:
Правило или монитор "%4", запущенный для экземпляра "%3" с идентификатором:"%2", не может быть инициализировано и не будет загружено. Группа управления "%1"

Идентификатор события: 1103
Источник события: HealthService
Описание события:
Сводка: %2 правила/мониторы завершились сбоем и выгружены, %3 из них достигли предела сбоя, который предотвращает автоматическую перезагрузку. Группа управления "%1". Это только сводное событие. См. другие события с описанием выгруженных правил или мониторов.

Идентификатор события: 1104
Источник события: HealthService
Описание события:
Не удается разрешить профиль запуска А в рабочем процессе "%4", запущенный для экземпляра "%3" с идентификатором:"%2". Рабочий процесс не будет загружен. Группа управления "%1"

Идентификатор события: 1105
Источник события: HealthService
Описание события:
Несоответствие типов для профиля запуска А в рабочем процессе "%4", выполняемом для экземпляра "%3" с идентификатором:"%2". Рабочий процесс не будет загружен. Группа управления "%1"

Идентификатор события: 1106
Источник события: HealthService
Описание события:
Не удается получить доступ к профилю запуска от имени обычного текста в рабочем процессе "%4", запущенном для экземпляра "%3" с идентификатором:"%2". Рабочий процесс не будет загружен. Группа управления "%1"

Идентификатор события: 1107
Источник события: HealthService
Описание события:
Учетная запись для профиля запуска а в рабочем процессе "%4", выполняющаяся для экземпляра "%3" с идентификатором:"%2", не определена. Рабочий процесс не будет загружен. Свяжите учетную запись с профилем. Группа управления "%1"

Идентификатор события: 1108
Источник события: HealthService
Описание события:
Учетная запись, указанная в профиле запуска от имени "%7", не может быть разрешена. В частности, учетная запись используется в переопределении безопасной ссылки "%6". %n%n Это условие, возможно, произошло из-за того, что учетная запись не настроена для распространения на этом компьютере. Чтобы устранить эту проблему, необходимо открыть указанный ниже профиль запуска от имени, найти запись Учетная запись, указанную в ее SSID, и либо при необходимости распространить учетную запись на этот компьютер, либо изменить параметр в профиле, чтобы целевой объект не использовал указанную учетную запись. %n%nУправление группа: %1 %nЗапустить как профиль: %7 %nSecureReferenceOverride name: %6 %nSecureReferenceOverride ID: %4 %nObject name: %3 %nObject ID: %2 %nAccount SSID: %5

Идентификатор события: 4000
Источник события: HealthService
Описание события:
Узел мониторинга не отвечает или произошел сбой. Код состояния для сбоя узла — %1.

Идентификатор события: 21016
Источник событий: Соединитель OpsMgr
Описание события:
OpsMgr не удалось настроить канал связи для %1, и узлы отработки отказа отсутствуют. Обмен данными возобновится, когда %1 будет доступен, а связь с этого компьютера разрешена.

Идентификатор события: 21006
Источник событий: Соединитель OpsMgr
Описание события:
Соединителю OpsMgr не удалось подключиться к %1:%2. Код ошибки : %3 (%4). Убедитесь, что есть сетевое подключение, сервер работает и зарегистрировал свой прослушивающий порт, а брандмауэры не блокируют трафик к месту назначения.

Идентификатор события: 20070
Источник событий: Соединитель OpsMgr
Описание события:
Соединитель OpsMgr подключен к %1, но подключение было закрыто сразу после проверки подлинности. Наиболее вероятная причина этой ошибки заключается в том, что агент не авторизован для связи с сервером или сервер не получил конфигурацию. Проверьте журнал событий на сервере на наличие событий 20 000, указывая, что агенты, которые не утверждены, пытаются подключиться.

Идентификатор события: 20051
Источник событий: Соединитель OpsMgr
Описание события:
Не удалось загрузить указанный сертификат, так как он в настоящее время не действителен. Убедитесь, что системное время правильно, и при необходимости повторно выпустите сертификат%n Допустимое время начала сертификата: %1%n Допустимое время окончания сертификата : %2

Источник события: ESE
Категория событий: Диспетчер транзакций
Идентификатор события: 623
Описание: HealthService (<PID>). Хранилище версий экземпляра <>экземпляра("<имя>") достигло максимального размера <в> МБ. Вполне вероятно, что длительная транзакция препятствует очистке хранилища версий и приводит к его созданию в размере. Обновления будет отклонен до тех пор, пока долго выполняющаяся транзакция не будет полностью зафиксирована или не будет выполнен откат. Возможная долго выполняющаяся транзакция:
SessionId: <value>
Контекст сеанса: <значение>
ThreadId контекста сеанса: <значение>.
Очистка: <значение>
Если вы найдете следующие конкретные события, следуйте этим рекомендациям:
- События 1102 и 1103: эти события указывают на то, что некоторые рабочие процессы не удалось загрузить. Если это основные системные рабочие процессы, эти события могут вызвать проблему. В этом случае сосредоточьтесь на разрешении этих событий.
- События 1104, 1105, 1106, 1107 и 1108. Эти события могут вызывать события 1102 и 1103. Как правило, это происходит из-за неправильной настройки учетных записей запуска от имени. Например, учетные записи запуска от имени настроены для использования с неправильным классом или не настроены для распространения в агент.
- Событие 4000: это событие указывает на сбой процесса Monitoringhost.exe. Если эта проблема вызвана несоответствием БИБЛИОТЕК DLL или отсутствием разделов реестра, вы можете устранить проблему, переустановив агент. Если проблема не исчезнет, попробуйте устранить ее с помощью следующих методов:
  - Запустите запись монитора процессов до момента сбоя процесса. Дополнительные сведения см. в разделе Монитор процессов версии 3.53.
  - Создайте дамп ADPlus в режиме сбоя. Дополнительные сведения см. в статье Использование ADPlus.vbs для устранения неполадок при зависаниях и сбоях.
- Идентификатор события 21006: это событие указывает на наличие проблем с обменом данными между агентом и сервером управления. Если агент использует сертификат для взаимной проверки подлинности, убедитесь, что срок действия сертификата не истек и что агент использует правильный сертификат. Если используется Kerberos, убедитесь, что агент может взаимодействовать с Active Directory. Если проверка подлинности работает правильно, это может означать, что пакеты от агента не достигают сервера управления или шлюза. Попробуйте установить telnet для порта 5723 от агента на сервер управления. Кроме того, выполняйте одновременную трассировку сети между агентом и сервером управления при воспроизведении сбоев связи. Это поможет определить, доходят ли пакеты до сервера управления и пытается ли какое-либо устройство между двумя компонентами оптимизировать трафик или удаляет некоторые пакеты. Дополнительные сведения см. в статье Сбор данных с помощью сетевого монитора.
- Событие с идентификатором 623. Это событие обычно происходит в крупной среде Operations Manager, в которой сервер управления или компьютер агента управляет множеством рабочих процессов. Дополнительные сведения см. в разделе Один или несколько серверов управления и их управляемых устройств неактивны в консоли Operations Manager.

Сценарий 3

Все агенты, отчитывающиеся на определенный сервер управления или шлюз, недоступны.

Решение для сценария 3

Чтобы устранить проблему в этом сценарии, выполните следующие действия.

Попробуйте определить, какие рабочие нагрузки отслеживает сервер управления или шлюз. Такие рабочие нагрузки могут включать сетевые устройства, кроссплатформенные агенты, искусственные транзакции, агенты Windows и компьютеры без агента.
Определите, работает ли служба работоспособности на сервере управления или шлюзе.
Определите, работает ли сервер управления в режиме обслуживания. При необходимости удалите сервер из режима обслуживания.
Проверьте журнал событий Operations Manager в агенте на наличие любых событий, перечисленных в сценарии 2. Если имеется событие с идентификатором 21006, следуйте тем же рекомендациям, которые упоминаются в разделе Разрешение для сценария 2. Кроме того, в этом случае это событие указывает на то, что сервер управления или шлюз не могут взаимодействовать со своим родительским сервером. Для шлюза родительским сервером может быть любой сервер управления. (См. шаг 3 решения для сценария 2.)
Проверьте журнал событий Operations Manager на наличие следующих событий. Эти события обычно указывают на то, что на сервере управления или SQL Server Майкрософт, где размещается OperationsManager база данных илиOperationsManagerDW, возникают проблемы с производительностью.

Идентификатор события: 2115
Источник события: HealthService
Описание события:
Источник данных привязки в группе управления %1 опубликовал элементы в рабочий процесс, но не получил ответ в течение %5 секунд. Это указывает на проблему производительности или функциональности рабочего процесса.%n Идентификатор рабочего процесса : %2%n Экземпляр : %3%n Идентификатор экземпляра : %4%n

Идентификатор события: 5300
Источник события: HealthService
Описание события:
Локальная служба здравоохранения не работает. Поток изменения состояния сущности застопорился с ожиданием подтверждения. %n%nУправление: %2 %nИД группы управления: %1

Идентификатор события: 4506
Источник события: HealthService
Описание события: Operations Manager
Данные были удалены из-за слишком большого количества невыполненных данных в правиле "%2", работающем для примера "%3" с идентификатором:"%4" в группе управления "%1".

Идентификатор события: 31551
Источник событий: модули службы работоспособности
Описание события:
Не удалось сохранить данные в Data Warehouse. Операция будет повторна.%rException "%5": %6 %n%n%nВключено или несколько рабочих процессов. %n%n Имя процесса: %2 %nИмя экземпляра: %3 %nИд экземпляра: %4 %nУправление: %1

Идентификатор события: 31552
Источник событий: модули службы работоспособности
Описание события:
Не удалось сохранить данные в Data Warehouse.%rException "%5": %6 %n%n%nВключено или несколько рабочих процессов. %n%n Имя процесса: %2 %nИмя экземпляра: %3 %nИд экземпляра: %4 %nУправление: %1

Идентификатор события: 31553
Источник событий: модули службы работоспособности
Описание события:
Данные были записаны в промежуточную область Data Warehouse, но обработка завершилась сбоем при выполнении одной из последующих операций.%rException "%5": %6 %n%n%n Один или несколько рабочих процессов были затронуты этим. %n%n Имя процесса: %2 %nИмя экземпляра: %3 %nИд экземпляра: %4 %nУправление: %1

Идентификатор события: 31557
Источник событий: модули службы работоспособности
Описание события:
Не удалось получить сведения о состоянии процесса синхронизации из базы данных Data Warehouse. Операция будет повторна.%rException "%5": %6 %n%n%nВключено или несколько рабочих процессов. %n%n Имя процесса: %2 %nИмя экземпляра: %3 %nИд экземпляра: %4 %nУправление: %1
Событие с идентификатором 3155X также может быть зарегистрировано из-за неправильной конфигурации учетной записи запуска от имени или отсутствия разрешений для учетных записей запуска от имени.

Примечание.

Сведения об устранении неполадок производительности сервера управления или шлюза и SQL Server производительности см. в разделе Разрешение сценария 4.

Сценарии 4

Все агенты, которые передают отчеты на определенный сервер управления, периодически чередуются между работоспособным и серым состояниями. Или все агенты в среде периодически чередуются между здоровым и серым состояниями.

Решение для сценария 4

Чтобы устранить проблему, сначала определите причину проблемы. Ниже перечислены распространенные причины временной недоступности сервера.

Родительский сервер агентов временно находится в автономном режиме.
Агенты заполняют сервер управления операционными данными, такими как оповещения, состояния, обнаружения и т. д. Это может привести к увеличению использования системных ресурсов в базе данных Operations Manager и на серверах Operations Manager.
Сбои сети вызвали временный сбой связи между родительским сервером и агентами.
Произошли изменения пакета управления (MP). В консоли Operations Manager для этих изменений требуется конфигурация Operations Manager и перераспределение пакета управления для агентов. Если изменение затрагивает большую базу агентов, это может привести к увеличению использования системных ресурсов на базе данных Operations Manager и серверах Operations Manager.

Ключом к устранению неполадок в этих сценариях является понимание длительности недоступности сервера и времени суток, в течение которого это произошло. Это поможет вам быстро сузить область проблемы.

Устранение неполадок с производительностью сервера управления и шлюза

Сервер управления

Во время ускорения обновления конфигурации (вызванного импортом и обнаружением mp) типичными узкими местами являются, во-первых, ЦП, а во-вторых, операции ввода-вывода с установочным диском Operations Manager. Сервер управления отвечает за пересылку файлов конфигурации целевым агентам.

При сборе операционных данных узкие места обычно вызваны ЦП. Дисковые операции ввода-вывода также могут иметь максимальную емкость, но это не так вероятно. Сервер управления отвечает за распаковку и расшифровку входящих операционных данных, а также за их вставку в операционную базу данных. Он также отправляет подтверждения (AK) обратно агентам или шлюзам после получения операционных данных и использует очередь на диске для временного хранения этих исходящих AK.

Шлюз

Шлюз связан как с ЦП, так и с привязкой ввода-вывода. Когда шлюз ретранслируется большой объем данных, операции ЦП и операций ввода-вывода могут показывать высокую загрузку. Большая часть использования ЦП вызвана распаковки, сжатия, шифрования и расшифровки входящих данных, а также передачей этих данных. Все данные, полученные шлюзом и агентами, хранятся в постоянной очереди на диске для чтения и пересылки на сервер управления службой работоспособности шлюза. Это может привести к интенсивному использованию диска. Это может быть значительным, когда шлюз временно отключен, а затем должен обрабатывать накопленные данные агента, созданные агентами и которые они пытались отправить, когда шлюз был еще не в сети.

Чтобы устранить проблему в этой ситуации, соберите следующие сведения для каждого затронутого сервера управления или шлюза:

Точный номер версии, выпуска и сборки Windows
Число процессоров
Объем ОЗУ
Диск, содержащий папку "Состояние службы работоспособности"
Настроено ли антивирусное программное обеспечение для исключения хранилища службы работоспособности

Примечание.

Дополнительные сведения см. в статье Рекомендации по исключениям антивирусной программы, связанным с Operations Manager.
Уровень RAID (0, 1, 50+1 или 1+0) для диска, используемого состоянием службы работоспособности
Количество дисков, используемых для RAID
Включен ли кэш записи с поддержкой батареи на контроллере массива

Устранение неполадок с производительностью SQL Server

Рабочая база данных (OperationsManager)

OperationsManager Для базы данных наиболее вероятным узким местом является массив дисков. Если массив дисков не имеет максимальной емкости операций ввода-вывода, следующим наиболее вероятным узким местом является ЦП. База данных будет испытывать случайные задержки и операционные бури данных (высокий уровень событий, оповещений и данных о производительности или изменения состояния, сохраняющиеся в течение относительно длительного времени). Короткий всплеск обычно не приводит к значительной задержке в течение длительного периода времени.

Во время оперативной вставки данных диски базы данных в основном используются для операций записи. Использование ЦП вызвано SQL Server оттоком. Это может произойти при наличии больших и сложных запросов, вставки больших данных и обработки больших таблиц (которые по умолчанию выполняются в полночь). Как правило, очистка даже больших событий и таблиц данных производительности не потребляет чрезмерных ресурсов ЦП или дисков. Однако очистка таблиц оповещений и изменений состояния может быть ресурсоемкой для больших таблиц.

База данных также привязана к ЦП, когда она обрабатывает пики перераспределения конфигурации, вызванные импортом mp или изменением пространства крупных экземпляров. В таких случаях служба конфигурации запрашивает у базы данных новую конфигурацию агента. Обычно это приводит к возникновению скачков ЦП в базе данных до отправки службой обновлений конфигурации агентам.

Хранилище данных (OperationsManagerDW)

OperationsManagerDW Для базы данных наиболее вероятным узким местом является массив дисков. Обычно это происходит из-за больших операций вставки данных. В таких случаях диски в основном заняты выполнением операций записи. Обычно диски выполняют несколько операций чтения, за исключением обработки созданных вручную представлений отчетов, так как они выполняют запросы к хранилищу данных.

Загрузка ЦП вызвана SQL Server оттоком. Пики ЦП могут возникать во время интенсивной секционирования (когда таблицы становятся большими, а затем секционируются), создания сложных отчетов и больших объемов оповещений в базе данных, с которыми хранилище данных должно постоянно синхронизироваться.

Устранение общих неполадок

Точный номер версии, выпуска и сборки Windows
Число процессоров
Объем ОЗУ
Объем памяти, выделенной SQL Server
Указывает, является ли SQL Server 32-разрядной и включен ли AWE

Большую часть этих сведений можно найти в SQL Server Management Studio или в диспетчере SQL Server Enterprise. Для этого откройте окно Свойства сервера и выберите вкладки Общие и Память . Вкладка Общие содержит версию SQL Server, версию Windows, платформу, объем ОЗУ и количество процессоров. Вкладка Память содержит память, выделенную SQL Server. В Microsoft SQL Server 2008 на вкладке Память также есть параметр AWE.

Если ос является 32-разрядной, а объем ОЗУ составляет 4 ГБ или больше, проверка, существуют ли /pae коммутаторы или /3gb в Boot.ini. удален. Эти параметры могут быть настроены неправильно, если сервер был изначально установлен с использованием 4 ГБ или меньше ОЗУ, а также если ОЗУ был обновлен позже.

Для 32-разрядных серверов с 4 ГБ ОЗУ /3gb переключатель в Boot.ini увеличивает объем памяти, который может адресовать SQL Server (с 2 ГБ до 3 ГБ). Для 32-разрядных серверов с более чем 4 ГБ ОЗУ /3gb параметр в Boot.ini может фактически ограничить объем памяти, который может адресировать SQL Server. Для этих систем добавьте /pae переключатель в Boot.ini, а затем включите AWE в SQL Server.

В многопроцессорной системе проверка параметр Max Degree of Parallelism (MAXDOP). В SQL Server 2008 этот параметр находится на вкладке Дополнительно в диалоговом окне Свойства для сервера.

Значение по умолчанию — 0, что означает, что будут использоваться все доступные процессоры. Параметр 0 подходит для серверов с восемью или менее процессорами. Для серверов с более чем восемью процессорами время, затрачиваемое SQL Server на согласование использования всех процессоров, может оказаться контрпродуктивным. Таким образом, для серверов с более чем восемью процессорами, как правило, следует задать значение Max Degree of Parallelism в значение 8. Для этого выполните следующую команду в анализаторе запросов SQL:
```
sp_configure 'show advanced options', 1
GO
RECONFIGURE WITH OVERRIDE
GO
sp_configure 'max degree of parallelism', 8
GO
RECONFIGURE WITH OVERRIDE
GO
```
Буквы дисков, содержащие файлы хранилища данных, базы данных Operations Manager и tempdb
Настроено ли антивирусное программное обеспечение для исключения файлов данных и журналов SQL (сканирование SQL Server файлов базы данных с помощью антивирусного программного обеспечения может снизить производительность.)
Объем свободного места на дисках с хранилищем данных, базой данных Operations Manager и файлами Tempdb
Тип хранилища (SAN или local)
Уровень RAID (0, 1, 5, 0+1 или 1+0) для дисков, используемых SQL Server
Если используется хранилище SAN: количество шпинделей в каждом LUN, используемом SQL Server
Если используется преобразованный пакет управления Exchange 2007 или когда-либо использовался: количество строк в LocalizedText таблице в базе данных Operations Manager и в EventPublisher таблице в базе данных хранилища данных

Чтобы определить количество строк, выполните следующие команды:
```
USE OperationsManager SELECT COUNT(*) FROM LocalizedText
USE OperationsManagerDW SELECT COUNT(*) FROM EventPublisher
```

Счетчики для выявления нехватки памяти

Имя счетчика производительности	Описание
ЭКЗЕМПЛЯР MSSQL$<>: Диспетчер буферов: ожидаемая продолжительность жизни страницы	Как долго страницы хранятся в буферном пуле. Если это значение меньше 300 секунд, это может указывать на то, что сервер может использовать больше памяти. Это также может быть результатом фрагментации индекса.
MSSQL$<instance>: диспетчер буферов: отложенные операции записи/с	Отложенный модуль записи освобождает место в буфере путем перемещения страниц на диск. Как правило, значение не должно превышать 20 операций записи в секунду. В идеале он был бы близок к нулю.
Память: доступно МБ	Значения ниже 100 МБ могут указывать на нехватку памяти. Нехватка памяти явно присутствует, если этот объем меньше 10 МБ.
Процесс: Частные байты: _Total	Это объем памяти (физической и страничной), используемый всеми процессами вместе взятыми.
Процесс: рабочий набор: _Total	Это объем физической памяти, используемый всеми процессами вместе взятыми. Если значение для этого счетчика значительно ниже значения для `Process: Private Bytes: _Total`, это указывает на то, что процессы слишком сильно разбились по страницам. Разница в более чем 10%, вероятно, значительна.

Счетчики для определения давления на диск

Запишите эти счетчики физических дисков для всех дисков, содержащих данные SQL или файлы журналов:

% времени простоя: сколько времени простоя диска сообщается. Все, что ниже 50 процентов может указывать на узкое место диска.
Средняя длина очереди диска. Это значение не должно превышать число шпинделей в LUN в два раза. Например, если LUN имеет 25 шпинделей, допустимо значение 50. Однако если LUN имеет 10 шпинделей, значение 25 будет слишком высоким. Можно использовать следующие формулы на основе уровня RAID и количества дисков в конфигурации RAID:
- RAID 0: все диски выполняют работу в наборе RAID 0
- Средняя длина< очереди диска= # (диски в массиве) *2
- RAID 1: половина дисков выполняет работу; таким образом, только половина из них может быть учтена в очереди дисков
- Средняя длина< очереди диска= # (диски в массиве/2) *2
- RAID 10: половина дисков "выполняет работу"; таким образом, только половина из них может быть учтена в очереди дисков
- Средняя длина< очереди диска= # (диски в массиве/2) *2
- RAID 5: все диски выполняют работу в наборе RAID 5
- Средняя длина< очереди диска= # Диски в массиве *2
- Среднее число дисковых операций в секунду на передачу: количество секунд, затраченных на выполнение одного дискового ввода-вывода.
- Среднее время чтения на диске в секунду: среднее время (в секундах) для чтения данных с диска
- Среднее время записи на диск в секунду: среднее время записи данных на диск (в секундах)
  
  Последние три счетчика в этом списке должны постоянно иметь значения примерно 0,020 (20 мс) или ниже и не должны превышать 0,050 (50 мс). Ниже приведены пороговые значения, описанные в руководстве по устранению неполадок с производительностью SQL Server.
  - Менее 10 мс: очень хорошо
  - От 10 до 20 мс: хорошо
  - От 20 до 50 мс: медленно, требует внимания
  - Более 50 мс: серьезное узкое место ввода-вывода
- Диск байт/с: количество байтов, передаваемых на диск или с диска в секунду.
- Передача дисков/с: количество операций ввода-вывода в секунду (операций ввода-вывода в секунду)
Если время простоя в % невелико (10 процентов или меньше), это означает, что диск полностью используется. В этом случае два последних счетчика в этом списке (диск байт/с ) и передача дисков/с обеспечивают хорошее представление о максимальной пропускной способности диска в байтах и операций ввода-вывода в секунду соответственно. Пропускная способность диска SAN сильно зависит от количества шпинделей, скорости дисков и скорости канала. Лучше всего проверка с поставщиком SAN, чтобы узнать, сколько байтов и операций ввода-вывода в секунду должен поддерживать диск. Если время простоя в % невелико и значения этих двух счетчиков не соответствуют ожидаемой пропускной способности диска, обратитесь к поставщику SAN для устранения неполадок.

SQL Server руководства по устранению неполадок с производительностью предоставляют более подробные сведения об устранении неполадок SQL Server производительности.

Счетчики производительности Operations Manager

В следующих разделах описаны счетчики производительности, которые можно использовать для мониторинга и устранения неполадок производительности Operations Manager.

Роль сервера шлюза

Общие счетчики производительности

Эти счетчики указывают общую производительность шлюза:

Имя счетчика производительности
Processor(_Total)\% Processor Time
Memory\% Committed Bytes In Use
Сетевой интерфейс(*)\Всего байтов/с
Время простоя LogicalDisk(*)\%
LogicalDisk(*)\Средняя длина очереди диска

Универсальные счетчики производительности процессов Operations Manager

Эти счетчики указывают общую производительность процессов Operations Manager в шлюзе:

Имя счетчика производительности	Описание
Process(HealthService)\% Процессор времени
Process(HealthService)\Private Bytes	В зависимости от того, сколько агентов управляет шлюзом, это число может отличаться и может составлять несколько сотен мегабайт.
Process(HealthService)\Thread Count
Process(HealthService)\Virtual Bytes
Process(HealthService)\Working Set
Process(MonitoringHost*)\% Процессор времени
Process(MonitoringHost*)\Private Bytes
Process(MonitoringHost*)\Thread Count
Process(MonitoringHost*)\Virtual Bytes
Process(MonitoringHost*)\Working Set

Счетчики производительности Operations Manager

Эти счетчики являются счетчиками Operations Manager, которые указывают на производительность определенных аспектов Operations Manager в шлюзе:

Имя счетчика производительности	Описание
Служба работоспособности\Количество рабочих процессов
Группы управления службой работоспособности(*)\Активные отправки файлов	Количество передач файлов, обрабатываемых этим шлюзом. Это число файлов пакета управления, которые передаются агентам. Если это значение остается на высоком уровне в течение длительного времени и в данный момент не выполняется импорт пакетов управления, эти условия могут привести к проблеме, которая влияет на передачу файлов.
Группы управления службой работоспособности(*)\Использованный процент отправки очереди	Размер постоянной очереди. Если это значение остается выше 10 в течение длительного времени и не падает, это означает, что резервная копия очереди создается. Это условие вызвано перегрузкой системы Operations Manager, так как сервер управления или база данных слишком загружены или находятся в автономном режиме.
Соединитель OpsMgr\Получено байтов	Число сетевых байтов, полученных шлюзом, то есть количество входящих байтов до распаковки.
Соединитель OpsMgr\Передано байтов	Число сетевых байтов, отправленных шлюзом, то есть количество исходящих байтов после сжатия.
Соединитель OpsMgr\Получено байт данных	Количество байтов данных, полученных шлюзом, то есть количество входящих данных после распаковки.
Соединитель OpsMgr\Передаваемые байты данных	Количество байтов данных, отправленных шлюзом, то есть объем исходящих данных до сжатия.
Соединитель OpsMgr\Open Connections	Количество подключений, открытых в шлюзе. Это число должно совпадать с числом агентов или серверов управления, которые напрямую подключены к шлюзу.

Роль сервера управления

Общие счетчики производительности

Эти счетчики указывают общую производительность сервера управления:

Имя счетчика производительности
Processor(_Total)\% Processor Time
Memory\% Committed Bytes In Use
Сетевой интерфейс(*)\Всего байтов/с
Время простоя LogicalDisk(*)\%
LogicalDisk(*)\Средняя длина очереди диска

Универсальные счетчики производительности процессов Operations Manager

Эти счетчики указывают общую производительность процессов Operations Manager на сервере управления:

Имя счетчика производительности	Описание
Process(HealthService)\% Процессор времени
Process(HealthService)\Private Bytes	В зависимости от того, сколько агентов управляет сервером управления, это число может отличаться и может составлять несколько сотен мегабайт.
Process(HealthService)\Thread Count
Process(HealthService)\Virtual Bytes
Process(HealthService)\Working Set
Process(MonitoringHost*)\% Процессор времени
Process(MonitoringHost*)\Private Bytes
Process(MonitoringHost*)\Thread Count
Process(MonitoringHost*)\Virtual Bytes
Process(MonitoringHost*)\Working Set

Счетчики производительности Operations Manager

Эти счетчики являются счетчиками Operations Manager, которые указывают на производительность определенных аспектов Operations Manager на сервере управления:

Имя счетчика производительности	Описание
Служба работоспособности\Количество рабочих процессов	Количество рабочих процессов, запущенных на этом сервере управления.
Группы управления службой работоспособности(*)\Активные отправки файлов	Количество передач файлов, обрабатываемых этим сервером управления. Это число файлов пакета управления, которые передаются агентам. Если это значение остается на высоком уровне в течение длительного времени и в данный момент не выполняется импорт пакетов управления, эти условия могут привести к проблеме, которая влияет на передачу файлов.
Группы управления службой работоспособности(*)\Использованный процент отправки очереди	Размер постоянной очереди. Если это значение остается выше 10 в течение длительного времени и не падает, это означает, что резервная копия очереди создается. Это условие вызвано перегрузкой системы Operations Manager, так как система Operations Manager (например, корневой сервер управления) слишком занята или находится в автономном режиме.
Группы управления службами работоспособности(*)\Скорость падения элемента источника данных привязки	Количество элементов данных, которые удаляются сервером управления для операций записи сбора данных базы данных или хранилища данных. Если это значение счетчика не `0`равно , сервер управления или база данных перегружается из-за того, что он не может обрабатывать входящий элемент данных достаточно быстро или из-за того, что происходит ускорение элемента данных. Удаленные элементы данных будут повторно использоваться агентами. После завершения перегрузки или ускорения эти элементы данных будут вставлены в базу данных или в хранилище данных.
Группы управления службами работоспособности(*)\Привязываемая скорость входящих элементов источника данных	Количество элементов данных, полученных сервером управления для операций записи в базе данных или хранилище данных.
Группы управления службами работоспособности(*)\Привязываемая запись элемента источника данных	Количество элементов данных, записываемых сервером управления в базу данных или хранилище данных для операций записи сбора данных.
Соединитель OpsMgr\Получено байтов	Количество сетевых байтов, полученных сервером управления, то есть размер входящих байтов до распаковки.
Соединитель OpsMgr\Передано байтов	Количество сетевых байтов, отправленных сервером управления, то есть размер исходящих байтов после сжатия.
Соединитель OpsMgr\Получено байт данных	Количество байтов данных, полученных сервером управления, то есть размер входящих данных после распаковки.
Соединитель OpsMgr\Передаваемые байты данных	Количество байтов данных, отправленных сервером управления, то есть размер исходящих данных перед сжатием.
Соединитель OpsMgr\Open Connections	Количество подключений, открытых на сервере управления. Оно должно совпадать с количеством агентов или корневого сервера управления, которые подключены к нему напрямую.
OpsMgr database Write Action Modules(*)\Avg. Batch Size	Количество элементов данных или пакетов, полученных модулями действий записи базы данных. Если это число равно 5000, происходит ускорение элемента данных.
OpsMgr DB Write Action Modules(*)\Avg. Processing Time	Количество секунд, в течение которых модули действий записи базы данных вставляют пакет в базу данных. Если это число часто превышает 60, возникает проблема с производительностью вставки базы данных.
Модуль модуля записи dw OpsMgr(*)\Среднее время пакетной обработки, мс	Количество миллисекундах для операции записи в хранилище данных для вставки пакета элементов данных в хранилище данных.
Модуль модуля записи dw OpsMgr(*)\Avg. Batch Size	Среднее количество элементов данных или пакетов, полученных модулями действий записи в хранилище данных.
Модуль модуля записи данных OpsMgr(*)\Batches/sec	Количество пакетов, получаемых модулями действий записи хранилища данных в секунду.
Модуль модуля записи dw OpsMgr(*)\Data Items/sec	Количество элементов данных, получаемых модулями действий записи хранилища данных в секунду.
Модуль записи данных OpsMgr(*)\Число элементов данных	Количество элементов данных, удаленных модулями действий записи хранилища данных.
Модуль модуля модуля записи dw OpsMgr(*)\Общее число ошибок	Количество ошибок, возникших в модуле действия записи в хранилище данных.

Поделиться через

Устранение неполадок с состояниями серых агентов в System Center Operations Manager

Причины серого состояния

Область проблемы

Стратегия устранения неполадок

Сценарий 1

Решение для сценария 1

Сценарий 2

Решение для сценария 2

Сценарий 3

Решение для сценария 3

Сценарии 4

Решение для сценария 4

Устранение неполадок с производительностью сервера управления и шлюза

Сервер управления

Шлюз

Устранение неполадок с производительностью SQL Server

Рабочая база данных (OperationsManager)

Хранилище данных (OperationsManagerDW)

Устранение общих неполадок

Счетчики для выявления нехватки памяти

Счетчики для определения давления на диск

Счетчики производительности Operations Manager

Роль сервера шлюза

Общие счетчики производительности

Универсальные счетчики производительности процессов Operations Manager

Счетчики производительности Operations Manager

Роль сервера управления

Общие счетчики производительности

Универсальные счетчики производительности процессов Operations Manager

Счетчики производительности Operations Manager

Обратная связь

Дополнительные ресурсы