Поделиться через


Руководство по устранению неполадок кластерного обновления (CAU)

Сводка

Cluster-Aware Updating (CAU) — это мощная функция, предназначенная для упрощения обновления узлов в Windows отказоустойчивых кластерах с минимальным влиянием на рабочие параметры. В то время как CAU повышает высокую доступность и эффективность обслуживания, могут возникнуть различные операционные и конфигурационные проблемы, начиная от сбоев обновления и прерываний службы кластера до ошибок разрешений и сбоев ресурсов. В этом руководстве представлен тщательно проверенный на практике подход к диагностике и устранению наиболее распространенных сбоев обновления Cluster-Aware Updating (CAU) и кластерных обновлений, гарантируя, что ваши кластерные рабочие нагрузки остаются в исправном состоянии и актуальными.

Контрольный список устранения неполадок

Используйте этот контрольный список для систематического устранения неполадок:

  • Просмотрите последние изменения:
    • Было ли обновление версии ОС, обновление драйвера или встроенного ПО или изменение Active Directory?
    • Существуют ли новые узлы, конфигурации сети или изменения в обновлении расписаний?
  • Проверьте настройку кластера и CAU:
    • Установлена и запущена ли кластеризованная роль CAU?
    • Все ли узлы работают корректно и могут взаимодействовать друг с другом?
    • Находятся ли сети кластера и хранилище в работоспособном состоянии?
  • Проверьте источник обновления и средства управления:
    • Настроены ли все узлы для использования одного источника обновления?
    • Совместимы ли SCCM или другие средства управления с CAU в вашей среде?
  • Проверьте разрешения Active Directory:
    • Имеет ли объект имени кластера полный контроль над созданием и управлением объектами виртуальных компьютеров (VCOs)?
    • Существуют ли проблемы с репликацией или делегированием Active Directory?
  • Отслеживайте ошибки службы и файлы аварийного дампа:
    • Непредвиденная перезагрузка узлов или виртуальных машин?
    • Существуют ли файлы аварийного дампа или ошибки журнала событий, указывающие на проблемы с драйвером, хранилищем или сетью?
  • Сбор журналов и сообщений об ошибках:
    • Сбор журналов кластера, журналов обновлений и журналов событий системы или приложения.
    • Обратите внимание на любые сообщения об ошибках или идентификаторы событий.

Распространенные проблемы и решения

Роль CAU отсутствует или не работает

Симптомы

  • Роль CAU не может быть управлена или проверена на статус.
  • Ошибки: "Не удалось найти ресурс кластера", WU_E_PT_ENDPOINT_DISCONNECTED, сбои в работе CAUUpdatePlugin.

Резолюция

  • Проверьте роль CAU в диспетчере отказоустойчивости кластеров или с помощью PowerShell (Get-ClusterResource).
  • Удалите все конфликтующие или неправильно именуемые ресурсы кластера (Remove-ClusterRole -ClusterName <ClusterName> -force).
  • Повторно создайте и предустановите объект компьютера CAU в Active Directory.
  • Повторно добавьте роль CAU (Add-CauClusterRole ...), убедившись, что правильно настроены подключаемый модуль, учетная запись и расписание.
  • Убедитесь, что проверка кластера проходит с помощью Test-Cluster.

2. Проблемы с разрешениями или "Active Directory"

Симптомы

  • Сообщение модуля обновления: "Доступ запрещен".
  • Идентификаторы событий: 1194, 1069. CNO не может создать VCO. Ресурсы не приходят в интернет после обновления.

Резолюция

  • В Active Directory Users and Computers убедитесь, что CNO имеет полный контроль и привилегию "Создание объекта компьютера" в соответствующей организационной единице.
  • Если ресурс кластера завершается ошибкой, сбросить или восстановить его: щелкните правой кнопкой мыши, чтобы восстановить или сбросить пароль по мере необходимости.
  • Повторное применение разрешений и проверка функциональности с помощью тестового запуска CAU.
  • Убедитесь, что ресурс имени сети кластера включен и присутствует в AD.

3. Узлы кластера, не использующие тот же источник обновления

Симптомы

  • Некоторые узлы не получают обновления во время циклов обновления.
  • Ошибка: "Сбой кластерного обновления на одном узле", постоянная ошибка 0x80072ee2 в журналах обновлений.

Резолюция

  • Сравнение параметров реестра для источника обновления (например, сервера WSUS) на всех узлах (reg query).
  • Экспорт реестра, связанного с обновлением рабочего узла. Импортируйте данные в затронутые узлы.
  • Проверьте групповую политику на наличие настроек, которые могут изменить источники обновления.
  • Проверьте однородность после перезапуска и убедитесь в успехе будущих запусков CAU.

4. Сбои сети или хранилища, влияющие на обновления

Симптомы

  • Виртуальные машины перезагрузятся вместо миграции.
  • Идентификаторы событий: 158, 58, 155 (storage/fs), "Сеть кластера отключена", удаление устройств.
  • Общие тома кластера входят в приостановленное состояние, что приводит к потере доступа к хранилищу.

Резолюция

  • Проверьте подключения к физической сети и кабели хранилища на затронутых узлах.
  • Проверьте работоспособность сети кластера (Get-ClusterNetwork), проблемы с адаптером адресов или виртуальной локальной сетью.
  • Используйте Test-Cluster для выявления проблем с работоспособностью оборудования.
  • Обратитесь к командам по работе с хранилищами и сетями для устранения постоянных проблем с устройствами или подключением.
  • Восстановление хранилища, исправление сетевых проблем, повторная попытка обновления.

5. Неправильная последовательность обновлений или принудительное переключение на другой узел

Симптомы

  • Обновления устанавливаются перед дренированием ролей кластера, вызывая перерывы в рабочей нагрузке.
  • Обновление выполняется после нескольких неудачных попыток очистки (принудительный перезапуск или аварийное переключение виртуальных машин).

Резолюция

  • Всегда используйте флаг -ForcePauseAndDrain при планировании сценариев обновления или запуска CAU.
  • Проверьте политики обновления, чтобы убедиться, что режим очистки узлов и режима обслуживания предшествует обновлению.
  • Не используйте пользовательские скрипты перемещения ресурсов перед обновлением, которые могут вызвать поврежденное состояние.
  • Увеличьте ограничения параллельной миграции виртуальных машин, если это необходимо (Set-VMHost -MaximumVirtualMachineMigrations).

Симптомы

  • Узел управления перезагружается неожиданно. Многие виртуальные машины перезапускаются.
  • Ошибки ("a"), случайное повреждение памяти, страницы ядра, заполненные значениями NULL.
  • WinDbg сообщает о повреждении памяти, связанном с драйверами графических или хранилищных адаптеров.

Резолюция

  • Определите и обновите устаревшие драйверы (например, GRID/Nvidia, хранилище HBA).
  • Установите рекомендуемые изготовителем версии драйверов (например, Nvidia GRID = 573.48).
  • Перезапустите узлы, отслеживайте дальнейшие сбои.
  • С помощью WinDbg выполняйте анализ файлов аварийного дампа для подтверждения результатов.

7. Устаревшие или потерянные роли кластера не удаляются

Симптомы

  • Ресурсы кластера остаются после попыток удаления.
  • PowerShell возвращает сообщение "ПРЕДУПРЕЖДЕНИЕ: текущий кластер не настроен с Cluster-Aware обновляемой кластерной ролью".

Резолюция

  • Используйте PowerShell (Remove-ClusterRole... -force) для удаления постоянных ролей.
  • Попробуйте переместить основную группу кластеров на другой узел перед повторным удалением.
  • Если ничего другое не помогает, просмотрите область базы данных кластера и удалите избыточные записи вручную.

8. Проблемы с интеграцией инструментов управления и источников обновлений

Симптомы

  • Обновления, запланированные в SCCM, не отражают или не применяются к узлам кластера.
  • Попытки интеграции с помощью стороннего управления обновлениями завершаются сбоем.

Резолюция

  • Убедитесь, что SCCM не поддерживает кластеризацию и не интегрируется с CAU на родном уровне.
  • Запустите обновление с поддержкой кластера и обновление SCCM в виде отдельных процессов.
  • Ознакомьтесь с документацией по любой доступной интеграции или эскалации для пользовательского решения или поддержки.

Сбор данных

  • Журналы кластера: Get-ClusterLog -UseLocalTime
  • Журналы событий: экспорт с помощью средства просмотра событий: System, Application, FailoverClustering, Hyper-V -High-Availability
  • Журналы обновления: Get-WindowsUpdateLog
  • Пакеты диагностических данных (SDP): \SDP_Cluster.exe -SDP -SkipSDPList -acceptlogs
  • Сетевая трассировка: netsh trace start capture=yes
  • Параметры реестра: reg export "HKLM\SOFTWARE\Policies\Microsoft\Windows\Windows\WindowsUpdate" C:\WU-Reg-Backup.reg
  • Сведения о драйверах и файлы дампа: файлы аварийного дампа системы, проанализированные с помощью WinDbg или аналогичных файлов.

Распространенные проблемы с краткой справочной таблицей

Симптом или ошибка Основная причина Резолюция
Отсутствует роль CAU или ошибка "не удалось найти ресурс" Отсутствует или неправильно настроена роль Удалите конфликтующую роль, воссоздайте ее в AD, добавьте роль CAU снова.
Ошибка обновления плагина: "Доступ запрещён", ошибки VCO Вопросы с разрешением/делегированием AD Предоставьте CNO/VCO полный контроль, сбросьте разрешения, восстановите ресурс
Обновление завершается ошибкой на узле, код 0x80072ee2, разделённые источники обновления. Несоответствие групповой политики и реестра Настройка параметров реестра, исправление политики групп, удостоверьтесь, что все узлы используют один источник
Перезапуск виртуальных машин вместо миграции, сбой хранилища и сети, идентификаторы событий 158/58/155 Сбой хранилища или сети или драйвера Проверка кабелей, проверка работоспособности кластера, обновление драйверов, проверка журналов
Обновления выполняются до освобождения, неожиданного переключения роли Изменение алгоритма обновления, отсутствующий флаг Использование флага -ForcePauseAndDrain, настройка ограничений миграции
"Ресурс кластера остается после удаления", предупреждения об удалении Устаревший или потерянный ресурс Использование Remove-ClusterRole... -force, перемещение основной группы, очистка в hive
Средство обновления SCCM или стороннее средство обновления не может обновлять узлы кластера Нет интеграции с собственным инструментом Используйте CAU отдельно, обращайтесь за поддержкой для пользовательских и неподдерживаемых интеграций
Перезапуск узла, массовая перезагрузка виртуальной машины, повреждение памяти в дампах Устаревший драйвер (например, Nvidia GRID) Обновите драйвер до фиксированной версии. Проверка дефектов оборудования

Ссылки