Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Сводка
Cluster-Aware Updating (CAU) — это мощная функция, предназначенная для упрощения обновления узлов в Windows отказоустойчивых кластерах с минимальным влиянием на рабочие параметры. В то время как CAU повышает высокую доступность и эффективность обслуживания, могут возникнуть различные операционные и конфигурационные проблемы, начиная от сбоев обновления и прерываний службы кластера до ошибок разрешений и сбоев ресурсов. В этом руководстве представлен тщательно проверенный на практике подход к диагностике и устранению наиболее распространенных сбоев обновления Cluster-Aware Updating (CAU) и кластерных обновлений, гарантируя, что ваши кластерные рабочие нагрузки остаются в исправном состоянии и актуальными.
Контрольный список устранения неполадок
Используйте этот контрольный список для систематического устранения неполадок:
- Просмотрите последние изменения:
- Было ли обновление версии ОС, обновление драйвера или встроенного ПО или изменение Active Directory?
- Существуют ли новые узлы, конфигурации сети или изменения в обновлении расписаний?
- Проверьте настройку кластера и CAU:
- Установлена и запущена ли кластеризованная роль CAU?
- Все ли узлы работают корректно и могут взаимодействовать друг с другом?
- Находятся ли сети кластера и хранилище в работоспособном состоянии?
- Проверьте источник обновления и средства управления:
- Настроены ли все узлы для использования одного источника обновления?
- Совместимы ли SCCM или другие средства управления с CAU в вашей среде?
- Проверьте разрешения Active Directory:
- Имеет ли объект имени кластера полный контроль над созданием и управлением объектами виртуальных компьютеров (VCOs)?
- Существуют ли проблемы с репликацией или делегированием Active Directory?
- Отслеживайте ошибки службы и файлы аварийного дампа:
- Непредвиденная перезагрузка узлов или виртуальных машин?
- Существуют ли файлы аварийного дампа или ошибки журнала событий, указывающие на проблемы с драйвером, хранилищем или сетью?
- Сбор журналов и сообщений об ошибках:
- Сбор журналов кластера, журналов обновлений и журналов событий системы или приложения.
- Обратите внимание на любые сообщения об ошибках или идентификаторы событий.
Распространенные проблемы и решения
Роль CAU отсутствует или не работает
Симптомы
- Роль CAU не может быть управлена или проверена на статус.
- Ошибки: "Не удалось найти ресурс кластера", WU_E_PT_ENDPOINT_DISCONNECTED, сбои в работе CAUUpdatePlugin.
Резолюция
- Проверьте роль CAU в диспетчере отказоустойчивости кластеров или с помощью PowerShell (Get-ClusterResource).
- Удалите все конфликтующие или неправильно именуемые ресурсы кластера (Remove-ClusterRole -ClusterName <ClusterName> -force).
- Повторно создайте и предустановите объект компьютера CAU в Active Directory.
- Повторно добавьте роль CAU (Add-CauClusterRole ...), убедившись, что правильно настроены подключаемый модуль, учетная запись и расписание.
- Убедитесь, что проверка кластера проходит с помощью Test-Cluster.
2. Проблемы с разрешениями или "Active Directory"
Симптомы
- Сообщение модуля обновления: "Доступ запрещен".
- Идентификаторы событий: 1194, 1069. CNO не может создать VCO. Ресурсы не приходят в интернет после обновления.
Резолюция
- В Active Directory Users and Computers убедитесь, что CNO имеет полный контроль и привилегию "Создание объекта компьютера" в соответствующей организационной единице.
- Если ресурс кластера завершается ошибкой, сбросить или восстановить его: щелкните правой кнопкой мыши, чтобы восстановить или сбросить пароль по мере необходимости.
- Повторное применение разрешений и проверка функциональности с помощью тестового запуска CAU.
- Убедитесь, что ресурс имени сети кластера включен и присутствует в AD.
3. Узлы кластера, не использующие тот же источник обновления
Симптомы
- Некоторые узлы не получают обновления во время циклов обновления.
- Ошибка: "Сбой кластерного обновления на одном узле", постоянная ошибка 0x80072ee2 в журналах обновлений.
Резолюция
- Сравнение параметров реестра для источника обновления (например, сервера WSUS) на всех узлах (reg query).
- Экспорт реестра, связанного с обновлением рабочего узла. Импортируйте данные в затронутые узлы.
- Проверьте групповую политику на наличие настроек, которые могут изменить источники обновления.
- Проверьте однородность после перезапуска и убедитесь в успехе будущих запусков CAU.
4. Сбои сети или хранилища, влияющие на обновления
Симптомы
- Виртуальные машины перезагрузятся вместо миграции.
- Идентификаторы событий: 158, 58, 155 (storage/fs), "Сеть кластера отключена", удаление устройств.
- Общие тома кластера входят в приостановленное состояние, что приводит к потере доступа к хранилищу.
Резолюция
- Проверьте подключения к физической сети и кабели хранилища на затронутых узлах.
- Проверьте работоспособность сети кластера (Get-ClusterNetwork), проблемы с адаптером адресов или виртуальной локальной сетью.
- Используйте Test-Cluster для выявления проблем с работоспособностью оборудования.
- Обратитесь к командам по работе с хранилищами и сетями для устранения постоянных проблем с устройствами или подключением.
- Восстановление хранилища, исправление сетевых проблем, повторная попытка обновления.
5. Неправильная последовательность обновлений или принудительное переключение на другой узел
Симптомы
- Обновления устанавливаются перед дренированием ролей кластера, вызывая перерывы в рабочей нагрузке.
- Обновление выполняется после нескольких неудачных попыток очистки (принудительный перезапуск или аварийное переключение виртуальных машин).
Резолюция
- Всегда используйте флаг -ForcePauseAndDrain при планировании сценариев обновления или запуска CAU.
- Проверьте политики обновления, чтобы убедиться, что режим очистки узлов и режима обслуживания предшествует обновлению.
- Не используйте пользовательские скрипты перемещения ресурсов перед обновлением, которые могут вызвать поврежденное состояние.
- Увеличьте ограничения параллельной миграции виртуальных машин, если это необходимо (Set-VMHost -MaximumVirtualMachineMigrations).
6. Сбои кластера или узла, вызванные драйвером
Симптомы
- Узел управления перезагружается неожиданно. Многие виртуальные машины перезапускаются.
- Ошибки ("a"), случайное повреждение памяти, страницы ядра, заполненные значениями NULL.
- WinDbg сообщает о повреждении памяти, связанном с драйверами графических или хранилищных адаптеров.
Резолюция
- Определите и обновите устаревшие драйверы (например, GRID/Nvidia, хранилище HBA).
- Установите рекомендуемые изготовителем версии драйверов (например, Nvidia GRID = 573.48).
- Перезапустите узлы, отслеживайте дальнейшие сбои.
- С помощью WinDbg выполняйте анализ файлов аварийного дампа для подтверждения результатов.
7. Устаревшие или потерянные роли кластера не удаляются
Симптомы
- Ресурсы кластера остаются после попыток удаления.
- PowerShell возвращает сообщение "ПРЕДУПРЕЖДЕНИЕ: текущий кластер не настроен с Cluster-Aware обновляемой кластерной ролью".
Резолюция
- Используйте PowerShell (Remove-ClusterRole... -force) для удаления постоянных ролей.
- Попробуйте переместить основную группу кластеров на другой узел перед повторным удалением.
- Если ничего другое не помогает, просмотрите область базы данных кластера и удалите избыточные записи вручную.
8. Проблемы с интеграцией инструментов управления и источников обновлений
Симптомы
- Обновления, запланированные в SCCM, не отражают или не применяются к узлам кластера.
- Попытки интеграции с помощью стороннего управления обновлениями завершаются сбоем.
Резолюция
- Убедитесь, что SCCM не поддерживает кластеризацию и не интегрируется с CAU на родном уровне.
- Запустите обновление с поддержкой кластера и обновление SCCM в виде отдельных процессов.
- Ознакомьтесь с документацией по любой доступной интеграции или эскалации для пользовательского решения или поддержки.
Сбор данных
- Журналы кластера: Get-ClusterLog -UseLocalTime
- Журналы событий: экспорт с помощью средства просмотра событий: System, Application, FailoverClustering, Hyper-V -High-Availability
- Журналы обновления: Get-WindowsUpdateLog
- Пакеты диагностических данных (SDP): \SDP_Cluster.exe -SDP -SkipSDPList -acceptlogs
- Сетевая трассировка: netsh trace start capture=yes
- Параметры реестра: reg export "HKLM\SOFTWARE\Policies\Microsoft\Windows\Windows\WindowsUpdate" C:\WU-Reg-Backup.reg
- Сведения о драйверах и файлы дампа: файлы аварийного дампа системы, проанализированные с помощью WinDbg или аналогичных файлов.
Распространенные проблемы с краткой справочной таблицей
| Симптом или ошибка | Основная причина | Резолюция |
|---|---|---|
| Отсутствует роль CAU или ошибка "не удалось найти ресурс" | Отсутствует или неправильно настроена роль | Удалите конфликтующую роль, воссоздайте ее в AD, добавьте роль CAU снова. |
| Ошибка обновления плагина: "Доступ запрещён", ошибки VCO | Вопросы с разрешением/делегированием AD | Предоставьте CNO/VCO полный контроль, сбросьте разрешения, восстановите ресурс |
| Обновление завершается ошибкой на узле, код 0x80072ee2, разделённые источники обновления. | Несоответствие групповой политики и реестра | Настройка параметров реестра, исправление политики групп, удостоверьтесь, что все узлы используют один источник |
| Перезапуск виртуальных машин вместо миграции, сбой хранилища и сети, идентификаторы событий 158/58/155 | Сбой хранилища или сети или драйвера | Проверка кабелей, проверка работоспособности кластера, обновление драйверов, проверка журналов |
| Обновления выполняются до освобождения, неожиданного переключения роли | Изменение алгоритма обновления, отсутствующий флаг | Использование флага -ForcePauseAndDrain, настройка ограничений миграции |
| "Ресурс кластера остается после удаления", предупреждения об удалении | Устаревший или потерянный ресурс | Использование Remove-ClusterRole... -force, перемещение основной группы, очистка в hive |
| Средство обновления SCCM или стороннее средство обновления не может обновлять узлы кластера | Нет интеграции с собственным инструментом | Используйте CAU отдельно, обращайтесь за поддержкой для пользовательских и неподдерживаемых интеграций |
| Перезапуск узла, массовая перезагрузка виртуальной машины, повреждение памяти в дампах | Устаревший драйвер (например, Nvidia GRID) | Обновите драйвер до фиксированной версии. Проверка дефектов оборудования |