Прочитать на английском

Поделиться через


Проверка кластера Azure Stack HCI

Область применения: Azure Stack HCI, версии 22H2 и 21H2; Windows Server 2022, Windows Server 2019.

Важно!

Azure Stack HCI теперь является частью Azure Local. Выполняется переименование документации по продукту. Однако старые версии Azure Stack HCI, например 22H2, будут продолжать ссылаться на Azure Stack HCI и не отражают изменение имени. Подробнее.

Предупреждение

Инструкции по развертыванию, приведенные в этой статье, относятся к старой версии Azure Stack HCI версии 22H2. Для новых развертываний рекомендуется использовать последнюю общедоступную версию Azure Stack HCI версии 23H2. Инструкции по развертыванию см. в статье о развертывании Azure Stack HCI версии 23H2.

Убедитесь, что DCB больше не рекомендуется для настройки или проверки конфигурации сети узла в Azure Stack HCI. Мы рекомендуем использовать Network ATC для настройки сети узла для Azure Stack HCI. Сетевой ATC всегда заменяет проверку DCB в Azure Stack HCI.

Хотя мастер создания кластера в Windows Admin Center выполняет определенные проверки для создания рабочего кластера с выбранным оборудованием, проверка кластера выполняет дополнительные проверки, чтобы убедиться, что кластер будет работать в рабочей среде. В этой статье основное внимание уделяется тому, почему проверка кластера важна и когда она выполняется в кластере Azure Stack HCI.

Мы рекомендуем выполнить проверку кластера для следующих основных сценариев:

  • После развертывания кластера сервера запустите средство Validate-DCB для тестирования сети.
  • После обновления кластера сервера в зависимости от сценария запустите оба варианта проверки, чтобы устранить проблемы с кластером.
  • После настройки репликации с помощью реплики хранилища убедитесь, что репликация выполняется нормально, проверив некоторые определенные события и выполнив несколько команд.
  • После создания кластера сервера запустите средство Validate-DCB перед его размещением в рабочей среде.

Что такое проверка кластера?

Проверка кластера предназначена для перехвата проблем с оборудованием или конфигурацией перед переходом кластера в рабочую среду. Проверка кластера помогает убедиться, что решение Azure Stack HCI, которое вы планируете развернуть, действительно зависит. Можно также использовать проверку кластера для настроенных отказоустойчивых кластеров в качестве средства диагностики.

Конкретные сценарии проверки

В этом разделе описываются сценарии, в которых проверка также необходима или полезна.

  • Проверка перед настройкой кластера:

    • Набор серверов, готовых к созданию отказоустойчивого кластера. Это самый простой сценарий проверки. Аппаратные компоненты (системы, сети и хранилище) подключены, но системы пока не работают в качестве кластера. Выполнение тестов в этой ситуации не влияет на доступность.

    • Виртуальные машины сервера: для виртуализированных серверов в кластере выполните проверку кластера, как и в любом другом новом кластере. Требование запуска функции совпадает с тем, есть ли у вас:

      • Кластер узлов, где выполняется отработка отказа между двумя физическими компьютерами.
      • Гостевой кластер, где выполняется отработка отказа между гостевыми операционными системами на одном физическом компьютере.
  • Проверка после настройки кластера и использования:

    • Перед добавлением сервера в кластер: при добавлении сервера в кластер настоятельно рекомендуется выполнить проверку кластера. При выполнении проверки кластера укажите как существующие члены кластера, так и новый сервер.

    • При добавлении дисков: при добавлении дополнительных дисков в кластер, который отличается от замены неудачных дисков или создания виртуальных дисков или томов, использующих существующие диски, выполните проверку кластера, чтобы убедиться, что новое хранилище будет работать правильно.

    • При внесении изменений, влияющих на встроенное ПО или драйверы: при обновлении или внесении изменений в кластер, влияющих на встроенное ПО или драйверы, необходимо выполнить проверку кластера, чтобы убедиться, что новая комбинация оборудования, встроенного ПО, драйверов и программного обеспечения поддерживает функции отказоустойчивого кластера.

    • После восстановления системы из резервного копирования: после восстановления системы из резервной копии запустите проверку кластера, чтобы убедиться, что системные функции правильно работают в составе кластера.

Проверка сети

Средство Microsoft Validate-DCB предназначено для проверки конфигурации Центра обработки данных (DCB) в кластере. Для этого средство принимает ожидаемую конфигурацию в качестве входных данных, а затем проверяет каждый сервер в кластере. В этом разделе описывается, как установить и запустить средство Validate-DCB, просмотреть результаты и устранить сетевые ошибки, которые идентифицирует средство.

Примечание

Корпорация Майкрософт рекомендует развертывать конфигурацию и управлять ими с помощью Сетевого ATC, что устраняет большинство проблем конфигурации, которые проверяет средство Validate-DCB. Дополнительные сведения о Сетевом ATC, который предоставляет подход на основе намерений к развертыванию сети узла, см. в статье "Упрощение сети узлов с помощью ATC сети".

В сети удаленный прямой доступ к памяти (RDMA) через Конвергентный Ethernet (RoCE) требует технологии DCB, чтобы сделать сетевую структуру без потери. При использовании iWARP DCB является необязательным. Однако настройка DCB может быть сложной, с точной конфигурацией в разных случаях:

  • Каждый сервер в кластере
  • Каждый сетевой порт, проходящий через трафик RDMA в структуре

Необходимые компоненты

  • Сведения о настройке сети кластера сервера, который требуется проверить, включая:
    • Имя узла или сервера
    • Имя виртуального коммутатора
    • Имена сетевых адаптеров
    • Параметры управления потоками приоритета (PFC) и расширенного выбора передачи (ETS)
  • Подключение к Интернету для скачивания модуля инструментов в Windows PowerShell из Майкрософт.

Установка и запуск средства Validate-DCB

Чтобы установить и запустить средство Validate-DCB, выполните следующие действия.

  1. На компьютере управления откройте сеанс Windows PowerShell от имени администратора, а затем выполните следующую команду для установки средства.

    Install-Module Validate-DCB
    
  2. Примите запросы на использование поставщика NuGet и доступ к репозиторию для установки средства.

  3. После подключения PowerShell к сети Майкрософт для скачивания средства введите Validate-DCB и нажмите клавишу ВВОД , чтобы запустить мастер инструментов.

    Примечание

    Если вы не можете запустить скрипт средства Validate-DCB, может потребоваться настроить политики выполнения PowerShell. Используйте командлет Get-ExecutionPolicy для просмотра параметров текущей политики выполнения скрипта. Сведения о настройке политик выполнения в PowerShell см. в разделе "О политиках выполнения".

  4. На странице мастера настройки Validate-DCB нажмите кнопку "Далее".

  5. На странице "Кластеры и узлы" введите имя кластера сервера, который требуется проверить, выберите "Разрешить ", чтобы вывести список на странице, а затем нажмите кнопку "Далее".

    Страница

  6. На странице адаптеров:

    1. Установите флажок vSwitch и введите имя vSwitch.
    2. В разделе "Имя адаптера" введите имя каждого физического сетевого адаптера в разделе Имя виртуальной сетевой карты узла, имя каждой виртуальной сетевой карты (vNIC) и в разделе VLAN идентификатор виртуальной ЛС, используемый для каждого адаптера.
    3. Разверните раскрывающийся список типов RDMA и выберите соответствующий протокол: RoCE или iWARP. Кроме того, задайте для сети значения кадров Jumbo, а затем нажмите кнопку "Далее".

    Страница

    Примечание

  7. На странице бриджинга Центра обработки данных измените значения, соответствующие параметрам вашей организации для приоритета, имени политики и резервирования пропускной способности, а затем нажмите кнопку "Далее".

    Страница

    Примечание

    При выборе RDMA через RoCE на предыдущей странице мастера требуется DCB для обеспечения надежности сети для всех сетевых адаптеров и коммутаторов.

  8. На странице "Сохранить и развернуть" в поле "Путь к файлу конфигурации" сохраните файл конфигурации с помощью расширения PS1 в расположении, где его можно использовать позже при необходимости, а затем нажмите кнопку "Экспорт ", чтобы запустить средство Validate-DCB.

    • При необходимости можно развернуть файл конфигурации, выполнив раздел "Развертывание конфигурации на узлах" страницы, который включает возможность использовать учетную запись служба автоматизации Azure для развертывания конфигурации, а затем проверить ее. См. статью "Создание учетной записи служба автоматизации Azure для начала работы с служба автоматизации Azure".

    Страница

Просмотр результатов и исправление ошибок

Средство Validate-DCB выдает результаты в двух единицах:

  1. Список предварительных требований и требований для выполнения модальных тестов в списке результатов [global Unit].
  2. Результаты [модального урока] предоставляют отзывы о каждой конфигурации узла кластера и рекомендациях.

В этом примере показаны результаты успешной проверки одного сервера для всех предварительных требований и модальных модульных тестов, указывая число неудачных 0.

Проверка глобальных единиц DCB и результатов модального модульного теста

Ниже показано, как определить ошибку пакета Jumbo из VNIC SMB02 и исправить ее:

  1. Результаты проверки средства Validate-DCB показывают ошибку "Число неудачных" 1.

    Результаты проверки средства Validate-DCB, показывающие ошибку

  2. Прокручивая назад результаты показывают ошибку красным цветом, указывающую, что пакет Jumbo для VNIC SMB02 на узле S046036 установлен по умолчанию размером 1514, но должен иметь значение 9014.

    Результат сканирования средства Validate-DCB с ошибкой параметра размера пакета jumbo

  3. При просмотре расширенных свойств VNIC SMB02 на узле S046036 показано, что пакет Jumbo установлен по умолчанию для отключенного.

    Расширенные свойства Hyper-V узла сервера Jumbo Packet

  4. Исправление ошибки требует включения функции пакета Jumbo и изменения его размера до 9014 байтов. Повторное выполнение проверки на узле S046036 подтверждает это изменение, возвращая число неудачных 0.

    Проверка результатов проверки DCB, подтверждающих исправление параметра пакета Jumbo узла сервера

Дополнительные сведения об устранении ошибок, которые идентифицирует средство Validate-DCB, см. в следующем видео.

Вы также можете установить средство в автономном режиме. Для отключенных систем используйте Save-Module -Name Validate-DCB -Path c:\temp\Validate-DCB и переместите модули в c:\temp\Validate-DCB в отключенную систему. Для получения дополнительной информации просмотрите следующее видео.

Проверка кластера

Выполните следующие действия, чтобы проверить серверы в существующем кластере в Windows Admin Center.

  1. В Windows Admin Center в разделе "Все подключения" выберите кластер Azure Stack HCI, который требуется проверить, а затем нажмите кнопку "Подключить".

    Панель мониторинга Диспетчера кластеров отображает общие сведения о кластере.

  2. На панели мониторинга диспетчера кластеров в разделе "Сервис" выберите "Серверы".

  3. На странице "Инвентаризация" выберите серверы в кластере, а затем разверните подменю "Дополнительно" и выберите "Проверить кластер".

  4. Во всплывающем окне проверки кластера нажмите кнопку "Да".

    Всплывающее окно проверки кластера

  5. Во всплывающем окне поставщика служб безопасности учетных данных (CredSSP) нажмите кнопку "Да".

  6. Укажите учетные данные, чтобы включить CredSSP , а затем нажмите кнопку "Продолжить".
    Проверка кластера выполняется в фоновом режиме и предоставляет уведомление, когда оно будет завершено, в какой момент можно просмотреть отчет о проверке, как описано в следующем разделе.

Примечание

После проверки серверов кластера необходимо отключить CredSSP по соображениям безопасности.

Отключение CredSSP

После успешной проверки кластера сервера необходимо отключить протокол поставщика поддержки безопасности учетных данных (CredSSP) на каждом сервере для обеспечения безопасности. Дополнительные сведения см. в разделе CVE-2018-0886.

  1. В Windows Admin Center в разделе "Все подключения" выберите первый сервер в кластере и нажмите кнопку "Подключить".

  2. На странице "Обзор" выберите "Отключить CredSSP", а затем во всплывающем окне "Отключить CredSSP" нажмите кнопку "Да".

    Результат шага 2 удаляет красный баннер CredSSP ENABLED в верхней части страницы обзора сервера и отключает CredSSP на других серверах.

Просмотр отчетов проверки

Теперь вы готовы просмотреть отчет о проверке кластера.

Существует несколько способов доступа к отчетам проверки:

  • На странице "Инвентаризация" разверните подменю "Дополнительно" и выберите "Просмотреть отчеты проверки".

  • В правом верхнем углу Центра администрирования Windows щелкните значок колокольчика уведомлений, чтобы отобразить область уведомлений . Выберите уведомление об успешно проверенной кластере и выберите "Перейти к отчету об проверке отказоустойчивого кластера".

Примечание

Процесс проверки кластера сервера может занять некоторое время. Не переключайтесь на другое средство в Windows Admin Center во время выполнения процесса. В области уведомлений под уведомлением о проверке кластера отображается строка состояния, указываемая, когда процесс будет выполнен.

Проверка кластера с помощью PowerShell

Вы также можете использовать Windows PowerShell для выполнения тестов проверки в кластере серверов и просмотра результатов. Тесты можно выполнять как до, так и после настройки кластера.

Чтобы запустить тест проверки на серверном кластере, выполните командлеты Get-Cluster и Test-Cluster<имя кластера> PowerShell с компьютера управления или выполните только командлет Test-Cluster непосредственно в кластере:

$Cluster = Get-Cluster -Name 'server-cluster1'
Test-Cluster -InputObject $Cluster -Verbose

Дополнительные примеры и сведения об использовании см. в справочной документации по командлету Test-Cluster.

Test-NetStack — это средство тестирования на основе PowerShell, доступное на сайте GitHub, которое можно использовать для выполнения тестирования трафика ICMP, TCP и RDMA для сетей и выявления потенциальных сетевых структур и неправильной настройки узла или операционной нестабильности. Используйте Test-NetStack для проверки сетевых путей данных путем тестирования собственных, синтетических и аппаратных отключенных сетевых путей (RDMA) для проблем с подключением, фрагментацией пакетов, низкой пропускной способностью и перегрузкой.

Проверка репликации для реплики хранилища

Если вы используете реплику хранилища для репликации томов в растянутом кластере или кластере, существует несколько событий и командлетов, которые можно использовать для получения состояния репликации.

В следующем сценарии мы настроили реплику хранилища путем создания групп репликации (RG) для двух сайтов, а затем указали тома данных и тома журналов для узлов исходного сервера в Site1 (Server1, Server2) и конечных (реплицированных) узлах сервера в Site2 (Server3, Server4).

Чтобы определить ход выполнения репликации для Server1 в Site1, выполните команду Get-WinEvent и проверьте события 5015, 5002, 5004, 1237, 5001 и 2200:

Get-WinEvent -ComputerName Server1 -ProviderName Microsoft-Windows-StorageReplica -max 20

Для Server3 в Site2 выполните следующую Get-WinEvent команду, чтобы просмотреть события реплики хранилища, демонстрирующие создание партнерства. Это событие сообщает количество скопированных байтов и время выполнения. Например:

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | Where-Object {$_.ID -eq "1215"} | FL

Для Server3 в Site2 выполните Get-WinEvent команду и проверьте события 5009, 1237, 5001, 5015, 5005 и 2200, чтобы понять ход обработки. В этой последовательности не должно быть предупреждений или ошибок. Будет много событий 1237 - они указывают на ход выполнения.

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL

Кроме того, целевая группа серверов для реплики указывает количество байтов, оставшихся для копирования в любое время, и может запрашиваться с Get-SRGroupпомощью PowerShell. Например:

(Get-SRGroup).Replicas | Select-Object numofbytesremaining

Для node Server3 в Site2 выполните следующую команду и проверьте события 5009, 1237, 5001, 5015, 5005 и 2200, чтобы понять ход репликации. Не должно быть предупреждений об ошибках. Однако будет много событий "1237" - они просто указывают на ход выполнения.

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL

В качестве скрипта хода выполнения, который не завершится:

while($true) {
$v = (Get-SRGroup -Name "Replication2").replicas | Select-Object numofbytesremaining
[System.Console]::Write("Number of bytes remaining: {0}`r", $v.numofbytesremaining)
Start-Sleep -s 5
}

Чтобы получить состояние репликации в растянутом кластере, используйте Get-SRGroup и Get-SRPartnership:

Get-SRGroup -Cluster ClusterS1
Get-SRPartnership -Cluster ClusterS1
(Get-SRGroup).replicas -Cluster ClusterS1

После подтверждения успешной репликации данных между сайтами можно создать виртуальные машины и другие рабочие нагрузки.

См. также