Проверка кластера Azure Stack HCI

Область применения: Azure Stack HCI версий 22H2 и 21H2; Windows Server 2022, Windows Server 2019.

Предупреждение

Инструкции по развертыванию, приведенные в этой статье, относятся к более старой версии Azure Stack HCI версии 22H2. Для новых развертываний рекомендуется использовать последнюю общедоступную версию Azure Stack HCI версии 23H2. Инструкции по развертыванию см. в статье Сведения о развертывании Azure Stack HCI версии 23H2.

Убедитесь, что DCB больше не является рекомендуемыми средствами для настройки или тестирования конфигурации сети узла в Azure Stack HCI. Мы рекомендуем использовать network ATC для настройки сети узла для Azure Stack HCI. Сетевой ATC всегда заменяет проверку DCB в Azure Stack HCI.

Хотя мастер создания кластера в Windows Admin Center выполняет определенные проверки для создания рабочего кластера с выбранным оборудованием, проверка кластера выполняет дополнительные проверки, чтобы убедиться, что кластер будет работать в рабочей среде. В этой статье рассматривается, почему проверка кластера важна и когда ее следует запускать в кластере Azure Stack HCI.

Мы рекомендуем выполнять проверку кластера для следующих основных сценариев:

  • После развертывания кластера серверов запустите средство Validate-DCB, чтобы проверить сеть.
  • После обновления кластера серверов в зависимости от сценария запустите оба варианта проверки, чтобы устранить проблемы с кластером.
  • После настройки репликации с помощью реплики хранилища убедитесь, что репликация выполняется нормально, проверив некоторые конкретные события и выполнив несколько команд.
  • После создания кластера серверов запустите средство Validate-DCB, прежде чем поместить его в рабочую среду.

Что такое проверка кластера?

Проверка кластера предназначена для устранения проблем с оборудованием или конфигурацией перед тем, как кластер перейдет в рабочую среду. Проверка кластера помогает убедиться, что решение Azure Stack HCI, которое вы планируете развернуть, действительно является надежным. Вы также можете использовать проверку кластера в настроенных отказоустойчивых кластерах в качестве средства диагностики.

Конкретные сценарии проверки

В этом разделе описываются сценарии, в которых также требуется или полезна проверка.

  • Проверка перед настройкой кластера:

    • Набор серверов, готовых к созданию отказоустойчивого кластера: Это самый простой сценарий проверки. Аппаратные компоненты (системы, сети и хранилище) подключены, но системы еще не функционируют как кластер. Выполнение тестов в этой ситуации не влияет на доступность.

    • Серверные виртуальные машины: Для виртуализированных серверов в кластере выполните проверку кластера так же, как и в любом другом новом кластере. Требования к запуску функции одинаковы, если у вас есть:

      • "Кластер узлов", где отработка отказа выполняется между двумя физическими компьютерами.
      • "Гостевой кластер", в котором происходит отработка отказа между гостевыми операционными системами на том же физическом компьютере.
  • Проверка после настройки и использования кластера:

    • Перед добавлением сервера в кластер: При добавлении сервера в кластер настоятельно рекомендуется выполнить проверку кластера. При выполнении проверки кластера укажите как существующие члены кластера, так и новый сервер.

    • При добавлении дисков: При добавлении в кластер дополнительных дисков, которые отличаются от замены неработоспособности дисков или создания виртуальных дисков или томов, использующих существующие диски, выполните проверку кластера, чтобы убедиться, что новое хранилище будет работать правильно.

    • При внесении изменений, влияющих на встроенное ПО или драйверы: При обновлении кластера или внесении изменений, влияющих на встроенное ПО или драйверы, необходимо выполнить проверку кластера, чтобы убедиться, что новое сочетание оборудования, встроенного ПО, драйверов и программного обеспечения поддерживает функции отказоустойчивого кластера.

    • После восстановления системы из резервной копии: После восстановления системы из резервной копии выполните проверку кластера, чтобы убедиться, что система правильно работает в составе кластера.

Проверка сети

Средство Microsoft Validate-DCB предназначено для проверки конфигурации моста центра обработки данных (DCB) в кластере. Для этого средство принимает ожидаемую конфигурацию в качестве входных данных, а затем тестирует каждый сервер в кластере. В этом разделе описано, как установить и запустить средство Validate-DCB, просмотреть результаты и устранить сетевые ошибки, которые оно определяет.

Примечание

Корпорация Майкрософт рекомендует развертывать конфигурацию и управлять ею с помощью сетевого ATC, что устраняет большинство проблем с конфигурацией, которые проверяет средство Validate-DCB. Дополнительные сведения о сетевом ATC, который предоставляет подход к развертыванию сети узла на основе намерений, см. в статье Упрощение сети узлов с помощью Network ATC.

В сети для удаленного прямого доступа к памяти (RDMA) через Конвергентный Ethernet (RoCE) требуются технологии DCB, чтобы сделать сетевую структуру без потерь. При использовании iWARP DCB является необязательным. Однако настройка DCB может быть сложной, с точной конфигурацией, необходимой в:

  • Каждый сервер в кластере
  • Каждый сетевой порт, через который проходит трафик RDMA в структуре

Предварительные требования

  • Сведения о настройке сети для кластера серверов, которые требуется проверить, в том числе:
    • Имя узла или кластера сервера
    • Имя виртуального коммутатора
    • Имена сетевых адаптеров
    • Параметры управления приоритетным потоком (PFC) и расширенного выбора передачи (ETS)
  • Подключение к Интернету для скачивания модуля инструментов в Windows PowerShell от корпорации Майкрософт.

Установка и запуск средства Validate-DCB

Чтобы установить и запустить средство Validate-DCB, выполните следующие действия.

  1. На компьютере управления откройте сеанс Windows PowerShell от имени администратора, а затем используйте следующую команду, чтобы установить средство.

    Install-Module Validate-DCB
    
  2. Примите запросы на использование поставщика NuGet и доступ к репозиторию для установки средства.

  3. После подключения PowerShell к сети Майкрософт для скачивания средства введите Validate-DCB и нажмите клавишу ВВОД , чтобы запустить мастер инструментов.

    Примечание

    Если не удается запустить скрипт средства Validate-DCB, может потребоваться настроить политики выполнения PowerShell. Используйте командлет Get-ExecutionPolicy для просмотра текущих параметров политики выполнения скриптов. Сведения о настройке политик выполнения в PowerShell см. в разделе Сведения о политиках выполнения.

  4. На странице Добро пожаловать в мастер настройки Validate-DCB нажмите кнопку Далее.

  5. На странице Кластеры и узлы введите имя кластера серверов, который требуется проверить, выберите Разрешить , чтобы вывести его на странице, а затем нажмите кнопку Далее.

    Страница

  6. На странице Адаптеры:

    1. Установите флажок vSwitch attached (Присоединенный vSwitch) и введите имя vSwitch.
    2. В разделе Имя адаптера введите имя каждого физического сетевого адаптера в разделе Имя виртуального сетевого адаптера узла, имя каждого виртуального сетевого адаптера и в разделе VLAN — идентификатор виртуальной локальной сети, используемый для каждого адаптера.
    3. Разверните раскрывающийся список Тип RDMA и выберите соответствующий протокол: RoCE или iWARP. Кроме того, задайте для Jumbo Frames соответствующее значение для вашей сети, а затем нажмите кнопку Далее.

    Страница

    Примечание

  7. На странице Мост центра обработки данных измените значения в соответствии с параметрами приоритета, имени политики и резервирования пропускной способности организации, а затем нажмите кнопку Далее.

    Страница

    Примечание

    Для выбора RDMA вместо RoCE на предыдущей странице мастера требуется DCB для обеспечения надежности сети на всех сетевых адаптерах и портах переключения.

  8. На странице Сохранение и развертывание в поле Путь к файлу конфигурации сохраните файл конфигурации с помощью расширения .ps1 в расположение, где при необходимости его можно будет использовать снова, а затем нажмите кнопку Экспорт , чтобы запустить средство Validate-DCB.

    • При необходимости можно развернуть файл конфигурации, заполнив раздел Развертывание конфигурации на узлах страницы, который содержит возможность использовать учетную запись служба автоматизации Azure для развертывания конфигурации, а затем проверить ее. Чтобы приступить к работе с служба автоматизации Azure, см. статью Создание учетной записи служба автоматизации Azure.

    Страница

Просмотр результатов и исправление ошибок

Средство Validate-DCB дает результаты в двух единицах:

  1. В результатах [Global Unit] перечислены предварительные требования и требования для выполнения модальных тестов.
  2. Результаты [модального урока] содержат отзывы о конфигурации каждого узла кластера и рекомендации.

В этом примере показаны успешные результаты сканирования одного сервера для всех необходимых компонентов и модальных модульных тестов, указывая число неудачных операций 0.

Результаты тестов глобальных единиц и модальных модулей Validate-DCB

Ниже показано, как определить ошибку пакета Jumbo из VNIC SMB02 и исправить ее.

  1. Результаты проверок средства Validate-DCB показывают ошибку Число неудачных ошибок 1.

    Результаты проверки средства Validate-DCB с ошибкой

  2. При прокрутке результатов отображается ошибка красным цветом, указывающая, что пакет Jumbo для VNIC SMB02 на S046036 узла имеет размер по умолчанию 1514, но должен иметь значение 9014.

    Результат проверки средства Validate-DCB с ошибкой при настройке размера пакета jumbo

  3. Просмотр дополнительных свойств VNIC SMB02 на S046036 узла показывает, что для пакета Jumbo задано значение по умолчанию Отключено.

    Параметр Jumbo Packet для дополнительных свойств Hyper-V узла сервера

  4. Чтобы исправить эту ошибку, необходимо включить функцию Jumbo Packet и изменить ее размер на 9014 байт. Повторное выполнение проверки на S046036 узла подтверждает это изменение, возвращая число неудачных результатов 0.

    Проверка результатов проверки DCB, подтверждающих исправление параметра Jumbo Packet узла сервера

Дополнительные сведения об устранении ошибок, определяемых средством Validate-DCB, см. в следующем видео.

Вы также можете установить средство в автономном режиме. Для отключенных систем используйте Save-Module -Name Validate-DCB -Path c:\temp\Validate-DCB и переместите модули из c:\temp\Validate-DCB в отключенную систему. Для получения дополнительной информации просмотрите следующее видео.

Проверка кластера

Выполните следующие действия, чтобы проверить серверы в существующем кластере в Windows Admin Center.

  1. В Windows Admin Center в разделе Все подключения выберите кластер Azure Stack HCI, который требуется проверить, а затем нажмите кнопку Подключить.

    На панели мониторинга Диспетчера кластеров отображаются общие сведения о кластере.

  2. На панели мониторинга диспетчера кластеров в разделе Сервис выберите Серверы.

  3. На странице Инвентаризация выберите серверы в кластере, затем разверните подменю Дополнительно и выберите Проверить кластер.

  4. Во всплывающем окне Проверка кластера выберите Да.

    Всплывающее окно

  5. Во всплывающем окне Поставщик службы безопасности учетных данных (CredSSP) выберите Да.

  6. Укажите учетные данные, чтобы включить CredSSP , а затем нажмите кнопку Продолжить.
    Проверка кластера выполняется в фоновом режиме и уведомляет о завершении, после чего вы сможете просмотреть отчет о проверке, как описано в следующем разделе.

Примечание

После проверки серверов кластера необходимо отключить CredSSP в целях безопасности.

Отключение CredSSP

После успешной проверки кластера серверов необходимо отключить протокол поставщика поддержки безопасности учетных данных (CredSSP) на каждом сервере в целях безопасности. Дополнительные сведения см. в разделе CVE-2018-0886.

  1. В Windows Admin Center в разделе Все подключения выберите первый сервер в кластере и нажмите кнопку Подключить.

  2. На странице Обзор выберите Отключить CredSSP, а затем во всплывающем окне Отключить CredSSP выберите Да.

    Результат шага 2 удаляет красный баннер CredSSP ENABLED в верхней части страницы обзор сервера и отключает CredSSP на других серверах.

Просмотр отчетов о проверке

Теперь вы готовы к просмотру отчета о проверке кластера.

Существует несколько способов доступа к отчетам о проверке.

  • На странице Инвентаризация разверните подменю Дополнительно , а затем выберите Просмотреть отчеты о проверке.

  • В правом верхнем углу Windows Admin Center щелкните значок колокольчика Уведомления, чтобы отобразить панель Уведомления. Выберите уведомление Успешно проверенного кластера , а затем выберите Перейти к отчету о проверке отказоустойчивого кластера.

Примечание

Процесс проверки кластера сервера может занять некоторое время. Не переключайтесь на другое средство в Windows Admin Center во время выполнения процесса. В области Уведомления в строке состояния под уведомлением Проверить кластер указывает, когда процесс будет завершен.

Проверка кластера с помощью PowerShell

Вы также можете использовать Windows PowerShell для запуска проверочных тестов в кластере серверов и просмотра результатов. Тесты можно выполнять как до, так и после настройки кластера.

Чтобы выполнить проверочный тест в серверном кластере, выполните командлеты PowerShell для имени> сервера Get-Cluster и Test-Cluster<с компьютера управления или запустите только командлет Test-Cluster непосредственно в кластере:

$Cluster = Get-Cluster -Name 'server-cluster1'
Test-Cluster -InputObject $Cluster -Verbose

Дополнительные примеры и сведения об использовании см. в справочной документации по командлету Test-Cluster.

Test-NetStack — это средство тестирования на основе PowerShell, доступное в GitHub, которое можно использовать для тестирования трафика ICMP, TCP и RDMA сетей и выявления потенциальных сетевых структур и неправильной конфигурации узла или нестабильной работы. Используйте Test-NetStack для проверки сетевых путей данных путем тестирования собственных, искусственных и аппаратных разгруженных сетевых путей данных (RDMA) на наличие проблем с подключением, фрагментацией пакетов, низкой пропускной способностью и перегрузкой.

Проверка репликации для реплики хранилища

Если вы используете реплику хранилища для репликации томов в растянутом или кластерном кластере, существует несколько событий и командлетов, которые можно использовать для получения состояния репликации.

В следующем сценарии мы настроили реплику хранилища, создав группы репликации (RG) для двух сайтов, а затем указали тома данных и журналов для узлов исходного сервера в Site1 (Server1, Server2) и конечных (реплицированных) узлов сервера в Site2 (Server3, Server4).

Чтобы определить ход выполнения репликации server1 в Site1, выполните команду Get-WinEvent и проверьте события 5015, 5002, 5004, 1237, 5001 и 2200:

Get-WinEvent -ComputerName Server1 -ProviderName Microsoft-Windows-StorageReplica -max 20

Для Server3 в Site2 выполните следующую Get-WinEvent команду, чтобы просмотреть события реплики хранилища, показывающие создание партнерства. Это событие сообщает количество скопированных байтов и время выполнения. Пример:

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | Where-Object {$_.ID -eq "1215"} | FL

Для Server3 в Site2 выполните Get-WinEvent команду и проверьте события 5009, 1237, 5001, 5015, 5005 и 2200, чтобы понять ход обработки. В этой последовательности не должно быть предупреждений или ошибок. Будет много событий 1237 , которые указывают на ход выполнения.

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL

Кроме того, группа целевых серверов для реплика указывает количество байтов, оставшихся для копирования, и может запрашиваться с помощью PowerShell с Get-SRGroupпомощью . Пример:

(Get-SRGroup).Replicas | Select-Object numofbytesremaining

Для node Server3 в Site2 выполните следующую команду и проверьте события 5009, 1237, 5001, 5015, 5005 и 2200, чтобы понять ход выполнения репликации. Не должно быть никаких предупреждений об ошибках. Тем не менее, будет много событий "1237" - они просто указывают на прогресс.

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL

В качестве скрипта выполнения, который не завершается:

while($true) {
$v = (Get-SRGroup -Name "Replication2").replicas | Select-Object numofbytesremaining
[System.Console]::Write("Number of bytes remaining: {0}`r", $v.numofbytesremaining)
Start-Sleep -s 5
}

Чтобы получить состояние репликации в растянутом кластере, используйте Get-SRGroup и Get-SRPartnership:

Get-SRGroup -Cluster ClusterS1
Get-SRPartnership -Cluster ClusterS1
(Get-SRGroup).replicas -Cluster ClusterS1

После подтверждения успешной репликации данных между сайтами можно создать виртуальные машины и другие рабочие нагрузки.

См. также раздел