Проверка кластера Azure Stack HCI

Область применения: Azure Stack HCI версий 22H2 и 21H2; Windows Server 2022, Windows Server 2019.

Предупреждение

Инструкции по развертыванию, приведенные в этой статье, относятся к более старой версии Azure Stack HCI версии 22H2. Для новых развертываний рекомендуется использовать последнюю общедоступную версию Azure Stack HCI версии 23H2. Инструкции по развертыванию см. в статье Сведения о развертывании Azure Stack HCI версии 23H2.

Убедитесь, что DCB больше не является рекомендуемыми средствами для настройки или тестирования сетевой конфигурации узла в Azure Stack HCI. Мы рекомендуем использовать Network ATC для настройки сети узла для Azure Stack HCI. Network ATC всегда заменяет проверку DCB в Azure Stack HCI.

Хотя мастер создания кластера в Windows Admin Center выполняет определенные проверки для создания рабочего кластера с выбранным оборудованием, проверка кластера выполняет дополнительные проверки, чтобы убедиться, что кластер будет работать в рабочей среде. В этой статье основное внимание уделяется тому, почему важна проверка кластера и когда ее следует запускать в кластере Azure Stack HCI.

Мы рекомендуем выполнять проверку кластера в следующих основных сценариях:

  • После развертывания кластера серверов запустите средство Validate-DCB, чтобы проверить сеть.
  • После обновления кластера серверов в зависимости от сценария выполните оба варианта проверки, чтобы устранить неполадки кластера.
  • После настройки репликации с помощью реплики хранилища убедитесь, что репликация выполняется нормально, проверив некоторые конкретные события и выполнив несколько команд.
  • После создания кластера серверов запустите средство Validate-DCB, прежде чем помещать его в рабочую среду.

Что такое проверка кластера?

Проверка кластера предназначена для перехвата проблем с оборудованием или конфигурацией перед переходом кластера в рабочую среду. Проверка кластера помогает убедиться, что решение Azure Stack HCI, которое вы планируете развернуть, действительно является надежным. Вы также можете использовать проверку кластера в настроенных отказоустойчивых кластерах в качестве средства диагностики.

Конкретные сценарии проверки

В этом разделе описываются сценарии, в которых также требуется или полезна проверка.

  • Проверка перед настройкой кластера:

    • Набор серверов, готовых стать отказоустойчивым кластером: Это самый простой сценарий проверки. Аппаратные компоненты (системы, сети и хранилище) подключены, но системы еще не функционируют как кластер. Выполнение тестов в этой ситуации не влияет на доступность.

    • Серверные виртуальные машины: Для виртуализированных серверов в кластере выполните проверку кластера так же, как и в любом другом новом кластере. Требования к запуску функции одинаковы, если у вас есть:

      • "Кластер узлов", в котором выполняется отработка отказа между двумя физическими компьютерами.
      • Гостевой кластер, в котором выполняется отработка отказа между гостевыми операционными системами на одном физическом компьютере.
  • Проверка после настройки и использования кластера:

    • Перед добавлением сервера в кластер: При добавлении сервера в кластер настоятельно рекомендуется выполнить проверку кластера. При выполнении проверки кластера укажите как существующие члены кластера, так и новый сервер.

    • При добавлении дисков: При добавлении в кластер дополнительных дисков, отличающихся от замены неработовших дисков или создания виртуальных дисков или томов, использующих существующие диски, выполните проверку кластера, чтобы убедиться, что новое хранилище будет работать правильно.

    • При внесении изменений, влияющих на встроенное ПО или драйверы: При обновлении кластера или внесении изменений, влияющих на встроенное ПО или драйверы, необходимо выполнить проверку кластера, чтобы убедиться, что новое сочетание оборудования, встроенного ПО, драйверов и программного обеспечения поддерживает функции отказоустойчивого кластера.

    • После восстановления системы из резервной копии: После восстановления системы из резервной копии выполните проверку кластера, чтобы убедиться, что система правильно работает в составе кластера.

Проверка сети

Средство Microsoft Validate-DCB предназначено для проверки конфигурации моста центра обработки данных (DCB) в кластере. Для этого средство принимает ожидаемую конфигурацию в качестве входных данных, а затем тестирует каждый сервер в кластере. В этом разделе описано, как установить и запустить средство Validate-DCB, просмотреть результаты и устранить сетевые ошибки, которые оно идентифицирует.

Примечание

Корпорация Майкрософт рекомендует развертывать конфигурацию и управлять ею с помощью Network ATC, что устраняет большинство проблем с конфигурацией, которые проверяет средство Validate-DCB. Дополнительные сведения о сетевом ATC, который предоставляет подход к развертыванию сети узла на основе намерений, см. в статье Упрощение сети узла с помощью Network ATC.

В сети для удаленного прямого доступа к памяти (RDMA) через Конвергентный Ethernet (RoCE) требуются технологии DCB, чтобы сделать сетевую структуру без потерь. При использовании iWARP DCB является необязательным. Однако настройка DCB может быть сложной и требует точной конфигурации в:

  • Каждый сервер в кластере
  • Каждый сетевой порт, через который проходит трафик RDMA в структуре

Предварительные требования

  • Сведения о настройке сети кластера серверов, который требуется проверить, в том числе:
    • Имя узла или кластера сервера
    • Имя виртуального коммутатора
    • Имена сетевых адаптеров
    • Параметры управления приоритетным потоком (PFC) и расширенного выбора передачи (ETS)
  • Подключение к Интернету для скачивания модуля инструментов в Windows PowerShell от корпорации Майкрософт.

Установка и запуск средства Validate-DCB

Чтобы установить и запустить средство Validate-DCB, выполните следующие действия.

  1. На компьютере управления откройте сеанс Windows PowerShell от имени администратора, а затем установите средство с помощью следующей команды.

    Install-Module Validate-DCB
    
  2. Примите запросы на использование поставщика NuGet и доступ к репозиторию для установки средства.

  3. После подключения PowerShell к сети Майкрософт для скачивания средства введите Validate-DCB и нажмите клавишу ВВОД , чтобы запустить мастер инструментов.

    Примечание

    Если не удается запустить скрипт средства Validate-DCB, может потребоваться настроить политики выполнения PowerShell. Используйте командлет Get-ExecutionPolicy для просмотра текущих параметров политики выполнения скрипта. Сведения о настройке политик выполнения в PowerShell см. в разделе Сведения о политиках выполнения.

  4. На странице Добро пожаловать в мастер настройки Validate-DCB нажмите кнопку Далее.

  5. На странице Кластеры и узлы введите имя кластера сервера, который требуется проверить, нажмите кнопку Разрешить , чтобы отобразить его на странице, а затем нажмите кнопку Далее.

    Страница

  6. На странице Адаптеры:

    1. Установите флажок vSwitch attached (Присоединено к vSwitch) и введите имя vSwitch.
    2. В разделе Имя адаптера введите имя каждой физической сетевой карты, в разделе Имя виртуальной сетевой карты узла — имя каждой виртуальной сетевой карты (vNIC), а в поле Виртуальная локальная сеть — идентификатор виртуальной локальной сети, используемый для каждого адаптера.
    3. Разверните раскрывающийся список Тип RDMA и выберите соответствующий протокол: RoCE или iWARP. Кроме того, задайте для параметра Jumbo Frames соответствующее значение для вашей сети, а затем нажмите кнопку Далее.

    Страница

    Примечание

  7. На странице Мост центра обработки данных измените значения в соответствии с параметрами приоритета, имени политики и резервирования пропускной способности организации, а затем нажмите кнопку Далее.

    Страница

    Примечание

    При выборе RDMA вместо RoCE на предыдущей странице мастера требуется DCB для обеспечения надежности сети на всех сетевых адаптерах и коммутаторах.

  8. На странице Сохранение и развертывание в поле Путь к файлу конфигурации сохраните файл конфигурации с помощью расширения .ps1 в расположение, где при необходимости его можно будет использовать снова, а затем нажмите кнопку Экспорт , чтобы запустить средство Validate-DCB.

    • При необходимости можно развернуть файл конфигурации, заполнив раздел Развертывание конфигурации на узлах страницы, который содержит возможность использовать учетную запись служба автоматизации Azure для развертывания конфигурации, а затем проверить ее. Чтобы приступить к работе с служба автоматизации Azure, см. статью Создание учетной записи служба автоматизации Azure.

    Страница

Проверка результатов и исправление ошибок

Средство Validate-DCB дает результаты в двух единицах:

  1. [Глобальная единица] содержит список предварительных требований и требований для выполнения модальных тестов.
  2. Результаты [модальной единицы] предоставляют отзывы о каждой конфигурации узла кластера и рекомендации.

В этом примере показаны успешные результаты сканирования одного сервера для всех предварительных требований и модальных модульных тестов, указывая число неудачных операций 0.

Результаты глобального и модального модульных тестов Validate-DCB

Ниже показано, как определить ошибку пакета Jumbo из VNIC SMB02 и исправить ее.

  1. Результаты проверки средства Validate-DCB показывают ошибку Число неудачных ошибок 1.

    Результаты сканирования средства Validate-DCB с ошибкой

  2. При прокручивании результатов отображается ошибка красного цвета, указывающая, что пакет Jumbo для VNIC SMB02 на хост-S046036 имеет размер по умолчанию 1514, но должен иметь значение 9014.

    Результат проверки средства Validate-DCB с ошибкой при настройке размера пакета jumbo

  3. Просмотр дополнительных свойств VNIC SMB02 на S046036 узла показывает, что для пакета Jumbo задано значение по умолчанию Отключено.

    Параметр Jumbo Packet (Дополнительные свойства Jumbo Packet) узла сервера Hyper-V

  4. Для устранения ошибки необходимо включить функцию Jumbo Packet и изменить ее размер на 9014 байт. Повторное выполнение проверки на S046036 узла подтверждает это изменение, возвращая число неудачных результатов 0.

    Результаты Проверки DCB, подтверждающие, что параметр Jumbo Packet узла сервера исправлен.

Дополнительные сведения об устранении ошибок, определяемых средством Validate-DCB, см. в следующем видео.

Вы также можете установить средство в автономном режиме. Для отключенных систем используйте Save-Module -Name Validate-DCB -Path c:\temp\Validate-DCB и переместите модули из c:\temp\Validate-DCB в отключенную систему. Для получения дополнительной информации просмотрите следующее видео.

Проверка кластера

Выполните следующие действия, чтобы проверить серверы в существующем кластере в Windows Admin Center.

  1. В Windows Admin Center в разделе Все подключения выберите кластер Azure Stack HCI, который требуется проверить, а затем щелкните Подключиться.

    На панели мониторинга диспетчера кластеров отображаются общие сведения о кластере.

  2. На панели мониторинга диспетчера кластеров в разделе Сервис выберите Серверы.

  3. На странице Инвентаризация выберите серверы в кластере, затем разверните подменю Дополнительно и выберите Проверить кластер.

  4. Во всплывающем окне Проверка кластера выберите Да.

    Всплывающее окно

  5. Во всплывающем окне Поставщик службы безопасности учетных данных (CredSSP) выберите Да.

  6. Укажите учетные данные, чтобы включить CredSSP , а затем нажмите кнопку Продолжить.
    Проверка кластера выполняется в фоновом режиме и отправляет уведомление после ее завершения, после чего вы сможете просмотреть отчет о проверке, как описано в следующем разделе.

Примечание

После проверки серверов кластера необходимо отключить CredSSP из соображений безопасности.

Отключение CredSSP

После успешной проверки кластера серверов необходимо отключить протокол Поставщика поддержки безопасности учетных данных (CredSSP) на каждом сервере в целях безопасности. Дополнительные сведения см. в разделе CVE-2018-0886.

  1. В Windows Admin Center в разделе Все подключения выберите первый сервер в кластере, а затем щелкните Подключить.

  2. На странице Обзор выберите Отключить CredSSP, а затем во всплывающем окне Отключить CredSSP выберите Да.

    В результате выполнения шага 2 в верхней части страницы Обзор сервера удаляется красный баннер CredSSP ENABLED и отключается CredSSP на других серверах.

Просмотр отчетов о проверке

Теперь все готово к просмотру отчета о проверке кластера.

Существует несколько способов доступа к отчетам о проверке.

  • На странице Инвентаризация разверните подменю Дополнительно , а затем выберите Просмотреть отчеты о проверке.

  • В правом верхнем углу Windows Admin Center щелкните значок колокольчика Уведомления, чтобы отобразить панель Уведомления. Выберите уведомление Успешно проверенного кластера , а затем выберите Перейти к отчету проверки отказоустойчивого кластера.

Примечание

Процесс проверки кластера сервера может занять некоторое время. Не переключайтесь на другое средство в Windows Admin Center во время выполнения процесса. В области Уведомления в строке состояния под уведомлением Проверить кластер указывает, когда процесс будет завершен.

Проверка кластера с помощью PowerShell

Вы также можете использовать Windows PowerShell для выполнения проверочных тестов в кластере серверов и просмотра результатов. Тесты можно выполнять как до, так и после настройки кластера.

Чтобы запустить проверочный тест в кластере серверов, выполните командлеты PowerShell Get-Cluster и Test-Cluster<server clustername> с компьютера управления или выполните только командлет Test-Cluster непосредственно в кластере:

$Cluster = Get-Cluster -Name 'server-cluster1'
Test-Cluster -InputObject $Cluster -Verbose

Дополнительные примеры и сведения об использовании см. в справочной документации по командлету Test-Cluster.

Test-NetStack — это средство тестирования на основе PowerShell, доступное в GitHub, которое можно использовать для тестирования трафика ICMP, TCP и RDMA сетей, а также выявления потенциальных сетевых структур и неправильной конфигурации узла или нестабильной работы. Используйте Test-NetStack для проверки сетевых путей данных, проверяя собственные, искусственные и аппаратные пути к сетевым данным (RDMA) на наличие проблем с подключением, фрагментацией пакетов, низкой пропускной способностью и перегрузкой.

Проверка репликации для реплики хранилища

Если вы используете реплику хранилища для репликации томов в растянутом кластере или в кластере, существует несколько событий и командлетов, которые можно использовать для получения состояния репликации.

В следующем сценарии мы настроили реплику хранилища, создав группы репликации (RG) для двух сайтов, а затем указали тома данных и тома журналов для узлов исходного сервера в site1 (Server1, Server2) и конечных (реплицированных) серверов в Site2 (Server3, Server4).

Чтобы определить ход выполнения репликации для Server1 в Site1, выполните команду Get-WinEvent и проверьте события 5015, 5002, 5004, 1237, 5001 и 2200:

Get-WinEvent -ComputerName Server1 -ProviderName Microsoft-Windows-StorageReplica -max 20

Для Server3 в Site2 выполните следующую Get-WinEvent команду, чтобы просмотреть события реплики хранилища, которые показывают создание партнерства. Это событие сообщает количество скопированных байтов и время выполнения. Пример:

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | Where-Object {$_.ID -eq "1215"} | FL

Для Server3 в Site2 выполните Get-WinEvent команду и проверьте события 5009, 1237, 5001, 5015, 5005 и 2200, чтобы понять ход обработки. В этой последовательности не должно быть предупреждений или ошибок. Будет много 1237 событий, которые указывают на ход выполнения.

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL

Кроме того, группа целевых серверов для реплика указывает количество байтов, оставшихся для копирования, и может запрашиваться с помощью PowerShell с Get-SRGroupпомощью . Пример:

(Get-SRGroup).Replicas | Select-Object numofbytesremaining

Для узла Server3 в Site2 выполните следующую команду и проверьте события 5009, 1237, 5001, 5015, 5005 и 2200, чтобы понять ход выполнения репликации. Предупреждений об ошибках не должно быть. Тем не менее, будет много событий "1237" - они просто указывают на прогресс.

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL

В качестве скрипта выполнения, который не завершается:

while($true) {
$v = (Get-SRGroup -Name "Replication2").replicas | Select-Object numofbytesremaining
[System.Console]::Write("Number of bytes remaining: {0}`r", $v.numofbytesremaining)
Start-Sleep -s 5
}

Чтобы получить состояние репликации в растянутом кластере, используйте Get-SRGroup и Get-SRPartnership:

Get-SRGroup -Cluster ClusterS1
Get-SRPartnership -Cluster ClusterS1
(Get-SRGroup).replicas -Cluster ClusterS1

После подтверждения успешной репликации данных между сайтами можно создать виртуальные машины и другие рабочие нагрузки.

См. также раздел