Ověření clusteru Azure Stack HCI

Platí pro: Azure Stack HCI verze 22H2 a 21H2; Windows Server 2022, Windows Server 2019.

Upozornění

Pokyny k nasazení uvedené v tomto článku platí pro starší verzi Azure Stack HCI verze 22H2. Pro nová nasazení doporučujeme používat nejnovější obecně dostupnou verzi Azure Stack HCI verze 23H2. Pokyny k nasazení najdete v tématu o nasazení Služby Azure Stack HCI verze 23H2.

Ověření dcb už není doporučený nástroj pro nastavení nebo testování konfigurace sítě hostitele ve službě Azure Stack HCI. Ke konfiguraci síťového nastavení hostitele pro Azure Stack HCI doporučujeme použít network ATC. Síťové ATC vždy nahrazuje ověření DCB ve službě Azure Stack HCI.

Průvodce vytvořením clusteru v Windows Admin Center sice provádí určitá ověření, aby vytvořil funkční cluster s vybraným hardwarem, ale ověření clusteru provádí další kontroly, aby se zajistilo, že cluster bude fungovat v produkčním prostředí. Tento článek s postupy se zaměřuje na to, proč je ověření clusteru důležité a kdy ho spustit v clusteru Azure Stack HCI.

Pro následující primární scénáře doporučujeme provést ověření clusteru:

  • Po nasazení serverového clusteru spusťte nástroj Validate-DCB a otestujte sítě.
  • Po aktualizaci serverového clusteru v závislosti na vašem scénáři spusťte obě možnosti ověřování a vyřešte problémy s clusterem.
  • Po nastavení replikace pomocí repliky úložiště ověřte, že replikace probíhá normálně, kontrolou některých konkrétních událostí a spuštěním několika příkazů.
  • Po vytvoření serverového clusteru spusťte nástroj Validate-DCB před jeho umístěním do produkčního prostředí.

Co je ověření clusteru?

Účelem ověření clusteru je zachytit problémy s hardwarem nebo konfigurací před tím, než cluster přejde do produkčního prostředí. Ověření clusteru pomáhá zajistit, aby řešení Azure Stack HCI, které se chystáte nasadit, bylo skutečně spolehlivé. Jako diagnostický nástroj můžete také použít ověření clusteru u nakonfigurovaných clusterů s podporou převzetí služeb při selhání.

Konkrétní scénáře ověřování

Tato část popisuje scénáře, ve kterých je také potřeba nebo užitečné ověření.

  • Ověření před konfigurací clusteru:

    • Sada serverů připravených na cluster s podporou převzetí služeb při selhání: Toto je nejjednodušší scénář ověřování. Hardwarové komponenty (systémy, sítě a úložiště) jsou připojené, ale systémy zatím nefungují jako cluster. Spouštění testů v této situaci nemá žádný vliv na dostupnost.

    • Serverové virtuální počítače: U virtualizovaných serverů v clusteru spusťte ověřování clusteru stejně jako v jakémkoli jiném novém clusteru. Požadavek na spuštění funkce je stejný bez ohledu na to, jestli máte:

      • Hostitelský cluster, ve kterém dochází k převzetí služeb při selhání mezi dvěma fyzickými počítači.
      • Cluster hosta, ve kterém probíhá převzetí služeb při selhání mezi hostujícími operačními systémy na stejném fyzickém počítači.
  • Ověření po konfiguraci clusteru a jeho použití:

    • Před přidáním serveru do clusteru: Při přidávání serveru do clusteru důrazně doporučujeme cluster ověřovat. Při spuštění ověřování clusteru zadejte stávající členy clusteru i nový server.

    • Při přidávání jednotek: Když do clusteru přidáte další jednotky, což se liší od nahrazení neúspěšných jednotek nebo vytváření virtuálních disků nebo svazků, které jsou závislé na existujících jednotkách, spusťte ověření clusteru a ověřte, že nové úložiště bude fungovat správně.

    • Při provádění změn, které mají vliv na firmware nebo ovladače: Pokud upgradujete cluster nebo provedete změny, které mají vliv na firmware nebo ovladače, musíte spustit ověření clusteru, abyste ověřili, že nová kombinace hardwaru, firmwaru, ovladačů a softwaru podporuje funkce clusteru s podporou převzetí služeb při selhání.

    • Po obnovení systému ze zálohy: Po obnovení systému ze zálohy spusťte ověření clusteru a ověřte, že systém funguje správně jako součást clusteru.

Ověření sítě

Nástroj Microsoft Validate-DCB je navržený tak, aby ověřil konfiguraci přemostění datového centra (DCB) v clusteru. K tomu nástroj vezme jako vstup očekávanou konfiguraci a pak otestuje každý server v clusteru. Tato část popisuje, jak nainstalovat a spustit nástroj Validate-DCB, zkontrolovat výsledky a vyřešit chyby sítě, které nástroj identifikuje.

Poznámka

Microsoft doporučuje nasadit a spravovat konfiguraci pomocí síťového ATC, což eliminuje většinu problémů s konfigurací, které nástroj Validate-DCB kontroluje. Další informace o síťovém atc, který poskytuje přístup založený na záměrech k nasazení sítě hostitele, najdete v tématu Zjednodušení sítě hostitelů pomocí síťového ATC.

V síti vyžaduje vzdálený přímý přístup do paměti (RDMA) přes konvergovaný ethernet (RoCE) technologie DCB, aby síťové prostředky infrastruktury byly bezztrátové. S iWARP je DCB volitelné. Konfigurace DCB ale může být složitá a vyžaduje se přesná konfigurace napříč:

  • Každý server v clusteru
  • Každý síťový port, kterým prochází provoz RDMA v prostředcích infrastruktury

Požadavky

  • Informace o nastavení sítě serverového clusteru, který chcete ověřit, včetně:
    • Název hostitelského nebo serverového clusteru
    • Název virtuálního přepínače
    • Názvy síťových adaptérů
    • Nastavení řízení prioritního toku (PFC) a ETS (Enhanced Transmission Selection)
  • Připojení k internetu ke stažení modulu nástrojů v Windows PowerShell od Microsoftu.

Instalace a spuštění nástroje Validate-DCB

Instalace a spuštění nástroje Validate-DCB:

  1. Na počítači pro správu otevřete relaci Windows PowerShell jako správce a pak pomocí následujícího příkazu nástroj nainstalujte.

    Install-Module Validate-DCB
    
  2. Přijměte požadavky na použití zprostředkovatele NuGet a přístup k úložišti pro instalaci nástroje.

  3. Jakmile se PowerShell připojí k síti Microsoftu a stáhne nástroj, spusťte průvodce nástrojem zadáním Validate-DCB a stisknutím klávesy Enter .

    Poznámka

    Pokud nemůžete spustit skript nástroje Validate-DCB, možná budete muset upravit zásady spouštění PowerShellu. Pomocí rutiny Get-ExecutionPolicy zobrazte aktuální nastavení zásad spouštění skriptů. Informace o nastavení zásad spouštění v PowerShellu najdete v tématu Informace o zásadách spouštění.

  4. Na stránce Vítá vás průvodce konfigurací Validate-DCB vyberte Další.

  5. Na stránce Clustery a uzly zadejte název serverového clusteru, který chcete ověřit, výběrem možnosti Vyřešit ho vypište na stránce a pak vyberte Další.

    Stránka Clustery a uzly průvodce konfigurací Validate-DCB

  6. Na stránce Adaptéry:

    1. Zaškrtněte připojené políčko vSwitch a zadejte název vSwitch.
    2. V části Název adaptéru zadejte název jednotlivých fyzických síťových adaptérů, v části Název virtuálních síťových adaptérů hostitele název každé virtuální síťové karty (vNIC) a v části Síť VLAN ID sítě VLAN používané pro každý adaptér.
    3. Rozbalte rozevírací seznam Typ RDMA a vyberte příslušný protokol : RoCE nebo iWARP. Nastavte také rámce Jumbo na odpovídající hodnotu pro vaši síť a pak vyberte Další.

    Stránka Adaptéry v průvodci konfigurací Validate-DCB

    Poznámka

  7. Na stránce Přemostění datového centra upravte hodnoty tak, aby odpovídaly nastavení priority, názvu zásady a rezervace šířky pásma ve vaší organizaci, a pak vyberte Další.

    Stránka Přemostění datového centra průvodce konfigurací Validate-DCB

    Poznámka

    Výběr RDMA přes RoCE na předchozí stránce průvodce vyžaduje DCB pro spolehlivost sítě na všech síťových kartách a přepínačích.

  8. Na stránce Uložit a nasadit v poli Cesta ke konfiguračnímu souboru uložte konfigurační soubor pomocí rozšíření.ps1 do umístění, kde ho můžete později v případě potřeby znovu použít, a pak výběrem možnosti Exportovat spusťte nástroj Validate-DCB.

    • Volitelně můžete konfigurační soubor nasadit vyplněním části Nasazení konfigurace do uzlů na stránce, která zahrnuje možnost použít Azure Automation účet k nasazení konfigurace a následnému ověření. Pokud chcete začít používat Azure Automation, přečtěte si článek Vytvoření účtu Azure Automation.

    Stránka Uložit a nasadit v průvodci konfigurací Validate-DCB

Kontrola výsledků a oprava chyb

Nástroj Validate-DCB vytváří výsledky ve dvou jednotkách:

  1. [Globální jednotka] obsahuje seznam požadavků a požadavků na spuštění modálních testů.
  2. [Modální jednotka] poskytuje zpětnou vazbu ke konfiguraci hostitele clusteru a osvědčené postupy.

Tento příklad ukazuje úspěšné výsledky kontroly jednoho serveru pro všechny požadavky a testy modálních jednotek s uvedením počtu neúspěšných hodnot 0.

Validate-DCB Global unit and Modal unit test results

Následující kroky ukazují, jak identifikovat chybu paketu Jumbo z vNIC SMB02 a opravit ji:

  1. Výsledky kontrol nástroje Validate-DCB zobrazují chybu Failed Count (Počet selhání) 1.

    Výsledky kontroly nástroje Validate-DCB ukazující chybu Failed Count (Počet selhání) 1

  2. Při procházení výsledků se červeně zobrazí chyba, která značí, že paket Jumbo pro vNIC SMB02 na hostitelském S046036 je nastavený na výchozí velikost 1514, ale měl by být nastavený na 9014.

    Výsledek kontroly nástroje Validate-DCB zobrazující chybu nastavení velikosti paketu jumbo

  3. Kontrola rozšířených vlastností protokolu vNIC SMB02 na hostitelském S046036 ukazuje, že paket Jumbo je nastavený na výchozí hodnotu Zakázáno.

    Nastavení paketu Jumbo v upřesňujících vlastnostech hostitele serveru Hyper-V

  4. Oprava chyby vyžaduje povolení funkce Paket Jumbo a změnu její velikosti na 9014 bajtů. Opětovné spuštění kontroly na hostiteli S046036 tuto změnu potvrdí vrácením počtu selhání 0.

    Výsledky kontroly validate-DCB potvrzující, že nastavení paketu Jumbo hostitele serveru je pevné

Další informace o řešení chyb, které nástroj Validate-DCB identifikuje, najdete v následujícím videu.

Nástroj můžete také nainstalovat offline. V případě odpojených systémů použijte Save-Module -Name Validate-DCB -Path c:\temp\Validate-DCB a přesuňte moduly v souboru c:\temp\Validate-DCB do odpojeného systému. Další informace najdete v následujícím videu.

Ověření clusteru

Pomocí následujícího postupu ověřte servery v existujícím clusteru v Windows Admin Center.

  1. V Windows Admin Center v části Všechna připojení vyberte cluster Azure Stack HCI, který chcete ověřit, a pak vyberte Připojit.

    Na řídicím panelu Správce clusteru se zobrazí přehledové informace o clusteru.

  2. Na řídicím panelu Správce clusterů v části Nástroje vyberte Servery.

  3. Na stránce Inventář vyberte servery v clusteru, rozbalte podnabídku Další a vyberte Ověřit cluster.

  4. V automaticky otevírané okně Ověřit cluster vyberte Ano.

    Automaticky otevírané okno Ověření clusteru

  5. V automaticky otevírané okně Credential Security Service Provider (CredSSP) vyberte Ano.

  6. Zadejte přihlašovací údaje pro povolení CredSSP a pak vyberte Pokračovat.
    Ověření clusteru běží na pozadí a po dokončení zobrazí oznámení. V tomto okamžiku můžete zobrazit sestavu ověření, jak je popsáno v další části.

Poznámka

Po ověření serverů clusteru budete muset z bezpečnostních důvodů zakázat CredSSP.

Zakázat CredSSP

Po úspěšném ověření clusteru serverů budete muset z bezpečnostních důvodů na každém serveru zakázat protokol CredSSP (Credential Security Support Provider). Další informace najdete v článku CVE-2018-0886.

  1. V Windows Admin Center v části Všechna připojení vyberte první server v clusteru a pak vyberte Připojit.

  2. Na stránce Přehled vyberte Zakázat CredSSP a pak v místním okně Zakázat CredSSP vyberte Ano.

    Výsledek kroku 2 odebere červený banner CredSSP ENABLED v horní části stránky přehledu serveru a zakáže CredSSP na ostatních serverech.

Zobrazení sestav ověření

Teď můžete zobrazit sestavu ověření clusteru.

Existuje několik způsobů, jak získat přístup k sestavám ověřování:

  • Na stránce Inventář rozbalte podnabídku Další a pak vyberte Zobrazit sestavy ověření.

  • V pravém horním rohu Windows Admin Center vyberte ikonu zvonku Oznámení, aby se zobrazilo podokno Oznámení. Vyberte oznámení Cluster Byl úspěšně ověřen a pak vyberte Přejít do sestavy ověření clusteru s podporou převzetí služeb při selhání.

Poznámka

Dokončení procesu ověření serverového clusteru může nějakou dobu trvat. Nepřepínejte na jiný nástroj v Windows Admin Center, když je proces spuštěný. V podokně Oznámení stavový řádek pod oznámením o ověření clusteru označuje, kdy je proces hotový.

Ověření clusteru pomocí PowerShellu

Můžete také použít Windows PowerShell ke spuštění ověřovacích testů na serverovém clusteru a zobrazení výsledků. Testy můžete spouštět před i po nastavení clusteru.

Pokud chcete spustit ověřovací test na serverovém clusteru, spusťte rutiny PowerShellu Get-Cluster a Test-Cluster<clustername> z počítače pro správu nebo přímo v clusteru spusťte jenom rutinu Test-Cluster :

$Cluster = Get-Cluster -Name 'server-cluster1'
Test-Cluster -InputObject $Cluster -Verbose

Další příklady a informace o použití najdete v referenční dokumentaci k test-clusteru .

Test-NetStack je testovací nástroj založený na PowerShellu dostupný na GitHubu, který můžete použít k testování provozu sítí ICMP, TCP a RDMA a k identifikaci potenciálních síťových prostředků infrastruktury a chybných konfigurací hostitelů nebo provozní nestability. Pomocí Test-NetStack můžete ověřit cesty síťových dat tím, že otestujete cesty k nativním, syntetickým a hardwarovým datům s přesměrováním zatížení (RDMA) z hlediska problémů s připojením, fragmentací paketů, nízkou propustností a zahlcením.

Ověření replikace pro repliku úložiště

Pokud repliku úložiště používáte k replikaci svazků v roztaženém clusteru nebo mezi clustery, existuje několik událostí a rutin, které můžete použít k získání stavu replikace.

V následujícím scénáři jsme nakonfigurovali repliku úložiště vytvořením replikačních skupin (RG) pro dvě lokality a pak jsme zadali datové svazky a svazky protokolů pro uzly zdrojového serveru v lokalitě Site1 (Server1, Server2) a cílové (replikované) uzly serveru v lokalitě Site2 (Server3, Server4).

Pokud chcete zjistit průběh replikace serveru Server1 v lokalitě Site1, spusťte příkaz Get-WinEvent a prozkoumejte události 5015, 5002, 5004, 1237, 5001 a 2200:

Get-WinEvent -ComputerName Server1 -ProviderName Microsoft-Windows-StorageReplica -max 20

Pro Server3 v lokalitě Site2 spuštěním následujícího Get-WinEvent příkazu zobrazte události repliky úložiště, které ukazují vytvoření partnerství. Tato událost zobrazuje počet zkopírovaných bajtů a čas, který to zabralo. Příklad:

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | Where-Object {$_.ID -eq "1215"} | FL

Pro Server3 v lokalitě Site2 spusťte Get-WinEvent příkaz a prozkoumejte události 5009, 1237, 5001, 5015, 5005 a 2200, abyste pochopili průběh zpracování. V této sekvenci by neměla být žádná upozornění ani chyby. Bude k dispozici mnoho událostí 1237 , které značí průběh.

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL

Skupina cílových serverů pro repliku také uvádí počet bajtů, které stále zbývá kopírovat, a dá se dotazovat prostřednictvím PowerShellu pomocí Get-SRGroup. Příklad:

(Get-SRGroup).Replicas | Select-Object numofbytesremaining

V případě uzlu Server3 v lokalitě Site2 spusťte následující příkaz a prozkoumejte události 5009, 1237, 5001, 5015, 5005 a 2200, abyste pochopili průběh replikace. Neměla by se zobrazovat žádná upozornění na chyby. Bude však existovat mnoho událostí "1237", které jednoduše označují průběh.

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL

Jako průběžný skript, který se neukončil:

while($true) {
$v = (Get-SRGroup -Name "Replication2").replicas | Select-Object numofbytesremaining
[System.Console]::Write("Number of bytes remaining: {0}`r", $v.numofbytesremaining)
Start-Sleep -s 5
}

Pokud chcete získat stav replikace v roztaženém clusteru, použijte Get-SRGroup a Get-SRPartnership:

Get-SRGroup -Cluster ClusterS1
Get-SRPartnership -Cluster ClusterS1
(Get-SRGroup).replicas -Cluster ClusterS1

Po potvrzení úspěšné replikace dat mezi lokalitami můžete vytvořit virtuální počítače a další úlohy.

Viz také