Ověření clusteru Azure Stack HCI
Platí pro: Azure Stack HCI verze 22H2, 21H2 a 20H2; Windows Server 2022, Windows Server 2019
Přestože průvodce vytvořením clusteru v Windows Admin Center provádí určitá ověření, aby vytvořil funkční cluster s vybraným hardwarem, ověření clusteru provádí další kontroly, aby se zajistilo, že cluster bude fungovat v produkčním prostředí. Tento článek s postupy se zaměřuje na to, proč je ověření clusteru důležité a kdy ho spustit v clusteru Azure Stack HCI.
Ověření clusteru doporučujeme provést v následujících primárních scénářích:
- Po nasazení serverového clusteru spusťte nástroj Validate-DCB a otestujte sítě.
- Po aktualizaci serverového clusteru spusťte v závislosti na vašem scénáři obě možnosti ověření a vyřešte problémy s clusterem.
- Po nastavení replikace pomocí repliky úložiště ověřte, že replikace probíhá normálně. Zkontrolujte některé konkrétní události a spusťte několik příkazů.
- Po vytvoření clusteru serverů spusťte nástroj Validate-DCB a pak ho umístěte do produkčního prostředí.
Co je ověření clusteru?
Účelem ověření clusteru je zachytit problémy s hardwarem nebo konfigurací před tím, než cluster přejde do produkčního prostředí. Ověření clusteru pomáhá zajistit, že řešení Azure Stack HCI, které se chystáte nasadit, je skutečně spolehlivé. Jako diagnostický nástroj můžete použít také ověřování clusteru u nakonfigurovaných clusterů s podporou převzetí služeb při selhání.
Konkrétní scénáře ověřování
Tato část popisuje scénáře, ve kterých je ověření také potřeba nebo užitečné.
Ověření před konfigurací clusteru:
Sada serverů připravených stát se clusterem s podporou převzetí služeb při selhání: Toto je nejjednodušší scénář ověření. Hardwarové komponenty (systémy, sítě a úložiště) jsou propojené, ale systémy zatím nefungují jako cluster. Spouštění testů v této situaci nemá žádný vliv na dostupnost.
Serverové virtuální počítače: U virtualizovaných serverů v clusteru spusťte ověření clusteru stejně jako u jakéhokoli jiného nového clusteru. Požadavek na spuštění této funkce je stejný bez ohledu na to, jestli máte:
- Hostitelský cluster, kde dochází k převzetí služeb při selhání mezi dvěma fyzickými počítači.
- "Cluster hostů", kde dochází k převzetí služeb při selhání mezi hostujícími operačními systémy na stejném fyzickém počítači.
Ověření po konfiguraci a použití clusteru:
Před přidáním serveru do clusteru: Při přidávání serveru do clusteru důrazně doporučujeme cluster ověřovat. Při spuštění ověřování clusteru zadejte stávající členy clusteru i nový server.
Při přidávání jednotek: Když do clusteru přidáte další jednotky, což se liší od nahrazení jednotek, které selhaly, nebo vytváření virtuálních disků nebo svazků, které jsou závislé na existujících jednotkách, spusťte ověření clusteru a ověřte, že nové úložiště bude fungovat správně.
Při provádění změn, které mají vliv na firmware nebo ovladače: Pokud upgradujete nebo provedete změny clusteru, které mají vliv na firmware nebo ovladače, musíte spustit ověření clusteru, abyste ověřili, že nová kombinace hardwaru, firmwaru, ovladačů a softwaru podporuje funkce clusteru s podporou převzetí služeb při selhání.
Po obnovení systému ze zálohy: Po obnovení systému ze zálohy spusťte ověření clusteru a ověřte, že systém funguje správně jako součást clusteru.
Ověření sítě
Nástroj Microsoft Validate-DCB slouží k ověření konfigurace přemostění datových center (DCB) v clusteru. K tomu nástroj vezme jako vstup očekávanou konfiguraci a pak otestuje každý server v clusteru. Tato část popisuje, jak nainstalovat a spustit nástroj Validate-DCB, zkontrolovat výsledky a vyřešit chyby sítě, které nástroj identifikuje.
Poznámka
Microsoft doporučuje nasadit a spravovat konfiguraci pomocí síťového ATC, což eliminuje většinu problémů s konfigurací, které nástroj Validate-DCB kontroluje. Další informace o síťovém ATC, který poskytuje přístup založený na záměrech k nasazení sítě hostitele, najdete v tématu Zjednodušení sítě hostitelů pomocí síťového ATC.
Přímý přístup do paměti vzdáleného počítače (RDMA) přes konvergovaný Ethernet (RoCE) v síti vyžaduje technologie DCB, aby prostředky infrastruktury sítě byly bezeztrátové. V iWARP je DCB volitelné. Konfigurace DCB ale může být složitá a vyžaduje se přesná konfigurace napříč:
- Každý server v clusteru
- Každý síťový port, kterým provoz RDMA prochází v prostředcích infrastruktury
Požadavky
- Informace o nastavení sítě serverového clusteru, který chcete ověřit, včetně:
- Název hostitelského nebo serverového clusteru
- Název virtuálního přepínače
- Názvy síťových adaptérů
- Nastavení řízení toku priority (PFC) a ETS (Enhanced Transmission Selection)
- Připojení k internetu ke stažení modulu nástroje v Windows PowerShell od Microsoftu.
Instalace a spuštění nástroje Validate-DCB
Instalace a spuštění nástroje Validate-DCB:
Na počítači pro správu otevřete relaci Windows PowerShell jako správce a pak pomocí následujícího příkazu nástroj nainstalujte.
Install-Module Validate-DCB
Přijměte požadavky na použití poskytovatele NuGet a přístup k úložišti pro instalaci nástroje.
Jakmile se PowerShell připojí k síti Microsoftu a stáhne nástroj, spusťte průvodce nástrojem zadáním
Validate-DCB
a stisknutím klávesy Enter.Poznámka
Pokud nemůžete spustit skript nástroje Validate-DCB, možná budete muset upravit zásady spouštění PowerShellu. Pomocí rutiny Get-ExecutionPolicy můžete zobrazit aktuální nastavení zásad spouštění skriptů. Informace o nastavení zásad spouštění v PowerShellu najdete v tématu Informace o zásadách spouštění.
Na stránce Vítá vás průvodce konfigurací Validate-DCB vyberte Další.
Na stránce Clustery a uzly zadejte název serverového clusteru, který chcete ověřit, vyberte Vyřešit , aby se na stránce zobrazoval, a pak vyberte Další.
Na stránce Adaptéry:
- Zaškrtněte připojené políčko vSwitch a zadejte název virtuálního přepínače.
- V části Název adaptéru zadejte název každého fyzického síťového adaptéru, do pole Název virtuální síťové karty hostitele název každé virtuální síťové karty (vNIC) a v části VLAN zadejte ID sítě VLAN, které se používá pro každý adaptér.
- Rozbalte rozevírací seznam Typ RDMA a vyberte příslušný protokol: RoCE nebo iWARP. Nastavte také rámce Jumbo na odpovídající hodnotu pro vaši síť a pak vyberte Další.
Poznámka
- Další informace o tom, jak rozhraní SR-IOV zlepšuje výkon sítě, najdete v tématu Přehled rozhraní SR-IOV (Single Root I/O Virtualization).
Na stránce Přemostění datového centra upravte hodnoty tak, aby odpovídaly nastavením vaší organizace pro prioritu, název zásady a rezervaci šířky pásma, a pak vyberte Další.
Poznámka
Výběr možnosti RDMA přes RoCE na předchozí stránce průvodce vyžaduje DCB pro spolehlivost sítě na všech síťových kartách a přepínačích.
Na stránce Uložit a nasadit uložte do pole Cesta konfiguračního souboru konfigurační soubor pomocí rozšíření.ps1 do umístění, kde ho můžete v případě potřeby znovu použít později, a pak výběrem možnosti Exportovat spusťte nástroj Validate-DCB.
- Volitelně můžete konfigurační soubor nasadit tak, že na stránce vyplníte část Deploy Configuration to Nodes (Nasadit konfiguraci do uzlů), která obsahuje možnost použít účet Azure Automation k nasazení konfigurace a jejímu následnému ověření. Pokud chcete začít používat Azure Automation, přečtěte si článek Vytvoření účtu Azure Automation.
Kontrola výsledků a oprava chyb
Nástroj Validate-DCB vytváří výsledky ve dvou jednotkách:
- Výsledky [globální jednotky] uvádějí požadavky a požadavky pro spuštění modálních testů.
- Výsledky [Modální jednotka] poskytují zpětnou vazbu ke konfiguraci jednotlivých hostitelů clusteru a osvědčené postupy.
Tento příklad ukazuje úspěšné výsledky kontroly jednoho serveru pro všechny požadavky a modální testy jednotek tím, že udává počet selhání 0.
Následující kroky ukazují, jak identifikovat chybu paketu Jumbo z protokolu SMB02 vNIC a opravit ji:
Výsledky kontrol nástroje Validate-DCB ukazují chybu Failed Count (Počet selhání) s chybou 1.
Při procházení výsledků se zobrazí červená chyba označující, že paket Jumbo pro vNIC SMB02 na hostiteli S046036 je nastavený na výchozí velikost 1514, ale měl by být nastavený na 9014.
Při kontrole rozšířených vlastností protokolu SMB02 vNIC na hostiteli S046036 se ukazuje, že paket Jumbo je nastavený na výchozí hodnotu Zakázáno.
Oprava chyby vyžaduje povolení funkce Paket Jumbo a změnu její velikosti na 9014 bajtů. Opětovné spuštění kontroly na hostiteli S046036 potvrdí tuto změnu vrácením počtu selhání 0.
Další informace o řešení chyb, které nástroj Validate-DCB identifikuje, najdete v následujícím videu.
Nástroj můžete také nainstalovat offline. V případě odpojených systémů použijte Save-Module -Name Validate-DCB -Path c:\temp\Validate-DCB
moduly v adresáři c:\temp\Validate-DCB a přesuňte je do svého odpojeného systému. Další informace najdete v následujícím videu.
Ověření clusteru
Pomocí následujícího postupu ověřte servery v existujícím clusteru v Windows Admin Center.
V Windows Admin Center v části Všechna připojení vyberte cluster Azure Stack HCI, který chcete ověřit, a pak vyberte Připojit.
Na řídicím panelu Správce clusteru se zobrazí přehledné informace o clusteru.
Na řídicím panelu Správce clusteru v části Nástroje vyberte Servery.
Na stránce Inventář vyberte servery v clusteru, rozbalte podnabídku Další a vyberte Ověřit cluster.
V automaticky otevírané okně Ověřit cluster vyberte Ano.
V místním okně Credential Security Service Provider (CredSSP) vyberte Ano.
Zadejte přihlašovací údaje pro povolení CredSSP a pak vyberte Pokračovat.
Ověření clusteru běží na pozadí a po jeho dokončení vás upozorní. V tomto okamžiku můžete zobrazit sestavu ověření, jak je popsáno v další části.
Poznámka
Po ověření serverů clusteru budete muset z bezpečnostních důvodů zakázat CredSSP.
Zakázat CredSSP
Po úspěšném ověření clusteru serverů budete muset z bezpečnostních důvodů na každém serveru zakázat protokol CredSSP (Credential Security Support Provider). Další informace najdete v článku CVE-2018-0886.
V Windows Admin Center v části Všechna připojení vyberte první server v clusteru a pak vyberte Připojit.
Na stránce Přehled vyberte Zakázat CredSSP a pak v místním okně Zakázat CredSSP vyberte Ano.
Výsledek kroku 2 odebere červený banner CredSSP ENABLED v horní části stránky Přehled serveru a zakáže CredSSP na ostatních serverech.
Zobrazení sestav ověření
Teď můžete zobrazit sestavu ověření clusteru.
Existuje několik způsobů, jak získat přístup k sestavám ověřování:
Na stránce Inventář rozbalte podnabídku Další a pak vyberte Zobrazit sestavy ověření.
V pravém horním rohu Windows Admin Center vyberte ikonu zvonku Oznámení, aby se zobrazilo podokno Oznámení. Vyberte oznámení Cluster úspěšně ověřen a pak vyberte Přejít na sestavu ověření clusteru s podporou převzetí služeb při selhání.
Poznámka
Dokončení procesu ověření clusteru serveru může nějakou dobu trvat. Během procesu nepřepínejte na jiný nástroj v Windows Admin Center. V podokně Oznámení stavový řádek pod oznámením Ověřit cluster označuje, kdy je proces hotový.
Ověření clusteru pomocí PowerShellu
Můžete také použít Windows PowerShell ke spuštění ověřovacích testů na serverovém clusteru a zobrazení výsledků. Testy můžete spouštět před i po nastavení clusteru.
Pokud chcete spustit ověřovací test na serverovém clusteru, vydejte rutiny PowerShellu Get-Cluster a Test-Cluster<clustername> z počítače pro správu nebo přímo v clusteru spusťte jenom rutinu Test-Cluster :
$Cluster = Get-Cluster -Name 'server-cluster1'
Test-Cluster -InputObject $Cluster -Verbose
Další příklady a informace o použití najdete v referenční dokumentaci k test-clusteru .
Test-NetStack je testovací nástroj založený na PowerShellu dostupný na GitHubu, který můžete použít k testování provozu sítí pomocí protokolu ICMP, TCP a RDMA a k identifikaci potenciálních chybných konfigurací síťových prostředků infrastruktury a hostitele nebo provozní nestability. Pomocí Test-NetStack můžete ověřit cesty k síťovým datům testováním nativních, syntetických a síťových datových cest S přesměrováním zatížení hardwaru (RDMA) z hlediska problémů s připojením, fragmentací paketů, nízkou propustností a zahlcením.
Ověření replikace pro repliku úložiště
Pokud repliku úložiště používáte k replikaci svazků v roztaženém clusteru nebo mezi clustery, existuje několik událostí a rutin, které můžete použít k získání stavu replikace.
V následujícím scénáři jsme nakonfigurovali repliku úložiště tak, že jsme vytvořili replikační skupiny (RG) pro dvě lokality a pak jsme zadali datové svazky a svazky protokolů pro oba uzly zdrojového serveru v lokalitě Lokalita1 (Server1, Server2) a cílové (replikované) uzly serveru v lokalitě Lokalita2 (Server3, Server4).
Pokud chcete zjistit průběh replikace serveru Server1 v lokalitě Site1, spusťte příkaz Get-WinEvent a prozkoumejte události 5015, 5002, 5004, 1237, 5001 a 2200:
Get-WinEvent -ComputerName Server1 -ProviderName Microsoft-Windows-StorageReplica -max 20
Pro Server3 v lokalitě Site2 spuštěním následujícího Get-WinEvent
příkazu zobrazte události repliky úložiště, které ukazují vytvoření partnerství. Tato událost zobrazuje počet zkopírovaných bajtů a čas, který to zabralo. Příklad:
Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | Where-Object {$_.ID -eq "1215"} | FL
Pro Server3 v lokalitě Site2 spusťte Get-WinEvent
příkaz a zkontrolujte události 5009, 1237, 5001, 5015, 5005 a 2200, abyste pochopili průběh zpracování. V této sekvenci by neměla být žádná upozornění ani chyby. Bude k dispozici mnoho 1237 událostí, které značí průběh.
Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL
Skupina cílových serverů pro repliku také neustále uvádí počet bajtů, které zbývá zkopírovat, a je možné ji dotazovat prostřednictvím PowerShellu pomocí Get-SRGroup
příkazu . Příklad:
(Get-SRGroup).Replicas | Select-Object numofbytesremaining
V případě uzlu Server3 v lokalitě Site2 spusťte následující příkaz a prozkoumejte události 5009, 1237, 5001, 5015, 5005 a 2200, abyste porozuměli průběhu replikace. Neměla by se zobrazit žádná upozornění na chyby. Bude však existovat mnoho událostí "1237", které jednoduše označují průběh.
Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL
Jako skript průběhu, který se neukončil:
while($true) {
$v = (Get-SRGroup -Name "Replication2").replicas | Select-Object numofbytesremaining
[System.Console]::Write("Number of bytes remaining: {0}`r", $v.numofbytesremaining)
Start-Sleep -s 5
}
Pokud chcete získat stav replikace v roztaženém clusteru, použijte Get-SRGroup
a Get-SRPartnership
:
Get-SRGroup -Cluster ClusterS1
Get-SRPartnership -Cluster ClusterS1
(Get-SRGroup).replicas -Cluster ClusterS1
Po potvrzení úspěšné replikace dat mezi lokalitami můžete vytvořit virtuální počítače a další úlohy.
Viz také
- Testování výkonnosti proti syntetickým úlohám v nově vytvořeném prostoru úložiště pomocí DiskSpd.exe. Další informace najdete v tématu Testování Prostory úložiště výkonu pomocí syntetických úloh ve Windows Serveru.
- Hodnocení serverů systému Windows je služba Premier, která je k dispozici zákazníkům, kteří chtějí, aby společnost Microsoft zkontrolovala jejich instalace. Další informace získáte od podpory Microsoft Premier Support. Další informace najdete v tématu Začínáme s posouzením na vyžádání Windows Serveru (server, zabezpečení, Hyper-V, cluster s podporou převzetí služeb při selhání, služba IIS).