Sdílet prostřednictvím


Šablona aktualizace runtime Fabric

Tento průvodce nabízí podrobnou šablonu pro upgrade Nexus Fabric, která je navržena tak, aby uživatelům pomohla spravovat reprodukovatelný upgrade od začátku do konce prostřednictvím rozhraní API Azure a standardních provozních postupů. Pravidelné aktualizace jsou zásadní pro zachování integrity systému a přístup k nejnovějším vylepšením produktů.

Přehled

Přehled šablony upgradu runtime Fabric

Komponenty sady runtime: Tyto komponenty vyžadují souhlas operátora pro upgrady, které můžou ovlivnit chování provozu nebo vyžadují restartování zařízení. Návrh síťových prostředků infrastruktury umožňuje použít aktualizace při zachování průběžného toku datového provozu.

Změny za běhu jsou rozdělené do kategorií následujícím způsobem:

  • Aktualizace operačního systému: Nezbytné pro podporu nových funkcí nebo řešení problémů.
  • Aktualizace základní konfigurace: Počáteční nastavení použitá při spouštění zařízení
  • Aktualizace struktury konfigurace: Vygenerováno na základě vstupu uživatele pro conf

Požadavky

Požadavky pro použití této šablony k upgradu prostředků infrastruktury

Požadované parametry

Parametry použité v tomto dokumentu
  • <PROSTŘEDÍ>: – název instance
  • < >AZURE_REGION: – oblast instance Azure
  • < >CUSTOMER_SUB_NAME: Název předplatného
  • < >CUSTOMER_SUB_ID: ID předplatného
  • < >NEXUS_VERSION: Verze nexusu (například 2504.1)
  • <NNF_VERSION>: Verze vydání operátora Nexus Fabric (například 8.1)
  • < >NF_VERSION: Verze modulu runtime NF pro upgrade (například 5.0.0)
  • <NFC_NAME>: Přidružený kontroler síťové struktury (NFC)
  • <NFC_RG>: Skupina prostředků NFC
  • < >NFC_RID: NFC ARM ID
  • <NFC_MRG>: Spravovaná skupina prostředků NFC
  • <NF_NAME>: Název síťového fabricu
  • <NF_RG>: Skupina prostředků Síťové struktury
  • <NF_RID>: ID ARM síťové struktury
  • <NF_DEVICE_NAME>: Název síťového zařízení typu fabric
  • < >NF_DEVICE_RID: ID prostředku síťového zařízení infrastruktury
  • < >CM_NAME: Přidružený Správce clusteru (CM)
  • < >CLUSTER_NAME: Přidružený název clusteru
  • < >MISE_CID: ID korelace Microsoft.Identity.ServiceEssentials (MISE) ve výstupu ladění pro aktualizace zařízení
  • < >CORRELATION_ID: ID korelace operace ve výstupu ladění pro aktualizace zařízení
  • < >ASYNC_URL: Asynchronní adresa URL (ASYNC) ve výstupu ladění pro aktualizace zařízení

Data nasazení

Podrobnosti o datech nasazení
- Nexus: <NEXUS_VERSION>
- NC: <NC_VERSION>
- NF: <NF_VERSION>
- Subscription Name: <CUSTOMER_SUB_NAME>
- Subscription ID: <CUSTOMER_SUB_ID>
- Tenant ID: <CUSTOMER_SUB_TENANT_ID>

Informace o ladění příkazů Azure CLI

Shromažďování informací o ladění pro příkazy Azure CLI

Příkazy nasazení Azure CLI vydané s --debug obsahují následující informace ve výstupu příkazu:

cli.azure.cli.core.sdk.policies:     'mise-correlation-id': '<MISE_CID>'
cli.azure.cli.core.sdk.policies:     'x-ms-correlation-request-id': '<CORRELATION_ID>'
cli.azure.cli.core.sdk.policies:     'Azure-AsyncOperation': '<ASYNC_URL>'

Pokud chcete zobrazit stav dlouhotrvajících asynchronních operací, spusťte následující příkaz s az rest:

az rest -m get -u '<ASYNC_URL>'

Informace o stavu příkazu se vrátí spolu s podrobnými informačními nebo chybovými zprávami:

  • "status": "Accepted"
  • "status": "Succeeded"
  • "status": "Failed"

Pokud dojde k nějakým selháním, nahlašte MISE_CID<, CORRELATION_ID>, stavový kód a podrobné zprávy při otevření žádosti o podporu.

Předběžné kontroly

Předběžné kontroly před zahájením upgradu Fabric
  1. Koncovým uživatelům, kteří zodpovídají za operace Fabric vytváření, upgradu a odstraňování, by se měla přiřadit následující oprávnění role.

    Tato oprávnění je možné udělit dočasně, omezená na dobu potřebnou k provedení upgradu.

    • Microsoft.NexusIdentity/identitySets/read
    • Microsoft.NexusIdentity/identitySets/write
    • Microsoft.NexusIdentity/identitySets/delete
    • Ujistěte se, že Role Based Access Control Administrator je úspěšně aktivováno.
    • Na webu Azure Portal se podívejte z následující cesty: Network Fabrics ->NF_NAME ->Access control (IAM) ->View my access.
    • V aktuální části Přiřazení rolí byste měli vidět následující dvě role:
      • Přispěvatel Nexus
      • Správce řízení přístupu na základě rolí
  2. Ověřte stav zřizování pro síťový adaptér infrastruktury (NFC), prostředky infrastruktury a zařízení fabric.

    Přihlaste se k Azure CLI a vyberte nebo nastavte <CUSTOMER_SUB_ID>:

    az login
    az account set --subscription <CUSTOMER_SUB_ID>
    

    Zkontrolujte, jestli je NFC v zřízeném stavu:

    az networkfabric controller show -g <NFC_RG> --resource-name <NFC_NAME> --subscription <CUSTOMER_SUB_ID> -o table
    

    Zkontrolujte stav NF:

    az networkfabric fabric show -g <NF_RG> --resource-name <NF_NAME> --subscription <CUSTOMER_SUB_ID> -o table
    

    Zaznamenejte si fabricVersion a provisioningState.

    Zkontrolujte stav zařízení.

    az networkfabric device list -g <NF_RG> -o table --subscription <CUSTOMER_SUB_ID>
    

    Poznámka:

    Pokud provisioningState není Succeeded, zastavte upgrade, dokud se nevyřeší problémy.

  3. Zkontrolujte, jestli Microsoft.NexusIdentity je poskytovatel prostředků uživatele zaregistrovaný v předplatném zákazníka:

    az provider show --namespace Microsoft.NexusIdentity -o table --subscription <CUSTOMER_SUB_ID>
    Namespace                RegistrationPolicy    RegistrationState
    -----------------------  --------------------  -------------------
    Microsoft.NexusIdentity  RegistrationRequired  Registered
    

    Pokud není zaregistrovaný, zaregistrujte spuštěním následujícího příkazu:

    az provider register --namespace Microsoft.NexusIdentity --wait --subscription <CUSTOMER_SUB_ID>
    
    az provider show --namespace Microsoft.NexusIdentity -o table
    Namespace                RegistrationPolicy    RegistrationState
    -----------------------  --------------------  -------------------
    Microsoft.NexusIdentity  RegistrationRequired  Registered
    
  4. Pro úspěšný upgrade zařízení musí být minimálně 3,5 GB volného místa na disku na každém zařízení.

    Pomocí následujícího příkazu Azure CLI ověřte dostupné místo na jednotlivých zařízeních infrastruktury.

    az networkfabric device run-ro --resource-name <NF_DEVICE_NAME> --resource-group <NF_RG> --ro-command "dir flash" --subscription <CUSTOMER_SUB_ID> --debug
    

    Pokud není dostatek místa k provedení upgradu, obraťte se na podporu Microsoftu. Archivované image EOS (Extensible Operating System) a soubory sad podpory lze odebrat na pokyn podpory.

  5. Zkontrolujte osamocený Network Taps zprostředkovatel síťových paketů infrastruktury (NPB) na webu Azure Portal.

    • Vyberte Network Fabrics v části Azure Services a pak vyberte <NF_NAME>.
    • Klikněte na položku Resource group látka.
    • V seznamu zdrojů vyberte filtr podle Network Packet Broker.
    • Klikněte na název Network Packet Broker v seznamu.
    • Klikněte na Network Taps kartu v Overview obrazovce.
    • Vše Network Taps by mělo být Succeeded pro Configuration State a Provisioning State.
    • Hledejte kohoutky s červenou X a stavem Not Found, Failed nebo Error.

    Poznámka:

    Pokud se u některých kohoutků zobrazí stav Not Found, Failed nebo Error, zastavte upgrade, dokud se problémy nevyřeší. Při otevírání podpory pro řešení problémů s klepnutím zadejte tyto informace podpoře Microsoftu.

  6. Spusťte sestavu pro ověření kabelů Fabric a zkontrolujte její výsledky. Pokud chcete nastavit a spustit sestavu, následujte ověření kabelů pro Nexus Network Fabric.

    Poznámka:

    Než budete pokračovat v upgradu, vyřešte všechny problémy s připojením a kabelem.

  7. Projděte si poznámky k vydání operátora Nexus, abyste ověřili nezbytné kontroly a aktualizace konfigurace, které nejsou součástí tohoto dokumentu.

Postup upgradu

Podrobnosti postupu upgradu runtime Fabricu

Ověřte aktuální verzi modulu runtime Fabric

Postup kontroly aktuální verze modulu runtime clusteru

az networkfabric fabric list -g <NF_RG> --query "[].{name:name,fabricVersion:fabricVersion,configurationState:configurationState,provisioningState:provisioningState}" -o table --subscription <CUSTOMER_SUB_ID>
az networkfabric fabric show -g <NF_RG> --resource-name <NF_NAME> --subscription <CUSTOMER_SUB_ID>

Spuštění upgradu Fabric

Spusťte upgrade pomocí následujícího příkazu:

az networkfabric fabric upgrade -g <NF_RG> --resource-name <NF_NAME> --subscription <CUSTOMER_SUB_ID> --action start --version "5.0.0"
{}

Poznámka:

Výstup znázorňující {} úspěšné spuštění příkazu upgrade

Poskytovatel prostředků infrastruktury ověří, jestli je upgrade verze povolen z existující verze prostředků Infrastruktury na cílovou verzi. Jsou povoleny pouze upgrady hlavních verzí N+1 (například 4.0.0-5.0.0).

Po úspěšném dokončení příkaz umístí stav Fabric do Under Maintenance a zabrání jakékoli jiné operaci na Fabric.

Sledování pracovního postupu specifického pro zařízení

Zařízení Nexus Network Fabric Racks se skládají z následujících typů zařízení:

  • Přepínače CE (Customer Edge)
  • Přepínače pro správu (MGMT)
  • Přepínače typu TOR (Top Of Rack)
  • Zprostředkovatelé síťových paketů (NPB)

Osm prostředí racků má 30 zařízení:

  • Agregační rack – dva CE, dva NPB, dva přepínače MGMT (šest zařízení)
  • Osm výpočetních racků – Každý výpočetní rack má dva TOR a jeden přepínač MGMT (24 zařízení)

Čtyři racky mají 17 zařízení.

  • Agregační rack - dva CE, jeden NPB, dva přepínače MGMT (pět zařízení)
  • Čtyři výpočetní racky – Každý výpočetní rack má dva TOR a jeden přepínač MGMT (12 zařízení)

Důležité

Zařízení musí být upgradována v následujícím konkrétním pořadí, aby bylo možné během upgradu udržovat síťovou službu.

  1. Paralelní upgrade TOR s lichým číslovaným výpočetním rackem
  2. Výpočetní rack dokonce paralelně očíslovaný upgrade TOR.
  3. Přepínače MGMT výpočetního racku se společně upgradují paralelně.
  4. CE racku se upgradují jeden po druhém sériově.

    Důležité

    Po každém upgradu CE počkejte na dobu pěti minut, abyste se ujistili, že se proces obnovení dokončí, a teprve potom pokračujte k další CE.

  5. Agregované rackové NPB se upgradují jeden po druhém sekvenčně.
  6. Agregační přepínače rack MGMT se postupně upgradují jeden po druhém.

Poznámka:

Než přejdete na další skupinu, počkejte na úspěšný upgrade na všech zařízeních ve skupině.

Postupujte podle upgradu specifického pro zařízení.

Spuštěním následujícího příkazu upgradujte verzi na každém zařízení:

az networkfabric device upgrade --version <NF_VERSION> -g <NF_RG> --resource-name <NF_DEVICE_NAME> --subscription <CUSTOMER_SUB_ID> --debug

V rámci upgradu jsou zařízení v režimu údržby. Zařízení vyprázdní veškerý provoz a zastaví reklamní trasy, aby se provoz do zařízení zastavil. Po dokončení služba Nexus Network Fabric (NNF) aktualizuje atribut verze prostředku zařízení na novou verzi.

Shromážděte adresu URL ASYNC a informace o ID korelace pro další řešení potíží v případě potřeby.

cli.azure.cli.core.sdk.policies:     'mise-correlation-id': '<MISE_CID>'
cli.azure.cli.core.sdk.policies:     'x-ms-correlation-request-id': '<CORRELATION_ID>'
cli.azure.cli.core.sdk.policies:     'Azure-AsyncOperation': '<ASYNC_URL>'

Při podání podpůrné žádosti kvůli problémům s upgradem poskytněte tyto informace podpoře Microsoftu.

Po dokončení upgradů zařízení se ujistěte, že se všechna zařízení zobrazují s <NF_VERSION> spuštěním následujícího příkazu:

az networkfabric device list -g <NF_RG> --query "[].{name:name,version:version}" -o table --subscription <CUSTOMER_SUB_ID>

Kompletní upgrade síťové struktury

Po upgradu všech zařízení spusťte následující příkaz a vyjměte síťovou infrastrukturu ze stavu údržby.

az networkfabric fabric upgrade --action Complete --version <NF_VERSION> -g <NF_RG> --resource-name <NF_NAME> --debug --subscription <CUSTOMER_SUB_ID>

Řešení potíží se selháními aktualizace zařízení

  1. Shromážděte všechny chyby ve výstupu Azure CLI.
  2. Shromážděte stav operace zařízení z webu Azure Portal nebo Azure CLI.
  3. Vytvořte žádost o podporu Azure pro všechna selhání upgradu zařízení a připojte všechny chyby spolu s adresou URL protokolu ASYNC, ID korelace a stavem provozu prostředků infrastruktury a zařízení.

Úlohy po upgradu

Podrobný postup pro úlohy po upgradu

Poznámky k verzi pro operátora Nexus

Projděte si poznámky k verzi Operator Nexus pro všechny akce specifické pro verzi, které jsou potřeba po upgradu.

Ověření instance Nexus

Pomocí testu IRT (Nexus Instance Readiness Test) ověřte stav a stav všech prostředků instance Nexus.

Pokud nepoužíváte IRT, proveďte ověření prostředků všech komponent instance Nexus pomocí Azure CLI:

# Check `ProvisioningState = Succeeded` in all resources

# NFC
az networkfabric controller list -g <NFC_RG> --subscription <CUSTOMER_SUB_ID> -o table
az customlocation list -g <NFC_MRG> --subscription <CUSTOMER_SUB_ID> -o table

# Fabric
az networkfabric fabric list -g <NF_RG> --subscription <CUSTOMER_SUB_ID> -o table
az networkfabric rack list -g <NF_RG> --subscription <CUSTOMER_SUB_ID> -o table
az networkfabric fabric device list -g <NF_RG> --subscription <CUSTOMER_SUB_ID> -o table
az networkfabric nni list -g <NF_RG> --fabric <NF_NAME> --subscription <CUSTOMER_SUB_ID> -o table
az networkfabric acl list -g <NF_RG> --fabric <NF_NAME> --subscription <CUSTOMER_SUB_ID> -o table
az networkfabric l2domain list -g <NF_RG> --fabric <NF_NAME> --subscription <CUSTOMER_SUB_ID> -o table

# CM
az networkcloud clustermanager list -g <CM_RG> --subscription <CUSTOMER_SUB_ID> -o table

# Cluster
az networkcloud cluster list -g <CLUSTER_RG> --subscription <CUSTOMER_SUB_ID> -o table
az networkcloud baremetalmachine list -g <CLUSTER_MRG> --subscription <CUSTOMER_SUB_ID> --query "sort_by([]. {name:name,kubernetesNodeName:kubernetesNodeName,location:location,readyState:readyState,provisioningState:provisioningState,detailedStatus:detailedStatus,detailedStatusMessage:detailedStatusMessage,cordonStatus:cordonStatus,powerState:powerState,machineRoles:machineRoles| join(', ', @),createdAt:systemData.createdAt}, &name)" -o table
az networkcloud storageappliance list -g <CLUSTER_MRG> --subscription <CUSTOMER_SUB_ID> -o table

# Tenant Workloads
az networkcloud virtualmachine list --sub <CUSTOMER_SUB_ID> --query "reverse(sort_by([?clusterId=='<CLUSTER_RID>'].{name:name, createdAt:systemData.createdAt, resourceGroup:resourceGroup, powerState:powerState, provisioningState:provisioningState, detailedStatus:detailedStatus,bareMetalMachineId:bareMetalMachineIdi,CPUCount:cpuCores, EmulatorStatus:isolateEmulatorThread}, &createdAt))" -o table
az networkcloud kubernetescluster list --sub <CUSTOMER_SUB_ID> --query "[?clusterId=='<CLUSTER_RID>'].{name:name, resourceGroup:resourceGroup, provisioningState:provisioningState, detailedStatus:detailedStatus, detailedStatusMessage:detailedStatusMessage, createdAt:systemData.createdAt, kubernetesVersion:kubernetesVersion}" -o table

Poznámka:

Ověření IRT poskytuje kompletní funkční test sítí a úloh napříč všemi komponentami instance Nexus. Jednoduché ověřování neposkytuje funkční testování.

Referenční odkazy pro upgrade Fabricu

Referenční odkazy pro aktualizaci Fabric: