Поделиться через


Шаблон обновления среды выполнения Fabric

В этом руководстве представлен пошаговый шаблон для обновления Nexus Fabric, предназначенный для управления воспроизводимым сквозным обновлением через API Azure и стандартные операционные процедуры. Регулярные обновления важны для поддержания целостности системы и доступа к последним улучшениям продукта.

Обзор

Общие сведения о шаблоне обновления среды выполнения Fabric

Компоненты пакета среды выполнения. Эти компоненты требуют согласия оператора для обновлений, которые могут повлиять на поведение трафика или потребовать перезагрузки устройства. Структура сети позволяет применять обновления при сохранении непрерывного потока трафика данных.

Изменения среды выполнения классифицируются следующим образом:

  • Обновления операционной системы: требуется для поддержки новых функций или устранения проблем.
  • Обновления базовой конфигурации: начальные параметры, применяемые во время загрузки устройства.
  • Обновления структуры конфигурации: создано на основе пользовательских входных данных для conf

Предпосылки

Предварительные требования для использования этого шаблона для обновления Фабрики
  • Последняя версия Azure CLI.
  • Новейшее managednetworkfabricрасширение CLI.
  • Новейшее networkcloudрасширение CLI.
  • Доступ по подписке для выполнения команд CLI-расширений для Azure Operator Nexus Network Fabric (NF) и Network Cloud (NC).
  • Target Fabric должен быть работоспособным в состоянии выполнения со всеми устройствами.

Обязательные параметры

Параметры, используемые в этом документе
  • <СРЕДА>: — имя экземпляра
  • < >AZURE_REGION: — регион Azure экземпляра
  • < >CUSTOMER_SUB_NAME: имя подписки
  • < >CUSTOMER_SUB_ID: идентификатор подписки
  • < >NEXUS_VERSION: версия выпуска Nexus (например, 2504.1)
  • <NNF_VERSION>: версия выпуска Operator Nexus Fabric (например, 8.1)
  • < >NF_VERSION: версия среды выполнения NF для обновления (например, 5.0.0)
  • < >NFC_NAME: связанный контроллер Network Fabric (NFC)
  • < >NFC_RG: группа ресурсов NFC
  • <NFC_RID>: NFC ARM ИДЕНТИФИКАТОР
  • < >NFC_MRG: управляемая группа ресурсов NFC
  • < >NF_NAME: имя Сетевого каркаса
  • < >NF_RG: группа ресурсов Network Fabric
  • < >NF_RID: идентификатор ARM Network Fabric
  • < >NF_DEVICE_NAME: имя устройства Network Fabric
  • < >NF_DEVICE_RID: идентификатор ресурса устройства Network Fabric
  • < >CM_NAME: связанный диспетчер кластеров (CM)
  • < >CLUSTER_NAME: связанное имя кластера
  • <MISE_CID>: Идентификатор корреляции Microsoft.Identity.ServiceEssentials (MISE) в выходных данных отладки для обновлений устройств
  • < >CORRELATION_ID: Идентификатор корреляции операций в отладочном выводе для обновлений устройств
  • < >ASYNC_URL: URL-адрес асинхронного (ASYNC) в выходных данных отладки для обновлений устройств

Данные развертывания

Сведения о данных развертывания
- Nexus: <NEXUS_VERSION>
- NC: <NC_VERSION>
- NF: <NF_VERSION>
- Subscription Name: <CUSTOMER_SUB_NAME>
- Subscription ID: <CUSTOMER_SUB_ID>
- Tenant ID: <CUSTOMER_SUB_TENANT_ID>

Информация для отладки команд Azure CLI

Сбор сведений об отладке для команд Azure CLI

Команды развертывания Azure CLI, выданные с --debug, содержат следующие сведения в выходных данных команды:

cli.azure.cli.core.sdk.policies:     'mise-correlation-id': '<MISE_CID>'
cli.azure.cli.core.sdk.policies:     'x-ms-correlation-request-id': '<CORRELATION_ID>'
cli.azure.cli.core.sdk.policies:     'Azure-AsyncOperation': '<ASYNC_URL>'

Чтобы просмотреть состояние длительных асинхронных операций, выполните следующую команду:az rest

az rest -m get -u '<ASYNC_URL>'

Сведения о состоянии команды возвращаются вместе с подробными информационными или сообщениями об ошибках:

  • "status": "Accepted"
  • "status": "Succeeded"
  • "status": "Failed"

Если возникают сбои, сообщите о <MISE_CID>, <CORRELATION_ID>, коде состояния и подробных сообщениях при открытии запроса на поддержку.

Предварительные проверки

Предварительные проверки перед началом обновления Fabric
  1. Следующие разрешения роли должны быть назначены конечным пользователям, ответственным за операции создания, обновления и удаления Fabric.

    Эти разрешения могут быть предоставлены временно, в течение длительности, необходимой для выполнения обновления.

    • Microsoft.NexusIdentity/identitySets/read
    • Microsoft.NexusIdentity/identitySets/write
    • Microsoft.NexusIdentity/identitySets/delete
    • Убедитесь, что Role Based Access Control Administrator успешно активирован.
    • Войдите на портал Azure со следующего пути: Network Fabrics ->NF_NAME ->Access control (IAM) ->View my access.
    • В текущих назначениях ролей вы увидите следующие две роли:
      • Участник Nexus
      • Администратор управления доступом на основе ролей
  2. Проверьте статус предоставления для Network Fabric Controller (NFC), сети Fabric и устройств управления сетью.

    Войдите в Azure CLI и выберите или задайте следующую <CUSTOMER_SUB_ID>команду:

    az login
    az account set --subscription <CUSTOMER_SUB_ID>
    

    Убедитесь, что NFC находится в подготовленном состоянии:

    az networkfabric controller show -g <NFC_RG> --resource-name <NFC_NAME> --subscription <CUSTOMER_SUB_ID> -o table
    

    Проверьте статус NF.

    az networkfabric fabric show -g <NF_RG> --resource-name <NF_NAME> --subscription <CUSTOMER_SUB_ID> -o table
    

    Запишите значения fabricVersion и provisioningState.

    Проверьте состояние устройств.

    az networkfabric device list -g <NF_RG> -o table --subscription <CUSTOMER_SUB_ID>
    

    Замечание

    Если provisioningState не равен Succeeded, остановите обновление до устранения проблем.

  3. Проверьте Microsoft.NexusIdentity , зарегистрирован ли поставщик ресурсов пользователя (RP) в подписке клиента:

    az provider show --namespace Microsoft.NexusIdentity -o table --subscription <CUSTOMER_SUB_ID>
    Namespace                RegistrationPolicy    RegistrationState
    -----------------------  --------------------  -------------------
    Microsoft.NexusIdentity  RegistrationRequired  Registered
    

    Если он не зарегистрирован, выполните следующую команду, чтобы зарегистрировать:

    az provider register --namespace Microsoft.NexusIdentity --wait --subscription <CUSTOMER_SUB_ID>
    
    az provider show --namespace Microsoft.NexusIdentity -o table
    Namespace                RegistrationPolicy    RegistrationState
    -----------------------  --------------------  -------------------
    Microsoft.NexusIdentity  RegistrationRequired  Registered
    
  4. Минимальное доступное место на каждом устройстве должно превышать 3,5 ГБ для успешного обновления устройства.

    Проверьте доступное пространство на каждом устройстве Fabric с помощью следующей команды Azure CLI.

    az networkfabric device run-ro --resource-name <NF_DEVICE_NAME> --resource-group <NF_RG> --ro-command "dir flash" --subscription <CUSTOMER_SUB_ID> --debug
    

    Обратитесь в службу поддержки Майкрософт, если недостаточно места для выполнения обновления. Архивированные образы расширяемой операционной системы (EOS) и файлы пакета поддержки можно удалить в направлении поддержки.

  5. Проверьте брокер сетевых пакетов Fabric (NPB) на наличие любых "осиротевших" Network Taps на портале Azure.

    • Выберите Network Fabrics в разделе Azure Services и выберите <NF_NAME>.
    • Щелкните на Resource group для Fabric.
    • В списке ресурсов выполните фильтрацию по Network Packet Broker.
    • Network Packet Broker Щелкните имя в списке.
    • Щелкните на вкладке Network Taps на экране Overview.
    • Все Network Taps должно быть Succeeded для Configuration State и Provisioning State.
    • Найдите все касания с красным Xцветом и состоянием Not Found, Failedили Error.

    Замечание

    Если какое-либо из устройств Tap показывает статус Not Found, Failed или Error, остановите обновление, пока проблемы не будут устранены. Предоставьте эту информацию службе поддержки Майкрософта при открытии заявки на решение проблем с сенсорным управлением.

  6. Запустите и проверьте отчет проверки кабеля Fabric. Следуйте инструкциям по проверке кабелей для Nexus Network Fabric, чтобы настроить и запустить отчет

    Замечание

    Перед продолжением обновления устраните все проблемы с подключением и кабелем.

  7. Изучите заметки о выпуске Оператора Nexus, чтобы проверить необходимые проверки и обновления конфигурации, не входящие в этот документ.

Процедура обновления

Сведения о процедуре обновления среды выполнения Fabric

Проверка текущей версии среды выполнения Fabric

Как проверить текущую версию среды выполнения кластера.

az networkfabric fabric list -g <NF_RG> --query "[].{name:name,fabricVersion:fabricVersion,configurationState:configurationState,provisioningState:provisioningState}" -o table --subscription <CUSTOMER_SUB_ID>
az networkfabric fabric show -g <NF_RG> --resource-name <NF_NAME> --subscription <CUSTOMER_SUB_ID>

Начать обновление Fabric

Запустите обновление с помощью следующей команды:

az networkfabric fabric upgrade -g <NF_RG> --resource-name <NF_NAME> --subscription <CUSTOMER_SUB_ID> --action start --version "5.0.0"
{}

Замечание

Выходные данные с {} указывают на успешное выполнение команды обновления.

Поставщик ресурсов Fabric проверяет, разрешено ли обновление версии из существующей версии Fabric в целевую версию. Разрешены только обновления основных выпусков N+1 (например, 4.0.0-5.0.0>).

При успешном завершении команда помещает состояние Fabric в Under Maintenance и предотвращает выполнение любых других операций с Fabric.

Следуйте рабочему процессу для конкретного устройства

Стойки Nexus Network Fabric состоят из следующих типов устройств:

  • Коммутаторы Customer Edge (CE)
  • Коммутаторы управления (MGMT)
  • Верхнеуровневые коммутаторы стойки (TOR)
  • Брокеры сетевых пакетов (NPB)

Восемь стоечных систем содержат 30 устройств.

  • Агрегатная стойка — два CE, два NPB, два коммутатора MGMT (шесть устройств)
  • Восемь вычислительных стоек - каждая имеет два TOR и один коммутатор управления (всего 24 устройства).

Четыре стойки для оборудования содержат 17 устройств.

  • Агрегатная стойка — два ce, один NPB, два коммутатора MGMT (пять устройств)
  • Четыре вычислительных стойки - каждая стойка имеет два коммутатора TOR и один управляющий коммутатор (всего 12 устройств).

Это важно

Устройства должны быть обновлены в следующем конкретном порядке, чтобы поддерживать сетевую службу во время обновления.

  1. Параллельное обновление toR с нечетным числом вычислительных стоек.
  2. Параллельное обновление ТОР вместе с счётной стойкой с четными номерами.
  3. Коммутаторы управления в вычислительных стойках обновляются одновременно в параллельном режиме.
  4. Обновление узлов стойки происходит поочередно, один за другим.

    Это важно

    После каждого обновления CE подождите пять минут, чтобы убедиться, что процесс восстановления завершен до перехода к следующему CE

  5. Агрегатные стойки NPB обновляются последовательно, одна за другой.
  6. Агрегатные коммутаторы MGMT стойки обновляются последовательно, один за другим.

Замечание

Дождитесь успешного обновления на всех устройствах в группе, прежде чем перейти к следующей группе.

Следуйте обновлению для конкретного устройства

Выполните следующую команду, чтобы обновить версию на каждом устройстве:

az networkfabric device upgrade --version <NF_VERSION> -g <NF_RG> --resource-name <NF_DEVICE_NAME> --subscription <CUSTOMER_SUB_ID> --debug

В рамках обновления устройства помещаются в режим обслуживания. Устройство отводит весь трафик и прекращает объявление маршрутов, чтобы поток трафика к устройству остановился. По завершении служба Nexus Network Fabric (NNF) обновляет свойство версии ресурса устройства до новой версии.

При необходимости соберите сведения о URL-адресе ASYNC и идентификаторе корреляции для дальнейшего устранения неполадок.

cli.azure.cli.core.sdk.policies:     'mise-correlation-id': '<MISE_CID>'
cli.azure.cli.core.sdk.policies:     'x-ms-correlation-request-id': '<CORRELATION_ID>'
cli.azure.cli.core.sdk.policies:     'Azure-AsyncOperation': '<ASYNC_URL>'

Укажите эти сведения в службу поддержки Майкрософт при открытии запроса в службу поддержки для проблем с обновлением.

После завершения обновления устройства убедитесь, что все Устройства отображаются с <NF_VERSION>, и для этого выполните следующую команду:

az networkfabric device list -g <NF_RG> --query "[].{name:name,version:version}" -o table --subscription <CUSTOMER_SUB_ID>

Завершение обновления Network Fabric

После обновления всех устройств выполните следующую команду, чтобы выйти из состояния обслуживания Network Fabric.

az networkfabric fabric upgrade --action Complete --version <NF_VERSION> -g <NF_RG> --resource-name <NF_NAME> --debug --subscription <CUSTOMER_SUB_ID>

Устранение неполадок с обновлением устройства

  1. Соберите все ошибки в выходных данных Azure CLI.
  2. Сбор состояния операции устройства с портала Azure или Azure CLI.
  3. Создайте запрос на поддержку Azure для любых сбоев обновления устройства и прикрепите все ошибки вместе с URL-адресом ASYNC, идентификатором корреляции и состоянием операций Fabric и Devices.

Задачи после обновления

Подробные инструкции по задачам после обновления

Обзор примечаний к выпуску оператора Nexus

Ознакомьтесь с примечаниями к выпуску Operator Nexus, чтобы определить действия, требующиеся после обновления версии.

Проверка экземпляра Nexus

Проверьте работоспособность и состояние всех ресурсов экземпляра Nexus с помощью теста готовности экземпляра Nexus (IRT).

Если не используется IRT, выполните проверку ресурсов для всех компонентов экземпляра Nexus с помощью Azure CLI:

# Check `ProvisioningState = Succeeded` in all resources

# NFC
az networkfabric controller list -g <NFC_RG> --subscription <CUSTOMER_SUB_ID> -o table
az customlocation list -g <NFC_MRG> --subscription <CUSTOMER_SUB_ID> -o table

# Fabric
az networkfabric fabric list -g <NF_RG> --subscription <CUSTOMER_SUB_ID> -o table
az networkfabric rack list -g <NF_RG> --subscription <CUSTOMER_SUB_ID> -o table
az networkfabric fabric device list -g <NF_RG> --subscription <CUSTOMER_SUB_ID> -o table
az networkfabric nni list -g <NF_RG> --fabric <NF_NAME> --subscription <CUSTOMER_SUB_ID> -o table
az networkfabric acl list -g <NF_RG> --fabric <NF_NAME> --subscription <CUSTOMER_SUB_ID> -o table
az networkfabric l2domain list -g <NF_RG> --fabric <NF_NAME> --subscription <CUSTOMER_SUB_ID> -o table

# CM
az networkcloud clustermanager list -g <CM_RG> --subscription <CUSTOMER_SUB_ID> -o table

# Cluster
az networkcloud cluster list -g <CLUSTER_RG> --subscription <CUSTOMER_SUB_ID> -o table
az networkcloud baremetalmachine list -g <CLUSTER_MRG> --subscription <CUSTOMER_SUB_ID> --query "sort_by([]. {name:name,kubernetesNodeName:kubernetesNodeName,location:location,readyState:readyState,provisioningState:provisioningState,detailedStatus:detailedStatus,detailedStatusMessage:detailedStatusMessage,cordonStatus:cordonStatus,powerState:powerState,machineRoles:machineRoles| join(', ', @),createdAt:systemData.createdAt}, &name)" -o table
az networkcloud storageappliance list -g <CLUSTER_MRG> --subscription <CUSTOMER_SUB_ID> -o table

# Tenant Workloads
az networkcloud virtualmachine list --sub <CUSTOMER_SUB_ID> --query "reverse(sort_by([?clusterId=='<CLUSTER_RID>'].{name:name, createdAt:systemData.createdAt, resourceGroup:resourceGroup, powerState:powerState, provisioningState:provisioningState, detailedStatus:detailedStatus,bareMetalMachineId:bareMetalMachineIdi,CPUCount:cpuCores, EmulatorStatus:isolateEmulatorThread}, &createdAt))" -o table
az networkcloud kubernetescluster list --sub <CUSTOMER_SUB_ID> --query "[?clusterId=='<CLUSTER_RID>'].{name:name, resourceGroup:resourceGroup, provisioningState:provisioningState, detailedStatus:detailedStatus, detailedStatusMessage:detailedStatusMessage, createdAt:systemData.createdAt, kubernetesVersion:kubernetesVersion}" -o table

Замечание

Проверка IRT обеспечивает полный функциональный тест сети и рабочих нагрузок во всех компонентах экземпляра Nexus. Простая проверка не обеспечивает функциональное тестирование.

Справочные ссылки для обновления Fabric

Справочные ссылки для обновления Fabric: