Бөлісу құралы:


Устранение неполадок с Azure Chaos Studio

При использовании Azure Chaos Studio иногда возникают некоторые проблемы. В этой статье описываются распространенные проблемы и действия по устранению неполадок.

Общие советы по устранению неполадок

Следующие источники полезны при устранении неполадок с Chaos Studio.

  • Журнал действий. Журнал действий Azure содержит запись всех операций создания, обновления и удаления в подписке. К этим записям относятся операции Chaos Studio, такие как включение целевого объекта или возможностей, установка агента и создание или выполнение эксперимента. Сбои в журнале действий указывают на то, что действие пользователя, необходимое для использования Chaos Studio, может завершиться сбоем. Большинство ошибок с прямой службой также внедряют ошибки путем выполнения операции Azure Resource Manager, поэтому журнал действий также содержит запись ошибок, которые были внедрены во время эксперимента для некоторых ошибок с прямой службой.
  • Сведения о эксперименте. Сведения о выполнении эксперимента показывают состояние и ошибки отдельного выполнения эксперимента. Открытие определенной ошибки в сведениях о эксперименте показывает ресурсы, сбои и сообщения об ошибках для сбоя. Узнайте больше о том, как получить доступ к сведениям о эксперименте.
  • Журналы агента. Если вы используете ошибку на основе агента, может потребоваться выполнить RDP или SSH на виртуальной машине, чтобы понять, почему агент не удалось выполнить ошибку. Инструкции по доступу к журналам агента зависят от операционной системы:
    • Агент Хаоса Windows: журналы агентов находятся в журнале событий Windows в категории приложения с источником AzureChaosAgent. Агент добавляет действия сбоя и обычную проверку работоспособности (возможность проходить проверку подлинности и взаимодействовать со службой агента Chaos Studio) в этот журнал.
    • Агент Chaos Linux: агент Linux использует систему для управления процессом агента в качестве службы Linux. Чтобы просмотреть системный журнал агента (события, зарегистрированные службой агента), выполните команду journalctl -u azure-chaos-agent.
  • Состояние расширения виртуальной машины: если вы используете ошибку на основе агента, убедитесь, что расширение виртуальной машины установлено и работоспособно. В портал Azure перейдите на виртуальную машину и перейдите к расширениям или расширениям и приложениям. ChaosAgent Выберите расширение и найдите следующие поля:
    • Состояние должно показать , что подготовка выполнена успешно. Любое другое состояние указывает, что агент не удалось установить. Убедитесь, что выполнены все требования к системе. Попробуйте переустановить агент.
    • Состояние обработчика должно отображаться готово. Любое другое состояние указывает, что агент установлен, но не может подключиться к Chaos Studio. Убедитесь, что выполнены все требования к сети и что назначаемое пользователем управляемое удостоверение было добавлено на виртуальную машину. Попробуйте перезагрузить.

Проблемы при добавлении ресурса

При добавлении ресурса могут возникнуть следующие проблемы.

Ресурсы не отображаются в списке целевых объектов в портал Azure

Если вы не видите ресурсы, которые вы хотите включить в списке целевых объектов Chaos Studio, это может быть вызвано одной из следующих проблем:

  • Ресурсы не находятся в поддерживаемом регионе для Chaos Studio.
  • Ресурсы не являются поддерживаемым типом ресурсов в Chaos Studio.
  • Ресурсы находятся в подписке или группе ресурсов, которые отфильтрованы в фильтрах для целевого списка. Измените фильтры подписки и группы ресурсов, чтобы просмотреть ресурсы.

Целевой объект или включение возможностей завершается ошибкой или не отображается правильно в целевом списке

Если при включении целевых объектов или возможностей возникает ошибка, выполните следующие действия:

  1. Убедитесь, что у вас есть соответствующие разрешения для добавляемых ресурсов. Для включения целевого объекта или возможностей требуется разрешение Microsoft.Chaos/* в области ресурса. Встроенные роли, такие как участник, имеют разрешение на чтение и запись подстановочных знаков, включая разрешение на все операции Microsoft.Chaos.
  2. Подождите несколько минут, пока целевой объект и список возможностей будет обновлен. Портал Azure использует Azure Resource Graph для сбора информации о добавлении целевых объектов и возможностей. Распространение обновления может занять до пяти минут.
  3. Если ресурс по-прежнему отображает значение "Не включено", выполните следующие действия.
    1. Повторите попытку включения ресурса.
    2. Если включение ресурсов по-прежнему завершается ошибкой, перейдите в журнал действий и найдите сбой операции создания целевого объекта, чтобы просмотреть подробные сведения об ошибках.
  4. Если ресурс отображает включен , но сбой добавления возможностей, выполните следующие действия.
    1. Выберите "Управление действиями " в ресурсе в списке целевых объектов. Проверьте все возможности, которые не были проверены, и нажмите кнопку "Сохранить".
    2. Если включение возможностей по-прежнему завершается сбоем, перейдите в журнал действий и найдите сбой операции создания целевого объекта, чтобы просмотреть подробные сведения об ошибке.

Проблемы с предварительными условиями

Некоторые проблемы возникают из-за отсутствия предварительных требований.

Сбои на основе агента на виртуальной машине

Ошибки на основе агента могут завершиться сбоем по различным причинам, связанным с отсутствием предварительных требований:

  • На виртуальных машинах Linux нагрузка ЦП, давление физической памяти, давление ввода-вывода диска и произвольные ошибки стресс-ng требуют установки служебной программы stress-ng на виртуальной машине. Дополнительные сведения о том, как установить stress-ng, см. в разделах о предварительных требованиях сбоя.
  • На виртуальных машинах Linux или Windows назначаемое пользователем управляемое удостоверение, предоставленное во время включения целевого объекта на основе агента, также должно быть добавлено на виртуальную машину.
  • На виртуальных машинах Linux или Windows назначаемое системой управляемое удостоверение для эксперимента должно быть предоставлено роль читателя на виртуальной машине. (Казалось бы, повышенные привилегии, такие как участник виртуальной машины, не включают операцию */Чтение, необходимую для агента Chaos Studio для чтения целевого прокси-ресурса microsoft-agent на виртуальной машине.)

Агент хаоса не будет устанавливаться в масштабируемых наборах виртуальных машин

Установка агента Chaos в масштабируемых наборах виртуальных машин может завершиться ошибкой, если политика обновления масштабируемого набора виртуальных машин установлена вручную. Чтобы проверить политику обновления масштабируемого набора виртуальных машин:

  1. Войдите на портал Azure.
  2. Выберите масштабируемый набор виртуальных машин.
  3. На левой панели выберите Политика обновления.
  4. Проверьте режим обновления, чтобы узнать, нужно ли обновить существующие экземпляры вручную.

Если для политики обновления задано значение "Вручную", необходимо обновить экземпляры Azure Масштабируемые наборы виртуальных машин, чтобы завершить установку агента Chaos.

Обновление экземпляров из портал Azure

Вы можете обновить экземпляры Масштабируемые наборы виртуальных машин из портал Azure:

  1. Войдите на портал Azure.
  2. Выберите масштабируемый набор виртуальных машин.
  3. На левой панели выберите "Экземпляры".
  4. Выберите все экземпляры и нажмите кнопку "Обновить".

Обновление экземпляров с помощью Azure CLI

Вы можете обновить экземпляры Масштабируемые наборы виртуальных машин с помощью Azure CLI:

  • В Azure CLI используйте az vmss update-instances для обновления экземпляров вручную:

    az vmss update-instances --resource-group myResourceGroup --name myScaleSet --instance-ids {instanceIds}
    

Дополнительные сведения см. в статье "Перенос виртуальных машин в актуальное время с помощью последней модели масштабируемого набора".

Сбои сетки хаоса AKS

Служба Azure Kubernetes (AKS) Ошибка сетки Хаоса может завершиться сбоем по различным причинам, связанным с отсутствием предварительных требований:

  • Прежде чем использовать ошибки сетки хаоса, необходимо сначала установить в кластере AKS. Инструкции см. в руководстве по ошибкам "Сетка хаоса" в AKS.
  • Сетка Хаоса должна быть версии 2.0.4 или более поздней. Вы можете получить версию Сетки Хаоса, подключився к кластеру AKS и выполнив ее helm version chaos-mesh.
  • Сетка хаоса должна быть установлена с пространством chaos-testingимен. Другие имена пространств имен для Сетки Хаоса не поддерживаются.
  • Роль администратора кластера AKS должна быть назначена управляемому удостоверению, назначенному системой, для эксперимента хаоса.

Проблемы при создании или проектировании эксперимента

При создании или проектировании эксперимента могут возникнуть проблемы.

При добавлении ошибки ресурс не отображается в списке целевых ресурсов

При добавлении ошибки, если ресурс, на который вы хотите нацелиться , в списке целевых ресурсов может возникать из-за любой из следующих проблем:

  • Фильтр подписки настроен на исключение подписки, в которой развернут ваш целевой объект. Выберите фильтр подписки и измените выбранные подписки.
  • Ресурс еще не добавлен. Перейдите в представление Целевые объекты и включите целевой объект. Затем закройте панель Добавить ошибку и снова откройте ее, чтобы просмотреть обновленный список целевых объектов.
  • Ресурс еще не включен для типа целевого объекта этой ошибки. Просмотрите библиотеку ошибок, чтобы узнать, какой тип целевого объекта используется для ошибки. Затем перейдите в представление "Целевые объекты" и включите этот тип целевого объекта. Тип основан на агенте для ошибок microsoft-agent или службы direct для всех остальных типов целевых объектов. Затем закройте панель Добавить ошибку и снова откройте ее, чтобы просмотреть обновленный список целевых объектов.
  • Ресурс пока не имеет возможности включить эту ошибку. Просмотрите библиотеку ошибок, чтобы просмотреть имя возможности для сбоя. Затем перейдите в представление Целевые объекты и выберите Управление действиями в целевом ресурсе. Установите флажок для возможности, соответствующей ошибке, которую вы пытаетесь запустить, и нажмите кнопку Сохранить. Затем закройте панель Добавить ошибку и снова откройте ее, чтобы просмотреть обновленный список целевых объектов.
  • Ресурс был добавлен недавно и еще не появился в Resource Graph. Список целевых ресурсов запрашивается из Resource Graph. После включения нового целевого объекта может потребоваться до пяти минут для распространения обновления на Resource Graph. Подождите несколько минут, а затем снова откройте панель "Добавить ошибку".

При создании эксперимента возникает ошибка "Поставщик microsoft:agent требует управляемого удостоверения".

Эта ошибка возникает, когда агент не был развернут на виртуальной машине. Инструкции по установке см. в статье "Создание и запуск эксперимента, использующего ошибки на основе агента".

При создании эксперимента возникает ошибка "Тип носителя содержимого "NULL" не поддерживается. Поддерживается только application/json.

Эта ошибка может возникнуть, если вы создаете эксперимент с помощью шаблона Azure Resource Manager или REST API Chaos Studio. Ошибка указывает, что в определении эксперимента имеется неправильный формат JSON. Проверьте наличие ошибок синтаксиса, таких как несовпадение фигурных или квадратных скобок ({} и []). Для проверки используйте анализатор кода JSON, например Visual Studio Code.

Проблемы при выполнении эксперимента

При запуске эксперимента могут возникнуть проблемы.

Состояние выполнения моего эксперимента после запуска — "Сбой"

В списке "Эксперименты" в портал Azure выберите имя эксперимента, чтобы просмотреть обзор эксперимента. В разделе "Журнал" выберите "Сведения" рядом с неудачным экспериментом, чтобы просмотреть подробные сведения об ошибке.

Снимок экрана: журнал экспериментов.

Кроме того, используйте REST API для получения сведений о выполнении эксперимента. Дополнительные сведения см. в примере статьи по REST API.

az rest --method post --url "https://management.azure.com/{experimentId}/executions/{executionDetailsId}/getExecutionDetails?api-version={apiVersion}" 

Ошибка на основе агента завершилась ошибкой "Убедитесь, что целевой объект добавлен правильно, а соответствующие разрешения на чтение предоставляются в msi эксперимента".

Эта ошибка может произойти, если вы добавили агент с помощью портал Azure, которая имеет известная проблема. Включение целевого объекта на основе агента не назначает управляемому удостоверению, назначенному пользователем, виртуальной машине или масштабируемой группе виртуальных машин.

Чтобы устранить эту проблему, перейдите на виртуальную машину или масштабируемый набор виртуальных машин в портал Azure и перейдите к Identity. Откройте вкладку "Назначенный пользователем" и добавьте удостоверение, назначаемое пользователем, на виртуальную машину. После завершения может потребоваться перезагрузить виртуальную машину для подключения агента.

Ошибка на основе агента завершилась ошибкой "Агент уже выполняет другую задачу".

Эта ошибка произойдет при попытке одновременного выполнения нескольких ошибок агента. Сегодня агент поддерживает выполнение только одного сбоя агента в один раз и завершится ошибкой, если вы определите эксперимент, который выполняет несколько ошибок агента одновременно.

Эксперимент не начал или не завершился немедленно

После запуска эксперимента может появиться сообщение об ошибке, например: The long-running operation has failed. InternalServerError. The target resource(s) could not be resolved. Error Code: OperationFailedException Обычно это означает, что удостоверение эксперимента не имеет необходимых разрешений.

Чтобы устранить эту ошибку, убедитесь, что назначаемое системой или назначаемое пользователем управляемое удостоверение эксперимента имеет разрешение на все ресурсы эксперимента. Дополнительные сведения о разрешениях см. здесь: разрешения и безопасность в Azure Chaos Studio. Например, если эксперимент предназначен для виртуальной машины, перейдите на страницу удостоверений виртуальной машины и назначьте роль "Участник виртуальной машины" управляемому удостоверению эксперимента.

Сбой эксперимента с сеткой хаоса AKS

Существует несколько распространенных ошибок, которые могут возникнуть при использовании ошибок сетки хаоса AKS.

Сообщение об ошибке Рекомендуемое действие
Получение статических учетных данных запрещено, так как для этого кластера задано отключение локальных учетных записей. Ошибки Сетки хаоса AKS могут использовать локальные учетные записи Kubernetes или проверку подлинности Microsoft Entra начиная с версии 2.2. Узнайте, как перенести эксперименты здесь: использование проверки подлинности Microsoft Entra с ошибками Chaos Studio AKS.
Не удалось запустить эксперимент "Сетка хаоса", так как указанная конфигурация была недопустимой Убедитесь, что содержит jsonSpec все обязательные поля.
Версия Сетки Хаоса "x.x.x" в настоящее время не поддерживается в Студии Хаоса Проверьте установленную версию на странице совместимости версий Azure Chaos Studio и отправьте запрос на функцию, если требуемая версия не указана.

Проблемы при настройке управляемого удостоверения

При попытке добавить управляемое удостоверение, назначаемое системой, назначаемое пользователем, в существующий эксперимент не удается сохранить.

Если вы пытаетесь добавить управляемое удостоверение, назначаемое пользователем или назначаемое системой, в эксперимент , которому уже назначено управляемое удостоверение, эксперимент не может развернуться. Необходимо сначала удалить существующее управляемое удостоверение, назначаемое пользователем или системой, перед добавлением требуемого управляемого удостоверения.

При запуске эксперимента, настроенного для автоматического создания и назначения настраиваемой роли, возникает ошибка "Не удалось устранить целевые ресурсы. ErrorCode: AccessDenied. Целевые ресурсы:"

Если флажок "Настраиваемые разрешения ролей" выбран для эксперимента, Chaos Studio создает и назначает пользовательскую роль с необходимыми разрешениями для удостоверения эксперимента. Однако это зависит от следующих ограничений назначения ролей и определений ролей:

  • Каждая подписка Azure имеет ограничение в 4000 назначений ролей.
  • Каждый клиент Microsoft Entra имеет ограничение в 5000 определений ролей (или 2000 определений ролей для Azure в Китае).

При достижении одного из этих ограничений эта ошибка возникнет. Чтобы обойти эту проблему, предоставьте вместо этого разрешения на удостоверение эксперимента вручную.