Поделиться через


Ошибки создания кластера в Azure HDInsight в AKS

Примечание.

Мы отставим Azure HDInsight в AKS 31 января 2025 г. До 31 января 2025 г. необходимо перенести рабочие нагрузки в Microsoft Fabric или эквивалентный продукт Azure, чтобы избежать резкого прекращения рабочих нагрузок. Оставшиеся кластеры в подписке будут остановлены и удалены из узла.

До даты выхода на пенсию будет доступна только базовая поддержка.

Внимание

Эта функция в настоящее время доступна для предварительного ознакомления. Дополнительные условия использования для предварительных версий Microsoft Azure включают более юридические термины, применимые к функциям Azure, которые находятся в бета-версии, в предварительной версии или в противном случае еще не выпущены в общую доступность. Сведения об этой конкретной предварительной версии см. в статье Azure HDInsight в предварительной версии AKS. Для вопросов или предложений функций отправьте запрос на AskHDInsight с подробными сведениями и следуйте за нами для получения дополнительных обновлений в сообществе Azure HDInsight.

В этой статье описывается, как устранять и устранять ошибки, которые могут возникнуть при создании Azure HDInsight в кластерах AKS.

Sr. No Сообщение об ошибке Причина Решение
1 InternalServerError UnrecognizableError Эта ошибка может указывать на неправильный шаблон, используемый. В настоящее время соединители баз данных разрешены только с помощью шаблона ARM. Поэтому проверка конфигурации невозможна в шаблоне.
2 InvalidClusterSpec — ServiceDependencyFailure — недопустимая конфигурация Максимальное количество памяти на узел. Ознакомьтесь с типами значений свойств максимального размера конфигураций памяти.
3 WaitingClusterResourcesReadyTimeOut — нечитаемая служба хранилища метаданных Эта ошибка может быть вызвана тем, что имя контейнера может содержать только строчные буквы, цифры и дефисы. Имя контейнера должно начинаться с буквы или числа. Перед каждым дефисом следует следовать символу, отличному от дефиса. Количество символов в имени должно быть от 3 до 63.
4 InvalidClusterSpec -Invalid configuration — ClusterUpsertActivity Ошибка: недопустимое свойство hive.metastore.uri: may not be nullконфигурации. См. документацию по соединителю Hive.
5 InternalServerError - An exception has been raised that is likely due to a transient failure. Consider enabling transient error resiliency by adding 'EnableRetryOnFailure()' to the 'UseSqlServer' call. Повторите операцию или откройте запрос в службу поддержки Azure HDInsight.
6 InternalServerError - ObjectDisposedException происходит в коде RP. Повторите операцию или откройте запрос в службу поддержки Azure HDInsight.
7 PreconditionFailed — сбой операции из-за ограничений квоты на подписку пользователя. Перед созданием кластера выполняется проверка квоты. Но при одновременном создании нескольких кластеров в одной подписке возможно, что первый кластер занимает квоту, а другой — из-за нехватки квоты. Убедитесь, что существует достаточно квоты и повторная попытка создания кластера или пула кластера.
8 ReconcileApplicationSecurityGroupError — внутренняя ошибка AKS Повторите операцию или откройте запрос в службу поддержки Azure HDInsight.
9 ResourceGroupBeingDeleted Во время создания или обновления ресурсов HDI в AKS пользователь также удаляет некоторые ресурсы в связанных группах ресурсов. Не удаляйте ресурсы в группах ресурсов, связанных с HDI, при создании или обновлении HDI в ресурсах AKS.
10 UpsertNodePoolTimeOut - Async operation dependentArmResourceTask has timed out. Проблема AKS — может быть вызвана высоким трафиком в определенном регионе во время операции. Повторите операцию через некоторое время. По возможности используйте другой регион.
11 Authorization_IdentityNotFound - {"code":null,"message":"The identity of the calling application could not be established."} Принцип обслуживания 1 p не включен в клиент. Выполните команду, чтобы подготовить принцип службы 1 p для нового клиента для подключения.
12 NotFound - ARM/AKS sdk error Пользователь пытается обновить HDI в кластере AKS, но соответствующий пул агентов был удален. Соответствующий пул агентов удален. Не рекомендуется напрямую управлять пулом агентов AKS.
13 AuthorizationFailed - Scope invalid role assignment issue with managed RG and cluster msi Отсутствие разрешения на выполнение операции. Проверьте, указан ли идентификатор приложения-принципа службы, упомянутый в сообщении об ошибке, принадлежаемом вам. Если да, предоставьте разрешение в соответствии с сообщением об ошибке. Если нет, откройте запрос в службу поддержки Azure HDInsight.
14 DeleteAksClusterFailed - {"code":"DeleteAksClusterFailed","message":"An Azure service request has failed. ErrorCode: 'DeleteAksClusterFailed', ErrorMessage: 'Delete HDI cluster namespcae failed. Additional info: 'Can't access a disposed object.\\r\\nObject name: 'Microsoft.Azure.Common.Configuration.ManagedConfiguration was already disposed'.''."} RP неожиданно переключился на новый экземпляр роли. Повторите операцию или откройте запрос в службу поддержки Azure HDInsight.
15 EntityStoreOperationError - ARM/AKS sdk error Сбой операции базы данных на стороне AKS во время обновления кластера. Повторите операцию через некоторое время. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight.
16 InternalServerError - {"exception":"System.Threading.Tasks.TaskCanceledException","message":"The operation was canceled."} Эта ошибка вызвана различными проблемами. Повторите операцию или откройте запрос в службу поддержки Azure HDInsight.
17 InternalServerError - {"exception":"System.IO.IOException","message":"Unable to read data from the transport connection: A connection attempt failed because the connected party didn't properly respond after a period of time, or established connection failed because connected host has failed to respond."} Эта ошибка вызвана различными проблемами. Повторите операцию через некоторое время. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight.
18 InternalServerError - Null reference exception occurs in RP code. Эта ошибка вызвана различными проблемами. Повторите операцию или откройте запрос в службу поддержки Azure HDInsight.
19 InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'InvalidOperationException, Sequence contains no elements.'"} Эта ошибка вызвана различными проблемами. Повторите операцию или откройте запрос в службу поддержки Azure HDInsight.
20 InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'ArgumentNullException, Value can't be null. (Parameter 'roleAssignmentGuid')'"} Эта ошибка вызвана различными проблемами. Повторите операцию или откройте запрос в службу поддержки Azure HDInsight.
21 OperationNotAllowed - {"code":"OperationNotAllowed","message":"An Azure service request has failed. ErrorCode: 'OperationNotAllowed', ErrorMessage: 'Service request failed.\\r\\nStatus: 409 (Conflict)\\r\\n\\r\\nContent:\\r\\n{\\ n \\"code\\": \\"OperationNotAllowed\\",\\ n \\"details\\": null,\\ n \\"message\\": \\"Operation isn't allowed: Another agent pool operation (Scaling) is in progress, wait for it to finish before starting a new operation. Выполняется другая операция пула агентов (масштабирование). Эта ошибка вызвана перезагрузкой RP Service Fabric. Дождитесь завершения предыдущей операции перед началом новой операции. Если проблема сохраняется после повтора, откройте запрос в службу поддержки Azure HDInsight.
22 ReconcileVMSSAgentPoolFailed Перед созданием кластера выполняется проверка квоты. Но при одновременном создании нескольких кластеров в одной подписке возможно, что первый кластер занимает квоту, а другие — из-за нехватки квоты. Убедитесь, что существует достаточно квоты и повторная попытка создания кластера или пула кластера.
23 ReconcileVMSSAgentPoolFailed — не удалось установить исходящее подключение от агентов AKS/VMSS проблема с стороной: виртуальная машина сообщила о сбое. Повторите операцию через некоторое время. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight.
24 InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'SqlException'"} Эта ошибка возникла из-за временной проблемы с подключением SQL. Повторите операцию через некоторое время. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight.
25 NotLatestOperation - ARM/AKS SDK error Операция не может продолжиться. Либо операция была преумножена другой, либо сведения, необходимые для операции, не удалось сохранить (или еще не сохранено). Повторите операцию через некоторое время. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight.
26 ReconcileVMSSAgentPoolFailed - Agent pool drain failed Возникла проблема с операцией уменьшения масштаба. Откройте запрос в службу поддержки в команде Azure HDInsight.
27 ResourceNotFound - ARM/AKS SDK error Эта ошибка возникает, когда необходимый ресурс удален или удален пользователем. Убедитесь, что ресурс, упомянутый в сообщении об ошибке, существует, а затем повторите операцию. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight.
28 InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance _'xyz'_ has invalid request due to - [Hive metastore storage location access check timed out.]. Инициализация HMS может истекать из-за проблем, связанных с SQL Server или хранилищем. Откройте запрос в службу поддержки в команде Azure HDInsight.
29 InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance '_xyz_' has invalid request due to - [Keyvault secrets weren't configured properly. Failed to fetch secrets from keyvault.]. Эта ошибка может возникать keyvault из-за недоступности или недоступности секретного ключа. В некоторых редких случаях эта ошибка может возникать из-за медленной инициализации идентификатора pod на узлах кластера. Если вы включили Log Analytics, проверьте журналы secretprovider-validate job , чтобы определить причину. Повторите операцию через некоторое время, если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight.
30 FlinkCluster unready - {"FlinkCluster": "Status can't be determined"} Эта ошибка может возникать из-за различных причин, таких как проблема с вытягиванием изображений, или модули pod контроллера не готовы или проблема с MSI. Повторите операцию через некоторое время, если проблема сохраняется, откройте запрос в службу поддержки Azure HDInsight.
31 FlinkCluster unready - {"FlinkCluster": "StatefulSet instance 'flink-taskmanager' isn't ready due to - [Ready replicas don't match desired replica count]."} Эта ошибка может возникать из-за различных причин, таких как проблема с вытягиванием изображений, или модули pod контроллера не готовы или проблема с MSI. Повторите операцию через некоторое время, если проблема сохраняется, откройте запрос в службу поддержки Azure HDInsight.
32 InvalidClusterSpec (class com.microsoft.azure.hdinsight.services.spark.exception.ClusterConfigException:[SparkClusterValidator#ConfigurationValidator#][ISSUE:(1)-Component config valid:[[{serviceName='yarn-service,componentName=hadoop-config-client}, {serviceName='yarn-service,componentName=hadoop-config}]],current:[[{serviceName='yarn-service,componentName=yarn-config}'. Эта ошибка может возникать, если конфигурация службы состоит из компонентов, которые не разрешены. Проверьте компоненты конфигурации службы и повторите попытку. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight.
33 InvalidClusterSpec -1,"conditions":[{"type":"RequestIsValid","status":"UNKNOWN","reason":"UNKNOWN","message":"Unable to determine status of one or more dependencies. Эта ошибка может возникать из-за отсутствия служб HMS,SPARK,YARN, эта ошибка может быть связана с хранилищем. Откройте запрос в службу поддержки в команде Azure HDInsight.
34 WaitingClusterResourcesReadyTimeOut - Failed to reconcile from generation 1 to 1. Откройте запрос в службу поддержки в команде Azure HDInsight.
35 WaitingClusterResourcesReadyTimeOut - {"YarnService":"StatefulSet instance 'resourcemanager' isn't ready due to - `` see service status for specific details and how to fix it. Failing services are: YarnService, SparkService"} Эта ошибка может возникать из-за отсутствия служб HMS,SPARK,YARN, эта ошибка может быть связана с хранилищем. Откройте запрос в службу поддержки в команде Azure HDInsight.
36 InvalidClusterSpec - [spec.configs[0].files[3].fileName: Invalid value: "yarn-env.sh": spec.configs[0].files[3].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[0].files[3].values: Required value, spec.configs[1].files[2].fileName: Invalid value: "yarn-env.sh": spec.configs[1].files[2].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[1].files[2].values: Required value]. Эта ошибка может возникать, когда неподдерживаемые файлы передаются в конфигурации служб. Проверьте компоненты конфигурации службы и повторите попытку. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight.
37 InvalidClusterSpec - ".AccessDeniedException: Operation failed: "Server failed to authenticate the request. InvalidAuthenticationInfo, "Server failed to authenticate the request.." Недопустимые параметры проверки подлинности— расположение хранилища недоступно. Исправьте параметры проверки подлинности и повторите попытку. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight.
38 InvalidClusterSpec - “_xyz_.dfs.core.windows.net isn't accessible. Reason: HTTP Error -1; url=. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException :. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException : Read timed out.]. Эта ошибка может возникать, когда ресурсы удостоверений pod занимают слишком много времени, чтобы начать работу с узлом при планировании модуля pod HMS. Повторите операцию, если проблема сохраняется, откройте запрос в службу поддержки Azure HDInsight.

Следующие шаги