Ошибки создания кластера в Azure HDInsight в AKS
Примечание.
Мы отставим Azure HDInsight в AKS 31 января 2025 г. До 31 января 2025 г. необходимо перенести рабочие нагрузки в Microsoft Fabric или эквивалентный продукт Azure, чтобы избежать резкого прекращения рабочих нагрузок. Оставшиеся кластеры в подписке будут остановлены и удалены из узла.
До даты выхода на пенсию будет доступна только базовая поддержка.
Внимание
Эта функция в настоящее время доступна для предварительного ознакомления. Дополнительные условия использования для предварительных версий Microsoft Azure включают более юридические термины, применимые к функциям Azure, которые находятся в бета-версии, в предварительной версии или в противном случае еще не выпущены в общую доступность. Сведения об этой конкретной предварительной версии см. в статье Azure HDInsight в предварительной версии AKS. Для вопросов или предложений функций отправьте запрос на AskHDInsight с подробными сведениями и следуйте за нами для получения дополнительных обновлений в сообществе Azure HDInsight.
В этой статье описывается, как устранять и устранять ошибки, которые могут возникнуть при создании Azure HDInsight в кластерах AKS.
Sr. No | Сообщение об ошибке | Причина | Решение |
---|---|---|---|
1 | InternalServerError UnrecognizableError | Эта ошибка может указывать на неправильный шаблон, используемый. В настоящее время соединители баз данных разрешены только с помощью шаблона ARM. Поэтому проверка конфигурации невозможна в шаблоне. | |
2 | InvalidClusterSpec — ServiceDependencyFailure — недопустимая конфигурация | Максимальное количество памяти на узел. | Ознакомьтесь с типами значений свойств максимального размера конфигураций памяти. |
3 | WaitingClusterResourcesReadyTimeOut — нечитаемая служба хранилища метаданных | Эта ошибка может быть вызвана тем, что имя контейнера может содержать только строчные буквы, цифры и дефисы. Имя контейнера должно начинаться с буквы или числа. | Перед каждым дефисом следует следовать символу, отличному от дефиса. Количество символов в имени должно быть от 3 до 63. |
4 | InvalidClusterSpec -Invalid configuration — ClusterUpsertActivity | Ошибка: недопустимое свойство hive.metastore.uri: may not be null конфигурации. |
См. документацию по соединителю Hive. |
5 | InternalServerError - An exception has been raised that is likely due to a transient failure. Consider enabling transient error resiliency by adding 'EnableRetryOnFailure()' to the 'UseSqlServer' call . |
Повторите операцию или откройте запрос в службу поддержки Azure HDInsight. | |
6 | InternalServerError - ObjectDisposedException происходит в коде RP. |
Повторите операцию или откройте запрос в службу поддержки Azure HDInsight. | |
7 | PreconditionFailed — сбой операции из-за ограничений квоты на подписку пользователя. |
Перед созданием кластера выполняется проверка квоты. Но при одновременном создании нескольких кластеров в одной подписке возможно, что первый кластер занимает квоту, а другой — из-за нехватки квоты. | Убедитесь, что существует достаточно квоты и повторная попытка создания кластера или пула кластера. |
8 | ReconcileApplicationSecurityGroupError — внутренняя ошибка AKS |
Повторите операцию или откройте запрос в службу поддержки Azure HDInsight. | |
9 | ResourceGroupBeingDeleted |
Во время создания или обновления ресурсов HDI в AKS пользователь также удаляет некоторые ресурсы в связанных группах ресурсов. | Не удаляйте ресурсы в группах ресурсов, связанных с HDI, при создании или обновлении HDI в ресурсах AKS. |
10 | UpsertNodePoolTimeOut - Async operation dependentArmResourceTask has timed out . |
Проблема AKS — может быть вызвана высоким трафиком в определенном регионе во время операции. | Повторите операцию через некоторое время. По возможности используйте другой регион. |
11 | Authorization_IdentityNotFound - {"code":null,"message":"The identity of the calling application could not be established."} |
Принцип обслуживания 1 p не включен в клиент. | Выполните команду, чтобы подготовить принцип службы 1 p для нового клиента для подключения. |
12 | NotFound - ARM/AKS sdk error |
Пользователь пытается обновить HDI в кластере AKS, но соответствующий пул агентов был удален. | Соответствующий пул агентов удален. Не рекомендуется напрямую управлять пулом агентов AKS. |
13 | AuthorizationFailed - Scope invalid role assignment issue with managed RG and cluster msi |
Отсутствие разрешения на выполнение операции. | Проверьте, указан ли идентификатор приложения-принципа службы, упомянутый в сообщении об ошибке, принадлежаемом вам. Если да, предоставьте разрешение в соответствии с сообщением об ошибке. Если нет, откройте запрос в службу поддержки Azure HDInsight. |
14 | DeleteAksClusterFailed - {"code":"DeleteAksClusterFailed","message":"An Azure service request has failed. ErrorCode: 'DeleteAksClusterFailed', ErrorMessage: 'Delete HDI cluster namespcae failed. Additional info: 'Can't access a disposed object.\\r\\nObject name: 'Microsoft.Azure.Common.Configuration.ManagedConfiguration was already disposed'.''."} |
RP неожиданно переключился на новый экземпляр роли. | Повторите операцию или откройте запрос в службу поддержки Azure HDInsight. |
15 | EntityStoreOperationError - ARM/AKS sdk error |
Сбой операции базы данных на стороне AKS во время обновления кластера. | Повторите операцию через некоторое время. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight. |
16 | InternalServerError - {"exception":"System.Threading.Tasks.TaskCanceledException","message":"The operation was canceled."} |
Эта ошибка вызвана различными проблемами. | Повторите операцию или откройте запрос в службу поддержки Azure HDInsight. |
17 | InternalServerError - {"exception":"System.IO.IOException","message":"Unable to read data from the transport connection: A connection attempt failed because the connected party didn't properly respond after a period of time, or established connection failed because connected host has failed to respond."} |
Эта ошибка вызвана различными проблемами. | Повторите операцию через некоторое время. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight. |
18 | InternalServerError - Null reference exception occurs in RP code . |
Эта ошибка вызвана различными проблемами. | Повторите операцию или откройте запрос в службу поддержки Azure HDInsight. |
19 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'InvalidOperationException, Sequence contains no elements.'"} |
Эта ошибка вызвана различными проблемами. | Повторите операцию или откройте запрос в службу поддержки Azure HDInsight. |
20 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'ArgumentNullException, Value can't be null. (Parameter 'roleAssignmentGuid')'"} |
Эта ошибка вызвана различными проблемами. | Повторите операцию или откройте запрос в службу поддержки Azure HDInsight. |
21 | OperationNotAllowed - {"code":"OperationNotAllowed","message":"An Azure service request has failed. ErrorCode: 'OperationNotAllowed', ErrorMessage: 'Service request failed.\\r\\nStatus: 409 (Conflict)\\r\\n\\r\\nContent:\\r\\n{\\ n \\"code\\": \\"OperationNotAllowed\\",\\ n \\"details\\": null,\\ n \\"message\\": \\"Operation isn't allowed: Another agent pool operation (Scaling) is in progress, wait for it to finish before starting a new operation. |
Выполняется другая операция пула агентов (масштабирование). Эта ошибка вызвана перезагрузкой RP Service Fabric. | Дождитесь завершения предыдущей операции перед началом новой операции. Если проблема сохраняется после повтора, откройте запрос в службу поддержки Azure HDInsight. |
22 | ReconcileVMSSAgentPoolFailed |
Перед созданием кластера выполняется проверка квоты. Но при одновременном создании нескольких кластеров в одной подписке возможно, что первый кластер занимает квоту, а другие — из-за нехватки квоты. | Убедитесь, что существует достаточно квоты и повторная попытка создания кластера или пула кластера. |
23 | ReconcileVMSSAgentPoolFailed — не удалось установить исходящее подключение от агентов |
AKS/VMSS проблема с стороной: виртуальная машина сообщила о сбое. |
Повторите операцию через некоторое время. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight. |
24 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'SqlException'"} |
Эта ошибка возникла из-за временной проблемы с подключением SQL. | Повторите операцию через некоторое время. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight. |
25 | NotLatestOperation - ARM/AKS SDK error |
Операция не может продолжиться. Либо операция была преумножена другой, либо сведения, необходимые для операции, не удалось сохранить (или еще не сохранено). | Повторите операцию через некоторое время. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight. |
26 | ReconcileVMSSAgentPoolFailed - Agent pool drain failed |
Возникла проблема с операцией уменьшения масштаба. | Откройте запрос в службу поддержки в команде Azure HDInsight. |
27 | ResourceNotFound - ARM/AKS SDK error |
Эта ошибка возникает, когда необходимый ресурс удален или удален пользователем. | Убедитесь, что ресурс, упомянутый в сообщении об ошибке, существует, а затем повторите операцию. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight. |
28 | InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance _'xyz'_ has invalid request due to - [Hive metastore storage location access check timed out.] . |
Инициализация HMS может истекать из-за проблем, связанных с SQL Server или хранилищем. | Откройте запрос в службу поддержки в команде Azure HDInsight. |
29 | InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance '_xyz_' has invalid request due to - [Keyvault secrets weren't configured properly. Failed to fetch secrets from keyvault.] . |
Эта ошибка может возникать keyvault из-за недоступности или недоступности секретного ключа. В некоторых редких случаях эта ошибка может возникать из-за медленной инициализации идентификатора pod на узлах кластера. |
Если вы включили Log Analytics, проверьте журналы secretprovider-validate job , чтобы определить причину. Повторите операцию через некоторое время, если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight. |
30 | FlinkCluster unready - {"FlinkCluster": "Status can't be determined"} |
Эта ошибка может возникать из-за различных причин, таких как проблема с вытягиванием изображений, или модули pod контроллера не готовы или проблема с MSI. | Повторите операцию через некоторое время, если проблема сохраняется, откройте запрос в службу поддержки Azure HDInsight. |
31 | FlinkCluster unready - {"FlinkCluster": "StatefulSet instance 'flink-taskmanager' isn't ready due to - [Ready replicas don't match desired replica count]."} |
Эта ошибка может возникать из-за различных причин, таких как проблема с вытягиванием изображений, или модули pod контроллера не готовы или проблема с MSI. | Повторите операцию через некоторое время, если проблема сохраняется, откройте запрос в службу поддержки Azure HDInsight. |
32 | InvalidClusterSpec (class com.microsoft.azure.hdinsight.services.spark.exception.ClusterConfigException:[SparkClusterValidator#ConfigurationValidator#][ISSUE:(1)-Component config valid:[[{serviceName='yarn-service,componentName=hadoop-config-client}, {serviceName='yarn-service,componentName=hadoop-config}]],current:[[{serviceName='yarn-service,componentName=yarn-config}' . |
Эта ошибка может возникать, если конфигурация службы состоит из компонентов, которые не разрешены. | Проверьте компоненты конфигурации службы и повторите попытку. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight. |
33 | InvalidClusterSpec -1,"conditions":[{"type":"RequestIsValid","status":"UNKNOWN","reason":"UNKNOWN","message":"Unable to determine status of one or more dependencies . |
Эта ошибка может возникать из-за отсутствия служб HMS,SPARK,YARN, эта ошибка может быть связана с хранилищем. | Откройте запрос в службу поддержки в команде Azure HDInsight. |
34 | WaitingClusterResourcesReadyTimeOut - Failed to reconcile from generation 1 to 1. |
Откройте запрос в службу поддержки в команде Azure HDInsight. | |
35 | WaitingClusterResourcesReadyTimeOut - {"YarnService":"StatefulSet instance 'resourcemanager' isn't ready due to - `` see service status for specific details and how to fix it. Failing services are: YarnService, SparkService"} |
Эта ошибка может возникать из-за отсутствия служб HMS,SPARK,YARN, эта ошибка может быть связана с хранилищем. | Откройте запрос в службу поддержки в команде Azure HDInsight. |
36 | InvalidClusterSpec - [spec.configs[0].files[3].fileName: Invalid value: "yarn-env.sh": spec.configs[0].files[3].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[0].files[3].values: Required value, spec.configs[1].files[2].fileName: Invalid value: "yarn-env.sh": spec.configs[1].files[2].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[1].files[2].values: Required value] . |
Эта ошибка может возникать, когда неподдерживаемые файлы передаются в конфигурации служб. | Проверьте компоненты конфигурации службы и повторите попытку. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight. |
37 | InvalidClusterSpec - ".AccessDeniedException: Operation failed: "Server failed to authenticate the request. InvalidAuthenticationInfo, "Server failed to authenticate the request.." |
Недопустимые параметры проверки подлинности— расположение хранилища недоступно. | Исправьте параметры проверки подлинности и повторите попытку. Если проблема сохранится, откройте запрос в службу поддержки Azure HDInsight. |
38 | InvalidClusterSpec - “_xyz_.dfs.core.windows.net isn't accessible. Reason: HTTP Error -1; url=. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException :. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException : Read timed out.] . |
Эта ошибка может возникать, когда ресурсы удостоверений pod занимают слишком много времени, чтобы начать работу с узлом при планировании модуля pod HMS. | Повторите операцию, если проблема сохраняется, откройте запрос в службу поддержки Azure HDInsight. |
Следующие шаги
- Устранение неполадок с конфигурацией кластера.