Errores en la creación de clústeres en Azure HDInsight en AKS
Nota:
Retiraremos Azure HDInsight en AKS el 31 de enero de 2025. Antes del 31 de enero de 2025, deberá migrar las cargas de trabajo a Microsoft Fabric o un producto equivalente de Azure para evitar la terminación repentina de las cargas de trabajo. Los clústeres restantes de la suscripción se detendrán y quitarán del host.
Solo el soporte técnico básico estará disponible hasta la fecha de retirada.
Importante
Esta funcionalidad actualmente está en su versión preliminar. En Términos de uso complementarios para las versiones preliminares de Microsoft Azure encontrará más términos legales que se aplican a las características de Azure que están en versión beta, en versión preliminar, o que todavía no se han lanzado con disponibilidad general. Para más información sobre esta versión preliminar específica, consulte la Información de Azure HDInsight sobre la versión preliminar de AKS. Para plantear preguntas o sugerencias sobre la característica, envíe una solicitud en AskHDInsight con los detalles y síganos para obtener más actualizaciones sobre Comunidad de Azure HDInsight.
En este artículo se describe cómo solucionar problemas y resolver errores que podrían producirse al crear clústeres de Azure HDInsight en AKS.
Sr. No | Mensaje de error | Causa | Solución |
---|---|---|---|
1 | InternalServerError UnrecognizableError | Este error podría indicar que se usó una plantilla incorrecta. Actualmente, los conectores de base de datos solo se permiten a través de plantillas de ARM. Por lo tanto, la validación de la configuración no es posible en la plantilla. | |
2 | InvalidClusterSpec: ServiceDependencyFailure: configuración no válida | Límite máximo de memoria por error de nodo. | Consulte las configuraciones de memoria máximas tipos de valor de propiedad. |
3 | WaitingClusterResourcesReadyTimeOut: Metastoreservice no preparado | Este error podría deberse a que el nombre del contenedor solo puede contener letras minúsculas, números y guiones. El nombre del contenedor debe comenzar con una letra o un número. | Antes y después de cada guion debe ir un carácter que no sea otro guión. El nombre debe tener entre 3 y 63 caracteres. |
4 | InvalidClusterSpec: configuración no válida: ClusterUpsertActivity | Error: propiedad de configuración no válida hive.metastore.uri: may not be null . |
Consulte la documentación del conector de Hive. |
5 | InternalServerError - An exception has been raised that is likely due to a transient failure. Consider enabling transient error resiliency by adding 'EnableRetryOnFailure()' to the 'UseSqlServer' call . |
Vuelva a intentar la operación o abra una incidencia de soporte técnico en el equipo de Azure HDInsight. | |
6 | InternalServerError - ObjectDisposedException se produce en el código RP. |
Vuelva a intentar la operación o abra una incidencia de soporte técnico en el equipo de Azure HDInsight. | |
7 | PreconditionFailed : error de operación debido a los límites de cuota de la suscripción de usuario. |
Hay validación de cuota antes de la creación del clúster. Pero cuando se crean varios clústeres en la misma suscripción al mismo tiempo, es posible que el primer clúster ocupe la cuota y el otro produzca un error debido a la escasez de cuota. | Confirme que haya suficiente cuota y vuelva a intentar la creación del clúster o del grupo de clústeres. |
8 | ReconcileApplicationSecurityGroupError : error interno de AKS |
Vuelva a intentar la operación o abra una incidencia de soporte técnico en el equipo de Azure HDInsight. | |
9 | ResourceGroupBeingDeleted |
Durante la creación o actualización de recursos de HDI en AKS, el usuario también elimina algunos recursos de los grupos de recursos relacionados. | No elimine los recursos de los grupos de recursos relacionados cuando se creen o actualicen los recursos de HDI en AKS. |
10 | UpsertNodePoolTimeOut - Async operation dependentArmResourceTask has timed out . |
El problema de AKS: podría deberse a un tráfico elevado en una región determinada en el momento de la operación. | Vuelva a intentar la operación más tarde. Si fuera posible, use otra región. |
11 | Authorization_IdentityNotFound - {"code":null,"message":"The identity of the calling application could not be established."} |
El principio de servicio 1-p no está incorporado al inquilino. | Ejecute el comando para aprovisionar el principio de servicio 1-p en el nuevo inquilino que se vaya a incorporar. |
12 | NotFound - ARM/AKS sdk error |
El usuario intenta actualizar el clúster de HDI en AKS, pero se ha eliminado el grupo de agentes correspondiente. | Se ha eliminado el grupo de agentes correspondiente. No se recomienda operar directamente el grupo de agentes de AKS. |
13 | AuthorizationFailed - Scope invalid role assignment issue with managed RG and cluster msi |
Falta de permiso para realizar la operación. | Compruebe si el identificador de la aplicación de entidad de servicio se menciona en el mensaje de error que le pertenece. Si fuera así, conceda el permiso según el mensaje de error. En caso contrario, abra una incidencia de soporte técnico para el equipo de Azure HDInsight. |
14 | DeleteAksClusterFailed - {"code":"DeleteAksClusterFailed","message":"An Azure service request has failed. ErrorCode: 'DeleteAksClusterFailed', ErrorMessage: 'Delete HDI cluster namespcae failed. Additional info: 'Can't access a disposed object.\\r\\nObject name: 'Microsoft.Azure.Common.Configuration.ManagedConfiguration was already disposed'.''."} |
RP cambió a una nueva instancia de rol inesperadamente. | vuelva a intentar la operación o abra una incidencia de soporte técnico para el equipo de Azure HDInsight. |
15 | EntityStoreOperationError - ARM/AKS sdk error |
Se produjo un error en una operación de base de datos en AKS durante la actualización del clúster. | Vuelva a intentar la operación más tarde. Si la incidencia persistiera, abra una incidencia de soporte técnico para el equipo de Azure HDInsight. |
16 | InternalServerError - {"exception":"System.Threading.Tasks.TaskCanceledException","message":"The operation was canceled."} |
Este error se debe a varios problemas. | vuelva a intentar la operación o abra una incidencia de soporte técnico para el equipo de Azure HDInsight. |
17 | InternalServerError - {"exception":"System.IO.IOException","message":"Unable to read data from the transport connection: A connection attempt failed because the connected party didn't properly respond after a period of time, or established connection failed because connected host has failed to respond."} |
Este error se debe a varios problemas. | vuelva a intentar la operación más tarde. Si la incidencia persistiera, abra una incidencia de soporte técnico para el equipo de Azure HDInsight. |
18 | InternalServerError - Null reference exception occurs in RP code . |
Este error se debe a varios problemas. | Vuelva a intentar la operación o abra una incidencia de soporte técnico en el equipo de Azure HDInsight. |
19 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'InvalidOperationException, Sequence contains no elements.'"} |
Este error se debe a varios problemas. | vuelva a intentar la operación o abra una incidencia de soporte técnico para el equipo de Azure HDInsight. |
20 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'ArgumentNullException, Value can't be null. (Parameter 'roleAssignmentGuid')'"} |
Este error se debe a varios problemas. | vuelva a intentar la operación o abra una incidencia de soporte técnico para el equipo de Azure HDInsight. |
21 | OperationNotAllowed - {"code":"OperationNotAllowed","message":"An Azure service request has failed. ErrorCode: 'OperationNotAllowed', ErrorMessage: 'Service request failed.\\r\\nStatus: 409 (Conflict)\\r\\n\\r\\nContent:\\r\\n{\\ n \\"code\\": \\"OperationNotAllowed\\",\\ n \\"details\\": null,\\ n \\"message\\": \\"Operation isn't allowed: Another agent pool operation (Scaling) is in progress, wait for it to finish before starting a new operation. |
Hay otra operación de grupo de agentes (escalado) en curso. Este error se debe al reinicio de Service Fabric de RP. | Espere a que finalice la operación anterior antes de iniciar una nueva. Si la incidencia persistiera tras el reintento, abra una incidencia de soporte técnico para el equipo de Azure HDInsight. |
22 | ReconcileVMSSAgentPoolFailed |
Hay validación de cuota antes de la creación del clúster. Pero cuando se crean varios clústeres en la misma suscripción al mismo tiempo, es posible que el primer clúster ocupe la cuota y los otros produzcan un error debido a la escasez de cuota. | Confirme que haya suficiente cuota y vuelva a intentar la creación del clúster o del grupo de clústeres. |
23 | ReconcileVMSSAgentPoolFailed : no se puede establecer la conexión saliente de los agentes |
Problema del lado AKS/VMSS : la máquina virtual ha notificado un error. |
vuelva a intentar la operación más tarde. Si la incidencia persistiera, abra una incidencia de soporte técnico para el equipo de Azure HDInsight. |
24 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'SqlException'"} |
Este error se debe a un problema de conexión SQL transitorio. | vuelva a intentar la operación más tarde. Si la incidencia persistiera, abra una incidencia de soporte técnico para el equipo de Azure HDInsight. |
25 | NotLatestOperation - ARM/AKS SDK error |
La operación no puede continuar. La operación se ha reemplazado por otra o la información necesaria por la operación no se pudo guardar (o aún no se ha guardado). | vuelva a intentar la operación más tarde. Si la incidencia persistiera, abra una incidencia de soporte técnico para el equipo de Azure HDInsight. |
26 | ReconcileVMSSAgentPoolFailed - Agent pool drain failed |
Hubo un problema con la operación de reducción vertical. | Abra una incidencia de soporte técnico para el equipo de Azure HDInsight. |
27 | ResourceNotFound - ARM/AKS SDK error |
Esta incidencia de error se produce cuando el usuario quita o elimina un recurso necesario. | Asegúrese de que el recurso mencionado en el mensaje de error exista y vuelva a intentar la operación. Si la incidencia persistiera, abra una incidencia de soporte técnico para el equipo de Azure HDInsight. |
28 | InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance _'xyz'_ has invalid request due to - [Hive metastore storage location access check timed out.] . |
La inicialización de HMS podría agotar el tiempo de espera debido a problemas relacionados con SQL Server o el almacenamiento. | Abra una incidencia de soporte técnico para el equipo de Azure HDInsight. |
29 | InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance '_xyz_' has invalid request due to - [Keyvault secrets weren't configured properly. Failed to fetch secrets from keyvault.] . |
Este error puede producirse debido a que no se puede acceder a keyvault o que la clave secreta no está disponible. En algunos casos poco frecuentes, este error podría deberse a una inicialización más lenta de la infraestructura de identidad de pod en los nodos de clúster. |
Si tiene Log Analytics habilitado, compruebe los registros de secretprovider-validate job para identificar la razón. Reintente la operación después de algún tiempo y, si el problema persistiera, abra una incidencia de soporte técnico para el equipo de Azure HDInsight. |
30 | FlinkCluster unready - {"FlinkCluster": "Status can't be determined"} |
Este error podría producirse debido a varios motivos, como el problema de extracción de imágenes o los pods del controlador no listos, o bien a un problema con MSI. | vuelva a intentar la operación después de algún tiempo y, si la incidencia persistiera, abra una incidencia de soporte técnico para el equipo de Azure HDInsight. |
31 | FlinkCluster unready - {"FlinkCluster": "StatefulSet instance 'flink-taskmanager' isn't ready due to - [Ready replicas don't match desired replica count]."} |
Este error podría producirse debido a varios motivos, como el problema de extracción de imágenes o los pods del controlador no listos, o bien a un problema con MSI. | vuelva a intentar la operación después de algún tiempo y, si la incidencia persistiera, abra una incidencia de soporte técnico para el equipo de Azure HDInsight. |
32 | InvalidClusterSpec (class com.microsoft.azure.hdinsight.services.spark.exception.ClusterConfigException:[SparkClusterValidator#ConfigurationValidator#][ISSUE:(1)-Component config valid:[[{serviceName='yarn-service,componentName=hadoop-config-client}, {serviceName='yarn-service,componentName=hadoop-config}]],current:[[{serviceName='yarn-service,componentName=yarn-config}' . |
Este error puede producirse si la configuración del servicio consta de componentes que no están permitidos. | Valide los componentes de configuración del servicio y vuelva a intentarlo. Si la incidencia persistiera, abra una incidencia de soporte técnico para el equipo de Azure HDInsight. |
33 | InvalidClusterSpec -1,"conditions":[{"type":"RequestIsValid","status":"UNKNOWN","reason":"UNKNOWN","message":"Unable to determine status of one or more dependencies . |
Este error puede producirse debido a que los servicios HMS, SPARK y YARN no están actualizados. Este error podría estar relacionado con el almacenamiento. | Abra una incidencia de soporte técnico para el equipo de Azure HDInsight. |
34 | WaitingClusterResourcesReadyTimeOut - Failed to reconcile from generation 1 to 1. |
Abra una incidencia de soporte técnico para el equipo de Azure HDInsight. | |
35 | WaitingClusterResourcesReadyTimeOut - {"YarnService":"StatefulSet instance 'resourcemanager' isn't ready due to - `` see service status for specific details and how to fix it. Failing services are: YarnService, SparkService"} |
Este error puede producirse debido a que los servicios HMS, SPARK y YARN no están actualizados. Este error podría estar relacionado con el almacenamiento. | Abra una incidencia de soporte técnico para el equipo de Azure HDInsight. |
36 | InvalidClusterSpec - [spec.configs[0].files[3].fileName: Invalid value: "yarn-env.sh": spec.configs[0].files[3].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[0].files[3].values: Required value, spec.configs[1].files[2].fileName: Invalid value: "yarn-env.sh": spec.configs[1].files[2].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[1].files[2].values: Required value] . |
Este error puede producirse cuando se pasan archivos no admitidos en la configuración de servicios. | Valide los componentes de configuración del servicio y vuelva a intentarlo. Si la incidencia persistiera, abra una incidencia de soporte técnico para el equipo de Azure HDInsight. |
37 | InvalidClusterSpec - ".AccessDeniedException: Operation failed: "Server failed to authenticate the request. InvalidAuthenticationInfo, "Server failed to authenticate the request.." |
Parámetros de autenticación no válidos: no se puede acceder a la ubicación de almacenamiento. | Corrija los parámetros de autenticación y vuelva a intentarlo. Si la incidencia persistiera, abra una incidencia de soporte técnico para el equipo de Azure HDInsight. |
38 | InvalidClusterSpec - “_xyz_.dfs.core.windows.net isn't accessible. Reason: HTTP Error -1; url=. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException :. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException : Read timed out.] . |
Este error puede producirse cuando los recursos de identidad del pod tardan demasiado tiempo en iniciarse en el nodo cuando se programa el pod HMS. | vuelva a intentar la operación y, si la incidencia persistiera, abra una incidencia de soporte técnico para el equipo de Azure HDInsight. |