Partage via


Erreurs de création de cluster sur Azure HDInsight sur AKS

Cet article explique comment analyser et résoudre les erreurs qui peuvent se produire lorsque vous créez Azure HDInsight sur des clusters AKS.

M. Non Message d’erreur Cause Résolution
1 InternalServerError UnrecognizableError Cette erreur peut indiquer un modèle incorrect utilisé. Actuellement, les connecteurs de base de données sont autorisés uniquement via un modèle ARM. Par conséquent, la validation de la configuration n’est pas possible sur le modèle.
2 InvalidClusterSpec : ServiceDependencyFailure : Configuration non valide Erreur de mémoire par nœud maximale. Reportez-vous aux types de valeurs de propriété des configurations de mémoire maximale.
3 WaitingClusterResourcesReadyTimeOut : Metastoreservice non prêt Cette erreur peut être due au nom du conteneur, il ne peut contenir que des lettres minuscules, des chiffres et des traits d’union. Le nom de conteneur doit commencer par une lettre ou un chiffre. Chaque trait d’union doit être précédé et suivi d’un caractère autre qu’un tiret. Le nom doit avoir entre 3 et 63 caractères.
4 InvalidClusterSpec : Configuration non valide : ClusterUpsertActivity Erreur : propriété de configuration invalide hive.metastore.uri: may not be null. Reportez-vous à la documentation du connecteur Hive.
5 InternalServerError - An exception has been raised that is likely due to a transient failure. Consider enabling transient error resiliency by adding 'EnableRetryOnFailure()' to the 'UseSqlServer' call. Réessayez l’opération ou ouvrez un ticket de support auprès de l’équipe Azure HDInsight.
6 InternalServerError - ObjectDisposedException se produit dans le code RP. Réessayez l’opération ou ouvrez un ticket de support auprès de l’équipe Azure HDInsight.
7 PreconditionFailed  : Échec de l’opération en raison de limites de quota sur l’abonnement utilisateur. La validation du quota est effectuée avant la création du cluster. Toutefois, lorsque plusieurs clusters sont créés sous le même abonnement en même temps, il est possible que le premier cluster occupe le quota et que l’autre échoue en raison d’une pénurie de quota. Vérifiez qu’il y a suffisamment de quota et de nouvelle tentative de création de cluster ou de pool de clusters.
8 ReconcileApplicationSecurityGroupError : Erreur AKS interne Réessayez l’opération ou ouvrez un ticket de support auprès de l’équipe Azure HDInsight.
9 ResourceGroupBeingDeleted Pendant la création ou la mise à jour de ressources HDI sur AKS, l’utilisateur supprime également certaines ressources dans des groupes de ressources associés. Ne supprimez pas les ressources dans les groupes de ressources liés à HDI quand HDI sur les ressources AKS sont en cours de création ou de mise à jour.
10 UpsertNodePoolTimeOut - Async operation dependentArmResourceTask has timed out. Le problème AKS – peut être dû à un trafic élevé dans une région particulière au moment de l’opération. Réessayez l’opération après un certain temps. Si possible, utilisez une autre région.
11 Authorization_IdentityNotFound - {"code":null,"message":"The identity of the calling application could not be established."} Le principe de service 1-p n’est pas intégré au locataire. Exécutez la commande pour approvisionner le principe de service 1-p sur le nouveau locataire à intégrer.
12 NotFound - ARM/AKS sdk error L’utilisateur tente de mettre à jour HDI sur le cluster AKS, mais le pool d’agents correspondant a été supprimé. Le pool d’agents correspondant a été supprimé. Il n’est pas recommandé d’utiliser directement le pool d’agents AKS.
13 AuthorizationFailed - Scope invalid role assignment issue with managed RG and cluster msi Absence d’autorisation pour effectuer l’opération. Vérifiez si l’ID d’application de principe de service mentionné dans le message d’erreur vous appartient. Si oui, accordez l’autorisation en fonction du message d’erreur. Si non, ouvrez un ticket de support auprès de l’équipe Azure HDInsight.
14 DeleteAksClusterFailed - {"code":"DeleteAksClusterFailed","message":"An Azure service request has failed. ErrorCode: 'DeleteAksClusterFailed', ErrorMessage: 'Delete HDI cluster namespcae failed. Additional info: 'Can't access a disposed object.\\r\\nObject name: 'Microsoft.Azure.Common.Configuration.ManagedConfiguration was already disposed'.''."} RP est passé de façon inattendue à une nouvelle instance de rôle. réessayez l’opération ou ouvrez un ticket de support auprès de l’équipe Azure HDInsight.
15 EntityStoreOperationError - ARM/AKS sdk error Une opération de base de données a échoué côté AKS pendant la mise à jour du cluster. Réessayez l’opération après un certain temps. Si le problème persiste, ouvrez un ticket de support auprès de l’équipe Azure HDInsight.
16 InternalServerError - {"exception":"System.Threading.Tasks.TaskCanceledException","message":"The operation was canceled."} Cette erreur s’est produite en raison de différents problèmes. réessayez l’opération ou ouvrez un ticket de support auprès de l’équipe Azure HDInsight.
17 InternalServerError - {"exception":"System.IO.IOException","message":"Unable to read data from the transport connection: A connection attempt failed because the connected party didn't properly respond after a period of time, or established connection failed because connected host has failed to respond."} Cette erreur s’est produite en raison de différents problèmes. réessayez l’opération après un certain temps. Si le problème persiste, ouvrez un ticket de support auprès de l’équipe Azure HDInsight.
18 InternalServerError - Null reference exception occurs in RP code. Cette erreur s’est produite en raison de différents problèmes. Réessayez l’opération ou ouvrez un ticket de support auprès de l’équipe Azure HDInsight.
19 InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'InvalidOperationException, Sequence contains no elements.'"} Cette erreur s’est produite en raison de différents problèmes. réessayez l’opération ou ouvrez un ticket de support auprès de l’équipe Azure HDInsight.
20 InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'ArgumentNullException, Value can't be null. (Parameter 'roleAssignmentGuid')'"} Cette erreur s’est produite en raison de différents problèmes. réessayez l’opération ou ouvrez un ticket de support auprès de l’équipe Azure HDInsight.
21 OperationNotAllowed - {"code":"OperationNotAllowed","message":"An Azure service request has failed. ErrorCode: 'OperationNotAllowed', ErrorMessage: 'Service request failed.\\r\\nStatus: 409 (Conflict)\\r\\n\\r\\nContent:\\r\\n{\\ n \\"code\\": \\"OperationNotAllowed\\",\\ n \\"details\\": null,\\ n \\"message\\": \\"Operation isn't allowed: Another agent pool operation (Scaling) is in progress, wait for it to finish before starting a new operation. Une autre opération de pool d’agents (mise à l’échelle) est en cours. Cette erreur s’est produite en raison du redémarrage de RP Service Fabric. Attendez que l’opération précédente se termine avant de commencer une nouvelle opération. Si le problème persiste après votre nouvelle tentative, ouvrez un ticket de support auprès de l’équipe Azure HDInsight.
22 ReconcileVMSSAgentPoolFailed La validation du quota est effectuée avant la création du cluster. Toutefois, lorsque plusieurs clusters sont créés sous le même abonnement en même temps, il est possible que le premier cluster occupe le quota et que les autres échouent en raison d’une pénurie de quota. Vérifiez qu’il y a suffisamment de quota et de nouvelle tentative de création de cluster ou de pool de clusters.
23 ReconcileVMSSAgentPoolFailed : Impossible d’établir une connexion sortante à partir d’agents Problème collatéral AKS/VMSS : la machine virtuelle a signalé un échec. réessayez l’opération après un certain temps. Si le problème persiste, ouvrez un ticket de support auprès de l’équipe Azure HDInsight.
24 InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'SqlException'"} Cette erreur s’est produite en raison d’un problème de connexion SQL temporaire. réessayez l’opération après un certain temps. Si le problème persiste, ouvrez un ticket de support auprès de l’équipe Azure HDInsight.
25 NotLatestOperation - ARM/AKS SDK error L’opération ne peut pas continuer. Soit l’opération a été supplantée par une autre, soit les informations nécessaires à l’opération n’ont pas pu être enregistrées (ou n’ont pas encore été enregistrées). réessayez l’opération après un certain temps. Si le problème persiste, ouvrez un ticket de support auprès de l’équipe Azure HDInsight.
26 ReconcileVMSSAgentPoolFailed - Agent pool drain failed Il y a eu un problème avec l’opération de scale-down. Ouvrez un ticket de support auprès de l’équipe Azure HDInsight.
27 ResourceNotFound - ARM/AKS SDK error Ce problème d’erreur se produit lorsqu’une ressource requise a été retirée ou supprimée par l’utilisateur. Vérifiez que la ressource mentionnée dans le message d’erreur existe, puis réessayez l’opération. Si le problème persiste, ouvrez un ticket de support auprès de l’équipe Azure HDInsight.
28 InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance _'xyz'_ has invalid request due to - [Hive metastore storage location access check timed out.]. L’initialisation HMS peut expirer en raison de problèmes liés au serveur SQL ou au stockage. Ouvrez un ticket de support auprès de l’équipe Azure HDInsight.
29 InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance '_xyz_' has invalid request due to - [Keyvault secrets weren't configured properly. Failed to fetch secrets from keyvault.]. Cette erreur peut se produire en raison d’un keyvault inaccessible ou de la clé secrète qui n’est pas disponible. Dans certains cas rares, cette erreur peut être due à une initialisation plus lente de l’identité de pod infra sur les nœuds du cluster. Si Log Analytics est activé, vérifiez les journaux de secretprovider-validate job pour identifier la raison. Réessayez l’opération après un certain temps, et si le problème persiste, ouvrez un ticket de support auprès de l’équipe Azure HDInsight.
30 FlinkCluster unready - {"FlinkCluster": "Status can't be determined"} Cette erreur peut se produire pour diverses raisons telles qu’un problème d’extraction d’images (pull), de pods de contrôleur non prêts, ou un problème avec MSI. Réessayez l’opération après quelque temps, et si le problème persiste, ouvrez un ticket de support auprès de l’équipe Azure HDInsight.
31 FlinkCluster unready - {"FlinkCluster": "StatefulSet instance 'flink-taskmanager' isn't ready due to - [Ready replicas don't match desired replica count]."} Cette erreur peut se produire pour diverses raisons telles qu’un problème d’extraction d’images (pull), de pods de contrôleur non prêts, ou un problème avec MSI. Réessayez l’opération après quelque temps, et si le problème persiste, ouvrez un ticket de support auprès de l’équipe Azure HDInsight.
32 InvalidClusterSpec (class com.microsoft.azure.hdinsight.services.spark.exception.ClusterConfigException:[SparkClusterValidator#ConfigurationValidator#][ISSUE:(1)-Component config valid:[[{serviceName='yarn-service,componentName=hadoop-config-client}, {serviceName='yarn-service,componentName=hadoop-config}]],current:[[{serviceName='yarn-service,componentName=yarn-config}'. Cette erreur peut se produire si la configuration du service se compose de composants qui ne sont pas autorisés. Validez les composants de configuration de service et réessayez. Si le problème persiste, ouvrez un ticket de support auprès de l’équipe Azure HDInsight.
33 InvalidClusterSpec -1,"conditions":[{"type":"RequestIsValid","status":"UNKNOWN","reason":"UNKNOWN","message":"Unable to determine status of one or more dependencies. Cette erreur peut se produire à cause de services HMS,SPARK,YARN qui ne sont pas en cours d’exécution, cette erreur peut être liée au stockage. Ouvrez un ticket de support auprès de l’équipe Azure HDInsight.
34 WaitingClusterResourcesReadyTimeOut - Failed to reconcile from generation 1 to 1. Ouvrez un ticket de support auprès de l’équipe Azure HDInsight.
35 WaitingClusterResourcesReadyTimeOut - {"YarnService":"StatefulSet instance 'resourcemanager' isn't ready due to - `` see service status for specific details and how to fix it. Failing services are: YarnService, SparkService"} Cette erreur peut se produire à cause de services HMS,SPARK,YARN qui ne sont pas en cours d’exécution, cette erreur peut être liée au stockage. Ouvrez un ticket de support auprès de l’équipe Azure HDInsight.
36 InvalidClusterSpec - [spec.configs[0].files[3].fileName: Invalid value: "yarn-env.sh": spec.configs[0].files[3].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[0].files[3].values: Required value, spec.configs[1].files[2].fileName: Invalid value: "yarn-env.sh": spec.configs[1].files[2].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[1].files[2].values: Required value]. Cette erreur peut se produire lorsque des fichiers non pris en charge sont transmis dans la configuration des services. Validez les composants de configuration de service et réessayez. Si le problème persiste, ouvrez un ticket de support auprès de l’équipe Azure HDInsight.
37 InvalidClusterSpec - ".AccessDeniedException: Operation failed: "Server failed to authenticate the request. InvalidAuthenticationInfo, "Server failed to authenticate the request.." Paramètres d’authentification non valides : l’emplacement de stockage est inaccessible. Corrigez les paramètres d’authentification et réessayez. Si le problème persiste, ouvrez un ticket de support auprès de l’équipe Azure HDInsight.
38 InvalidClusterSpec - “_xyz_.dfs.core.windows.net isn't accessible. Reason: HTTP Error -1; url=. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException :. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException : Read timed out.]. Cette erreur peut se produire lorsque les ressources d’identité de pod prennent trop de temps pour démarrer sur le nœud lorsque le pod HMS est planifié. Réessayez l’opération, et si le problème persiste, ouvrez un ticket de support auprès de l’équipe Azure HDInsight.

Étapes suivantes