Chyby vytváření clusteru ve službě Azure HDInsight v AKS
Tento článek popisuje, jak řešit a řešit chyby, ke kterým může dojít při vytváření Azure HDInsight v clusterech AKS.
Sr. Ne | Chybová zpráva | Příčina | Řešení |
---|---|---|---|
0 | InternalServerError UnrecognizableError | Tato chyba může indikovat nesprávnou použitou šablonu. V současné době jsou databázové konektory povolené pouze prostřednictvím šablony ARM. Proto není ověření konfigurace v šabloně možné. | |
2 | InvalidClusterSpec – ServiceDependencyFailure – Neplatná konfigurace | Maximální velikost paměti na chybu uzlu | Projděte si typy hodnot vlastností maximální konfigurace paměti. |
3 | WaitingClusterResourcesReadyTimeOut – Nepřečtená služba metastoru | Příčinou této chyby může být název kontejneru, který může obsahovat jenom malá písmena, číslice a pomlčky. Název kontejneru musí začínat písmenem nebo číslem. | Každému spojovníku musí předcházet znak bez spojovníku a následovat ho. Název musí mít délku 3 až 63 znaků. |
4 | InvalidClusterSpec –Neplatná konfigurace – ClusterUpsertActivity | Chyba: Neplatná vlastnost hive.metastore.uri: may not be null konfigurace . |
Projděte si dokumentaci ke konektoru Hive. |
5 | InternalServerError - An exception has been raised that is likely due to a transient failure. Consider enabling transient error resiliency by adding 'EnableRetryOnFailure()' to the 'UseSqlServer' call . |
Zkuste operaci zopakovat nebo otevřete lístek podpory pro tým Azure HDInsight. | |
6 | InternalServerError - ObjectDisposedException v kódu rp. |
Zkuste operaci zopakovat nebo otevřete lístek podpory pro tým Azure HDInsight. | |
7 | PreconditionFailed – Selhání operace kvůli omezením kvót pro předplatné uživatele. |
Před vytvořením clusteru existuje ověření kvóty. Když se ale současně vytvoří několik clusterů ve stejném předplatném, je možné, že první cluster zabírá kvótu a druhý kvůli nedostatku kvót selže. | Ověřte, že existuje dostatečná kvóta, a zkuste vytvořit cluster nebo fond clusterů znovu. |
8 | ReconcileApplicationSecurityGroupError – Vnitřní chyba AKS |
Zkuste operaci zopakovat nebo otevřete lístek podpory pro tým Azure HDInsight. | |
9 | ResourceGroupBeingDeleted |
Během vytváření nebo aktualizace prostředků AKS ve službě HDI uživatel také odstraňuje některé prostředky v souvisejících skupinách prostředků. | Neodstraňovat prostředky v skupinách prostředků souvisejících s HDI, když se vytváří nebo aktualizuje HDI u prostředků AKS. |
10 | UpsertNodePoolTimeOut - Async operation dependentArmResourceTask has timed out . |
Problém s AKS – příčinou může být vysoký provoz v konkrétní oblasti v době operace. | Po nějaké době zkuste operaci zopakovat. Pokud je to možné, použijte jinou oblast. |
11 | Authorization_IdentityNotFound - {"code":null,"message":"The identity of the calling application could not be established."} |
Instanční princip 1-p není na palubě tenanta. | Spusťte příkaz pro zřízení instančního objektu 1-p v novém tenantovi pro onboarding. |
12 | NotFound - ARM/AKS sdk error |
Uživatel se pokusí aktualizovat HDI v clusteru AKS, ale odpovídající fond agentů byl odstraněn. | Odpovídající fond agentů byl odstraněn. Nedoporučujeme přímo provozovat fond agentů AKS. |
13 | AuthorizationFailed - Scope invalid role assignment issue with managed RG and cluster msi |
Nedostatek oprávnění k provedení operace. | Zkontrolujte, jestli id aplikace instančně instančně uvedené v chybové zprávě, kterou vlastníte. Pokud ano, udělte oprávnění podle chybové zprávy. Pokud ne, otevřete lístek podpory týmu Azure HDInsight. |
14 | DeleteAksClusterFailed - {"code":"DeleteAksClusterFailed","message":"An Azure service request has failed. ErrorCode: 'DeleteAksClusterFailed', ErrorMessage: 'Delete HDI cluster namespcae failed. Additional info: 'Can't access a disposed object.\\r\\nObject name: 'Microsoft.Azure.Common.Configuration.ManagedConfiguration was already disposed'.''."} |
Poskytovatel prostředků se neočekávaně přepnul na novou instanci role. | zkuste operaci zopakovat nebo otevřete lístek podpory pro tým Azure HDInsight. |
15 | EntityStoreOperationError - ARM/AKS sdk error |
Během aktualizace clusteru došlo k selhání databázové operace na straně AKS. | Po nějaké době zkuste operaci zopakovat. Pokud problém přetrvává, otevřete lístek podpory týmu Azure HDInsight. |
16 | InternalServerError - {"exception":"System.Threading.Tasks.TaskCanceledException","message":"The operation was canceled."} |
Příčinou této chyby jsou různé problémy. | zkuste operaci zopakovat nebo otevřete lístek podpory pro tým Azure HDInsight. |
17 | InternalServerError - {"exception":"System.IO.IOException","message":"Unable to read data from the transport connection: A connection attempt failed because the connected party didn't properly respond after a period of time, or established connection failed because connected host has failed to respond."} |
Příčinou této chyby jsou různé problémy. | zkuste operaci zopakovat po nějaké době. Pokud problém přetrvává, otevřete lístek podpory týmu Azure HDInsight. |
18 | InternalServerError - Null reference exception occurs in RP code . |
Příčinou této chyby jsou různé problémy. | Zkuste operaci zopakovat nebo otevřete lístek podpory pro tým Azure HDInsight. |
19 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'InvalidOperationException, Sequence contains no elements.'"} |
Příčinou této chyby jsou různé problémy. | zkuste operaci zopakovat nebo otevřete lístek podpory pro tým Azure HDInsight. |
20 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'ArgumentNullException, Value can't be null. (Parameter 'roleAssignmentGuid')'"} |
Příčinou této chyby jsou různé problémy. | zkuste operaci zopakovat nebo otevřete lístek podpory pro tým Azure HDInsight. |
21 | OperationNotAllowed - {"code":"OperationNotAllowed","message":"An Azure service request has failed. ErrorCode: 'OperationNotAllowed', ErrorMessage: 'Service request failed.\\r\\nStatus: 409 (Conflict)\\r\\n\\r\\nContent:\\r\\n{\\ n \\"code\\": \\"OperationNotAllowed\\",\\ n \\"details\\": null,\\ n \\"message\\": \\"Operation isn't allowed: Another agent pool operation (Scaling) is in progress, wait for it to finish before starting a new operation. |
Probíhá jiná operace fondu agentů (škálování). Tato chyba způsobila restartování Service Fabric rp. | Před zahájením nové operace počkejte, než se dokončí předchozí operace. Pokud problém přetrvává i po opakování, otevřete lístek podpory týmu Azure HDInsight. |
22 | ReconcileVMSSAgentPoolFailed |
Před vytvořením clusteru existuje ověření kvóty. Když se ale současně vytvoří několik clusterů ve stejném předplatném, je možné, že první cluster zabírá kvótu a ostatní selžou kvůli nedostatku kvót. | Ověřte, že existuje dostatečná kvóta, a zkuste vytvořit cluster nebo fond clusterů znovu. |
23 | ReconcileVMSSAgentPoolFailed – Nejde navázat odchozí připojení z agentů |
AKS/VMSS problém na straně: Virtuální počítač nahlásil chybu. |
zkuste operaci zopakovat po nějaké době. Pokud problém přetrvává, otevřete lístek podpory týmu Azure HDInsight. |
24 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'SqlException'"} |
Tato chyba způsobila přechodný problém s připojením SQL. | zkuste operaci zopakovat po nějaké době. Pokud problém přetrvává, otevřete lístek podpory týmu Azure HDInsight. |
25 | NotLatestOperation - ARM/AKS SDK error |
Operace nemůže pokračovat. Buď byla operace zrušena jinou operací, nebo informace potřebné operací se nepodařilo uložit (nebo ještě nebyly uloženy). | zkuste operaci zopakovat po nějaké době. Pokud problém přetrvává, otevřete lístek podpory týmu Azure HDInsight. |
26 | ReconcileVMSSAgentPoolFailed - Agent pool drain failed |
Došlo k problému s operací vertikálního snížení kapacity. | Otevřete lístek podpory pro tým Azure HDInsight. |
27 | ResourceNotFound - ARM/AKS SDK error |
K tomuto problému dochází v případě, že uživatel odebral nebo odstranil požadovaný prostředek. | Ujistěte se, že prostředek uvedený v chybové zprávě existuje, a zkuste operaci zopakovat. Pokud problém přetrvává, otevřete lístek podpory týmu Azure HDInsight. |
28 | InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance _'xyz'_ has invalid request due to - [Hive metastore storage location access check timed out.] . |
Inicializace HMS může vyprší časový limit kvůli problémům souvisejícím s SQL Serverem nebo úložištěm. | Otevřete lístek podpory pro tým Azure HDInsight. |
29 | InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance '_xyz_' has invalid request due to - [Keyvault secrets weren't configured properly. Failed to fetch secrets from keyvault.] . |
K této chybě může dojít kvůli keyvault nedostupným nebo nedostupným tajným klíčem. V některých výjimečných případech může být tato chyba způsobená pomalejší inicializací inicializace identity podu na uzlech clusteru. |
Pokud máte povolenou službu Log Analytics, zkontrolujte protokoly secretprovider-validate job a zjistěte důvod.zkuste operaci zopakovat po nějaké době, pokud problém přetrvává, otevřete lístek podpory pro tým Azure HDInsight. |
30 | FlinkCluster unready - {"FlinkCluster": "Status can't be determined"} |
K této chybě může dojít z různých důvodů, jako je problém s vyžádáním image nebo nedopravené pody kontroleru nebo problém s MSI. | Po nějaké době zkuste operaci zopakovat, pokud problém přetrvává, otevřete lístek podpory pro tým Azure HDInsight. |
31 | FlinkCluster unready - {"FlinkCluster": "StatefulSet instance 'flink-taskmanager' isn't ready due to - [Ready replicas don't match desired replica count]."} |
K této chybě může dojít z různých důvodů, jako je problém s vyžádáním image nebo nedopravené pody kontroleru nebo problém s MSI. | Po nějaké době zkuste operaci zopakovat, pokud problém přetrvává, otevřete lístek podpory pro tým Azure HDInsight. |
32 | InvalidClusterSpec (class com.microsoft.azure.hdinsight.services.spark.exception.ClusterConfigException:[SparkClusterValidator#ConfigurationValidator#][ISSUE:(1)-Component config valid:[[{serviceName='yarn-service,componentName=hadoop-config-client}, {serviceName='yarn-service,componentName=hadoop-config}]],current:[[{serviceName='yarn-service,componentName=yarn-config}' . |
K této chybě může dojít, pokud se konfigurace služby skládá z komponent, které nejsou povoleny. | Ověřte součásti konfigurace služby a zkuste to znovu. Pokud problém přetrvává, otevřete lístek podpory týmu Azure HDInsight. |
33 | InvalidClusterSpec -1,"conditions":[{"type":"RequestIsValid","status":"UNKNOWN","reason":"UNKNOWN","message":"Unable to determine status of one or more dependencies . |
K této chybě může dojít kvůli tomu, že služby HMS, SPARK, YARN nejsou v provozu, může tato chyba souviset s úložištěm. | Otevřete lístek podpory pro tým Azure HDInsight. |
34 | WaitingClusterResourcesReadyTimeOut - Failed to reconcile from generation 1 to 1. |
Otevřete lístek podpory pro tým Azure HDInsight. | |
35 | WaitingClusterResourcesReadyTimeOut - {"YarnService":"StatefulSet instance 'resourcemanager' isn't ready due to - `` see service status for specific details and how to fix it. Failing services are: YarnService, SparkService"} |
K této chybě může dojít kvůli tomu, že služby HMS, SPARK, YARN nejsou v provozu, může tato chyba souviset s úložištěm. | Otevřete lístek podpory pro tým Azure HDInsight. |
36 | InvalidClusterSpec - [spec.configs[0].files[3].fileName: Invalid value: "yarn-env.sh": spec.configs[0].files[3].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[0].files[3].values: Required value, spec.configs[1].files[2].fileName: Invalid value: "yarn-env.sh": spec.configs[1].files[2].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[1].files[2].values: Required value] . |
K této chybě může dojít při předání nepodporovaných souborů v konfiguraci služeb. | Ověřte součásti konfigurace služby a zkuste to znovu. Pokud problém přetrvává, otevřete lístek podpory týmu Azure HDInsight. |
37 | InvalidClusterSpec - ".AccessDeniedException: Operation failed: "Server failed to authenticate the request. InvalidAuthenticationInfo, "Server failed to authenticate the request.." |
Neplatné parametry ověřování – umístění úložiště je nepřístupné. | Opravte parametry ověřování a zkuste to znovu. Pokud problém přetrvává, otevřete lístek podpory týmu Azure HDInsight. |
38 | InvalidClusterSpec - “_xyz_.dfs.core.windows.net isn't accessible. Reason: HTTP Error -1; url=. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException :. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException : Read timed out.] . |
K této chybě může dojít v případě, že spuštění prostředků identity podu na uzlu trvá příliš dlouho, když je naplánovaný pod HMS. | Zkuste operaci zopakovat, pokud problém přetrvává, otevřete lístek podpory týmu Azure HDInsight. |
Další kroky
- Řešení potíží s konfigurací clusteru