Compartir a través de


Solución de problemas de registro de Azure Stack HCI

Se aplica a: Azure Stack HCI, versiones 22H2 y 21H2

Importante

Las instrucciones de solución de problemas proporcionadas en este artículo se aplican a una versión anterior, Azure Stack HCI, versión 22H2. Para solucionar problemas de nuevas implementaciones que ejecutan la versión más reciente disponible con carácter general, Azure Stack HCI, versión 23H2, consulte Obtención de soporte técnico para problemas de implementación de Azure Stack HCI.

Para solucionar los problemas de registro de Azure Stack HCI, es necesario examinar las entradas de registro de PowerShell y los registros de depuración de hcisvc de cada servidor del clúster.

Recopilación de entradas de registro de PowerShell

Cuando se ejecutan los cmdlets Register-AzStackHCI y Unregister-AzStackHCI, se crean los archivos de registro llamados RegisterHCI_{yyyymmdd-hhss}.log y UnregisterHCI_{yyyymmdd-hhss}.log para cada intento. Puede establecer el directorio de registro para estos archivos de registro mediante el -LogsDirectory parámetro en el Register-AzStackHCI cmdlet y llamar Get-AzStackHCILogsDirectory a para obtener la ubicación. De forma predeterminada, estos archivos se crean en C:\ProgramData\AzureStackHCI\Registration. Para la versión 2.1.2 o anterior del módulo de PowerShell, estos archivos se crean en el directorio de trabajo de la sesión de PowerShell en la que se ejecutan los cmdlets.

De forma predeterminada, no se incluyen los registros de depuración. Si hay un problema que necesita los registros de depuración adicionales, establezca la preferencia de depuración en Continue mediante la ejecución del siguiente cmdlet antes de ejecutar Register-AzStackHCI o Unregister-AzStackHCI:

$DebugPreference = 'Continue'

Recopilación de registros de hcisvc locales

Para permitir los registros de depuración de hcisvc, ejecute e siguiente comando en PowerShell en cada servidor del clúster:

wevtutil.exe sl /q /e:true Microsoft-AzureStack-HCI/Debug

Para obtener los registros:

Get-WinEvent -Logname Microsoft-AzureStack-HCI/Debug -Oldest -ErrorAction Ignore

No se pudo registrar. No se pudo generar un certificado autofirmado en los nodos {Node1,Node2}. No se pudo establecer ni comprobar el certificado de registro en los nodos {Node1,Node2}.

Explicación del estado de error:

Durante el registro, cada servidor del clúster debe estar en funcionamiento con conectividad saliente a Internet a Azure. El cmdlet Register-AzStackHCI se comunica con cada servidor del clúster para aprovisionar certificados. Cada servidor usa su certificado para realizar una llamada API a los servicios de HCI en la nube para validar el registro.

Si se produce un error de registro, puede que aparezca un mensaje que indique que No se pudo registrar. No se pudo generar un certificado autofirmado en los nodos {Node1,Node2}. No se pudo establecer ni comprobar el certificado de registro en los nodos {Node1,Node2}

Si hay nombres de nodo después de la parte del mensaje de error que indica que no se pudo generar un certificado autofirmado en los nodos, significa que el sistema no ha podido generar el certificado en esos servidores.

Acción correctiva:

  1. Compruebe que cada servidor que aparece en el mensaje anterior está en funcionamiento. Para comprobar el estado de hcisvc, ejecute sc.exe query hcisvc e inícielo si es necesario con start-service hcisvc.

  2. Compruebe que cada servidor que aparece en el mensaje de error tenga conectividad con la máquina en la que se ejecuta el cmdlet Register-AzStackHCI. Para comprobarlo, ejecute el siguiente cmdlet desde la máquina en la que se ejecuta Register-AzStackHCI, con New-PSSession para conectarse a cada servidor del clúster y asegúrese de que funciona:

    New-PSSession -ComputerName {failing nodes}
    

Si hay nombres de nodo después de la parte del mensaje de error que indica que no se pudo establecer ni comprobar el certificado de registro en los nodos, significa que el servicio ha podido generar el certificado en los servidores, pero los servidores no pudieron llamar correctamente a la API del servicio en la nube de HCI. Para solucionar los problemas:

  1. Asegúrese de que cada servidor tiene la conectividad a Internet necesaria para comunicarse con los servicios en la nube de Azure Stack HCI y otros servicios de Azure necesarios, como Microsoft Entra ID, y que no está bloqueado por firewalls. Consulte Requisitos de firewall para Azure Stack HCI.

  2. Pruebe a ejecutar el Invoke-AzStackHciConnectivityValidation cmdlet desde el módulo AzStackHCI.EnvironmentChecker y asegúrese de que se realiza correctamente. Este cmdlet invoca el extremo de estado de los servicios en la nube de HCI para probar la conectividad.

  3. Consulte los registros de depuración de hcisvc de cada nodo que aparece en el mensaje de error.

    • Es correcto que el mensaje que indica que no se pudo realizar la operación ExecuteWithRetry AADTokenFetch con un error que se puede volver a intentar aparezca unas cuantas veces antes de que se genere el error que indica que no se pudo realizar la operación ExecuteWithRetry AADTokenFetch después de todos los reintentos o que la operación ExecuteWithRetry AADTokenFetch se ejecutó correctamente en el reintento.
    • Si se produce un error en la operación ExecuteWithRetry AADTokenFetch después de todos los reintentos de los registros, el sistema no pudo capturar el token de Microsoft Entra del servicio incluso después de todos los reintentos. Hay una excepción de Microsoft Entra asociada que se registra con este mensaje.
    • Si aparece un mensaje que indica AADSTS700027: La aserción de cliente contiene una firma no válida. [Motivo: la clave usada ha expirado. Huella digital de la clave usada por el cliente: "{SomeThumbprint}", clave encontrada "Start=06/29/2021 21:13:15, End=06/29/2023 21:13:15", se trata de un problema con la forma en que se establece la hora en el servidor. Compruebe la hora UTC en todos los servidores mediante la ejecución de [System.DateTime]::UtcNow en PowerShell y compárela con la hora UTC real. Si la hora no es correcta, establezca las horas correctas en los servidores e inténtelo de nuevo.

Eliminar el recurso de HCI desde el portal y volver a registrar el mismo clúster provoca problemas

Explicación del estado de error:

Si ha eliminado explícitamente el recurso de clúster de Azure Stack HCI desde Azure Portal sin anular primero el registro del clúster de Windows Admin Center o PowerShell, la eliminación de un recurso de Azure Resource Manager de HCI directamente desde el portal da como resultado un estado de recurso de clúster incorrecto. La anulación del registro debe desencadenarse siempre desde el clúster de HCI con el cmdlet Unregister-AzStackHCI para que sea limpia. En esta sección se describen los pasos de limpieza para escenarios en los que se ha eliminado el recurso del clúster de HCI desde el portal.

Acción correctiva:

  1. Inicie sesión en el servidor de clúster de HCI local con las credenciales de usuario del clúster.
  2. Ejecute el cmdlet Unregister-AzStackHCI en el clúster para limpiar el estado de registro y de Arc del clúster.
    • Si la anulación del registro se realiza correctamente, vaya a Microsoft Entra ID Registros de aplicaciones > (Todas las aplicaciones) y busque el nombre coincidente clusterName y clusterName.arc. Elimine los dos identificadores de aplicación, si existen.
    • Si la anulación del registro genera un error que indique ERROR: No se pudo deshabilitar la integración de Azure Arc en el nodo <nombre del nodo>, pruebe a ejecutar el cmdlet Disable-AzureStackHCIArcIntegration en el nodo. Si el nodo está en un estado en el que no se puede ejecutar Disable-AzureStackHCIArcIntegration, quite el nodo del clúster e intente volver a ejecutar el cmdlet Unregister-AzStackHCI. Inicie sesión en cada nodo individual:
      1. Cambie el directorio donde está instalado el agente de Arc: cd 'C:\Program Files\AzureConnectedMachineAgent\'.
      2. Obtenga el estado en arcmagent.exe y determine el grupo de recursos de Azure al que se proyecta: .\azcmagent.exe show. La salida de este comando muestra la información del grupo de recursos.
      3. Fuerce la desconexión del agente de Arc del nodo: .\azcmagent.exe disconnect --force-local-only.
      4. Inicie sesión en Azure Portal y elimine el recurso Arc-for-Server del grupo de recursos determinado en el paso 2.

El usuario ha eliminado los identificadores de aplicación por error

Explicación del estado de error:

Si el clúster está desconectado durante más de 8 horas, es posible que se hayan eliminado accidentalmente los registros de aplicaciones de Microsoft Entra asociados que representan el clúster de HCI y los registros de Arc. Para el funcionamiento correcto de los escenarios de Arc y del clúster de HCI, se crean dos registros de aplicaciones en el inquilino durante el registro.

  • Si se elimina el identificador de la aplicación <clustername>, el recurso de clúster Conexión de Azure en Azure Portal muestra un mensaje que indica Desconectado: el clúster no ha estado conectado durante más de ocho horas. Examine los registros de depuración de HCIsvc en el nodo: el mensaje de error es Application with identifier '<ID>' was not found in the directory 'Default Directory'. Esto puede ocurrir si el administrador del inquilino no ha instalado la aplicación o ha aceptado a cualquier usuario del inquilino. Es posible que haya enviado la solicitud de autenticación al inquilino incorrecto.
  • Si el valor <clustername>.arc creado durante la habilitación de Arc se elimina, no hay ningún error visible durante la operación normal. Esta identidad solo es necesaria durante los procesos de registro y anulación del registro. En este escenario, la anulación del registro genera un error que indica que No se pudo deshabilitar la integración de Azure Arc en el nodo <nombre del nodo>. Intente ejecutar el cmdlet Disable-AzureStackHCIArcIntegration en el nodo. Si el nodo está en un estado en el que el cmdlet Disable-AzureStackHCIArcIntegration no se ha podido ejecutar, quite el nodo del clúster e intente volver a ejecutar el cmdlet Unregister-AzStackHCI.

La eliminación de cualquiera de estas aplicaciones produce un error de comunicación desde el clúster de HCI a la nube.

Acción correctiva:

  • Si solo <clustername> AppId se elimina , realice un registro de reparación en el clúster para configurar las aplicaciones de Microsoft Entra:

    Register-AzStackHCI  -SubscriptionId "<subscription_ID>" -ComputerName Server1 -RepairRegistration
    

    Al reparar el registro, se vuelven a crear las aplicaciones Microsoft Entra necesarias y se conserva otra información, como el nombre del recurso, el grupo de recursos y otras opciones de registro.

  • Si se elimina el identificador de la <clustername>.arc aplicación, no hay ningún error visible en los registros. Si se elimina, se produce un error <clustername>.arc en la anulación del registro. Si se produce un error en la anulación del registro, siga la misma acción correctiva descrita en esta sección.

Error de no inclusión en la directiva

Explicación del estado de error:

Si un clúster registrado anteriormente muestra un estado de OutOfPolicy, los cambios realizados en la configuración del sistema pueden provocar que el estado de registro de Azure Stack HCI quede fuera de la directiva.

Por ejemplo, los cambios del sistema pueden incluir, pero no se limitan a:

  • La desactivación de los conflictos de configuración de arranque seguro en el nodo registrado
  • El borrado del Módulo de plataforma segura (TPM)
  • Un cambio significativo en la hora del sistema

Nota

Azure Stack HCI 21H2 con KB5010421 y versiones posteriores intentará recuperarse automáticamente del estado OutOfPolicy. Revise el registro de eventos Microsoft-AzureStack-HCI/Admin para obtener más información sobre el estadoOutOfPolicy actual y otra información.

¿Qué mensajes de identificador de evento "OutOfPolicy" podría esperar ver durante el registro?

Hay tres tipos de mensajes de identificador de evento: informativo, advertencias y errores.

Los mensajes siguientes eran actualizaciones con Azure Stack HCI 21H2 con KB5010421 y no se verán si esta kb no está instalada.

Identificador de evento informativo

Mensajes de identificador de evento informativos que se producen durante el registro. Revise y siga las sugerencias del mensaje:

  • (Informativo) Id. de evento 592: "Azure Stack HCI ha iniciado una reparación de sus datos. No se requiere ninguna otra acción del usuario en este momento".

  • (Informativo) Id. de evento 594: "Azure Stack HCI ha encontrado un error al acceder a sus datos. Para reparar, compruebe qué nodos se ven afectados: si todo el clúster es OutOfPolicy (ejecute Get-AzureStackHCI) ejecute Unregister-AzStackHCI en el clúster, reinicie y ejecute Register-AzStackHCI. Si solo se ve afectado este nodo, quite este nodo del clúster, reinicie y espere a que se complete la reparación y vuelva a unirse al clúster".

Id. de evento de advertencia

Con los mensajes de advertencia, el estado del registro no se completa. Puede haber o no un problema. En primer lugar, revise el mensaje de identificador de evento antes de realizar cualquier paso de solución de problemas.

(Advertencia) Id. de evento 585: "Azure Stack HCI no pudo renovar la licencia de Azure. Para obtener más detalles sobre el error específico, habilite el canal de eventos de Microsoft-AzureStack-HCI/Debug".

Nota

Los posibles retrasos en el restablecimiento de la conexión completa con Azure se esperan después de una reparación automática correcta y pueden dar lugar a que aparezca el identificador de evento 585. Esto no afecta a las cargas de trabajo ni a las licencias del nodo. Es decir, todavía hay una licencia instalada, a menos que el nodo esté fuera de la ventana de 30 días antes de la reparación automática.

Nota

En algunos casos, la recuperación automática de Azure Stack HCI no se realiza correctamente. Esto puede ocurrir cuando el estado de registro de todos los nodos del clúster es de fuera de la directiva. Se requieren algunos pasos manuales. Consulte los mensajes del identificador de evento Microsoft-AzureStack-HCI/Admin.

Id. de evento de error

Los mensajes de error de identificador de evento identifican un error en el proceso de registro. El mensaje de error proporciona instrucciones sobre cómo resolver el error en sí.

  • (Error) Id. de evento 591: "Azure Stack HCI no pudo conectarse con Azure. Si este error sigue apareciendo, pruebe a ejecutar Register-AzStackHCI de nuevo con el parámetro -RepairRegistration".

  • (Error) Id. de evento 594: "Azure Stack HCI encontró un error al acceder a sus datos. Para reparar, compruebe qué nodos se ven afectados; si todo el clúster es OutOfPolicy (ejecute Get-AzureStackHCI), ejecute Unregister-AzStackHCI en el clúster, reinicie y, a continuación, ejecute Register-AzStackHCI. Si solo se ve afectado este nodo, quítelo del clúster, reinicie, espere a que se complete la reparación y, a continuación, vuelva a unirse al clúster".

El clúster y el recurso de Arc existen en Azure Portal, pero el estado de registro de Get-AzureStackHCI indica "Todavía no"

Explicación del estado de error:

Este problema se debe a la anulación del registro de un clúster de HCI con el entorno en la nube incorrecto o la información de suscripción inadecuada. Si un usuario ejecuta el cmdlet Unregister-AzStackHCI con los parámetros -EnvironmentName o -SubcriptionId incorrectos para un clúster, el estado de registro del clúster se elimina del clúster local, pero el clúster y los recursos de Arc de Azure Portal seguirán existiendo en el entorno o la suscripción original.

Por ejemplo:

  • -EnvironmentName <value> incorrecto: ha registrado el clúster en -EnvironmentName AzureUSGovernment como en el ejemplo siguiente. El valor predeterminado -EnvironmentName es "Azurecloud". Por ejemplo, ha ejecutado:

    Register-AzStackHCI  -SubscriptionId "<subscription_ID>" -EnvironmentName AzureUSGovernment
    

    Pero después ejecutó el cmdlet Unregister-AzStackHCI con -EnvironmentName Azurecloud (valor predeterminado) de la siguiente forma:

    Unregister-AzStackHCI -SubscriptionId "<subscription_ID>"
    
  • -SubscriptionId <value> incorrecto: ha registrado el clúster con -SubscriptionId "<subscription_id_1>" de la siguiente forma:

    Register-AzStackHCI  -SubscriptionId "<subscription_id_1>"
    

    Pero después ha ejecutado el cmdlet Unregister-AzStackHCI para un identificador de suscripción distinto:

    Unregister-AzStackHCI -SubscriptionId "<subscription_id_2>"
    

Acción correctiva:

  1. Elimine el clúster y los recursos de Arc del portal.
  2. Vaya a Microsoft Entra ID Registros de aplicaciones > (Todas las aplicaciones) y busque el nombre coincidente <clusterName> y<clusterName>.arc, a continuación, elimine los dos identificadores de aplicación.

Emitir Sync-AzureStackHCI inmediatamente tras el reinicio de los nodos del clúster da como resultado la eliminación del recurso de Arc

Explicación del estado de error:

Realizar una sincronización del censo antes de que la sincronización de nodos pueda dar lugar a que la sincronización se envíe a Azure, lo que no incluye el nodo. Esto da como resultado que el recurso de Arc para ese nodo se elimine. El cmdlet Sync-AzureStackHCI solo se debe usar para depurar la conectividad de la nube del clúster de HCI. El clúster de HCI tiene un pequeño tiempo de preparación después de un reinicio para conciliar el estado del clúster; por lo tanto, no se ejecute Sync-AzureStackHCI poco después de reiniciar un nodo.

Acción correctiva:

  1. En Azure Portal, inicie sesión en el nodo que aparece como No instalado.

  2. Desconecte el agente de Arc con los dos comandos siguientes:

    cd "C:\Program Files\AzureConnectedMachineAgent"
    

    y luego

    .\azcmagent.exe disconnect --force-local-only
    
  3. Repare el registro:

    Register-AzStackHCI  -SubscriptionId "<subscription_ID>" -ComputerName Server1  -RepairRegistration
    
  4. Después de la operación de reparación, el nodo vuelve a un estado conectado.

El registro se completa correctamente, pero la conexión de Azure Arc en el portal indica No instalado

Escenario 1

Explicación del estado de error:

Esto puede ocurrir si el rol necesario azure Connected Machine Resource Manager se quita del proveedor de recursos HCI en el grupo de recursos Arc-for-Server.

Puede encontrar el permiso en la hoja Access Control del grupo de recursos en el Azure Portal. En la imagen siguiente se muestra el permiso:

Captura de pantalla de la hoja de control de acceso.

Acción correctiva:

Ejecute el cmdlet de reparación del registro:

Register-AzStackHCI -TenantId "<tenant_ID>" -SubscriptionId "<subscription_ID>" -ComputerName Server1  -RepairRegistration

Escenario 2

Explicación del estado de error:

Este mensaje también puede deberse a un problema transitorio que a veces se produce al realizar el registro de Azure Stack HCI. Cuando esto sucede, el Register-AzStackHCI cmdlet muestra el siguiente mensaje de advertencia:

Captura de pantalla del mensaje de salida del cmdlet Register-AzStackHCI.

Acción correctiva:

Espere 12 horas después del registro para que el problema se resuelva automáticamente.

Escenario 3

Explicación del estado de error:

Esto también puede ocurrir cuando el proxy no está configurado correctamente para una conexión a los servicios en la nube de Azure ARC desde nodos de HCI. Es posible que vea el siguiente error en los registros del agente de Arc:

Captura de pantalla de los registros del agente de Arc.

Acción correctiva:

Para resolver este problema, siga las instrucciones para actualizar la configuración del proxy. A continuación, registre el clúster de Azure Stack HCI.

No se pueden rotar certificados en Fairfax y Mooncake

Explicación del estado de error:

  1. En Azure Portal, el recurso de clúster Conexión de Azure aparece como Desconectado.
  2. Examine los registros de depuración de HCIsvc en el nodo. El mensaje de error es una excepción: AADSTS700027: error en la validación de firma de aserción de cliente.
  3. El error también puede aparecer como error de RotateRegistrationCertificate: audiencia no válida.

Acción correctiva:

Realice un registro de reparación en el clúster para agregar nuevos certificados en la aplicación Microsoft Entra:

Register-AzStackHCI  -SubscriptionId "<subscription_ID>" -ComputerName Server1 -RepairRegistration

La reparación del registro genera nuevos certificados de reemplazo en la aplicación de Microsoft Entra, a la vez que conserva otra información, como el nombre del recurso, el grupo de recursos y otras opciones de registro.

OnPremisesPasswordValidationTimeSkew

Explicación del estado de error:

Microsoft Entra generación de tokens produce un error de hora si la hora del nodo local está demasiado lejos de sincronizarse con la hora actual verdadera (UTC). Microsoft Entra ID devuelve el siguiente error:

AADSTS80013: OnPremisesPasswordValidationTimeSkew: no se pudo completar el intento de autenticación debido al desfase horario entre la máquina que ejecuta el agente de autenticación y AD. Corrija los problemas de sincronización de tiempo.

Acción correctiva:

Asegúrese de que la hora se sincronice con un origen de hora conocido y preciso.

No se puede adquirir el token para el inquilino con un error

Explicación del estado de error:

Si la cuenta de usuario usada para el registro forma parte de varios inquilinos de Microsoft Entra, debe especificar -TenantId durante el registro del clúster y anular el registro; de lo contrario, se produce el error No se puede adquirir el token para el inquilino con un error. Debe usar la autenticación multifactor para acceder al inquilino. Vuelva a ejecutar Connect-AzAccount con el parámetro -TenantIdadicional .

Acción correctiva:

  • Para el registro del clúster, especifique el -TenantId parámetro :

    Register-AzStackHCI  -SubscriptionId "<subscription_ID>" -ComputerName Server1 -TenantId <Tenant_ID>
    
  • Para anular el registro, especifique el -TenantId parámetro :

    Unregister-AzStackHCI -ComputerName ClusterNode1 -SubscriptionId "<subscription ID GUID>" -ResourceName HCI001 -TenantId <Tenant_ID>
    

Uno o varios nodos de clúster no pueden conectarse a Azure

Explicación del estado de error:

Este problema se produce cuando uno o varios nodos de clúster tenían problemas de conectividad después del registro y no se podían conectar a Azure durante mucho tiempo. Incluso después de la resolución de problemas de conectividad, los nodos no pueden volver a conectarse a Azure debido a los certificados expirados.

Acción correctiva:

  1. Inicie sesión en el nodo desconectado.

  2. Ejecute Disable-AzureStackHCIArcIntegration.

  3. Compruebe el estado de la integración de ARC ejecutando Get-AzureStackHCIArcIntegration y asegúrese de que ahora dice "Deshabilitado" para el nodo desconectado:

    Captura de pantalla de Get-AzureStackHCIArcIntegration salida del cmdlet.

  4. Inicie sesión en el Azure Portal y elimine el recurso de Azure Resource Manager que representa el servidor de Arc para este nodo.

  5. Vuelva a iniciar sesión en el nodo desconectado y ejecute Enable-AzureStackHCIArcIntegration.

  6. Ejecute Sync-AzureStackHCI en el nodo.

Error de trabajo al intentar crear una máquina virtual

Explicación del estado de error:

Si el clúster no está registrado en Azure tras la implementación, o si el clúster está registrado pero no se ha conectado a Azure durante más de 30 días, el sistema no permitirá que se creen ni agreguen nuevas máquinas virtuales. Cuando esto ocurra, verá el siguiente mensaje de error al intentar crear máquinas virtuales:

There was a failure configuring the virtual machine role for 'vmname'. Job failed. Error opening "vmname" clustered roles. The service being accessed is licensed for a particular number of connections. No more connections can be made to the service at this time because there are already as many connections as the service can accept.

Acción correctiva:

Registre el clúster de HCI con Azure. Para obtener información sobre cómo registrar el clúster, consulte las instrucciones de la documentación de Register-AzStackHCI.

Uso de un grupo de recursos común para los recursos de clúster y Arc-for-Server

El módulo de PowerShell más reciente admite tener un grupo de recursos común para los recursos de clúster y Arc-for-Server, o bien usar cualquier grupo de recursos preexistente para los recursos de Arc-for-Server.

En el caso de los clústeres registrados con la versión 1.4.1 o anterior del módulo de PowerShell, puede realizar los pasos siguientes para usar la nueva característica:

  1. Anule el registro del clúster mediante la ejecución Unregister-AzStackHCI desde uno de los nodos. Consulte Anulación del registro de Azure Stack HCI mediante PowerShell.
  2. Instale el módulo de PowerShell más reciente: Install-Module Az.StackHCI -Force.
  3. Ejecute Register-AzStackHCI pasando los parámetros adecuados para -ResourceGroupName y -ArcForServerResourceGroupName.

Nota

Si usa un grupo de recursos independiente para los recursos de Arc-for-Server, se recomienda usar un grupo de recursos que tenga recursos de Arc-for-Server relacionados solo con Azure Stack HCI. El proveedor de recursos de Azure Stack HCI tiene permisos para administrar cualquier otro recurso de Arc-for-Server en ArcServerResourceGroup.

Pasos siguientes