Supervisión de clústeres con el Servicio de mantenimiento

Se aplica a: Azure Stack HCI, versiones 23H2 y 22H2; Windows Server 2022, Windows Server 2019, Windows Server 2016

El Servicio de mantenimiento, publicado por primera vez en Windows Server 2016, mejora la supervisión diaria y la experiencia operativa de los clústeres que ejecutan Espacios de almacenamiento directo.

Requisitos previos

Servicio de mantenimiento está habilitado de forma predeterminada con Espacios de almacenamiento directo. No se requiere ninguna acción adicional para instalarlo o iniciarlo. Para más información acerca de Espacios de almacenamiento directo, consulte Información general de Espacios de almacenamiento directo.

Historial de rendimiento del clúster

Obtenga información sobre la capacidad y el rendimiento en vivo desde el clúster de Espacios de almacenamiento directo. Consulte Obtención del historial de rendimiento de un clúster.

Errores del Servicio de mantenimiento

Muestre los errores actuales para comprobar fácilmente el estado de la implementación. Consulte Visualización de los errores del Servicio de mantenimiento.

Acciones del Servicio de mantenimiento

Realice un seguimiento del progreso de las acciones del Servicio de mantenimiento que se realizan de forma autónoma. Consulte Seguimiento de acciones de Servicio de mantenimiento.

Automatización

En esta sección se describen los flujos de trabajo que se automatizan mediante el servicio de mantenimiento en el ciclo de vida del disco.

Ciclo de vida del disco

El servicio de mantenimiento automatiza la mayoría de las etapas del ciclo de vida del disco físico. Supongamos que el estado inicial de la implementación es un estado perfecto: es decir, todos los discos físicos funcionan correctamente.

Retirada

Los discos físicos se retirarán automáticamente cuando ya no se usen, y se genera un error correspondiente. Hay varios casos:

  • Error del medio: el disco físico definitivamente tiene un error o está dañado y debe reemplazarse.
  • Pérdida de comunicación: el disco físico ha perdido la conectividad durante más de 15 minutos consecutivos.
  • No responde: el disco físico ha mostrado una latencia de más 5 segundos tres o más veces en una hora.

Nota

Si se pierde la conectividad en muchos discos físicos a la vez, o a un nodo completo o contenedor de almacenamiento, el servicio de mantenimiento no retirará estos discos, ya que no es probable que sean el problema raíz.

Si el disco retirado sirve de memoria caché para otros discos físicos, estos se reasignarán automáticamente a otro disco de la memoria caché, si hubiera alguno disponible. No se requiere ninguna acción del usuario especial.

Restauración de la resistencia

Cuando se ha retirado un disco físico, el servicio de mantenimiento comienza inmediatamente a copiar sus datos en los discos físicos restantes para restaurar la resistencia completa. Cuando se haya completado, los datos están completamente seguros y tolerantes a errores de nuevo.

Nota

Esta restauración inmediata requiere suficiente capacidad disponible entre los discos físicos restantes.

Parpadeo de la luz del indicador

Si es posible, el servicio de mantenimiento comenzará a hacer parpadear la luz del indicador en el disco físico retirado o en la ranura. Esto continuará indefinidamente, hasta que se reemplace el disco retirado.

Nota

En algunos casos, el disco puede haber dado un error de forma que impida incluso el funcionamiento de la luz del indicador; por ejemplo, una pérdida total de alimentación.

Reemplazo físico

Debe reemplazar el disco físico retirado cuando sea posible. A menudo, esto consta de un intercambio en caliente, es decir, no es necesario apagar el nodo o el contenedor de almacenamiento. Consulte el error para conocer información útil sobre la ubicación y la pieza.

Comprobación

Cuando se inserta el disco de reemplazo, este se comprobará con el documento de componentes compatibles (consulte la sección siguiente).

Agrupación

Si se permite, el disco de reemplazo se sustituye automáticamente en el grupo de su predecesor para su uso. En este punto, el sistema vuelve a su estado inicial perfecto y el error desaparece.

Documento de componentes compatibles

El Servicio de mantenimiento proporciona un mecanismo de cumplimiento para restringir los componentes usados por Espacios de almacenamiento directo a aquellos incluidos en un documento de componentes compatibles que proporciona el administrador o proveedor de la solución. Esta lista se puede utilizar para evitar el uso erróneo de hardware no compatible por cualquier usuario, que puede ayudar con el cumplimiento de los contratos de soporte técnico o garantía. Esta funcionalidad se limita actualmente a los dispositivos de disco físico, incluidas unidades SSD, unidades de disco duro y unidades NVMe. El documento de componentes compatibles puede restringir el modelo, el fabricante (opcional) y la versión de firmware (opcional).

Uso

El documento de componentes compatibles usa una sintaxis inspirada en XML. Se recomienda usar su editor de texto favorito, como la versión gratuita de Visual Studio Code o Bloc de notas, para crear un documento XML que pueda guardar y reutilizar.

Secciones

El documento tiene dos secciones independientes: Disks y Cache.

Si se proporciona la sección Disks, solo se permite unirse a los grupos a las unidades de la lista (por ejemplo Disk). Las unidades que no estén en la lista no podrán unirse a los grupos, lo que imposibilita eficazmente su uso en producción. Si esta sección se deja vacía, todas las unidades podrán unirse a grupos.

Si se proporciona la sección Cache, solo se usarán para el almacenamiento en caché las unidades de la lista (por ejemplo CacheDisk). Si esta sección se deja vacía, Espacios de almacenamiento directo intentará adivinar en función del tipo de medio y el tipo de bus. Las unidades que se muestran aquí también deben aparecer en Disks.

Importante

El documento de componentes admitidos no se aplica con carácter retroactivo a las unidades ya agrupadas y en uso.

Ejemplo

<Components>

  <Disks>
    <Disk>
      <Manufacturer>Contoso</Manufacturer>
      <Model>XYZ9000</Model>
      <AllowedFirmware>
        <Version>2.0</Version>
        <Version>2.1</Version>
        <Version>2.2</Version>
      </AllowedFirmware>
      <TargetFirmware>
        <Version>2.1</Version>
        <BinaryPath>C:\ClusterStorage\path\to\image.bin</BinaryPath>
      </TargetFirmware>
    </Disk>
    <Disk>
      <Manufacturer>Fabrikam</Manufacturer>
      <Model>QRSTUV</Model>
    </Disk>
  </Disks>

  <Cache>
    <CacheDisk>
      <Manufacturer>Fabrikam</Manufacturer>
      <Model>QRSTUV</Model>
    </CacheDisk>
  </Cache>

</Components>

Para enumerar varias unidades, simplemente agregue etiquetas <Disk> o <CacheDisk> adicionales.

Para insertar este XML al implementar Espacios de almacenamiento directo, use el parámetro -XML:

$MyXML = Get-Content <Filepath> | Out-String
Enable-ClusterS2D -XML $MyXML

Para establecer o modificar el documento de componentes compatibles una vez que se ha implementado Espacios de almacenamiento directo:

$MyXML = Get-Content <Filepath> | Out-String
Get-StorageSubSystem Cluster* | Set-StorageHealthSetting -Name "System.Storage.SupportedComponents.Document" -Value $MyXML

Nota

Las propiedades de modelo, fabricante y la versión de firmware deben coincidir exactamente con los valores que se obtienen con el cmdlet Get-PhysicalDisk. Puede diferir de la expectativa de "sentido común", dependiendo de la implementación del proveedor. Por ejemplo, en lugar de "Contoso", el fabricante puede ser "CONTOSO LTD" o puede estar en blanco mientras que el modelo es "Contoso-XZY9000".

Puede comprobarlo mediante el siguiente cmdlet de PowerShell:

Get-PhysicalDisk | Select Model, Manufacturer, FirmwareVersion

Configuración del Servicio de mantenimiento

Modifique la configuración del Servicio de mantenimiento para ajustar la agresividad de los errores o acciones, activar o desactivar ciertos comportamientos, etc. Consulte Modificación de la configuración de Servicio de mantenimiento.

Referencias adicionales