Supervisión de clústeres con el Servicio de mantenimiento
Se aplica a: Azure Stack HCI, versiones 23H2 y 22H2; Windows Server 2022, Windows Server 2019, Windows Server 2016
El Servicio de mantenimiento, publicado por primera vez en Windows Server 2016, mejora la supervisión diaria y la experiencia operativa de los clústeres que ejecutan Espacios de almacenamiento directo.
Requisitos previos
Servicio de mantenimiento está habilitado de forma predeterminada con Espacios de almacenamiento directo. No se requiere ninguna acción adicional para instalarlo o iniciarlo. Para más información acerca de Espacios de almacenamiento directo, consulte Información general de Espacios de almacenamiento directo.
Historial de rendimiento del clúster
Obtenga información sobre la capacidad y el rendimiento en vivo desde el clúster de Espacios de almacenamiento directo. Consulte Obtención del historial de rendimiento de un clúster.
Errores del Servicio de mantenimiento
Muestre los errores actuales para comprobar fácilmente el estado de la implementación. Consulte Visualización de los errores del Servicio de mantenimiento.
Acciones del Servicio de mantenimiento
Realice un seguimiento del progreso de las acciones del Servicio de mantenimiento que se realizan de forma autónoma. Consulte Seguimiento de acciones de Servicio de mantenimiento.
Automatización
En esta sección se describen los flujos de trabajo que se automatizan mediante el servicio de mantenimiento en el ciclo de vida del disco.
Ciclo de vida del disco
El servicio de mantenimiento automatiza la mayoría de las etapas del ciclo de vida del disco físico. Supongamos que el estado inicial de la implementación es un estado perfecto: es decir, todos los discos físicos funcionan correctamente.
Retirada
Los discos físicos se retirarán automáticamente cuando ya no se usen, y se genera un error correspondiente. Hay varios casos:
- Error del medio: el disco físico definitivamente tiene un error o está dañado y debe reemplazarse.
- Pérdida de comunicación: el disco físico ha perdido la conectividad durante más de 15 minutos consecutivos.
- No responde: el disco físico ha mostrado una latencia de más 5 segundos tres o más veces en una hora.
Nota
Si se pierde la conectividad en muchos discos físicos a la vez, o a un nodo completo o contenedor de almacenamiento, el servicio de mantenimiento no retirará estos discos, ya que no es probable que sean el problema raíz.
Si el disco retirado sirve de memoria caché para otros discos físicos, estos se reasignarán automáticamente a otro disco de la memoria caché, si hubiera alguno disponible. No se requiere ninguna acción del usuario especial.
Restauración de la resistencia
Cuando se ha retirado un disco físico, el servicio de mantenimiento comienza inmediatamente a copiar sus datos en los discos físicos restantes para restaurar la resistencia completa. Cuando se haya completado, los datos están completamente seguros y tolerantes a errores de nuevo.
Nota
Esta restauración inmediata requiere suficiente capacidad disponible entre los discos físicos restantes.
Parpadeo de la luz del indicador
Si es posible, el servicio de mantenimiento comenzará a hacer parpadear la luz del indicador en el disco físico retirado o en la ranura. Esto continuará indefinidamente, hasta que se reemplace el disco retirado.
Nota
En algunos casos, el disco puede haber dado un error de forma que impida incluso el funcionamiento de la luz del indicador; por ejemplo, una pérdida total de alimentación.
Reemplazo físico
Debe reemplazar el disco físico retirado cuando sea posible. A menudo, esto consta de un intercambio en caliente, es decir, no es necesario apagar el nodo o el contenedor de almacenamiento. Consulte el error para conocer información útil sobre la ubicación y la pieza.
Comprobación
Cuando se inserta el disco de reemplazo, este se comprobará con el documento de componentes compatibles (consulte la sección siguiente).
Agrupación
Si se permite, el disco de reemplazo se sustituye automáticamente en el grupo de su predecesor para su uso. En este punto, el sistema vuelve a su estado inicial perfecto y el error desaparece.
Documento de componentes compatibles
El Servicio de mantenimiento proporciona un mecanismo de cumplimiento para restringir los componentes usados por Espacios de almacenamiento directo a aquellos incluidos en un documento de componentes compatibles que proporciona el administrador o proveedor de la solución. Esta lista se puede utilizar para evitar el uso erróneo de hardware no compatible por cualquier usuario, que puede ayudar con el cumplimiento de los contratos de soporte técnico o garantía. Esta funcionalidad se limita actualmente a los dispositivos de disco físico, incluidas unidades SSD, unidades de disco duro y unidades NVMe. El documento de componentes compatibles puede restringir el modelo, el fabricante (opcional) y la versión de firmware (opcional).
Uso
El documento de componentes compatibles usa una sintaxis inspirada en XML. Se recomienda usar su editor de texto favorito, como la versión gratuita de Visual Studio Code o Bloc de notas, para crear un documento XML que pueda guardar y reutilizar.
Secciones
El documento tiene dos secciones independientes: Disks
y Cache
.
Si se proporciona la sección Disks
, solo se permite unirse a los grupos a las unidades de la lista (por ejemplo Disk
). Las unidades que no estén en la lista no podrán unirse a los grupos, lo que imposibilita eficazmente su uso en producción. Si esta sección se deja vacía, todas las unidades podrán unirse a grupos.
Si se proporciona la sección Cache
, solo se usarán para el almacenamiento en caché las unidades de la lista (por ejemplo CacheDisk
). Si esta sección se deja vacía, Espacios de almacenamiento directo intentará adivinar en función del tipo de medio y el tipo de bus. Las unidades que se muestran aquí también deben aparecer en Disks
.
Importante
El documento de componentes admitidos no se aplica con carácter retroactivo a las unidades ya agrupadas y en uso.
Ejemplo
<Components>
<Disks>
<Disk>
<Manufacturer>Contoso</Manufacturer>
<Model>XYZ9000</Model>
<AllowedFirmware>
<Version>2.0</Version>
<Version>2.1</Version>
<Version>2.2</Version>
</AllowedFirmware>
<TargetFirmware>
<Version>2.1</Version>
<BinaryPath>C:\ClusterStorage\path\to\image.bin</BinaryPath>
</TargetFirmware>
</Disk>
<Disk>
<Manufacturer>Fabrikam</Manufacturer>
<Model>QRSTUV</Model>
</Disk>
</Disks>
<Cache>
<CacheDisk>
<Manufacturer>Fabrikam</Manufacturer>
<Model>QRSTUV</Model>
</CacheDisk>
</Cache>
</Components>
Para enumerar varias unidades, simplemente agregue etiquetas <Disk>
o <CacheDisk>
adicionales.
Para insertar este XML al implementar Espacios de almacenamiento directo, use el parámetro -XML
:
$MyXML = Get-Content <Filepath> | Out-String
Enable-ClusterS2D -XML $MyXML
Para establecer o modificar el documento de componentes compatibles una vez que se ha implementado Espacios de almacenamiento directo:
$MyXML = Get-Content <Filepath> | Out-String
Get-StorageSubSystem Cluster* | Set-StorageHealthSetting -Name "System.Storage.SupportedComponents.Document" -Value $MyXML
Nota
Las propiedades de modelo, fabricante y la versión de firmware deben coincidir exactamente con los valores que se obtienen con el cmdlet Get-PhysicalDisk. Puede diferir de la expectativa de "sentido común", dependiendo de la implementación del proveedor. Por ejemplo, en lugar de "Contoso", el fabricante puede ser "CONTOSO LTD" o puede estar en blanco mientras que el modelo es "Contoso-XZY9000".
Puede comprobarlo mediante el siguiente cmdlet de PowerShell:
Get-PhysicalDisk | Select Model, Manufacturer, FirmwareVersion
Configuración del Servicio de mantenimiento
Modifique la configuración del Servicio de mantenimiento para ajustar la agresividad de los errores o acciones, activar o desactivar ciertos comportamientos, etc. Consulte Modificación de la configuración de Servicio de mantenimiento.