Supervisión de varios clústeres con Azure Stack HCI Insights (versión preliminar)

Se aplica a: Azure Stack HCI versión 21H2

Azure Stack HCI Insights proporciona información sobre el estado, el rendimiento y el uso de los clústeres de Azure Stack HCI registrados, versión 21H2, que están conectados a Azure e inscritos en la supervisión. En este artículo se explican las ventajas de esta nueva experiencia de Azure Monitor, así como la manera para modificar y adaptar la experiencia para adaptarla a las necesidades propias de su organización.

Azure Stack HCI Insights almacena sus datos en un área de trabajo de Log Analytics, lo que facilita funciones eficaces de agregación y filtrado, y el análisis de las tendencias de datos a lo largo del tiempo. No hay ningún costo directo por Azure Stack HCI Insights. Se factura a los usuarios según la cantidad de datos ingeridos y la configuración de retención de datos de su área de trabajo de Log Analytics.

Puede ver los datos de supervisión de un único clúster desde la página de recursos de Azure Stack HCI, o bien puede usar Azure Monitor para ver una vista agregada de varios clústeres.

Consulte el vídeo para ver una introducción breve:

Ventajas de Azure Stack HCI Insights

Azure Stack HCI Insights ofrece tres ventajas principales:

  • Azure está a cargo de la administración, y se accede desde Azure Portal, por lo que está siempre actualizado, y no se requiere ninguna configuración de software especial o base de datos.

  • Es sumamente escalable, capaz de cargar más de 400 conjuntos de información de clústeres entre varias suscripciones a la vez, sin restricciones de límites en el clúster, el dominio o la ubicación física.

  • Es muy personalizable. La experiencia del usuario se basa en plantillas de libros de Azure Monitor, lo que permite a los usuarios cambiar las vistas y las consultas, modificar o establecer umbrales que se alineen con los límites de los usuarios, y guardar estas personalizaciones en un libro. Los gráficos del libro se pueden luego anclar a los paneles de Azure.

Prerrequisitos

Para usar Azure Stack HCI Insights, asegúrese de haber completado lo siguiente:

  1. Haga que un propietario de Azure o un administrador de acceso de usuario registren el clúster en Azure, lo que garantizará automáticamente que todos los servidores del clúster estén habilitados para Azure Arc. Esto permite a Azure Monitor capturar los detalles no solo del clúster, sino también de los nodos. Si registró el clúster antes del 15 de junio de 2021, tendrá que volver a registrarlo para que los servidores estén habilitados para Arc.
  2. Habilite Log Analytics para vincular el clúster a un área de trabajo de Log Analytics donde se guardarán los datos de registro necesarios para la supervisión.
  3. Habilite Insights a fin de permitir que Azure Monitor empiece a recopilar los eventos necesarios para la supervisión.

Visualización de la información de estado, rendimiento y uso

Una vez que se cumplan los requisitos previos, podrá acceder a Azure Stack HCI Insights desde Azure Monitor > centro de Insights > Azure Stack HCI. Verá las pestañas siguientes para alternar entre las vistas: Add to monitoring (Agregar a la supervisión), Estado del clúster, Servidores, Máquinas virtuales, Almacenamiento.

Filtrado de los resultados

La visualización se puede filtrar entre las suscripciones. Puede filtrar los resultados en función de los menús desplegables siguientes:

  • Intervalo de tiempo: Este filtro le permite seleccionar un intervalo para la vista de tendencias. El valor predeterminado es Últimas 24 horas.
  • Suscripciones: muestra las suscripciones que tienen registrados clústeres de Azure Stack HCI. Puede seleccionar varias suscripciones en este filtro.
  • HCI clusters (Clústeres de HCI): Enumera los clústeres de Azure Stack HCI registrados que tienen habilitadas las funcionalidades Registros y Supervisión en el intervalo de tiempo seleccionado. Puede seleccionar varios clústeres en este filtro.
  • Grupos de recursos: este filtro permite seleccionar todos los clústeres de un grupo de recursos.

Incorporación a la supervisión

Esta característica proporciona detalles de los clústeres que el usuario no supervisa. Para iniciar la supervisión de un clúster, selecciónelo para abrirlo y, después, seleccione Capacidades > Información. Si no ve el clúster, asegúrese de que se ha conectado recientemente a Azure.

Screenshot for selecting cluster for monitoring.

Columna Descripción Ejemplo
Clúster Nombre del clúster. 27cls1
Estado de la conexión de Azure Estado del recurso de HCI. Conectado
Versión del SO El sistema operativo construido en el servidor. 10.0.20348.10131

De manera predeterminada, la vista de cuadrícula muestra las primeras 250 filas. Puede establecer el valor editando las filas de cuadrícula tal como se muestra en la imagen siguiente:

Screenshot showing the screen for setting grid values.

Para exportar los detalles de Excel, seleccione Exportar a Excel tal como se muestra en la imagen siguiente:

Screenshot showing the link for exporting to Excel.

Excel proporcionará el estado de conexión de Azure de la siguiente manera:

  • 0: No registrado
  • 1: Desconectado
  • 2: No recientemente
  • 3: Conectado

Estado de clústeres

Esta vista proporciona información general acerca del estado de los clústeres.

Screenshot showing cluster health overview information.

Columna Descripción Ejemplo
Clúster Nombre del clúster. 27cls1
Última actualización Marca de tiempo de cuándo se actualizó por última vez el servidor. 9/4/2022, 12:15:42 PM
Estado Proporciona el estado de los recursos del servidor en el clúster. Puede ser Correcto, Advertencia, Crítico u otro estado. Healthy
Recurso con errores Descripción del recurso que provocó el error. Server, StoragePool, Subsystem
Total de servidores Número de servidores de un clúster. 4

Si falta el clúster o muestra el estado Otros, vaya al Área de trabajo de Log Analytics usada para el clúster y asegúrese de que Configuración del agente captura datos del registro microsoft-windows-health/operational. Asegúrese también de que los clústeres se han conectado recientemente a Azure y compruebe que no están filtrados en este libro.

Servidor

En esta vista encontrará información general sobre el estado y el rendimiento del servidor, y sobre el uso de los clústeres seleccionados. Esta vista se ha creado con el identificador de evento de servidor 3000 del canal de registro de eventos de Windows Microsoft-Windows-SDDC-Management/Operational. Cada fila se puede expandir aún más para ver el estado de mantenimiento del nodo. Puede interactuar con el clúster y el recurso de servidor para ir a la página de recursos correspondiente.

Screenshot showing health of servers.

Máquinas virtuales

En esta vista encontrará el estado de todas las VM del clúster seleccionado. La vista se ha creado con el id. de evento de máquina virtual 3003 del canal de registro de eventos de Windows Microsoft-Windows-SDDC-Management/Operational. Cada fila se puede expandir aún más para ver la distribución de VM entre los servidores del clúster. Puede interactuar con el clúster y el recurso de nodo para ir a la página de recursos correspondiente.

Screenshot showing health of virtual machines.

Métrica Descripción Ejemplo
Cluster > Servidor Nombre del clúster. En la expansión, muestra los servidores del clúster. Sample-VM-1
Última actualización El valor datetimestamp de la última actualización del servidor. 9/4/2022, 12:24:02 PM
TOTAL DE VM Número de máquinas virtuales de un nodo de servidor dentro de un clúster. 1 de 2 en ejecución
En ejecución Número de máquinas virtuales que se ejecutan en un nodo de servidor dentro de un clúster. 2
Detenido Número de máquinas virtuales detenidas en un nodo de servidor dentro de un clúster. 3
Con error Número de máquinas virtuales que han producido un error en un nodo de servidor dentro de un clúster. 2
Otros Si la máquina virtual está en uno de los siguientes estados (Desconocido, Inicio, Instantáneas, Guardar, Detener, Pausar, Reanudar, Pausar, Suspendida), se considera "Otro". 2

Storage

Esta vista muestra el estado de los volúmenes, el uso y el rendimiento en clústeres supervisados. Expanda un clúster para ver el estado de los volúmenes individuales. Esta vista se ha creado con el identificador de evento de volumen 3002 del canal de registro de eventos de Windows Microsoft-Windows-SDDC-Management/Operational. Los iconos de la parte superior proporcionan información general sobre el estado del almacenamiento.

Screenshot showing health of storage volumes.

Métrica Descripción Ejemplo
Clúster > Volumen Nombre del clúster. En la expansión, muestra los volúmenes de un clúster. AltaylCluster1 > ClusterPerformanceHistory
Última actualización El valor datetimestamp de la última actualización del almacenamiento. 14/4/2022, 2:58:55 PM
Estado del volumen El estado del volumen. Puede ser Correcto, Advertencia, Crítico u otro estado. Healthy
Size La capacidad total del dispositivo en bytes durante el período de informes. 25 B
Uso El porcentaje de capacidad disponible durante el periodo de informe. 23,54 %
IOPS Operaciones de entrada/salida por segundo. 45/s
Tendencia La tendencia de IOPS.
Rendimiento Número de bytes por segundo que ha ofrecido Application Gateway. 5B/s
Tendencia (B/s) La tendencia del rendimiento.
Latencia media La latencia es el tiempo medio que tarda la solicitud de E/S en completarse. 334 μs

Personalización de Azure Stack HCI Insights

Dado que la experiencia del usuario se basa en plantillas de libros de Azure Monitor, los usuarios pueden editar las visualizaciones y las consultas y guardarlas como libros personalizados.

Si usa la visualización de Azure Monitor > Centro de Insights > Azure Stack HCI, seleccione Personalizar > Editar > Guardar como para guardar una copia de la versión modificada en un libro personalizado.

Los libros se guardan dentro de un grupo de recursos. Todos los usuarios con acceso al grupo de recursos podrán acceder al libro personalizado.

La mayoría de las consultas se escriben con el lenguaje de consulta Kusto (KQL). Algunas consultas se escriben con Consulta de Resource Graph. Para más información, consulte los siguientes artículos.

Soporte técnico

A fin de abrir una incidencia de soporte técnico para Azure Stack HCI Insights, use el tipo de servicio Insights for Azure Stack HCI (Información para Azure Stack HCI) en Supervisión y administración.

Canal del registro de eventos

Azure Stack HCI Insights y las vistas de supervisión se basan en el canal de registro de eventos de Microsoft-Windows-SDDC-Management/Operational Windows. Cuando la supervisión está habilitada, los datos de este canal se guardan en un área de trabajo de Log Analytics.

Visualización y cambio del intervalo de caché de volcado

El intervalo predeterminado para volcar la memoria caché está establecido en 3600 segundos (1 hora).

Use los cmdlets siguientes de PowerShell para ver el valor del intervalo de volcado de caché:

Get-ClusterResource "sddc management" | Get-ClusterParameter

Use los cmdlets siguientes para cambiar la frecuencia del volcado de caché. Si se establece en 0, se dejarán de publicar eventos:

Get-ClusterResource "sddc management" | Set-ClusterParameter -Name CacheDumpIntervalInSeconds -Value <value in seconds>

Eventos de Windows en el canal de registro

Este canal incluye cinco eventos. Cada evento tiene EventData como nombre de clúster e identificador de Azure Resource Manager.

Identificador del evento Tipo de evento
3000 Servidor
3001 Unidad
3002 Volumen
3003 Máquina virtual
3004 Clúster

Valor de la columna RenderedDescription del evento de servidor 3000

{
   "m_servers":[
      {
         "m_statusCategory":"Integer",
         "m_status":[
            "Integer",
            "…"
         ],
         "m_id":"String",
         "m_name":"String",
         "m_totalPhysicalMemoryInBytes":"Integer",
         "m_usedPhysicalMemoryInBytes":"Integer",
         "m_totalProcessorsUsedPercentage":"Integer",
         "m_totalClockSpeedInMHz":"Integer",
         "m_uptimeInSeconds":"Integer",
         "m_InboundNetworkUsage":"Double (Bits/sec)",
         "m_OutboundNetworkUsage":"Double (Bits/sec)",
         "m_InboundRdmaUsage":"Double (Bits/sec)",
         "m_OutboundRdmaUsage":"Double (Bits/sec)",
         "m_site":"String",
         "m_location":"String",
         "m_vm":{
            "m_totalVmsUnknown":"Integer",
            "m_totalVmsRunning":"Integer",
            "m_totalVmsStopped":"Integer",
            "m_totalVmsFailed":"Integer",
            "m_totalVmsPaused":"Integer",
            "m_totalVmsSuspended":"Integer",
            "m_totalVmsStarting":"Integer",
            "m_totalVmsSnapshotting":"Integer",
            "m_totalVmsSaving":"Integer",
            "m_totalVmsStopping":"Integer",
            "m_totalVmsPausing":"Integer",
            "m_totalVmsResuming":"Integer"
         },
         "m_osVersion":"String",
         "m_buildNumber":"String",
         "m_totalPhysicalProcessors":"Integer",
         "m_totalLogicalProcessors":"Integer"
      },
      "…"
   ],
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
} 

La mayoría de las variables se explican por sí solas a partir de esta información JSON. Sin embargo, en la tabla siguiente se enumeran algunas variables que son un poco más difíciles de entender.

Variable Descripción
m_servers Matriz de nodos de servidor.
m_statusCategory Estado de mantenimiento del servidor.
m_status Estado del servidor. Es una matriz que puede contener uno o dos valores. El primer valor es obligatorio (0-4). El segundo valor es opcional (5-9).

Los valores de la variable m_statusCategory son los siguientes:

Value Significado
0 Healthy
1 Advertencia
2 Unhealthy (Incorrecto)
255 Otros

Los valores de la variable m_status son los siguientes:

Value Significado
0 Arriba
1 Bajar
2 En mantenimiento
3 Combinación
4 Normal
5 Aislado
6 En cuarentena
7 Purgando
8 Purga completada
9 Error de purga
0xffff Desconocido

Valor de la columna RenderedDescription del evento de unidad 3001

Evento de unidad 3001

{
    "m_drives":[
        {
            "m_uniqueId":"String",
            "m_model":"String",
            "m_type":"Integer",
            "m_canPool":"Boolean",
            "m_sizeInBytes":"Integer",
            "m_sizeUsedInBytes":"Integer",
            "m_alerts":{
                "m_totalUnknown":"Integer",
                "m_totalHealthy":"Integer",
                "m_totalWarning":"Integer",
                "m_totalCritical":"Integer"
            }
        },
        "…"
    ],
    "m_correlationId":"String",
    "m_isLastElement":"Boolean"
}

Valor de la columna RenderedDescription del evento de volumen 3002

Evento de volumen 3002

{
   "VolumeList":[
      {
         "m_Id":"String",
         "m_Label":"String",
         "m_Path":"String",
         "m_StatusCategory":"Integer",
         "m_Status":[
            "Integer",
            "…"
         ],
         "m_Size":"Integer (Bytes)",
         "m_SizeUsed":"Integer (Bytes)",
         "m_TotalIops":"Double (Count/second)",
         "m_TotalThroughput":"Double (Bytes/Second)",
         "m_AverageLatency":"Double (Seconds)",
         "m_Resiliency":"Integer",
         "m_IsDedupEnabled":"Boolean",
         "m_FileSystem":"String"
      },
      "…"
   ],
   "m_Alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
} 

La mayoría de las variables se explican por sí solas a partir de la información JSON anterior. Sin embargo, en la tabla siguiente se enumeran algunas variables que son un poco más difíciles de entender.

Variable Descripción
VolumeList Matriz de volúmenes.
m_StatusCategory Estado de mantenimiento del volumen.
m_Status Estado del volumen. Es una matriz que puede contener uno o dos valores. El primer valor es obligatorio (0-4). El segundo valor es opcional (5-9).

Los valores de la variable m_statusCategory son los siguientes:

Value Significado
0 Healthy
1 Advertencia
2 Unhealthy (Incorrecto)
255 Otros

Los valores de la variable m_status son los siguientes:

Value Significado
0 Unknown
1 Otros
2 Aceptar
3 Necesita reparación
4 Con estrés
5 Error predictivo
6 Error
7 Error no recuperable
8 Iniciando
9 Deteniéndose
10 Detenido
11 En servicio
12 Sin contacto
13 Comunicación perdida
14 Anulado
15 Inactivo
16 Error en la entidad de soporte
17 Completado
18 Modo de energía
19 Reubicando
0xD002 Bajar
0xD003 Necesita resincronización

Valor de la columna RenderedDescription del evento de máquina virtual 3003

Evento de máquina virtual 3003

{
   "m_totalVmsUnknown":"Integer",
   "m_totalVmsRunning":"Integer",
   "m_totalVmsStopped":"Integer",
   "m_totalVmsFailed":"Integer",
   "m_totalVmsPaused":"Integer",
   "m_totalVmsSuspended":"Integer",
   "m_totalVmsStarting":"Integer",
   "m_totalVmsSnapshotting":"Integer",
   "m_totalVmsSaving":"Integer",
   "m_totalVmsStopping":"Integer",
   "m_totalVmsPausing":"Integer",
   "m_totalVmsResuming":"Integer",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

Valor de la columna RenderedDescription del evento de clúster 3004

Evento de clúster 3004

{
   "m_cpuUsage":"Double (%)",
   "m_totalVolumeIops":"Double",
   "m_averageVolumeLatency":"Double (Seconds)",
   "m_totalVolumeThroughput":"Double (Bytes/Second)",
   "m_totalVolumeSizeInBytes":"Integer",
   "m_usedVolumeSizeInBytes":"Integer",
   "m_totalMemoryInBytes":"Integer",
   "m_usedMemoryInBytes":"Integer",
   "m_isStretch":"Boolean",
   "m_QuorumType":"String",
   "m_QuorumMode":"String",
   "m_QuorumState":"String",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }

Para obtener más información sobre los datos recopilados, vea Errores del servicio de mantenimiento.

Pasos siguientes

Para obtener información relacionada, consulte: