Supervisión del estado de las copias de seguridad mediante Azure Backup Metrics (versión preliminar)

Artículo
06/01/2023

Azure Backup ofrece un conjunto de métricas integradas a través de Azure Monitor que le permiten supervisar el estado de sus copias de seguridad. También le permite configurar reglas de alertas que se desencadenan cuando las métricas superan los umbrales definidos.

Azure Backup ofrece las siguientes funcionalidades clave:

Capacidad de ver métricas de fábrica relacionadas con el estado de las copias de seguridad y restauraciones de los elementos de copia de seguridad, junto con las tendencias asociadas.
Capacidad de escribir reglas de alertas personalizadas en estas métricas para supervisar de forma eficaz el estado de los elementos de copia de seguridad.
Capacidad de enrutar las alertas de métricas desencadenadas por distintos canales de notificación admitidos por Azure Monitor, como correo electrónico, ITSM, webhook, aplicaciones lógicas, entre otros.

Más información sobre las métricas de Azure Monitor.

Escenarios admitidos

Admite métricas integradas para los siguientes tipos de cargas de trabajo:
- VM de Azure, bases de datos SQL en VM de Azure
- Bases de datos de SAP HANA en VM de Azure
- Azure Files
- Blobs de Azure.
Actualmente no se admiten métricas para el tipo de carga de trabajo de instancias de HANA.
Las métricas se pueden ver para todos los almacenes de Recovery Services de cada región y suscripción a la vez. Actualmente no se admite la visualización de métricas para un ámbito mayor en Azure Portal. Los mismos límites también se aplican para configurar reglas de alertas de métricas.

Métricas integradas admitidas

Actualmente, Azure Backup admite las siguientes métricas:

Backup Health Events (Eventos de estado de copia de seguridad): El valor de esta métrica representa el recuento de eventos de estado relacionados con el estado del trabajo de copia de seguridad, que se han desencadenado para el almacén en un plazo específico. Cuando se completa un trabajo de copia de seguridad, el servicio Azure Backup crea un evento de estado de copia de seguridad. En función del estado del trabajo (por ejemplo, Correcto o Error), las dimensiones asociadas al evento varían.
Restore Health Events (Eventos de estado de restauración): El valor de esta métrica representa el recuento de eventos de estado relacionados con el estado del trabajo de restauración, que se han desencadenado para el almacén en un plazo específico. Cuando se completa un trabajo de restauración, el servicio Azure Backup crea un evento de estado de restauración. En función del estado del trabajo (por ejemplo, Correcto o Error), las dimensiones asociadas al evento varían.

Nota

Solo se admiten eventos de mantenimiento de restauración para la carga de trabajo blobs de Azure, ya que las copias de seguridad son continuas y no hay ninguna noción de trabajos de copia de seguridad aquí.

De manera predeterminada, los recuentos se encuentran en el nivel de almacén. Para ver los recuentos de un elemento de copia de seguridad y estado de trabajo en particular, puede filtrar las métricas según cualquiera de las dimensiones admitidas.

En la tabla siguiente se enumeran las dimensiones que admiten las métricas Backup Health Events y Restore Health Events:

Nombre de la dimensión	Descripción
Id. de origen de datos	Id. exclusivo del origen de datos asociado al trabajo. En el caso de los recursos de Azure, como VM y Files, contiene el identificador de Azure Resource Manager (id. de ARM) del recurso. Por ejemplo: `/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/testRG/providers/Microsoft.Compute/virtualMachines/testVM` Para bases de datos SQL o HANA dentro de VM, contiene el id. de ARM de la VM, seguido de los detalles de la base de datos. Por ejemplo: `/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/testRG/providers/Microsoft.Compute/virtualMachines/testVM/providers/Microsoft.RecoveryServices/backupProtectedItem/SQLDataBase;mssqlserver;msdb` Para la copia de seguridad de bases de datos del grupo de disponibilidad de SQL, el campo Datasource ID (Id. de origen de datos) está vacío, ya que no hay ningún origen de datos (VM) en estos escenarios. Para ver las métricas de una base de datos determinada dentro de un grupo de disponibilidad, use el campo Id. de instancia de Backup.
Tipo de origen de datos	Tipo de origen de datos asociado al trabajo. A continuación se enumeran los tipos de orígenes de datos admitidos: Microsoft.Compute/virtualMachines (Azure Virtual Machines) Microsoft.Storage/storageAccounts/fileServices/shares (Azure Files) SQLDatabase (SQL en VM de Azure) SAPHANADataBase (SAP HANA en VM de Azure)
Id. de instancia de Backup	Id. de ARM de la instancia de copia de seguridad asociada al trabajo. Por ejemplo: `/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/testRG/providers/Microsoft.RecoveryServices/vaults/testVault/backupFabrics/Azure/protectionContainers/IaasVMContainer;iaasvmcontainerv2;testRG;testVM/protectedItems/VM;iaasvmcontainerv2;testRG;testVM`
Nombre de la instancia de copia de seguridad	Nombre descriptivo de la instancia de copia de seguridad para facilitar la legibilidad. Tiene el formato `{protectedContainerName};{backupItemFriendlyName}`. Por ejemplo: `testStorageAccount;testFileShare`
Estado de mantenimiento	Representa el estado del elemento de copia de seguridad una vez completado el trabajo. Puede tomar uno de los siguientes valores: Healthy (Correcto), Transient Unhealthy (Incorrecto transitorio), Persistent Unhealthy (Incorrecto persistente), Transient Degraded (Degradado transitorio), Persistent Degraded (Degradado persistente). Cuando un trabajo de copia de seguridad o restauración se completa correctamente, aparece un evento con el estado Correcto. Incorrecto aparece cuando un trabajo no se completa correctamente debido a errores del servicio, y Degradado aparece ante problemas debido a errores del usuario. Cuando un mismo error se produce repetidamente para el mismo elemento de copia de seguridad, el estado cambia de Transient Unhealthy/Degraded a Persistent Unhealthy/Degraded.

Escenarios de supervisión

Visualización de métricas en Azure Portal

Para ver las métricas en Azure Portal, siga estos pasos:

Vaya al Centro de copias de seguridad en Azure Portal y haga clic en Métricas en el menú.
Seleccione un almacén o un grupo de almacenes para los que quiera ver las métricas.

Actualmente, el ámbito máximo para el que puede ver las métricas es: todos los almacenes de Recovery Services de una suscripción y región determinadas. Por ejemplo, todos los almacenes de Recovery Services del Este de EE. UU. en TestSubscription1.
Seleccione una métrica para ver Backup Health Events o Restore Health Events.

Esto representa un gráfico que muestra el recuento de eventos de estado de los almacenes. Puede ajustar el intervalo de tiempo y la granularidad de agregación mediante los filtros de la parte superior de la pantalla.
Para filtrar las métricas por diferentes dimensiones, haga clic en el botón Agregar filtro y seleccione los valores de dimensión pertinentes.
- Por ejemplo, si quiere ver los recuentos de eventos de estado solo para las copias de seguridad de VM de Azure, agregue un filtro Datasource Type = Microsoft.Compute/virtualMachines.
- Para ver los eventos de estado de un origen de datos o una instancia de copia de seguridad determinados dentro del almacén, use los filtros de identificador de origen de datos o identificador de instancia de Backup.
- Para ver los eventos de estado solo para las copias de seguridad con errores, use un filtro en HealthStatus; para ello, seleccione los valores correspondientes al estado de estado incorrecto o degradado.

Configuración de alertas y notificaciones para las métricas

Para configurar alertas y notificaciones para las métricas, siga estos pasos:

Haga clic en Nueva regla de alertas que se encuentra en la parte superior del gráfico de métricas.
Seleccione el ámbito para el que quiere crear las alertas.

Los límites de ámbito son los mismos que los que se describen en la sección Visualización de métricas.
Seleccione la condición con la que se debe activar la alerta.

De manera predeterminada, algunos campos se rellenarán previamente en función de las selecciones del gráfico de métricas. Puede editar los parámetros según sea necesario. Para generar alertas individuales para cada origen de datos del almacén, use la selección de dimensiones en la regla de alertas de las métricas. A continuación encontrará algunos escenarios:
- Activación de alertas en trabajos de copia de seguridad con errores para cada origen de datos:
  
  Regla de alertas: Activar una alerta si los eventos de estado de copia > 0 en las últimas 24 horas para:
  - Dimensiones ["HealthStatus"]= "Persistent Unhealthy / Transient Unhealthy"
  - Dimensiones ["DatasourceId"]= "Todos los valores actuales y futuros"
- Activar alertas si todas las copias de seguridad del almacén se completaron correctamente durante el día:
  
  Regla de alertas: Activar una alerta si los eventos de estado de copia < 1 en las últimas 24 horas para:
  - Dimensiones ["HealthStatus"]="Persistent Unhealthy / Transient Unhealthy / Persistent Degraded / Transient Degraded"
Nota:

Si selecciona más dimensiones como parte de la condición de la regla de alertas, el costo aumenta (es proporcional al número de combinaciones únicas de valores de dimensión posibles). La selección de más dimensiones permite obtener más contexto acerca de una alerta que se ha activado.
Para configurar notificaciones para estas alertas mediante grupos de acciones, configure un grupo de acciones como parte de la regla de alertas o cree una regla de acción independiente.

Se admiten varios canales de notificación, como correo electrónico, ITSM, webhook, aplicación lógica y SMS. Más información sobre los grupos de acciones.
Configure el comportamiento de resolución automática: puede configurar las alertas de métricas como sin estado ocon estado según sea necesario.
- Para generar una alerta por cada error de trabajo independientemente de que el error se deba a la misma causa subyacente (comportamiento sin estado), anule la selección de la opción Automatically resolve alerts (Resolver alertas automáticamente) en la regla de alertas.
- Como alternativa, para configurar las alertas como con estado, active la misma casilla. Por lo tanto, cuando se active una alerta de métrica en el ámbito, otro error no creará una nueva alerta de métrica. La alerta se resuelve automáticamente si la condición de generación de la alerta se evalúa como falsa durante tres ciclos de evaluación sucesivos. Se generan nuevas alertas si la condición vuelve a evaluarse como verdadera.

Obtenga más información sobre el comportamiento con estado y sin estado de las alertas de métricas de Azure Monitor.

Administración de alertas

Para ver las alertas de métricas activadas, siga estos pasos:

Vaya al Centro de copias de seguridad>Alertas.
Filtre por Tipo de señal = Métrica y Tipo = Configured alert (Alerta configurada).
Haga clic en una alerta para ver más detalles sobre la alerta y cambiar su estado.

Nota:

La alerta tiene dos campos: Condición de supervisión (desencadenada/resuelta) y Estado de alerta (Nuevo/Confirmado/Cerrado) .

Estado de alerta: Puede editar este campo (como se muestra en la captura de pantalla anterior).
Condición de supervisión: Este campo no se puede editar. Este campo se usa más en escenarios donde el propio servicio resuelve la alerta. Por ejemplo, el comportamiento de resolución automática en las alertas de métricas usa el campo Condición de supervisión para resolver una alerta.

Alertas del origen de datos y alertas globales

Según la configuración de las reglas de alertas, la alerta activada aparece en la sección Datasource alerts (Alertas del origen de datos) o en la sección Global alerts (Alertas globales) del Centro de copia de seguridad:

Si la alerta tiene asociada una dimensión de identificador de origen de datos, la alerta activada aparece en Datasource alerts.
Si la alerta no tiene asociada una dimensión de identificador de origen de datos, la alerta activada aparece en Global alerts, ya que no hay ninguna información que vincule la alerta a un origen de datos específico.

Obtenga más información sobre las alertas del origen de datos y globales aquí.

Nota

Actualmente, en el caso de las alertas de restauración de blobs, las alertas aparecen en alertas de orígenes de datos solo si selecciona ambas dimensiones: datasourceId y datasourceType al crear la regla de alerta. Si no se selecciona ninguna dimensión, las alertas aparecen en alertas globales.

Acceso a las métricas mediante programación

Para acceder a la funcionalidad de métricas, puede usar los distintos clientes de programación, como PowerShell, la CLI o la API REST. Consulte la documentación de la API REST de Azure Monitor para obtener más detalles.

Escenarios de alerta de ejemplo

Activación de una única alerta si todas las copias de seguridad desencadenadas de un almacén se realizaron correctamente en las últimas 24 horas

Regla de alertas: Activar una alerta si los eventos de estado de copia de seguridad < 1 en las últimas 24 horas para:

Dimensions["HealthStatus"] != "Healthy"

Activación de una alerta después de cada trabajo de copia de seguridad con errores

Regla de alertas: Activar una alerta si los eventos de estado de copia de seguridad > 0 en los últimos 5 minutos para:

Dimensions["HealthStatus"]!= "Healthy"
Dimensiones ["DatasourceId"]= "Todos los valores actuales y futuros"

Activación de una alerta si hubo errores de copia de seguridad consecutivos para el mismo elemento en las últimas 24 horas

Regla de alertas: Activar una alerta si los eventos de estado de copia de seguridad > 1 en las últimas 24 horas para:

Dimensions["HealthStatus"]!= "Healthy"
Dimensiones ["DatasourceId"]= "Todos los valores actuales y futuros"

Activación de una alerta si no se ejecutó ningún trabajo de copia de seguridad para un elemento en las últimas 24 horas

Regla de alertas: Activar una alerta si los eventos de estado de copia < 1 en las últimas 24 horas para:

Dimensiones ["DatasourceId"]= "Todos los valores actuales y futuros"