Creación de una alerta de métrica con umbrales dinámicos

Los umbrales dinámicos aplican aprendizaje automático avanzado y usan un conjunto de algoritmos y métodos para:

  • Obtener información acerca del comportamiento histórico de las métricas
  • Analiza métricas a lo largo del tiempo e identificación de patrones, como patrones por hora, diarios o semanales
  • Reconocer anomalías que indiquen posibles problemas de servicio
  • Calcular el umbral más adecuado para la métrica

Cuando se usan umbrales dinámicos, no es necesario conocer el umbral "correcto" para cada métrica, ya que los umbrales dinámicos calculan los más adecuados.

Se recomienda configurar reglas de alerta con umbrales dinámicos en estas métricas:

  • Porcentaje de CPU de máquina virtual
  • Tiempo de ejecución de la solicitud HTTP de Application Insights

Los umbrales dinámicos le ayudan a:

  • Crear alertas escalables para cientos de series de métricas con una regla de alertas. Si tiene menos reglas de alerta, dedica menos tiempo a crearlas y administrarlas. Las alertas escalables son especialmente útiles para varias dimensiones o para varios recursos, como para todos los recursos de una suscripción.
  • Crear reglas sin tener que saber qué umbral configurar. Con los umbrales dinámicos, puedes configurar alertas de métricas mediante conceptos de alto nivel, sin tener un amplio conocimiento de dominio sobre la métrica.
  • Configurar alertas de métrica mediante conceptos de alto nivel sin un amplio conocimiento del dominio acerca de la métrica
  • Evitar umbrales con ruido (poca precisión) o amplios (poco recuerdo) que no tengan un patrón esperado
  • Controla métricas ruidosas (como la CPU o la memoria de la máquina) y con baja dispersión (como la disponibilidad y la tasa de error)

Puedes usar umbrales dinámicos en:

  • la mayoría de las métricas personalizadas y la plataforma de Azure Monitor
  • Métricas comunes de la aplicación y la infraestructura
  • métricas ruidosa, como la CPU de la máquina o la memoria
  • métricas con poca dispersión, como la disponibilidad y la tasa de errores. Consulta las métricas no admitidas por los umbrales dinámicos para obtener una lista de métricas que no son compatibles con los umbrales dinámicos.

Puedes configurar umbrales dinámicos mediante:

Cálculo y versión preliminar del umbral de alerta

Cuando se crea una regla de alerta por primera vez, los umbrales dinámicos usan 10 días de datos históricos para calcular patrones estacionales diarios o por hora. El gráfico que ve en la vista previa de alertas refleja esos datos. Una vez creada una regla de alerta, los umbrales dinámicos usan continuamente todos los datos históricos disponibles para aprender y ajustan los umbrales para que sean más precisos. Después de tres semanas, los umbrales dinámicos también tienen suficientes datos para identificar patrones semanales y el modelo se ajusta para incluir estacionalidad semanal. Las reglas de alerta que usan umbrales dinámicos no desencadenan una alerta antes de recopilar tres días y al menos 30 muestras de datos de métricas.

El sistema reconoce automáticamente interrupciones prolongadas y las quita del algoritmo de aprendizaje de umbral. Si hay una interrupción prolongada, los umbrales dinámicos comprenden los datos y detectan problemas del sistema con el mismo nivel de confidencialidad que antes de que se produjera la interrupción.

Consideraciones al usar umbrales dinámicos

  • Para garantizar un cálculo preciso del umbral, las alertas que usan umbrales dinámicos no desencadenan una alerta antes de recopilar tres días y al menos 30 muestras de datos de métricas. Por lo tanto, los nuevos recursos o recursos que faltan datos de métricas no desencadenan una alerta hasta que haya suficientes datos disponibles.
  • Los umbrales dinámicos necesitan al menos tres semanas de datos históricos para detectar estacionalidad semanal. Es posible que no se detecten algunos patrones detallados, como los patrones cada dos horas o cada dos semanas.
  • Si el comportamiento de una métrica cambió recientemente, los cambios no se reflejarán inmediatamente en los límites superior e inferior del umbral dinámico. Los límites se calculan en función de los datos de métricas de los últimos 10 días. Al ver los límites del umbral dinámico para una métrica dada, asegúrese de consultar la tendencia de la métrica en la última semana, no solo en las horas o días recientes.
  • Los umbrales dinámicos son buenos para detectar desviaciones significativas, a diferencia de los problemas que evolucionan lentamente. Los cambios de comportamiento lentos probablemente no desencadenarán una alerta.

Problemas conocidos con la confidencialidad del umbral dinámico

  • Si una regla de alerta que usa umbrales dinámicos es demasiado ruidosa o se activa demasiado, es posible que tengas que reducir la sensibilidad de la regla de alertas de umbrales dinámicos. Use una de las siguientes opciones:

    • Sensibilidad del umbral: establezca la sensibilidad en Baja para aumentar la tolerancia a las desviaciones.
    • Número de infracciones (en Configuración avanzada): configure la regla de alerta para que se desencadene solo si se produce un número determinado de desviaciones en un período de tiempo dado. Esto hará que la regla sea menos susceptible a las desviaciones transitorias.
  • Es posible que encuentres una regla de alerta que use umbrales dinámicos que no se active o no sea lo suficientemente sensible, aunque esté configurada con alta sensibilidad. Esto puede ocurrir cuando la distribución de la métrica es muy irregular. Considera una de las siguientes soluciones para corregir el problema:

    • Pase a supervisar una métrica complementaria que sea adecuada para su escenario, si procediera. Por ejemplo, compruebe si hay cambios en la tasa de éxito, en lugar de en la tasa de errores.
    • Pruebe a seleccionar un valor diferente para la Granularidad de agregación (Periodo).
    • Comprueba si se ha producido un cambio drástico en el comportamiento de la métrica en los últimos 10 días (una interrupción). Un cambio abrupto puede afectar a los umbrales superior e inferior calculados para la métrica y hacerlos más amplios. Espera algunos días hasta que la interrupción no se incluya en el cálculo de los umbrales. También puedes editar la regla de alerta para usar la opción Omitir datos antes en la Configuración avanzada.
    • Si los datos tienen estacionalidad semanal, pero no hay suficiente historial disponible para la métrica, los umbrales calculados pueden dar lugar a límites superior e inferior amplios. Por ejemplo, el cálculo puede tratar los días laborables y los fines de semana de la misma manera, y crear bordes anchos que no siempre se ajusten a los datos. Este problema se debería resolver cuando haya suficiente historial de métricas disponible. A continuación, se detecta la estacionalidad correcta y los umbrales calculados se actualizan en consecuencia.
  • Cuando el valor de una métrica presenta grandes fluctuaciones, los umbrales dinámicos pueden crear un modelo amplio en torno a esos valores, lo que puede dar lugar a un límite inferior o superior al esperado. Este escenario puede ocurrir cuando:

    • La sensibilidad está establecida en baja.
    • La métrica exhibe un comportamiento irregular con una alta varianza, que se muestra como picos o pendientes en los datos.

    Considera la posibilidad de elegir una mayor sensibilidad o un periodo de retrospectiva más largo para que el modelo sea menos sensible. También puede usar la opción Omitir datos antes para excluir una irregularidad reciente de los datos históricos usados para compilar el modelo.

Configurar umbrales dinámicos

Siga el procedimiento para crear o editar una regla de alerta mediante esta configuración

  1. En la pestaña Condiciones,
    1. En el campo Umbrales, selecciona Dinámico.
    2. En el tipo de agregación, se recomienda no seleccionar Máximo.
    3. En el campo Operador, selecciona Mayor que a menos que el comportamiento represente el uso de la aplicación.
    4. En Sensibilidad de umbral, selecciona Media o Baja para reducir el ruido de las alertas.
    5. En el campo Comprobar cada, considera la posibilidad de reducir la frecuencia en función del impacto empresarial de la alerta.
    6. En el período de búsqueda, establece la ventana de búsqueda inversa en al menos 15 minutos. Por ejemplo, si el campo comprobar cada se establece en 5 minutos, el período de búsqueda debe ser de al menos 3 minutos o más.
  2. Continúa con el resto del proceso para crear una regla de alerta.

Nota

Las reglas de alertas de métricas creadas mediante el portal se crean en el mismo grupo de recursos que el recurso de destino.

Descripción de los gráficos de umbrales dinámicos

A continuación, aparece un gráfico que muestra una métrica, sus límites de umbrales dinámicos y algunas alertas que se desencadenan cuando el valor se sitúa fuera de los umbrales permitidos.

Screenshot that shows a metric, its dynamic thresholds limits, and some alerts that fired.

Utilice la información siguiente para interpretar el gráfico:

  • Línea azul: la métrica medida real a lo largo del tiempo.
  • Área azul sombreada: muestra el intervalo permitido para la métrica. Si los valores de la métrica se mantienen dentro de este rango, no se activa ninguna alerta.
  • Puntos azules: si selecciona cualquier parte del gráfico y, a continuación, mantiene el mouse sobre la línea azul, aparece un punto azul bajo el cursor que muestra un valor de métrica agregado individual.
  • Elemento emergente con un punto azul: muestra el valor de la métrica medida (el punto azul) y los valores superior e inferior del intervalo permitido.
  • Punto rojo con un círculo negro: muestra el primer valor de la métrica fuera del intervalo permitido. Este valor activa una alerta de métrica y la pone en estado activo.
  • Puntos rojos: indican otros valores medidos fuera del intervalo permitido. No activan más alertas de métricas, pero la alerta permanece en estado activo.
  • Área roja: muestra la hora en que el valor de la métrica estaba fuera del intervalo permitido. La alerta permanecerá en estado activo siempre que los valores medidos posteriores estén fuera del intervalo permitido, pero no se activarán nuevas alertas.
  • Final del área roja: cuando la línea azul vuelve dentro de los valores permitidos, el área roja se detiene y la línea del valor medido se vuelve azul. El estado de la alerta de la métrica desencadenada en el momento que indica el punto rojo con el contorno negro se establece en resuelto.

Métricas no admitidas por umbrales dinámicos

Se admiten umbrales dinámicos para la mayoría de las métricas, pero algunas métricas no pueden usar umbrales dinámicos.

En la tabla siguiente se enumeran las métricas que no son compatibles con los umbrales dinámicos.

Tipo de recurso Nombre de métrica
Microsoft.ClassicStorage/storageAccounts UsedCapacity
Microsoft.ClassicStorage/storageAccounts/blobServices BlobCapacity
Microsoft.ClassicStorage/storageAccounts/blobServices BlobCount
Microsoft.ClassicStorage/storageAccounts/blobServices IndexCapacity
Microsoft.ClassicStorage/storageAccounts/fileServices FileCapacity
Microsoft.ClassicStorage/storageAccounts/fileServices FileCount
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareCount
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareSnapshotCount
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareSnapshotSize
Microsoft.ClassicStorage/storageAccounts/fileServices FileShareQuota
Microsoft.Compute/disks Bytes por segundo de lectura de discos compuestos
Microsoft.Compute/disks Operaciones de lectura de disco compuesto por segundo
Microsoft.Compute/disks Bytes por segundo de escritura en discos compuestos
Microsoft.Compute/disks Operaciones de escritura en discos compuestos por segundo
Microsoft.ContainerService/managedClusters NodesCount
Microsoft.ContainerService/managedClusters PodCount
Microsoft.ContainerService/managedClusters CompletedJobsCount
Microsoft.ContainerService/managedClusters RestartingContainerCount
Microsoft.ContainerService/managedClusters OomKilledContainerCount
Microsoft.Devices/IotHubs TotalDeviceCount
Microsoft.Devices/IotHubs ConnectedDeviceCount
Microsoft.Devices/IotHubs TotalDeviceCount
Microsoft.Devices/IotHubs ConnectedDeviceCount
Microsoft.DocumentDB/databaseAccounts CassandraConnectionClosures
Microsoft.EventHub/clusters Size
Microsoft.EventHub/namespaces Size
Microsoft.IoTCentral/IoTApps connectedDeviceCount
Microsoft.IoTCentral/IoTApps provisionedDeviceCount
Microsoft.Kubernetes/connectedClusters NodesCount
Microsoft.Kubernetes/connectedClusters PodCount
Microsoft.Kubernetes/connectedClusters CompletedJobsCount
Microsoft.Kubernetes/connectedClusters RestartingContainerCount
Microsoft.Kubernetes/connectedClusters OomKilledContainerCount
Microsoft.MachineLearningServices/workspaces/onlineEndpoints RequestsPerMinute
Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments DeploymentCapacity
Microsoft.Maps/accounts CreatorUsage
Microsoft.Media/mediaservices/streamingEndpoints EgressBandwidth
Microsoft.Network/applicationGateways Throughput
Microsoft.Network/azureFirewalls Throughput
Microsoft.Network/expressRouteGateways ExpressRouteGatewayPacketsPerSecond
Microsoft.Network/expressRouteGateways ExpressRouteGatewayNumberOfVmInVnet
Microsoft.Network/expressRouteGateways ExpressRouteGatewayFrequencyOfRoutesChanged
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayBitsPerSecond
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayPacketsPerSecond
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayNumberOfVmInVnet
Microsoft.Network/virtualNetworkGateways ExpressRouteGatewayFrequencyOfRoutesChanged
Microsoft.ServiceBus/namespaces Size
Microsoft.ServiceBus/namespaces error de Hadoop
Microsoft.ServiceBus/namespaces ActiveMessages
Microsoft.ServiceBus/namespaces DeadletteredMessages
Microsoft.ServiceBus/namespaces ScheduledMessages
Microsoft.ServiceFabricMesh/applications AllocatedCpu
Microsoft.ServiceFabricMesh/applications AllocatedMemory
Microsoft.ServiceFabricMesh/applications ActualCpu
Microsoft.ServiceFabricMesh/applications ActualMemory
Microsoft.ServiceFabricMesh/applications ApplicationStatus
Microsoft.ServiceFabricMesh/applications ServiceStatus
Microsoft.ServiceFabricMesh/applications ServiceReplicaStatus
Microsoft.ServiceFabricMesh/applications ContainerStatus
Microsoft.ServiceFabricMesh/applications RestartCount
Microsoft.Storage/storageAccounts UsedCapacity
Microsoft.Storage/storageAccounts/blobServices BlobCapacity
Microsoft.Storage/storageAccounts/blobServices BlobCount
Microsoft.Storage/storageAccounts/blobServices BlobProvisionedSize
Microsoft.Storage/storageAccounts/blobServices IndexCapacity
Microsoft.Storage/storageAccounts/fileServices FileCapacity
Microsoft.Storage/storageAccounts/fileServices FileCount
Microsoft.Storage/storageAccounts/fileServices FileShareCount
Microsoft.Storage/storageAccounts/fileServices FileShareSnapshotCount
Microsoft.Storage/storageAccounts/fileServices FileShareSnapshotSize
Microsoft.Storage/storageAccounts/fileServices FileShareCapacityQuota
Microsoft.Storage/storageAccounts/fileServices FileShareProvisionedIOPS

Pasos siguientes