Aanbevolen waarschuwingsregels voor Kubernetes-clusters

Waarschuwingen in Azure Monitor identificeren proactief problemen met betrekking tot de status en prestaties van uw Azure-resources. In dit artikel wordt beschreven hoe u een set aanbevolen waarschuwingsregels voor metrische gegevens inschakelt en bewerkt die vooraf zijn gedefinieerd voor uw Kubernetes-clusters.

Typen waarschuwingsregels

Er zijn twee typen waarschuwingsregels voor metrische gegevens die worden gebruikt met Kubernetes-clusters.

Type waarschuwingsregel Beschrijving
Waarschuwingsregels voor metrische gegevens van Prometheus (preview) Gebruik metrische gegevens die zijn verzameld uit uw Kubernetes-cluster in een beheerde Azure Monitor-service voor Prometheus. Voor deze regels moet Prometheus zijn ingeschakeld op uw cluster en worden opgeslagen in een Prometheus-regelgroep.
Waarschuwingsregels voor metrische platformgegevens Gebruik metrische gegevens die automatisch worden verzameld uit uw AKS-cluster en worden opgeslagen als Waarschuwingsregels van Azure Monitor.

Gebruik een van de volgende methoden om de aanbevolen waarschuwingsregels voor uw cluster in te schakelen. U kunt zowel prometheus- als waarschuwingsregels voor metrische platformgegevens inschakelen voor hetzelfde cluster.

Met behulp van Azure Portal wordt de Prometheus-regelgroep gemaakt in dezelfde regio als het cluster.

  1. Selecteer aanbevelingen instellen in het menu Waarschuwingen voor uw cluster.

    Schermopname van het AKS-cluster met de knop Aanbevelingen instellen.

  2. De beschikbare Prometheus- en platformwaarschuwingsregels worden weergegeven met de Prometheus-regels georganiseerd op pod-, cluster- en knooppuntniveau. Schakel een groep Prometheus-regels in om die set regels in te schakelen. Vouw de groep uit om de afzonderlijke regels weer te geven. U kunt de standaardinstellingen behouden of afzonderlijke regels uitschakelen en hun naam en ernst bewerken.

    Schermopname van het inschakelen van een Prometheus-waarschuwingsregel.

  3. Schakel een metrische platformregel in om die regel in te schakelen. U kunt de regel uitbreiden om de details te wijzigen, zoals de naam, ernst en drempelwaarde.

    Schermopname van het inschakelen van waarschuwingsregel voor metrische platformgegevens.

  4. Selecteer een of meer meldingsmethoden om een nieuwe actiegroep te maken of selecteer een bestaande actiegroep met de meldingsgegevens voor deze set waarschuwingsregels.

  5. Klik op Opslaan om de regelgroep op te slaan.

Zodra de regelgroep is gemaakt, kunt u niet dezelfde pagina in de portal gebruiken om de regels te bewerken. Voor metrische prometheus-gegevens moet u de regelgroep bewerken om eventuele regels erin te wijzigen, inclusief het inschakelen van regels die nog niet zijn ingeschakeld. Voor metrische platformgegevens kunt u elke waarschuwingsregel bewerken.

  1. Selecteer aanbevelingen instellen in het menu Waarschuwingen voor uw cluster. Regels of regelgroepen die al zijn gemaakt, worden gelabeld als Al gemaakt.

  2. Vouw de regel of regelgroep uit. Klik op Regelgroep weergeven voor Prometheus en Waarschuwingsregel weergeven voor metrische platformgegevens.

    Schermopname van de optie Regelgroep weergeven.

  3. Voor Prometheus-regelgroepen:

    1. selecteer Regels om de waarschuwingsregels in de groep weer te geven.

    2. Klik op het pictogram Bewerken naast een regel die u wilt wijzigen. Gebruik de richtlijnen in Een waarschuwingsregel maken om de regel te wijzigen.

      Schermopname van de optie voor het bewerken van waarschuwingsregels voor Prometheus.

    3. Wanneer u klaar bent met het bewerken van regels in de groep, klikt u op Opslaan om de regelgroep op te slaan.

  4. Voor metrische platformgegevens:

    1. klik op Bewerken om de details voor de waarschuwingsregel te openen. Gebruik de richtlijnen in Een waarschuwingsregel maken om de regel te wijzigen.

      Schermopname van de optie voor het bewerken van de metrische platformregel.

Waarschuwingsregelgroep uitschakelen

Schakel de regelgroep uit om te stoppen met het ontvangen van waarschuwingen van de regels erin.

  1. Bekijk de regelregel voor de Prometheus-waarschuwingsgroep of de waarschuwingsregel voor metrische platformgegevens, zoals beschreven in Aanbevolen waarschuwingsregels bewerken.

  2. Selecteer In het menu Overzicht de optie Uitschakelen.

    Schermopname van de optie voor het uitschakelen van een regelgroep.

De volgende tabellen bevatten de details van elke aanbevolen waarschuwingsregel. Broncode voor elke code is beschikbaar in GitHub , samen met handleidingen voor probleemoplossing van de Prometheus-community.

Waarschuwingsregels voor Prometheus-community

Waarschuwingen op clusterniveau

Naam van waarschuwing Beschrijving Standaarddrempelwaarde Tijdsbestek (minuten)
KubeCPUQuotaOvercommit Het quotum voor CPU-resources dat is toegewezen aan naamruimten overschrijdt de beschikbare CPU-resources op de knooppunten van het cluster met meer dan 50% voor de afgelopen 5 minuten. >1.5 5
KubeMemoryQuotaOvercommit Het quotum voor geheugenresources dat is toegewezen aan naamruimten overschrijdt de beschikbare geheugenresources op de knooppunten van het cluster met meer dan 50% voor de afgelopen 5 minuten. >1.5 5
Aantal door OOM vermoorde containers is groter dan 0 Een of meer containers binnen pods zijn de afgelopen 5 minuten gedood vanwege OOM-gebeurtenissen (out-of-memory). >0 5
KubeClientErrors Het aantal clientfouten (HTTP-statuscodes vanaf 5xx) in Kubernetes API-aanvragen overschrijdt 1% van de totale API-aanvraagsnelheid voor de afgelopen 15 minuten. >0.01 15
KubePersistentVolumeFillingUp Het permanente volume wordt gevuld en verwacht dat er gedurende de afgelopen 6 uur onvoldoende ruimte beschikbaar is die wordt geëvalueerd op de beschikbare ruimteverhouding, gebruikte ruimte en voorspelde lineaire trend van beschikbare ruimte. Deze voorwaarden worden in de afgelopen 60 minuten geëvalueerd. N.v.t. 60
KubePersistentVolumeInodesFillingUp In de afgelopen 15 minuten is minder dan 3% van de inodes binnen een permanent volume beschikbaar. <0.03 15
KubePersistentVolumeErrors Een of meer permanente volumes bevinden zich in een mislukte of in behandeling zijnde fase voor de afgelopen 5 minuten. >0 5
KubeContainerWaiting Een of meer containers binnen Kubernetes-pods hebben een wachtstatus voor de afgelopen 60 minuten. >0 60
KubeDaemonSetNotScheduled Een of meer pods worden gedurende de afgelopen 15 minuten niet gepland op een knooppunt. >0 15
KubeDaemonSetMisScheduled Een of meer pods worden de afgelopen 15 minuten verkeerd gepland binnen het cluster. >0 15
KubeQuotaAlmostFull Het gebruik van Kubernetes-resourcequota ligt tussen de 90% en 100% van de vaste limieten voor de afgelopen 15 minuten. >0,9 <1 15

Waarschuwingen op knooppuntniveau

Naam van waarschuwing Beschrijving Standaarddrempelwaarde Tijdsbestek (minuten)
KubeNodeUnreachable Een knooppunt is de afgelopen 15 minuten niet bereikbaar. 1 15
KubeNodeReadinessFlapping De gereedheidsstatus van een knooppunt is gedurende de afgelopen 15 minuten meer dan 2 keer gewijzigd. 2 15

Waarschuwingen op podniveau

Naam van waarschuwing Beschrijving Standaarddrempelwaarde Tijdsbestek (minuten)
Gemiddeld HW-gebruik is groter dan 80% Het gemiddelde gebruik van permanente volumes (CV's) op pods overschrijdt 80% voor de afgelopen 15 minuten. >0.8 15
KubeDeploymentReplicasMismatch Het gewenste aantal replica's en het aantal beschikbare replica's voor de afgelopen tien minuten komt niet overeen. N.v.t. 10
KubeStatefulSetReplicasMismatch Het aantal kant-en-klare replica's in de StatefulSet komt niet overeen met het totale aantal replica's in de StatefulSet voor de afgelopen 15 minuten. N.v.t. 15
KubeHpaReplicasMismatch De horizontale automatische schaalaanpassing van pods in het cluster komt niet overeen met het gewenste aantal replica's voor de afgelopen 15 minuten. N.v.t. 15
KubeHpaMaxedOut De horizontale automatische schaalaanpassing van pods (HPA) in het cluster wordt gedurende de afgelopen 15 minuten uitgevoerd op de maximumreplica's. N.v.t. 15
KubePodCrashLooping Een of meer pods bevinden zich in een CrashLoopBackOff-voorwaarde, waarbij de pod continu vastloopt na het opstarten en de laatste 15 minuten niet kan worden hersteld. >=1 15
KubeJobStale Ten minste één taakexemplaren zijn de afgelopen 6 uur niet voltooid. >0 360
Podcontainer opnieuw opgestart in afgelopen 1 uur Een of meer containers binnen pods in het Kubernetes-cluster zijn in het afgelopen uur minstens één keer opnieuw opgestart. >0 15
De status Gereed van pods is minder dan 80% Het percentage pods in een gereede status valt onder de 80% voor elke implementatie of daemonset in het Kubernetes-cluster voor de afgelopen 5 minuten. <0.8 5
Het aantal pods met de status Mislukt is groter dan 0. Een of meer pods hebben een mislukte status voor de afgelopen 5 minuten. >0 5
KubePodNotReadyByController Een of meer pods hebben niet de status Gereed (bijvoorbeeld in de fase In behandeling of Onbekend) voor de afgelopen 15 minuten. >0 15
KubeStatefulSetGenerationMismatch De waargenomen generatie van een Kubernetes StatefulSet komt niet overeen met de metagegevensgeneratie voor de afgelopen 15 minuten. N.v.t. 15
KubeJobFailed Een of meer Kubernetes-taken zijn in de afgelopen 15 minuten mislukt. >0 15
Gemiddeld CPU-gebruik per container is groter dan 95% Het gemiddelde CPU-gebruik per container overschrijdt 95% voor de afgelopen 5 minuten. >0.95 5
Gemiddeld geheugengebruik per container is groter dan 95% Het gemiddelde geheugengebruik per container overschrijdt 95% voor de afgelopen 5 minuten. >0.95 10
KubeletPodStartUpLatencyHigh Het 99e percentiel van de opstartlatentie van de pod overschrijdt 60 seconden voor de afgelopen 10 minuten. >60 10

Waarschuwingsregels voor metrische platformgegevens

Naam van waarschuwing Beschrijving Standaarddrempelwaarde Tijdsbestek (minuten)
Cpu-percentage knooppunt is groter dan 95% Het CPU-percentage van het knooppunt is de afgelopen 5 minuten groter dan 95%. 95 5
Percentage werkset voor knooppuntgeheugen is groter dan 100% Het percentage werksets voor het knooppuntgeheugen is de afgelopen 5 minuten groter dan 95%. 100 5

Waarschuwingen voor metrische gegevens over verouderde containerinzichten (preview)

Metrische regels in Container Insights worden op 31 mei 2024 buiten gebruik gesteld (dit werd eerder aangekondigd als 14 maart 2026). Deze regels zijn niet beschikbaar voor het maken met behulp van de portal sinds 15 augustus 2023. Deze regels waren in openbare preview, maar worden buiten gebruik gesteld zonder algemene beschikbaarheid te bereiken, omdat de nieuwe aanbevolen metrische waarschuwingen die in dit artikel worden beschreven, nu beschikbaar zijn.

Als u deze verouderde waarschuwingsregels al hebt ingeschakeld, moet u deze uitschakelen en de nieuwe ervaring inschakelen.

Waarschuwingsregels voor metrische gegevens uitschakelen

  1. Selecteer aanbevolen waarschuwingen (preview) in het menu Inzichten voor uw cluster.
  2. Wijzig de status voor elke waarschuwingsregel in Uitgeschakeld.

Volgende stappen