Aanbevolen waarschuwingsregels voor Kubernetes-clusters
Waarschuwingen in Azure Monitor identificeren proactief problemen met betrekking tot de status en prestaties van uw Azure-resources. In dit artikel wordt beschreven hoe u een set aanbevolen waarschuwingsregels voor metrische gegevens inschakelt en bewerkt die vooraf zijn gedefinieerd voor uw Kubernetes-clusters.
Typen waarschuwingsregels
Er zijn twee typen waarschuwingsregels voor metrische gegevens die worden gebruikt met Kubernetes-clusters.
Type waarschuwingsregel | Beschrijving |
---|---|
Waarschuwingsregels voor metrische gegevens van Prometheus (preview) | Gebruik metrische gegevens die zijn verzameld uit uw Kubernetes-cluster in een beheerde Azure Monitor-service voor Prometheus. Voor deze regels moet Prometheus zijn ingeschakeld op uw cluster en worden opgeslagen in een Prometheus-regelgroep. |
Waarschuwingsregels voor metrische platformgegevens | Gebruik metrische gegevens die automatisch worden verzameld uit uw AKS-cluster en worden opgeslagen als Waarschuwingsregels van Azure Monitor. |
Aanbevolen waarschuwingsregels inschakelen
Gebruik een van de volgende methoden om de aanbevolen waarschuwingsregels voor uw cluster in te schakelen. U kunt zowel prometheus- als waarschuwingsregels voor metrische platformgegevens inschakelen voor hetzelfde cluster.
Met behulp van Azure Portal wordt de Prometheus-regelgroep gemaakt in dezelfde regio als het cluster.
Selecteer aanbevelingen instellen in het menu Waarschuwingen voor uw cluster.
De beschikbare Prometheus- en platformwaarschuwingsregels worden weergegeven met de Prometheus-regels georganiseerd op pod-, cluster- en knooppuntniveau. Schakel een groep Prometheus-regels in om die set regels in te schakelen. Vouw de groep uit om de afzonderlijke regels weer te geven. U kunt de standaardinstellingen behouden of afzonderlijke regels uitschakelen en hun naam en ernst bewerken.
Schakel een metrische platformregel in om die regel in te schakelen. U kunt de regel uitbreiden om de details te wijzigen, zoals de naam, ernst en drempelwaarde.
Selecteer een of meer meldingsmethoden om een nieuwe actiegroep te maken of selecteer een bestaande actiegroep met de meldingsgegevens voor deze set waarschuwingsregels.
Klik op Opslaan om de regelgroep op te slaan.
Aanbevolen waarschuwingsregels bewerken
Zodra de regelgroep is gemaakt, kunt u niet dezelfde pagina in de portal gebruiken om de regels te bewerken. Voor metrische prometheus-gegevens moet u de regelgroep bewerken om eventuele regels erin te wijzigen, inclusief het inschakelen van regels die nog niet zijn ingeschakeld. Voor metrische platformgegevens kunt u elke waarschuwingsregel bewerken.
Selecteer aanbevelingen instellen in het menu Waarschuwingen voor uw cluster. Regels of regelgroepen die al zijn gemaakt, worden gelabeld als Al gemaakt.
Vouw de regel of regelgroep uit. Klik op Regelgroep weergeven voor Prometheus en Waarschuwingsregel weergeven voor metrische platformgegevens.
Voor Prometheus-regelgroepen:
selecteer Regels om de waarschuwingsregels in de groep weer te geven.
Klik op het pictogram Bewerken naast een regel die u wilt wijzigen. Gebruik de richtlijnen in Een waarschuwingsregel maken om de regel te wijzigen.
Wanneer u klaar bent met het bewerken van regels in de groep, klikt u op Opslaan om de regelgroep op te slaan.
Voor metrische platformgegevens:
klik op Bewerken om de details voor de waarschuwingsregel te openen. Gebruik de richtlijnen in Een waarschuwingsregel maken om de regel te wijzigen.
Waarschuwingsregelgroep uitschakelen
Schakel de regelgroep uit om te stoppen met het ontvangen van waarschuwingen van de regels erin.
Bekijk de regelregel voor de Prometheus-waarschuwingsgroep of de waarschuwingsregel voor metrische platformgegevens, zoals beschreven in Aanbevolen waarschuwingsregels bewerken.
Selecteer In het menu Overzicht de optie Uitschakelen.
Details van aanbevolen waarschuwingsregel
De volgende tabellen bevatten de details van elke aanbevolen waarschuwingsregel. Broncode voor elke code is beschikbaar in GitHub , samen met handleidingen voor probleemoplossing van de Prometheus-community.
Waarschuwingsregels voor Prometheus-community
Waarschuwingen op clusterniveau
Naam van waarschuwing | Beschrijving | Standaarddrempelwaarde | Tijdsbestek (minuten) |
---|---|---|---|
KubeCPUQuotaOvercommit | Het quotum voor CPU-resources dat is toegewezen aan naamruimten overschrijdt de beschikbare CPU-resources op de knooppunten van het cluster met meer dan 50% voor de afgelopen 5 minuten. | >1.5 | 5 |
KubeMemoryQuotaOvercommit | Het quotum voor geheugenresources dat is toegewezen aan naamruimten overschrijdt de beschikbare geheugenresources op de knooppunten van het cluster met meer dan 50% voor de afgelopen 5 minuten. | >1.5 | 5 |
Aantal door OOM vermoorde containers is groter dan 0 | Een of meer containers binnen pods zijn de afgelopen 5 minuten gedood vanwege OOM-gebeurtenissen (out-of-memory). | >0 | 5 |
KubeClientErrors | Het aantal clientfouten (HTTP-statuscodes vanaf 5xx) in Kubernetes API-aanvragen overschrijdt 1% van de totale API-aanvraagsnelheid voor de afgelopen 15 minuten. | >0.01 | 15 |
KubePersistentVolumeFillingUp | Het permanente volume wordt gevuld en verwacht dat er gedurende de afgelopen 6 uur onvoldoende ruimte beschikbaar is die wordt geëvalueerd op de beschikbare ruimteverhouding, gebruikte ruimte en voorspelde lineaire trend van beschikbare ruimte. Deze voorwaarden worden in de afgelopen 60 minuten geëvalueerd. | N.v.t. | 60 |
KubePersistentVolumeInodesFillingUp | In de afgelopen 15 minuten is minder dan 3% van de inodes binnen een permanent volume beschikbaar. | <0.03 | 15 |
KubePersistentVolumeErrors | Een of meer permanente volumes bevinden zich in een mislukte of in behandeling zijnde fase voor de afgelopen 5 minuten. | >0 | 5 |
KubeContainerWaiting | Een of meer containers binnen Kubernetes-pods hebben een wachtstatus voor de afgelopen 60 minuten. | >0 | 60 |
KubeDaemonSetNotScheduled | Een of meer pods worden gedurende de afgelopen 15 minuten niet gepland op een knooppunt. | >0 | 15 |
KubeDaemonSetMisScheduled | Een of meer pods worden de afgelopen 15 minuten verkeerd gepland binnen het cluster. | >0 | 15 |
KubeQuotaAlmostFull | Het gebruik van Kubernetes-resourcequota ligt tussen de 90% en 100% van de vaste limieten voor de afgelopen 15 minuten. | >0,9 <1 | 15 |
Waarschuwingen op knooppuntniveau
Naam van waarschuwing | Beschrijving | Standaarddrempelwaarde | Tijdsbestek (minuten) |
---|---|---|---|
KubeNodeUnreachable | Een knooppunt is de afgelopen 15 minuten niet bereikbaar. | 1 | 15 |
KubeNodeReadinessFlapping | De gereedheidsstatus van een knooppunt is gedurende de afgelopen 15 minuten meer dan 2 keer gewijzigd. | 2 | 15 |
Waarschuwingen op podniveau
Naam van waarschuwing | Beschrijving | Standaarddrempelwaarde | Tijdsbestek (minuten) |
---|---|---|---|
Gemiddeld HW-gebruik is groter dan 80% | Het gemiddelde gebruik van permanente volumes (CV's) op pods overschrijdt 80% voor de afgelopen 15 minuten. | >0.8 | 15 |
KubeDeploymentReplicasMismatch | Het gewenste aantal replica's en het aantal beschikbare replica's voor de afgelopen tien minuten komt niet overeen. | N.v.t. | 10 |
KubeStatefulSetReplicasMismatch | Het aantal kant-en-klare replica's in de StatefulSet komt niet overeen met het totale aantal replica's in de StatefulSet voor de afgelopen 15 minuten. | N.v.t. | 15 |
KubeHpaReplicasMismatch | De horizontale automatische schaalaanpassing van pods in het cluster komt niet overeen met het gewenste aantal replica's voor de afgelopen 15 minuten. | N.v.t. | 15 |
KubeHpaMaxedOut | De horizontale automatische schaalaanpassing van pods (HPA) in het cluster wordt gedurende de afgelopen 15 minuten uitgevoerd op de maximumreplica's. | N.v.t. | 15 |
KubePodCrashLooping | Een of meer pods bevinden zich in een CrashLoopBackOff-voorwaarde, waarbij de pod continu vastloopt na het opstarten en de laatste 15 minuten niet kan worden hersteld. | >=1 | 15 |
KubeJobStale | Ten minste één taakexemplaren zijn de afgelopen 6 uur niet voltooid. | >0 | 360 |
Podcontainer opnieuw opgestart in afgelopen 1 uur | Een of meer containers binnen pods in het Kubernetes-cluster zijn in het afgelopen uur minstens één keer opnieuw opgestart. | >0 | 15 |
De status Gereed van pods is minder dan 80% | Het percentage pods in een gereede status valt onder de 80% voor elke implementatie of daemonset in het Kubernetes-cluster voor de afgelopen 5 minuten. | <0.8 | 5 |
Het aantal pods met de status Mislukt is groter dan 0. | Een of meer pods hebben een mislukte status voor de afgelopen 5 minuten. | >0 | 5 |
KubePodNotReadyByController | Een of meer pods hebben niet de status Gereed (bijvoorbeeld in de fase In behandeling of Onbekend) voor de afgelopen 15 minuten. | >0 | 15 |
KubeStatefulSetGenerationMismatch | De waargenomen generatie van een Kubernetes StatefulSet komt niet overeen met de metagegevensgeneratie voor de afgelopen 15 minuten. | N.v.t. | 15 |
KubeJobFailed | Een of meer Kubernetes-taken zijn in de afgelopen 15 minuten mislukt. | >0 | 15 |
Gemiddeld CPU-gebruik per container is groter dan 95% | Het gemiddelde CPU-gebruik per container overschrijdt 95% voor de afgelopen 5 minuten. | >0.95 | 5 |
Gemiddeld geheugengebruik per container is groter dan 95% | Het gemiddelde geheugengebruik per container overschrijdt 95% voor de afgelopen 5 minuten. | >0.95 | 10 |
KubeletPodStartUpLatencyHigh | Het 99e percentiel van de opstartlatentie van de pod overschrijdt 60 seconden voor de afgelopen 10 minuten. | >60 | 10 |
Waarschuwingsregels voor metrische platformgegevens
Naam van waarschuwing | Beschrijving | Standaarddrempelwaarde | Tijdsbestek (minuten) |
---|---|---|---|
Cpu-percentage knooppunt is groter dan 95% | Het CPU-percentage van het knooppunt is de afgelopen 5 minuten groter dan 95%. | 95 | 5 |
Percentage werkset voor knooppuntgeheugen is groter dan 100% | Het percentage werksets voor het knooppuntgeheugen is de afgelopen 5 minuten groter dan 95%. | 100 | 5 |
Waarschuwingen voor metrische gegevens over verouderde containerinzichten (preview)
Metrische regels in Container Insights worden op 31 mei 2024 buiten gebruik gesteld (dit werd eerder aangekondigd als 14 maart 2026). Deze regels zijn niet beschikbaar voor het maken met behulp van de portal sinds 15 augustus 2023. Deze regels waren in openbare preview, maar worden buiten gebruik gesteld zonder algemene beschikbaarheid te bereiken, omdat de nieuwe aanbevolen metrische waarschuwingen die in dit artikel worden beschreven, nu beschikbaar zijn.
Als u deze verouderde waarschuwingsregels al hebt ingeschakeld, moet u deze uitschakelen en de nieuwe ervaring inschakelen.
Waarschuwingsregels voor metrische gegevens uitschakelen
- Selecteer aanbevolen waarschuwingen (preview) in het menu Inzichten voor uw cluster.
- Wijzig de status voor elke waarschuwingsregel in Uitgeschakeld.
Volgende stappen
- Lees meer over de verschillende typen waarschuwingsregels in Azure Monitor.
- Lees meer over waarschuwingsregelgroepen in de beheerde Azure Monitor-service voor Prometheus.