Doporučená pravidla upozornění pro clustery Kubernetes

Výstrahy ve službě Azure Monitor aktivně identifikují problémy související se stavem a výkonem vašich prostředků Azure. Tento článek popisuje, jak povolit a upravit sadu doporučených pravidel upozornění metrik, která jsou předdefinovaná pro vaše clustery Kubernetes.

Typy pravidel upozornění

U clusterů Kubernetes se používají dva typy pravidel upozornění na metriky.

Typ pravidla upozornění Popis
Pravidla upozornění metrik Prometheus (Preview) Použijte data metrik shromážděná z clusteru Kubernetes ve spravované službě Azure Monitoru pro Prometheus. Tato pravidla vyžadují povolení prometheus ve vašem clusteru a jsou uložená ve skupině pravidel Prometheus.
Pravidla upozornění na metriky platformy Použijte metriky, které se automaticky shromažďují z clusteru AKS a ukládají se jako pravidla upozornění služby Azure Monitor.

Pomocí jedné z následujících metod povolte doporučená pravidla upozornění pro váš cluster. Pro stejný cluster můžete povolit pravidla upozornění na metriku Prometheus i platformu.

Pomocí webu Azure Portal se skupina pravidel Prometheus vytvoří ve stejné oblasti jako cluster.

  1. V nabídce Upozornění pro váš cluster vyberte Nastavit doporučení.

    Snímek obrazovky clusteru AKS s tlačítkem Nastavit doporučení

  2. Dostupná pravidla upozornění platformy Prometheus a platformy se zobrazují s pravidly prometheus uspořádanými podle podů, clusterů a úrovní uzlů. Pokud chcete tuto sadu pravidel povolit, přepněte skupinu pravidel Prometheus. Rozbalením skupiny zobrazíte jednotlivá pravidla. Můžete ponechat výchozí hodnoty nebo zakázat jednotlivá pravidla a upravit jejich název a závažnost.

    Snímek obrazovky s povolením pravidla upozornění Prometheus

  3. Přepnutím pravidla metriky platformy toto pravidlo povolíte. Pravidlo můžete rozšířit a upravit jeho podrobnosti, jako je název, závažnost a prahová hodnota.

    Snímek obrazovky s povolením pravidla upozornění na metriku platformy

  4. Vyberte jednu nebo více metod oznámení, abyste vytvořili novou skupinu akcí, nebo vyberte existující skupinu akcí s podrobnostmi oznámení pro tuto sadu pravidel upozornění.

  5. Kliknutím na Uložit uložte skupinu pravidel.

Po vytvoření skupiny pravidel nemůžete k úpravám pravidel použít stejnou stránku na portálu. U metrik Prometheus musíte upravit skupinu pravidel a upravit v ní všechna pravidla, včetně povolení všech pravidel, která ještě nejsou povolená. U metrik platformy můžete upravit každé pravidlo upozornění.

  1. V nabídce Upozornění pro váš cluster vyberte Nastavit doporučení. Všechna pravidla nebo skupiny pravidel, které už byly vytvořeny, budou označeny jako již vytvořené.

  2. Rozbalte pravidlo nebo skupinu pravidel. Klikněte na Zobrazit skupinu pravidel pro Prometheus a Zobrazit pravidlo upozornění pro metriky platformy.

    Snímek obrazovky s možností zobrazit skupinu pravidel

  3. Pro skupiny pravidel Prometheus:

    1. výběrem možnosti Pravidla zobrazíte pravidla upozornění ve skupině.

    2. Klikněte na ikonu Upravit vedle pravidla, které chcete upravit. K úpravě pravidla použijte doprovodné materiály v části Vytvoření pravidla upozornění.

      Snímek obrazovky s možností upravit pravidla upozornění Prometheus

    3. Po dokončení úprav pravidel ve skupině klikněte na Uložit a uložte skupinu pravidel.

  4. Pro metriky platformy:

    1. Kliknutím na tlačítko Upravit otevřete podrobnosti pravidla upozornění. K úpravě pravidla použijte doprovodné materiály v části Vytvoření pravidla upozornění.

      Snímek obrazovky s možností upravit pravidlo metriky platformy

Zakázání skupiny pravidel upozornění

Zakažte skupinu pravidel, aby přestala přijímat výstrahy z pravidel v ní.

  1. Podívejte se na skupinu pravidel upozornění pro Prometheus nebo pravidlo upozornění na metriku platformy, jak je popsáno v tématu Úpravy doporučených pravidel upozornění.

  2. V nabídce Přehled vyberte Zakázat.

    Snímek obrazovky s možností zakázat skupinu pravidel

Následující tabulky uvádějí podrobnosti o jednotlivých doporučených pravidlech upozornění. Zdrojový kód pro každý z nich je k dispozici na GitHubu spolu s průvodci odstraňováním potíží od komunity Prometheus.

Pravidla upozornění komunity Prometheus

Upozornění na úrovni clusteru

Název upozornění Popis Výchozí prahová hodnota Časový rámec (minuty)
KubeCPUQuotaOvercommit Kvóta prostředků procesoru přidělená oborům názvů překračuje dostupné prostředky procesoru v uzlech clusteru o více než 50 % za posledních 5 minut. >1.5 5
KubeMemoryQuotaOvercommit Kvóta prostředků paměti přidělená oborům názvů překračuje dostupné paměťové prostředky v uzlech clusteru o více než 50 % za posledních 5 minut. >1.5 5
Počet kontejnerů zabitých OOM je větší než 0 Jeden nebo více kontejnerů v rámci podů bylo zabito kvůli událostem mimo paměť (OOM) za posledních 5 minut. >0 5
KubeClientErrors Míra chyb klienta (stavové kódy HTTP začínající 5xx) v požadavcích rozhraní API Kubernetes překračuje 1 % celkové frekvence požadavků rozhraní API za posledních 15 minut. >0.01 15
KubePersistentVolumeFillingUp Trvalý objem se zaplňuje a očekává se, že vyhodnocuje dostupný prostor vyhodnocovaný podle dostupného poměru místa, využitého prostoru a předpověděného lineárního trendu dostupného prostoru za posledních 6 hodin. Tyto podmínky se vyhodnocují za posledních 60 minut. 60
KubePersistentVolumeInodesFillingUp Během posledních 15 minut je k dispozici méně než 3 % uzlů inode v rámci trvalého svazku. <0.03 15
KubePersistentVolumeErrors Jeden nebo více trvalých svazků je ve fázi selhání nebo čekání na vyřízení za posledních 5 minut. >0 5
KubeContainerWaiting Nejméně jeden kontejner v rámci podů Kubernetes je ve stavu čekání za posledních 60 minut. >0 60
KubeDaemonSetNotScheduled Nejméně jeden pod není naplánovaný na žádném uzlu za posledních 15 minut. >0 15
KubeDaemonSetMisScheduled Nejméně jeden pod se během posledních 15 minut zmeškal v clusteru. >0 15
KubeQuotaAlmostFull Využití kvót prostředků Kubernetes je mezi 90 % a 100 % pevných limitů za posledních 15 minut. >0,9 <1 15

Upozornění na úrovni uzlu

Název upozornění Popis Výchozí prahová hodnota Časový rámec (minuty)
KubeNodeUnreachable Uzel je za posledních 15 minut nedostupný. 0 15
KubeNodeReadinessFlapping Stav připravenosti uzlu se během posledních 15 minut změnil více než 2krát. 2 15

Upozornění na úrovni podů

Název upozornění Popis Výchozí prahová hodnota Časový rámec (minuty)
Průměrné využití pv je větší než 80 % Průměrné využití trvalých svazků na podech překračuje 80 % za posledních 15 minut. >0.8 15
KubeDeploymentReplicasMismatch Existuje neshoda mezi požadovaným počtem replik a počtem dostupných replik za posledních 10 minut. 10
KubeStatefulSetReplicasMismatch Počet připravených replik v StatefulSet neodpovídá celkovému počtu replik v sadě StatefulSet za posledních 15 minut. 15
KubeHpaReplicasMismatch Horizontální automatické škálování podů v clusteru neodpovídá požadovanému počtu replik za posledních 15 minut. 15
KubeHpaMaxedOut Horizontální automatické škálování podů (HPA) v clusteru běží na maximálních replikách za posledních 15 minut. 15
KubePodCrashLooping Jeden nebo více podů je v pod podmínky CrashLoopBackOff, kde se pod po spuštění neustále chybově ukončí a po posledních 15 minutách se úspěšně obnoví. >=1 15
KubeJobStale Nejméně jedna instance úlohy se po dobu posledních 6 hodin úspěšně nedokončila. >0 360
Kontejner podů se restartoval za posledních 1 hodinu. Nejméně jeden kontejner v rámci podů v clusteru Kubernetes se během poslední hodiny restartoval alespoň jednou. >0 15
Stav připravených podů je menší než 80 % Procento podů v připraveném stavu klesne podů za posledních 5 minut podů podů do 80 % pro jakékoli nasazení nebo démona v clusteru Kubernetes. <0.8 5
Počet podů ve stavu selhání je větší než 0. Nejméně jeden pod je ve stavu selhání za posledních 5 minut. >0 5
KubePodNotReadyByController Nejméně jeden pod není ve stavu připraveno (tj. ve fázi Čeká na vyřízení nebo Neznámý) za posledních 15 minut. >0 15
KubeStatefulSetGenerationMismatch Pozorované generování StatefulSet Kubernetes neodpovídá jeho generování metadat za posledních 15 minut. 15
KubeJobFailed Během posledních 15 minut došlo k selhání jedné nebo několika úloh Kubernetes. >0 15
Průměrné využití procesoru na kontejner je větší než 95 % Průměrné využití procesoru na kontejner za posledních 5 minut překračuje 95 %. >0.95 5
Průměrné využití paměti na kontejner je větší než 95 % Průměrné využití paměti na kontejner překračuje 95 % za posledních 5 minut. >0.95 10
KubeletPodStartUpLatencyHigh 99. percentil latence spuštění podu překračuje 60 sekund za posledních 10 minut. >60 10

Pravidla upozornění metriky platformy

Název upozornění Popis Výchozí prahová hodnota Časový rámec (minuty)
Procento procesoru uzlu je větší než 95 % Procento procesoru uzlu je za posledních 5 minut větší než 95 %. 95 5
Procento pracovní sady paměti uzlu je větší než 100 % Procento pracovní sady paměti uzlu je za posledních 5 minut větší než 95 %. 100 5

Upozornění na metriky Starší verze Container Insights (Preview)

Pravidla metrik v Container Insights budou vyřazena 31. května 2024 (to bylo dříve oznámeno 14. března 2026). Tato pravidla nebyla k dispozici k vytvoření pomocí portálu od 15. srpna 2023. Tato pravidla byla ve verzi Public Preview, ale budou vyřazena bez dosažení obecné dostupnosti, protože jsou nyní k dispozici nová doporučená upozornění na metriky popsaná v tomto článku.

Pokud jste už tato starší pravidla upozornění povolili, měli byste je zakázat a povolit nové prostředí.

Zakázání pravidel upozornění na metriky

  1. V nabídce Přehledy vašeho clusteru vyberte Doporučená upozornění (Preview).
  2. Změňte stav pro každé pravidlo upozornění na Zakázáno.

Další kroky