Kubernetes-fürtökre vonatkozó ajánlott riasztási szabályok

Az Azure Monitor riasztásai proaktívan azonosítják az Azure-erőforrások állapotával és teljesítményével kapcsolatos problémákat. Ez a cikk bemutatja, hogyan engedélyezheti és szerkesztheti a Kubernetes-fürtökhöz előre definiált ajánlott metrikariasztási szabályokat.

Riasztási szabályok típusai

A Kubernetes-fürtökhöz kétféle metrikariasztási szabály használható.

Riasztási szabály típusa Leírás
Prometheus-metrikariasztási szabályok (előzetes verzió) A Kubernetes-fürtből gyűjtött metrikaadatok használata a Prometheushoz készült Azure Monitor által felügyelt szolgáltatásban. Ezek a szabályok megkövetelik , hogy a Prometheus engedélyezve legyen a fürtön , és egy Prometheus-szabálycsoportban legyenek tárolva.
Platformmetrika riasztási szabályai Olyan metrikákat használjon, amelyeket a rendszer automatikusan gyűjt az AKS-fürtből, és Azure Monitor-riasztási szabályokként vannak tárolva.

A fürthöz ajánlott riasztási szabályok engedélyezéséhez használja az alábbi módszerek egyikét. Engedélyezheti ugyanahhoz a fürthöz a Prometheus és a platformmetrika riasztási szabályait is.

Az Azure Portal használatával a Prometheus szabálycsoport ugyanabban a régióban jön létre, mint a fürt.

  1. A fürt Riasztások menüjében válassza a Javaslatok beállítása lehetőséget.

    Képernyőkép az AKS-fürtről, amelyen a Javaslatok beállítása gomb látható.

  2. Az elérhető Prometheus- és platformriasztási szabályok pod-, fürt- és csomópontszint szerint rendezett Prometheus-szabályokkal jelennek meg. Állítsa be a Prometheus-szabályok egy csoportját az adott szabálykészlet engedélyezéséhez. Bontsa ki a csoportot az egyes szabályok megtekintéséhez. Meghagyhatja az alapértelmezett beállításokat, vagy letilthatja az egyes szabályokat, és szerkesztheti a nevüket és súlyosságukat.

    Képernyőkép a Prometheus riasztási szabály engedélyezéséről.

  3. Platformmetrikaszabály váltása a szabály engedélyezéséhez. A szabályt kibontva módosíthatja annak részleteit, például a nevet, a súlyosságot és a küszöbértéket.

    Képernyőkép a platformmetrika riasztási szabályának engedélyezéséről.

  4. Válasszon ki egy vagy több értesítési módszert egy új műveletcsoport létrehozásához, vagy válasszon ki egy meglévő műveletcsoportot a riasztási szabályok értesítési adataival.

  5. Kattintson a Mentés gombra a szabálycsoport mentéséhez.

A szabálycsoport létrehozása után nem szerkesztheti a szabályokat a portál ugyanazon lapján. A Prometheus-metrikák esetében a szabálycsoportot szerkesztenie kell a benne lévő szabályok módosításához, beleértve a még nem engedélyezett szabályok engedélyezését is. Platformmetrikák esetén szerkesztheti az egyes riasztási szabályokat.

  1. A fürt Riasztások menüjében válassza a Javaslatok beállítása lehetőséget. A már létrehozott szabályok és szabálycsoportok már létrehozottként lesznek megjelölve.

  2. Bontsa ki a szabályt vagy szabálycsoportot. Kattintson a Prometheus szabálycsoportjának megtekintésére és a platformmetrikák riasztási szabályának megtekintésére.

    Képernyőkép a szabálycsoport nézetéről.

  3. Prometheus-szabálycsoportok esetén:

    1. válassza a Szabályok lehetőséget a csoport riasztási szabályainak megtekintéséhez.

    2. Kattintson a módosítani kívánt szabály melletti Szerkesztés ikonra. A szabály módosításához használja a riasztási szabály létrehozása című útmutatót.

      Képernyőkép a Prometheus riasztási szabályainak szerkesztéséről.

    3. Ha befejezte a szabályok szerkesztését a csoportban, kattintson a Mentés gombra a szabálycsoport mentéséhez.

  4. Platformmetrikák esetén:

    1. Kattintson a Szerkesztés gombra a riasztási szabály részleteinek megnyitásához. A szabály módosításához használja a riasztási szabály létrehozása című útmutatót.

      Képernyőkép a platformmetrikaszabály szerkesztésének lehetőségéről.

Riasztási szabálycsoport letiltása

Tiltsa le a szabálycsoportot, hogy ne kapjon riasztásokat a benne lévő szabályoktól.

  1. Tekintse meg a Prometheus riasztási szabálycsoportját vagy platformmetrikai riasztási szabályát az ajánlott riasztási szabályok szerkesztésében leírtak szerint.

  2. Az Áttekintés menüben válassza a Letiltás lehetőséget.

    Képernyőkép egy szabálycsoport letiltásának lehetőségéről.

Az alábbi táblázatok az egyes ajánlott riasztási szabályok részleteit sorolják fel. Mindegyik forráskód elérhető a GitHubon a Prometheus-közösség hibaelhárítási útmutatóival együtt.

A Prometheus közösségi riasztási szabályai

Fürtszintű riasztások

Riasztás neve Leírás Alapértelmezett küszöbérték Időkeret (perc)
KubeCPUQuotaOvercommit A névterekhez lefoglalt CPU-erőforráskvóta az elmúlt 5 percben több mint 50%-kal meghaladja a fürt csomópontjaikon elérhető CPU-erőforrásokat. >1.5 5
KubeMemoryQuotaOvercommit A névterekhez lefoglalt memóriaerőforrás-kvóta az elmúlt 5 percben több mint 50%-kal meghaladja a fürt csomópontjaiban rendelkezésre álló memóriaerőforrásokat. >1.5 5
Az OOM által törölt tárolók száma 0-nál nagyobb A podokon belüli egy vagy több tárolót az elmúlt 5 perc memóriahiányos (OOM) eseményei ölték meg. >0 5
KubeClientErrors A Kubernetes API-kérelmekben az ügyfélhibák (5xx-től kezdődő HTTP-állapotkódok) aránya meghaladja az elmúlt 15 percben az API-kérések teljes arányának 1%-át. >0.01 15
KubePersistentVolumeFillingUp Az állandó kötet megtelik, és várhatóan elfogy a rendelkezésre álló terület aránya, a felhasznált terület és a rendelkezésre álló terület lineáris trendje az elmúlt 6 órában. Ezeket a feltételeket a rendszer az elmúlt 60 percben értékeli ki. n/a 60
KubePersistentVolumeInodesFillingUp Az állandó köteten belüli inódok kevesebb mint 3%-a érhető el az elmúlt 15 percben. <0.03 15
KubePersistentVolumeErrors Egy vagy több állandó kötet az elmúlt 5 percben sikertelen vagy függőben lévő fázisban van. >0 5
KubeContainerWaiting A Kubernetes-podokon belüli egy vagy több tároló várakozási állapotban van az elmúlt 60 percben. >0 60
KubeDaemonSetNotScheduled Egy vagy több pod nincs ütemezve egyetlen csomóponton sem az elmúlt 15 percben. >0 15
KubeDaemonSetMisScheduled Egy vagy több pod helytelenül van ütemezve a fürtben az elmúlt 15 percben. >0 15
KubeQuotaAlmostFull A Kubernetes-erőforráskvóták kihasználtsága az elmúlt 15 perc kemény korlátainak 90%-a és 100%-a között van. >0,9 <1 15

Csomópontszintű riasztások

Riasztás neve Leírás Alapértelmezett küszöbérték Időkeret (perc)
KubeNodeUnreachable Egy csomópont az elmúlt 15 percben nem érhető el. 0 15
KubeNodeReadinessFlapping A csomópontok készültségi állapota az elmúlt 15 percben több mint 2 alkalommal módosult. 2 15

Podszintű riasztások

Riasztás neve Leírás Alapértelmezett küszöbérték Időkeret (perc)
Az átlagos PV-használat nagyobb, mint 80% Az állandó kötetek (PV-k) átlagos kihasználtsága a podon meghaladja a 80%-ot az elmúlt 15 percben. >0.8 15
KubeDeploymentReplicasMismatch A replikák kívánt száma és az elmúlt 10 percben elérhető replikák száma között eltérés van. n/a 10
KubeStatefulSetReplicasMismatch A StatefulSet kész replikáinak száma nem egyezik meg a StatefulSetben az elmúlt 15 perc replikáinak teljes számával. n/a 15
KubeHpaReplicasMismatch A fürt vízszintes podméretezője nem egyezett meg az elmúlt 15 perc replikáinak kívánt számával. n/a 15
KubeHpaMaxedOut A fürt vízszintes podméretezője (HPA) az elmúlt 15 percben a maximális replikákon futott. n/a 15
KubePodCrashLooping Egy vagy több pod CrashLoopBackOff állapotban van, ahol a pod az indítás után folyamatosan összeomlik, és az elmúlt 15 percben sikertelenül helyreáll. >=1 15
KubeJobStale Az elmúlt 6 órában legalább egy feladatpéldány nem fejeződött be sikeresen. >0 360
Podtároló az elmúlt 1 órában újraindult A Kubernetes-fürt podjain belül legalább egyszer újraindult egy vagy több tároló az elmúlt egy órában. >0 15
A podok kész állapota kevesebb, mint 80% A kész állapotú podok százalékos aránya 80% alá csökken a Kubernetes-fürtben az elmúlt 5 percben végzett üzembe helyezés vagy démonkészlet esetében. <0.8 5
A sikertelen állapotú podok száma 0-nál nagyobb. Egy vagy több pod meghibásodott állapotban van az elmúlt 5 percben. >0 5
KubePodNotReadyByController Egy vagy több pod nem áll készen állapotban (azaz a "Függőben" vagy az "Ismeretlen" fázisban) az elmúlt 15 percben. >0 15
KubeStatefulSetGenerationMismatch A Kubernetes StatefulSet megfigyelt generációja nem egyezik meg a metaadat-generációjával az elmúlt 15 percben. n/a 15
KubeJobFailed Egy vagy több Kubernetes-feladat meghiúsult az elmúlt 15 percben. >0 15
Tárolónkénti átlagos processzorhasználat nagyobb, mint 95% Az átlagos processzorhasználat tárolónként meghaladja a 95%-ot az elmúlt 5 percben. >0.95 5
Tárolónkénti átlagos memóriahasználat nagyobb, mint 95% A tárolónkénti átlagos memóriahasználat az elmúlt 5 percben meghaladja a 95%-ot. >0.95 10
KubeletPodStartUpLatencyHigh A pod indítási késésének 99. percentilise az elmúlt 10 percben meghaladja a 60 másodpercet. >60 10

Platformmetrika riasztási szabályai

Riasztás neve Leírás Alapértelmezett küszöbérték Időkeret (perc)
A csomópont processzorhasználati aránya nagyobb, mint 95% A csomópont processzorhasználati aránya nagyobb, mint 95% az elmúlt 5 percben. 95 5
A csomópont memória-munkakészletének százalékos aránya nagyobb, mint 100% A csomópont memória-munkakészletének százalékos aránya nagyobb, mint 95% az elmúlt 5 percben. 100 5

Örökölt Container Insights-metrikariasztások (előzetes verzió)

A Container Insights metrikaszabályai 2024. május 31-én megszűnnek (ezt korábban 2026. március 14-én jelentették be). Ezek a szabályok 2023. augusztus 15. óta nem érhetők el a portál használatával történő létrehozáshoz. Ezek a szabályok nyilvános előzetes verzióban voltak, de az általános rendelkezésre állás elérése nélkül lesznek kivonva, mivel a cikkben ismertetett új ajánlott metrikariasztások már elérhetők.

Ha már engedélyezte ezeket az örökölt riasztási szabályokat, tiltsa le őket, és engedélyezze az új felületet.

Metrikariasztási szabályok letiltása

  1. A fürt Elemzések menüjében válassza az Ajánlott riasztások (előzetes verzió) lehetőséget.
  2. Módosítsa az egyes riasztási szabályok állapotát letiltottra.

Következő lépések