Aracılığıyla paylaş


Kubernetes kümeleri için önerilen uyarı kuralları

Azure İzleyici'deki uyarılar , Azure kaynaklarınızın sistem durumu ve performansıyla ilgili sorunları proaktif olarak belirler. Bu makalede, Kubernetes kümeleriniz için önceden tanımlanmış bir dizi önerilen ölçüm uyarı kuralını etkinleştirme ve düzenleme işlemleri açıklanmaktadır.

Uyarı kuralı türleri

Kubernetes kümeleriyle kullanılan iki tür ölçüm uyarı kuralı vardır.

Uyarı kuralı türü Açıklama
Prometheus ölçüm uyarı kuralları Prometheus için Azure İzleyici yönetilen hizmetinde Kubernetes kümenizden toplanan ölçüm verilerini kullanın. Bu kurallar Prometheus'un kümenizde etkinleştirilmesini ve bir Prometheus kural grubunda depolanmasını gerektirir.
Platform ölçümü uyarı kuralları AKS kümenizden otomatik olarak toplanan ve Azure İzleyici uyarı kuralları olarak depolanan ölçümleri kullanın.

Kümeniz için önerilen uyarı kurallarını etkinleştirmek için aşağıdaki yöntemlerden birini kullanın. Aynı küme için hem Prometheus hem de platform ölçümü uyarı kurallarını etkinleştirebilirsiniz.

Azure portalı kullanılarak Prometheus kural grubu kümeyle aynı bölgede oluşturulur.

  1. Kümenizin Uyarılar menüsünden Önerileri ayarla'yı seçin.

    Önerileri ayarla düğmesini gösteren AKS kümesinin ekran görüntüsü.

  2. Kullanılabilir Prometheus ve platform uyarı kuralları pod, küme ve düğüm düzeyine göre düzenlenmiş Prometheus kurallarıyla birlikte görüntülenir. Bir grup Prometheus kuralını değiştirerek bu kural kümesini etkinleştirin. Tek tek kuralları görmek için grubu genişletin. Varsayılan değerleri bırakabilir veya tek tek kuralları devre dışı bırakabilir, bunların adını ve önem derecesini düzenleyebilirsiniz.

    Prometheus uyarı kuralını etkinleştirme işleminin ekran görüntüsü.

  3. Bu kuralı etkinleştirmek için platform ölçüm kuralını değiştirin. Kuralı genişleterek ad, önem derecesi ve eşik gibi ayrıntılarını değiştirebilirsiniz.

    Platform ölçümü uyarı kuralını etkinleştirme işleminin ekran görüntüsü.

  4. Yeni bir eylem grubu oluşturmak için bir veya daha fazla bildirim yöntemi seçin veya bu uyarı kuralları kümesinin bildirim ayrıntılarını içeren mevcut bir eylem grubunu seçin.

  5. Kural grubunu kaydetmek için Kaydet'e tıklayın.

Kural grubu oluşturulduktan sonra, kuralları düzenlemek için portalda aynı sayfayı kullanamazsınız. Prometheus ölçümleri için, kural grubunu düzenlemeniz ve daha önce etkinleştirilmemiş kuralları etkinleştirme dahil olmak üzere içindeki kuralları değiştirmeniz gerekir. Platform ölçümleri için her uyarı kuralını düzenleyebilirsiniz.

  1. Kümenizin Uyarılar menüsünden Önerileri ayarla'yı seçin. Önceden oluşturulmuş tüm kurallar veya kural grupları Zaten oluşturuldu olarak etiketlenir.

  2. Kuralı veya kural grubunu genişletin. Prometheus için kural grubunu görüntüle ve Platform ölçümleri için uyarı kuralını görüntüle'ye tıklayın.

    Kural grubu görüntüleme seçeneğinin ekran görüntüsü.

  3. Prometheus kural grupları için:

    1. Gruptaki uyarı kurallarını görüntülemek için Kurallar'ı seçin.

    2. Değiştirmek istediğiniz kuralın yanındaki Düzenle simgesine tıklayın. Kuralı değiştirmek için Uyarı kuralı oluşturma başlığındaki yönergeleri kullanın.

      Prometheus uyarı kurallarını düzenleme seçeneğinin ekran görüntüsü.

    3. Grupta kuralları düzenlemeyi bitirdiğinizde, kaydet'e tıklayarak kural grubunu kaydedin.

  4. Platform ölçümleri için:

    1. Uyarı kuralının ayrıntılarını açmak için Düzenle'ye tıklayın. Kuralı değiştirmek için Uyarı kuralı oluşturma başlığındaki yönergeleri kullanın.

      Platform ölçüm kuralını düzenleme seçeneğinin ekran görüntüsü.

Uyarı kuralı grubunu devre dışı bırakma

Kural grubundaki kurallardan uyarı almayı durdurmak için kural grubunu devre dışı bırakın.

  1. Önerilen uyarı kurallarını düzenleme bölümünde açıklandığı gibi Prometheus uyarı kuralı grubunu veya platform ölçümü uyarı kuralını görüntüleyin.

  2. Genel Bakış menüsünde Devre Dışı Bırak'ı seçin.

    Kural grubunu devre dışı bırakma seçeneğinin ekran görüntüsü.

Aşağıdaki tablolarda önerilen her uyarı kuralının ayrıntıları listelenmiştir. Her biri için kaynak kodu, Prometheus topluluğunun sorun giderme kılavuzlarıyla birlikte GitHub'da sağlanır.

Prometheus topluluk uyarı kuralları

Küme düzeyi uyarıları

Uyarı adı Açıklama Varsayılan eşik Zaman çerçevesi (dakika)
KubeCPUQuotaOvercommit Ad alanlarına ayrılan CPU kaynak kotası, kümenin düğümlerindeki kullanılabilir CPU kaynaklarını son 5 dakika için %50'den fazla aşıyor. >1.5 5
KubeMemoryQuotaOvercommit Ad alanlarına ayrılan bellek kaynağı kotası, kümenin düğümlerindeki kullanılabilir bellek kaynaklarını son 5 dakika için %50'den fazla aşıyor. >1.5 5
OOM tarafından öldürülen kapsayıcıların sayısı 0'dan büyük Son 5 dakika içinde bellek yetersiz (OOM) olayları nedeniyle podlar içindeki bir veya daha fazla kapsayıcı öldürüldü. >0 5
KubeClientErrors Kubernetes API isteklerindeki istemci hatalarının (5xx ile başlayan HTTP durum kodları) oranı, son 15 dakika için toplam API istek oranının %1'ini aşıyor. >0.01 15
KubePersistentVolumeFillingUp Kalıcı birim doluyor ve kullanılabilir alan oranı, kullanılan alan ve son 6 saat içinde kullanılabilir alanın tahmin edilen doğrusal eğilimine göre değerlendirilen kullanılabilir alanın tükenmiş olması beklenir. Bu koşullar son 60 dakika içinde değerlendirilir. Yok 60
KubePersistentVolumeInodesFillingUp Kalıcı bir birim içindeki inode'ların %3'ünden azı son 15 dakika boyunca kullanılabilir. <0.03 15
KubePersistentVolumeErrors Son 5 dakika boyunca bir veya daha fazla kalıcı birim başarısız veya bekleme aşamasında. >0 5
KubeContainerWaiting Kubernetes podlarındaki bir veya daha fazla kapsayıcı son 60 dakika boyunca bekleme durumunda. >0 60
KubeDaemonSetNotScheduled Son 15 dakika boyunca herhangi bir düğümde bir veya daha fazla pod zamanlanmaz. >0 15
KubeDaemonSetMisScheduled Kümede son 15 dakika boyunca bir veya daha fazla pod yanlış ayrılmıştır. >0 15
KubeQuotaAlmostFull Kubernetes kaynak kotalarının kullanımı, son 15 dakika için sabit sınırların %90 ile %100'ünün arasındadır. >0,9 <1 15

Düğüm düzeyi uyarıları

Uyarı adı Açıklama Varsayılan eşik Zaman çerçevesi (dakika)
KubeNodeUnreachable Son 15 dakikadır bir düğüme ulaşılamıyor. 1 15
KubeNodeReadinessFlapping Bir düğümün hazır olma durumu son 15 dakika boyunca 2'den fazla kez değişti. 2 15

Pod düzeyi uyarıları

Uyarı adı Açıklama Varsayılan eşik Zaman çerçevesi (dakika)
Ortalama PV kullanımı %80'den büyük Pod üzerinde Kalıcı Birimlerin (PV) ortalama kullanımı son 15 dakika için %80'i aşıyor. >0.8 15
KubeDeploymentReplicasMismatch İstenen çoğaltma sayısı ile son 10 dakika için kullanılabilir çoğaltma sayısı arasında bir uyuşmazlık vardır. Yok 10
KubeStatefulSetReplicasMismatch StatefulSet içindeki hazır çoğaltmaların sayısı, StatefulSet'teki son 15 dakika içindeki toplam çoğaltma sayısıyla eşleşmiyor. Yok 15
KubeHpaReplicasMismatch Kümedeki Yatay Pod Otomatik Ölçeklendiricisi, son 15 dakika için istenen çoğaltma sayısıyla eşleşmedi. Yok 15
KubeHpaMaxedOut Kümedeki Yatay Pod Otomatik Ölçeklendiricisi (HPA), son 15 dakikadır en fazla çoğaltmada çalışıyor. Yok 15
KubePodCrashLooping Bir veya daha fazla pod, başlatma işleminden sonra sürekli olarak kilitlendiği ve son 15 dakika boyunca başarıyla kurtarılamadığı CrashLoopBackOff koşulundadır. >=1 15
KubeJobStale Son 6 saat boyunca en az bir İş örneği başarıyla tamamlanamadı. >0 360
Pod kapsayıcısı son 1 saat içinde yeniden başlatıldı Kubernetes kümesindeki podların içindeki bir veya daha fazla kapsayıcı son bir saat içinde en az bir kez yeniden başlatıldı. >0 15
Podların hazır durumu %80'den az Hazır durumdaki podların yüzdesi, Son 5 dakika boyunca Kubernetes kümesindeki herhangi bir dağıtım veya daemonset için %80'in altına düşer. <0.8 5
Başarısız durumdaki pod sayısı 0'dan büyük. Son 5 dakika boyunca bir veya daha fazla pod başarısız durumda. >0 5
KubePodNotReadyByController Son 15 dakika boyunca bir veya daha fazla pod hazır durumda değil (örneğin, "Beklemede" veya "Bilinmiyor" aşamasında). >0 15
KubeStatefulSetGenerationMismatch Kubernetes StatefulSet'in gözlemlenen nesli, son 15 dakika boyunca meta veri oluşturma işlemiyle eşleşmiyor. Yok 15
KubeJobFailed Son 15 dakika içinde bir veya daha fazla Kubernetes işi başarısız oldu. >0 15
Kapsayıcı başına ortalama CPU kullanımı %95'ten fazla Kapsayıcı başına ortalama CPU kullanımı son 5 dakika için %95'i aşıyor. >0.95 5
Kapsayıcı başına ortalama Bellek kullanımı %95'ten fazla Kapsayıcı başına ortalama bellek kullanımı son 5 dakika için %95'i aşıyor. >0.95 10
KubeletPodStartUpLatencyHigh Pod başlatma gecikme süresinin 99. yüzdebirliği son 10 dakika için 60 saniyeyi aşıyor. >60 10

Platform ölçüm uyarısı kuralları

Uyarı adı Açıklama Varsayılan eşik Zaman çerçevesi (dakika)
Düğüm cpu yüzdesi %95'ten büyük Düğüm CPU yüzdesi son 5 dakika için %95'in üzerindedir. 95 5
Düğüm belleği çalışma kümesi yüzdesi %100'den büyük Düğüm belleği çalışma kümesi yüzdesi, son 5 dakika için %95'in üzerindedir. 100 5

Eski Kapsayıcı içgörüleri ölçüm uyarıları (önizleme)

Container insights'taki ölçüm kuralları 31 Mayıs 2024'te kullanımdan kaldırılacaktır (bu daha önce 14 Mart 2026 olarak duyurulmuştu). Bu kurallar 15 Ağustos 2023'ten bu yana portal kullanılarak oluşturulamadı. Bu kurallar genel önizleme aşamasındaydı ancak bu makalede açıklanan yeni önerilen ölçüm uyarıları kullanıma sunulduğundan genel kullanıma sunulmadan kullanımdan kaldırılacaktır.

Bu eski uyarı kurallarını zaten etkinleştirdiyseniz, bunları devre dışı bırakmanız ve yeni deneyimi etkinleştirmeniz gerekir.

Ölçüm uyarı kurallarını devre dışı bırakma

  1. Kümenizin Analizler menüsünde Önerilen uyarılar (önizleme) öğesini seçin.
  2. Her uyarı kuralının durumunu Devre Dışı olarak değiştirin.

Eski uyarı eşlemesi

Aşağıdaki tabloda, eski Container insights ölçüm uyarılarının her biri, eşdeğer önerilen Prometheus ölçüm uyarılarıyla eşlenmiştir.

Özel ölçüm önerilen uyarısı Eşdeğer Prometheus/Platform ölçümü önerilen uyarısı Koşul
Tamamlanan iş sayısı KubeJobStale (Pod düzeyi uyarıları) Son 6 saat boyunca en az bir İş örneği başarıyla tamamlanamadı.
Kapsayıcı CPU Yüzdesi KubeContainerAverageCPUHigh (Pod düzeyi uyarıları) Kapsayıcı başına ortalama CPU kullanımı son 5 dakika için %95'i aşıyor.
Kapsayıcı çalışma kümesi bellek yüzdesi KubeContainerAverageMemoryHigh (Pod düzeyi uyarıları) Kapsayıcı başına ortalama bellek kullanımı son 5 dakika için %95'i aşıyor.
Başarısız Pod sayıları KubePodFailedState (Pod düzeyi uyarıları) Son 5 dakika boyunca bir veya daha fazla pod başarısız durumda.
Düğüm CPU Yüzdesi Düğüm cpu yüzdesi %95'ten büyük (Platform ölçümü) Düğüm CPU yüzdesi son 5 dakika için %95'in üzerindedir.
Düğüm Diski Kullanım Yüzdesi Yok Bir düğüm için ortalama disk kullanımı %80'in üzerindedir.
Düğüm NotReady durumunda KubeNodeUnreachable (Düğüm düzeyi uyarıları) Son 15 dakikadır bir düğüme ulaşılamıyor.
Düğüm çalışma kümesi bellek yüzdesi Düğüm belleği çalışma kümesi yüzdesi %100'den büyük Düğüm belleği çalışma kümesi yüzdesi, son 5 dakika için %100'den büyük.
OOM Tarafından Öldürülen Kapsayıcılar KubeContainerOOMKilledCount (Küme düzeyi uyarıları) Son 5 dakika içinde bellek yetersiz (OOM) olayları nedeniyle podlar içindeki bir veya daha fazla kapsayıcı öldürüldü.
Kalıcı Birim Kullanımı Yüzdesi KubePVUsageHigh (Pod düzeyi uyarıları) Pod üzerinde Kalıcı Birimlerin (PV) ortalama kullanımı son 15 dakika için %80'i aşıyor.
Hazır pod yüzdesi KubePodReadyStateLow (Pod düzeyi uyarıları) Hazır durumdaki podların yüzdesi, Son 5 dakika boyunca Kubernetes kümesindeki herhangi bir dağıtım veya daemonset için %80'in altına düşer.
Yeniden başlatılan kapsayıcı sayısı KubePodContainerRestart (Pod düzeyi uyarıları) Kubernetes kümesindeki podların içindeki bir veya daha fazla kapsayıcı son bir saat içinde en az bir kez yeniden başlatıldı.

Sonraki adımlar