Kubernetes kümeleri için önerilen uyarı kuralları
Azure İzleyici'deki uyarılar , Azure kaynaklarınızın sistem durumu ve performansıyla ilgili sorunları proaktif olarak belirler. Bu makalede, Kubernetes kümeleriniz için önceden tanımlanmış bir dizi önerilen ölçüm uyarı kuralını etkinleştirme ve düzenleme işlemleri açıklanmaktadır.
Uyarı kuralı türleri
Kubernetes kümeleriyle kullanılan iki tür ölçüm uyarı kuralı vardır.
Uyarı kuralı türü | Açıklama |
---|---|
Prometheus ölçüm uyarı kuralları | Prometheus için Azure İzleyici yönetilen hizmetinde Kubernetes kümenizden toplanan ölçüm verilerini kullanın. Bu kurallar Prometheus'un kümenizde etkinleştirilmesini ve bir Prometheus kural grubunda depolanmasını gerektirir. |
Platform ölçümü uyarı kuralları | AKS kümenizden otomatik olarak toplanan ve Azure İzleyici uyarı kuralları olarak depolanan ölçümleri kullanın. |
Önerilen uyarı kurallarını etkinleştirme
Kümeniz için önerilen uyarı kurallarını etkinleştirmek için aşağıdaki yöntemlerden birini kullanın. Aynı küme için hem Prometheus hem de platform ölçümü uyarı kurallarını etkinleştirebilirsiniz.
Azure portalı kullanılarak Prometheus kural grubu kümeyle aynı bölgede oluşturulur.
Kümenizin Uyarılar menüsünden Önerileri ayarla'yı seçin.
Kullanılabilir Prometheus ve platform uyarı kuralları pod, küme ve düğüm düzeyine göre düzenlenmiş Prometheus kurallarıyla birlikte görüntülenir. Bir grup Prometheus kuralını değiştirerek bu kural kümesini etkinleştirin. Tek tek kuralları görmek için grubu genişletin. Varsayılan değerleri bırakabilir veya tek tek kuralları devre dışı bırakabilir, bunların adını ve önem derecesini düzenleyebilirsiniz.
Bu kuralı etkinleştirmek için platform ölçüm kuralını değiştirin. Kuralı genişleterek ad, önem derecesi ve eşik gibi ayrıntılarını değiştirebilirsiniz.
Yeni bir eylem grubu oluşturmak için bir veya daha fazla bildirim yöntemi seçin veya bu uyarı kuralları kümesinin bildirim ayrıntılarını içeren mevcut bir eylem grubunu seçin.
Kural grubunu kaydetmek için Kaydet'e tıklayın.
Önerilen uyarı kurallarını düzenleme
Kural grubu oluşturulduktan sonra, kuralları düzenlemek için portalda aynı sayfayı kullanamazsınız. Prometheus ölçümleri için, kural grubunu düzenlemeniz ve daha önce etkinleştirilmemiş kuralları etkinleştirme dahil olmak üzere içindeki kuralları değiştirmeniz gerekir. Platform ölçümleri için her uyarı kuralını düzenleyebilirsiniz.
Kümenizin Uyarılar menüsünden Önerileri ayarla'yı seçin. Önceden oluşturulmuş tüm kurallar veya kural grupları Zaten oluşturuldu olarak etiketlenir.
Kuralı veya kural grubunu genişletin. Prometheus için kural grubunu görüntüle ve Platform ölçümleri için uyarı kuralını görüntüle'ye tıklayın.
Prometheus kural grupları için:
Gruptaki uyarı kurallarını görüntülemek için Kurallar'ı seçin.
Değiştirmek istediğiniz kuralın yanındaki Düzenle simgesine tıklayın. Kuralı değiştirmek için Uyarı kuralı oluşturma başlığındaki yönergeleri kullanın.
Grupta kuralları düzenlemeyi bitirdiğinizde, kaydet'e tıklayarak kural grubunu kaydedin.
Platform ölçümleri için:
Uyarı kuralının ayrıntılarını açmak için Düzenle'ye tıklayın. Kuralı değiştirmek için Uyarı kuralı oluşturma başlığındaki yönergeleri kullanın.
Uyarı kuralı grubunu devre dışı bırakma
Kural grubundaki kurallardan uyarı almayı durdurmak için kural grubunu devre dışı bırakın.
Önerilen uyarı kurallarını düzenleme bölümünde açıklandığı gibi Prometheus uyarı kuralı grubunu veya platform ölçümü uyarı kuralını görüntüleyin.
Genel Bakış menüsünde Devre Dışı Bırak'ı seçin.
Önerilen uyarı kuralı ayrıntıları
Aşağıdaki tablolarda önerilen her uyarı kuralının ayrıntıları listelenmiştir. Her biri için kaynak kodu, Prometheus topluluğunun sorun giderme kılavuzlarıyla birlikte GitHub'da sağlanır.
Prometheus topluluk uyarı kuralları
Küme düzeyi uyarıları
Uyarı adı | Açıklama | Varsayılan eşik | Zaman çerçevesi (dakika) |
---|---|---|---|
KubeCPUQuotaOvercommit | Ad alanlarına ayrılan CPU kaynak kotası, kümenin düğümlerindeki kullanılabilir CPU kaynaklarını son 5 dakika için %50'den fazla aşıyor. | >1.5 | 5 |
KubeMemoryQuotaOvercommit | Ad alanlarına ayrılan bellek kaynağı kotası, kümenin düğümlerindeki kullanılabilir bellek kaynaklarını son 5 dakika için %50'den fazla aşıyor. | >1.5 | 5 |
OOM tarafından öldürülen kapsayıcıların sayısı 0'dan büyük | Son 5 dakika içinde bellek yetersiz (OOM) olayları nedeniyle podlar içindeki bir veya daha fazla kapsayıcı öldürüldü. | >0 | 5 |
KubeClientErrors | Kubernetes API isteklerindeki istemci hatalarının (5xx ile başlayan HTTP durum kodları) oranı, son 15 dakika için toplam API istek oranının %1'ini aşıyor. | >0.01 | 15 |
KubePersistentVolumeFillingUp | Kalıcı birim doluyor ve kullanılabilir alan oranı, kullanılan alan ve son 6 saat içinde kullanılabilir alanın tahmin edilen doğrusal eğilimine göre değerlendirilen kullanılabilir alanın tükenmiş olması beklenir. Bu koşullar son 60 dakika içinde değerlendirilir. | Yok | 60 |
KubePersistentVolumeInodesFillingUp | Kalıcı bir birim içindeki inode'ların %3'ünden azı son 15 dakika boyunca kullanılabilir. | <0.03 | 15 |
KubePersistentVolumeErrors | Son 5 dakika boyunca bir veya daha fazla kalıcı birim başarısız veya bekleme aşamasında. | >0 | 5 |
KubeContainerWaiting | Kubernetes podlarındaki bir veya daha fazla kapsayıcı son 60 dakika boyunca bekleme durumunda. | >0 | 60 |
KubeDaemonSetNotScheduled | Son 15 dakika boyunca herhangi bir düğümde bir veya daha fazla pod zamanlanmaz. | >0 | 15 |
KubeDaemonSetMisScheduled | Kümede son 15 dakika boyunca bir veya daha fazla pod yanlış ayrılmıştır. | >0 | 15 |
KubeQuotaAlmostFull | Kubernetes kaynak kotalarının kullanımı, son 15 dakika için sabit sınırların %90 ile %100'ünün arasındadır. | >0,9 <1 | 15 |
Düğüm düzeyi uyarıları
Uyarı adı | Açıklama | Varsayılan eşik | Zaman çerçevesi (dakika) |
---|---|---|---|
KubeNodeUnreachable | Son 15 dakikadır bir düğüme ulaşılamıyor. | 1 | 15 |
KubeNodeReadinessFlapping | Bir düğümün hazır olma durumu son 15 dakika boyunca 2'den fazla kez değişti. | 2 | 15 |
Pod düzeyi uyarıları
Uyarı adı | Açıklama | Varsayılan eşik | Zaman çerçevesi (dakika) |
---|---|---|---|
Ortalama PV kullanımı %80'den büyük | Pod üzerinde Kalıcı Birimlerin (PV) ortalama kullanımı son 15 dakika için %80'i aşıyor. | >0.8 | 15 |
KubeDeploymentReplicasMismatch | İstenen çoğaltma sayısı ile son 10 dakika için kullanılabilir çoğaltma sayısı arasında bir uyuşmazlık vardır. | Yok | 10 |
KubeStatefulSetReplicasMismatch | StatefulSet içindeki hazır çoğaltmaların sayısı, StatefulSet'teki son 15 dakika içindeki toplam çoğaltma sayısıyla eşleşmiyor. | Yok | 15 |
KubeHpaReplicasMismatch | Kümedeki Yatay Pod Otomatik Ölçeklendiricisi, son 15 dakika için istenen çoğaltma sayısıyla eşleşmedi. | Yok | 15 |
KubeHpaMaxedOut | Kümedeki Yatay Pod Otomatik Ölçeklendiricisi (HPA), son 15 dakikadır en fazla çoğaltmada çalışıyor. | Yok | 15 |
KubePodCrashLooping | Bir veya daha fazla pod, başlatma işleminden sonra sürekli olarak kilitlendiği ve son 15 dakika boyunca başarıyla kurtarılamadığı CrashLoopBackOff koşulundadır. | >=1 | 15 |
KubeJobStale | Son 6 saat boyunca en az bir İş örneği başarıyla tamamlanamadı. | >0 | 360 |
Pod kapsayıcısı son 1 saat içinde yeniden başlatıldı | Kubernetes kümesindeki podların içindeki bir veya daha fazla kapsayıcı son bir saat içinde en az bir kez yeniden başlatıldı. | >0 | 15 |
Podların hazır durumu %80'den az | Hazır durumdaki podların yüzdesi, Son 5 dakika boyunca Kubernetes kümesindeki herhangi bir dağıtım veya daemonset için %80'in altına düşer. | <0.8 | 5 |
Başarısız durumdaki pod sayısı 0'dan büyük. | Son 5 dakika boyunca bir veya daha fazla pod başarısız durumda. | >0 | 5 |
KubePodNotReadyByController | Son 15 dakika boyunca bir veya daha fazla pod hazır durumda değil (örneğin, "Beklemede" veya "Bilinmiyor" aşamasında). | >0 | 15 |
KubeStatefulSetGenerationMismatch | Kubernetes StatefulSet'in gözlemlenen nesli, son 15 dakika boyunca meta veri oluşturma işlemiyle eşleşmiyor. | Yok | 15 |
KubeJobFailed | Son 15 dakika içinde bir veya daha fazla Kubernetes işi başarısız oldu. | >0 | 15 |
Kapsayıcı başına ortalama CPU kullanımı %95'ten fazla | Kapsayıcı başına ortalama CPU kullanımı son 5 dakika için %95'i aşıyor. | >0.95 | 5 |
Kapsayıcı başına ortalama Bellek kullanımı %95'ten fazla | Kapsayıcı başına ortalama bellek kullanımı son 5 dakika için %95'i aşıyor. | >0.95 | 10 |
KubeletPodStartUpLatencyHigh | Pod başlatma gecikme süresinin 99. yüzdebirliği son 10 dakika için 60 saniyeyi aşıyor. | >60 | 10 |
Platform ölçüm uyarısı kuralları
Uyarı adı | Açıklama | Varsayılan eşik | Zaman çerçevesi (dakika) |
---|---|---|---|
Düğüm cpu yüzdesi %95'ten büyük | Düğüm CPU yüzdesi son 5 dakika için %95'in üzerindedir. | 95 | 5 |
Düğüm belleği çalışma kümesi yüzdesi %100'den büyük | Düğüm belleği çalışma kümesi yüzdesi, son 5 dakika için %95'in üzerindedir. | 100 | 5 |
Eski Kapsayıcı içgörüleri ölçüm uyarıları (önizleme)
Container insights'taki ölçüm kuralları 31 Mayıs 2024'te kullanımdan kaldırılacaktır (bu daha önce 14 Mart 2026 olarak duyurulmuştu). Bu kurallar 15 Ağustos 2023'ten bu yana portal kullanılarak oluşturulamadı. Bu kurallar genel önizleme aşamasındaydı ancak bu makalede açıklanan yeni önerilen ölçüm uyarıları kullanıma sunulduğundan genel kullanıma sunulmadan kullanımdan kaldırılacaktır.
Bu eski uyarı kurallarını zaten etkinleştirdiyseniz, bunları devre dışı bırakmanız ve yeni deneyimi etkinleştirmeniz gerekir.
Ölçüm uyarı kurallarını devre dışı bırakma
- Kümenizin Analizler menüsünde Önerilen uyarılar (önizleme) öğesini seçin.
- Her uyarı kuralının durumunu Devre Dışı olarak değiştirin.
Eski uyarı eşlemesi
Aşağıdaki tabloda, eski Container insights ölçüm uyarılarının her biri, eşdeğer önerilen Prometheus ölçüm uyarılarıyla eşlenmiştir.
Özel ölçüm önerilen uyarısı | Eşdeğer Prometheus/Platform ölçümü önerilen uyarısı | Koşul |
---|---|---|
Tamamlanan iş sayısı | KubeJobStale (Pod düzeyi uyarıları) | Son 6 saat boyunca en az bir İş örneği başarıyla tamamlanamadı. |
Kapsayıcı CPU Yüzdesi | KubeContainerAverageCPUHigh (Pod düzeyi uyarıları) | Kapsayıcı başına ortalama CPU kullanımı son 5 dakika için %95'i aşıyor. |
Kapsayıcı çalışma kümesi bellek yüzdesi | KubeContainerAverageMemoryHigh (Pod düzeyi uyarıları) | Kapsayıcı başına ortalama bellek kullanımı son 5 dakika için %95'i aşıyor. |
Başarısız Pod sayıları | KubePodFailedState (Pod düzeyi uyarıları) | Son 5 dakika boyunca bir veya daha fazla pod başarısız durumda. |
Düğüm CPU Yüzdesi | Düğüm cpu yüzdesi %95'ten büyük (Platform ölçümü) | Düğüm CPU yüzdesi son 5 dakika için %95'in üzerindedir. |
Düğüm Diski Kullanım Yüzdesi | Yok | Bir düğüm için ortalama disk kullanımı %80'in üzerindedir. |
Düğüm NotReady durumunda | KubeNodeUnreachable (Düğüm düzeyi uyarıları) | Son 15 dakikadır bir düğüme ulaşılamıyor. |
Düğüm çalışma kümesi bellek yüzdesi | Düğüm belleği çalışma kümesi yüzdesi %100'den büyük | Düğüm belleği çalışma kümesi yüzdesi, son 5 dakika için %100'den büyük. |
OOM Tarafından Öldürülen Kapsayıcılar | KubeContainerOOMKilledCount (Küme düzeyi uyarıları) | Son 5 dakika içinde bellek yetersiz (OOM) olayları nedeniyle podlar içindeki bir veya daha fazla kapsayıcı öldürüldü. |
Kalıcı Birim Kullanımı Yüzdesi | KubePVUsageHigh (Pod düzeyi uyarıları) | Pod üzerinde Kalıcı Birimlerin (PV) ortalama kullanımı son 15 dakika için %80'i aşıyor. |
Hazır pod yüzdesi | KubePodReadyStateLow (Pod düzeyi uyarıları) | Hazır durumdaki podların yüzdesi, Son 5 dakika boyunca Kubernetes kümesindeki herhangi bir dağıtım veya daemonset için %80'in altına düşer. |
Yeniden başlatılan kapsayıcı sayısı | KubePodContainerRestart (Pod düzeyi uyarıları) | Kubernetes kümesindeki podların içindeki bir veya daha fazla kapsayıcı son bir saat içinde en az bir kez yeniden başlatıldı. |
Sonraki adımlar
- Azure İzleyici'deki farklı uyarı kuralı türleri hakkında bilgi edinin.
- Prometheus için Azure İzleyici yönetilen hizmetindeki uyarı kuralı grupları hakkında bilgi edinin.