Kubernetes kümeleri için önerilen uyarı kuralları

Makale
05/21/2024

Azure İzleyici'deki uyarılar , Azure kaynaklarınızın sistem durumu ve performansıyla ilgili sorunları proaktif olarak belirler. Bu makalede, Kubernetes kümeleriniz için önceden tanımlanmış bir dizi önerilen ölçüm uyarı kuralını etkinleştirme ve düzenleme işlemleri açıklanmaktadır.

Uyarı kuralı türleri

Kubernetes kümeleriyle kullanılan iki tür ölçüm uyarı kuralı vardır.

Uyarı kuralı türü	Açıklama
Prometheus ölçüm uyarı kuralları	Prometheus için Azure İzleyici yönetilen hizmetinde Kubernetes kümenizden toplanan ölçüm verilerini kullanın. Bu kurallar Prometheus'un kümenizde etkinleştirilmesini ve bir Prometheus kural grubunda depolanmasını gerektirir.
Platform ölçümü uyarı kuralları	AKS kümenizden otomatik olarak toplanan ve Azure İzleyici uyarı kuralları olarak depolanan ölçümleri kullanın.

Önerilen uyarı kurallarını etkinleştirme

Kümeniz için önerilen uyarı kurallarını etkinleştirmek için aşağıdaki yöntemlerden birini kullanın. Aynı küme için hem Prometheus hem de platform ölçümü uyarı kurallarını etkinleştirebilirsiniz.

Azure portalı
Azure Resource Manager

Azure portalı kullanılarak Prometheus kural grubu kümeyle aynı bölgede oluşturulur.

Kümenizin Uyarılar menüsünden Önerileri ayarla'yı seçin.
Kullanılabilir Prometheus ve platform uyarı kuralları pod, küme ve düğüm düzeyine göre düzenlenmiş Prometheus kurallarıyla birlikte görüntülenir. Bir grup Prometheus kuralını değiştirerek bu kural kümesini etkinleştirin. Tek tek kuralları görmek için grubu genişletin. Varsayılan değerleri bırakabilir veya tek tek kuralları devre dışı bırakabilir, bunların adını ve önem derecesini düzenleyebilirsiniz.
Bu kuralı etkinleştirmek için platform ölçüm kuralını değiştirin. Kuralı genişleterek ad, önem derecesi ve eşik gibi ayrıntılarını değiştirebilirsiniz.
Yeni bir eylem grubu oluşturmak için bir veya daha fazla bildirim yöntemi seçin veya bu uyarı kuralları kümesinin bildirim ayrıntılarını içeren mevcut bir eylem grubunu seçin.
Kural grubunu kaydetmek için Kaydet'e tıklayın.

ARM şablonu kullanarak Prometheus kural grubu için bölgeyi belirtebilirsiniz, ancak kümeyle aynı bölgede oluşturmanız gerekir.

Çalıştığınız şablon için gerekli dosyaları indirin ve aşağıdaki tablolarda yer alan parametreleri kullanarak dağıtın. Farklı yöntemlere örnekler için bkz . Örnek şablonları dağıtma.

ARM

Şablon dosyası: https://aka.ms/azureprometheus-recommendedmetricalerts

Parametreler:

Parametre	Açıklama
clusterResourceId	Kümenin kaynak kimliği.
actionGroupResourceId	Uyarılara yanıtları tanımlayan eylem grubunun kaynak kimliği.
azureMonitorWorkspaceResourceId	Kümenin Prometheus ölçümlerini alan Azure İzleyici çalışma alanının kaynak kimliği.
konum	Uyarı kuralı grubunu depolamak için bölge.

Bicep

Daha fazla ayrıntı için BENIOKU'ya bakın.

Şablon dosyası: https://aka.ms/azureprometheus-recommendedmetricalertsbicep

Parametreler:

Parametre	Açıklama
aksResourceId	Kümenin kaynak kimliği.
actionGroupResourceId	Uyarılara yanıtları tanımlayan eylem grubunun kaynak kimliği.
monitorWorkspaceName	Kümenin Prometheus ölçümlerini alan Azure İzleyici çalışma alanının adı.
konum	Uyarı kuralı grubunu depolamak için bölge.

Önerilen uyarı kurallarını düzenleme

Kural grubu oluşturulduktan sonra, kuralları düzenlemek için portalda aynı sayfayı kullanamazsınız. Prometheus ölçümleri için, kural grubunu düzenlemeniz ve daha önce etkinleştirilmemiş kuralları etkinleştirme dahil olmak üzere içindeki kuralları değiştirmeniz gerekir. Platform ölçümleri için her uyarı kuralını düzenleyebilirsiniz.

Azure portalı
Azure Resource Manager

Kümenizin Uyarılar menüsünden Önerileri ayarla'yı seçin. Önceden oluşturulmuş tüm kurallar veya kural grupları Zaten oluşturuldu olarak etiketlenir.
Kuralı veya kural grubunu genişletin. Prometheus için kural grubunu görüntüle ve Platform ölçümleri için uyarı kuralını görüntüle'ye tıklayın.
Prometheus kural grupları için:
1. Gruptaki uyarı kurallarını görüntülemek için Kurallar'ı seçin.
2. Değiştirmek istediğiniz kuralın yanındaki Düzenle simgesine tıklayın. Kuralı değiştirmek için Uyarı kuralı oluşturma başlığındaki yönergeleri kullanın.
3. Grupta kuralları düzenlemeyi bitirdiğinizde, kaydet'e tıklayarak kural grubunu kaydedin.
Platform ölçümleri için:
1. Uyarı kuralının ayrıntılarını açmak için Düzenle'ye tıklayın. Kuralı değiştirmek için Uyarı kuralı oluşturma başlığındaki yönergeleri kullanın.

Uyarı kuralı grubunu devre dışı bırakma

Kural grubundaki kurallardan uyarı almayı durdurmak için kural grubunu devre dışı bırakın.

Azure portalı
ARM şablonu

Önerilen uyarı kurallarını düzenleme bölümünde açıklandığı gibi Prometheus uyarı kuralı grubunu veya platform ölçümü uyarı kuralını görüntüleyin.
Genel Bakış menüsünde Devre Dışı Bırak'ı seçin.

Önerilen uyarı kuralı ayrıntıları

Aşağıdaki tablolarda önerilen her uyarı kuralının ayrıntıları listelenmiştir. Her biri için kaynak kodu, Prometheus topluluğunun sorun giderme kılavuzlarıyla birlikte GitHub'da sağlanır.

Prometheus topluluk uyarı kuralları

Küme düzeyi uyarıları

Uyarı adı	Açıklama	Varsayılan eşik	Zaman çerçevesi (dakika)
KubeCPUQuotaOvercommit	Ad alanlarına ayrılan CPU kaynak kotası, kümenin düğümlerindeki kullanılabilir CPU kaynaklarını son 5 dakika için %50'den fazla aşıyor.	>1.5	5
KubeMemoryQuotaOvercommit	Ad alanlarına ayrılan bellek kaynağı kotası, kümenin düğümlerindeki kullanılabilir bellek kaynaklarını son 5 dakika için %50'den fazla aşıyor.	>1.5	5
OOM tarafından öldürülen kapsayıcıların sayısı 0'dan büyük	Son 5 dakika içinde bellek yetersiz (OOM) olayları nedeniyle podlar içindeki bir veya daha fazla kapsayıcı öldürüldü.	>0	5
KubeClientErrors	Kubernetes API isteklerindeki istemci hatalarının (5xx ile başlayan HTTP durum kodları) oranı, son 15 dakika için toplam API istek oranının %1'ini aşıyor.	>0.01	15
KubePersistentVolumeFillingUp	Kalıcı birim doluyor ve kullanılabilir alan oranı, kullanılan alan ve son 6 saat içinde kullanılabilir alanın tahmin edilen doğrusal eğilimine göre değerlendirilen kullanılabilir alanın tükenmiş olması beklenir. Bu koşullar son 60 dakika içinde değerlendirilir.	Yok	60
KubePersistentVolumeInodesFillingUp	Kalıcı bir birim içindeki inode'ların %3'ünden azı son 15 dakika boyunca kullanılabilir.	<0.03	15
KubePersistentVolumeErrors	Son 5 dakika boyunca bir veya daha fazla kalıcı birim başarısız veya bekleme aşamasında.	>0	5
KubeContainerWaiting	Kubernetes podlarındaki bir veya daha fazla kapsayıcı son 60 dakika boyunca bekleme durumunda.	>0	60
KubeDaemonSetNotScheduled	Son 15 dakika boyunca herhangi bir düğümde bir veya daha fazla pod zamanlanmaz.	>0	15
KubeDaemonSetMisScheduled	Kümede son 15 dakika boyunca bir veya daha fazla pod yanlış ayrılmıştır.	>0	15
KubeQuotaAlmostFull	Kubernetes kaynak kotalarının kullanımı, son 15 dakika için sabit sınırların %90 ile %100'ünün arasındadır.	>0,9 <1	15

Düğüm düzeyi uyarıları

Uyarı adı	Açıklama	Varsayılan eşik	Zaman çerçevesi (dakika)
KubeNodeUnreachable	Son 15 dakikadır bir düğüme ulaşılamıyor.	1	15
KubeNodeReadinessFlapping	Bir düğümün hazır olma durumu son 15 dakika boyunca 2'den fazla kez değişti.	2	15

Pod düzeyi uyarıları

Uyarı adı	Açıklama	Varsayılan eşik	Zaman çerçevesi (dakika)
Ortalama PV kullanımı %80'den büyük	Pod üzerinde Kalıcı Birimlerin (PV) ortalama kullanımı son 15 dakika için %80'i aşıyor.	>0.8	15
KubeDeploymentReplicasMismatch	İstenen çoğaltma sayısı ile son 10 dakika için kullanılabilir çoğaltma sayısı arasında bir uyuşmazlık vardır.	Yok	10
KubeStatefulSetReplicasMismatch	StatefulSet içindeki hazır çoğaltmaların sayısı, StatefulSet'teki son 15 dakika içindeki toplam çoğaltma sayısıyla eşleşmiyor.	Yok	15
KubeHpaReplicasMismatch	Kümedeki Yatay Pod Otomatik Ölçeklendiricisi, son 15 dakika için istenen çoğaltma sayısıyla eşleşmedi.	Yok	15
KubeHpaMaxedOut	Kümedeki Yatay Pod Otomatik Ölçeklendiricisi (HPA), son 15 dakikadır en fazla çoğaltmada çalışıyor.	Yok	15
KubePodCrashLooping	Bir veya daha fazla pod, başlatma işleminden sonra sürekli olarak kilitlendiği ve son 15 dakika boyunca başarıyla kurtarılamadığı CrashLoopBackOff koşulundadır.	>=1	15
KubeJobStale	Son 6 saat boyunca en az bir İş örneği başarıyla tamamlanamadı.	>0	360
Pod kapsayıcısı son 1 saat içinde yeniden başlatıldı	Kubernetes kümesindeki podların içindeki bir veya daha fazla kapsayıcı son bir saat içinde en az bir kez yeniden başlatıldı.	>0	15
Podların hazır durumu %80'den az	Hazır durumdaki podların yüzdesi, Son 5 dakika boyunca Kubernetes kümesindeki herhangi bir dağıtım veya daemonset için %80'in altına düşer.	<0.8	5
Başarısız durumdaki pod sayısı 0'dan büyük.	Son 5 dakika boyunca bir veya daha fazla pod başarısız durumda.	>0	5
KubePodNotReadyByController	Son 15 dakika boyunca bir veya daha fazla pod hazır durumda değil (örneğin, "Beklemede" veya "Bilinmiyor" aşamasında).	>0	15
KubeStatefulSetGenerationMismatch	Kubernetes StatefulSet'in gözlemlenen nesli, son 15 dakika boyunca meta veri oluşturma işlemiyle eşleşmiyor.	Yok	15
KubeJobFailed	Son 15 dakika içinde bir veya daha fazla Kubernetes işi başarısız oldu.	>0	15
Kapsayıcı başına ortalama CPU kullanımı %95'ten fazla	Kapsayıcı başına ortalama CPU kullanımı son 5 dakika için %95'i aşıyor.	>0.95	5
Kapsayıcı başına ortalama Bellek kullanımı %95'ten fazla	Kapsayıcı başına ortalama bellek kullanımı son 5 dakika için %95'i aşıyor.	>0.95	10
KubeletPodStartUpLatencyHigh	Pod başlatma gecikme süresinin 99. yüzdebirliği son 10 dakika için 60 saniyeyi aşıyor.	>60	10

Platform ölçüm uyarısı kuralları

Uyarı adı	Açıklama	Varsayılan eşik	Zaman çerçevesi (dakika)
Düğüm cpu yüzdesi %95'ten büyük	Düğüm CPU yüzdesi son 5 dakika için %95'in üzerindedir.	95	5
Düğüm belleği çalışma kümesi yüzdesi %100'den büyük	Düğüm belleği çalışma kümesi yüzdesi, son 5 dakika için %95'in üzerindedir.	100	5

Eski Kapsayıcı içgörüleri ölçüm uyarıları (önizleme)

Container insights'taki ölçüm kuralları 31 Mayıs 2024'te kullanımdan kaldırılacaktır (bu daha önce 14 Mart 2026 olarak duyurulmuştu). Bu kurallar 15 Ağustos 2023'ten bu yana portal kullanılarak oluşturulamadı. Bu kurallar genel önizleme aşamasındaydı ancak bu makalede açıklanan yeni önerilen ölçüm uyarıları kullanıma sunulduğundan genel kullanıma sunulmadan kullanımdan kaldırılacaktır.

Bu eski uyarı kurallarını zaten etkinleştirdiyseniz, bunları devre dışı bırakmanız ve yeni deneyimi etkinleştirmeniz gerekir.

Ölçüm uyarı kurallarını devre dışı bırakma

Kümenizin Analizler menüsünde Önerilen uyarılar (önizleme) öğesini seçin.
Her uyarı kuralının durumunu Devre Dışı olarak değiştirin.

Eski uyarı eşlemesi

Aşağıdaki tabloda, eski Container insights ölçüm uyarılarının her biri, eşdeğer önerilen Prometheus ölçüm uyarılarıyla eşlenmiştir.

Özel ölçüm önerilen uyarısı	Eşdeğer Prometheus/Platform ölçümü önerilen uyarısı	Koşul
Tamamlanan iş sayısı	KubeJobStale (Pod düzeyi uyarıları)	Son 6 saat boyunca en az bir İş örneği başarıyla tamamlanamadı.
Kapsayıcı CPU Yüzdesi	KubeContainerAverageCPUHigh (Pod düzeyi uyarıları)	Kapsayıcı başına ortalama CPU kullanımı son 5 dakika için %95'i aşıyor.
Kapsayıcı çalışma kümesi bellek yüzdesi	KubeContainerAverageMemoryHigh (Pod düzeyi uyarıları)	Kapsayıcı başına ortalama bellek kullanımı son 5 dakika için %95'i aşıyor.
Başarısız Pod sayıları	KubePodFailedState (Pod düzeyi uyarıları)	Son 5 dakika boyunca bir veya daha fazla pod başarısız durumda.
Düğüm CPU Yüzdesi	Düğüm cpu yüzdesi %95'ten büyük (Platform ölçümü)	Düğüm CPU yüzdesi son 5 dakika için %95'in üzerindedir.
Düğüm Diski Kullanım Yüzdesi	Yok	Bir düğüm için ortalama disk kullanımı %80'in üzerindedir.
Düğüm NotReady durumunda	KubeNodeUnreachable (Düğüm düzeyi uyarıları)	Son 15 dakikadır bir düğüme ulaşılamıyor.
Düğüm çalışma kümesi bellek yüzdesi	Düğüm belleği çalışma kümesi yüzdesi %100'den büyük	Düğüm belleği çalışma kümesi yüzdesi, son 5 dakika için %100'den büyük.
OOM Tarafından Öldürülen Kapsayıcılar	KubeContainerOOMKilledCount (Küme düzeyi uyarıları)	Son 5 dakika içinde bellek yetersiz (OOM) olayları nedeniyle podlar içindeki bir veya daha fazla kapsayıcı öldürüldü.
Kalıcı Birim Kullanımı Yüzdesi	KubePVUsageHigh (Pod düzeyi uyarıları)	Pod üzerinde Kalıcı Birimlerin (PV) ortalama kullanımı son 15 dakika için %80'i aşıyor.
Hazır pod yüzdesi	KubePodReadyStateLow (Pod düzeyi uyarıları)	Hazır durumdaki podların yüzdesi, Son 5 dakika boyunca Kubernetes kümesindeki herhangi bir dağıtım veya daemonset için %80'in altına düşer.
Yeniden başlatılan kapsayıcı sayısı	KubePodContainerRestart (Pod düzeyi uyarıları)	Kubernetes kümesindeki podların içindeki bir veya daha fazla kapsayıcı son bir saat içinde en az bir kez yeniden başlatıldı.

Sonraki adımlar

Azure İzleyici'deki farklı uyarı kuralı türleri hakkında bilgi edinin.
Prometheus için Azure İzleyici yönetilen hizmetindeki uyarı kuralı grupları hakkında bilgi edinin.

Aracılığıyla paylaş