Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Azure Kubernetes Service (AKS) çalışan düğümlerinin sistem durumlarını sürekli izler ve durumu bozulan düğümlerde otomatik onarım gerçekleştirir. Azure sanal makine (VM) platformu , sorun yaşayan VM'lerde bakım gerçekleştirir. AKS ve Azure sanal makineleri, kümelerde hizmet kesintilerini en aza indirmek için birlikte çalışır.
Bu makalede, otomatik düğüm onarım işlevinin Windows ve Linux düğümleri için nasıl davrandığını öğreneceksiniz.
AKS NotReady düğümlerini nasıl denetler?
AKS, bir düğümün iyi durumda olmadığını ve onarılması gerekip gerekmediğini belirlemek için aşağıdaki kuralları kullanır:
- 10 dakikalık bir zaman dilimi içinde ardışık denetimlerde düğüm NotReady durumunu bildirir.
- Düğüm 10 dakika içinde herhangi bir durum bildirmez.
kubectl get nodes
komutunu kullanarak düğümlerinizin sağlık durumunu el ile kontrol edebilirsiniz.
Otomatik onarım nasıl çalışır?
Uyarı
AKS, aks-remediator kullanıcı hesabıyla onarım işlemlerini başlatır.
AKS en az beş dakika boyunca iyi durumda olmayan bir düğüm tanımlarsa, AKS aşağıdaki eylemleri gerçekleştirir:
- AKS düğümü yeniden başlatır.
- Yeniden başlatma sonrasında düğüm iyi durumda değilse AKS düğümü yeniden oluşturur.
- Yeniden görüntüleme sonrasında düğüm hala iyi durumda değilse ve bir Linux düğümüyse AKS düğümü yeniden dağıtır.
AKS, düğüm sağlıklı değilse yeniden başlatma, yeniden oluşturma ve yeniden dağıtım sekansını en fazla üç kez dener. Genel otomatik onarım işleminin tamamlanması bir saat kadar sürebilir.
Sınırlamalar
AKS düğümü otomatik onarımı en iyi çaba hizmetidir ve düğümün iyi durumda geri yüklendiğini garanti etmeyiz. Düğümünüz sağlıksız bir durumda kalmaya devam ederse, düğümde el ile inceleme yapmanızı şiddetle öneririz. Düğümün NotReady durumu sorunlarını gidermek hakkında daha fazla bilgi edinin.
AKS'nin otomatik onarım gerçekleştirmediği durumlar vardır. Düğümün otomatik olarak onarılamaması tasarım gereği veya Azure bir sorunun mevcut olduğunu algılayamazsa oluşabilir. Otomatik onarımın ne zaman gerçekleştirilmediğinin örnekleri şunlardır:
- Ağ yapılandırmasındaki hata nedeniyle düğüm durumu bildirilmiyor.
- Başlangıçta bir düğüm sağlıklı bir düğüm olarak kaydedilemedi.
- Düğümde aşağıdaki kusurlardan biri varsa:
node.cloudprovider.kubernetes.io/shutdown
,ToBeDeletedByClusterAutoscaler
. - Bir düğüm yükseltilmekte olup, bunun sonucunda düğümde
"cluster-autoscaler.kubernetes.io/scale-down-disabled": "true"
ve"kubernetes.azure.com/azure-cluster-autoscaler-scale-down-disabled-reason": "upgrade"
ek açıklamaları oluşmaktadır.
Kubernetes olaylarını kullanarak düğüm otomatik onarımı izleme
AKS kümenizde düğüm otomatik onarımı gerçekleştirdiğinde AKS, görünürlük için aks-auto-repair kaynağından Kubernetes olaylarını yayar. Otomatik onarım gerçekleştiğinde düğüm nesnesinde aşağıdaki olaylar görüntülenir.
Kubernetes olaylarına erişme, uyarıları depolama ve yapılandırma hakkında daha fazla bilgi edinmek için bkz . Azure Kubernetes Service'te sorun giderme için Kubernetes olaylarını kullanma.
Nedeni | Olay İletisi | Açıklama |
---|---|---|
NodeRebootStart | Düğüm otomatik onarımı, NotReady durumunun 5 dakikadan uzun süre kalıcı olması nedeniyle yeniden başlatma eylemi başlatıyor. | Bu olay, düğümünüzde yeniden başlatma işlemi gerçekleştirilmek üzere olduğunda sizi bilgilendirmek için gönderilir. Bu eylem, genel düğüm otomatik onarım dizisindeki ilk eylemdir. |
NodeRebootEnd | Otomatik düğüm onarımından kaynaklanan yeniden başlatma tamamlandı. | Düğümde yeniden başlatma tamamlandıktan sonra gönderilir. Bu olay, yeniden başlatma gerçekleştirildikten sonra düğümün sistem durumunu (iyi durumda veya iyi durumda değil) göstermez. |
NodeReimageStart | Düğüm otomatik onarımı, NotReady durumunun 5 dakikadan uzun süredir devam ediyor olması nedeniyle yeniden görselleştirme işlemi başlatıyor. | Bu etkinlik, düğümünüzde yeniden imajlama yapılmak üzere olduğunda sizi bilgilendirmek için gönderilir. |
NodeReimageEnd | Otonom onarımdan düğümün yeniden oluşturma eylemi tamamlandı. | Düğümde yeniden imajlama tamamlandıktan sonra oluşur. Bu olay, yeniden oluşturma gerçekleştirildikten sonra düğümün sistem durumunu (sağlıklı veya sağlıksız) göstermez. |
NodeYenidenDağıtmaBaşlat | Düğüm otomatik onarımı, NotReady durumunun 5 dakikadan uzun süre kalıcı olması nedeniyle yeniden dağıtım eylemi başlatıyor. | Bu olay, düğümünüzde yeniden dağıtım yapılmak üzere olduğunda sizi bilgilendirmek amacıyla tetiklenir. Yeniden dağıtma, düğüm otomatik onarım sürecindeki son eylemdir. |
NodeYenidenDağıtımSonaEriş | Otomatik düğüm onarımından yeniden dağıtma eylemi tamamlandı. | Düğümde yeniden dağıtım tamamlandıktan sonra gönderilir. Bu olay, yeniden dağıtım gerçekleştirildikten sonra düğümün sağlık durumunu (sağlıklı veya sağlıksız) göstermez. |
Düğüm otomatik onarım işlemi sırasında herhangi bir hata oluşursa, aşağıdaki olaylar ayrıntılı hata iletisiyle birlikte gönderilir. Yaygın düğüm otomatik onarım hatalarını giderme hakkında daha fazla bilgi edinin.
Uyarı
Aşağıdaki olay iletilerindeki hata kodu , bildirilen hataya bağlı olarak değişir.
Nedeni | Olay İletisi | Açıklama |
---|---|---|
NodeRebootError | İşlem hatası nedeniyle düğüm otomatik onarım yeniden başlatma eylemi başarısız oldu. Burada hata ayrıntılarına bakın: Hata kodu | Yeniden başlatma eylemiyle ilgili bir hata olduğunda gönderilir. |
NodeReimageError (Node Reimage Hatası) | Düğüm otomatik onarım yeniden görüntüleme eylemi bir işlem hatası nedeniyle başarısız oldu. Burada hata ayrıntılarına bakın: Hata kodu | Yeniden oluşturma eylemiyle ilgili bir hata olduğunda gönderilir. |
Node Yükleme Yeniden Başlatma Hatası (NodeRedeployError) | İşlem arızası nedeniyle düğüm otomatik onarım yeniden dağıtım işlemi başarısız oldu. Burada hata ayrıntılarına bakın: Hata kodu | Yeniden dağıtma eylemiyle ilgili bir hata olduğunda gönderilir. |
Sonraki adımlar
Varsayılan olarak, AKS kümenizdeki Kubernetes olaylarına ve günlüklerine son 1 saatte erişebilirsiniz. Son 90 günün olaylarını ve günlüklerini depolamak ve sorgulamak için AKS kümenizde daha ayrıntılı sorun giderme için Container Insights'ı etkinleştirin.
Azure Kubernetes Service