Bagikan melalui


Node Problem Detector (NPD) di simpul Azure Kubernetes Service (AKS)

Node Problem Detector (NPD) adalah komponen sumber terbuka Kubernetes yang mendeteksi masalah terkait simpul dan laporan tentangnya. Ini berjalan sebagai sistemd serviced pada setiap node dalam kluster dan mengumpulkan berbagai metrik dan informasi sistem, seperti penggunaan CPU, penggunaan disk, dan konektivitas jaringan. Ketika mendeteksi masalah, itu menghasilkan peristiwa dan/atau kondisi node. Azure Kubernetes Service (AKS) menggunakan NPD untuk memantau dan mengelola simpul dalam kluster Kubernetes yang berjalan di platform cloud Azure. Ekstensi AKS Linux memungkinkan NPD secara default.

Catatan

Peningkatan ke NPD tidak bergantung pada gambar simpul dan proses peningkatan versi Kubernetes. Jika nodepool tidak sehat (yaitu dalam keadaan gagal), versi NPD baru tidak akan diinstal.

Kondisi node

Kondisi node menunjukkan masalah permanen yang membuat simpul tidak tersedia. AKS menggunakan kondisi node berikut dari NPD untuk mengekspos masalah permanen pada simpul. NPD juga memancarkan peristiwa Kubernetes yang sesuai.

Jenis Daemon masalah NodeCondition Alasan
CustomPluginMonitor FilesystemCorruptionProblem FilesystemCorruptionDetected
CustomPluginMonitor KubeletProblem KubeletIsDown
CustomPluginMonitor ContainerRuntimeProblem ContainerRuntimeIsDown
CustomPluginMonitor VMEventScheduled VMEventScheduled
CustomPluginMonitor FrequentUnregisterNetDevice UnregisterNetDevice
CustomPluginMonitor FrequentKubeletRestart FrequentKubeletRestart
CustomPluginMonitor FrequentContainerdRestart FrequentContainerdRestart
CustomPluginMonitor FrequentDockerRestart FrequentDockerRestart
SystemLogMonitor KernelDeadlock DockerHung
SystemLogMonitor ReadonlyFilesystem FilesystemIsReadOnly

Aktivitas

NPD memancarkan peristiwa dengan informasi yang relevan untuk membantu Anda mendiagnosis masalah yang mendasar.

Jenis Daemon masalah Alasan
CustomPluginMonitor FilesystemCorruptionDetected
CustomPluginMonitor KubeletIsDown
CustomPluginMonitor ContainerRuntimeIsDown
CustomPluginMonitor FreezeScheduled
CustomPluginMonitor RebootScheduled
CustomPluginMonitor Sebar ulangScheduled
CustomPluginMonitor TerminateScheduled
CustomPluginMonitor PreemptScheduled
CustomPluginMonitor DNSProblem
CustomPluginMonitor PodIPProblem
SystemLogMonitor OOMKilling
SystemLogMonitor TaskHung
SystemLogMonitor UnregisterNetDevice
SystemLogMonitor KernelOops
SystemLogMonitor DockerSocketCannot Koneksi
SystemLogMonitor KubeletRPCDeadlineExceededed
SystemLogMonitor KubeletRPCNoSuchContainer
SystemLogMonitor CNICannotStatFS
SystemLogMonitor PLEGUnhealthy
SystemLogMonitor KubeletStart
SystemLogMonitor DockerStart
SystemLogMonitor ContainerdStart

Dalam instans tertentu, AKS secara otomatis menghubungkan dan menguras node untuk meminimalkan gangguan pada beban kerja. Untuk informasi selengkapnya tentang peristiwa dan tindakan, lihat Pengurasan otomatis node.

Periksa kondisi dan peristiwa simpul

  • Periksa kondisi node dan peristiwa menggunakan kubectl describe node perintah .

    kubectl describe node my-aks-node
    

    Output Anda akan terlihat mirip dengan contoh output ringkas berikut:

    ...
    ...
    
    Conditions:
      Type                          Status  LastHeartbeatTime                 LastTransitionTime                Reason                          Message
      ----                          ------  -----------------                 ------------------                ------                          -------
      VMEventScheduled              False   Thu, 01 Jun 2023 19:14:25 +0000   Thu, 01 Jun 2023 03:57:41 +0000   NoVMEventScheduled              VM has no scheduled event
      FrequentContainerdRestart     False   Thu, 01 Jun 2023 19:14:25 +0000   Thu, 01 Jun 2023 03:57:41 +0000   NoFrequentContainerdRestart     containerd is functioning properly
      FrequentDockerRestart         False   Thu, 01 Jun 2023 19:14:25 +0000   Thu, 01 Jun 2023 03:57:41 +0000   NoFrequentDockerRestart         docker is functioning properly
      FilesystemCorruptionProblem   False   Thu, 01 Jun 2023 19:14:25 +0000   Thu, 01 Jun 2023 03:57:41 +0000   FilesystemIsOK                  Filesystem is healthy
      FrequentUnregisterNetDevice   False   Thu, 01 Jun 2023 19:14:25 +0000   Thu, 01 Jun 2023 03:57:41 +0000   NoFrequentUnregisterNetDevice   node is functioning properly
      ContainerRuntimeProblem       False   Thu, 01 Jun 2023 19:14:25 +0000   Thu, 01 Jun 2023 03:57:40 +0000   ContainerRuntimeIsUp            container runtime service is up
      KernelDeadlock                False   Thu, 01 Jun 2023 19:14:25 +0000   Thu, 01 Jun 2023 03:57:41 +0000   KernelHasNoDeadlock             kernel has no deadlock
      FrequentKubeletRestart        False   Thu, 01 Jun 2023 19:14:25 +0000   Thu, 01 Jun 2023 03:57:41 +0000   NoFrequentKubeletRestart        kubelet is functioning properly
      KubeletProblem                False   Thu, 01 Jun 2023 19:14:25 +0000   Thu, 01 Jun 2023 03:57:41 +0000   KubeletIsUp                     kubelet service is up
      ReadonlyFilesystem            False   Thu, 01 Jun 2023 19:14:25 +0000   Thu, 01 Jun 2023 03:57:41 +0000   FilesystemIsNotReadOnly         Filesystem is not read-only
      NetworkUnavailable            False   Thu, 01 Jun 2023 03:58:39 +0000   Thu, 01 Jun 2023 03:58:39 +0000   RouteCreated                    RouteController created a route
      MemoryPressure                True    Thu, 01 Jun 2023 19:16:50 +0000   Thu, 01 Jun 2023 19:16:50 +0000   KubeletHasInsufficientMemory    kubelet has insufficient memory available
      DiskPressure                  False   Thu, 01 Jun 2023 19:16:50 +0000   Thu, 01 Jun 2023 03:57:22 +0000   KubeletHasNoDiskPressure        kubelet has no disk pressure
      PIDPressure                   False   Thu, 01 Jun 2023 19:16:50 +0000   Thu, 01 Jun 2023 03:57:22 +0000   KubeletHasSufficientPID         kubelet has sufficient PID available
      Ready                         True    Thu, 01 Jun 2023 19:16:50 +0000   Thu, 01 Jun 2023 03:57:23 +0000   KubeletReady                    kubelet is posting ready status. AppArmor enabled
    ...
    ...
    ...
    Events:
      Type    Reason                   Age                  From     Message
      ----    ------                   ----                 ----     -------
      Normal  NodeHasSufficientMemory  94s (x176 over 15h)  kubelet  Node aks-agentpool-40622340-vmss000009 status is now: NodeHasSufficientMemory
    

Peristiwa ini juga tersedia di Container Insights melalui KubeEvents.

Metrik

NPD juga mengekspos metrik Prometheus berdasarkan masalah node, yang dapat Anda gunakan untuk pemantauan dan pemberitahuan. Metrik ini diekspos pada port 20257 dari IP Node dan Prometheus dapat mengikisnya.

Contoh YAML berikut menunjukkan konfigurasi scrape yang dapat Anda gunakan dengan add-on Azure Managed Prometheus sebagai DaemonSet:

kind: ConfigMap
apiVersion: v1
metadata:
  name: ama-metrics-prometheus-config-node
  namespace: kube-system
data:
  prometheus-config: |-
    global:
      scrape_interval: 1m
    scrape_configs:
    - job_name: node-problem-detector
      scrape_interval: 1m
      scheme: http
      metrics_path: /metrics
      relabel_configs:
      - source_labels: [__metrics_path__]
        regex: (.*)
        target_label: metrics_path
      - source_labels: [__address__]
        replacement: '$NODE_NAME'
        target_label: instance
      static_configs:
      - targets: ['$NODE_IP:20257']

Contoh berikut menunjukkan metrik yang diekstraksi:

problem_gauge{reason="UnregisterNetDevice",type="FrequentUnregisterNetDevice"} 0
problem_gauge{reason="VMEventScheduled",type="VMEventScheduled"} 0

Langkah berikutnya

Untuk informasi selengkapnya tentang NPD, lihat kubernetes/node-problem-detector.