Monitor Azure Kubernetes Service （AKS）

AKS 監控需要多層次的可觀察性，涵蓋平台指標、Prometheus 指標、活動日誌、資源日誌及容器洞察。 AKS 提供內建監控功能，並與 Azure Monitor、Container insights、Prometheus 的託管服務及 Azure Managed Grafana 整合，實現完整的叢集健康與效能監控。

秘訣

你可以使用 Azure Copilot 在 Azure 入口網站設定 AKS 叢集的監控。欲了解更多資訊，請參閱「使用 Azure Copilot 高效地處理 AKS 叢集」。

深入解析

Azure 中的部分服務在 Azure 入口網站中有內建的監視儀表板，可作為監視服務的起點。這些儀表板稱為「深入解析」，您可以在 Azure 入口網站中 Azure 監視器的深入解析中樞內找到這些儀表板。

AKS 監控資料：指標、日誌、整合

AKS 會產生與其他 Azure 資源相同的監視數據種類，如監視來自 Azure 資源的數據中所述。如需 AKS 所建立計量和記錄的詳細資訊，請參閱 AKS 監視數據參考。

其他 Azure 服務和功能收集其他資料和啟用其他分析選項，如下圖和資料表中所示。

來源	描述
平台計量	平台計量會自動針收集 AKS 叢集，且無需費用。你可以使用指標瀏覽器分析這些指標，或用它們來建立指標警示。
Prometheus 計量	當您為叢集啟用計量擷取時，Azure 監視器中 Prometheus 的受控服務會收集 Prometheus 計量，並將其儲存在 Azure 監視器工作區中。利用 Azure Managed Grafana 中的預建儀表板及 Prometheus 警示來分析這些指標。
活動記錄	Azure 監視器活動記錄會自動收集 AKS 叢集的一些數據，而不需要任何費用。這些記錄檔會追蹤資訊，例如建立叢集或變更叢集組態的時間。若要將活動日誌資料與其他日誌資料一併分析，請將活動日誌資料傳送至日誌分析工作區。
資源記錄	AKS 的控制平面記錄會實作為資源記錄。建立診斷設定，將日誌傳送到 Log Analytics 工作空間。在工作區中，你可以用查詢分析日誌，並根據日誌資訊設定警報。
容器深入解析	容器洞察會從叢集收集各種日誌與效能資料，並儲存在 Log Analytics 工作區及 Azure Monitor 指標中。使用容器深入解析的檢視與工作簿或 `stdout`和`stderr`分析和串流這類資料。
Application Insights	Application Insights 是 Azure 監視器的功能，會收集記錄、計量和分散式追蹤。遙測會儲存在 Log Analytics工作區中，以在 Azure 入口網站中進行分析。若要使用代碼變更以啟用ApplicationInsights，請參閱啟用 Azure 監視器 OpenTelemetry。若要在沒有代碼變更的情況下啟用 Application Insights，請參閱 AKS 自動檢測。如需有關儀器的更多資訊，請參閱數據收集基本概念。

資源類型

Azure 會使用資源類型和識別碼的概念來識別訂用帳戶中的所有內容。資源類型也是 Azure 中所執行每個資源的資源識別碼組成部分。例如，虛擬機器的一種資源類型是 Microsoft.Compute/virtualMachines。如需服務及其相關聯資源類型的清單，請參閱資源提供者 (機器翻譯)。

Azure 監視器同樣會依據資源類型將核心監視資料組織成計量和記錄，也稱為「命名空間」。不同的計量和記錄適用於不同的資源類型。您的服務可能會與多個資源類型相關聯。

如需 AKS 中資源類型的詳細資訊，請參閱 AKS 監視資料參考。

資料儲存體

針對 Azure 監視器：

計量資料會儲存在 Azure 監視器計量資料庫中。
記錄資料會儲存在 Azure 監視器記錄存放區中。 Log Analytics 是可查詢此存放區的 Azure 入口網站工具。
Azure 活動記錄是個單獨存放區，其介面位於 Azure 入口網站。

您可選擇性地將計量和活動記錄資料路由傳送至 Azure 監視器記錄存放區。然後，可以使用 Log Analytics 來查詢資料，並將其與其他記錄資料相互關聯。

許多服務可以使用診斷設定，將計量和記錄資料傳送至 Azure 監視器以外的其他儲存位置。範例包括 Azure 儲存體、託管的合作夥伴系統以及使用事件中樞的非 Azure 合作夥伴系統。

如需進一步了解 Azure 監視器如何儲存資料，請參閱 Azure 監視器資料平台。

Azure 監視器平台計量

Azure 監視器為大多數服務提供平台計量。這些計量包括：

針對每個命名空間個別定義。
儲存在 Azure 監視器時間序列計量資料庫中。
輕量且能支援近即時警示。
用來追蹤資源效能的長期變化。

收集：Azure 監視器會自動收集平台計量。不需要組態。

路由傳送：您也可以將一些平台計量路由傳送至 Azure 監視器記錄/Log Analytics，以便與其他記錄資料一同查詢。檢查每個計量的 DS 匯出設定，確認您是否可使用診斷設定將計量路由傳送至 Azure 監視器記錄/Log Analytics。

如需詳細資訊，請參閱計量診斷設定 (機器翻譯)。
若要設定服務的診斷設定，請參閱在 Azure 監視器中建立診斷設定。

如需 Azure 監視器中所有資源可收集的計量完整清單，請參閱 Azure 監視器中所支援的計量。

如需您可以針對 AKS 收集的計量清單，請參閱 AKS 監視資料參考。

計量在監視叢集、識別問題，以及優化 AKS 叢集中的效能方面發揮了重要作用。平台的指標是透過安裝在 kube-system 命名空間的現成指標伺服器擷取，該伺服器會定期從 kubelet 服務的所有 AKS 節點抓取指標。您也應該啟用 Prometheus 計量的受控服務，以收集容器計量和 Kubernetes 物件計量，包括物件部署狀態。

您可以檢視 Prometheus 計量的預設受控服務清單。

如需詳細資訊，請參閱從 AKS 叢集收集 Prometheus 指標的管理式服務。

非 Azure 監視器型計量

此服務提供 Azure 監視器計量資料庫中未包含的其他計量。

您可以使用下列 Azure 服務和 Azure 監視器功能來監視 AKS 叢集。當您建立 AKS 叢集時，您可以啟用這些功能。

在 Azure 入口網站中，使用 [ 整合 ] 索引標籤，或使用 Azure CLI、Terraform 或 Azure 原則。在某些情況下，您可以在建立叢集之後將叢集上架到監視服務或功能。每個服務或功能都可能會產生成本，因此請先查看每個元件的定價資訊，再加以啟用。

服務或功能	描述
容器深入解析	使用容器化版本的Azure 監視器代理程式，從叢集中每個節點收集`stdout`及記錄`stderr`日誌和 Kubernetes 事件。此功能支援 AKS 叢集的各種監視案例。你可以在使用 Azure CLI、 Azure Policy、Azure 入口網站或 Terraform 建立 AKS 叢集時啟用監控。如果您在建立叢集時未啟用容器深入解析，請參閱啟用 AKS 叢集的容器深入解析以取得其他選項以啟用它。容器深入解析會將大部分的資料儲存在 Log Analytics 工作區中。您通常會使用與叢集的資源記錄相同的 Log Analytics 工作區。如需關於應使用多少個工作區以及應將它們放置於何處的指引，請參閱設計 Log Analytics 工作區架構。
Azure 監視器中適用於 Prometheus 的受管理服務	Prometheus 是 Cloud Native Computing Foundation 的雲端原生計量解決方案。這是從 Kubernetes 叢集收集及分析計量數據最常見的工具。 Azure 監視器中的 Prometheus 管理服務是完全管理的 Prometheus 相容性監控解決方案。如果您在建立叢集時未啟用 Prometheus 的受控服務，請參閱從 AKS 叢集收集 Prometheus 計量，以取得其他選項以啟用它。 Azure 監視器中的 Prometheus 受控服務會將其數據儲存在Azure 監視器工作區中，該工作區連結至 Grafana 工作區。您可以使用 Azure Managed Grafana 來分析數據。
Azure 受控 Grafana	Grafana 的完全受控實作。 Grafana 是一個開放原始碼數據可視化平臺，通常用來呈現 Prometheus 數據。多個預先定義的 Grafana 儀表板可用來監視 Kubernetes 和完整堆疊疑難排解。如果您在建立叢集時未啟用 Azure Managed Grafana，請參閱連結 Grafana 工作區。您可以將它連結至 Azure 監視器工作區，以便從叢集存取 Prometheus 計量。

AKS 控制平面指標監控（預覽）

前置條件與範圍：此預覽功能適用於運行 Kubernetes 1.27 或更新版本的 AKS 叢集，且需要在您的叢集啟用 Prometheus 的管理服務。此功能目前支援 Linux 與 Windows 節點池，但不相容於虛擬機可用性集（VMAS）。

AKS 也會透過 Azure 監視器中適用於 Prometheus 的受管理服務公開關鍵控制平面元件 (例如 API 伺服器、etcd 和排程器) 的計量。此功能目前為預覽狀態。如需詳細資訊，請參閱監視 AKS 控制平面計量。 API 伺服器和etcd的控制平面計量子集可透過 Azure 監視器平臺計量免費取得。預設會收集這些指標。您可以使用計量來建立警示。

Azure 監視器資源記錄

資源記錄提供對 Azure 資源所完成作業的深入解析。系統會自動產生記錄，但您必須將其路由傳送至 Azure 監視器記錄，才能儲存或查詢這些記錄。按類別組織記錄。指定的命名空間可能會有多個資源記錄類別。

收集：您必須先建立「診斷設定」，並將記錄路由傳送至一個或多個位置，才會開始收集和儲存資源記錄。在建立診斷設定時，您可以指定要收集的記錄類別。有多種方式可以建立和維護診斷設定，包括透過 Azure 入口網站、程式設計方式，以及 Azure 原則。

路由傳送：建議的預設設定是將資源記錄路由傳送至 Azure 監視器記錄，以便與其他記錄資料一同查詢。您也可以使用其他位置，例如 Azure 儲存體、Azure 事件中樞及特定 Microsoft 監視合作夥伴。如需詳細資訊，請參閱 Azure 資源記錄 (機器翻譯) 和資源記錄目的地 (機器翻譯)。

如需收集、儲存及路由傳送資源記錄的詳細資訊，請參閱 Azure 監視器中的診斷設定 (機器翻譯)。

如需 Azure 監視器中所有可用資源記錄類別的清單，請參閱 Azure 監視器中支援的資源記錄 (機器翻譯)。

Azure 監視器中的所有資源記錄都有相同的標頭欄位，後面接著服務特定的欄位。一般結構描述如 Azure 監視器資源記錄結構描述中所述。

如需可用的資源記錄類別、其相關聯的Log Analytics資料表，以及AKS的記錄架構，請參閱 AKS 監視數據參考。

AKS 控制平面資源記錄

前置條件：需要在與 AKS 叢集相同的訂閱中建立一個 Log Analytics 工作區。資源記錄會在目的工作區產生資料擷取與保留成本。在成本優化方面，請使用資源專屬模式，並設定 Basic 日誌層級作為稽核表。

AKS 叢集的控制平面記錄會實作為 Azure 監視器中的資源記錄。在您建立診斷設定以將記錄路由至至少一個位置之前，不會收集並儲存資源記錄。您通常會將資源記錄傳送至 Log Analytics 工作區，其中會儲存容器深入解析的大部分數據。

想了解如何使用 Azure 入口網站、Azure CLI 或 Azure PowerShell 建立診斷設定，請參閱建立診斷設定。在建立診斷設定時，您可以指定要收集的記錄類別。 AKS 的類別列在 AKS 監視資料參考中。

警告

當您收集 AKS 的資源記錄時，特別是針對 kube-audit 記錄，則可能會產生大量成本。請考慮下列建議，以減少收集的資料量：

不需要時停用 kube-audit 記錄。
啟用對 kube-audit-admin 的收集，這會排除 get 和 list 審計事件。
如本文所述啟用資源特定的記錄，並將 AKSAudit 資料表設定為基本記錄。

欲了解更多監控建議，請參閱使用 Azure 服務與雲端原生工具監控 AKS 叢集。如需降低監視成本的策略，請參閱成本優化和 Azure 監視器。

AKS 對資源記錄支援 AKS 診斷模式或資源專屬模式。 Azure 診斷模式會將所有數據傳送至 AzureDiagnostics 數據表。資源特定模式會指定傳送數據的Log Analytics工作區中的數據表。它也會將數據傳送至 AKSAudit、 AKSAuditAdmin和 AKSControlPlane ，如資源記錄中的資料表所示。

基於下列原因，建議您針對 AKS 使用資源特定模式：

數據更容易查詢，因為它位於專用於 AKS 的個別數據表中。
資源特定模式支援設定為基本記錄，以節省大量成本。

如需集合模式差異的詳細資訊，包括如何變更現有的設定，請參閱選取收集模式。

附註

你可以使用 Azure CLI 來設定診斷設定。此方法不保證成功，因為它不會檢查叢集的布建狀態。變更診斷設定之後，請檢查以確定叢集反映設定變更。

az monitor diagnostic-settings create --name AKS-Diagnostics --resource /subscriptions/xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx/resourceGroups/myresourcegroup/providers/Microsoft.ContainerService/managedClusters/my-cluster --logs '[{"category": "kube-audit","enabled": true}, {"category": "kube-audit-admin", "enabled": true}, {"category": "kube-apiserver", "enabled": true}, {"category": "kube-controller-manager", "enabled": true}, {"category": "kube-scheduler", "enabled": true}, {"category": "cluster-autoscaler", "enabled": true}, {"category": "cloud-controller-manager", "enabled": true}, {"category": "guard", "enabled": true}, {"category": "csi-azuredisk-controller", "enabled": true}, {"category": "csi-azurefile-controller", "enabled": true}, {"category": "csi-snapshot-controller", "enabled": true}]'  --workspace /subscriptions/xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx/resourcegroups/myresourcegroup/providers/microsoft.operationalinsights/workspaces/myworkspace --export-to-resource-specific true

AKS 資源日誌查詢與範例

查詢範圍要求：當你在 AKS 叢集選單中選擇日誌時，Log Analytics 會開啟查詢範圍為目前叢集。記錄查詢只包含來自該資源的數據。若要執行包含其他叢集或 Azure 服務資料的查詢，請從 Azure Monitor 選單中選擇日誌。

如果你的叢集診斷設定使用 Azure 診斷模式，AKS 的資源日誌會儲存在 AzureDiagnostics 表格中。透過 [類別] 欄識別記錄。如需每個類別的描述，請參閱 AKS 參考資源記錄。

描述	Mode	記錄檔查詢
計算每個類別的記錄	Azure 診斷模式	`AzureDiagnostics` \| `where ResourceType == "MANAGEDCLUSTERS"` \| `summarize count() by Category`
所有 API 伺服器記錄	Azure 診斷模式	`AzureDiagnostics` \| `where Category == "kube-apiserver"`
時間範圍內的所有 kube-audit 記錄	Azure 診斷模式	`let starttime = datetime("2023-02-23");` `let endtime = datetime("2023-02-24");` `AzureDiagnostics` \| `where TimeGenerated between(starttime..endtime)` \| `where Category == "kube-audit"` \| `extend event = parse_json(log_s)` \| `extend HttpMethod = tostring(event.verb)` \| `extend User = tostring(event.user.username)` \| `extend Apiserver = pod_s` \| `extend SourceIP = tostring(event.sourceIPs[0])` \| `project TimeGenerated, Category, HttpMethod, User, Apiserver, SourceIP, OperationName, event`
所有稽核記錄	資源專屬模式	`AKSAudit`
不包含`get`和`list`審計事件的所有審計日誌	資源專屬模式	`AKSAuditAdmin`
所有 API 伺服器記錄	資源專屬模式	`AKSControlPlane` \| `where Category == "kube-apiserver"`

若要存取 Log Analytics 工作區中的一組預先建置查詢，請參閱 Log Analytics 查詢介面，然後選取 Kubernetes Services 資源類型。如需容器深入解析的常見查詢清單，請參閱容器深入解析查詢。

AKS 稽核政策

AKS 使用 Kubernetes 稽核政策來控制記錄哪些事件及其包含哪些資料。該政策定義了根據使用者、資源、命名空間和動詞，決定不同類型 API 請求的稽核等級的規則。使用以下稽核等級：

無：符合此規則的事件不會被記錄。
元資料：記錄請求元資料（請求使用者、時間戳、資源、動詞），但不記錄請求或回應的正文。
請求：記錄事件元資料和請求內容，但不記錄回應內容。
RequestResponse：記錄事件元資料、請求與回應實體。

下表總結了 AKS 中適用的主要稽核政策規則：

審計層級	描述	範例事件
沒有	高量、低風險的讀取操作	`aksService` 使用者的 `get`/`list` 作業，`kube-proxy` 對端點/服務的監看，kubelet 對節點/節點狀態的 `get`，健全狀態檢查 URL (`/healthz`、`/version`、`/swagger`)
中繼資料	系統事件、事件資源 (不包含 `default`/`kube-system` 中的建立/更新)、祕密、設定對應、服務帳戶、權杖檢閱	權杖檢閱、祕密/設定對應存取、大型 CRD (例如 `installations.operator.tigera.io`)
請求	來自 kubelet/節點的節點與 Pod 狀態更新、刪除集合作業、磁碟區快照的 CRD 更新、核心 API 群組上的讀取作業 (`get`/`list`/`watch`)、VPA 變更	Kubelet 狀態更新、命名空間刪除、VPA 檢查點更新
請求回應	CoreDNS 自訂配置地圖更新、Fleet API 操作、Karpenter 資源變更，以及核心 API 群組上的所有其他寫入操作	CoreDNS 設定變更、車隊成員叢集操作、Karpenter 節點池變更

AKS 所用的完整稽核政策可在以下可摺疊區段查閱。

查看完整的 AKS 稽核政策

apiVersion: audit.k8s.io/v1
kind: Policy
rules:
  # audit level 'None' for high volume and low risk events
  - level: None
    users: ["aksService"]
    verbs: ["get", "list"]
  # audit level 'None' for low-risk requests
  - level: None
    users: ["system:kube-proxy"]
    verbs: ["watch"]
    resources:
      - group: ""
        resources: ["endpoints", "services", "services/status"]
  # audit level 'None' for low-risk requests
  - level: None
    users: ["kubelet"] # legacy kubelet identity
    verbs: ["get"]
    resources:
      - group: ""
        resources: ["nodes", "nodes/status"]
  # audit level 'None' for low-risk requests
  - level: None
    userGroups: ["system:nodes"]
    verbs: ["get"]
    resources:
      - group: ""
        resources: ["nodes", "nodes/status"]
  # audit level 'None' for low-risk requests
  - level: None
    users:
      - aksService # the default user/cert used by aks in master node
      - system:serviceaccount:kube-system:endpoint-controller
    verbs: ["get", "update"]
    namespaces: ["kube-system"]
    resources:
      - group: ""
        resources: ["endpoints"]
  # audit level 'None' for low-risk requests
  - level: None
    users: ["system:apiserver"]
    verbs: ["get"]
    resources:
      - group: ""
        resources: ["namespaces", "namespaces/status", "namespaces/finalize"]
  # audit level 'None' for low-risk requests
  - level: None
    users:
      - aksService # the default user/cert used by aks in master node
    verbs: ["get", "list"]
    resources:
      - group: "metrics.k8s.io"
  # Don't log these read-only URLs.
  - level: None
    nonResourceURLs:
      - /healthz*
      - /version
      - /swagger*
  # monitor metadata for system events which are being logged by eventlogger component
  - level: Metadata
    verbs: ["create", "update", "patch"]
    resources:
      - group: ""
        resources: ["events"]
      - group: "events.k8s.io"
        resources: ["events"]
    namespaces: ["default", "kube-system"]
  # Monitoring of actions to detect security/performance relevant activities.
  - level: Metadata
    verbs: ["delete", "list"]
    resources:
      - group: ""
        resources: ["events"]
      - group: "events.k8s.io"
        resources: ["events"]
  # Don't log other events requests.
  - level: None
    resources:
      - group: ""
        resources: ["events"]
      - group: "events.k8s.io"
        resources: ["events"]
  # node and pod status calls from nodes are high-volume and can be large, don't log responses for expected updates from nodes
  - level: Request
    users: ["client", "kubelet", "system:node-problem-detector", "system:serviceaccount:kube-system:node-problem-detector", "system:serviceaccount:kube-system:aci-connector-linux"]
    verbs: ["update","patch"]
    resources:
      - group: ""
        resources: ["nodes/status", "pods/status"]
    omitStages:
      - "RequestReceived"
  # node and pod status calls from nodes are high-volume and can be large, don't log responses for expected updates from nodes
  - level: Request
    userGroups: ["system:nodes"]
    verbs: ["update","patch"]
    resources:
      - group: ""
        resources: ["nodes/status", "pods/status"]
    omitStages:
      - "RequestReceived"
  # deletecollection calls can be large, don't log responses for expected namespace deletions
  - level: Request
    users: ["system:serviceaccount:kube-system:namespace-controller"]
    verbs: ["deletecollection"]
    omitStages:
      - "RequestReceived"
  # ignore response object that has big size
  - level: Request
    verbs: ["update","patch"]
    resources:
      - group: "apiextensions.k8s.io"
        resources: ["customresourcedefinitions"]
        resourceNames: ["volumesnapshotcontents.snapshot.storage.k8s.io", "volumesnapshots.snapshot.storage.k8s.io"]
    omitStages:
      - "RequestReceived"
  # ignore request and response objects for large CRDs that will be filtered down anyway
  - level: Metadata
    resources:
      - group: "apiextensions.k8s.io"
        resources: ["customresourcedefinitions"]
        resourceNames: ["installations.operator.tigera.io"]
    omitStages:
      - "RequestReceived"
  # overriding the default behavior of coredns might have security threats for Kubernetes DNS in security perspective, set the level as RequestResponse
  - level: RequestResponse
    verbs: ["update","patch"]
    resources:
      - group: ""
        resources: ["configmaps"]
        resourceNames: ["coredns-custom"]
    namespaces: ["kube-system"]
    omitStages:
      - "RequestReceived"
  # Secrets, ConfigMaps, ServiceAccounts, TokenRequest and TokenReviews can contain sensitive & binary data,
  # so only log at the Metadata level.
  - level: Metadata
    resources:
      - group: ""
        resources: ["secrets", "configmaps", "serviceaccounts", "serviceaccounts/token"]
      - group: authentication.k8s.io
        resources: ["tokenreviews"]
    omitStages:
      - "RequestReceived"
  # Capture state of vertical pod autoscalers
  - level: Request
    verbs: ["create", "update", "patch", "delete"]
    resources:
      - group: "autoscaling.k8s.io"
        resources: ["verticalpodautoscalers", "verticalpodautoscalercheckpoints"]
    omitStages:
      - "RequestReceived"
  # Capture create and delete of internal fleet resources
  - level: RequestResponse
    verbs: ["create", "delete"]
    resources:
      - group: "cluster.kubernetes-fleet.io"
        resources: ["memberclusters", "internalmemberclusters"]
      - group: "placement.kubernetes-fleet.io"
        resources: ["works"]
      - group: "networking.fleet.azure.com"
        resources: ["internalserviceexports", "internalserviceimports"]
    omitStages:
      - "RequestReceived"
  # Capture CUD of user facing Fleet API
  - level: RequestResponse
    verbs: ["create", "update", "patch", "delete"]
    resources:
      - group: "placement.kubernetes-fleet.io"
        resources: ["clusterstagedupdateruns", "clusterresourceplacements", "clusterresourceplacementevictions", "clusterresourceplacementdisruptionbudgets", "clusterstagedupdatestrategies", "clusterapprovalrequests", "clusterresourceoverrides", "resourceoverrides"]
      - group: "networking.fleet.azure.com"
        resources: ["serviceexports", "multiclusterservices", "trafficmanagerprofiles", "trafficmanagerbackends"]
    omitStages:
      - "RequestReceived"
  # Capture CUD of user facing Karpenter resources
  - level: RequestResponse
    verbs: ["create", "update", "patch", "delete"]
    resources:
      - group: "karpenter.azure.com"
        resources: ["aksnodeclasses", "aksnodeclasses/status"]
      - group: "karpenter.sh"
        resources: ["nodepools", "nodepools/status", "nodeclaims", "nodeclaims/status"]
    omitStages:
      - "RequestReceived"
  # Get responses can be large; don't log response
  - level: Request
    verbs: ["get", "list", "watch"]
    resources:
      - group: ""
      - group: "admissionregistration.k8s.io"
      - group: "apiextensions.k8s.io"
      - group: "apiregistration.k8s.io"
      - group: "apps"
      - group: "authentication.k8s.io"
      - group: "authorization.k8s.io"
      - group: "autoscaling"
      - group: "batch"
      - group: "certificates.k8s.io"
      - group: "extensions"
      - group: "metrics.k8s.io"
      - group: "networking.k8s.io"
      - group: "policy"
      - group: "rbac.authorization.k8s.io"
      - group: "scheduling.k8s.io"
      - group: "settings.k8s.io"
      - group: "storage.k8s.io"
    omitStages:
      - "RequestReceived"
  # Default level for known APIs
  - level: RequestResponse
    resources:
      - group: ""
      - group: "admissionregistration.k8s.io"
      - group: "apiextensions.k8s.io"
      - group: "apiregistration.k8s.io"
      - group: "apps"
      - group: "authentication.k8s.io"
      - group: "authorization.k8s.io"
      - group: "autoscaling"
      - group: "batch"
      - group: "certificates.k8s.io"
      - group: "extensions"
      - group: "metrics.k8s.io"
      - group: "networking.k8s.io"
      - group: "policy"
      - group: "rbac.authorization.k8s.io"
      - group: "scheduling.k8s.io"
      - group: "settings.k8s.io"
      - group: "storage.k8s.io"
    omitStages:
      - "RequestReceived"
  # Default level for all other requests.
  - level: Metadata
    omitStages:
      - "RequestReceived"

附註

審計政策由 AKS 管理，無法自訂。該政策旨在平衡安全可觀察性與效能及成本優化，透過減少高頻低風險作業的日誌量。

AKS 資料平面容器深入解析記錄

前提與設定需求：Container Insights 需要一個 Log Analytics 工作空間來儲存日誌，並支援管理身份與舊有認證方法。對於新叢集，建議使用受管理身份驗證。資料收集可透過 Azure Monitor 資料收集規則（DCR）進行客製化，以控制成本並降低資料擷取量。

容器深入解析會從容器和 AKS 叢集收集各種類型的遙測數據，以協助您監視、疑難解答及深入瞭解在 AKS 叢集中執行的容器化應用程式。如需容器見解使用的資料表及其詳細描述的清單，請參閱 Azure 監視器資料表參考。所有數據表都可供記錄查詢使用。

使用成本優化設定來自訂和控制透過 Container insights 代理程式收集的指標數據。此功能支援個別數據表選取、數據收集間隔和命名空間的數據收集設定，以透過 Azure 監視器資料收集規則（DCR）排除資料收集。這些設定可控制資料引入量，並降低 Container Insights 的監控成本。您可以使用以下選項，在 Azure 入口網站中自訂容器洞察所收集的資料。選擇除了 [全部 (預設)] 以外的任何選項將使容器深入解析體驗無法使用。

分組	資料表	注意
全部 (預設)	所有標準容器深入解析數據表	需要啟用預設的容器深入解析視覺效果。
Performance	Perf、InsightsMetrics	N/A
記錄和事件	ContainerLog 或 ContainerLogV2、KubeEvents、KubePodInventory	建議在您啟用 Prometheus 指標的管理服務時使用。
工作負載、部署和 HPA	InsightsMetrics、KubePodInventory、KubeEvents、ContainerInventory、ContainerNodeInventory、KubeNodeInventory、KubeServices	N/A
永續性磁碟區	InsightsMetrics、KubePVInventory	N/A

記錄和事件群組會從 ContainerLog 或 ContainerLogV2、KubeEvents 和 KubePodInventory 數據表擷取記錄，但不會擷取計量。收集計量的建議路徑是從 AKS 叢集啟用 Prometheus 的受控服務，並使用 Azure Managed Grafana 進行數據視覺效果。如需詳細資訊，請參閱管理 Azure 監視器工作區。

ContainerLogV2 結構描述

相容性與設定需求：建議使用 ContainerLogV2 架構，用於透過 Azure Resource Manager （ARM）範本、Bicep、Terraform、Azure Policy 或 Azure 入口網站進行管理身份驗證的新 Container insights 部署。該架構與 Basic Logs 層級相容，節省成本，且不影響分析或警示功能。如需如何透過叢集 DCR 或 configmap 啟用 ContainerLogV2 的詳細資訊，請參閱啟用 ContainerLogV2 架構。

Azure 監視器中的容器深入解析提供容器記錄 ContainerLogV2 的建議架構。格式包含下列欄位，可供一般查詢檢視與 AKS 和已啟用 Azure Arc 的 Kubernetes 叢集相關的數據：

ContainerName
PodName
PodNamespace

Azure 活動記錄檔

活動記錄包含訂用帳戶層級事件，用於追蹤每個 Azure 資源外部可見的作業；例如，建立新的資源或啟動虛擬機器。

收集：活動記錄事件會自動產生並收集至個別存放區中，以便使用者在 Azure 入口網站中檢視。

路由傳送：您可以將活動記錄資料傳送至 Azure 監視器記錄，以便與其他記錄資料一起分析。您也可以使用其他位置，例如 Azure 儲存體、Azure 事件中樞及特定 Microsoft 監視合作夥伴。如需進一步了解如何路由傳送活動記錄，請參閱 Azure 活動記錄概觀 (機器翻譯)。

實時檢視 AKS 容器記錄、事件和 Pod 計量

前置條件與設定要求：Live Data 功能需要在您的叢集啟用 Container Insights，並使用直接 Kubernetes API 存取。對於私有叢集，存取需要與叢集相同的私人網路中的電腦。認證遵循 Kubernetes RBAC 模式，並需適當的叢集權限。

你可以利用 Container insights 中的 即時資料 功能查看 AKS 容器日誌、事件和 Pod 指標，並可透過直接存取 kubectl logs -c、kubectl get 及 kubectl top pods 即時排除問題。

附註

AKS 使用 Kubernetes 叢集層級的記錄架構。容器記錄位於 /var/log/containers 節點上。若要存取節點，請參閱連線到 AKS 叢集節點。

若要瞭解如何設定這項功能，請參閱在容器深入解析中設定實時數據。此功能會直接存取 Kubernetes API。如需驗證模型的詳細資訊，請參閱 Kubernetes API。

檢視 AKS 資源即時記錄

私有叢集網路需求：要存取私有叢集的日誌，必須使用與叢集同屬私有網路的電腦。

在 Azure 入口網站中，移至您的 AKS 叢集。
在 [Kubernetes 資源] 之下，選取 [工作負載]。
針對 [Deployment]、[Pod]、[Replica Set]、[Stateful Set]、[Job] 或 [Cron Job]，選取一個值，然後選取 [Live Logs]。
選取要檢視的資源記錄檔。

下列範例顯示 Pod 資源的記錄：

使用 Container insights 查看容器即時日誌

認證與資料串流：認證成功後，若資料能取得，資料會開始串流至 即時日誌 標籤。日誌資料以連續串流形式出現。可提供替代日誌存取，透過 「View Logs in Log Analytics」 進行歷史分析。

您可以檢視即時記錄數據，因為容器引擎會在 [ 叢集]、 [節點]、[ 控制器] 或 [ 容器 ] 索引卷標上產生它。

在 Azure 入口網站中，移至您的 AKS 叢集。
在 [監視] 下，選取 [深入解析]。
在 [ 叢集]、 [節點]、[ 控制器] 或 [ 容器] 索引標籤上，選取值。
在資源的 [ 概觀 ] 窗格中，選取 [ 即時記錄]。

下圖顯示容器資源的記錄：

使用 Container 洞察查看容器即時事件

事件串流與存取：容器引擎即時產生事件資料串流。事件包括 Pod 建立、刪除、縮放操作及錯誤狀況。歷史事件資料可透過 「查看日誌分析事件」存取。

您可以檢視即時事件數據，因為容器引擎會在 [ 叢集]、 [節點]、[ 控制器] 或 [ 容器 ] 索引卷標上產生它。

在 Azure 入口網站中，移至您的 AKS 叢集。
在 [監視] 下，選取 [深入解析]。
選取 [ 叢集]、 [節點]、[ 控制器] 或 [ 容器] 索引標籤，然後選取物件。
在 [資源概觀] 窗格中，選取 [ 即時活動]。

成功驗證之後，如果可以擷取數據，就會開始串流至 [ 即時事件 ] 索引標籤。下圖顯示容器資源的事件：

利用容器洞察查看 Pod 即時指標

指標範圍與可用性：Pod 資源的即時指標可於節點或 控制器 分頁查詢。指標包括 CPU 使用率、記憶體消耗、網路 I/O 及檔案系統統計。歷史指標可透過 日誌分析中的「檢視事件」存取。

您可以選取 Pod 資源，檢視即時計量數據，因為容器引擎會在 [節點 ] 或 [ 控制器 ] 索引標籤上產生數據。

在 Azure 入口網站中，移至您的 AKS 叢集。
在 [監視] 下，選取 [深入解析]。
選取 [ 節點或 控制器 ] 索引標籤，然後選取 Pod 物件。
在 [資源概觀] 窗格中，選取 [ 即時計量]。

成功驗證之後，如果可以擷取數據，就會開始串流至 [即時計量] 索引 標籤。下圖顯示 Pod 資源的計量：

分析監視資料

有許多工具可用來分析監視資料。

Azure 監視器工具

Azure 監視器支援下列基本工具：
- 計量瀏覽器是 Azure 入口網站中的工具，可讓您檢視和分析 Azure 資源的計量。如需詳細資訊，請參閱使用 Azure 監視器計量瀏覽器分析計量。
- Log Analytics 是 Azure 入口網站中的工具，可讓您使用 Kusto 查詢語言 (KQL) 來查詢和分析記錄資料。如需詳細資訊，請參閱開始使用 Azure 監視器中的記錄查詢。
- 活動記錄在 Azure 入口網站中具有使用者介面，可供檢視和基本搜尋。若要進行更深入的分析，您必須將資料路由傳送至 Azure 監視器記錄，並在 Log Analytics 中執行更複雜的查詢。
支援更複雜視覺效果的工具包括：
- 儀表板 (機器翻譯) 可讓您將不同類型的資料合併到 Azure 入口網站中的單一窗格。
- 活頁簿，這是能在 Azure 入口網站中建立的可自訂報表。活頁簿可以包含文字、計量及記錄查詢。
- Grafana 是在操作儀表板中表現相當出色的開放平台工具。您可以使用 Grafana 來建立儀表板，納入 Azure 監視器以外多個來源的資料。
- Power BI (機器翻譯) 是一項商務分析服務，可提供跨各種資料來源的互動式視覺效果。您可以將 Power BI 設定為從 Azure 監視器自動匯入記錄資料，以利用這些視覺效果。
Azure 監視器匯出工具

您可以使用下列方法將資料從 Azure 監視器中提取至其他工具：
- 計量：使用計量的 REST API (機器翻譯) 從 Azure 監視器計量資料庫中擷取計量資料。此 API 支援使用篩選條件運算式來縮小擷取的資料範圍。如需詳細資訊，請參閱 Azure 監視器 REST API 參考 (機器翻譯)。
- 記錄：使用 REST API 或相關聯的用戶端程式庫 (機器翻譯)。
- 另一個選項是工作區資料匯出 (部分內容可能是機器或 AI 翻譯)。
若要開始使用適用於 Azure 監視器的 REST API，請參閱 Azure 監視 REST API 逐步解說 (機器翻譯)。

監控 AKS 叢集在 Azure 入口網站

AKS 叢集資源的 [概觀] 窗格上的 [監視] 索引標籤可讓您快速開始在 Azure 入口網站中檢視監視數據。此索引標籤包含按節點集區分隔的叢集的常見計量圖表。您可以選取任何一個圖表來進一步分析計量瀏覽器中的資料。

T[監視] 索引標籤還包含指向適用於 Prometheus 的受管理服務和叢集的容器深入解析的連結。您可以在 [ 監視] 索引標籤上啟用這些工具。您也可以在窗格頂端看到橫幅，建議其他功能來改善叢集的監視。

秘訣

若要存取訂用帳戶中所有 AKS 叢集的監視功能，請在 Azure 入口網站首頁上選取 [Azure 監視器]。

Kusto 查詢

您可以使用 Kusto 查詢語言 (KQL) 分析 Azure 監視器記錄/Log Analytics 存放區中的監視資料。

重要事項

當您從入口網站的服務功能表中選取 [記錄] 時，Log Analytics 會隨即開啟，並將查詢範圍設定為目前的服務。此範圍表示記錄查詢只會包含該資源類型的資料。如果您想要執行包含其他 Azure 服務資料的查詢，請從 [Azure 監視器] 功能表中選取 [記錄]。如需詳細資訊，請參閱 Azure 監視器 Log Analytics 中的記錄查詢範圍和時間範圍。

如需各項服務的常見查詢清單，請參閱 Log Analytics 查詢介面 (機器翻譯)。

警示

在監視資料中發現特定狀況時，Azure 監視器警示會主動通知您。警示可讓您在客戶發現系統發生問題前，就先及早識別和解決問題。如需詳細資訊，請參閱 Azure 監視器警示。

Azure 資源的常見警示有許多來源。如需 Azure 資源的常見警示範例，請參閱記錄警示查詢範例 (機器翻譯)。 Azure 監視器基準警示 (AMBA) (英文) 網站提供半自動化方法來實作重要的平台計量警示、儀表板和指導方針。此網站適用於持續擴充的 Azure 服務子集，包括屬於 Azure 登陸區域 (ALZ) 的所有服務。

常見的警示結構描述會將 Azure 監視器警示通知的使用量標準化。如需詳細資訊，請參閱一般警示結構描述 (機器翻譯)。

警示類型

您可以在 Azure 監視器資料平台中設置任何計量或記錄資料來源的警示。警示有許多不同的類型，具體取決於您監視的服務以及所收集的監視資料。不同類型的警示各有優缺點。如需詳細資訊，請參閱選擇正確的監視警示類型 (機器翻譯)。

下列清單介紹可建立的 Azure 監視器警示類型：

計量警示會定期評估資源計量。計量可以是平台計量、自訂計量、轉換成計量或 Application Insights 計量的Azure 監視器記錄。計量警示還可以套用多個條件和動態閾值。
記錄警示可讓使用者使用 Log Analytics 查詢，以預先定義的頻率評估資源記錄。
活動記錄警示 (機器翻譯) 會在發生符合定義條件的新活動記錄事件時觸發。 [資源健康狀態] 警示和 [服務健康狀態] 警示是回報服務和資源健康狀態的活動記錄警示。

某些 Azure 服務也支援智慧偵測警示、Prometheus 警示或建議的警示規則。

對於某些服務，若要進行大規模監控，您可以將相同計量警示規則套用至相同 Azure 區域中存在的多個同類型資源。系統會針對每個受監視的資源傳送個別通知。如需支援的 Azure 服務和雲端，請參閱使用一個警示規則監視多個資源 (機器翻譯)。

建議的警示規則

從部分 Azure 服務，您可以啟用建議的現成警示規則。

系統會根據以下內容編譯建議的警示規則清單：

資源提供者對於監視資源的重要訊號和臨界值的知識。
告知我們客戶經常針對此資源發出警示的資料。

附註

建議的警示規則適用於：

虛擬機器
Azure Kubernetes Service (AKS) 資源
Log Analytics 工作區

設定基於 Prometheus 指標的警示

下載與設定要求：警報規則可下載為 ARM 範本或 Bicep 檔案。在設定警報前，請確保你的叢集已啟用 Prometheus 的管理服務，且 Azure Monitor 工作區已正確連結到 AKS 叢集。

當您為叢集啟用 Prometheus 計量的受控服務集合時，您可以下載 Prometheus 警示規則的建議受控服務集合。

下載包含下列規則：

層級	警示
叢集層級	`KubeCPUQuotaOvercommit` `KubeMemoryQuotaOvercommit` `KubeContainerOOMKilledCount` `KubeClientErrors` `KubePersistentVolumeFillingUp` `KubePersistentVolumeInodesFillingUp` `KubePersistentVolumeErrors` `KubeContainerWaiting` `KubeDaemonSetNotScheduled` `KubeDaemonSetMisScheduled` `KubeQuotaAlmostFull`
節點等級	`KubeNodeUnreachable` `KubeNodeReadinessFlapping`
Pod 等級	`KubePVUsageHigh` `KubeDeploymentReplicasMismatch` `KubeStatefulSetReplicasMismatch` `KubeHpaReplicasMismatch` `KubeHpaMaxedOut` `KubePodCrashLooping` `KubeJobStale` `KubePodContainerRestart` `KubePodReadyStateLow` `KubePodFailedState` `KubePodNotReadyByController` `KubeStatefulSetGenerationMismatch` `KubeJobFailed` `KubeContainerAverageCPUHigh` `KubeContainerAverageMemoryHigh` `KubeletPodStartUpLatencyHigh`

如需詳細資訊，請參閱從容器深入解析建立記錄警示和從容器深入解析查詢記錄。

記錄警示可以測量兩種類型的資訊，以協助您監視各種案例：

結果計數：計算查詢傳回的數據列數目。使用這項資訊來處理 Windows 事件記錄、syslog 事件和應用程式例外狀況等事件。
值的計算：根據數值數據行進行計算。利用此資訊來納入多元的資源。例如 CPU 百分比。

大多數日誌查詢會將DateTime值與當前時間利用now運算子進行比對，並回溯一小時。若要瞭解如何組建記錄型警示，請參閱從容器深入解析建立記錄警示。

AKS 警示規則

下表列出一些針對 AKS 的建議警示規則。這些警示只是範例。您可以在 AKS 監視資料參考中列出的任何計量、記錄項目或活動記錄項目設定警示。

狀況	描述
CPU 使用量百分比>95	當所有節點的平均 CPU 使用量超過閾值時警示。
記憶體工作集百分比>100	當所有節點的平均工作集超過閾值時警示。

Advisor 建議

對於一些服務，如果在資源作業期間發生重大狀況或有即將到來的變更，入口網站的服務 [概觀] 頁面上會顯示警示。您可以在左側功能表中 [監視] 底下的 [Advisor 建議] 中找到警示的詳細資訊和建議的修正。在正常作業期間，不會顯示 Advisor 建議。

如需 Azure Advisor 的詳細資訊，請參閱 Azure Advisor 概觀 (機器翻譯)。

附註

如果您要建立或執行在服務上執行的應用程式，Azure 監視器 Application Insights 可提供更多類型的警示。

AKS 節點網路指標監控

版本與啟用要求：在 Kubernetes 1.29 版本及以上版本中，所有啟用 Azure Monitor 的叢集預設都啟用節點網路指標。對於較早期的 Kubernetes 版本，你必須透過叢集設定手動啟用網路監控。此功能需要在您的叢集上設定 Azure Monitor 或容器洞察。

節點網路計量對於維護狀況良好且效能良好的 Kubernetes 叢集至關重要。藉由收集和分析有關網路流量的數據，您可以取得有關叢集作業的寶貴見解，並在造成中斷或效能遺失之前找出潛在問題。

默認會啟用下列節點網路計量，並依每個節點匯總。所有計量都包含標籤叢集和執行個體 (節點名稱)。你可以在 Azure Managed Prometheus>的 Kubernetes>Networking>Clusters 下，使用 Managed Grafana 儀表板輕鬆查看這些指標。

AKS 節點網路度量按資料平面類型分類

所有計量都包含這些標籤：

cluster
instance （節點名稱）

Cilium
非 Cilium

作業系統支援與限制：對於 Cilium 資料平面情境，容器網路可觀察性功能僅提供 Linux 節點池的指標。目前，容器網路可觀察性計量不支援 Windows。確保你的叢集具有 Linux 節點池，以確保 Cilium 指標的完整可用性。

針對 Cilium 數據平面案例，容器網路可觀察性功能僅提供 Linux 的計量。目前，容器網路可觀察性計量不支援 Windows。

Cilium 會公開容器網路可觀察性使用的數個計量：

指標名稱	描述	額外的標籤	Linux	窗戶
`cilium_forward_count_total`	轉接封包計數總計	`direction`	支援的 ✅	不支援的 ❌
`cilium_forward_bytes_total`	轉接位元組計數總計	`direction`	支援的 ✅	不支援的 ❌
`cilium_drop_count_total`	捨棄的封包計數總計	`direction`、`reason`	支援的 ✅	不支援的 ❌
`cilium_drop_bytes_total`	捨棄的位元組計數總計	`direction`、`reason`	支援的 ✅	不支援的 ❌

作業系統支援與已知限制：對於非 Cilium 資料平面情境，容器網路可觀察性提供 Linux 與 Windows 作業系統的指標。然而，由於已知錯誤，TCP 重設暫時不會顯示，因此 Linux 節點的 networkobservability_tcp_flag_counters 計量不會發布。我們正積極努力解決此問題。

針對非 Cilium 資料平面案例，容器網路可觀察性可為 Linux 和 Windows 作業系統提供計量。

下表列出所產生的指標：

指標名稱	描述	額外的標籤	Linux	窗戶
`networkobservability_forward_count`	轉接封包計數總計	`direction`	支援的 ✅	支援的 ✅
`networkobservability_forward_bytes`	轉接位元組計數總計	`direction`	支援的 ✅	支援的 ✅
`networkobservability_drop_count`	捨棄的封包計數總計	`direction`、`reason`	支援的 ✅	支援的 ✅
`networkobservability_drop_bytes`	捨棄的位元組計數總計	`direction`、`reason`	支援的 ✅	支援的 ✅
`networkobservability_tcp_state`	依 TCP 狀態的 TCP 目前作用中通訊端計數	`state`	支援的 ✅	支援的 ✅
`networkobservability_tcp_connection_remote`	依遠端 IP/連接埠的 TCP 目前作用中通訊端計數	`address` (IP)，`port`	支援的 ✅	不支援的 ❌
`networkobservability_tcp_connection_stats`	TCP 連線統計資料 (例如：延遲的 ACK、TCPKeepAlive、TCPSackFailures)	`statistic`	支援的 ✅	支援的 ✅
`networkobservability_tcp_flag_counters`	依旗標的 TCP 封包計數	`flag`	不支援的 ❌	支援的 ✅
`networkobservability_ip_connection_stats`	IP 連線統計資料	`statistic`	支援的 ✅	不支援的 ❌
`networkobservability_udp_connection_stats`	UDP 連線統計資料	`statistic`	支援的 ✅	不支援的 ❌
`networkobservability_udp_active_sockets`	UDP 目前作用中通訊端計數	N/A	支援的 ✅	不支援的 ❌
`networkobservability_interface_stats`	介面統計資料	InterfaceName，`statistic`	支援的 ✅	支援的 ✅

停用 AKS 節點網路度量收集

您可以將標籤 networking.azure.com/node-network-metrics=disabled 新增至特定節點，以停用特定節點上的網路計量收集。

附註

視網膜有 operator: "Exists"effect: NoSchedule 耐受性，因此可以繞過 NoSchedule 污染物。因此，使用標籤而不是污點來控制排程。

如果叢集是 autoprovisioning/autoscaling 節點，你需要手動啟用每個節點的旗標。