Überwachen des Azure Kubernetes-Diensts (AKS)

Die AKS-Überwachung erfordert mehrere Ebenen der Observierbarkeit über Plattformmetriken, Prometheus-Metriken, Aktivitätsprotokolle, Ressourcenprotokolle und Containereinblicke. AKS bietet integrierte Überwachungsfunktionen und integriert sich mit Azure Monitor, Container Insights, einem verwalteten Dienst für Prometheus und Azure Managed Grafana für eine umfassende Clusterintegritäts- und Leistungsüberwachung.

Tipp

Sie können Azure Copilot verwenden, um die Überwachung auf Ihren AKS-Clustern im Azure-Portal zu konfigurieren. Weitere Informationen finden Sie unter Effizientes Arbeiten mit AKS-Clustern mithilfe von Azure Copilot.

Einblicke

Einige Dienste in Azure verfügen über ein integriertes Überwachungsdashboard im Azure-Portal, das einen Ausgangspunkt für die Überwachung Ihres Diensts bietet. Diese Dashboards werden als Erkenntnisse bezeichnet, und Sie finden sie im Erkenntnishub von Azure Monitor im Azure-Portal.

AKS-Überwachungsdaten: Metriken, Protokolle, Integrationen

AKS generiert dieselben Arten von Überwachungsdaten wie andere Azure-Ressourcen wie unter "Überwachen von Daten aus Azure-Ressourcen" beschrieben. Ausführliche Informationen zu den Metriken und Protokollen, die von AKS erstellt wurden, finden Sie in der AKS-Überwachungsdatenreferenz.

Weitere Azure-Dienste und -Features sammeln zusätzliche Daten und ermöglichen weitere Analyseoptionen, wie in der folgenden Abbildung und Tabelle dargestellt.

`Source`	BESCHREIBUNG
Plattformmetriken	Plattformmetriken werden für AKS-Cluster automatisch kostenlos erfasst. Sie können diese Metriken mithilfe des Metrik-Explorers analysieren oder sie zum Erstellen von metrischen Warnungen verwenden.
Prometheus-Metriken	Wenn Sie das metrische Scraping für Ihren Cluster aktivieren, sammelt der verwaltete Dienst für Prometheus in Azure Monitor Prometheus-Metriken und speichert sie in einem Azure Monitor-Arbeitsbereich. Analysieren Sie diese Metriken mithilfe vordefinierter Dashboards in Azure Managed Grafana und mit Prometheus-Warnungen.
Aktivitätsprotokolle	Das Azure Monitor-Aktivitätsprotokoll sammelt automatisch einige Daten für AKS-Cluster ohne Kosten. Diese Protokolldateien verfolgen Informationen wie das Erstellen eines Clusters oder Änderungen an einer Clusterkonfiguration. Um Aktivitätsprotokolldaten mit Ihren anderen Protokolldaten zu analysieren, senden Sie Aktivitätsprotokolldaten an einen Log Analytics-Arbeitsbereich.
Ressourcenprotokolle	Protokolle der Steuerungsebene für AKS werden als Ressourcenprotokolle implementiert. Erstellen Sie eine Diagnoseeinstellung , um die Protokolle an einen Log Analytics-Arbeitsbereich zu senden. Im Arbeitsbereich können Sie die Protokolle mithilfe von Abfragen analysieren und Warnungen basierend auf Protokollinformationen einrichten.
Container Insights	Containereinblicke sammelt verschiedene Protokolle und Leistungsdaten aus einem Cluster und speichert sie in einem Log Analytics-Arbeitsbereich und in Azure Monitor-Metriken. Analysieren Sie Daten wie `stdout` und `stderr` Datenströme mithilfe von Ansichten und Arbeitsmappen in Containereinblicken oder Log Analytics und dem Metrik-Explorer.
Application Insights	Application Insights, ein Feature von Azure Monitor, sammelt Protokolle, Metriken und verteilte Ablaufverfolgungen. Die Telemetrie wird in einem Log Analytics-Arbeitsbereich zur Analyse im Azure-Portal gespeichert. Informationen zum Aktivieren von Application Insights mit Codeänderungen finden Sie unter Aktivieren von Azure Monitor OpenTelemetry. Informationen zum Aktivieren von Application Insights ohne Codeänderungen finden Sie unter AKS Autoinstrumentation. Weitere Informationen zur Instrumentierung finden Sie in den Grundlagen der Datensammlung.

Ressourcentypen

Azure verwendet das Konzept von Ressourcentypen und IDs, um alles in einem Abonnement zu identifizieren. Ressourcentypen sind auch Teil der Ressourcen-IDs für jede Ressource, die in Azure ausgeführt wird. Beispiel: Ein Ressourcentyp für eine VM ist Microsoft.Compute/virtualMachines. Eine Liste der Dienste und ihrer zugehörigen Ressourcentypen finden Sie unter Ressourcenanbieter.

Ähnlich strukturiert Azure Monitor die Kernüberwachungsdaten in Metriken und Protokollen basierend auf Ressourcentypen, die auch als Namespaces bezeichnet werden. Für unterschiedliche Ressourcentypen stehen unterschiedliche Metriken und Protokolle zur Verfügung. Ihr Dienst ist möglicherweise mehr als einem Ressourcentyp zugeordnet.

Weitere Informationen zu Ressourcentypen in AKS finden Sie in der AKS-Überwachungsdatenreferenz.

Datenspeicher

Für Azure Monitor:

Metrikdaten werden in der Azure Monitor-Metrikendatenbank gespeichert.
Protokolldaten werden im Azure Monitor-Protokollspeicher gespeichert. Log Analytics ist ein Tool im Azure-Portal zum Abfragen dieses Speichers.
Das Azure-Aktivitätsprotokoll ist ein separater Speicher mit eigener Schnittstelle im Azure-Portal.

Optional können Sie Metrik- und Aktivitätsprotokolldaten an den Azure Monitor-Protokollspeicher weiterleiten. Anschließend können Sie Log Analytics verwenden, um die Daten abzufragen und mit anderen Protokolldaten zu korrelieren.

Viele Dienste können Diagnoseeinstellungen verwenden, um Metrik- und Protokolldaten an andere Speicherorte außerhalb von Azure Monitor zu senden. Beispiele umfassen Azure Storage, gehostete Partnersysteme und Nicht-Azure-Partnersysteme, die Event Hubs verwenden.

Detaillierte Informationen dazu, wie Azure Monitor Daten speichert, finden Sie unter Azure Monitor-Datenplattform.

Plattformmetriken in Azure Monitor

Azure Monitor stellt Plattformmetriken für die meisten Dienste bereit. Diese Metriken sind:

Einzeln für jeden Namespace definiert.
In der Azure Monitor-Datenbank für Zeitreihenmetriken gespeichert.
Einfach strukturiert und in der Lage, Warnmeldungen in Quasi-Echtzeit zu unterstützen.
Verwendet zum Nachverfolgen der Leistung einer Ressource im Zeitverlauf.

Erfassung: Azure Monitor sammelt Plattformmetriken automatisch. Es ist keine Konfiguration erforderlich.

Routing: Sie können einige Plattformmetriken auch an Azure Monitor-Protokolle/Log Analytics weiterleiten, damit Sie diese mit anderen Protokolldaten abfragen können. Überprüfen Sie die Einstellung DS-Export für die einzelnen Metriken, um festzustellen, ob Sie eine Diagnoseeinstellung zum Weiterleiten der jeweiligen Metrik an Azure Monitor-Protokolle/Log Analytics nutzen können.

Weitere Informationen finden Sie unter Diagnoseeinstellung „Metriken“.
Informationen zum Konfigurieren von Diagnoseeinstellungen für einen Dienst finden Sie unter Erstellen von Diagnoseeinstellungen in Azure Monitor.

Eine Liste aller Metriken, die für alle Ressourcen in Azure Monitor gesammelt werden können, finden Sie unter Unterstützte Metriken in Azure Monitor.

Eine Liste der Metriken, die Sie für AKS sammeln können, finden Sie in der AKS-Überwachungsdatenreferenz.

Metriken spielen eine wichtige Rolle bei der Überwachung von Clustern, der Identifizierung von Problemen und der Optimierung der Leistung in AKS-Clustern. Plattformmetriken werden mithilfe des integrierten Metrikservers erfasst, der im kube-system-Namespace installiert ist und regelmäßig Metriken von allen AKS-Knoten abruft, die von Kubelet verwaltet werden. Sie sollten auch verwalteten Dienst für Prometheus-Metriken aktivieren, um Containermetriken und Kubernetes-Objektmetriken zu sammeln, einschließlich des Objektbereitstellungsstatus.

Sie können die Liste der standardmäßigen verwalteten Dienste für Prometheus-Metriken anzeigen.

Weitere Informationen finden Sie unter "Sammeln des verwalteten Diensts für Prometheus-Metriken aus einem AKS-Cluster".

Nicht-Azure Monitor-basierte Metriken

Dieser Dienst stellt andere Metriken bereit, die nicht in der Azure Monitor-Metrikdatenbank enthalten sind.

Sie können die folgenden Azure-Dienste und Azure Monitor-Features verwenden, um Ihre AKS-Cluster zu überwachen. Sie aktivieren diese Features, wenn Sie einen AKS-Cluster erstellen.

Verwenden Sie im Azure-Portal die Registerkarte "Integrationen ", oder verwenden Sie die Azure CLI, Terraform oder Azure-Richtlinie. In einigen Fällen können Sie Ihren Cluster nach dem Erstellen des Clusters in einen Überwachungsdienst oder ein Feature integrieren. Jeder Dienst oder jedes Feature kann kostenaufwenden, also sehen Sie sich die Preisinformationen für jede Komponente an, bevor Sie ihn aktivieren.

Dienst oder Feature	BESCHREIBUNG
Container Insights	Verwendet eine containerisierte Version des Azure Monitor-Agents, um `stdout` und `stderr` Protokolle sowie Kubernetes-Ereignisse von jedem Knoten in Ihrem Cluster zu sammeln. Das Feature unterstützt eine Vielzahl von Überwachungsszenarien für AKS-Cluster. Sie können die Überwachung für einen AKS-Cluster aktivieren, wenn er mithilfe der Azure CLI, der Azure-Richtlinie, des Azure-Portals oder terraform erstellt wird. Wenn Sie beim Erstellen Ihres Clusters Containereinblicke nicht aktivieren, sehen Sie sich Containereinblicke für AKS-Cluster aktivieren an, um andere Möglichkeiten zu finden, es zu aktivieren. Container Insights speichert die meisten Daten in einem Log Analytics-Arbeitsbereich. Normalerweise verwenden Sie denselben Log Analytics-Arbeitsbereich wie die Ressourcenprotokolle für Ihren Cluster. Eine Anleitung dazu, wie viele Arbeitsbereiche Sie verwenden sollten und wo sie gefunden werden sollen, finden Sie unter "Entwerfen einer Log Analytics-Arbeitsbereichsarchitektur".
Verwalteter Dienst für Prometheus in Azure Monitor	Prometheus ist eine cloudeigene Metriklösung von Cloud Native Computing Foundation. Es ist das am häufigsten verwendete Tool zum Sammeln und Analysieren von Metrikdaten aus Kubernetes-Clustern. Der verwaltete Dienst für Prometheus in Azure Monitor ist eine vollständig verwaltete Prometheus-kompatible Überwachungslösung. Wenn Sie den verwalteten Dienst für Prometheus beim Erstellen ihres Clusters nicht aktivieren, lesen Sie "Sammeln von Prometheus-Metriken aus einem AKS-Cluster", um andere Optionen zu finden, um ihn zu aktivieren. Der verwaltete Dienst für Prometheus in Azure Monitor speichert seine Daten in einem Azure Monitor-Arbeitsbereich , der mit einem Grafana-Arbeitsbereich verknüpft ist. Sie können Azure Managed Grafana verwenden, um die Daten zu analysieren.
Von Azure verwaltetes Grafana	Eine vollständig verwaltete Implementierung von Grafana. Grafana ist eine Open-Source-Datenvisualisierungsplattform, die häufig zur Darstellung von Prometheus-Daten verwendet wird. Für die Überwachung von Kubernetes und die Full-Stack-Problembehandlung stehen mehrere vordefinierte Grafana-Dashboards zur Verfügung. Wenn Sie Azure Managed Grafana beim Erstellen Ihres Clusters nicht aktivieren, lesen Sie "Verknüpfen eines Grafana-Arbeitsbereichs". Sie können ihn mit Ihrem Azure Monitor-Arbeitsbereich verknüpfen, damit er von Ihrem Cluster aus auf Prometheus-Metriken zugreifen kann.

Überwachung der Metriken der AKS-Steuerungsebene (Vorschau)

Voraussetzungen und Umfang: Dieses Vorschaufeature ist für AKS-Cluster verfügbar, die Kubernetes 1.27 oder höher ausführen, und erfordert, dass der verwaltete Dienst für Prometheus auf Ihrem Cluster aktiviert ist. Das Feature unterstützt derzeit Linux- und Windows-Knotenpools, ist jedoch nicht kompatibel mit VMAS (Virtual Machine Availability Sets).

AKS macht auch Metriken aus komponenten kritischer Steuerungsebenen wie dem API-Server usw. und dem Scheduler über den verwalteten Dienst für Prometheus in Azure Monitor verfügbar. Derzeit befindet sich dieses Feature in der Vorschau. Weitere Informationen finden Sie unter Überwachen von AKS-Steuerungsebenenmetriken. Eine Teilmenge der Steuerebenenmetriken für den API-Server und etcd sind über Azure Monitor-Plattformmetriken kostenlos verfügbar. Diese Metriken werden standardmäßig erfasst. Sie können die Metriken verwenden, um Warnungen zu erstellen.

Azure Monitor-Ressourcenprotokolle

Ressourcenprotokolle bieten Erkenntnisse in Vorgänge, die von einer Azure-Ressource ausgeführt wurden. Protokolle werden automatisch generiert, aber Sie müssen sie an Azure Monitor-Protokolle weiterleiten, um sie zu speichern oder abzufragen. Protokolle sind in Kategorien organisiert. Ein bestimmter Namespace verfügt möglicherweise über mehrere Ressourcenprotokollkategorien.

Sammlung: Ressourcenprotokolle werden erst gesammelt und gespeichert, nachdem Sie eine Diagnoseeinstellung erstellt und die Protokolle an mindestens einen Speicherort weitergeleitet haben. Wenn Sie eine Diagnoseeinstellung erstellen, legen Sie fest, welche Kategorien von Protokollen gesammelt werden sollen. Es gibt mehrere Möglichkeiten zum Erstellen und Verwalten von Diagnoseeinstellungen, u. a. das Azure-Portal, programmgesteuert und über Azure Policy.

Routing: Der vorgeschlagene Standard besteht darin, Ressourcenprotokolle an Azure Monitor-Protokolle weiterzuleiten, damit Sie diese mit anderen Protokolldaten abfragen können. Andere Speicherorte wie z. B. Azure Storage, Azure Event Hubs und bestimmte Microsoft-Überwachungspartner sind ebenfalls verfügbar. Weitere Informationen finden Sie unter Azure-Ressourcenprotokolle und Ressourcenprotokollziele.

Ausführliche Informationen zum Sammeln, Speichern und Weiterleiten von Ressourcenprotokollen finden Sie unter Diagnoseeinstellungen in Azure Monitor.

Eine Liste aller verfügbaren Ressourcenprotokollkategorien in Azure Monitor finden Sie unter Unterstützte Ressourcenprotokolle in Azure Monitor.

Alle Ressourcenprotokolle in Azure Monitor enthalten dieselben Headerfelder, gefolgt von dienstspezifischen Feldern. Das allgemeine Schema wird in Azure Monitor-Ressourcenprotokollschema beschrieben.

Die verfügbaren Ressourcenprotokollkategorien, die zugehörigen Log Analytics-Tabellen und Protokollschemas für AKS finden Sie in der AKS-Überwachungsdatenreferenz.

Ressourcenprotokolle der AKS-Steuerungsebene

Voraussetzungen: Erfordert einen Log Analytics-Arbeitsbereich im selben Abonnement wie Ihr AKS-Cluster. Ressourcenprotokolle verursachen Erfassungs- und Aufbewahrungskosten im Zielarbeitsbereich. Verwenden Sie für die Kostenoptimierung den ressourcenspezifischen Modus, und konfigurieren Sie die Basisebene der Protokolle für Prüftabellen.

Protokolle der Steuerungsebene für AKS-Cluster sind in Azure Monitor als Ressourcenprotokolle implementiert. Ressourcenprotokolle werden erst erfasst und gespeichert, nachdem Sie eine Diagnoseeinstellung erstellt haben, um die Protokolle an mindestens einen Speicherort weiterzuleiten. Normalerweise senden Sie Ressourcenprotokolle an einen Log Analytics-Arbeitsbereich, in dem die meisten Daten für Containereinblicke gespeichert werden.

Informationen zum Erstellen einer Diagnoseeinstellung mithilfe des Azure-Portals, der Azure CLI oder Azure PowerShell finden Sie unter Erstellen von Diagnoseeinstellungen. Wenn Sie eine Diagnoseeinstellung erstellen, legen Sie fest, welche Kategorien von Protokollen gesammelt werden sollen. Die Kategorien für AKS werden in der AKS-Überwachungsdatenreferenz aufgeführt.

Warnung

Wenn Sie Ressourcenprotokolle für AKS sammeln können erhebliche Kosten anfallen, insbesondere für Kube-Überwachungsprotokolle. Berücksichtigen Sie die folgenden Empfehlungen, um die Anzahl der gesammelten Daten zu reduzieren:

Deaktivieren Sie kube-audit die Protokollierung, wenn sie nicht erforderlich ist.
Aktivieren Sie das Sammeln von kube-audit-admin, wobei die Überwachungsereignisse get und list ausgeschlossen werden.
Aktivieren Sie ressourcenspezifische Protokolle, wie in diesem Artikel beschrieben, und konfigurieren Sie die AKSAudit-Tabelle als Standardprotokolle.

Weitere Überwachungsempfehlungen finden Sie unter Überwachen von AKS-Clustern mit Azure-Diensten und cloudeigenen Tools. Strategien zur Reduzierung Ihrer Überwachungskosten finden Sie unter Kostenoptimierung und Azure Monitor.

AKS unterstützt entweder den Azure-Diagnosemodus oder den ressourcenspezifischen Modus für Ressourcenprotokolle. Der Azure-Diagnosemodus sendet alle Daten an die AzureDiagnostics-Tabelle. Der ressourcenspezifische Modus gibt die Tabellen im Log Analytics-Arbeitsbereich an, in dem die Daten gesendet werden. Sie sendet außerdem Daten an AKSAudit, AKSAuditAdminund AKSControlPlane wie in der Tabelle in Ressourcenprotokollen dargestellt.

Es wird empfohlen, den ressourcenspezifischen Modus für AKS aus den folgenden Gründen zu verwenden:

Daten sind einfacher abzufragen, da sie sich in einzelnen Tabellen befinden, die AKS zugeordnet sind.
Ressourcenspezifischer Modus unterstützt die Konfiguration als Standardprotokolle , um erhebliche Kosteneinsparungen zu erzielen.

Weitere Informationen zum Unterschied zwischen Sammlungsmodi, einschließlich der Änderung einer vorhandenen Einstellung, finden Sie unter Auswählen des Sammlungsmodus.

Hinweis

Sie können Diagnoseeinstellungen mithilfe der Azure CLI konfigurieren. Dieser Ansatz ist nicht garantiert erfolgreich, da er nicht auf den Bereitstellungsstatus des Clusters überprüft. Überprüfen Sie nach dem Ändern der Diagnoseeinstellungen, ob der Cluster die Einstellungsänderungen widerspiegelt.

az monitor diagnostic-settings create --name AKS-Diagnostics --resource /subscriptions/xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx/resourceGroups/myresourcegroup/providers/Microsoft.ContainerService/managedClusters/my-cluster --logs '[{"category": "kube-audit","enabled": true}, {"category": "kube-audit-admin", "enabled": true}, {"category": "kube-apiserver", "enabled": true}, {"category": "kube-controller-manager", "enabled": true}, {"category": "kube-scheduler", "enabled": true}, {"category": "cluster-autoscaler", "enabled": true}, {"category": "cloud-controller-manager", "enabled": true}, {"category": "guard", "enabled": true}, {"category": "csi-azuredisk-controller", "enabled": true}, {"category": "csi-azurefile-controller", "enabled": true}, {"category": "csi-snapshot-controller", "enabled": true}]'  --workspace /subscriptions/xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx/resourcegroups/myresourcegroup/providers/microsoft.operationalinsights/workspaces/myworkspace --export-to-resource-specific true

AKS-Ressourcenprotokollabfragen und Beispiele

Abfragebereichsanforderungen: Wenn Sie Protokolle in einem AKS-Clustermenü auswählen, wird Log Analytics geöffnet, wobei der Abfragebereich auf den aktuellen Cluster festgelegt ist. Protokollabfragen enthalten nur Daten aus dieser Ressource. Wenn Sie Abfragen ausführen möchten, die Daten aus anderen Clustern oder Azure-Diensten enthalten, wählen Sie "Protokolle " im Menü "Azure Monitor " aus.

Wenn die Diagnoseeinstellungen für Ihren Cluster den Azure-Diagnosemodus verwenden, werden die Ressourcenprotokolle für AKS in der AzureDiagnostics-Tabelle gespeichert. Identifizieren von Protokollen über die Spalte "Kategorie ". Eine Beschreibung der einzelnen Kategorien finden Sie in den AKS-Referenzressourcenprotokollen.

BESCHREIBUNG	Modus	Protokollabfrage
Zählen von den Protokollen für jede Kategorie	Azure-Diagnosemodus	`AzureDiagnostics` \| `where ResourceType == "MANAGEDCLUSTERS"` \| `summarize count() by Category`
Alle API-Serverprotokolle	Azure-Diagnosemodus	`AzureDiagnostics` \| `where Category == "kube-apiserver"`
Alle kube-audit-Protokolle in einem Zeitbereich	Azure-Diagnosemodus	`let starttime = datetime("2023-02-23");` `let endtime = datetime("2023-02-24");` `AzureDiagnostics` \| `where TimeGenerated between(starttime..endtime)` \| `where Category == "kube-audit"` \| `extend event = parse_json(log_s)` \| `extend HttpMethod = tostring(event.verb)` \| `extend User = tostring(event.user.username)` \| `extend Apiserver = pod_s` \| `extend SourceIP = tostring(event.sourceIPs[0])` \| `project TimeGenerated, Category, HttpMethod, User, Apiserver, SourceIP, OperationName, event`
Alle Überwachungsprotokolle	Ressourcenspezifischer Modus	`AKSAudit`
Alle Überwachungsprotokolle außer den Überwachungsereignissen `get` und `list`	Ressourcenspezifischer Modus	`AKSAuditAdmin`
Alle API-Serverprotokolle	Ressourcenspezifischer Modus	`AKSControlPlane` \| `where Category == "kube-apiserver"`

Informationen zum Zugriff auf eine Reihe vordefinierter Abfragen im Log Analytics-Arbeitsbereich finden Sie in der Log Analytics-Abfrageschnittstelle, und wählen Sie den Kubernetes Services-Ressourcentyp aus. Eine Liste allgemeiner Abfragen für Container Insights finden Sie unter Container insights-Abfragen.

AKS-Überwachungsrichtlinie

AKS verwendet eine Kubernetes-Überwachungsrichtlinie, um zu steuern, welche Ereignisse protokolliert werden und welche Daten sie enthalten. Die Richtlinie definiert Regeln, die die Überwachungsstufe für verschiedene Arten von API-Anforderungen basierend auf Benutzern, Ressourcen, Namespaces und Verben bestimmen. Die folgenden Überwachungsstufen werden verwendet:

Keine: Ereignisse, die mit dieser Regel übereinstimmen, werden nicht protokolliert.
Metadaten: Metadaten von Protokollanforderungen (anfragender Benutzer, Zeitstempel, Ressource, Verb), aber nicht Anforderungs- oder Antwortinhalt.
Anforderung: Protokollieren von Ereignismetadaten und Anforderungstext, aber nicht antworttext.
RequestResponse: Protokollieren von Ereignismetadaten, Anforderungs- und Antworttexten.

In der folgenden Tabelle sind die wichtigsten Überwachungsrichtlinienregeln zusammengefasst, die in AKS angewendet werden:

Überwachungsstufe	BESCHREIBUNG	Beispielereignisse
None	Lesevorgänge mit hohem Volumen und geringem Risiko	`aksService` Benutzer `get`/`list` Operationen, `kube-proxy` Überwachung von Endpunkten/Diensten, Kubelet `get` auf Knoten/Knotenstatus, URLs zur Integritätsprüfung (`/healthz`, `/version`, `/swagger`)
Metadaten	Systemereignisse, Ereignisse Ressourcen (außer Erstellen/Aktualisieren in `default`/`kube-system`), Secrets, Configmaps, Dienstkonten, Token-Überprüfungen	Token-Überprüfungen, Secret-/ConfigMap-Zugriff, große CRDs wie `installations.operator.tigera.io`
Anforderung	Knoten- und Pod-Statusaktualisierungen von Kubelets/Knoten, Collection-Löschvorgänge, CRD-Aktualisierungen für Volume-Snapshots, Lesevorgänge (`get`/`list`/`watch`) auf Core-API-Gruppen, VPA-Änderungen	Kubelet-Statusaktualisierungen, Namespacelöschungen, VPA-Prüfpunktaktualisierungen
RequestResponse	Angepasste CoreDNS-Configmap-Aktualisierungen, Flotten-API-Operationen, Änderungen an Karpenter-Ressourcen, alle anderen Schreiboperationen auf Core-API-Gruppen	CoreDNS-Konfigurationsänderungen, Flottenmitglied-Clustervorgänge, Karpenter-Knotenpooländerungen

Die vollständige Überwachungsrichtlinie, die in AKS verwendet wird, steht zur Überprüfung im folgenden reduzierbaren Abschnitt zur Verfügung.

Anzeigen der vollständigen AKS-Überwachungsrichtlinie

apiVersion: audit.k8s.io/v1
kind: Policy
rules:
  # audit level 'None' for high volume and low risk events
  - level: None
    users: ["aksService"]
    verbs: ["get", "list"]
  # audit level 'None' for low-risk requests
  - level: None
    users: ["system:kube-proxy"]
    verbs: ["watch"]
    resources:
      - group: ""
        resources: ["endpoints", "services", "services/status"]
  # audit level 'None' for low-risk requests
  - level: None
    users: ["kubelet"] # legacy kubelet identity
    verbs: ["get"]
    resources:
      - group: ""
        resources: ["nodes", "nodes/status"]
  # audit level 'None' for low-risk requests
  - level: None
    userGroups: ["system:nodes"]
    verbs: ["get"]
    resources:
      - group: ""
        resources: ["nodes", "nodes/status"]
  # audit level 'None' for low-risk requests
  - level: None
    users:
      - aksService # the default user/cert used by aks in master node
      - system:serviceaccount:kube-system:endpoint-controller
    verbs: ["get", "update"]
    namespaces: ["kube-system"]
    resources:
      - group: ""
        resources: ["endpoints"]
  # audit level 'None' for low-risk requests
  - level: None
    users: ["system:apiserver"]
    verbs: ["get"]
    resources:
      - group: ""
        resources: ["namespaces", "namespaces/status", "namespaces/finalize"]
  # audit level 'None' for low-risk requests
  - level: None
    users:
      - aksService # the default user/cert used by aks in master node
    verbs: ["get", "list"]
    resources:
      - group: "metrics.k8s.io"
  # Don't log these read-only URLs.
  - level: None
    nonResourceURLs:
      - /healthz*
      - /version
      - /swagger*
  # monitor metadata for system events which are being logged by eventlogger component
  - level: Metadata
    verbs: ["create", "update", "patch"]
    resources:
      - group: ""
        resources: ["events"]
      - group: "events.k8s.io"
        resources: ["events"]
    namespaces: ["default", "kube-system"]
  # Monitoring of actions to detect security/performance relevant activities.
  - level: Metadata
    verbs: ["delete", "list"]
    resources:
      - group: ""
        resources: ["events"]
      - group: "events.k8s.io"
        resources: ["events"]
  # Don't log other events requests.
  - level: None
    resources:
      - group: ""
        resources: ["events"]
      - group: "events.k8s.io"
        resources: ["events"]
  # node and pod status calls from nodes are high-volume and can be large, don't log responses for expected updates from nodes
  - level: Request
    users: ["client", "kubelet", "system:node-problem-detector", "system:serviceaccount:kube-system:node-problem-detector", "system:serviceaccount:kube-system:aci-connector-linux"]
    verbs: ["update","patch"]
    resources:
      - group: ""
        resources: ["nodes/status", "pods/status"]
    omitStages:
      - "RequestReceived"
  # node and pod status calls from nodes are high-volume and can be large, don't log responses for expected updates from nodes
  - level: Request
    userGroups: ["system:nodes"]
    verbs: ["update","patch"]
    resources:
      - group: ""
        resources: ["nodes/status", "pods/status"]
    omitStages:
      - "RequestReceived"
  # deletecollection calls can be large, don't log responses for expected namespace deletions
  - level: Request
    users: ["system:serviceaccount:kube-system:namespace-controller"]
    verbs: ["deletecollection"]
    omitStages:
      - "RequestReceived"
  # ignore response object that has big size
  - level: Request
    verbs: ["update","patch"]
    resources:
      - group: "apiextensions.k8s.io"
        resources: ["customresourcedefinitions"]
        resourceNames: ["volumesnapshotcontents.snapshot.storage.k8s.io", "volumesnapshots.snapshot.storage.k8s.io"]
    omitStages:
      - "RequestReceived"
  # ignore request and response objects for large CRDs that will be filtered down anyway
  - level: Metadata
    resources:
      - group: "apiextensions.k8s.io"
        resources: ["customresourcedefinitions"]
        resourceNames: ["installations.operator.tigera.io"]
    omitStages:
      - "RequestReceived"
  # overriding the default behavior of coredns might have security threats for Kubernetes DNS in security perspective, set the level as RequestResponse
  - level: RequestResponse
    verbs: ["update","patch"]
    resources:
      - group: ""
        resources: ["configmaps"]
        resourceNames: ["coredns-custom"]
    namespaces: ["kube-system"]
    omitStages:
      - "RequestReceived"
  # Secrets, ConfigMaps, ServiceAccounts, TokenRequest and TokenReviews can contain sensitive & binary data,
  # so only log at the Metadata level.
  - level: Metadata
    resources:
      - group: ""
        resources: ["secrets", "configmaps", "serviceaccounts", "serviceaccounts/token"]
      - group: authentication.k8s.io
        resources: ["tokenreviews"]
    omitStages:
      - "RequestReceived"
  # Capture state of vertical pod autoscalers
  - level: Request
    verbs: ["create", "update", "patch", "delete"]
    resources:
      - group: "autoscaling.k8s.io"
        resources: ["verticalpodautoscalers", "verticalpodautoscalercheckpoints"]
    omitStages:
      - "RequestReceived"
  # Capture create and delete of internal fleet resources
  - level: RequestResponse
    verbs: ["create", "delete"]
    resources:
      - group: "cluster.kubernetes-fleet.io"
        resources: ["memberclusters", "internalmemberclusters"]
      - group: "placement.kubernetes-fleet.io"
        resources: ["works"]
      - group: "networking.fleet.azure.com"
        resources: ["internalserviceexports", "internalserviceimports"]
    omitStages:
      - "RequestReceived"
  # Capture CUD of user facing Fleet API
  - level: RequestResponse
    verbs: ["create", "update", "patch", "delete"]
    resources:
      - group: "placement.kubernetes-fleet.io"
        resources: ["clusterstagedupdateruns", "clusterresourceplacements", "clusterresourceplacementevictions", "clusterresourceplacementdisruptionbudgets", "clusterstagedupdatestrategies", "clusterapprovalrequests", "clusterresourceoverrides", "resourceoverrides"]
      - group: "networking.fleet.azure.com"
        resources: ["serviceexports", "multiclusterservices", "trafficmanagerprofiles", "trafficmanagerbackends"]
    omitStages:
      - "RequestReceived"
  # Capture CUD of user facing Karpenter resources
  - level: RequestResponse
    verbs: ["create", "update", "patch", "delete"]
    resources:
      - group: "karpenter.azure.com"
        resources: ["aksnodeclasses", "aksnodeclasses/status"]
      - group: "karpenter.sh"
        resources: ["nodepools", "nodepools/status", "nodeclaims", "nodeclaims/status"]
    omitStages:
      - "RequestReceived"
  # Get responses can be large; don't log response
  - level: Request
    verbs: ["get", "list", "watch"]
    resources:
      - group: ""
      - group: "admissionregistration.k8s.io"
      - group: "apiextensions.k8s.io"
      - group: "apiregistration.k8s.io"
      - group: "apps"
      - group: "authentication.k8s.io"
      - group: "authorization.k8s.io"
      - group: "autoscaling"
      - group: "batch"
      - group: "certificates.k8s.io"
      - group: "extensions"
      - group: "metrics.k8s.io"
      - group: "networking.k8s.io"
      - group: "policy"
      - group: "rbac.authorization.k8s.io"
      - group: "scheduling.k8s.io"
      - group: "settings.k8s.io"
      - group: "storage.k8s.io"
    omitStages:
      - "RequestReceived"
  # Default level for known APIs
  - level: RequestResponse
    resources:
      - group: ""
      - group: "admissionregistration.k8s.io"
      - group: "apiextensions.k8s.io"
      - group: "apiregistration.k8s.io"
      - group: "apps"
      - group: "authentication.k8s.io"
      - group: "authorization.k8s.io"
      - group: "autoscaling"
      - group: "batch"
      - group: "certificates.k8s.io"
      - group: "extensions"
      - group: "metrics.k8s.io"
      - group: "networking.k8s.io"
      - group: "policy"
      - group: "rbac.authorization.k8s.io"
      - group: "scheduling.k8s.io"
      - group: "settings.k8s.io"
      - group: "storage.k8s.io"
    omitStages:
      - "RequestReceived"
  # Default level for all other requests.
  - level: Metadata
    omitStages:
      - "RequestReceived"

Hinweis

Die Überwachungsrichtlinie wird von AKS verwaltet und kann nicht angepasst werden. Die Richtlinie soll die Sicherheitsbeobachtbarkeit mit Leistung und Kostenoptimierung ausgleichen, indem das Protokollvolumen für hochfrequente und risikolose Vorgänge reduziert wird.

Container Insights-Protokolle der AKS-Datenebene

Voraussetzungen und Konfigurationsanforderungen: Containereinblicke erfordern einen Log Analytics-Arbeitsbereich für die Protokollspeicherung und unterstützt sowohl verwaltete Identitäten als auch ältere Authentifizierungsmethoden. Für neue Cluster wird die verwaltete Identitätsauthentifizierung empfohlen. Die Datensammlung kann mithilfe von Azure Monitor Data Collection Rules (DCRs) angepasst werden, um Kosten zu steuern und das Aufnahmevolumen zu reduzieren.

Containereinblicke sammeln verschiedene Arten von Telemetriedaten aus Containern und AKS-Clustern, die Ihnen helfen, Ihre containerisierten Anwendungen, die in Ihren AKS-Clustern ausgeführt werden, zu überwachen, zu beheben und Einblicke zu erhalten. Eine Liste der Tabellen und deren ausführliche Beschreibungen, die von Container Insights verwendet werden, finden Sie in der Azure Monitor Tabellenreferenz. Alle Tabellen sind für Protokollabfragen verfügbar.

Verwenden Sie Kostenoptimierungseinstellungen , um die Metrikdaten anzupassen und zu steuern, die über den Container Insights-Agent gesammelt werden. Dieses Feature unterstützt die Datensammlungseinstellungen für einzelne Tabellenauswahl, Datensammlungsintervalle und Namespaces, um die Datensammlung über Azure Monitor Data Collection Rules (DCRs) auszuschließen. Diese Einstellungen regeln das Datenaufnahmevolumen und reduzieren die Überwachungskosten von Container Insights. Sie können die Container insights erfassten Daten im Azure-Portal mithilfe der folgenden Optionen anpassen. Wenn Sie andere Optionen als "Alle" (Standard) auswählen, sind die Containereinblicke nicht verfügbar.

Gruppierung	Tabellen	Notizen
Alle (Standard)	Alle standardmäßigen Containereinsichtstabellen	Erforderlich, um die standardmäßigen Containereinsichtsvisualisierungen zu aktivieren.
Leistung	Perf, InsightsMetrics	N/A
Protokolle und Ereignisse	ContainerLog oder ContainerLogV2, KubeEvents, KubePodInventory	Empfohlen, wenn Sie verwalteten Dienst für Prometheus-Metriken aktiviert haben.
Workloads, Bereitstellungen und HPAs	InsightsMetrics, KubePodInventory, KubeEvents, ContainerInventory, ContainerNodeInventory, KubeNodeInventory, KubeServices	N/A
Persistente Volumes	InsightsMetrics, KubePVInventory	N/A

Die Gruppierung Protokolle und Ereignisse erfasst die Protokolle aus den Tabellen ContainerLog, ContainerLogV2, KubeEvents und KubePodInventory, jedoch nicht die Metriken. Der empfohlene Weg zum Sammeln von Metriken besteht darin, den verwalteten Dienst für Prometheus aus Ihrem AKS-Cluster zu aktivieren und Azure Managed Grafana für die Datenvisualisierung zu verwenden. Weitere Informationen finden Sie unter Verwalten eines Azure Monitor-Arbeitsbereichs.

ContainerLogV2-Schema

Kompatibilitäts- und Konfigurationsanforderungen: ContainerLogV2-Schema wird für neue Container-Insights-Bereitstellungen mit verwalteter Identitätsauthentifizierung über Azure Resource Manager (ARM)-Vorlagen, Bicep, Terraform, Azure Policy oder das Azure-Portal empfohlen. Das Schema ist mit der Stufe "Standardprotokolle" für Kosteneinsparungen kompatibel und wirkt sich nicht auf die Analyse- oder Warnungsfunktionen aus. Weitere Informationen zum Aktivieren von ContainerLogV2 über den DCR oder die Configmap des Clusters finden Sie unter Aktivieren des ContainerLogV2-Schemas.

Containererkenntnisse in Azure Monitor bieten ein empfohlenes Schema für Containerprotokolle, ContainerLogV2. Das Format enthält die folgenden Felder für allgemeine Abfragen zum Anzeigen von Daten im Zusammenhang mit AKS- und Azure Arc-fähigen Kubernetes-Clustern:

ContainerName
PodName
PodNamespace

Azure-Aktivitätsprotokoll

Das Aktivitätsprotokoll enthält Ereignisse auf Abonnementebene, die Vorgänge für jede Azure-Ressource nachverfolgen, so wie sie von außerhalb dieser Ressource gesehen werden, z. B. das Erstellen einer neuen Ressource oder das Starten einer VM.

Sammlung: Aktivitätsprotokollereignisse werden automatisch generiert und in einem separaten Speicher für die Anzeige im Azure-Portal gesammelt.

Routing: Sie können Aktivitätsprotokolldaten an Azure Monitor-Protokolle senden, damit Sie diese zusammen mit anderen Protokolldaten analysieren können. Andere Speicherorte wie z. B. Azure Storage, Azure Event Hubs und bestimmte Microsoft-Überwachungspartner sind ebenfalls verfügbar. Weitere Informationen zum Weiterleiten von Aktivitätsprotokollen finden Sie unter Übersicht über das Azure-Aktivitätsprotokoll.

Anzeigen von AKS-Containerprotokollen, Ereignissen und Podmetriken in Echtzeit

Voraussetzungen und Einrichtungsanforderungen: Das Feature "Livedaten" erfordert, dass Containereinblicke in Ihrem Cluster aktiviert werden und direkten Kubernetes-API-Zugriff verwendet. Für private Cluster erfordert der Zugriff einen Computer im selben privaten Netzwerk wie der Cluster. Die Authentifizierung folgt dem Kubernetes RBAC-Modell und erfordert entsprechende Clusterberechtigungen.

Sie können AKS-Containerprotokolle, Ereignisse und Pod-Metriken mithilfe der Livedatenfunktion in Containereinblicken anzeigen und Probleme in Echtzeit beheben, mit direktem Zugriff auf kubectl logs -cEreignisse kubectl get und kubectl top pods.

Hinweis

AKS verwendet Protokollierungsarchitekturen auf Kubernetes-Clusterebene. Die Containerprotokolle befinden sich auf dem Knoten in /var/log/containers. Informationen zum Zugreifen auf einen Knoten finden Sie unter Herstellen einer Verbindung mit AKS-Clusterknoten.

Informationen zum Einrichten dieses Features finden Sie unter "Konfigurieren von Livedaten in Containereinblicken". Das Feature greift direkt auf die Kubernetes-API zu. Weitere Informationen zum Authentifizierungsmodell finden Sie in der Kubernetes-API.

Anzeigen von Liveprotokollen zu AKS-Ressourcen

Anforderungen für private Clusternetzwerke: Um auf Protokolle aus einem privaten Cluster zuzugreifen, müssen Sie einen Computer verwenden, der sich im selben privaten Netzwerk wie der Cluster befindet.

Wechseln Sie im Azure-Portal zu Ihrem AKS-Cluster.
Wählen Sie unter Kubernetes-Ressourcen die Option Workloads aus.
Wählen Sie für Bereitstellung, Pod, Replikatgruppe, StatefulSet, Auftrag oder Cron-Auftrag einen Wert aus, und wählen Sie dann Liveprotokolle aus.
Wählen Sie ein Ressourcenprotokoll aus, das angezeigt werden soll.

Das folgende Beispiel zeigt die Protokolle für eine Pod-Ressource:

Anzeigen von Container-Liveprotokollen mit Container Insights

Authentifizierung und Datenstreaming: Nach erfolgreicher Authentifizierung, wenn Daten abgerufen werden können, beginnt es mit dem Streamen auf die Registerkarte "Liveprotokolle ". Protokolldaten werden in einem fortlaufenden Datenstrom angezeigt. Alternativer Protokollzugriff ist über "Protokolle in Log Analytics anzeigen " für die verlaufsgeschichtliche Analyse verfügbar.

Sie können Echtzeitprotokolldaten anzeigen, wenn das Containermodul sie auf der Registerkarte "Cluster", "Knoten", " Controller" oder "Container " generiert.

Wechseln Sie im Azure-Portal zu Ihrem AKS-Cluster.
Wählen Sie unter ÜberwachungInsights aus.
Wählen Sie auf der Registerkarte "Cluster", "Knoten", "Controller" oder "Container " einen Wert aus.
Im Übersichtsbereich der Ressource wählen Sie "Live-Protokolle" aus.

Die folgende Abbildung zeigt die Protokolle für eine Containerressource:

Live-Containerereignisse anzeigen mithilfe von Container-Einsichten

Ereignisstreaming und Zugriff: Echtzeitereignisdatenströme, wenn das Containermodul sie generiert. Zu den Ereignissen gehören Pod-Erstellung, -Löschung, Skalierungsoperationen und Fehlerbedingungen. Auf historische Ereignisdaten kann über "Ereignisse in Log Analytics anzeigen" zugegriffen werden.

Sie können Echtzeitereignisdaten anzeigen, wenn das Containermodul sie auf der Registerkarte "Cluster", "Knoten", " Controller" oder "Container " generiert.

Wechseln Sie im Azure-Portal zu Ihrem AKS-Cluster.
Wählen Sie unter ÜberwachungInsights aus.
Wählen Sie die Registerkarte "Cluster", "Knoten", "Controller" oder " Container " aus, und wählen Sie dann ein Objekt aus.
Wählen Sie im Bereich " Ressourcenübersicht " die Option "Liveereignisse" aus.

Wenn Daten nach erfolgreicher Authentifizierung abgerufen werden können, beginnt sie mit dem Streaming auf die Registerkarte "Liveereignisse ". Die folgende Abbildung zeigt die Ereignisse für eine Containerressource:

Anzeigen von Pod-Livemetriken mithilfe von Containereinblicken

Metrikbereich und Verfügbarkeit: Livemetriken sind für Podressourcen auf den Registerkarten Knoten oder Controller verfügbar. Zu den Metriken gehören CPU-Auslastung, Arbeitsspeicherverbrauch, Netzwerk-E/A und Dateisystemstatistiken. Auf historische Metriken kann über "Ereignisse in Log Analytics anzeigen" zugegriffen werden.

Sie können Metrikdaten in Echtzeit anzeigen, wenn das Containermodul sie auf der Registerkarte "Knoten " oder " Controller " generiert, indem Sie eine Pod-Ressource auswählen.

Wechseln Sie im Azure-Portal zu Ihrem AKS-Cluster.
Wählen Sie unter ÜberwachungInsights aus.
Wählen Sie die Registerkarte "Knoten " oder "Controller " und dann ein Pod-Objekt aus.
Wählen Sie im Bereich "Ressourcenübersicht " die Option "LiveMetriken" aus.

Wenn Daten nach erfolgreicher Authentifizierung abgerufen werden können, werden sie zur Registerkarte Livemetriken gestreamt. Die folgende Abbildung zeigt die Metriken für eine Pod-Ressource:

Analysieren von Überwachungsdaten

Es gibt viele Tools zum Analysieren von Überwachungsdaten.

Tools in Azure Monitor

Azure Monitor unterstützt die folgenden grundlegenden Tools:
- Metriken-Explorer, ein Tool im Azure-Portal, mit dem Sie Metriken für Azure-Ressourcen anzeigen und analysieren können. Weitere Informationen finden Sie unter Analysieren von Metriken mit dem Azure Monitor-Metrik-Explorer.
- Log Analytics, ein Tool im Azure-Portal, mit dem Sie Protokolldaten mithilfe der Kusto-Abfragesprache (KQL) abfragen und analysieren können. Weitere Informationen finden Sie unter Erste Schritte mit Protokollabfragen in Azure Monitor.
- Das Aktivitätsprotokoll, das über eine Benutzeroberfläche im Azure-Portal für die Anzeige und einfache Suchvorgänge verfügt. Um ausführlichere Analysen durchzuführen, müssen Sie die Daten an Azure Monitor-Protokolle weiterleiten und komplexere Abfragen in Log Analytics ausführen.
Zu den Tools, die eine komplexere Visualisierung ermöglichen, gehören:
- Dashboards, mit denen Sie verschiedene Typen von Daten in einen einzelnen Bereich im Azure-Portal kombinieren können.
- Arbeitsmappen, anpassbare Berichte, die Sie im Azure-Portal erstellen können. Arbeitsmappen können Text, Metriken und Protokollabfragen enthalten.
- Grafana, ein Tool auf einer offenen Plattform, das für operationale Dashboards ideal ist. Sie können Grafana verwenden, um Dashboards zu erstellen, die Daten aus mehreren anderen Quellen als Azure Monitor enthalten.
- Power BI ist ein Geschäftsanalysedienst, der interaktive Visualisierungen für verschiedene Datenquellen bereitstellt. Sie können Power BI so konfigurieren, dass Protokolldaten automatisch aus Azure Monitor importiert werden, um diese Visualisierungen nutzen zu können.
Exporttools für Azure Monitor

Sie können Daten aus Azure Monitor in andere Tools abrufen, indem Sie die folgenden Methoden verwenden:
- Metriken: Verwenden Sie die REST-API für Metriken, um Metrikdaten aus der Azure Monitor-Metrikendatenbank zu extrahieren. Die API unterstützt Filterausdrücke, um die abgerufenen Daten zu verfeinern. Weitere Informationen finden Sie in der Referenz zur Azure Monitor-REST-API.
- Protokolle: Verwenden Sie die REST-API oder die zugeordneten Clientbibliotheken.
- Eine weitere Option ist der Arbeitsbereichsdatenexport.
Informationen zu den ersten Schritten mit der REST-API für Azure Monitor finden Sie in der exemplarischen Vorgehensweise für die Azure-Überwachungs-REST-API.

Überwachen von AKS-Clustern im Azure-Portal

Die Registerkarte " Überwachung " im Bereich "Übersicht " für Ihre AKS-Clusterressource bietet eine schnelle Möglichkeit zum Anzeigen von Überwachungsdaten im Azure-Portal. Diese Registerkarte enthält Diagramme mit allgemeinen Metriken für den Cluster getrennt nach Knotenpool. Wählen Sie eines dieser Diagramme aus, um die Daten im Metrik-Explorer genauer zu analysieren.

Die Registerkarte " Überwachung " enthält auch Links zum verwalteten Azure-Dienst für Prometheus und Containereinblicke für den Cluster. Sie können diese Tools auf der Registerkarte "Überwachung " aktivieren. Möglicherweise wird oben im Bereich auch ein Banner angezeigt, das andere Features empfiehlt, um die Überwachung für Ihren Cluster zu verbessern.

Tipp

Um auf Überwachungsfeatures für alle AKS-Cluster in Ihrem Abonnement zuzugreifen, wählen Sie auf der Startseite des Azure-Portals Azure Monitor aus.

Kusto-Abfragen

Sie können Überwachungsdaten im Azure Monitor Logs- oder Log Analytics-Speicher mithilfe der Kusto-Abfragesprache (KQL) analysieren.

Wichtig

Wenn Sie Protokolle im Menü des Diensts im Portal auswählen, wird Log Analytics geöffnet, wobei der Abfragebereich auf den aktuellen Dienst festgelegt ist. Dieser Bereich bedeutet, dass Protokollabfragen nur Daten aus diesem Ressourcentyp umfassen. Wenn Sie eine Abfrage durchführen möchten, die Daten aus anderen Azure-Diensten enthält, wählen Sie im Menü Azure Monitor die Option Protokolle aus. Ausführliche Informationen finden Sie unter Protokollabfragebereich und Zeitbereich in Azure Monitor Log Analytics.

Eine Liste häufiger Abfragen für alle Dienste finden Sie unter Log Analytics-Abfrageschnittstelle.

Alarmsignale

Azure Monitor-Warnungen informieren Sie proaktiv, wenn bestimmte Bedingungen in Ihren Überwachungsdaten gefunden werden. Warnungen ermöglichen Ihnen, Probleme in Ihrem System zu identifizieren und zu beheben, bevor Ihre Kunden sie bemerken. Weitere Informationen finden Sie unter Azure Monitor-Warnungen.

Es gibt viele Quellen allgemeiner Warnungen für Azure-Ressourcen. Beispiele für häufige Warnungen für Azure-Ressourcen finden Sie in den Beispielabfragen für Protokollwarnungen. Die Website Azure Monitor-Baselinewarnungen (Azure Monitor Baseline Alerts, AMBA) stellt eine halbautomatisierte Methode für die Implementierung wichtiger Metrikwarnungen der Plattform, Dashboards und Richtlinien bereit. Die Website gilt für eine fortlaufend erweiterte Teilmenge von Azure-Diensten, einschließlich aller Dienste, die Teil der Azure-Zielzone (Azure Landing Zone, ALZ) sind.

Mit dem allgemeinen Warnungsschema wird die Benutzeroberfläche für Warnungsbenachrichtigungen in Azure Monitor standardisiert. Weitere Informationen finden Sie unter Allgemeines Warnungsschema.

Warnungstypen

Sie können zu jeder Metrik oder Protokolldatenquelle der Azure Monitor-Datenplattform Warnungen erhalten. Es gibt viele verschiedene Typen von Warnungen, abhängig von den Diensten, die Sie überwachen, und den Überwachungsdaten, die Sie sammeln. Verschiedene Typen von Warnungen haben jeweils ihre Vor- und Nachteile. Weitere Informationen finden Sie unter Auswählen des richtigen Warnungsregeltyps.

In der folgenden Liste werden die Typen von Azure Monitor-Warnungen beschrieben, die Sie erstellen können:

Metrikwarnungen bewerten Ressourcenmetriken in regelmäßigen Abständen. Metriken können Plattformmetriken, benutzerdefinierte Metriken, in Metriken konvertierte Protokolle aus Azure Monitor oder Application Insights-Metriken sein. Metrikwarnungen können auch mehrere Bedingungen und dynamische Schwellwerte anwenden.
Protokollwarnungen ermöglichen es Benutzern, eine Log Analytics-Abfrage zum Auswerten von Ressourcenprotokollen in vordefinierten Frequenz zu verwenden.
Aktivitätsprotokollwarnungen werden ausgelöst, wenn ein neues Aktivitätsprotokollereignis eintritt, das definierte Bedingungen erfüllt. Resource Health- und Service Health-Warnungen sind Aktivitätsprotokollwarnungen, die Daten zur Dienst- und Ressourcenintegrität melden.

Einige Azure-Dienste unterstützen auch intelligente Erkennungswarnungen, Prometheus-Warnungen oder empfohlene Warnungsregeln.

Einige Dienste können Sie im großen Stil überwachen, indem Sie dieselbe Metrikwarnungsregel auf mehrere Ressourcen desselben Typs anwenden, die sich in derselben Azure-Region befinden. Für jede überwachte Ressource werden einzelne Benachrichtigungen gesendet. Unterstützte Azure-Dienste und -Clouds finden Sie unter Überwachen mehrerer Ressourcen mit einer Warnungsregel.

Empfohlene Warnungsregeln

Für einige Azure-Dienste können Sie empfohlene sofort einsatzbereite Warnungsregelnaktivieren.

Das System kompiliert eine Liste der empfohlenen Warnungsregeln basierend auf:

Das Wissen des Ressourcenanbieters über wichtige Signale und Schwellenwerte zur Überwachung der Ressource.
Daten, die uns erklären, weshalb Kunden häufig Warnungen für diese Ressource erhalten.

Hinweis

Empfohlene Regeln für Warnungen stehen zur Verfügung für:

Virtuelle Computer
Azure Kubernetes Service (AKS) Ressourcen
Log Analytics-Arbeitsbereiche

Konfigurieren von prometheus-metrikbasierten Warnungen

Download- und Konfigurationsanforderungen: Warnungsregeln sind als herunterladbare ARM-Vorlagen oder Bicep-Dateien verfügbar. Stellen Sie vor dem Konfigurieren von Warnungen sicher, dass der verwaltete Dienst für Prometheus auf Ihrem Cluster aktiviert ist und ein Azure Monitor-Arbeitsbereich ordnungsgemäß mit Ihrem AKS-Cluster verknüpft ist.

Wenn Sie die Sammlung des verwalteten Diensts für Prometheus-Metriken für Ihren Cluster aktivieren, können Sie eine Sammlung empfohlener verwalteter Dienste für Prometheus-Warnungsregeln herunterladen.

Der Download enthält die folgenden Regeln:

Ebene	Alarmsignale
Clusterebene	`KubeCPUQuotaOvercommit` `KubeMemoryQuotaOvercommit` `KubeContainerOOMKilledCount` `KubeClientErrors` `KubePersistentVolumeFillingUp` `KubePersistentVolumeInodesFillingUp` `KubePersistentVolumeErrors` `KubeContainerWaiting` `KubeDaemonSetNotScheduled` `KubeDaemonSetMisScheduled` `KubeQuotaAlmostFull`
Knotenebene	`KubeNodeUnreachable` `KubeNodeReadinessFlapping`
Podebene	`KubePVUsageHigh` `KubeDeploymentReplicasMismatch` `KubeStatefulSetReplicasMismatch` `KubeHpaReplicasMismatch` `KubeHpaMaxedOut` `KubePodCrashLooping` `KubeJobStale` `KubePodContainerRestart` `KubePodReadyStateLow` `KubePodFailedState` `KubePodNotReadyByController` `KubeStatefulSetGenerationMismatch` `KubeJobFailed` `KubeContainerAverageCPUHigh` `KubeContainerAverageMemoryHigh` `KubeletPodStartUpLatencyHigh`

Weitere Informationen finden Sie unter Erstellen von Protokollwarnungen aus Containereinblicken und Abfrageprotokollen aus Containereinblicken.

Protokollbenachrichtigungen können zwei Arten von Informationen messen, um Verschiedene Szenarien zu überwachen:

Ergebnisanzahl: Zählt die Anzahl der Zeilen, die von der Abfrage zurückgegeben werden. Verwenden Sie diese Informationen, um mit Ereignissen wie Windows-Ereignisprotokollen, Syslog-Ereignissen und Anwendungsausnahmen zu arbeiten.
Berechnung eines Werts: Erstellt eine Berechnung basierend auf einer numerischen Spalte. Verwenden Sie diese Informationen, um verschiedene Ressourcen einzuschließen. Ein Beispiel ist die prozentuale CPU-Auslastung.

Die meisten Protokollabfragen vergleichen einen DateTime Wert mit der aktuellen Zeit mithilfe des now Operators und gehen um eine Stunde zurück. Informationen zum Erstellen von protokollbasierten Warnungen finden Sie unter Erstellen von Protokollwarnungen auf der Grundlage von Containererkenntnissen.

AKS-Warnungsregeln

In der folgenden Tabelle sind einige vorgeschlagene Warnungsregeln für AKS aufgeführt. Diese Warnungen sind nur Beispiele. Sie können Warnungen für jeden Metrik-, Protokolleintrags- oder Aktivitätsprotokolleintrag festlegen, der in der AKS-Überwachungsdatenreferenz aufgeführt ist.

Zustand	BESCHREIBUNG
CPU-Auslastungsprozentsatz>95	Warnungen, wenn die durchschnittliche CPU-Auslastung über allen Knoten den Schwellenwert überschreitet.
Arbeitsspeicherarbeitsmengenauslastung Prozentsatz>100	Warnungen, wenn der durchschnittliche Arbeitssatz auf allen Knoten den Schwellenwert überschreitet.

Advisor-Empfehlungen

Wenn in einigen Diensten während eines Ressourcenvorgangs kritische Bedingungen oder unmittelbar bevorstehende Änderungen auftreten, wird auf der Dienstseite Übersicht im Portal eine Warnung angezeigt. Weitere Informationen und empfohlene Korrekturen für die Warnung finden Sie in Advisor-Empfehlungen unter Überwachung im linken Menü. Während des normalen Betriebs werden keine Advisor-Empfehlungen angezeigt.

Weitere Informationen zu Azure Advisor finden Sie unter Azure Advisor – Übersicht.

Hinweis

Wenn Sie eine Anwendung erstellen oder ausführen, die in Ihrem Dienst ausgeführt wird, stellt Azure Monitor Application Insights möglicherweise andere Warnungstypen zur Verfügung.

Überwachung von AKS-Knotennetzwerkmetriken

Versions- und Aktivierungsanforderungen: In Kubernetes, Version 1.29 und höher, sind Knotennetzwerkmetriken für alle Cluster mit aktiviertem Azure Monitor standardmäßig aktiviert. Bei früheren Kubernetes-Versionen müssen Sie die Netzwerküberwachung über die Clusterkonfiguration manuell aktivieren. Dieses Feature erfordert, dass Azure Monitor- oder Containereinblicke in Ihrem Cluster konfiguriert werden.

Knotennetzwerkmetriken sind entscheidend für die Aufrechterhaltung eines fehlerfreien und leistungsfähigen Kubernetes-Clusters. Durch das Sammeln und Analysieren von Daten über den Netzwerkdatenverkehr können Sie wertvolle Erkenntnisse über den Betrieb Ihres Clusters gewinnen und potenzielle Probleme identifizieren, bevor sie zu Ausfällen oder Leistungsverlusten führen.

Die folgenden Knotennetzwerkmetriken sind standardmäßig aktiviert und werden pro Knoten aggregiert. Alle Metriken beinhalten die Bezeichnungen Cluster und Instanz (Knotenname). Sie können diese Metriken ganz einfach über das Managed Grafana-Dashboard unter Azure Managed Prometheus>Kubernetes>Networking>Clusters anzeigen.

AKS-Knotennetzwerkmetriken nach Dateneebentyp

Alle Metriken enthalten die folgenden Bezeichnungen:

cluster
instance (Knotenname)

Cilium
Nicht-Cilium

Betriebssystemunterstützung und Einschränkungen: Für Cilium-Datenebenenszenarien stellt das Feature zur Beobachtbarkeit von Containernetzwerken Metriken nur für Linux-Knotenpools bereit. Derzeit werden Windows-Betriebssysteme nicht für Container Network Observability-Metriken unterstützt. Stellen Sie sicher, dass Ihr Cluster Über Linux-Knotenpools für vollständige Cilium-Metriken verfügt.

Für Cilium-Datenebenenszenarien stellt das Feature "Container Network Observability" nur Metriken für Linux bereit. Derzeit werden Windows-Betriebssysteme nicht für Container Network Observability-Metriken unterstützt.

Cilium macht mehrere Metriken verfügbar, die container Network Observability verwendet:

Metrikname	BESCHREIBUNG	Zusätzliche Etiketten	Linux	Fenster
`cilium_forward_count_total`	Gesamtzahl der weitergeleiteten Pakete	`direction`	Unterstützung von ✅	Nicht unterstützt ❌
`cilium_forward_bytes_total`	Gesamtanzahl weitergeleiteter Byte	`direction`	Unterstützung von ✅	Nicht unterstützt ❌
`cilium_drop_count_total`	Gesamtzahl der gelöschten Pakete	`direction`, `reason`	Unterstützung von ✅	Nicht unterstützt ❌
`cilium_drop_bytes_total`	Gesamtanzahl der gelöschten Byte	`direction`, `reason`	Unterstützung von ✅	Nicht unterstützt ❌

OS-Unterstützung und bekannte Einschränkungen: Für Datenebene-Szenarien ohne Cilium stellt Container Network Observability Metriken für Linux- und Windows-Betriebssysteme bereit. Aufgrund eines identifizierten Fehlers sind TCP-Resets jedoch vorübergehend nicht sichtbar, sodass die networkobservability_tcp_flag_counters Metriken nicht für Linux-Knoten veröffentlicht werden. Wir arbeiten aktiv daran, dieses Problem zu beheben.

Für Szenarien mit Datenebenen, die nicht von Cilium stammen, bietet Container Network Observability Metriken sowohl für Linux- als auch für Windows-Betriebssysteme.

In der folgenden Tabelle werden die generierten Metriken beschrieben:

Metrikname	BESCHREIBUNG	Zusätzliche Etiketten	Linux	Fenster
`networkobservability_forward_count`	Gesamtzahl der weitergeleiteten Pakete	`direction`	Unterstützung von ✅	Unterstützung von ✅
`networkobservability_forward_bytes`	Gesamtanzahl weitergeleiteter Byte	`direction`	Unterstützung von ✅	Unterstützung von ✅
`networkobservability_drop_count`	Gesamtzahl der gelöschten Pakete	`direction`, `reason`	Unterstützung von ✅	Unterstützung von ✅
`networkobservability_drop_bytes`	Gesamtanzahl der gelöschten Byte	`direction`, `reason`	Unterstützung von ✅	Unterstützung von ✅
`networkobservability_tcp_state`	Anzahl der derzeit aktiven TCP-Sockets nach TCP-Status	`state`	Unterstützung von ✅	Unterstützung von ✅
`networkobservability_tcp_connection_remote`	Anzahl der derzeit aktiven TCP-Sockets nach Remote-IP/Port	`address` (IP), `port`	Unterstützung von ✅	Nicht unterstützt ❌
`networkobservability_tcp_connection_stats`	TCP-Verbindungsstatistiken (Beispiel: Verzögerte ACKs, TCPKeepAlive, TCPSackFailures)	`statistic`	Unterstützung von ✅	Unterstützung von ✅
`networkobservability_tcp_flag_counters`	Anzahl der TCP-Pakete nach Flag.	`flag`	Nicht unterstützt ❌	Unterstützung von ✅
`networkobservability_ip_connection_stats`	TCP-Verbindungsstatistiken	`statistic`	Unterstützung von ✅	Nicht unterstützt ❌
`networkobservability_udp_connection_stats`	UDP-Verbindungsstatistiken	`statistic`	Unterstützung von ✅	Nicht unterstützt ❌
`networkobservability_udp_active_sockets`	Anzahl der derzeit aktiven UDP-Sockets	N/A	Unterstützung von ✅	Nicht unterstützt ❌
`networkobservability_interface_stats`	Schnittstellenstatistiken	InterfaceName, `statistic`	Unterstützung von ✅	Unterstützung von ✅

Deaktivieren der AKS-Knoten-Netzwerkmetriksammlung

Sie können die Sammlung von Netzwerkmetriken auf bestimmten Knoten deaktivieren, indem Sie die Bezeichnung networking.azure.com/node-network-metrics=disabled zu diesen Knoten hinzufügen.

Hinweis

Retina hat eine Toleranz für operator: "Exists"effect: NoSchedule, deshalb werden die Taints NoSchedule umgangen. Daher werden Bezeichnungen anstelle von Taints verwendet, um die Planung zu steuern.

Wenn der Cluster autoprovisioning/autoscaling Knoten umfasst, müssen Sie das Flag auf jedem Knoten manuell aktivieren.

Wichtig

Dieses Feature ist nicht anwendbar, wenn Advanced Container Networking Services (ACNS) auf Ihrem Cluster aktiviert ist.

So deaktivieren Sie die Sammlung von Metriken auf einem Knoten:

kubectl label node <node-name> networking.azure.com/node-network-metrics=disabled

Ausführliche Pod-Level- und DNS-Metriken finden Sie unter Advanced Container Networking Services.

Eine Referenz zu den Metriken, Protokollen und anderen wichtigen Werten, die für AKS erstellt wurden, finden Sie in der AKS-Überwachungsdatenreferenz.
Allgemeine Informationen zur Überwachung von Azure-Ressourcen finden Sie unter Überwachen von Azure-Ressourcen mithilfe von Azure Monitor.
Detaillierte Überwachung des gesamten Kubernetes-Stapels finden Sie unter Überwachen von Kubernetes-Clustern mit Azure-Diensten und cloudeigenen Tools.
Informationen zum Sammeln von Metrikdaten aus Kubernetes-Clustern finden Sie unter Verwalteter Dienst für Prometheus in Azure Monitor.
Informationen zum Erfassen von Protokollen in Kubernetes-Clustern finden Sie unter Azure Monitor-Features für die Kubernetes-Überwachung.
Informationen zur Datenvisualisierung finden Sie unter Azure-Arbeitsmappen und Überwachen Ihrer Azure-Dienste in Grafana.

Feedback

War diese Seite hilfreich?

Last updated on 2026-01-22

Freigeben über

Überwachen des Azure Kubernetes-Diensts (AKS)

Einblicke

AKS-Überwachungsdaten: Metriken, Protokolle, Integrationen

Ressourcentypen

Datenspeicher

Plattformmetriken in Azure Monitor

Nicht-Azure Monitor-basierte Metriken

Überwachung der Metriken der AKS-Steuerungsebene (Vorschau)

Azure Monitor-Ressourcenprotokolle

Ressourcenprotokolle der AKS-Steuerungsebene

AKS-Ressourcenprotokollabfragen und Beispiele

AKS-Überwachungsrichtlinie

Container Insights-Protokolle der AKS-Datenebene

ContainerLogV2-Schema

Azure-Aktivitätsprotokoll

Anzeigen von AKS-Containerprotokollen, Ereignissen und Podmetriken in Echtzeit

Anzeigen von Liveprotokollen zu AKS-Ressourcen

Anzeigen von Container-Liveprotokollen mit Container Insights

Live-Containerereignisse anzeigen mithilfe von Container-Einsichten

Anzeigen von Pod-Livemetriken mithilfe von Containereinblicken

Analysieren von Überwachungsdaten

Tools in Azure Monitor

Exporttools für Azure Monitor

Überwachen von AKS-Clustern im Azure-Portal

Kusto-Abfragen

Alarmsignale

Warnungstypen

Empfohlene Warnungsregeln

Konfigurieren von prometheus-metrikbasierten Warnungen

AKS-Warnungsregeln

Advisor-Empfehlungen

Überwachung von AKS-Knotennetzwerkmetriken

AKS-Knotennetzwerkmetriken nach Dateneebentyp

Deaktivieren der AKS-Knoten-Netzwerkmetriksammlung

Verwandte Inhalte

Feedback

Zusätzliche Ressourcen