Freigeben über


Cloudüberwachung und Reaktion

Dieser Artikel ist Teil einer Reihe im Leitfaden zur Cloudüberwachung.

Reaktion ist das Ergebnis der Festlegung von mindestens einer Aktion auf der Grundlage datengestützter Entscheidungen aus der Überwachung von Dienstconsumern:

  • Sicherstellen der Umsetzbarkeit: Verwenden Sie gut abgestimmte Überwachungskonfigurationen, um umsetzbare Signale zu erstellen.
  • Fortlaufende Überwachung: Wenden Sie die Überwachung während der gesamten Vorfall- und Problembehandlungsaktivitäten an, um Probleme weiter zu diagnostizieren.
  • Automatisieren: Konfigurieren Sie die automatische Untersuchung, Diagnose, Auflösung, Wiederherstellung und Korrektur basierend auf identifizierten Signalen.

Hier gilt das Relevanzprinzip. Dies hilft bei der Abstimmung und Optimierung von Warnungen, Benachrichtigungen und Berichtszusammenfassungen. Cloudüberwachung ist viel mehr als die Benachrichtigung von Menschen, dass etwas nicht stimmt. Es geht auch darum, Systemen und Diensten Signale bereitzustellen, auf die diese reagieren können.

Die Überwachung spielt in einer Vielzahl von Szenarien eine wichtige Rolle:

  • Aktivieren des dynamischen Dienstverhaltens: Dynamische Steuerung von Systemen und Diensten, um basierend auf Überwachungsdaten zu reagieren und Vorfälle automatisch zu beseitigen.
  • Kontinuierliche Auswertung von Signalen: Fortlaufende Bereitstellung von Telemetriedaten für dynamische Prozesse, Compliance, automatische Skalierung und Visualisierungen.
  • Organisationsaktionen: Unterstützen der IT-Organisation beim Reagieren auf und Verwalten von Änderungen.

Warnungen

Automatisierung ersetzt teurere Dienstverwaltungsprozesse in der modernen Cloudlandschaft und führt damit zu einer Reduzierung der Vorfälle. Warnungen spielen eine wichtige Rolle bei der Sensibilisierung, müssen aber umsetzbar und verwertbar sein, um Alarmmüdigkeit oder Ablenkung durch falsch positive Warnungen zu vermeiden.

Das Definieren von Warnungen trägt dazu bei, proaktiv sicherzustellen, dass die Dienste und Systeme fehlerfrei, reaktionsfähig, zuverlässig und sicher bleiben. Um Leistung sicherzustellen, Servicelevel-Zielpunkte (SLO), Verfügbarkeit und Datenschutz zu gewährleisten, ist eine angemessene Warnungsstrategie erforderlich. Das Eskalieren von Warnungen spielt eine untergeordnete Rolle und sollte heute nicht als erste Verteidigungslinie betrachtet werden. Hier sollte stattdessen die Automatisierung eine wichtige Rolle spielen.

Überwachung bedeutete traditionell, dass eine Warnung ausgelöst wurde, auf die jemand reagieren konnte, was einen vollständig reaktiven Prozess impliziert. Dieser Ansatz muss unter Berücksichtigung moderner Dienstverwaltungs- oder Cloudbetriebspraktiken überarbeitet werden. Dieser Ansatz lehnt sich eng an die traditionelle ITIL-Incidentverwaltung an, die den Zielen der Cloudeffizienz durch Agilität, minimale Kosten, Optimierung usw. nicht gerecht wird.

Ein moderner Ansatz könnte beispielsweise eine Häufigkeit der erkannten Bedingungen aufweisen, die viel informativer und automatisierter sind:

Erkannte Bedingung Primitive Aktion Moderne Aktion
  • Leistungsmetrik: Hohe Arbeitsspeicherauslastung.
  • Sicherheitsbedrohung: Erkannte verdächtige Netzwerkaktivität.
  • Verfügbarkeitsfehler: Fehler bei Azure Blob Storage-Anforderungen.
  • Warnen und benachrichtigen, Webhook, Pushbenachrichtigung, Playbook, automatische Skalierung Abfragen von Protokollen zur Identifizierung der fehlerhaften Komponente und Auslösen von Automatisierung zur Behebung des Problems mit der fehlerhaften Komponente.

    Im Folgenden finden Sie eine Liste der relevanten Ressourcen für Warnungen und Automatisierungsfunktionen in Azure:

    Moderne Cloudüberwachung

    Im Vergleich zu Überwachungsplattformen und entsprechenden Tools, die in der Vergangenheit verfügbar waren, bietet Cloud Computing Folgendes:

    • Viel mehr Flexibilität bei der Entwicklung von Reaktionsmöglichkeiten.
    • Einfachere Möglichkeiten zum Entwickeln und Aktivieren automatisierter Reaktionen.
    • Cloudprotokolle oder API-Methoden lassen sich leichter in Arbeitsverwaltungssysteme integrieren (einschließlich DevOps).

    Berücksichtigen Sie die folgenden Modi für automatisierte Aktionen hinsichtlich Untersuchung, Anreicherung, Routing, Zuweisung, Korrektur, Wiederherstellung oder Lösung:

    Orchestrierungsmethode BESCHREIBUNG
    Vollständig automatisiert Aktionen werden automatisch ausgeführt. Die vollständige Automatisierung sollte sich als zuverlässig, effizient und langlebig erweisen, sodass ihr Nutzen nicht von kurzer Dauer ist und sie sicher ist. Durch vollständige Automatisierung werden Ihre Ressourcen entlastet, sodass sie sich stärker auf Ihre strategischen Initiativen konzentrieren können.
    Halbautomatisiert Eine Genehmigung ist für alle Wartungsmaßnahmen erforderlich.
    Manuell Ein Operator wählt ein Automatisierungsbeispiel oder Playbook aus einer kuratierten Bibliothek aus.

    Warnungen hängen von den instrumentierten Daten ab, die auf Sicherheitsereignissen, Leistungsmetriken, Verfügbarkeitsinformationen und Protokollen basieren. Datengesteuerte Maßnahmen sind das Ergebnis der Analyse ganzheitlicher, durchgängiger Perspektiven für jede überwachte Ressource durch Aggregation und Verarbeitung verschiedener erfasster Datentypen, um die Auswirkungen und die zu treffenden Reaktionsmaßnahmen zu bestimmen.

    Erweitern Sie Ihre Lektüre mit diesen Ressourcen, um mehr über die Automatisierung basierend auf Metrikwarnungen und Sicherheitsereignissen zu erfahren:

    Kosteneffizienz

    Wie bei den anderen Einblickdisziplinen muss das Team verstehen und erkennen, welche Kostenauswirkungen bestehen und wie die Reaktionsarten, die zur Unterstützung einer modernen Incidentverwaltung definiert sind, zur Kostenkontrolle beitragen. Das übergeordnete Ziel besteht zwar in der Reduzierung der mittleren Zeit bis zur Wiederherstellung (Mean Time to Recovery, MTTR), indem Sie schnell reagieren und ein Problem beheben, aber Sie müssen ständig die potenziellen Kosten und Auswirkungen auf den IT- oder Geschäftsumsatz bewerten.

    Jeder gemeldete Incident verursacht Kosten. Angenommen, die Organisation investiert in Orchestrierung, um eine Reaktion zu automatisieren. In diesem Fall sollten Sie das Kosten-Nutzen-Verhältnis und die Auswirkungen der Kosten abwägen, indem Sie den Verbrauch des Clouddiensts erhöhen, um die Dienste oder Funktionen zu nutzen, die eine Automatisierung ermöglichen.

    Automation

    Cloudautomatisierung bietet erhebliche Vorteile für die Sicherheits- und Integritätsüberwachung. Geschwindigkeit, Flexibilität und Genauigkeit sind drei Archetypen, die Cloudautomatisierung zu reaktiven Vorgängen beiträgt. Dies wird häufig als Orchestrierung bezeichnet, und die Microsoft-Cloud bietet mehrere Dienste.

    Zum Beispiel:

    1. Eine identitätsgesteuerte Bedrohung wird anhand mindestens eines Protokolls erkannt, und es wird eine Warnung ausgelöst.
    2. Automatisierung wird sofort ausgelöst, um weitere Informationen zu erfassen und weitere Protokolle zu korrelieren, um die Warnung anzureichern.
    3. Ein Operator führt Aktionen durch Auswahl der richtigen Automatisierung aus einer Bibliothek aus, z. B. durch Deaktivieren eines Benutzerkontos.

    Das Beispiel oder der Anwendungsfall kann vollständig automatisiert werden.

    Die Rolle von Automatisierung bietet dann eine Art von Playbook, das Kosten reduziert und Zeit spart:

    • Es war kein Sicherheitsvorfall erforderlich, um eine langwierige Untersuchung, Diagnose, Lösung und Wiederherstellung durchzuführen.
    • Der Erkennung-bis-Korrektur-Zyklus kann in Sekunden oder Minuten im Vergleich zu Stunden erfolgen.

    Als Nächstes muss Ihr Team eine Liste oder Bibliothek mit Automatisierungsbeispielen erstellen, die flexibel verwendet werden können – entweder anhand von „Rohmaterial”, das auf öffentlichen Websites vorhanden ist, oder anhand von intern zusammengestellten und in einem Quellcodeverwaltungsrepository gespeicherten Informationen.

    Im Folgenden finden Sie eine Liste mit Lesevorschlägen für mehr Automatisierung basierend auf Identitäts- oder Sicherheitsereignissen:

    Wirkungsvolle Warnungsstrategie

    Sie können kein Problem beheben, von dem Sie nicht wissen, dass es vorhanden ist.

    Die Ausgabe von Warnungen bei wichtigen Faktoren ist entscheidend. Unterstützt wird dies durch das Erfassen und Messen der richtigen Metriken und Protokolle. Sie benötigen auch ein Überwachungstool, das in der Lage ist, die Speicherung, Aggregation, Visualisierung und Analyse durchzuführen sowie eine automatische Reaktion einzuleiten, wenn die Bedingungen erfüllt sind. Eine Verbesserung des Einblicks in Ihre Dienste und Anwendungen können Sie nur erreichen, wenn Sie deren Zusammensetzung vollständig verstehen. Sie ordnen diese Zusammensetzung in eine detaillierte Überwachungskonfiguration zu, die von der Überwachungsplattform angewendet wird. Diese Konfiguration beinhaltet die vorhersehbaren Fehlerzustände (die Symptome und nicht die Ursache des Fehlers), für die eine Warnung sinnvoll ist.

    Informationsmeldungen

    Einige Warnungen können unter bestimmten Umständen informativ sein. Sie liefern Informationen zum Verhalten unserer Systeme. So können z. B.die folgenden Informationswarnungen für Sie von Interesse sein:

    • Ein VM wurde heruntergefahren: Ein VM wurde automatisch heruntergefahren, um basierend auf einem Zeitplan oder einer festgestellten geringen Auslastung Verluste zu minimieren und Kosten zu kontrollieren.

      In diesem Beispiel wurde die Orchestrierung auf der Grundlage einer nativen Planungsfunktion und der Erkennung des Auslastungszustands durch die Überwachungsplattform verwendet. Die Warnung benachrichtigt oder eskaliert nicht als einzige Aktion, sondern informiert Sie über die durchgeführte Aktion und den jeweiligen Grund.

    • Ressourcen im Leerlauf: IaaS- oder PaaS-Ressourcen befinden sich über einen längeren Zeitraum im Leerlauf oder werden basierend auf Azure Advisor-Empfehlungen nicht bereitgestellt.

      In diesem Beispiel kann die Orchestrierung auf Grundlage der Geschäftslogik oder des ITSM-Prozessworkflows verwendet werden, um diese infrastrukturbezogenen Aktivitäten zu verwalten. Heute sind viel schnellere Antworten und Maßnahmen erforderlich. Mit der Cloud sind Warnungen weniger für Menschen als für eine automatisierte Reaktion oder eine fortlaufende Orchestrierung als Teil eines automatisierten Wertstroms gedacht.

    Überlegungen zur Warnungsstrategie

    Denken Sie daran, dass Lernen eine wesentliche Rolle spielt. Informationswarnungen können Ihnen bei richtiger Konfiguration viele Einblicke in Ihr Cloudökosystem und Ihre Systemintegrität liefern.

    Berücksichtigen Sie die folgenden Grundsätze, um festzustellen, ob ein Symptom ein geeigneter Kandidat für Warnungen ist:

    • Umsetzbar: Spielt das Problem eine Rolle? Spiegelt dies ein echtes Problem in der Integrität Ihrer Anwendung wider? Beispielsweise können Sie eine Warnung senden, wenn die CPU-Auslastung über einen längeren Zeitraum für eine Ressource zu hoch ist oder eine SQL-Abfrage konsistent Leistungsprobleme verursacht. Möglicherweise möchten Sie jedoch keine Warnung senden, wenn die CPU über einen kurzen Zeitraum hoch ist. Stellen Sie die Umsetzbarkeit sicher, um falsch positive Warnungen zu reduzieren und Alarmmüdigkeit zu vermeiden.

    • Dringlichkeit: Muss das Problem dringend beachtet werden? Falls ja, muss das verantwortliche Team sofort benachrichtigt werden.

    • Auswirkung für Kunden: Sind Benutzer des Diensts oder der Anwendung vom Problem betroffen?

    • Auswirkung auf abhängige Systeme: Gibt es Warnungen von abhängigen Komponenten, die miteinander in Verbindung stehen und möglicherweise korreliert werden könnten, um eine Benachrichtigung verschiedener Teams zu vermeiden, die alle am selben Problem arbeiten?

    Mit diesen ersten Überlegungen können Sie mit der Entwicklung Ihrer Überwachungskonfiguration beginnen. Sie können die Annahmen umgebungsübergreifend testen und überprüfen. Bewerten Sie diese Überlegungen und Fragen z. B. kontinuierlich sowohl in Nichtproduktions- als auch in Produktionsumgebungen. Kontinuierliche Verbesserung ist der Schlüssel für eine erfolgreiche Reaktion auf Überwachungssignale.

    Wenn Sie kontinuierlich bewerten, was funktioniert, sollten Sie sich diese Fragen stellen, um das Bewusstsein für die Effektivität Ihrer Überwachungsreaktion zu fördern:

    • Warnungsvolumen: Erhalten Sie eine hohe Anzahl an Warnungen? Gibt es viele nicht umsetzbare Warnungen, die vermieden werden könnten?
    • Unbemerkte Probleme: Erhalten Sie Berichte oder Tickets von Benutzern, bei denen Probleme auftreten, die nicht von der Überwachungskonfiguration erfasst wurden?
    • Falsch positive Warnungen: Erhalten Sie Warnungen oder Signale, die falsch gekennzeichnet wurden?
    • Warnung oder Ereignis: Müssen Sie wirklich eine Warnung senden, oder könnten einige der ausgelösten Warnungen nur Ereignisse sein, die im System gekennzeichnet werden? Wenn die Signale bei der Abfrage angezeigt werden, anstatt eine Warnung zu senden, würde dies ausreichen, um Alarmmüdigkeit und nicht umsetzbare Benachrichtigungen zu vermeiden?

    Weitere Informationen zu den Funktionen der Microsoft-Überwachungslösungen finden Sie in der Übersicht über Überwachungsplattformen in dieser Artikelreihe.

    Nächste Schritte