Empfehlungen zum Entwerfen und Erstellen eines Überwachungssystems

Gilt für diese Checklistenempfehlung für Azure Well-Architected Framework Operational Excellence:

OE:07 Entwerfen und Implementieren eines Überwachungssystems, um Entwurfsentscheidungen zu überprüfen und zukünftige Entwurfs- und Geschäftsentscheidungen zu treffen. Dieses System erfasst und macht betriebsbezogene Telemetriedaten, Metriken und Protokolle verfügbar, die von der Infrastruktur und dem Code der Workload ausgegeben werden.

Verwandter Leitfaden: Empfehlungen für die Instrumentierung einer Anwendung

In diesem Leitfaden werden die Empfehlungen zum Entwerfen und Erstellen eines Überwachungssystems beschrieben. Um Ihre Workload effektiv auf Sicherheit, Leistung und Zuverlässigkeit zu überwachen, benötigen Sie ein umfassendes System mit einem eigenen Stapel, der die Grundlage für alle Überwachungs-, Erkennungs- und Warnungsfunktionen bietet.

Definitionen

Begriff Definition
Protokolle Aufgezeichnete Systemereignisse. Protokolle können verschiedene Datentypen in einem strukturierten oder freiformatigen Textformat enthalten. Sie enthalten einen Zeitstempel.
Metriken Numerische Werte, die in regelmäßigen Abständen gesammelt werden. Metriken beschreiben einige Aspekte eines Systems zu einem bestimmten Zeitpunkt.

Wichtige Entwurfsstrategien

Um einen umfassenden Entwurf des Überwachungssystems für Ihre Workload zu implementieren, befolgen Sie die folgenden grundlegenden Grundsätze:

  • Nutzen Sie, wann immer sie sinnvoll sind, die plattformseitig bereitgestellten Überwachungstools, die in der Regel nur sehr wenig Konfiguration erfordern und tiefe Einblicke in Ihre Workload bieten können, die andernfalls schwierig zu erfüllen sind.

  • Sammeln Sie Protokolle und Metriken aus dem gesamten Workloadstapel. Alle Infrastrukturressourcen und Anwendungsfunktionen sollten so konfiguriert werden, dass standardisierte, aussagekräftige Daten erzeugt werden, und diese Daten müssen gesammelt werden.

  • Speichern Sie die gesammelten Daten in einer standardisierten, zuverlässigen und sicheren Speicherlösung.

  • Verarbeiten Sie gespeicherte Daten, damit sie von Analyse- und Visualisierungslösungen verarbeitet werden können.

  • Analysieren Sie verarbeitete Daten, um den Zustand der Workload genau zu bestimmen.

  • Visualisieren Sie den Zustand der Workload in aussagekräftigen Dashboards oder Berichten für Workloadteams und andere Stakeholder.

  • Konfigurieren Sie verwertbare Warnungen und andere automatische Antworten auf intelligent definierte Schwellenwerte, um Workloadteams zu benachrichtigen, wenn Probleme auftreten.

  • Schließen Sie Überwachungs- und Warnungssysteme in Ihre gesamten Workloadtestmethoden ein.

  • Stellen Sie sicher, dass Überwachungs- und Warnungssysteme kontinuierlich verbessert werden können. Anwendungs- und Infrastrukturverhalten in der Produktion bietet kontinuierliche Lernmöglichkeiten. Integrieren Sie diese Lektionen in Überwachungs- und Warnungsdesigns.

  • Binden Sie die von Ihnen gesammelten und analysierten Überwachungsdaten an Ihre System- und Benutzerflows zurück, um zusätzlich zur Gesamtintegrität der Workload die Integrität der Flows mit den Daten zu korrelieren. Die Analyse dieser Daten in Bezug auf die Flows hilft Ihnen dabei, Ihre Beobachtbarkeitsstrategie an Ihr Integritätsmodell anzupassen.

Sie sollten alle Funktionen des Überwachungssystems so weit wie möglich automatisieren, und sie sollten alle kontinuierlich, den ganzen Tag, jeden Tag ausgeführt werden.

Diese Workflowpipeline veranschaulicht das Überwachungssystem:

Diagramm, das die Phasen eines umfassenden Überwachungssystems als Pipeline zeigt.

Sammlung

Hinweis

Sie müssen Ihre Anwendung instrumentieren, um die Protokollierung zu aktivieren. Weitere Informationen finden Sie im Instrumentierungshandbuch.

Sie sollten alle Workloadkomponenten konfigurieren, unabhängig davon, ob es sich um Infrastrukturressourcen oder Anwendungsfunktionen handelt, um Telemetriedaten und/oder Ereignisse wie Protokolle und Metriken zu erfassen.

Protokolle sind in erster Linie nützlich, um Anomalien zu erkennen und zu untersuchen. In der Regel werden Protokolle von der Workloadkomponente erstellt und dann an die Überwachungsplattform gesendet oder über die Automatisierung von der Überwachungsplattform abgerufen.

Metriken sind in erster Linie nützlich, um ein Integritätsmodell zu erstellen und Trends in Bezug auf Workloadleistung und Zuverlässigkeit zu identifizieren. Metriken sind auch nützlich, um Trends im Nutzungsverhalten Ihrer Kunden zu identifizieren. Diese Trends können helfen, Entscheidungen über Verbesserungen aus Kundensicht zu treffen. In der Regel werden Metriken in der Überwachungsplattform definiert, und die Überwachungsplattform und andere Tools rufen die Workload ab, um Metriken zu erfassen.

Anwendungsdaten

Für Anwendungen kann der Erfassungsdienst ein APM-Tool (Application Performance Management) sein, das autonom von der Anwendung ausgeführt werden kann, die die Instrumentierungsdaten generiert. Nachdem APM aktiviert wurde, erhalten Sie einen klaren Einblick in wichtige Metriken in Echtzeit und in der Vergangenheit. Verwenden Sie eine geeignete Protokollierungsebene. Die ausführliche Protokollierung kann erhebliche Kosten verursachen. Legen Sie Protokollebenen entsprechend der Umgebung fest. Niedrigere Umgebungen benötigen beispielsweise nicht die gleiche Ausführlichkeit wie die Produktion.

Anwendungsprotokolle dienen dem Lebenszyklus von End-to-End-Anwendungen. Die Protokollierung ist wichtig, um zu verstehen, wie die Anwendung in verschiedenen Umgebungen funktioniert, welche Ereignisse auftreten und unter welchen Bedingungen sie auftreten.

Es wird empfohlen, Anwendungsprotokolle und -ereignisse in allen wichtigen Umgebungen zu sammeln. Trennen Sie die Daten so weit wie möglich zwischen Umgebungen, indem Sie unterschiedliche Datenspeicher für jede Umgebung verwenden, wenn dies praktisch ist. Verwenden Sie Filter, um sicherzustellen, dass nicht kritische Umgebungen die Interpretation von Produktionsprotokollen nicht erschweren. Schließlich sollten entsprechende Protokolleinträge in der gesamten Anwendung eine Korrelations-ID für ihre jeweiligen Transaktionen erfassen.

Sie sollten Anwendungsereignisse in strukturierten Datentypen mit maschinenlesbaren Datenpunkten und nicht mit unstrukturierten Zeichenfolgentypen erfassen. Ein strukturiertes Format, das ein bekanntes Schema verwendet, kann die Analyse und Analyse von Protokollen vereinfachen. Außerdem können strukturierte Daten problemlos indiziert und durchsucht werden, und die Berichterstellung kann erheblich vereinfacht werden.

Daten sollten in einem unabhängigen Format vorliegen, das unabhängig vom Computer, Betriebssystem oder Netzwerkprotokoll ist. Geben Sie beispielsweise Informationen in einem selbstbeschreibenden Format wie JSON, MessagePack oder Protobuf anstelle von ETL/ETW aus. Ein Standardformat ermöglicht es dem System, Verarbeitungspipelines zu erstellen. Komponenten, die Daten im Standardformat lesen, transformieren und senden, können problemlos integriert werden.

Infrastrukturdaten

Stellen Sie für Infrastrukturressourcen in Ihrer Workload sicher, dass Sie sowohl Protokolle als auch Metriken sammeln. Für IaaS-Systeme (Infrastructure-as-a-Service) erfassen Sie Betriebssystem-, Anwendungs- und Diagnoseprotokolle sowie Metriken im Zusammenhang mit der Workloadintegrität. Bei PaaS-Ressourcen (Platform-as-a-Service) sind Sie möglicherweise in der Lage, Protokolle zu erfassen, die sich auf die zugrunde liegende Infrastruktur beziehen, aber stellen Sie sicher, dass Sie diagnoseprotokolle zusätzlich zu Metriken im Zusammenhang mit der Workloadintegrität erfassen können.

Sammeln Sie so viel wie möglich Protokolle von Ihrer Cloudplattform. Möglicherweise können Sie Aktivitätsprotokolle für Ihr Abonnement und Diagnoseprotokolle für die Verwaltungsebene sammeln.

Sammlungsstrategien

Vermeiden Sie es, Telemetriedaten aus jeder Komponente manuell abzurufen. Verschieben Sie Daten an einen zentralen Ort, und konsolidieren Sie sie dort. Für eine Lösung mit mehreren Regionen empfiehlt es sich, zunächst Daten nach Region zu sammeln, zu konsolidieren und zu speichern und dann die regionalen Daten in einem zentralen System zu aggregieren.

Kompromiss: Beachten Sie, dass regionale und zentralisierte Datenspeicher Kosten imPlikationen haben.

Um die Nutzung der Bandbreite zu optimieren, liegt die Priorität bei der Wichtigkeit von Daten. Sie können weniger dringende Daten in Batches übertragen. Diese Daten dürfen jedoch nicht unbegrenzt verzögert werden, insbesondere nicht, wenn sie zeitkritische Informationen enthalten.

Es gibt zwei primäre Modelle, die der Sammlungsdienst verwenden kann, um Instrumentierungsdaten zu sammeln:

  • Pullmodell: Ruft aktiv Daten aus den verschiedenen Protokollen und anderen Quellen für jede instance der Anwendung ab.

  • Pushmodell: Wartet passiv, bis die Daten von den Komponenten gesendet werden, die die einzelnen instance der Anwendung bilden.

Überwachungs-Agents

Sie können Überwachungs-Agents im Pullmodell verwenden. Agents werden lokal in einem separaten Prozess mit jedem instance der Anwendung ausgeführt, wobei daten regelmäßig abgerufen und die Informationen direkt in den gemeinsamen Speicher geschrieben werden, der von allen Instanzen der Anwendung freigegeben wird.

Diagramm, das die Verwendung eines Überwachungs-Agents zeigt, um Informationen zu abrufen und in freigegebenen Speicher zu schreiben.

Hinweis

Die Verwendung eines Überwachungs-Agents eignet sich hervorragend zum Erfassen von Instrumentierungsdaten, die naturgemäß per Pull aus einer Datenquelle übertragen werden. Es eignet sich für eine kleine Anwendung, die auf einer begrenzten Anzahl von Knoten an einem einzigen Speicherort ausgeführt wird. Beispiele sind Informationen aus SQL Server dynamischen Verwaltungssichten oder die Länge einer Azure Service Bus Warteschlange.

Leistungsaspekte

Eine komplexe und hochgradig skalierbare Anwendung kann große Datenmengen generieren. Die Datenmenge kann die E/A-Bandbreite, die für einen zentralen Standort verfügbar ist, leicht überlasten. Die Telemetrielösung darf nicht als Engpass fungieren und muss skalierbar sein, wenn das System erweitert wird. Im Idealfall sollte die Lösung ein gewisses Maß an Redundanz umfassen, um das Risiko zu verringern, dass wichtige Überwachungsinformationen (z. B. Überwachungs- oder Abrechnungsdaten) verloren gehen, wenn ein Teil des Systems ausfällt.

Eine Möglichkeit zum Puffern von Instrumentierungsdaten ist die Verwendung von Warteschlangen:

Diagramm, das zeigt, wie Sie eine Warteschlange zum Puffern von Instrumentierungsdaten verwenden können.

In dieser Architektur sendet der Datensammlungsdienst Daten an eine Warteschlange. Eine Nachrichtenwarteschlange ist geeignet, da sie "mindestens einmal"-Semantik bereitstellt, die sicherstellt, dass daten in die Warteschlange nicht verloren gehen, nachdem sie veröffentlicht wurden. Sie können den Speicherschreibdienst implementieren, indem Sie eine separate Workerrolle verwenden. Sie können das Muster der Prioritätswarteschlange verwenden, um diese Architektur zu implementieren.

Aus Gründen der Skalierbarkeit können Sie mehrere Instanzen des Speicherschreibdiensts ausführen. Wenn ein hohes Volumen von Ereignissen oder eine hohe Anzahl von Datenpunkten überwacht wird, können Sie Azure Event Hubs verwenden, um die Daten für die Verarbeitung und Speicherung an eine andere Compute-instance zu senden.

Konsolidierungsstrategien

Die von einer einzelnen instance einer Anwendung gesammelten Daten bieten eine lokalisierte Ansicht der Integrität und Leistung dieser instance. Um die allgemeine Integrität des Systems zu bewerten, müssen Sie einige Aspekte der Daten aus den lokalen Ansichten konsolidieren. Sie können dies tun, nachdem die Daten gespeichert wurden, aber in einigen Fällen können Sie dies tun, während die Daten gesammelt werden.

Diagramm: Beispiel für die Verwendung eines Diensts zum Konsolidieren von Instrumentierungsdaten

Die Instrumentierungsdaten können einen separaten Datenkonsolidierungsdienst durchlaufen, der Daten kombiniert und die Rolle eines Filter- und Bereinigungsprozesses übernimmt. Beispielsweise können Sie Instrumentierungsdaten zusammenführen, die dieselben Korrelationsinformationen wie eine Aktivitäts-ID enthalten. (Ein Benutzer kann einen Geschäftsvorgang auf einem Knoten starten und dann auf einen anderen Knoten übertragen werden, wenn der erste Knoten fehlschlägt oder aufgrund der Konfiguration des Lastenausgleichs.) Dieser Prozess kann auch alle duplizierten Daten erkennen und entfernen. (Duplizierung kann auftreten, wenn der Telemetriedienst Nachrichtenwarteschlangen verwendet, um Instrumentierungsdaten in den Speicher zu übertragen.)

Speicher

Berücksichtigen Sie bei der Auswahl einer Speicherlösung den Typ der Daten, deren Verwendung und deren Dringendkeit.

Hinweis

Verwenden Sie separate Speicherlösungen für Nicht-Produktions- und Produktionsumgebungen, um sicherzustellen, dass Daten aus jeder Umgebung leicht zu identifizieren und zu verwalten sind.

Speichertechnologien

Betrachten Sie einen Polyglot-Persistenzansatz, bei dem verschiedene Arten von Informationen in Technologien gespeichert werden, die für die wahrscheinliche Verwendung jedes Typs am besten geeignet sind.

Auf Azure Blob Storage und Azure Table Storage wird beispielsweise auf ähnliche Weise zugegriffen. Die Vorgänge, die Sie für sie ausführen können, unterscheiden sich jedoch ebenso wie die Granularität der darin enthaltenen Daten. Wenn Sie weitere analytische Vorgänge durchführen müssen oder Volltext-Suchfunktionen für die Daten erforderlich sind, ist möglicherweise die Nutzung einer Datenspeicherung besser geeignet, die für bestimmte Typen von Abfragen und Datenzugriff optimierte Funktionen bietet. Beispiel:

  • Leistungsindikatordaten können in einer SQL-Datenbank gespeichert werden, um eine Ad-hoc-Analyse zu ermöglichen.

  • Es ist möglicherweise besser, Ablaufverfolgungsprotokolle in Azure Monitor-Protokollen oder azure Data Explorer zu speichern.

  • Sie können Sicherheitsinformationen in einer HDFS-Lösung speichern.

Die gleichen Instrumentierungsdaten können für mehrere Zwecke erforderlich sein. Sie können beispielsweise Leistungsindikatoren verwenden, um eine Verlaufsansicht der Systemleistung im Zeitverlauf bereitzustellen. Diese Informationen können mit anderen Nutzungsdaten kombiniert werden, um Abrechnungsinformationen für Kunden zu generieren. In diesen Situationen können dieselben Daten an mehrere Ziele gesendet werden, z. B. an eine Dokumentdatenbank, die ein langfristiger Speicher für Abrechnungsinformationen sein kann, und an einen mehrdimensionalen Speicher für die Verarbeitung komplexer Leistungsanalysen.

Stellen Sie sicher, dass Sie Funktionen aktivieren, um die Daten vor versehentlichem Löschen zu schützen, z. B. Ressourcensperren und vorläufiges Löschen.

Stellen Sie außerdem sicher, dass Sie den Zugriff auf den Speicher mithilfe der rollenbasierten Zugriffssteuerung sichern, um sicherzustellen, dass nur Personen, die auf die Daten zugreifen müssen, dies tun können.

Konsolidierungsdienst

Sie können einen anderen Dienst implementieren, der die Daten in regelmäßigen Abständen aus dem freigegebenen Speicher abruft, partitioniert und nach seinem Zweck filtert und sie dann in einen entsprechenden Satz von Datenspeichern schreibt.

Diagramm eines Datenpartitionierungsdiensts, der Daten basierend auf seinem Typ in einen entsprechenden Datenspeicher verschiebt.

Ein alternativer Ansatz besteht darin, diese Funktionalität in den Konsolidierungs- und Bereinigungsvorgang einzubeziehen und die Daten direkt beim Abrufen in diese Speicher zu schreiben, anstatt sie in einem freigegebenen Zwischenspeicherbereich zu speichern.

Jeder Ansatz hat Vor- und Nachteile. Durch die Implementierung eines separaten Partitionierungsdiensts wird die Last für den Konsolidierungs- und Bereinigungsdienst verringert, und es kann bei Bedarf zumindest ein Teil der partitionierten Daten neu generiert werden (je nachdem, wie viele Daten im freigegebenen Speicher aufbewahrt werden). Dieser Ansatz verbraucht jedoch zusätzliche Ressourcen. Zudem gibt es möglicherweise eine Verzögerung zwischen den Empfang von Instrumentierungsdaten von den einzelnen Anwendungsinstanzen und der Konvertierung dieser Daten in verwertbare Informationen.

Überlegungen zu Abfragen

Überlegen Sie, wie dringend die Daten erforderlich sind. Daten, die Warnungen bereitstellen, müssen schnell zugänglich sein, daher sollten sie in einem schnellen Datenspeicher gehalten und so indiziert oder strukturiert werden, dass die vom Warnsystem durchgeführten Abfragen optimiert durchgeführt werden. In einigen Fällen kann es erforderlich sein, dass der Sammlungsdienst Daten lokal formatiert und speichert, damit eine lokale Instanz des Warnsystems schnell Benachrichtigungen senden kann. Die gleichen Daten können an den in den vorherigen Diagrammen gezeigten Speicherschreibdienst verteilt und zentral gespeichert werden, wenn sie für weitere Zwecke erforderlich sind.

Überlegungen zur Datenaufbewahrung

In einigen Fällen können Sie nach der Verarbeitung und Übertragung der Daten die ursprünglichen Rohdaten entfernen, die lokal gespeichert wurden. In anderen Fällen kann es erforderlich oder nützlich sein, die Rohdaten zu speichern. Beispielsweise sollten Sie Daten, die für das Debuggen generiert wurden, in ihrer rohen Form verfügbar halten, sie dann aber schnell verwerfen, nachdem alle Fehler behoben wurden.

Leistungsdaten haben häufig eine längere Lebensdauer, sodass Sie sie zum Erkennen von Leistungstrends und für die Kapazitätsplanung verwenden können. Die konsolidierte Ansicht dieser Daten bleibt in der Regel für einen begrenzten Zeitraum online, um einen schnellen Zugriff zu ermöglichen. Danach können diese Daten archiviert oder verworfen werden.

Dies ist zum Speichern von Verlaufsdaten sinnvoll, um langfristige Trends zu ermitteln zu können. Anstatt alte Daten vollständig zu speichern, können Sie die Daten möglicherweise heruntersampen, um die Auflösung zu reduzieren und Speicherkosten zu sparen. Anstatt beispielsweise Die Leistungsindikatoren für Minuten zu speichern, können Sie Daten konsolidieren, die mehr als einen Monat alt sind, um eine Stundenansicht zu erstellen.

Für die Messung und die Kundenabrechnung gesammelte Daten müssen möglicherweise dauerhaft gespeichert werden. Darüber hinaus können gesetzlichen Anforderungen vorschreiben, dass informationen, die für die Überwachung und Sicherheit gesammelt wurden, archiviert und gespeichert werden müssen. Diese Daten sind zudem vertraulich und müssen möglicherweise verschlüsselt oder auf andere Art geschützt werden, um Manipulationen zu verhindern. Sie sollten niemals Benutzerkennwörter oder andere Informationen aufzeichnen, die zum Begehen von Identitätsbetrug verwendet werden können. Sie sollten diese Details aus den Daten bereinern, bevor sie gespeichert werden.

Um sicherzustellen, dass Sie Gesetze und Vorschriften einhalten, minimieren Sie die Speicherung identifizierbarer Informationen. Wenn Sie identifizierbare Informationen speichern müssen, stellen Sie sicher, dass Sie beim Entwerfen Ihrer Lösung Anforderungen berücksichtigen, die es Einzelpersonen ermöglichen, die Löschung ihrer Informationen anzufordern.

Analyse

Nachdem Sie Daten aus verschiedenen Datenquellen gesammelt haben, analysieren Sie sie, um das allgemeine Wohlbefinden des Systems zu bewerten. Für diese Analyse haben Sie ein klares Verständnis von:

  • Strukturieren von Daten basierend auf KPIs und Leistungsmetriken, die Sie definiert haben.

  • Dem Korrelieren der in verschiedenen Metriken und Protokolldateien erfassten Daten Diese Korrelation ist wichtig, wenn Sie eine Sequenz von Ereignissen nachverfolgen, und kann Ihnen bei der Diagnose von Problemen helfen.

In den meisten Fällen werden Daten für jede Komponente der Architektur lokal erfasst und dann präzise mit Daten kombiniert, die von anderen Komponenten generiert werden.

Beispielsweise kann eine Anwendung mit drei Ebenen folgendes aufweisen:

  • Eine Präsentationsebene, die es einem Benutzer ermöglicht, eine Verbindung mit einer Website herzustellen.

  • Eine mittlere Ebene, die eine Gruppe von Microservices hostet, die Geschäftslogik verarbeiten.

  • Eine Datenbankebene, die daten speichert, die dem Vorgang zugeordnet sind.

Die Nutzungsdaten für einen einzelnen Geschäftsvorgang können alle drei Ebenen umfassen. Diese Informationen müssen korreliert werden, um eine allgemeine Ansicht der Ressourcen- und Verarbeitungsnutzung für den Vorgang zu erhalten. Die Korrelation kann die Vorverarbeitung und Filterung von Daten auf der Datenbankebene umfassen. Auf der mittleren Ebene sind Aggregation und Formatierung häufige Aufgaben.

Empfehlungen

  • Korrelieren Sie Protokolle auf Anwendungsebene und Ressourcenebene. Werten Sie Daten auf beiden Ebenen aus, um die Erkennung von Problemen und die Problembehandlung dieser Probleme zu optimieren. Sie können die Daten in einer einzelnen Datensenke aggregieren oder Methoden nutzen, die Ereignisse auf beiden Ebenen abfragen. Wir empfehlen eine einheitliche Lösung wie Azure Log Analytics, um Protokolle auf Anwendungsebene und Ressourcenebene zu aggregieren und abzufragen.

  • Definieren Sie klare Aufbewahrungszeiten für den Speicher für die Kalte Analyse. Wir empfehlen diese Vorgehensweise, um die historische Analyse über einen bestimmten Zeitraum zu ermöglichen. Es kann Ihnen auch helfen, die Speicherkosten zu steuern. Implementieren Sie Prozesse, die sicherstellen, dass Daten in kostengünstigerem Speicher archiviert werden, und aggregieren Sie Daten für langfristige Trendanalysen.

  • Analysieren Sie langfristige Trends, um betriebliche Probleme vorherzusagen. Bewerten Sie langfristige Daten, um operative Strategien zu erstellen und vorherzusagen, welche operativen Probleme wann wahrscheinlich auftreten werden. Sie können beispielsweise feststellen, dass die durchschnittliche Antwortzeit im Laufe der Zeit langsam zunimmt und sich dem maximalen Ziel nähert.

Ausführliche Anleitungen zu diesen Empfehlungen finden Sie unter Analysieren von Überwachungsdaten für Cloudanwendungen.

Visualisierung

Dashboards

Die gängigste Methode zum Visualisieren von Daten besteht darin, Dashboards zu verwenden, die Informationen als Eine Reihe von Diagrammen oder Diagrammen oder in einer anderen visuellen Form anzeigen können. Diese Elemente können parametrisiert werden, und ein Analyst kann die wichtigen Parameter wie den Zeitraum für eine bestimmte Situation auswählen.

Richten Sie Ihre Dashboards an Ihrem Integritätsmodell so aus, dass sie angeben, wann die Workload oder die Komponenten der Workload fehlerfrei, beeinträchtigt oder fehlerhaft sind.

Damit ein Dashboard System effektiv funktioniert, muss es für das Workloadteam von Bedeutung sein. Visualisieren Sie Informationen, die sich auf die Workloadintegrität beziehen und die ebenfalls umsetzbar sind. Wenn die Workload oder komponente beeinträchtigt oder fehlerhaft ist, sollten Die Mitglieder des Workloadteams in der Lage sein, leicht zu erkennen, wo das Problem in der Workload liegt, und ihre Korrekturmaßnahmen oder Untersuchungen zu beginnen. Umgekehrt kann die Einbeziehung von Informationen, die nicht umsetzbar sind oder nicht mit der Workloadintegrität zusammenhängen, die Dashboard unnötig komplex und frustrierend für Teammitglieder machen, die versuchen, Hintergrundgeräusche aus umsetzbaren Daten zu erkennen.

Möglicherweise verfügen Sie über Dashboards für Projektbeteiligte oder Entwickler, die so angepasst sind, dass nur Daten über die Workload angezeigt werden, die sie für relevant erahen. Stellen Sie sicher, dass das Workloadteam die Arten von Datenpunkten versteht, an denen andere Teams interessiert sind, und zeigt eine Vorschau der Dashboards an, bevor Sie sie freigeben, um die Klarheit zu überprüfen. Die Bereitstellung von Dashboards zu Ihrer Workload für Stakeholder ist eine gute Möglichkeit, sie über die Workloadintegrität zu informieren, birgt jedoch das Risiko, kontraproduktiv zu sein, wenn die Beteiligten die angezeigten Daten nicht genau verstehen.

Ein guter Dashboard zeigt nicht nur Informationen an. Außerdem kann ein Analyst improvisierte Fragen zu diesen Informationen stellen. Einige Systeme bieten Verwaltungstools, mit denen ein Operator diese Aufgaben ausführen und die zugrunde liegenden Daten untersuchen kann. Stattdessen kann es je nach Repository, das zum Speichern der Informationen verwendet wird, möglich sein, die Daten direkt abzufragen oder sie zur weiteren Analyse und Berichterstellung in Tools wie Excel zu importieren.

Hinweis

Schränken Sie Dashboard Zugriff auf autorisierte Mitarbeiter ein. Informationen zu Dashboards können wirtschaftlich vertraulich sein. Sie sollten auch die zugrunde liegenden Daten schützen, um zu verhindern, dass Benutzer sie ändern.

Berichterstellung

Die Berichterstellung wird verwendet, um eine allgemeine Übersicht über das System zu generieren. Es kann historische Daten und aktuelle Informationen enthalten. Anforderungen an die Berichterstellung fallen in zwei breite Kategorien: die operative Berichterstellung für die Sicherheitsberichterstellung.

Die operative Berichterstellung umfasst in der Regel Folgendes:

  • Das Aggregieren von Statistiken, mit denen die Ressourcennutzung des gesamten Systems oder angegebener Subsysteme innerhalb eines angegebenen Zeitraums nachvollzogen werden kann

  • Das Identifizieren von Trends bei der Ressourcenverwendung für das gesamte System oder für die angegebenen Subsysteme während eines bestimmten Zeitraums

  • Das Überwachen von Ausnahmen, die im gesamten System oder in bestimmten Subsystemen während eines angegebenen Zeitraums aufgetreten sind.

  • Bestimmen der Effizienz der Anwendung für die bereitgestellten Ressourcen und Ermitteln, ob das Ressourcenvolumen und die zugehörigen Kosten reduziert werden können, ohne die Leistung unnötig zu beeinträchtigen.

Die Sicherheitsberichterstattung verfolgt die Kundennutzung des Systems. Dazu gehört:

  • Überwachen von Benutzervorgängen. Diese Aufgabe erfordert die Aufzeichnung der einzelnen Anforderungen, die jeder Benutzer erledigt, zusammen mit Datums- und Uhrzeitangaben. Die Daten sollten so strukturiert sein, dass ein Administrator die Reihenfolge der Vorgänge, die ein Benutzer während eines bestimmten Zeitraums abschließt, schnell rekonstruieren kann.

  • Nachverfolgen der Ressourcennutzung nach Benutzer. Für diese Aufgabe muss aufgezeichnet werden, wie jede Anforderung eines Benutzers auf die verschiedenen Ressourcen des Systems zugreift und wie lange. Ein Administrator kann diese Daten verwenden, um einen Nutzungsbericht nach Benutzer für einen bestimmten Zeitraum zu generieren, möglicherweise für die Abrechnung.

In vielen Fällen können Batchprozesse Berichte nach einem definierten Zeitplan generieren. Die Wartezeit ist normalerweise kein Problem. Sie sollten auch Über Batchprozesse verfügen, mit denen Berichte nach Bedarf spontan generiert werden können. Wenn Sie z. B. Daten in einer relationalen Datenbank wie Azure SQL Datenbank speichern, können Sie ein Tool wie SQL Server Reporting Services verwenden, um Daten zu extrahieren und zu formatieren und als eine Reihe von Berichten darzustellen.

Warnungen

Um sicherzustellen, dass das System fehlerfrei, reaktionsfähig und sicher bleibt, legen Sie Warnungen fest, damit Die Bediener rechtzeitig darauf reagieren können. Eine Warnung kann genügend kontextbezogene Informationen enthalten, um ihnen den schnellen Einstieg in Diagnoseaktivitäten zu erleichtern. Warnungen können verwendet werden, um Wartungsfunktionen wie die automatische Skalierung oder andere Selbstheilungsmechanismen aufzurufen. Warnungen können auch Kostenbewusstsein ermöglichen, indem sie Einblicke in Budgets und Grenzwerte bieten.

Empfehlungen

  • Definieren Sie einen Prozess für die Warnungsantwort, der die verantwortlichen Besitzer und Aktionen identifiziert.

  • Konfigurieren Sie Warnungen für einen klar definierten Bereich (Ressourcentypen und Ressourcengruppen), und passen Sie die Ausführlichkeit an, um Rauschen zu minimieren.

  • Verwenden Sie eine automatisierte Lösung für Warnungen, z. B. Splunk oder Azure Monitor, anstatt personen dazu auffordern zu müssen, aktiv nach Problemen zu suchen.

  • Verwenden Sie Warnungen, um Wiederherstellungsprozesse zu operationalisieren. Erstellen Sie beispielsweise automatisch Tickets zum Nachverfolgen von Problemen und Lösungen.

  • Verfolgen Sie die Integrität Ihrer Cloudplattformdienste in Regionen, die Kommunikation über Ausfälle, geplante Wartungsaktivitäten und andere Gesundheitsempfehlungen.

Schwellenwerte

Warnungen werden generiert, wenn Schwellenwerte überschritten werden, wie von Ihrem Überwachungssystem erkannt. Stellen Sie sicher, dass die von Ihnen festgelegten Schwellenwerte im Allgemeinen genügend Zeit haben, um die erforderlichen Änderungen an Ihrer Workload zu implementieren, um Beeinträchtigungen oder Ausfälle zu vermeiden. Legen Sie beispielsweise Ihren Schwellenwert für die automatische Skalierung so fest, dass die Skalierung initiiert wird, bevor eines der ausgeführten Systeme bis zu einer beeinträchtigten Benutzerfreundlichkeit überlastet wird. Basieren Sie die Schwellenwerte, die Sie zuweisen, auf Ihren bisherigen Erfahrungen bei der Verwaltung der Infrastruktur und überprüfen Sie sie anhand der Tests, die Sie im Rahmen Ihrer Testmethoden durchführen.

Ausführliche Anleitungen zu Warnungsanwendungsfällen und anderen Überlegungen finden Sie unter Entwerfen einer zuverlässigen Überwachungs- und Warnungsstrategie.

Azure-Erleichterung

  • Azure Monitor ist eine umfassende Überwachungslösung zum Sammeln, Analysieren und Reagieren auf Überwachungsdaten aus Ihren Cloud- und lokalen Umgebungen.

  • Log Analytics ist ein Tool in der Azure-Portal, mit dem Sie Protokollabfragen für Daten im Log Analytics-Arbeitsbereich bearbeiten und ausführen können.

    Wenn Sie mehrere Arbeitsbereiche verwenden, finden Sie im Leitfaden zur Architektur des Log Analytics-Arbeitsbereichs bewährte Methoden.

  • Application Insights ist eine Erweiterung von Azure Monitor. Es bietet APM-Funktionen.

  • Azure Monitor Insights sind erweiterte Analysetools für bestimmte Azure-Technologien (z. B. VMs, App Services und Container). Diese Tools sind Teil von Azure Monitor und Log Analytics.

  • Azure Monitor für SAP-Lösungen ist ein Azure-Überwachungstool für SAP-Landschaften, die in Azure ausgeführt werden.

  • Azure Policy unterstützt Sie bei der Erzwingung von Organisationsstandards sowie bei der Bewertung der Compliance im großen Stil.

  • Azure Monitor-Baselinewarnungen (AMBA) ist ein zentrales Repository mit Warnungsdefinitionen, die Kunden und Partner verwenden können, um ihre Beobachtbarkeit durch die Einführung von Azure Monitor zu verbessern.

Checkliste für operationale Exzellenz

Weitere Informationen finden Sie im vollständigen Satz von Empfehlungen.