Freigeben über


Überwachen einer Cloudumgebung

Sie benötigen Observability ihrer Cloudumgebung, um sicherzustellen, dass Ihre Workloads reibungslos ausgeführt werden, unabhängig davon, ob Sie Geschäftsbesitzer, Plattformbesitzer oder Anwendungsbesitzer sind. Sie müssen wissen, ob:

  • Ihre Anwendungen sind verfügbar und erfüllen die Erwartungen Ihrer Kunden.
  • Sie verfügen über Sicherheitsbedrohungen, die eine Untersuchung erfordern.
  • Ihre Verbrauchskosten liegen innerhalb des erwarteten Bereichs.

Die Überwachung ist der Prozess zum Sammeln, Analysieren und Handeln von Telemetrie, der die Integrität Ihrer Plattform, Ressourcen und Anwendungen angibt. Eine effektive Überwachungsumgebung umfasst Ihre gesamte Cloud-Umgebung, die Ressourcen in mehreren Clouds und lokalen Umgebungen umfassen kann.

Observability ist eine Eigenschaft eines Systems, das misst, wie gut seine internen Zustände von seinen externen Ausgaben abgeleitet werden können. Sie müssen Dienste und Prozesse bereitstellen, um Ihre Cloudumgebung zu überwachen. Und Sie müssen die Möglichkeit haben, das Verhalten Ihrer Dienste, die in der Cloud ausgeführt werden, zu beobachten und zu verstehen.

Vorteile der Überwachung

Investieren Sie in Ihre Überwachungsumgebung, um die folgenden Vorteile in mehreren Aspekten Ihrer Cloud zu erzielen:

  • Verfügbarkeit und Leistung: Überwachen Sie Ressourcen, um sicherzustellen, dass Ihre Clouddienste und -anwendungen verfügbar sind und wie erwartet ausgeführt werden. Um Probleme zu identifizieren und darauf zu reagieren, bevor sie sich auf Benutzer auswirken, verfolgen Sie wichtige Metriken, und konfigurieren Sie Warnungsregeln.

  • Kostenoptimierung: Verwenden Sie die Überwachung, um den Ressourceneinsatz nach Bedarf nachzuverfolgen und Ressourcen zu skalieren. Dieser Ansatz trägt dazu bei, überlastete und nicht verwendete Ressourcen zu verhindern, wodurch die Kosten optimiert werden. Die Überwachung kann Sie auch bei Kostenüberläufen oder unerwarteten Auslastungsspitzen identifizieren und benachrichtigen.

  • Compliance: Verwenden Sie die Überwachung, um Protokolle und Aufzeichnungen von Aktivitäten zu verwalten, die sicherstellen, dass Clouddienste Richtlinien und Vorschriften einhalten. Berichte, die diese Daten verwenden, können bei regelmäßigen Prüfungen und Complianceprüfungen helfen.

  • Sicherheit: Implementieren Sie eine kontinuierliche Überwachung, um Sicherheitsbedrohungen und Sicherheitsrisiken zu erkennen, damit Sie sofort reagieren können, um Daten und Ressourcen zu schützen. Sie können auch gesammelte Daten zur Bedrohungserkennung und -reaktion analysieren.

Überwachungsplattformen

Eine effektive Überwachungsstrategie umfasst alle Plattformen in Ihrer Computerumgebung. Zusätzlich zu Azure verfügen Sie möglicherweise über lokale, multicloud- und Edgeressourcen. Jede Ressource erfordert die gleichen Überwachungsstufen. Befolgen Sie das Cloud Adoption Framework für Azure-Anleitungen, und fügen Sie die Überwachung in Ihre einheitliche Betriebsstrategie ein. In dieser Strategie hosten die primären Cloud Ihre Überwachungstools und andere Verwaltungstools. Die Überwachungstools überwachen alle Ressourcen auf allen Plattformen.

Konzeptionelles Diagramm, das die einheitliche Betriebsstrategie zeigt.

Arten der Überwachung

Die Überwachung ist eine facettenreiche Disziplin, die eine Kombination aus Tools, Prozessen und Praktiken erfordert. In der folgenden Tabelle sind verschiedene Arten von Überwachungen aufgeführt. Verschiedene Dienste und Features bieten möglicherweise verschiedene Kombinationen dieser Überwachungstypen. Eine umfassende Überwachungsumgebung umfasst jedoch alle diese Überwachungstypen auf allen Plattformen in Ihrer Computerumgebung.

Typ Beschreibung
Infrastruktur Die Infrastrukturüberwachung umfasst die Leistung und Verfügbarkeit von Cloudressourcen, z. B. virtuelle Computer, Speicherressourcen und Netzwerke. Diese Art von Überwachung trägt dazu bei, sicherzustellen, dass die zugrunde liegende Infrastruktur optimal funktioniert, wodurch die Verfügbarkeit und Leistung der Anwendungen gewährleistet wird, die darauf angewiesen sind.
Anwendungsleistungsüberwachung (APM) APM überwacht die Leistung und Verfügbarkeit von Anwendungen, die in der Cloud ausgeführt werden. Dabei werden Metriken wie Antwortzeiten, Fehlerraten und Transaktionsvolumen nachverfolgt. APM identifiziert Leistungsengpässe und trägt dazu bei, dass Anwendungen den Erwartungen der Benutzer entsprechen.
Datenbank Die Datenbanküberwachung verfolgt die Leistung, Verfügbarkeit und Ressourcennutzung von Clouddatenbanken. Zu den wichtigsten Metriken gehören die Abfrageleistung, die Indexverwendung und der Sperrstatus.
Network Die Netzwerküberwachung verfolgt die Leistung und Verfügbarkeit von Netzwerkkomponenten in der Cloudumgebung. Zu den Metriken gehören Bandbreitennutzung, Latenz und Paketverlust.
Sicherheit Die Sicherheitsüberwachung verfolgt und analysiert Sicherheitsereignisse und Sicherheitsrisiken innerhalb der Cloudumgebung, einschließlich unbefugtem Zugriff, Schadsoftware und Complianceverletzungen. Effektive Sicherheitsüberwachung trägt zum Schutz vertraulicher Daten bei, stellt die Einhaltung gesetzlicher Vorschriften sicher und verhindert kostspielige Sicherheitsverletzungen.
Kompatibilität Die Complianceüberwachung trägt dazu bei, sicherzustellen, dass die Cloudumgebung gesetzlichen und branchenspezifischen Standards entspricht. Es verfolgt Konfigurationen, Zugriffssteuerungen und Verfahren zur Datenverarbeitung, um die Einhaltung relevanter Vorschriften sicherzustellen.
Kosten Die Kostenüberwachung verfolgt Cloudausgaben und Ressourcennutzung, um Kosteneinsparungen zu identifizieren und Budgetüberläufe zu verhindern. Es überwacht den Ressourceneinsatz, identifiziert nicht benötigte Ressourcen und optimiert Ressourcenkonfigurationen, um Kosten zu senken.

Gemeinsame Verantwortung

In einer lokalen Umgebung sind Sie für alle Aspekte der Überwachung verantwortlich, da Sie alle Computerressourcen besitzen und verwalten. In der Cloud teilen Sie diese Verantwortung mit Ihrem Cloudanbieter. Je nachdem, welche Art von Bereitstellungsmodell Sie auswählen, können die Verantwortlichkeiten für die Überwachung verschiedener Ebenen des Cloudstapels von Ihnen an Ihren Cloudanbieter übertragen.

In einer Infrastruktur als Dienstbereitstellung (IaaS) überwacht der Cloudanbieter die zugrunde liegende Cloudplattform, z. B. die physische Infrastruktur und Virtualisierungsebene. Außerdem überwachen Sie das Betriebssystem, die Anwendungen und Daten, die auf den virtuellen Computern ausgeführt werden, die Sie auf der Cloudplattform bereitstellen. Wenn das Bereitstellungsmodell den Stapel hochzieht, übernimmt der Cloudanbieter mehr Verantwortung für die Überwachung der Umgebung. Diese Verantwortung kulminiert in einer SaaS-Bereitstellung (Software as a Service), da Sie die Überwachungsverantwortung für den gesamten Stapel, einschließlich der Anwendung und der Daten, an den Cloudanbieter übertragen.

Diagramm, das gemeinsame Verantwortlichkeiten für die Überwachung in der Cloud zeigt.

Sie können Überwachungstools vom Cloudanbieter verwenden, um Ihre Schichten des Stapels zu überwachen, aber Sie sind dafür verantwortlich, diese Tools zu konfigurieren und die daten zu analysieren, die sie sammeln. Sie müssen den Zugriff auf verschiedene Mitglieder Ihrer Organisation gewähren und Dashboards und Warnungen erstellen, damit sie wichtige Informationen unterscheiden können. Möglicherweise müssen Sie diese Komponenten auch in andere Tools und Ticketingsysteme integrieren, die Ihre Organisation verwendet.

Der Cloudanbieter muss die gleichen Diensttypen für die Ebenen des Stapels ausführen, den Sie Ihren internen Kunden bereitstellen. Sie müssen den Status und die Leistung der Plattform, die sie ihnen kontraktieren, kontinuierlich überwachen. Sie bieten Ihnen Dashboards und Warnungen, um Sie proaktiv über Dienstprobleme zu informieren. Ähnlich wie Ihre internen Kunden benötigen Sie keine Einblicke in die Ungenauigkeiten, wie der Cloudanbieter seine Plattform überwacht, nur, dass er die Vereinbarungen auf Serviceebene erfüllt, die Sie mit ihnen vertragen.

Rollen und Zuständigkeiten

Die meisten Unternehmensorganisationen verfügen über ein zentralisiertes Betriebsteam, das den Gesamtzustand und die Leistung der Cloudumgebung überwacht.

Dieses Team in der Regel:

  • Legt die Strategien für das gesamte Unternehmen fest.
  • Führt eine zentrale Konfiguration der Überwachungsumgebung aus.
  • Delegiert Berechtigungen an Projektbeteiligte in Ihrer Organisation, die Zugriff auf die Überwachungsdaten benötigen, die sich auf ihre Anwendungen und Dienste beziehen.

Organisationen verfügen über mehrere Rollen, die die Überwachungsumgebung verwalten und Zugriff auf Überwachungsdaten benötigen, um ihre Aufgabenfunktionen auszuführen. Jede Rolle hat unterschiedliche Anforderungen, um Daten basierend auf ihren jeweiligen Zuständigkeiten zu überwachen. Je nach Größe Ihrer Organisation verfügen Sie möglicherweise über mehrere Personen, die jede Rolle ausfüllen, oder Sie haben eine Einzelperson, die mehrere Rollen ausfüllt.

Einzelne Organisationen können Zuständigkeiten unterschiedlich verteilen. Die folgende Tabelle zeigt ein Beispiel für die Rollen und Zuständigkeiten für eine typische Organisation.

Role Beschreibung
Cloudarchitekt Der Cloudarchitekt entwickelt und überwacht die Cloudinfrastruktur, um sicherzustellen, dass sie die Geschäftsziele der Organisation erfüllt. Der Cloudarchitekt konzentriert sich auf Zuverlässigkeit, Sicherheit und Skalierbarkeit der Cloudarchitektur. Sie erfordern eine allgemeine Telemetrie, um einen ganzheitlichen Blick auf den digitalen Bereich zu erhalten. Diese Telemetrie umfasst Ressourcennutzungsmetriken, APM-Metriken, Kosten- und Abrechnungserkenntnisse und Complianceberichte.
Plattformtechniker*in Der Plattformtechniker erstellt und verwaltet die Plattform, die Entwickler für die Bereitstellung ihrer Anwendungen verwenden. Der Plattformtechniker kann kontinuierliche Integrations- und Kontinuierliche Bereitstellungspipelinen (CI/CD) erstellen, Cloudinfrastruktur als Code (IaC) verwalten und die Skalierbarkeit und Zuverlässigkeit der Plattform sicherstellen. Der Plattformtechniker erfordert Telemetrie über den Betriebsstatus der Plattform. Diese Telemetrie umfasst Containerleistungsmetriken, Orchestrierungsprotokolle, IaC-Validierung und Dienstverfügbarkeit.
Systemadministrator Der Systemadministrator verwaltet und verwaltet Server, Betriebssysteme und andere Infrastrukturkomponenten in der Cloud. Sie führen Sicherungen aus, beheben Probleme und stellen sicher, dass Systeme auf dem neuesten Stand sind. Der Systemadministrator erfordert Telemetrie auf Server- und Betriebssystemebene, einschließlich CPU, Arbeitsspeicher und Datenträgernutzung, Netzwerkleistung und Systemprotokolle.
Security Engineer Der Sicherheitstechniker implementiert und verwaltet Sicherheitsmaßnahmen, um Daten und Anwendungen vor Bedrohungen zu schützen. Der Sicherheitstechniker verarbeitet alles von identitätsverwaltung bis hin zur Bedrohungserkennung und -reaktion. Sie verwenden Telemetrie zu Sicherheitsereignissen, einschließlich Zugriffsprotokollen, Warnungen zur Bedrohungserkennung, Sicherheitsrisikobewertungen und Compliancemetriken.
Netzwerkadministrator Der Netzwerkadministrator verwaltet und verwaltet das Cloudnetzwerk, um sicherzustellen, dass Daten sicher und effizient zwischen Servern, Anwendungen und Benutzern fließen. Der Netzwerkadministrator verarbeitet Netzwerkkonfigurationen, überwacht die Leistung und implementiert Sicherheitsmaßnahmen. Sie erfordern netzwerkorientierte Telemetrie, einschließlich Netzwerkdatenverkehranalyse, Latenzmessungen, Paketverlust und Firewallprotokolle.
Datenbankadministrator (DBA) Die DBA verwaltet und verwaltet Datenbanken, um die Datenintegrität, Leistung und Verfügbarkeit sicherzustellen. Die DBA verarbeitet Datenbanksicherungen und -wiederherstellungen und optimiert Abfragen zur Effizienz. Sie verwenden Telemetrie zu Datenbankleistung und Integrität, einschließlich Abfrageleistungsmetriken, Datenbankantwortzeiten, Transaktionsprotokolle und Sicherungs- oder Wiederherstellungsstatus.
Entwickler Entwickler entwirft, schreibt, testet und verwaltet die Software, die auf Cloudplattformen ausgeführt wird. Der Entwickler erstellt Features und behebt Fehler, um sicherzustellen, dass die Anwendung sicher bleibt und gut funktioniert. Sie erfordern anwendungsspezifische Telemetrie, einschließlich Fehlerraten, Latenz, Reaktionszeiten, Benutzerverhaltensanalysen und Featurenutzungsmetriken.

Umsetzung in Azure

Azure verfügt über viele Dienste, die die verschiedenen Arten von Überwachung unterstützen, die Sie in Ihrer Cloudumgebung benötigen. Jeder Dienst zielt auf eine oder mehrere Rollen ab. Kombinieren Sie Dienste, um die Features bereitzustellen, die Sie für eine umfassende Überwachungsumgebung benötigen.

Dienst Beschreibung type Rollen
Azure Monitor Azure Monitor befindet sich im Zentrum des Azure-Überwachungsökosystems. Es ist eine umfassende Überwachungslösung, mit der Sie Überwachungsdaten aus Ihrer Cloud und lokalen Umgebungen sammeln, analysieren und darauf reagieren können. Azure Monitor bietet eine vollständige Überwachung Ihrer Infrastruktur, Ihres Netzwerks und Ihrer Anwendungen. Es bietet auch eine Datenplattform und Kernfunktionen, z. B. Datenanalyse, Visualisierung und Warnung für andere Dienste. Infrastruktur
Datenbank
compliance
Cloudarchitekt,
Plattformtechniker,
Systemadministrator
DBA
Application Insights Application Insights ist ein Feature von Azure Monitor, das APM-Überwachung für Ihre Cloudanwendungen bereitstellt. APM Entwickler
Azure Network Watcher Die Netzwerküberwachung bietet Überwachungs- und Visualisierungsfunktionen für Netzwerkressourcen in Azure. Verwenden Sie diesen Dienst, um Metriken zu überwachen, zu diagnostizieren und anzuzeigen. Sie können auch Protokolle für Ressourcen in einem virtuellen Azure-Netzwerk aktivieren oder deaktivieren. Network Netzwerkadministrator
Microsoft Sentinel Microsoft Sentinel ist eine Cloud-native Security Information Event Management (SIEM)- und Sicherheits-Orchestrierungslösung für automatisierte Reaktion (SOAR). Es erfasst Sicherheitstelemetrie aus Ihren Azure-Ressourcen und anderen Komponenten, um cyberbedrohungserkennung, Untersuchung, Reaktion und proaktive Suche bereitzustellen. Sicherheit Security Engineer
Microsoft Defender XDR Defender XDR umfasst Microsoft-Sicherheitslösungen, die systemeigene Azure-Plattform, Client- und Server-Microsoft-Betriebssysteme sowie Anwendungen wie Office 365, Exchange Online und SharePoint in Microsoft 365 sind. Jede Sicherheitslösung verwendet KI und maschinelles Lernen, um Telemetrie zu korrelieren und festzustellen, ob Untersuchungen erforderlich sind. Wenn sie ein inakzeptables Verhalten erkennen, ergreifen sie Maßnahmen, um Unterbrechungen zu verhindern. Sicherheit Security Engineer
Microsoft Cost Management Die Kostenverwaltung ist eine Reihe von Tools, mit denen Sie Ihre Microsoft Cloud-Kosten analysieren, überwachen und optimieren können. Die Kostenverwaltung ist für alle Personen verfügbar, die Zugriff auf ein Abrechnungskonto, ein Abonnement, eine Ressourcengruppe oder eine Verwaltungsgruppe haben. Kosten Cloudarchitekt
Azure Service Health Der Dienststatus stellt einen Integritätsstatus der Dienste bereit, auf die Ihre Azure-Ressourcen angewiesen sind. Es kann Sie über alle Dienstausfälle informieren und eine personalisierte Ansicht der Integrität Ihrer Azure-Dienste und -Regionen bereitstellen. Infrastruktur Cloudanbieter