Architekturstrategien für Selbstheilung und Selbsterhaltung

Gilt für diese Empfehlung der Azure Well-Architected Framework-Zuverlässigkeitsprüfliste:

RE:07	Stärken Sie die Resilienz Ihrer Arbeitsauslastung, indem Sie Selbsterhaltungs- und Selbstheilungsmaßnahmen implementieren. Verwenden Sie integrierte Features und bewährte Cloudmuster, damit Ihre Arbeitsauslastung während und bei Vorfällen funktionsfähig bleibt.

In diesem Leitfaden werden die Empfehlungen zum Erstellen von Selbsterhaltungs- und Selbstheilungsfunktionen in Ihrer Anwendungsarchitektur beschrieben, um die Zuverlässigkeit zu optimieren.

Selbsterhaltungsfunktionen fügen Ihrer Workload Resilienz hinzu. Sie verringern die Wahrscheinlichkeit eines vollständigen Ausfalls und ermöglichen es Ihrer Workload, unter üblichen Bedingungen oder in einem degradierten Zustand zu arbeiten, wenn Fehler auftreten. Selbstheilungsfunktionen helfen Ihnen, Ausfallzeiten zu vermeiden, indem sie Fehler erkennen und automatisch korrigieren, um auf Fehler zu reagieren.

Definitionen

Begriff	Definition
Selbstheilung	Die Fähigkeit Ihrer Workload, Probleme automatisch zu beheben, indem betroffene Komponenten wiederhergestellt werden und bei Bedarf auf eine redundante Infrastruktur umgeschaltet wird.
Selbsterhaltung	Die Fähigkeit Ihrer Arbeitsauslastung, gegen potenzielle Probleme widerstandsfähig zu sein.

Entwurf für Redundanz

Eine der effektivsten Strategien zum Schutz Ihrer Arbeitsauslastung vor Fehlfunktionen besteht darin, Redundanz in alle Komponenten zu integrieren und einzelne Fehlerpunkte zu vermeiden. Indem Sie Komponenten oder die gesamte Workload auf redundante Ressourcen umschalten können, bietet dies eine effiziente Möglichkeit, die meisten Fehler in Ihrem System zu behandeln.

Erstellen Sie Redundanz auf unterschiedlichen Ebenen, berücksichtigen Sie redundante Infrastrukturkomponenten wie Compute, Netzwerk und Speicher, und stellen Sie mehrere Instanzen Ihrer Lösung bereit. Je nach Ihren Geschäftlichen Anforderungen können Sie Redundanz innerhalb einer einzelnen Region oder in allen Regionen erstellen. Sie können auch entscheiden, ob Sie ein aktives oder passives Design benötigen, um Ihre Wiederherstellungsanforderungen zu erfüllen. Weitere Informationen finden Sie unter Architekturstrategien für das Entwerfen von Redundanz - und Architekturstrategien für die Verwendung von Verfügbarkeitszonen und Regionen.

Design zur Selbsterhaltung

Um Ihre Arbeitsauslastung für die selbsterhaltung zu entwerfen, folgen Sie den Entwurfsmustern der Infrastruktur und der Anwendungsarchitektur, um die Ausfallsicherheit Ihrer Workload zu optimieren. Um die Wahrscheinlichkeit eines vollständigen Anwendungsausfalls zu minimieren, erhöhen Sie die Ausfallsicherheit Ihrer Lösung, indem Sie einzelne Fehlerpunkte beseitigen und den Strahlradius von Fehlern minimieren. Die Entwurfsansätze in diesem Artikel bieten mehrere Optionen, um die Resilienz Ihrer Workload zu stärken und die definierten Zuverlässigkeitsziele Ihrer Workload zu erfüllen.

Anleitungen und Muster für den Infrastrukturentwurf

Auf Infrastrukturebene sollte ein redundantes Architekturdesign Ihre kritischen Flüsse unterstützen, indem Ressourcen über Verfügbarkeitszonen oder Regionen hinweg bereitgestellt werden. Implementieren Sie die automatische Skalierung nach Möglichkeit. Die Automatische Skalierung trägt dazu bei, Ihre Arbeitsauslastung vor unerwarteten Brüchen in der Aktivität zu schützen und Ihre Infrastruktur weiter zu stärken.

Verwenden Sie das Deployment Stamps-Muster oder das Bulkhead-Muster, um das Schadensausmaß zu minimieren, wenn Probleme auftreten. Diese Muster helfen, Ihre Arbeitsauslastung verfügbar zu halten, wenn eine einzelne Komponente nicht verfügbar ist. Verwenden Sie die folgenden Anwendungsentwurfsmuster in Kombination mit Ihrer automatischen Skalierungsstrategie.

Bereitstellungsstempelmuster: Bereitstellen, Verwalten und Überwachen einer vielfältigen Gruppe von Ressourcen zum Hosten und Ausführen mehrerer Workloads oder Mandanten. Jede einzelne Kopie wird als Stempel oder manchmal als Diensteinheit, Skalierungseinheit oder Zelle bezeichnet.
Bulkhead-Muster: Partitionieren Sie Dienstinstanzen in verschiedene Gruppen, die als Pools bezeichnet werden, basierend auf den Anforderungen an die Auslastung und Verfügbarkeit des Verbrauchers. Dieses Design hilft beim Isolieren von Fehlern und ermöglicht es Ihnen, die Dienstfunktionalität für einige Verbraucher aufrechtzuerhalten, auch während eines Fehlers.

Anleitungen und Muster für den Anwendungsentwurf

Vermeiden Sie das Erstellen von monolithischen Anwendungen in Ihrem Anwendungsdesign. Verwenden Sie lose gekoppelte Dienste oder Microservices, die über gut definierte Standards miteinander kommunizieren, um das Risiko umfangreicher Probleme zu reduzieren, wenn Störungen mit einer einzelnen Komponente auftreten. Sie können z. B. die Verwendung eines Servicebus standardisieren, um alle asynchrone Kommunikation zu verarbeiten. Durch die Standardisierung von Kommunikationsprotokollen wird sichergestellt, dass das Entwerfen von Anwendungen konsistent und vereinfacht ist, wodurch die Arbeitsauslastung zuverlässiger und einfacher zu beheben ist, wenn Fehlfunktionen auftreten. Wenn dies praktisch ist, sollten Sie die asynchrone Kommunikation zwischen Komponenten statt der synchronen Kommunikation bevorzugen, um Timeoutprobleme zu minimieren.

Verwenden Sie bewährte Muster, um Ihre Designstandards zu entwickeln und Aspekte der Architektur zu vereinfachen. Entwurfsmuster, die die Zuverlässigkeit unterstützen können, finden Sie im Artikel "Zuverlässigkeitsmuster" .

Entwurf mit Blick auf Selbstreparatur

Um Ihre Workload für die Selbstheilung zu entwerfen, implementieren Sie die Fehlererkennung, sodass automatische Antworten ausgelöst und kritische Flüsse ordnungsgemäß wiederhergestellt werden. Ermöglichen Sie die Protokollierung, um operative Einblicke über die Art des Fehlers und den Erfolg der Wiederherstellung zu liefern. Die Ansätze, die Sie zum Erreichen der Selbstheilung für einen kritischen Fluss ergreifen, hängen von den Zuverlässigkeitszielen ab, die für diesen Fluss und die Komponenten und Abhängigkeiten des Flusses definiert sind.

Richtlinien für den Infrastrukturentwurf

Auf Infrastrukturebene sollten Ihre kritischen Flüsse durch einen redundanten Architekturentwurf unterstützt werden, wobei ein automatisiertes Failover für Komponenten aktiviert ist, die sie unterstützen. Sie können automatisiertes Failover für die folgenden Arten von Diensten aktivieren:

Computer-Ressourcen: Azure Virtual Machine Scale Sets und die meisten Plattform-as-a-Service- (PaaS-) Rechendienste können für automatisches Failover konfiguriert werden.
Datenbanken: Relationale Datenbanken können für automatisches Failover mit Lösungen wie Azure SQL-Failoverclustern, AlwaysOn-Verfügbarkeitsgruppen oder integrierten Funktionen mit PaaS-Diensten konfiguriert werden. NoSQL-Datenbanken verfügen über ähnliche Clusteringfunktionen und integrierte Funktionen für PaaS-Dienste.
Speicher: Verwenden Sie redundante Speicheroptionen mit automatischem Failover.

Leitfaden für den Anwendungsentwurf

Neben der Verwendung von Entwurfsmustern , die Zuverlässigkeit unterstützen, umfassen andere Strategien, die Ihnen bei der Entwicklung von Selbstheilungsmechanismen helfen können:

Verwenden Sie Prüfpunkte für lange ausgeführte Transaktionen: Prüfpunkte können Resilienz bieten, wenn ein langer Vorgang fehlschlägt. Wenn der Vorgang neu gestartet wird, z. B. wenn er von einem anderen virtuellen Computer abgerufen wird, kann er vom letzten Prüfpunkt fortgesetzt werden. Erwägen Sie die Implementierung eines Mechanismus, mit dem Statusinformationen über den Vorgang in regelmäßigen Abständen aufgezeichnet werden. Speichern Sie diesen Zustand im dauerhaften Speicher, auf den von jeder Instanz des Prozesses zugegriffen werden kann, der die Aufgabe ausführt. Wenn der Prozess heruntergefahren wird, kann die zuvor ausgeführte Arbeit mithilfe einer anderen Instanz vom letzten Prüfpunkt fortgesetzt werden. Es gibt Bibliotheken, die diese Funktionalität bereitstellen, z. B . NServiceBus und MassTransit. Sie speichern den Zustand auf transparente Weise, wobei die Intervalle mit der Verarbeitung von Nachrichten aus den Warteschlangen im Azure Service Bus abgestimmt sind.
Implementieren Sie automatisierte Selbstheilungsaktionen: Verwenden Sie automatisierte Aktionen, die von Ihrer Überwachungslösung ausgelöst werden, wenn vorab festgelegte Systemzustandsänderungen erkannt werden.

Wenn Ihre Überwachung beispielsweise erkennt, dass eine Web-App nicht auf Anforderungen reagiert, können Sie die Automatisierung über ein PowerShell-Skript erstellen, um den App-Dienst neu zu starten. Abhängig von den Fähigkeiten Ihres Teams und bevorzugten Entwicklungstechnologien verwenden Sie einen Webhook oder eine Funktion, um komplexere Automatisierungsaktionen zu erstellen. Ein Beispiel für die Verwendung einer Funktion zum Reagieren auf eine Datenbank-Drosselung finden Sie in der ereignisbasierten Cloudautomatisierungs-Referenzarchitektur. Die Verwendung automatisierter Aktionen kann Ihnen helfen, schnell wiederherzustellen und die Notwendigkeit eines menschlichen Eingriffs zu minimieren.

Verwenden Sie Selbstheilungsmuster und Features speziell für die Technologie. Anstatt beispielsweise eine fehlerhafte Nachricht in einer Warteschlange wiederholt zu verarbeiten, was die zukünftige Verarbeitung von Nachrichten potenziell blockieren könnte, sollten Sie Wartungsansätze wie die Verwendung einer Dead-Letter-Queue entwerfen. Sie automatisieren das Verschieben problematischer Nachrichten in die Warteschlange, aber die Behandlung der Elemente ist in der Regel eine manuelle Auswertung, gefolgt von einem szenariospezifischen Korrekturschritt.

Implementieren eines Modus für kontrolliertes Nachlassen

Trotz deiner Selbsterhaltungs- und Selbstheilungsmechanismen können immer noch Situationen auftreten, in denen eine oder mehrere Komponenten in dem Maße versagen, dass sie für eine gewisse Zeit nicht mehr verfügbar sind. Im Idealfall kann Ihre Workload in diesen Fällen genug Funktionalität aufrechterhalten, um den Geschäftsbetrieb in einem eingeschränkten Zustand fortzusetzen. Um sicherzustellen, dass dies möglich ist, gestalten und implementieren Sie einen sanften Abbaumodus. Dies ist ein eindeutiger Workflow, der als Reaktion auf fehlgeschlagene Komponenten aktiviert ist. Zu den Überlegungen für Design und Implementierung gehören:

Fehlererkennung und automatisierte Initiierung: Ihre Überwachungs- und Alarmsysteme sollten degradierte und ausgefallene Komponenten erkennen. Verwenden Sie daher diese Signale, um einen Workflow zu erstellen, der bestimmt, wann der Wechsel zum sanften Degradationsmodus erforderlich ist. Der Workflow sollte dann Anrufe von und zu betroffenen Komponenten automatisch auf alternative Komponenten oder ähnliche Optionen umleiten.
Implementieren Sie eine beeinträchtigte Benutzererfahrung: Fügen Sie einen Benachrichtigungsmechanismus für Benutzer in Ihren stufenweisen Degradationsmodus ein, um sicherzustellen, dass sie wissen, welche Funktionen noch verfügbar sind und was sich geändert hat. Dies wird in der Regel in Nachrichten widergespiegelt, die an verschiedene Funktionen der Workload gebunden sind, z. B. ein Popup beim Hinzufügen von Elementen zu einem Warenkorb.
Erstellen Sie alternativen Pfade, um die wesentlichen Funktionen Ihrer Workload abzuschließen: Berücksichtigen Sie die kritischen Abläufe Ihrer Workload, und bestimmen Sie, wie Sie diese Flüsse verwalten können, wenn Kernkomponenten nicht verfügbar sind. Wenn z. B. eine Datenbank deaktiviert ist, kann die Anwendung mithilfe zwischengespeicherter Daten in einen schreibgeschützten Modus wechseln. Um dieses Beispiel weiter zu veranschaulichen, können Benutzer, wenn ein Zahlungsgateway abfällt, mithilfe zwischengespeicherter Daten ihren Warenkorb speichern und den Kauf später abschließen.

Implementieren von Mechanismen für die Behandlung vorübergehender Fehler

Vorübergehende Fehler, wie z. B. Netzwerktimeouts, sind ein häufiges Problem bei Cloud-Workloads. Daher sollten Mechanismen vorhanden sein, um diese zu behandeln, da sie die Ausfallzeiten und den Fehlerbehebungsaufwand beim Betrieb Ihrer Workloads in der Produktion minimieren können. Da die meisten Vorgänge, die aufgrund eines vorübergehenden Fehlers fehlschlagen, erfolgreich sein werden, wenn genügend Zeit vor dem Wiederholen des Vorgangs zulässig ist, ist die Verwendung eines Wiederholungsmechanismus der häufigste Ansatz für den Umgang mit vorübergehenden Fehlern. Berücksichtigen Sie beim Entwerfen Ihrer Wiederholungsstrategie Folgendes:

Eine vollständige Überprüfung der Empfehlungen und Überlegungen finden Sie im Entwurfshandbuch für vorübergehende Fehler .

Implementieren von Hintergrundaufträgen

Hintergrundaufträge sind eine effektive Möglichkeit, die Zuverlässigkeit eines Systems durch Entkoppeln von Aufgaben von der Benutzeroberfläche zu verbessern. Implementieren Sie eine Aufgabe als Hintergrundaufgabe, wenn keine Benutzereingabe oder kein Feedback erforderlich ist und die Reaktionsfähigkeit der Benutzeroberfläche nicht beeinflusst wird.

Häufige Beispiele für Hintergrundaufträge sind:

CPU-intensive Aufträge, z. B. das Ausführen komplexer Berechnungen oder die Analyse von Strukturmodellen.
E/A-intensive Aufträge, z. B. Das Ausführen mehrerer Speichervorgänge oder das Indizieren großer Dateien.
Batchaufträge, z. B. das regelmäßige Aktualisieren von Daten oder die Verarbeitung von Vorgängen zu einem bestimmten Zeitpunkt.
Langlaufende Workflows, wie das Abschließen einer Bestellung oder die Bereitstellung von Diensten und Systemen.

Im Entwurfshandbuch für Hintergrundaufträge finden Sie ausführliche Anleitungen für eine vollständige Überprüfung der Empfehlungen und Überlegungen.

Azure-Unterstützung

Die meisten Azure-Dienste und Client-SDKs enthalten einen Wiederholungsmechanismus. Sie unterscheiden sich jedoch, da jeder Dienst unterschiedliche Merkmale und Anforderungen aufweist, sodass jeder Wiederholungsmechanismus auf einen bestimmten Dienst abgestimmt ist. Weitere Informationen finden Sie unter Empfehlungen für die vorübergehende Fehlerbehandlung.

Verwenden Sie Azure Monitor-Aktionsgruppen für Benachrichtigungen, z. B. E-Mails, Sprachnachrichten oder SMS, und um automatisierte Aktionen auszulösen. Wenn Sie über einen Fehler benachrichtigt werden, lösen Sie ein Azure Automation-Runbook, Azure Event Hubs, eine Azure-Funktion, eine Logik-App oder einen Webhook aus, um eine automatisierte Heilungsaktion auszuführen.

Example

Beispiele für Anwendungsfälle einiger Muster finden Sie im zuverlässigen Web-App-Muster für .NET. Führen Sie die folgenden Schritte aus, um eine Referenzimplementierung bereitzustellen.

Zuverlässigkeitsprüfliste

Lesen Sie die vollständigen Empfehlungen.

Zuverlässigkeitsprüfliste

Feedback

War diese Seite hilfreich?

Last updated on 2026-04-23

Architekturstrategien für Selbstheilung und Selbsterhaltung

Entwurf für Redundanz

Design zur Selbsterhaltung

Anleitungen und Muster für den Infrastrukturentwurf

Anleitungen und Muster für den Anwendungsentwurf

Entwurf mit Blick auf Selbstreparatur

Richtlinien für den Infrastrukturentwurf

Leitfaden für den Anwendungsentwurf

Implementieren eines Modus für kontrolliertes Nachlassen

Implementieren von Mechanismen für die Behandlung vorübergehender Fehler

Implementieren von Hintergrundaufträgen

Azure-Unterstützung

Example

Verwandte Links

Zuverlässigkeitsprüfliste

Feedback

Zusätzliche Ressourcen