Zuverlässigkeitsabwägungen

Eine zuverlässige Arbeitsauslastung erfüllt konsequent ihre definierten Zuverlässigkeitsziele. Es sollte etablierte Resilienzziele erreichen, idealerweise durch Umgehung von Ereignissen, die die Zuverlässigkeit beeinflussen. Realistischerweise muss eine Arbeitslast jedoch die Auswirkungen solcher Ereignisse tolerieren und steuern und den Betrieb auf einem vordefinierten Niveau während einer aktiven Fehlfunktion aufrechterhalten. Selbst im Katastrophenfall muss eine zuverlässige Arbeitsbelastung innerhalb eines festgelegten Zeitraums in einem bestimmten Zustand wiederhergestellt werden, wie es zwischen den Beteiligten vereinbart wurde. Ein Plan zur Reaktion auf Vorfälle, mit dem Sie schnelle Erkennung und Wiederherstellung erreichen können, ist von entscheidender Bedeutung.

Berücksichtigen Sie beim Entwerfen einer Arbeitsauslastung, wie Entscheidungen auf der Grundlage der Zuverlässigkeitsentwurfsgrundsätze und der Empfehlungen in der Prüfliste zur Entwurfsüberprüfung für Zuverlässigkeit die Ziele und Optimierungen anderer Säulen beeinflussen können. Einige Zuverlässigkeitsentscheidungen profitieren von einer Säule, stellen aber Kompromisse für eine andere dar. In diesem Artikel werden beispielhafte Kompromisse beschrieben, auf die ein Workload-Team beim Entwerfen von Architektur und Betrieb der Workloads für Zuverlässigkeit stoßen könnte.

Zuverlässigkeitskompromisse bei der Sicherheit

Kompromiss: Erhöhte Arbeitsauslastungsfläche. Die Sicherheitssäule priorisiert einen reduzierten und enthaltenen Oberflächenbereich, um Angriffsvektoren zu minimieren und die Verwaltung von Sicherheitskontrollen zu verringern.

Zuverlässigkeit wird häufig über die Replikation auf Komponentenebene, auf Datenebene oder sogar über die geografische Ebene abgerufen. Replikas erhöhen dem Design nach die Oberfläche der Arbeitslast. Aus Sicherheitsperspektive wird eine reduzierte und enthaltene Fläche bevorzugt, um potenzielle Angriffsvektoren zu minimieren und die Verwaltung von Sicherheitskontrollen zu optimieren.
Ebenso erhöhen Notfallwiederherstellungslösungen wie Sicherungen die Fläche einer Workload. Sie sind jedoch häufig von der Laufzeit der Workload isoliert. Diese Lösungen erfordern die Implementierung zusätzlicher Sicherheitskontrollen, die für den Notfallwiederherstellungsansatz spezifisch sein können.
Zuverlässigkeitsziele können zusätzliche Architekturkomponenten erfordern, z. B. einen Nachrichtenbus, der Anforderungen durch Entkoppelung robust macht. Jede neue Komponente muss gesichert werden, möglicherweise in Der Weise, die noch nicht im System verwendet wird. Der unterstützende Code und die Bibliotheken erweitern auch den Oberflächenbereich der Anwendung.

Tradeoff: Umgehung von Sicherheitskontrollen. Das Sicherheitskonzept empfiehlt, dass alle Kontrollen sowohl in normalen als auch in hochbelasteten Systemen aktiv bleiben.

Wenn bei einer Workload ein Zuverlässigkeitsereignis auftritt, das unter aktiver Reaktion auf Vorfälle behandelt wird, kann dringender Druck für Arbeitsauslastungsteams entstehen, um Sicherheitskontrollen zu umgehen, die für den Routinezugriff optimiert sind.
Problembehandlungsaktivitäten können dazu führen, dass das Team Sicherheitsprotokolle vorübergehend deaktiviert, sodass ein bereits beanspruchtes System möglicherweise zusätzlichen Sicherheitsrisiken ausgesetzt ist. Es besteht auch das Risiko, dass die Sicherheitsprotokolle nicht umgehend wieder hergestellt werden.
Granulare Implementierungen von Sicherheitssteuerelementen, wie benutzerdefinierte rollenbasierte Zugriffssteuerungszuweisungen oder detaillierte Firewallregeln, führen zu einer erhöhten Konfigurationskomplexität und Sensibilität, was das Risiko von Fehlkonfigurationen erhöht. Die Reduzierung dieser potenziellen Zuverlässigkeitswirkung durch die Verwendung allgemeiner Regeln erodiert alle drei Zero Trust-Architekturprinzipien.

Tradeoff: Alte Softwareversionen. Die Säule für Sicherheit fördert einen Ansatz, bei dem man mit den neuesten Sicherheitspatches von Anbietern "auf dem aktuellen Stand bleibt".

Das Anwenden von Sicherheitspatches oder Softwareupdates kann möglicherweise die Zielkomponente beeinträchtigen und sie während des Softwarewechsels unzugänglich machen. Das Verzögern oder Vermeiden des Installierens von Patches kann die potenziellen Risiken für die Zuverlässigkeit reduzieren, lässt das System jedoch ungeschützt gegen sich entwickelnde Bedrohungen.
Die vorstehende Überlegung gilt auch für den Arbeitslastcode. Sie gilt beispielsweise für Anwendungscode, der alte Bibliotheken und Container verwendet, die alte Basisimages verwenden. Wenn das Aktualisieren und Bereitstellen von Anwendungscode als nichtmitigiertes Zuverlässigkeitsrisiko angesehen wird, wird die Anwendung im Laufe der Zeit zusätzlichen Sicherheitsrisiken ausgesetzt.

Zuverlässigkeitskonflikt mit Kostenoptimierung

Kompromiss: Erhöhte Implementierungsredundanz oder Ressourcenverschwendung. Eine kostenoptimierte Arbeitslast minimiert ungenutzte Ressourcen und vermeidet Überprovisionierung.

Replikation ist eine Schlüsselstrategie für Zuverlässigkeit. Insbesondere besteht die Strategie darin, über genügend Replikation zu verfügen, um eine bestimmte Anzahl gleichzeitiger Knotenfehler zu behandeln. Die Toleranz für mehr gleichzeitige Knotenfehler erfordert eine höhere Replikatanzahl, was zu höheren Kosten führt.
Die Überbereitstellung ist ein weiteres Verfahren, um unerwartete Lasten auf einem System zu absorbieren, z. B. während eines Failoverereignisses, was andernfalls zu einem Zuverlässigkeitsproblem führen könnte. Alle nicht genutzten Überkapazitäten werden als verschwendet betrachtet.
Wenn eine Workload eine Notfallwiederherstellungslösung verwendet, die den Wiederherstellungspunkt- und Zeitzielen der Workload übermäßig gerecht wird, führt der Überschuss zu höheren Kosten aufgrund von Abfällen.
Workloadbereitstellungen selbst sind eine potenzielle Quelle für Auswirkungen auf die Zuverlässigkeit, und diese werden häufig durch Redundanz während der Bereitstellung durch eine Bereitstellungsstrategie wie Blau/Grün verringert. Diese vorübergehende Duplizierung von Ressourcen während der sicheren Bereitstellung erhöht in der Regel die Gesamtkosten der Workload während dieser Zeiträume. Die Kosten steigen mit der Häufigkeit der Bereitstellungen.

Tradeoff: Erhöhte Investitionen in Vorgänge, die nicht den funktionalen Anforderungen entsprechen. Ein Ansatz zur Kostenoptimierung ist die Bewertung des Werts, der von jeder bereitgestellten Lösung bereitgestellt wird.

Um Zuverlässigkeit zu erreichen, erfordert ein System eine Beobachtbarkeit. Überwachungssysteme erfordern die Übermittlung und Erfassung von Beobachtbarkeitsdaten. Da die Überwachungsfunktionen steigen, steigt die Häufigkeit und das Datenvolumen, was zu zusätzlichen Kosten führt.
Die Zuverlässigkeitsanforderungen in Workloads erfordern Tests und Übungen. Das Entwerfen und Ausführen von Tests benötigt Zeit und erfordert möglicherweise spezialisierte Werkzeuge, was Kosten verursacht.
Workloads mit hohen Zuverlässigkeitszielen verfügen häufig über einen schnellen Reaktionsprozess, bei dem technische Teammitglieder Teil eines formalen Bereitschaftsdienstes sein müssen. Dieser Prozess verursacht zusätzliche Personalkosten und verlorene Chancenkosten aufgrund der Aufmerksamkeit, die an anderer Stelle gerichtet werden könnte. Außerdem entstehen potenzielle Werkzeugkosten für die Verwaltung des Prozesses.
Supportverträge mit Technologieanbietern sind eine wichtige Komponente einer zuverlässigen Arbeitsauslastung. Supportverträge, die nicht genutzt werden, weil das Supportniveau überdimensioniert ist, verursachen Verschwendung.