Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Eine zuverlässige Arbeitsauslastung erfüllt konsequent ihre definierten Zuverlässigkeitsziele. Es sollte etablierte Resilienzziele erreichen, idealerweise durch Umgehung von Ereignissen, die die Zuverlässigkeit beeinflussen. Realistischerweise muss eine Arbeitslast jedoch die Auswirkungen solcher Ereignisse tolerieren und steuern und den Betrieb auf einem vordefinierten Niveau während einer aktiven Fehlfunktion aufrechterhalten. Selbst im Katastrophenfall muss eine zuverlässige Arbeitsbelastung innerhalb eines festgelegten Zeitraums in einem bestimmten Zustand wiederhergestellt werden, wie es zwischen den Beteiligten vereinbart wurde. Ein Plan zur Reaktion auf Vorfälle, mit dem Sie schnelle Erkennung und Wiederherstellung erreichen können, ist von entscheidender Bedeutung.
Berücksichtigen Sie beim Entwerfen einer Arbeitsauslastung, wie Entscheidungen auf der Grundlage der Zuverlässigkeitsentwurfsgrundsätze und der Empfehlungen in der Prüfliste zur Entwurfsüberprüfung für Zuverlässigkeit die Ziele und Optimierungen anderer Säulen beeinflussen können. Einige Zuverlässigkeitsentscheidungen profitieren von einer Säule, stellen aber Kompromisse für eine andere dar. In diesem Artikel werden beispielhafte Kompromisse beschrieben, auf die ein Workload-Team beim Entwerfen von Architektur und Betrieb der Workloads für Zuverlässigkeit stoßen könnte.
Zuverlässigkeitskompromisse bei der Sicherheit
Kompromiss: Erhöhte Arbeitsauslastungsfläche. Die Sicherheitssäule priorisiert einen reduzierten und enthaltenen Oberflächenbereich, um Angriffsvektoren zu minimieren und die Verwaltung von Sicherheitskontrollen zu verringern.
Zuverlässigkeit wird häufig über die Replikation auf Komponentenebene, auf Datenebene oder sogar über die geografische Ebene abgerufen. Replikas erhöhen dem Design nach die Oberfläche der Arbeitslast. Aus Sicherheitsperspektive wird eine reduzierte und enthaltene Fläche bevorzugt, um potenzielle Angriffsvektoren zu minimieren und die Verwaltung von Sicherheitskontrollen zu optimieren.
Ebenso erhöhen Notfallwiederherstellungslösungen wie Sicherungen die Fläche einer Workload. Sie sind jedoch häufig von der Laufzeit der Workload isoliert. Diese Lösungen erfordern die Implementierung zusätzlicher Sicherheitskontrollen, die für den Notfallwiederherstellungsansatz spezifisch sein können.
Zuverlässigkeitsziele können zusätzliche Architekturkomponenten erfordern, z. B. einen Nachrichtenbus, der Anforderungen durch Entkoppelung robust macht. Jede neue Komponente muss gesichert werden, möglicherweise in Der Weise, die noch nicht im System verwendet wird. Der unterstützende Code und die Bibliotheken erweitern auch den Oberflächenbereich der Anwendung.
Tradeoff: Umgehung von Sicherheitskontrollen. Das Sicherheitskonzept empfiehlt, dass alle Kontrollen sowohl in normalen als auch in hochbelasteten Systemen aktiv bleiben.
Wenn bei einer Workload ein Zuverlässigkeitsereignis auftritt, das unter aktiver Reaktion auf Vorfälle behandelt wird, kann dringender Druck für Arbeitsauslastungsteams entstehen, um Sicherheitskontrollen zu umgehen, die für den Routinezugriff optimiert sind.
Problembehandlungsaktivitäten können dazu führen, dass das Team Sicherheitsprotokolle vorübergehend deaktiviert, sodass ein bereits beanspruchtes System möglicherweise zusätzlichen Sicherheitsrisiken ausgesetzt ist. Es besteht auch das Risiko, dass die Sicherheitsprotokolle nicht umgehend wieder hergestellt werden.
Granulare Implementierungen von Sicherheitssteuerelementen, wie benutzerdefinierte rollenbasierte Zugriffssteuerungszuweisungen oder detaillierte Firewallregeln, führen zu einer erhöhten Konfigurationskomplexität und Sensibilität, was das Risiko von Fehlkonfigurationen erhöht. Die Reduzierung dieser potenziellen Zuverlässigkeitswirkung durch die Verwendung allgemeiner Regeln erodiert alle drei Zero Trust-Architekturprinzipien.
Tradeoff: Alte Softwareversionen. Die Säule für Sicherheit fördert einen Ansatz, bei dem man mit den neuesten Sicherheitspatches von Anbietern "auf dem aktuellen Stand bleibt".
Das Anwenden von Sicherheitspatches oder Softwareupdates kann möglicherweise die Zielkomponente beeinträchtigen und sie während des Softwarewechsels unzugänglich machen. Das Verzögern oder Vermeiden des Installierens von Patches kann die potenziellen Risiken für die Zuverlässigkeit reduzieren, lässt das System jedoch ungeschützt gegen sich entwickelnde Bedrohungen.
Die vorstehende Überlegung gilt auch für den Arbeitslastcode. Sie gilt beispielsweise für Anwendungscode, der alte Bibliotheken und Container verwendet, die alte Basisimages verwenden. Wenn das Aktualisieren und Bereitstellen von Anwendungscode als nichtmitigiertes Zuverlässigkeitsrisiko angesehen wird, wird die Anwendung im Laufe der Zeit zusätzlichen Sicherheitsrisiken ausgesetzt.
Zuverlässigkeitskonflikt mit Kostenoptimierung
Kompromiss: Erhöhte Implementierungsredundanz oder Ressourcenverschwendung. Eine kostenoptimierte Arbeitslast minimiert ungenutzte Ressourcen und vermeidet Überprovisionierung.
Replikation ist eine Schlüsselstrategie für Zuverlässigkeit. Insbesondere besteht die Strategie darin, über genügend Replikation zu verfügen, um eine bestimmte Anzahl gleichzeitiger Knotenfehler zu behandeln. Die Toleranz für mehr gleichzeitige Knotenfehler erfordert eine höhere Replikatanzahl, was zu höheren Kosten führt.
Die Überbereitstellung ist ein weiteres Verfahren, um unerwartete Lasten auf einem System zu absorbieren, z. B. während eines Failoverereignisses, was andernfalls zu einem Zuverlässigkeitsproblem führen könnte. Alle nicht genutzten Überkapazitäten werden als verschwendet betrachtet.
Wenn eine Workload eine Notfallwiederherstellungslösung verwendet, die den Wiederherstellungspunkt- und Zeitzielen der Workload übermäßig gerecht wird, führt der Überschuss zu höheren Kosten aufgrund von Abfällen.
Workloadbereitstellungen selbst sind eine potenzielle Quelle für Auswirkungen auf die Zuverlässigkeit, und diese werden häufig durch Redundanz während der Bereitstellung durch eine Bereitstellungsstrategie wie Blau/Grün verringert. Diese vorübergehende Duplizierung von Ressourcen während der sicheren Bereitstellung erhöht in der Regel die Gesamtkosten der Workload während dieser Zeiträume. Die Kosten steigen mit der Häufigkeit der Bereitstellungen.
Tradeoff: Erhöhte Investitionen in Vorgänge, die nicht den funktionalen Anforderungen entsprechen. Ein Ansatz zur Kostenoptimierung ist die Bewertung des Werts, der von jeder bereitgestellten Lösung bereitgestellt wird.
Um Zuverlässigkeit zu erreichen, erfordert ein System eine Beobachtbarkeit. Überwachungssysteme erfordern die Übermittlung und Erfassung von Beobachtbarkeitsdaten. Da die Überwachungsfunktionen steigen, steigt die Häufigkeit und das Datenvolumen, was zu zusätzlichen Kosten führt.
Die Zuverlässigkeitsanforderungen in Workloads erfordern Tests und Übungen. Das Entwerfen und Ausführen von Tests benötigt Zeit und erfordert möglicherweise spezialisierte Werkzeuge, was Kosten verursacht.
Workloads mit hohen Zuverlässigkeitszielen verfügen häufig über einen schnellen Reaktionsprozess, bei dem technische Teammitglieder Teil eines formalen Bereitschaftsdienstes sein müssen. Dieser Prozess verursacht zusätzliche Personalkosten und verlorene Chancenkosten aufgrund der Aufmerksamkeit, die an anderer Stelle gerichtet werden könnte. Außerdem entstehen potenzielle Werkzeugkosten für die Verwaltung des Prozesses.
Supportverträge mit Technologieanbietern sind eine wichtige Komponente einer zuverlässigen Arbeitsauslastung. Supportverträge, die nicht genutzt werden, weil das Supportniveau überdimensioniert ist, verursachen Verschwendung.
Zuverlässigkeitsabwägungen bei Operational Excellence
Kompromiss: Erhöhte betriebliche Komplexität. Operational Excellence, wie Zuverlässigkeit selbst, priorisiert Einfachheit.
Zuverlässigkeit erhöht in der Regel die Komplexität einer Arbeitsauslastung. Da sich die Komplexität einer Arbeitsauslastung erhöht, können die operativen Elemente der Arbeitsauslastung auch erhöht werden, um die hinzugefügten Komponenten und Prozesse im Hinblick auf die Bereitstellungskoordination und den Konfigurationsoberflächenbereich zu unterstützen.
Eine umfassende Überwachungsstrategie für eine Arbeitsauslastung ist ein wichtiger Bestandteil der operativen Exzellenz. Die Einführung zusätzlicher Komponenten in eine Architektur zur Implementierung von Zuverlässigkeitsentwurfsmustern führt dazu, dass mehr Datenquellen verwaltet werden können, wodurch die Komplexität der Implementierung verteilter Ablaufverfolgung und Observierbarkeit erhöht wird.
Die Verwendung mehrerer Regionen zur Überwindung von Kapazitätseinschränkungen für einzelne Regionen und/oder die Implementierung einer aktiven/aktiven Architektur erhöht die Komplexität des Betriebsmanagements der Workload. Diese Komplexität wird durch die Notwendigkeit eingeführt, mehrere Regionen zu verwalten und die Datenreplikation zwischen ihnen zu verwalten.
Kompromiss: Mehr Aufwand zur Generierung von Teamwissen und Bewusstsein. Die Säule "Operational Excellence" empfiehlt, ein Dokumentations-Repository für Verfahren und Topologien aufzubewahren und aufrechtzuerhalten.
Da eine Arbeitsauslastung durch das Hinzufügen von Zuverlässigkeitskomponenten und -mustern robuster wird, dauert es mehr Zeit, um betriebstechnische Verfahren und Artefaktdokumentation zu verwalten.
Die Schulung wird komplexer, da sich die Anzahl der Komponenten in der Arbeitsauslastung erhöht. Diese Komplexität wirkt sich auf die Onboardingzeit aus. Die Komplexität erhöht auch das Wissen, das erforderlich ist, um Produkt-Roadmaps und die neuesten Anleitungen auf Serviceebene nachzuverfolgen.
Abwägungen bei der Zuverlässigkeit und effizienten Leistung
Kompromiss: Erhöhte Latenz. Die Leistungseffizienz erfordert ein System, um Leistungsziele für Benutzer- und Datenflüsse zu erreichen.
Zuverlässigkeitsmuster enthalten häufig die Datenreplikation, um Fehlfunktionen von Replikaten zu überstehen. Replikation führt zusätzliche Latenz für zuverlässige Datenschreibvorgänge ein, die einen Teil des Leistungsbudgets für einen bestimmten Benutzer oder Datenfluss verbraucht.
Zuverlässigkeit verwendet manchmal verschiedene Formen des Ressourcenausgleichs, um Lasten auf gesunde Replikas zu verteilen oder umzuverteilen. Eine dedizierte Komponente, die für den Ausgleich verwendet wird, wirkt sich in der Regel auf die Leistung der Anforderung oder des Prozesses aus, die ausgeglichen wird.
Das Verteilen von Komponenten über geografische Grenzen oder Verfügbarkeitszonen hinweg, um eine bereichsbezogene Auswirkung zu überleben, führt zur Netzwerklatenz in der Kommunikation zwischen Komponenten, die diese Verfügbarkeitsgrenzen umfassen.
Umfangreiche Prozesse werden verwendet, um die Gesundheit einer Arbeitslast zu überwachen. Obwohl die Überwachung für die Zuverlässigkeit von entscheidender Bedeutung ist, kann sich die Instrumentierung auf die Systemleistung auswirken. Da sich die Observability erhöht, kann die Leistung sinken.
Kompromiss: Erhöhte Überbereitstellung. Die Säule "Leistungseffizienz" entmutigt die Überbereitstellung, sondern empfiehlt die Verwendung von nur ausreichend Ressourcen, um die Nachfrage zu erfüllen.
Automatische Skalierungsvorgänge sind nicht sofort wirksam und können daher nicht zuverlässig eine plötzliche und dramatische Nachfragespitze bewältigen, die nicht geformt oder geglättet werden kann. Daher ist die Überbereitstellung über größere Instanzen oder mehr Instanzen eine kritische Zuverlässigkeitstaktik, um die Verzögerung zwischen Bedarfssignal und Angebotserstellung zu berücksichtigen, um Brüche zu absorbieren. Nicht verwendete Kapazität wirkt den Leistungseffizienz-Zielen entgegen.
Manchmal kann eine Komponente nicht als Reaktion auf Nachfrage skaliert werden, und diese Nachfrage ist nicht vollständig vorhersehbar. Wenn Sie große Instanzen verwenden, um den schlimmsten Fall abzudecken, führt dies zu Überprovisionierungsverschwendung in Situationen, die nicht unter diesen Anwendungsfall fallen.
Verwandte Links
Erkunden Sie die Kompromisse für die anderen Säulen: