Funktionsweise zuverlässiger Systeme mit DevOps

Microsoft arbeitet seit den frühesten Tagen des kommerziellen Internets mit komplexen Onlineplattformen. Auf dem Weg haben wir einen wesentlichen Satz von Methoden entwickelt, um Systeme verfügbar, gesund und sicher zu halten. Diese Praktiken sind Teil einer größeren Initiative, um eine Live-Websitekultur zu pflegen und zu verbessern.

Live-Websitekultur

Die Live-Websitekultur ist der Schwerpunkt einer Organisation, um die Erfahrung und Zuverlässigkeit der Livewebsite über alles andere zu priorisieren. Schließlich können Kunden heutzutage mit cloud- und internetbasierten Diensten recht einfach über Dienstanbieter hinweg wechseln, was die Bedeutung des Kundenvertrauens erheblich verstärkt. Die Livewebsite muss immer verfügbar sein und für Kunden als zugesagt ausgeführt werden.

Es gibt verschiedene Faktoren, die zu einer erfolgreichen Live Site-Kultur beitragen.

Diagramm der Live-Websitekultur von Microsoft.

Livewebsite zuerst

Die erste Platzierung der Live-Site-Erfahrung ist integraler Bestandteil einer erfolgreichen Plattform. Teams kann sich nicht auf neue, glänzende Features konzentrieren und die Möglichkeit ignorieren, in der diese Features benutzern präsentiert werden. Wir verlassen uns auf sichere Bereitstellungsmethoden , mit denen sichergestellt wird, dass unsere Kunden unterbrechungsfreie Plattformzugriff haben. Dies kann besonders kompliziert werden, wenn es darum geht, versionsierte Dienstupdates ohne Ausfallzeiten freizugeben.

Steuern der Belichtung durch Featurekennzeichnungen

Während wir über unsere Stufen und Stufen bereitstellen, die Belichtung mit Featurekennzeichnungen steuern, entdecken wir gelegentlich ein Problem in der Produktion. Trotz all unserer Automatisierung und Bewertungen geschieht dies manchmal immer noch. Wie sie sagen, gibt es keinen Ort wie die Produktion!

In der Regel benachrichtigen uns die Integritätsüberwachung und Telemetrie, wenn etwas nicht richtig ist. Ein Entwickler kann eine Verzweigung mainerstellen, einen Fix vornehmen und ihn anfordern main. Das Beibehalten des gleichen allgemeinen Workflows bedeutet, dass Entwickler keinen Kontextwechsel durchführen oder einen anderen Prozess für eine andere Codeänderung erlernen müssen.

Um eine Hotfixbereitstellung zu beheben, ist ein weiterer Schritt erforderlich, der darin besteht, die Änderung in der Release-Verzweigung zu wählen. Wir führen eine Hotfixbereitstellung aus der aktuellen Release-Verzweigung jeden Wochentag morgens aus, obwohl wir dies auch bei Bedarf bei dringenden Fixes tun können. Der Fix trifft die Produktion tatsächlich zuerst aus der Release-Verzweigung heraus. Da wir jedoch zuerst main entwickeln, wissen wir, dass der nächste Sprint nicht zurückgeht, wenn ein neuer Release-Verzweigung mainerstellt wird.

Versionen von lokalen Produkten sind größtenteils identisch, jedoch ohne bereitstellungsstufen und stufenlos. Da wir auch manuelle Tests auf verschiedenen Konfigurationen und Daten-Shapes durchführen, gibt es einen längeren Teil zwischen dem Schneiden der Release-Verzweigung und dem Platzieren des Produkts in den Händen der Kunden.

Sicherheit sollte persönlich genommen werden

Der Fokus liegt darin, Sicherheitsrisiken real und persönlich zu machen. Dadurch wird sichergestellt, dass sich die Menschen wirklich um sie kümmern. Wir nutzen auch umfangreiche Kriegsspiele , um Sicherheitsrisiken im gesamten System zu finden und zu beheben, sei es im Code oder nicht. Wenn das rote Team zeigen kann, dass sie in Code gelangt sind, indem sie ein Dialogfeld auf den Kopf stellen, motiviert es den Codebesitzer wirklich, das Problem zu beheben und sicherzustellen, dass es an keiner anderen Stelle wieder passiert. Diese Art von Wettbewerb ist viel realer und persönlicher als eine statische Analysewarnung zu einem potenziellen XSS-Risiko. Wir schaffen diese Art von Kultur und dynamik durch Kriegsspiele und andere Sicherheitsübungen. Die Leute sind stolz darauf, den Code des anderen zu hacken oder die Versuche zu blockieren. Dadurch wird eine sichere Codekultur ins Stocken gebracht.

Wir können nicht für jeden Angriffsvektor planen, aber was wir tun können, ist davon auszugehen, dass es eine Verletzung gibt, und planen, wie schnell wir auf diese Verletzung reagieren können. Für unsere Teams gibt es viele Sicherheitsaufgaben.

Schließlich machen Menschen Fehler. Manchmal werden sie faul und erledigen Dinge wie das Speichern von Kennwörtern auf Dateifreigaben. Wir können sie nicht sagen und wir können sie an Sicherheitsschulungen senden und wir können alle arten von anderen Dingen tun. Die meisten Menschen lernen, aber es braucht nur eine Person, um das System zu brechen. Sie können über alle Arten von Listen bewährter Methoden verfügen, aber es sei denn, Sie machen das wirklich, müssen Sie davon ausgehen, dass Die Benutzer Fehler machen werden. Dies erfordert eine bestimmte Aufsichtsstufe, um sicherzustellen, dass kritische Prozesse befolgt werden.

Engineering ist mehr als ein Ops-Partner

Wir haben frühzeitig gelernt, um die Live-Site zu einem wichtigen Bestandteil der Verantwortlichkeiten des Entwicklungsteams zu machen. Das war für uns sehr groß, denn in der Vergangenheit konnte eine Person etwas bereitstellen, am Wochenende verlassen und Montag zurückkehren, um 900 Kundenprobleme zu finden, die der Kundensupport und ops-Teams am ganzen Wochenende zu tun hatten. Es ist wichtig, dass Engineering den Preis für Live-Site-Probleme zahlt. Andernfalls gibt es keinen Anreiz, Systeme zu erstellen, die diese Probleme vermeiden. Wenn Sie um 2 Uhr aufgerufen werden, um etwas zu beheben, das Sie unterbrochen haben, denken Sie daran.

Während wir diese Verantwortung weiterentwickelt haben, ist Live Site das wichtigste, was wir tun, das mantra des gesamten Teams wurde. Es ist die Kundenerfahrung, die sie derzeit haben, und es ist nicht nur eine Steuer. Es ist eigentlich etwas, auf das menschen von uns zählen und wir stolz darauf sind. Es muss ein unterscheidungsmerkendes Merkmal unseres Produkts sein.

Die Produktionstelemetrie ist der Takt Ihres Diensts.

Um in der schnelllebigen Welt zu überleben, in der praktisch alles schief gehen kann, brauchen wir große Alarmsysteme. Unaktionsfähige Warnungen, redundante Warnungen oder überwältigende Warnungsvolumes lassen Sie alle Warnungen ignorieren. Es ist einfach, zu viele Warnungen zu erstellen, sodass der Prozess wirklich auf eine einfache Frage herunterkommt: Ist diese Warnung umsetzbar? Dadurch wird sichergestellt, dass wir die richtigen Kundenprobleme ansprechen und so schnell wie möglich behandeln.

Da sich das Entwicklungsteam auf aktionen erfordernde Warnungen bezieht, bemerkten sie, dass viele Probleme, die auftreten, insbesondere in der Mitte der Nacht, ähnliche Korrekturen haben, zumindest vorübergehend. Dies führte zu einem Fokus auf Systemen, die besser beim Scheitern und Selbstheilen waren. Jetzt treten die Probleme auf, lösen Sie Warnungen aus, und beheben Sie sich dann gut genug, damit das Entwicklungsteam bis zum Morgen warten kann. Dies wäre nicht geschehen, wenn das Entwicklungsteam nur Bits verdrängt hat, die andere Menschen nachts aufgehalten haben. Jetzt arbeiten sie daran, diese Verbesserungen als Teil nicht nur der Geschwindigkeit von Features, sondern der geschwindigkeitstechnischen Verbesserung zu ausgleichen.

Zusammenfassung

Die Einführung einer Livewebsitekultur hat sich auf die Art und Weise beeinflusst, wie Microsoft Software erstellt und bereitstellt. Durch die Entwicklung von Entwicklungsteams zu einem wichtigen Teil der Sicherheit und des Betriebs hat sich die Qualität unseres Codes und der Endbenutzererfahrung drastisch verbessert. Als vollständiger Teilnehmer an Vorgängen hat das Engineering zu einem wichtigen Projektbeteiligten gemacht, was zu Systemen führt, die für bessere Vorgänge konzipiert sind.

Feedback

War diese Seite hilfreich?

Last updated on 2025-09-04