Znaczenie reagowania na zdarzenia

Ukończone

Bazując na zasadach i praktykach monitorowania omówionych w innym module tej ścieżki szkoleniowej, dowiesz się teraz, co należy zrobić, gdy monitorowanie ujawni problem. Jeśli otrzymasz alert z możliwością działania z powiadomieniem, że systemy nie działają zgodnie z oczekiwaniami, oznacza to, że należy zająć się tym problemem.

Co to jest zdarzenie?

Reagowanie na zdarzenia dotyczy akcji podejmowania w momencie wystąpienia zdarzenia, ale co dokładnie stanowi zdarzenie? Odpowiedź może być subiektywna i nawet inżynierowie nie są zgodni co do tego, czym jest zdarzenie. Jeśli zadasz to pytanie w różnych branżach i organizacjach, uzyskasz wiele różnych odpowiedzi.

Niektórzy uważają, że wszystkie zakłócenia to zdarzenia, niezależnie od tego, czy mają one wpływ na klientów. W kontekście tego modułu możemy wyrazić zgodę na to, że zdarzenie jest definiowane jako zakłócenie usługi: wystąpienie lub warunek, który wpływa na zdolność użytkownika do korzystania z usług, na których polega. Przykłady obejmują sytuacje, kiedy systemy nie działają lub działają nieprawidłowo w sposób, który ma wpływ na klientów.

Co to jest reagowanie na zdarzenia?

Zapobieganie wszystkim problemom jest godne pochwały, ale niemożliwe celem. Różne rzeczy będą się zdarzać i coś może pójść nie tak, więc potrzebujemy planu, aby zminimalizować wpływ na użytkowników końcowych i przywrócić normalne działanie tak szybko, jak to możliwe.

Kluczem jest reagowanie z pilną reakcją , a nie reagowanie. Impulsywne działanie jest osadzone w bieżącej chwili i nie uwzględnia efektów długoterminowych. Odpowiedź jest dobrze przemyślana, zorganizowana i oparta na informacjach.

Wybrana metoda reagowania na zdarzenia określa Twoją skuteczność w następujących obszarach:

  • Zrozumienie tego, co się dzieje (diagnozowanie problemu).
  • Klasyfikowanie (określanie pilności) i ustalanie priorytetów problemu.
  • Angażowanie odpowiednich zasobów w celu wyeliminowania problemów.
  • Komunikowanie się z uczestnikami projektu na temat problemu.

Po skorygowaniu problemu możesz dowiedzieć się z tego zdarzenia za pośrednictwem procesu przeglądu po zdarzeniu. Jest to ważny temat, któremu poświęcono cały odrębny moduł.

Mierzenie wydajności reagowania na zdarzenia

Możesz zapoznać się z skrótem TTR, który jest inaczej zdefiniowany jako "czas odzyskiwania", "czas korygowania" lub "czas przywracania". Wszystkie te warianty odnoszą się do tej samej rzeczy: łączny czas potrzebny na przywrócenie usług do miejsca, w którym mogą powrócić do oczekiwań klientów.

Ta metryka jest jednym ze sposobów mierzenia, jak dobrze zespoły radzą sobie z reagowaniem na zdarzenia. Im szybciej odzyskasz/naprawisz/przywrócisz usługę, tym mniejszy wpływ będzie miał przestój w działaniu usługi lub obniżenie jej wydajności.

Ważne jest, aby wiedzieć, jak dobrze organizacja obsługuje reagowanie na zdarzenia. Każdego roku organizacja DevOps Research and Assessment (DORA) publikuje raport Stan metodyki DevOps. Niektóre kluczowe wyniki w raporcie z 2019 roku dotyczą wydajności reagowania na zdarzenia.

  • W raporcie sklasyfikowane zespoły inżynieryjne, które mogą wykrywać, reagować i korygować przerwy w działaniu usług w mniej niż godzinę jako "elitarne lub wysokowydajne".
  • Ci, którzy byli w stanie odzyskać sprawę z incydentów w ciągu poniżej 24 godzin, zostali sklasyfikowani jako "średnio wykonawcy".
  • "Osoby o niskich wynikach" to ci, którzy trwają od jednego tygodnia do miesiąca, aby odzyskać sprawę po przerwach w działaniu usługi.

Różnica między tymi poziomami jest znacząca. W badaniu stwierdzono, że zespoły elitarne/o wysokiej wydajności odzyskują sprawę po zdarzeniach 2604 razy szybciej niż ich "niskowydajni" rówieśnicy. Ponadto zespoły elitarne/o wysokiej wydajności wykonują wdrożenia w środowisku produkcyjnym 208 razy częściej.

Jak i dlaczego elitarne zespoły reagują i odzyskują o tyle szybciej, niż pozostałe? Dzieje się tak po części dlatego, że rozumieją one, jak ważne jest przygotowanie dobrego, podstawowego planu reagowania, z którego będzie można skorzystać, gdy coś nieuchronnie pójdzie nie tak.

W ramach tego modułu zapoznasz się z charakterystyką i cyklem życia zdarzenia oraz dowiesz się, jak skorzystać z tej wiedzy w celu utworzenia własnego planu.

Sprawdź swoją wiedzę

1.

Który z poniższych elementów jest celem efektywnego reagowania na zdarzenia?

2.

Jak szybko zespoły inżynieryjne sklasyfikowane jako „elitarne lub mające wysoką skuteczność” na ogół wykrywają, reagują i korygują przerwy w działaniu usługi?