Podstawy reagowania na zdarzenia

Ukończone

W dzisiejszych czasach organizacje korzystają z dostępności, wydajności i wygody chmury, ale stają także przed wieloma wyzwaniami, przechodząc transformację cyfrową, która obejmuje przenoszenie części firmy do usług w chmurze.

Oto niektóre typowe wyzwania, które mogą wystąpić w organizacji:

  • Zwiększona liczba przerw w działaniu usługi
  • Brak efektywnej metody śledzenia zdarzeń i reagowania na nie (wszystko jest doraźne i impulsywne)
  • Nieakceptowalny czas rozpoznawania
  • Czas rozpoznawania nie poprawia się lub się pogarsza
  • Informacje i stan są trudne do znalezienia
  • Powtarzanie się tych samych problemów i błędów

Aby sprostać tym wyzwaniom, potrzebny jest dobrze zdefiniowany plan reagowania na zdarzenia, który jest oparty na solidnych podstawach.

Fundamenty i filary

Celem fundamentu jest podtrzymanie i utrzymanie razem konstrukcji, która się na nim opiera. W oddzielnym module wprowadzającym do tej ścieżki szkoleniowej omówiliśmy koncepcję, że niezawodne działanie jest zbudowane na fundamencie monitorowania i że reagowanie na zdarzenia znajduje się w hierarchii tuż nad nim.

Reagowanie na zdarzenia ma także swoją podstawę. Istnieją trzy filary, które obsługują dobry plan reagowania na zdarzenia:

  • Listy uczestników
  • Role
  • Rotacje

W tej lekcji dowiesz się, czym jest każdy z tych filarów i jakie części odgrywają w projektowaniu strategii reagowania na zdarzenia, która przenosi Cię dalej na ścieżkę do celów niezawodności.

Listy uczestników

Ważne jest, aby mieć dobry plan, ale plan jest bezużyteczny bez ludzi do jego wykonania. W związku z tym najlepszym miejscem do rozpoczęcia jest określenie, kto ma reagować na problemy i jak poinformować ich, kiedy ich odpowiedź jest wymagana.

Najlepszym sposobem poradzenia sobie z tym wyzwaniem jest zaprojektowanie listy uczestników. Lista uczestników to lista osób, które są przypisane do zespołu na dyżurze. Ten zespół powinien składać się z wielu inżynierów. Ci członkowie zespołu powinni mieć wiedzę i umiejętności, aby rozwiązać typ problemów, które mogą wystąpić w danym środowisku, a także szkolenia w reagowaniu na zdarzenia.

Lista nazwisk to jednak za mało. Musisz utworzyć strukturę dotyczącą tego, kto jest na wezwanie w danym momencie, i co każda osoba ma zrobić. W tym miejscu pojawiają się role.

Role

Role wprowadzają kolejność do tego, co byłoby chaotyczne — lub w najlepszym razie ad hoc — odpowiedź. Robi to poprzez zdefiniowanie określonych funkcji, które mają być przyjęte przez każdą osobę w konkretnej sytuacji, oraz miejsce każdego z nich w "łańcuchu poleceń". Role mogą się różnić w zależności od organizacji lub nawet według typu zdarzenia, ale następujące role powinny być ogólnie częścią zorganizowanego zespołu reagowania na zdarzenia:

  • Podstawowy osoba odpowiadająca: jest to "osoba punktu", która jest zwykle pierwszą osobą na scenie, czyli pierwszym inżynierem na wezwanie, który jest wywoływany w momencie wystąpienia zdarzenia.
  • Pomocnicza osoba odpowiadająca: Jest to osoba, która pełni rolę kopii zapasowej i może wykonać kroki, jeśli podstawowy obiekt odpowiadający nie jest dostępny lub jeśli potrzebna jest druga para oczu.
  • Eksperci z dziedziny (MŚP): Są to osoby, które mają dogłębną wiedzę na temat konkretnego aspektu operacji. Są tam, jeśli podstawowi i pomocnicy muszą eskalować problem do kogoś z większą wiedzą. Nie są one cały czas na wezwanie, ale są dostępne, gdy ich specjalistyczne umiejętności są potrzebne. Należy zachować listę MŚP w różnych tematach (na przykład bazy danych, frontonu, infrastruktury sieciowej, aplikacji internetowych, cyberbezpieczeństwa itd.).
  • Dowódca zdarzeń: jest to ważna rola w przypadku zdarzenia lub awarii na dużą skalę, która ma wpływ na wiele różnych składników i/lub wymaga koordynacji w wielu różnych zespołach i systemach. Dowódca incydentu będzie osobą, która koordynuje wiele rozmów i wysiłków związanych z reakcją i działaniami korygacyjnymi. Dowódca incydentu patrzy na "duży obraz"; zachowują karty na temat tego, co się dzieje i kto robi to, co. Dowódca incydentu doskonale nadaje się do zapewnienia, że inżynierowie są skoncentrowani i że pracują nad własnymi działaniami korygacyjnymi bez konieczności przechodzenia do pracy nawzajem ani ich cofnięcia.
  • Scribe: Rolą skryba jest dokumentowanie rozmowy wokół incydentu w jak największym stopniu szczegółowo. Zespoły często używają pomostów telefonicznych, połączeń konferencyjnych lub czatów wideo, aby zebrać wszystkich razem i spróbować zrozumieć, co się dzieje, co z pewnością pomaga utworzyć miejsce na konwersację. Jednak trudno nam przejść i zrozumieć szczegółowo, co inżynierowie mówili i robili, chyba że jest transkrypcja. W rezultacie skrypcja jest osobą, która może pomóc nam udokumentować jak najwięcej, aby przejrzeć później. Zapis przechwytuje wszystkie możliwe dane; nie tylko to, co robią członkowie zespołu, ale także to, co mówią, a nawet to, co czują lub przeżywają.
  • Koordynator komunikacji: Pomyśl o tej osobie jako "menedżera public relations" dla incydentu. Koordynator komunikacji współpracuje z dowódcą incydentu w celu udostępniania informacji o zdarzeniu osobom, które nie są aktywnie zaangażowane w pracę w celu rozwiązania problemu i odzyskania sprawności po zdarzeniu. Może to obejmować klientów, zespoły ds. sprzedaży i marketingu, dział obsługi klienta i inne osoby biorące udział w projekcie lub poza organizacją, które muszą być świadome tego, co się dzieje, oraz stan postępu reakcji i korygowania.

Rotacje

Masz już listę członków zespołu reagowania, którym przypisano odpowiednie role. Następnym i ostatnim krokiem jest utworzenie rotacji, czyli harmonogramu, który przypisuje zmiany, kiedy każda osoba jest na dyżurze.

Zmiany można przydzielać na wiele różnych sposobów. Planowanie zmian może być złożonym procesem strategicznym. Zmiany nie powinny być przypisywane losowo; Należy zastanowić się nad planowaniem, aby uczynić go tak skutecznym i jak przyjemnym dla członków zespołu, jak to możliwe.

Niektóre metody planowania zmian są następujące:

  • 24 x 7: Jest to rotacja, w której członkowie zespołu są na wezwanie przez kilka dni z rzędu. Jest to prosty sposób przydzielania zmian, ale należy zachować ostrożność i ograniczyć ich czas trwania. Rotacje zmian dłuższe niż trzy do czterech dni mogą być szkodliwe dla ogólnej kondycji personelu inżynieryjnego, a tym samym zmniejsza niezawodność całego systemu.
  • Postępuj zgodnie ze zmianami słońca: jest to model zmiany, w którym inżynierowie planują zmiany na wezwanie tylko w normalnych godzinach pracy, a następnie przekazać swoją odpowiedzialność na wezwanie na koniec dnia roboczego innemu współpracownikowi znajdującemu się w innej strefie czasowej.

To tylko kilka przykładów sposobów przypisywania zmian. Ważne jest, aby zmiany były podzielone w taki sposób, który najbardziej odpowiada członkom zespołu reagowania. Istnieje wiele sposobów dostosowywania zmian, zwłaszcza w weekendy, gdy inżynierowie potrzebują większej elastyczności. Inżynierowie powinni mieć możliwość łatwego przekazania roli w przypadku wystąpienia konfliktów niezwiązanych z pracą.

Sprawdź swoją wiedzę

1.

Który z poniższych elementów jest filarem reagowania na zdarzenie?

2.

Co robi rola w ramach reagowania na zdarzenia?

3.

Czy do skutecznego reagowania na zdarzenia potrzebne są wszystkie role wymienione w tej lekcji?