Rekomendacijos, kaip parengti reagavimo į ekstremalias situacijas strategiją

2025-07-09

Taikoma šiai **gerai suprojektuoto veiklos meistriškumo** kontrolinio sąrašo rekomendacijai: Power Platform

OE:07

Sukurti veiksmingą ekstremalių situacijų operacijų praktiką. Užtikrinkite, kad jūsų darbo krūvis siųstų reikšmingus sveikatos signalus. Surinkite gautus duomenis ir naudokite juos, kad generuotumėte veiksmingus įspėjimus, kurie įjungia avarinius atsakymus per ataskaitų suvestines ir užklausas. Aiškiai apibrėžkite žmonių pareigas, tokias kaip budėjimo rotacijos, incidentų valdymas, prieiga prie avarinių išteklių ir skrodimų atlikimas.

Šiame vadove aprašomos rekomendacijos, kaip parengti reagavimo į ekstremalias situacijas strategiją. Kai kurie jūsų darbo krūviai gali būti itin svarbūs, o problemos, kylančios darbo krūvio gyvavimo ciklo metu, gali būti pakankamai rimtos, kad būtų galima paskelbti juos avariniais. Galite įdiegti griežtai kontroliuojamus ir tikslingus procesus bei procedūras, kurių jūsų komanda galėtų laikytis, kad problema būtų išspręsta ramiai ir tvarkingai. Ekstremalios situacijos natūraliai padidina visų streso lygį ir gali sukelti chaotišką aplinką, jei jūsų komanda nėra gerai pasiruošusi. Siekdami sumažinti stresą ir painiavą, sukurkite reagavimo strategiją, pasidalykite ja su savo organizacija ir reguliariai rengkite mokymus, kaip reaguoti į ekstremalias situacijas.

Pagrindinės projektavimo strategijos

Avarinio reagavimo strategija turėtų būti aiškiai apibrėžtas procesų ir procedūrų rinkinys. Kiekvienas procesas ir procedūra turėtų turėti scenarijus, užtikrinančius, kad kiekvienas žingsnis padėtų jūsų komandai greitai ir saugiai išspręsti problemą. Norėdami parengti reagavimo į ekstremalias situacijas strategiją, apsvarstykite šią apžvalgą:

Būtinos sąlygos
- Sukurti stebėsenos sistemą
- Sukurkite incidentų reagavimo planą
Incidento etapai
- Aptikimas ir izoliavimas
- Triažas
Po incidento etapai
- Pagrindinės priežasties analizė (RCA)
- Pomirtinis skrodimas
Nuolatinė veikla
- Avarinio reagavimo pratybos

Tolesniuose skyriuose pateikiamos rekomendacijos kiekvienam iš šių etapų.

Stebėjimo sistema

Norint turėti patikimą reagavimo į ekstremalias situacijas strategiją, reikia turėti patikimą stebėjimo sistemą arba stebėjimo platformą. Jūsų stebėjimo platforma turėtų turėti šias savybes:

Holistinis stebėjimas: užtikrinkite, kad kruopščiai stebėtumėte savo darbo krūvį konfigūracijos ir programos požiūriu, ir įtraukite infrastruktūros stebėjimą, jei jūsų darbo krūvio komponentai yra debesyje arba vietoje. Įsitikinkite, kad jūsų stebėjimo strategija apima visus jūsų darbo krūvio komponentus. Pavyzdžiui, jei jūsų darbo krūvis sąveikauja su „Azure“ ištekliais arba vietine sistema, įtraukite šiuos komponentus į savo stebėjimą.
Išsamus registravimas: Įjunkite išsamų komponentų registravimą, kad būtų lengviau atlikti tyrimus, kai nustatote problemą. Struktūrizuokite žurnalus taip, kad juos būtų lengva valdyti. Automatiškai siųsti žurnalus į duomenų rinktuvus, kad jie būtų paruošti analizei.
Naudingi ataskaitų suvestinės: kurkite ataskaitų suvestines pagal savo sveikatos modelį, pritaikytas kiekvienai jūsų organizacijos komandai. Skirtingos komandos yra atsakingos už skirtingus darbo krūvio sveikatos aspektus.
Veiksmingi įspėjimai: kurkite įspėjimus, kurie yra naudingi jūsų darbo krūvio komandoms. Venkite įspėjimų, kurie nereikalauja jūsų komandų veiksmų. Per daug tokio pobūdžio įspėjimų gali paskatinti žmones ignoruoti arba blokuoti įspėjimų pranešimus.
Automatiniai pranešimai: Užtikrinkite, kad atitinkamos komandos automatiškai gautų įspėjimus, reikalaujančius veiksmų. Pavyzdžiui, jūsų 1 pakopos palaikymo komanda turėtų gauti pranešimus apie visus įspėjimus, o jūsų saugumo inžinieriai turėtų gauti įspėjimus tik apie saugumo įvykius.

Sužinokite daugiau skyrelyje Stebėsenos sistemos projektavimo ir kūrimo rekomendacijos.

Incidentų reagavimo planas

Avarinio reagavimo strategijos pagrindas yra incidentų reagavimo planas. Kaip ir nelaimių atkūrimo plano atveju, aiškiai ir nuodugniai apibrėžkite vaidmenis, atsakomybes ir procedūras, kaip reaguoti į incidentą. Planas turėtų būti versijų kontroliuojamas dokumentas, kuris būtų reguliariai peržiūrimas, siekiant užtikrinti jo atnaujinimą.

Aiškiai apibrėžkite šiuos savo plano komponentus.

Vaidmenys

Paskirkite incidentų reagavimo vadovą. Šis asmuo yra atsakingas už incidentą nuo jo pradžios iki pašalinimo ir pagrindinės priežasties analizės. Incidento atsakymas vadovas užtikrina, kad būtų laikomasi procesų ir atitinkamos šalys būtų informuotos, kai atsakymas komanda atlieka savo darbą.

Nustatykite pomirtinį lyderį. Šis asmuo užtikrina, kad skrodimas būtų atliktas netrukus po incidento išsprendimo. Jie parengia ataskaitą, kuri padeda pritaikyti incidento metu gautas išvadas.

Procesai ir procedūros

Jūsų darbo krūvio komanda turėtų apibrėžti ir suprasti avarinius kriterijus. Kai jūsų komanda nustato, kad atvejis yra rimtas, galite paskelbti nelaimę ir pradėti įgyvendinti nelaimės atkūrimo planą. Mažiau sunkiais atvejais problema gali neatitikti nelaimės kriterijų, tačiau vis tiek turėtumėte ją laikyti ekstremalia situacija, dėl kurios reikia pradėti parengti ekstremalių situacijų planą. Avarijos gali būti vidinės jūsų darbo krūvio problemos, pvz., programos kodo klaidos, arba kilti dėl problemos, susijusios su jūsų darbo krūvio priklausomybe, pvz., API ar duomenų bazės neprieinamumas. Avarija taip pat gali kilti dėl tiekėjo gedimo (pvz., dėl asmens tapatybės kortelės ar kito asmens tapatybės dokumento). Microsoft Entra Power Platform Palaikymo komanda turi sugebėti nustatyti, ar problema atitinka avarinės situacijos kriterijus, net jei komanda neturi jokios informacijos apie pagrindinę problemą.

Tiksliai apibrėžkite komunikacijos ir eskalavimo planus. Atsižvelgdami į gaunamo įspėjimo tipą, užtikrinkite, kad jūsų 1 pakopos palaikymo komandos nariai galėtų lengvai susisiekti su atitinkamomis komandomis, kad būtų galima eskaluoti problemas.

Kiti įtrauktini elementai

Dokumentuokite visas standartines priemones, kurios naudojamos incidentų metu vidaus komunikacijai, pvz. Microsoft Teams ir incidento eigos veiklai stebėti, pavyzdžiui, bilietų pardavimo įrankiai arba vėlavimų planavimo įrankiai.

Dokumentuokite savo avarinius įgaliojimus, kitaip vadinamus sąskaitos išdaužtam stiklui. Įtraukite nuoseklų vadovą, kuriame aprašoma, kaip juos naudoti.

Parengti avarinio reagavimo pratybų instrukcijas ir registruoti, kada pratybos atliekamos.

Dokumentuokite visas būtinas teisines ar reguliavimo priemones, pavyzdžiui, pranešimą apie duomenų saugumo pažeidimus.

Incidentų aptikimas ir izoliavimas

Kai turite gerai suprojektuotą stebėjimo sistemą, kuri stebi anomalijas ir automatiškai apie jas įspėja, galite greitai aptikti problemas ir nustatyti jų rimtumą. Jei problema laikoma avarine, planą galima pradėti įgyvendinti. Kai kuriais atvejais palaikymo komanda neinformuojama per stebėjimo sistemą. Vartotojai gali pranešti apie problemas palaikymo komandai naudodamiesi palaikymo komandos bendravimo kanalais. Arba jie gali susisiekti su žmonėmis, su kuriais reguliariai dirba arba su kuriais, jų žiniomis, dirba. Power Platform, kaip ir tavo Power Platform paslaugų administratoriai arba Kompetencijų centro komanda. Nesvarbu, kaip pranešama palaikymo komandai, jie visada turėtų atlikti tuos pačius veiksmus, kad patvirtintų problemą ir nustatytų jos rimtumą. Nukrypimas nuo atsakymo plano gali sukelti stresą ir painiavą.

Triažas

Pirmasis problemos sprendimo žingsnis yra nustatyti darbo krūvio komponentą, kuris sukelia problemą. Veiksmai, kurių reikia imtis triažo metu, priklauso nuo problemos tipo. Tam tikros srities darbo krūvio palaikymo komanda turėtų sukurti procedūras incidentams, susijusiems su jos darbu. Pavyzdžiui, saugumo komandos turėtų triažiuoti saugumo problemas ir vadovautis savo sukurtais scenarijais. Svarbu, kad komandos, atlikdamos triažo darbus, laikytųsi aiškiai apibrėžtų scenarijų. Šie scenarijai turėtų būti nuoseklios instrukcijos, apimančios atšaukimo procesus, skirtus anuliuoti neveiksmingus arba kitų problemų galinčius sukelti pakeitimus. Išsprendus problemą, vadovaukitės aiškiai apibrėžtais procesais, kad saugiai grąžintumėte paveiktą komponentą į darbo krūvio srauto kelius.

Pagrindinės priežasties analizės ataskaita

Pagrindinės priežasties analizės (RCA) ataskaitas turėtų parengti incidento savininkas arba su juo glaudžiai bendradarbiavęs asmuo. Ši strategija užtikrina tikslų incidento apskaitą. Paprastai organizacijos turi apibrėžtą RCA šabloną su gairėmis, kaip pateikti informaciją ir kokios rūšies informacija gali būti arba negali būti bendrinama. Jei jums reikia sukurti savo šabloną ir gaires, įsitikinkite, kad suinteresuotosios šalys jas peržiūri ir patvirtina.

Incidentų pomirtiniai tyrimai

Nešališkas asmuo turėtų vadovauti nepriekaištingiems pomirtiniams tyrimams. Pomirtinėse sesijose visi pasidalija savo išvadomis, gautomis iš įvykio vietos. Kiekvieną incidento reagavimo procese dalyvavusią komandą turėtų atstovauti asmenys, kurie dirbo ir prie incidento. Tie asmenys turėtų atvykti į sesiją pasiruošę su sėkmingų veiksmų ir tobulintinų sričių pavyzdžiais. Šis susitikimas nėra forumas, skirtas kaltininkams dėl incidento ar problemų, kurios gali iškilti reaguojant, priskirti. Pomirtinio tyrimo vadovas po sesijos turėtų pateikti aiškų veiksmų, skirtų tobulėjimui, sąrašą, pavyzdžiui:

Reagavimo plano patobulinimai. Gali tekti iš naujo įvertinti ir perrašyti procesus ar procedūras, kad būtų geriau užfiksuoti tinkami veiksmai.
Stebėjimo sistemos patobulinimai. Gali tekti iš naujo įvertinti ribas, kad būtų galima anksčiau aptikti konkretaus tipo incidentą, arba gali tekti įdiegti naują stebėseną, kad būtų aptiktas elgesys, į kurį nebuvo atsižvelgta.
Darbo krūvio patobulinimai. Šis incidentas gali atskleisti darbo krūvio pažeidžiamumą, kurį reikia pašalinti visam laikui.

Į ką atsižvelgti

Jūsų reagavimo į ekstremalias situacijas strategija turėtų būti glaudžiai susijusi su bendra jūsų Power Platform palaikymo strategija. Bendradarbiaukite su savo administratoriais ir kompetencijos centro komanda, kad aptartumėte palaikymo ir reagavimo į ekstremalias situacijas galimybes bei procesus, kurie jau gali būti apibrėžti. Power Platform

Apibrėždami palaikymo procesą ir eskalavimo kelią, svarbu suskirstyti sprendimus pagal kritiškumą. Ši praktika leidžia nustatyti procesus, kurie užtikrina, kad svarbiausios programos turėtų reikiamus apsauginius barjerus joms palaikyti, tuo pačiu neužslopinant produktyvumo scenarijų inovacijų ir neperkraunant incidentų reagavimo komandų. Apibrėždami savo paramos modelius, taip pat pagalvokite apie studijų baigimo kelią. Sprendimui iš pradžių gali reikėti tik produktyvumo lygio palaikymo, tačiau išaugus funkcionalumui ar vartotojų bazei, gali prireikti aukštesnio lygio palaikymo. Apibrėžkite, kaip kūrėjai gali teikti oficialios pagalbos ir sprendimo perėjimo prie palaikomos aplinkos užklausas.

Power Platform palengvinimas

Power Platform integruojasi su Application Insights "Azure Monitor" ekosistemos dalimi . Naudokite šią integraciją norėdami:

Gaukite telemetriją apie diagnostiką ir našumą, Dataverse kurį užfiksavo platforma Application Insights. Galite užsiprenumeruoti, kad gautumėte telemetriją apie operacijas, kurias programos atlieka jūsų Dataverse duomenų bazėje ir modeliu pagrįstose programose. Ši telemetrija pateikia informacija, kurią galite naudoti diagnozuojant ir šalinant triktis, susijusias su klaidomis ir veikimu.
Prijunkite savo drobės programas prie Application Insights. Naudodami šią analizę galite nustatyti problemas ir suprasti, ką naudotojai daro su jūsų programomis. Galite rinkti informaciją, kuri padės priimti geresnius verslo sprendimus ir pagerinti programų kokybę.
Konfigūruokite Power Automate telemetriją , kad ji tekėtų į Application Insights; pavyzdžiui, kad būtų galima stebėti debesies srautų vykdymą ir kurti įspėjimus apie debesies srautų vykdymo triktis.
Užfiksuokite telemetrijos duomenis iš savo Microsoft Copilot Studio agento , kad galėtumėte naudoti "Azure". Application Insights Šią telemetriją galite naudoti norėdami stebėti užregistruotus pranešimus ir įvykius, siunčiamus jūsų agentui ir iš jo, temas, kurios bus suaktyvintos vartotojo pokalbių metu, ir pasirinktinius telemetrijos įvykius, kuriuos galima siųsti iš jūsų temų.

Application Insights yra išsamus sprendimas, skirtas rinkti, analizuoti ir reaguoti į stebėjimo duomenis iš debesies ir vietinės aplinkos. Jame yra patikima įspėjimų platforma, kurią galite konfigūruoti automatiniams pranešimams ir kitiems veiksmams. ...

Automatizavimo Power Platform rinkinys yra įrankių rinkinys, kuris pagreitina darbalaukio naudojimą ir palaikymą Power Automate automatizavimo projektams. Rinkinyje yra įrankių, padedaių valdyti automatizavimo projektus ir juos stebėti, kad būtų galima įvertinti įrašytus pinigus ir investicijų grąžą (IG). Automatizavimo rinkinio dalis yra **valdymo centras**, **kuris papildo esamą monitoriaus darbalaukio srautų vykdymo funkciją.** ... Pagrindinis valdymo centro dėmesys skiriamas orkestro rodiniui, kad palaikymo analitikai ir organizacijos galėtų stebėti, imtis veiksmų ir įspėti, kai reikia.

Paskesni veiksmai

Veiklos tobulinimo kontrolinis sąrašas