Kongsi melalui


Cadangan untuk mereka bentuk strategi tindak balas kecemasan

Terpakai kepada cadangan senarai semak Kecemerlangan Operasi Well-Architected ini Power Platform :

OE:07 Membangunkan amalan operasi kecemasan yang berkesan. Pastikan beban kerja anda memancarkan isyarat kesihatan yang bermakna. Kumpulkan data yang terhasil dan gunakannya untuk menjana makluman boleh diambil tindakan yang menggubal tindak balas kecemasan melalui papan pemuka dan pertanyaan. Tentukan tanggungjawab manusia dengan jelas, seperti penggiliran atas panggilan, pengurusan insiden, akses sumber kecemasan dan menjalankan bedah siasat.

Panduan ini menerangkan cadangan untuk mereka bentuk strategi tindak balas kecemasan. Sesetengah beban kerja anda mungkin kritikal misi, dan isu yang timbul sepanjang kitaran hayat beban kerja mungkin cukup teruk untuk mewajarkan pengisytiharan kecemasan. Anda boleh melaksanakan proses dan prosedur yang dikawal ketat dan tertumpu yang boleh diikuti oleh pasukan anda untuk memastikan isu dikendalikan dengan cara yang tenang dan teratur. Kecemasan secara semula jadi meningkatkan tahap tekanan semua orang dan boleh membawa kepada persekitaran yang huru-hara jika pasukan anda tidak bersedia dengan baik. Untuk membantu meminimumkan tekanan dan kekeliruan, reka bentuk strategi tindak balas, kongsi strategi tindak balas dengan organisasi anda dan laksanakan latihan tindak balas kecemasan biasa.

Strategi reka bentuk utama

Strategi tindak balas kecemasan hendaklah satu set proses dan prosedur yang jelas. Setiap proses dan prosedur harus mempunyai skrip untuk memastikan setiap langkah memajukan pasukan anda ke arah menyelesaikan isu dengan cepat dan selamat. Untuk membangunkan strategi tindak balas kecemasan, pertimbangkan gambaran keseluruhan berikut:

  • Prasyarat
    • Membangunkan sistem pemantauan
    • Buat pelan tindak balas insiden
  • Fasa insiden
    • Pengesanan dan pembendungan
    • Triaj
  • Fasa selepas kejadian
    • Analisis punca akar (RCA)
    • Bedah siasat
  • Aktiviti berterusan
    • Latihan tindak balas kecemasan

Bahagian berikut memberikan cadangan untuk setiap fasa ini.

Sistem pemantauan

Untuk mempunyai strategi tindak balas kecemasan yang mantap, anda perlu mempunyai sistem pemantauan yang mantap, atau platform kebolehlihatan. Platform kebolehlihatan anda harus mempunyai ciri-ciri berikut:

  • Pemantauan holistik: Pastikan anda memantau beban kerja anda dengan teliti daripada perspektif konfigurasi dan aplikasi, dan sertakan pemantauan infrastruktur jika komponen beban kerja anda dihoskan dalam awan atau di premis. Pastikan semua komponen beban kerja anda dilindungi oleh strategi pemantauan anda. Contohnya, jika beban kerja anda berinteraksi dengan sumber Azure atau sistem pada premis, sertakan komponen tersebut dalam pemantauan anda.

  • Pembalakan bertele-tele: Dayakan pembalakan verbose untuk komponen anda untuk membantu penyiasatan apabila anda menyusun isu. Struktur log supaya ia mudah diuruskan. Hantar log secara automatik ke sinki data untuk disediakan untuk analisis.

  • Papan pemuka berguna: Cipta papan pemuka berdasarkan model kesihatan anda yang disesuaikan dengan setiap pasukan di seluruh organisasi anda. Pasukan yang berbeza bertanggungjawab untuk aspek kesihatan beban kerja yang berbeza.

  • Makluman boleh diambil tindakan: Cipta makluman yang berguna untuk pasukan beban kerja anda. Elakkan makluman yang tidak memerlukan tindakan daripada pasukan anda. Terlalu banyak makluman seperti ini boleh menyebabkan orang mengabaikan atau menyekat pemberitahuan amaran.

  • Pemberitahuan automatik: Pastikan pasukan yang sesuai menerima makluman secara automatik yang memerlukan tindakan daripada mereka. Sebagai contoh, pasukan sokongan Tahap 1 anda harus mendapat pemberitahuan untuk semua makluman, manakala jurutera keselamatan anda hanya boleh menerima makluman untuk peristiwa keselamatan.

Ketahui lebih lanjut dalam Cadangan untuk mereka bentuk dan mencipta rangka kerja pemantauan.

Pelan tindak balas insiden

Asas strategi tindak balas kecemasan ialah pelan tindak balas insiden. Seperti pelan pemulihan bencana, tentukan peranan, tanggungjawab dan prosedur untuk bertindak balas terhadap insiden dengan jelas dan teliti. Pelan itu hendaklah dokumen terkawal versi yang tertakluk kepada semakan berkala yang memastikan ia dikemas kini.

Tentukan dengan jelas komponen berikut dalam rancangan anda.

Peranan

Kenal pasti pengurus tindak balas insiden. Orang ini memiliki kejadian daripada permulaan kepada pemulihan kepada analisis punca akar. Pengurus tindak balas insiden memastikan proses diikuti dan pihak yang sesuai dimaklumkan semasa pasukan tindak balas melaksanakan kerjanya.

Kenal pasti pemimpin bedah siasat. Individu ini memastikan bahawa bedah siasat dilakukan sejurus selepas kejadian itu diselesaikan. Mereka menghasilkan laporan, yang membantu anda menggunakan penemuan yang keluar daripada kejadian itu.

Proses dan prosedur

Pasukan beban kerja anda harus mentakrifkan dan memahami kriteria kecemasan. Apabila pasukan anda menentukan bahawa kes itu teruk, anda boleh mengisytiharkan bencana dan memulakan pelan pemulihan bencana. Dalam kes yang kurang teruk, isu itu mungkin tidak memenuhi kriteria bencana, tetapi anda masih harus menganggap isu itu sebagai kecemasan, yang memerlukan memulakan pelan tindak balas kecemasan. Kecemasan boleh sama ada dalaman kepada beban kerja anda, seperti pepijat dalam kod aplikasi anda atau hasil daripada isu dengan kebergantungan beban kerja anda, seperti ketiadaan API atau pangkalan data. Kecemasan juga mungkin disebabkan oleh gangguan pembekal anda (seperti isu dengan Microsoft Entra ID atau Power Platform). Pasukan sokongan mesti dapat menentukan sama ada isu memenuhi kriteria kecemasan, walaupun pasukan tidak mempunyai keterlihatan tentang isu asas.

Tentukan rancangan komunikasi dan peningkatan dengan tepat. Berdasarkan jenis pemberitahuan amaran yang mereka terima, pastikan ahli pasukan sokongan Tahap 1 anda boleh menghubungi pasukan yang sesuai dengan mudah untuk meningkatkan isu.

Item lain yang perlu disertakan

Dokumentasikan semua alatan standard yang digunakan semasa insiden untuk komunikasi dalaman, seperti Microsoft Teams dan untuk menjejaki aktiviti sepanjang kejadian, seperti alat tiket atau alat perancangan tunggakan.

Dokumentasikan kelayakan kecemasan anda, atau dikenali sebagai akaun kaca pecah. Sertakan panduan langkah demi langkah yang menerangkan cara ia harus digunakan.

Buat arahan gerudi tindak balas kecemasan, dan simpan rekod apabila latihan dilakukan.

Dokumentasikan sebarang langkah undang-undang atau kawal selia yang diperlukan, seperti menyampaikan pelanggaran data.

Pengesanan dan pembendungan insiden

Apabila anda mempunyai sistem pemantauan yang direka bentuk dengan baik yang memantau anomali dan memberi amaran secara automatik mengenainya, anda boleh mengesan isu dengan cepat dan menentukan keterukannya. Jika isu itu dianggap sebagai kecemasan, pelan itu boleh dimulakan. Dalam sesetengah kes, pasukan sokongan tidak dimaklumkan melalui sistem pemantauan. Pengguna mungkin melaporkan isu kepada sokongan dengan menggunakan jalan komunikasi pasukan sokongan. Atau mereka mungkin menghubungi orang yang kerap bekerjasama dengan mereka atau yang mereka tahu bekerjasama Power Platform, seperti pentadbir perkhidmatan atau pasukan Pusat Kecemerlangan anda Power Platform . Tidak kira bagaimana pasukan sokongan dimaklumkan, mereka harus sentiasa mengikuti langkah yang sama untuk mengesahkan isu dan menentukan keterukan. Sisihan daripada pelan tindak balas boleh menambah tekanan dan kekeliruan.

Triaj

Langkah pertama dalam pemulihan isu ialah mengenal pasti komponen beban kerja yang menyebabkan isu tersebut. Langkah-langkah yang anda ikuti semasa triaj bergantung pada jenis isu. Pasukan untuk bidang sokongan beban kerja tertentu harus membuat prosedur untuk insiden yang berkaitan dengan kerjanya. Sebagai contoh, pasukan keselamatan harus menyusun isu keselamatan, dan mereka harus mengikut skrip yang mereka bangunkan. Adalah penting bahawa pasukan mengikuti skrip yang jelas semasa mereka berusaha melalui usaha triaj mereka. Skrip ini hendaklah merupakan arahan langkah demi langkah yang termasuk proses rollback untuk membuat asal perubahan yang tidak berkesan atau boleh menyebabkan isu lain. Selepas isu diselesaikan, ikuti proses yang jelas untuk membawa semula komponen yang terjejas ke laluan aliran beban kerja dengan selamat.

Pelaporan analisis punca akar

Pemilik insiden atau seseorang yang bekerja rapat dengan mereka harus membuat laporan analisis punca (RCA). Strategi ini memastikan perakaunan yang tepat mengenai kejadian tersebut. Biasanya, organisasi mempunyai templat RCA yang ditakrifkan dengan garis panduan tentang cara maklumat disampaikan dan jenis maklumat yang boleh atau tidak boleh dikongsi. Jika anda perlu mencipta templat dan garis panduan anda sendiri, pastikan pihak berkepentingan menyemak dan meluluskannya.

Bedah siasat kejadian

Individu yang tidak berat sebelah harus mengetuai bedah siasat tanpa bersalah. Dalam sesi bedah siasat, semua orang berkongsi penemuan mereka daripada kejadian. Setiap pasukan yang terlibat dalam tindak balas insiden hendaklah diwakili oleh individu yang bekerja pada kejadian itu. Individu tersebut harus datang ke sesi bersedia dengan contoh tindakan yang berjaya dan bidang yang boleh diperbaiki. Sesi ini bukan forum untuk menyalahkan kejadian atau isu yang mungkin timbul semasa tindak balas. Ketua bedah siasat harus meninggalkan sesi dengan senarai item tindakan yang jelas yang memberi tumpuan kepada penambahbaikan, seperti:

  • Penambahbaikan kepada pelan tindak balas. Proses atau prosedur mungkin perlu dinilai semula dan ditulis semula untuk menangkap tindakan yang sesuai dengan lebih baik.
  • Penambahbaikan kepada sistem pemantauan. Ambang mungkin perlu dinilai semula untuk menangkap jenis insiden tertentu lebih awal atau pemantauan baharu mungkin perlu dilaksanakan untuk menangkap tingkah laku yang tidak diambil kira.
  • Penambahbaikan kepada beban kerja. Kejadian itu mungkin mendedahkan kelemahan dalam beban kerja yang mesti ditangani sebagai pemulihan kekal.

Pertimbangan

Strategi tindak balas kecemasan anda hendaklah sejajar rapat dengan strategi sokongan keseluruhan Power Platform anda. Bekerjasama dengan pentadbir dan pasukan Pusat Kecemerlangan anda Power Platform untuk membincangkan pilihan dan proses sokongan dan tindak balas kecemasan yang mungkin telah ditakrifkan.

Semasa anda menentukan proses sokongan dan laluan peningkatan anda, adalah penting untuk mengkategorikan penyelesaian yang dibina berdasarkan kritikal. Amalan ini membolehkan anda mewujudkan proses yang memastikan aplikasi kritikal mempunyai pagar pengawal yang diperlukan untuk menyokongnya, sambil tidak menyekat inovasi senario produktiviti atau membebankan pasukan tindak balas insiden anda. Semasa anda menentukan model sokongan anda, fikirkan juga tentang laluan tamat pengajian. Penyelesaian mungkin bermula hanya memerlukan sokongan tahap produktiviti tetapi berkembang dalam fungsi atau pangkalan pengguna untuk memerlukan tahap sokongan yang lebih tinggi. Takrifkan cara pembuat boleh meminta sokongan yang lebih formal dan mengalihkan penyelesaian kepada persekitaran yang disokong.

Power Platform Kemudahan

Power Platform bersepadu dengan Application Insights, yang merupakan sebahagian daripada ekosistem Azure Monitor . Gunakan penyepaduan ini untuk:

  • Terima telemetri pada diagnostik dan prestasi yang ditangkap oleh Dataverse platform dalam Application Insights. Anda boleh melanggan untuk menerima telemetri tentang operasi yang dilakukan oleh aplikasi pada pangkalan data Dataverse anda dan dalam aplikasi berpandukan model. Telemetri ini menyediakan maklumat yang boleh anda gunakan untuk mendiagnosis dan menyelesaikan masalah isu yang berkaitan dengan ralat dan prestasi.

  • Sambungkan apl kanvas anda kepada Application Insights. Anda boleh menggunakan analitis ini untuk mendiagnosis isu dan memahami perkara yang pengguna lakukan dengan apl anda. Anda boleh mengumpul maklumat untuk membantu anda memacu keputusan perniagaan yang lebih baik dan meningkatkan kualiti apl anda.

  • Konfigurasikan Power Automate telemetri untuk mengalir ke; Application Insights contohnya, untuk memantau pelaksanaan aliran awan dan mencipta makluman untuk kegagalan larian aliran awan.

  • Tangkap data telemetri daripada ejen Microsoft Copilot Studio anda untuk digunakan dalam Azure Application Insights. Anda boleh menggunakan telemetri ini untuk memantau mesej log dan peristiwa yang dihantar ke dan daripada ejen anda, topik yang akan dicetuskan semasa perbualan pengguna dan peristiwa telemetri tersuai yang boleh dihantar daripada topik anda.

Application Insights ialah penyelesaian komprehensif untuk mengumpul, menganalisis dan bertindak balas terhadap data pemantauan daripada persekitaran awan dan di premis. Ia termasuk platform amaran teguh yang boleh anda konfigurasikan untuk pemberitahuan automatik dan tindakan lain.

Power Platform Kit Automasi ialah set alat yang mempercepatkan penggunaan dan sokongan Power Automate untuk desktop untuk projek automasi. Kit menyediakan alatan yang membantu anda menguruskan projek automasi dan memantaunya untuk menganggarkan wang yang disimpan dan pulangan pelaburan (ROI). Sebahagian daripada Kit Automasi ialah pusat kawalan, yang melengkapkan ciri larian aliran desktop Monitor sedia ada. Fokus utama pusat kawalan ialah paparan orkestra untuk penganalisis sokongan dan organisasi untuk memantau, mengambil tindakan dan memberi amaran apabila perlu.

Langkah-langkah berikutnya