Rekomendasi untuk melakukan analisis mode kegagalan

2024-10-16

Berlaku untuk rekomendasi daftar periksa Keandalan yang Dirancang dengan Baik ini Power Platform :

RE:03	Gunakan analisis mode kegagalan (FMA) untuk mengidentifikasi dan memprioritaskan potensi kegagalan pada komponen solusi Anda. Lakukan FMA untuk membantu Anda menilai risiko dan efek dari setiap mode kegagalan. Tentukan bagaimana beban kerja merespons dan memulihkan.

Panduan ini menjelaskan praktik terbaik untuk melakukan analisis mode kegagalan (FMA) untuk beban kerja Anda. FMA adalah praktik mengidentifikasi potensi titik kegagalan dalam beban kerja Anda dan alur terkait serta merencanakan tindakan mitigasi yang sesuai. Pada setiap langkah aliran, Anda mengidentifikasi radius ledakan dari beberapa jenis kegagalan, yang membantu Anda merancang beban kerja baru atau memfaktorkan ulang beban kerja yang ada untuk meminimalkan efek kegagalan yang meluas.

Prinsip utama FMA adalah bahwa kegagalan terjadi tidak peduli berapa banyak lapisan ketahanan yang Anda terapkan. Lingkungan yang lebih kompleks terkena lebih banyak jenis kegagalan. Mengingat kenyataan ini, FMA memungkinkan Anda merancang beban kerja Anda untuk menahan sebagian besar jenis kegagalan dan pulih dengan anggun ketika kegagalan terjadi.

Jika Anda melewatkan FMA sama sekali atau melakukan analisis yang tidak lengkap, beban kerja Anda berisiko mengalami perilaku yang tidak terduga dan potensi pemadaman yang disebabkan oleh desain yang tidak optimal.

Definisi

Istilah	Devinisi
Mode kegagalan	Jenis masalah yang dapat menyebabkan satu atau beberapa komponen beban kerja terdegradasi atau sangat terpengaruh hingga tidak tersedia.
Mitigasi	Aktivitas yang telah Anda identifikasi untuk mengatasi masalah baik secara proaktif maupun reaktif.
Deteksi	Proses dan prosedur pemantauan dan pemberitahuan data dan aplikasi Anda.

Strategi desain utama

Dalam konteks FMA, memahami prasyarat sangat penting. Mulailah dengan meninjau dan menerapkan rekomendasi untuk mengidentifikasi alur, memprioritaskannya berdasarkan kekritisan. Artefak data Anda memainkan peran penting dalam mendeskripsikan jalur data dalam alur ini. Saat Anda mempelajari pendekatan FMA, fokuslah pada perencanaan komponen untuk alur kritis, mengidentifikasi dependensi (baik internal maupun eksternal), dan merancang strategi mitigasi.

Prasyarat

Tinjau dan terapkan rekomendasi untuk mengidentifikasi dan menilai alur. Diasumsikan bahwa Anda telah mengidentifikasi dan memprioritaskan alur pengguna dan sistem berdasarkan kekritisan.

Data yang telah Anda kumpulkan dan artefak yang telah Anda buat dalam pekerjaan Anda memberi Anda deskripsi konkret tentang jalur data Anda yang terlibat di seluruh aliran. Agar berhasil dalam pekerjaan FMA Anda, akurasi dan ketelitian artefak Anda sangat penting.

Pendekatan FMA

Setelah menentukan alur kritis, Anda dapat merencanakan komponen yang diperlukan. Selanjutnya, ikuti setiap alur langkah demi langkah untuk mengidentifikasi dependensi, termasuk layanan pihak ketiga dan potensi titik kegagalan, dan rencanakan strategi mitigasi Anda.

Menguraikan beban kerja

Saat Anda beralih dari ide ke desain, Anda perlu mengidentifikasi jenis komponen yang diperlukan untuk mendukung beban kerja Anda. Beban kerja Anda menentukan komponen yang diperlukan yang harus Anda rencanakan.

Setelah membuat desain arsitektur awal, Anda dapat melapisi alur untuk mengidentifikasi komponen diskrit yang digunakan dalam alur tersebut dan membuat daftar atau diagram alur kerja yang menjelaskan alur dan komponennya. Untuk memahami kekritisan komponen, gunakan definisi kekritisan yang telah Anda tetapkan ke alur. Pertimbangkan efek kerusakan komponen pada alur Anda.

Mengidentifikasi dependensi

Identifikasi dependensi beban kerja Anda untuk melakukan analisis titik kegagalan tunggal Anda. Menguraikan beban kerja Anda dan alur overlay memberikan wawasan tentang dependensi yang internal dan eksternal beban kerja.

Dependensi internal adalah komponen dalam cakupan beban kerja yang diperlukan agar beban kerja berfungsi. Dependensi internal yang umum mencakup API atau solusi manajemen rahasia/kunci seperti Azure Key Vault. Untuk dependensi ini, tangkap data keandalan, seperti perjanjian tingkat layanan (SLA) ketersediaan dan batas penskalaan. Dependensi eksternal adalah komponen yang diperlukan di luar cakupan beban kerja, seperti aplikasi lain atau layanan pihak ketiga. Dependensi eksternal yang khas mencakup solusi autentikasi, seperti Microsoft Entra ID, dan Power Platform infrastruktur.

Identifikasi dan dokumentasikan dependensi dalam beban kerja Anda dan sertakan dalam artefak dokumentasi alur Anda.

Poin kegagalan

Dalam alur kritis beban kerja Anda, pertimbangkan setiap komponen dan tentukan bagaimana komponen tersebut, dan dependensinya, mungkin dipengaruhi oleh mode kegagalan. Ingatlah bahwa ada banyak mode kegagalan yang perlu dipertimbangkan saat merencanakan ketahanan dan pemulihan. Setiap satu komponen dapat dipengaruhi oleh lebih dari satu mode kegagalan pada waktu tertentu. Mode kegagalan ini meliputi:

Pemadaman regional: Seluruh Power Platform wilayah atau wilayah Azure tidak tersedia
Pemadaman layanan: Satu atau beberapa Power Platform layanan Azure tidak tersedia
Penolakan layanan terdistribusi (DDoS) atau serangan berbahaya lainnya
Salah konfigurasi aplikasi atau komponen
Kesalahan operator
Pemadaman pemeliharaan terencana
Kelebihan komponen

Pertimbangkan kemungkinan setiap jenis mode kegagalan. Beberapa sangat tidak mungkin, seperti pemadaman multi-zona atau multi-wilayah, dan menambahkan perencanaan mitigasi di luar redundansi bukanlah penggunaan sumber daya dan waktu yang baik.

Mitigasi

Strategi mitigasi terbagi dalam dua kategori besar: membangun lebih banyak ketahanan dan merancang untuk kinerja yang menurun.

Membangun ketahanan yang lebih besar berarti memastikan bahwa desain aplikasi Anda mengikuti praktik terbaik untuk daya tahan; Misalnya, memecah aplikasi monolitik menjadi aplikasi dan layanan mikro yang terisolasi dan menggunakan konfigurasi ketahanan yang disediakan platform, seperti kebijakan coba lagi. Untuk informasi selengkapnya, lihat Rekomendasi untuk redundansi dan Rekomendasi untuk pelestarian diri.

Untuk mendesain performa yang menurun, identifikasi potensi titik kegagalan yang mungkin menonaktifkan satu atau beberapa komponen alur Anda, tetapi jangan menonaktifkan alur tersebut sepenuhnya. Untuk mempertahankan fungsionalitas alur end-to-end, Anda mungkin perlu merutekan ulang satu atau beberapa langkah ke komponen lain atau menerima bahwa komponen yang gagal menjalankan fungsi, sehingga fungsi tersebut tidak lagi tersedia di pengalaman pengguna. Untuk kembali ke contoh aplikasi e-commerce, komponen yang gagal seperti layanan mikro dapat menyebabkan mesin rekomendasi Anda tidak tersedia, tetapi pelanggan masih dapat mencari produk dan menyelesaikan transaksi mereka.

Anda juga perlu merencanakan mitigasi seputar dependensi. Dependensi yang kuat memainkan peran penting dalam fungsi dan ketersediaan aplikasi. Jika mereka tidak ada atau mengalami malfungsi, mungkin ada efek yang signifikan. Tidak adanya dependensi yang lemah mungkin hanya memengaruhi fitur tertentu dan tidak memengaruhi ketersediaan secara keseluruhan. Perbedaan ini mencerminkan biaya untuk mempertahankan hubungan ketersediaan tinggi antara layanan dan dependensinya. Klasifikasikan dependensi sebagai kuat atau lemah untuk membantu Anda mengidentifikasi komponen mana yang penting untuk aplikasi.

Jika aplikasi memiliki dependensi kuat yang tidak dapat beroperasi tanpanya, target ketersediaan dan pemulihan dependensi ini harus selaras dengan target aplikasi itu sendiri. Jika siklus hidup aplikasi digabungkan erat dengan siklus hidup dependensinya, kelincahan operasional aplikasi mungkin terbatas, terutama untuk rilis baru.

Deteksi

Deteksi kegagalan sangat penting untuk memastikan bahwa Anda telah mengidentifikasi titik kegagalan dengan benar dalam analisis Anda dan merencanakan strategi mitigasi Anda dengan benar. Deteksi dalam konteks ini berarti pemantauan infrastruktur, data, dan aplikasi Anda, dan pemberitahuan ketika masalah muncul. Otomatiskan deteksi sebanyak mungkin, dan bangun redundansi ke dalam proses operasi Anda untuk memastikan bahwa peringatan selalu ditangkap dan ditanggapi dengan cukup cepat untuk memenuhi kebutuhan bisnis Anda. Untuk informasi selengkapnya, lihat Rekomendasi untuk pemantauan.

Hasil

Untuk hasil analisis Anda, buat serangkaian dokumen yang secara efektif mengomunikasikan temuan Anda, keputusan yang telah Anda buat relatif terhadap komponen alur dan mitigasi, dan efek kegagalan pada beban kerja Anda.

Dalam analisis Anda, prioritaskan mode kegagalan dan strategi mitigasi yang telah Anda identifikasi berdasarkan tingkat keparahan dan kemungkinan. Gunakan prioritas ini untuk memfokuskan dokumentasi Anda pada mode kegagalan yang umum dan cukup parah untuk menjamin menghabiskan waktu, tenaga, dan sumber daya untuk merancang strategi mitigasi. Misalnya, mungkin ada beberapa mode kegagalan yang sangat jarang terjadi atau terdeteksi. Merancang strategi mitigasi di sekitar mereka tidak sepadan dengan biayanya.

Lihat tabel contoh untuk titik awal dokumentasi.

Selama latihan FMA awal Anda, dokumen yang Anda hasilkan sebagian besar akan berupa perencanaan teoretis. Dokumen FMA harus ditinjau dan diperbarui secara berkala untuk memastikan bahwa dokumen tersebut tetap up-to-date dengan beban kerja Anda. Pengujian kekacauan dan pengalaman dunia nyata akan membantu Anda menyempurnakan analisis Anda dari waktu ke waktu.

Contoh

Tabel berikut menunjukkan contoh FMA untuk aplikasi pengeluaran yang dihosting sebagai Power Apps aplikasi kanvas dengan Microsoft Dataverse backend dan API yang dihosting di APIM untuk berinteraksi dengan sistem pihak ketiga.

Alur pengguna: Login pengguna, pengajuan klaim pengeluaran, dan interaksi dengan laporan pengeluaran

Komponen	Risiko	Kecenderungan	Efek/Mitigasi/Catatan	Penonaktifan
Microsoft Entra ID	Pemadaman layanan	Kurang Penting	Pemadaman beban kerja penuh. Bergantung pada Microsoft untuk memperbaikinya.	Penuh
Microsoft Entra ID	Salah konfigurasi	Sedang	Pengguna tidak dapat masuk. Tidak ada efek hilir. Meja bantuan melaporkan masalah konfigurasi ke tim identitas.	Tidak ada
Power Apps	Pemadaman layanan	Kurang Penting	Pemadaman penuh untuk pengguna eksternal. Bergantung pada Microsoft untuk memperbaikinya.	Penuh
Power Apps	Pemadaman regional	Sangat rendah	Pemadaman penuh untuk pengguna eksternal. Bergantung pada Microsoft untuk memperbaikinya.	Penuh
Power Apps	Serangan DDoS	Sedang	Potensi gangguan. Microsoft mengelola perlindungan DDoS (L3 dan L4).	Potensi pemadaman sebagian
Dataverse	Pemadaman layanan	Kurang Penting	Pemadaman beban kerja penuh. Bergantung pada Microsoft untuk memperbaikinya.	Penuh
Dataverse	Pemadaman regional	Sangat rendah	Grup failover otomatis failover ke wilayah sekunder. Potensi pemadaman selama failover. Tujuan waktu pemulihan (RTO) dan tujuan titik pemulihan (RPO) akan ditentukan selama pengujian keandalan.	Potensi penuh
Dataverse	Serangan berbahaya (injeksi)	Sedang	Risiko minimal.	Potensi risiko rendah
Pengelolaan API	Pemadaman layanan	Kurang Penting	Pemadaman penuh untuk pengguna eksternal. Bergantung pada Microsoft untuk memperbaikinya.	Penuh
Pengelolaan API	Pemadaman regional	Sangat rendah	Pemadaman penuh untuk pengguna eksternal. Bergantung pada Microsoft untuk memperbaikinya.	Penuh
Pengelolaan API	Serangan DDoS	Sedang	Potensi gangguan. Microsoft mengelola perlindungan DDoS (L3 dan L4).	Potensi pemadaman sebagian
Solusi Anda Power Platform	Salah konfigurasi	Sedang	Kesalahan konfigurasi harus ditangkap selama penyebaran. Jika ini terjadi selama pembaruan konfigurasi, administrator harus mengembalikan perubahan. Pembaruan konfigurasi menyebabkan pemadaman eksternal singkat.	Potensi pemadaman penuh

Power Platform Fasilitasi

Power Platform terintegrasi dengan Application Insights, yang merupakan bagian dari ekosistem Azure Monitor . Anda dapat menggunakan integrasi ini untuk:

Berlangganan untuk menerima telemetri yang ditangkap oleh Dataverse platform dalam Application Insights diagnostik, performa, dan operasi yang dilakukan aplikasi pada database Anda Dataverse dan dalam aplikasi berbasis model. Telemetri ini memberikan informasi yang dapat Anda gunakan untuk mendiagnosis dan memecahkan masalah yang terkait dengan kesalahan dan performa.
Hubungkan aplikasi kanvas Anda untuk Application Insights menggunakan analitik ini untuk mendiagnosis masalah, memahami apa yang sebenarnya dilakukan pengguna dengan aplikasi Anda, mendorong keputusan bisnis yang lebih baik, dan meningkatkan kualitas aplikasi Anda.
Konfigurasikan Power Automate telemetri untuk mengalir Application Insights. Anda dapat menggunakan telemetri ini untuk memantau eksekusi alur cloud dan membuat pemberitahuan untuk kegagalan eksekusi alur cloud.
Tangkap data telemetri dari agen Microsoft Copilot Studio Anda untuk digunakan di Azure Application Insights. Anda dapat menggunakan telemetri ini untuk memantau pesan dan peristiwa yang dicatat yang dikirim ke dan dari agen Anda, topik yang akan dipicu selama percakapan pengguna, dan peristiwa telemetri kustom yang dapat dikirim dari topik Anda.

Power Platform aktivitas log sumber daya di portal kepatuhanMicrosoft Purview. Sebagian besar acara tersedia dalam waktu 24 jam setelah kegiatan. Jangan gunakan informasi ini untuk pemantauan waktu nyata. Untuk informasi selengkapnya tentang aktivitas loging Power Platform, lihat:

Daftar periksa keandalan

Lihat rangkaian lengkap rekomendasi.

Daftar periksa keandalan

Bagikan melalui

Rekomendasi untuk melakukan analisis mode kegagalan

Strategi desain utama

Prasyarat

Pendekatan FMA

Menguraikan beban kerja

Mengidentifikasi dependensi

Poin kegagalan

Mitigasi

Deteksi

Hasil

Contoh

Power Platform Fasilitasi

Daftar periksa keandalan

Saran dan Komentar

Sumber Daya Tambahan: