Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Berlaku untuk rekomendasi daftar periksa Keandalan yang Dirancang dengan Baik ini Power Platform :
RE:03 | Gunakan analisis mode kegagalan (FMA) untuk mengidentifikasi dan memprioritaskan potensi kegagalan pada komponen solusi Anda. Lakukan FMA untuk membantu Anda menilai risiko dan efek dari setiap mode kegagalan. Tentukan bagaimana beban kerja merespons dan memulihkan. |
---|
Panduan ini menjelaskan praktik terbaik untuk melakukan analisis mode kegagalan (FMA) untuk beban kerja Anda. FMA adalah praktik mengidentifikasi potensi titik kegagalan dalam beban kerja Anda dan alur terkait serta merencanakan tindakan mitigasi yang sesuai. Pada setiap langkah aliran, Anda mengidentifikasi radius ledakan dari beberapa jenis kegagalan, yang membantu Anda merancang beban kerja baru atau memfaktorkan ulang beban kerja yang ada untuk meminimalkan efek kegagalan yang meluas.
Prinsip utama FMA adalah bahwa kegagalan terjadi tidak peduli berapa banyak lapisan ketahanan yang Anda terapkan. Lingkungan yang lebih kompleks terkena lebih banyak jenis kegagalan. Mengingat kenyataan ini, FMA memungkinkan Anda merancang beban kerja Anda untuk menahan sebagian besar jenis kegagalan dan pulih dengan anggun ketika kegagalan terjadi.
Jika Anda melewatkan FMA sama sekali atau melakukan analisis yang tidak lengkap, beban kerja Anda berisiko mengalami perilaku yang tidak terduga dan potensi pemadaman yang disebabkan oleh desain yang tidak optimal.
Definisi
Istilah | Devinisi |
---|---|
Mode kegagalan | Jenis masalah yang dapat menyebabkan satu atau beberapa komponen beban kerja terdegradasi atau sangat terpengaruh hingga tidak tersedia. |
Mitigasi | Aktivitas yang telah Anda identifikasi untuk mengatasi masalah baik secara proaktif maupun reaktif. |
Deteksi | Proses dan prosedur pemantauan dan pemberitahuan data dan aplikasi Anda. |
Strategi desain utama
Dalam konteks FMA, memahami prasyarat sangat penting. Mulailah dengan meninjau dan menerapkan rekomendasi untuk mengidentifikasi alur, memprioritaskannya berdasarkan kekritisan. Artefak data Anda memainkan peran penting dalam mendeskripsikan jalur data dalam alur ini. Saat Anda mempelajari pendekatan FMA, fokuslah pada perencanaan komponen untuk alur kritis, mengidentifikasi dependensi (baik internal maupun eksternal), dan merancang strategi mitigasi.
Prasyarat
Tinjau dan terapkan rekomendasi untuk mengidentifikasi dan menilai alur. Diasumsikan bahwa Anda telah mengidentifikasi dan memprioritaskan alur pengguna dan sistem berdasarkan kekritisan.
Data yang telah Anda kumpulkan dan artefak yang telah Anda buat dalam pekerjaan Anda memberi Anda deskripsi konkret tentang jalur data Anda yang terlibat di seluruh aliran. Agar berhasil dalam pekerjaan FMA Anda, akurasi dan ketelitian artefak Anda sangat penting.
Pendekatan FMA
Setelah menentukan alur kritis, Anda dapat merencanakan komponen yang diperlukan. Selanjutnya, ikuti setiap alur langkah demi langkah untuk mengidentifikasi dependensi, termasuk layanan pihak ketiga dan potensi titik kegagalan, dan rencanakan strategi mitigasi Anda.
Menguraikan beban kerja
Saat Anda beralih dari ide ke desain, Anda perlu mengidentifikasi jenis komponen yang diperlukan untuk mendukung beban kerja Anda. Beban kerja Anda menentukan komponen yang diperlukan yang harus Anda rencanakan.
Setelah membuat desain arsitektur awal, Anda dapat melapisi alur untuk mengidentifikasi komponen diskrit yang digunakan dalam alur tersebut dan membuat daftar atau diagram alur kerja yang menjelaskan alur dan komponennya. Untuk memahami kekritisan komponen, gunakan definisi kekritisan yang telah Anda tetapkan ke alur. Pertimbangkan efek kerusakan komponen pada alur Anda.
Mengidentifikasi dependensi
Identifikasi dependensi beban kerja Anda untuk melakukan analisis titik kegagalan tunggal Anda. Menguraikan beban kerja Anda dan alur overlay memberikan wawasan tentang dependensi yang internal dan eksternal beban kerja.
Dependensi internal adalah komponen dalam cakupan beban kerja yang diperlukan agar beban kerja berfungsi. Dependensi internal yang umum mencakup API atau solusi manajemen rahasia/kunci seperti Azure Key Vault. Untuk dependensi ini, tangkap data keandalan, seperti perjanjian tingkat layanan (SLA) ketersediaan dan batas penskalaan. Dependensi eksternal adalah komponen yang diperlukan di luar cakupan beban kerja, seperti aplikasi lain atau layanan pihak ketiga. Dependensi eksternal yang khas mencakup solusi autentikasi, seperti Microsoft Entra ID, dan Power Platform infrastruktur.
Identifikasi dan dokumentasikan dependensi dalam beban kerja Anda dan sertakan dalam artefak dokumentasi alur Anda.
Poin kegagalan
Dalam alur kritis beban kerja Anda, pertimbangkan setiap komponen dan tentukan bagaimana komponen tersebut, dan dependensinya, mungkin dipengaruhi oleh mode kegagalan. Ingatlah bahwa ada banyak mode kegagalan yang perlu dipertimbangkan saat merencanakan ketahanan dan pemulihan. Setiap satu komponen dapat dipengaruhi oleh lebih dari satu mode kegagalan pada waktu tertentu. Mode kegagalan ini meliputi:
- Pemadaman regional: Seluruh Power Platform wilayah atau wilayah Azure tidak tersedia
- Pemadaman layanan: Satu atau beberapa Power Platform layanan Azure tidak tersedia
- Penolakan layanan terdistribusi (DDoS) atau serangan berbahaya lainnya
- Salah konfigurasi aplikasi atau komponen
- Kesalahan operator
- Pemadaman pemeliharaan terencana
- Kelebihan komponen
Pertimbangkan kemungkinan setiap jenis mode kegagalan. Beberapa sangat tidak mungkin, seperti pemadaman multi-zona atau multi-wilayah, dan menambahkan perencanaan mitigasi di luar redundansi bukanlah penggunaan sumber daya dan waktu yang baik.
Mitigasi
Strategi mitigasi terbagi dalam dua kategori besar: membangun lebih banyak ketahanan dan merancang untuk kinerja yang menurun.
Membangun ketahanan yang lebih besar berarti memastikan bahwa desain aplikasi Anda mengikuti praktik terbaik untuk daya tahan; Misalnya, memecah aplikasi monolitik menjadi aplikasi dan layanan mikro yang terisolasi dan menggunakan konfigurasi ketahanan yang disediakan platform, seperti kebijakan coba lagi. Untuk informasi selengkapnya, lihat Rekomendasi untuk redundansi dan Rekomendasi untuk pelestarian diri.
Untuk mendesain performa yang menurun, identifikasi potensi titik kegagalan yang mungkin menonaktifkan satu atau beberapa komponen alur Anda, tetapi jangan menonaktifkan alur tersebut sepenuhnya. Untuk mempertahankan fungsionalitas alur end-to-end, Anda mungkin perlu merutekan ulang satu atau beberapa langkah ke komponen lain atau menerima bahwa komponen yang gagal menjalankan fungsi, sehingga fungsi tersebut tidak lagi tersedia di pengalaman pengguna. Untuk kembali ke contoh aplikasi e-commerce, komponen yang gagal seperti layanan mikro dapat menyebabkan mesin rekomendasi Anda tidak tersedia, tetapi pelanggan masih dapat mencari produk dan menyelesaikan transaksi mereka.
Anda juga perlu merencanakan mitigasi seputar dependensi. Dependensi yang kuat memainkan peran penting dalam fungsi dan ketersediaan aplikasi. Jika mereka tidak ada atau mengalami malfungsi, mungkin ada efek yang signifikan. Tidak adanya dependensi yang lemah mungkin hanya memengaruhi fitur tertentu dan tidak memengaruhi ketersediaan secara keseluruhan. Perbedaan ini mencerminkan biaya untuk mempertahankan hubungan ketersediaan tinggi antara layanan dan dependensinya. Klasifikasikan dependensi sebagai kuat atau lemah untuk membantu Anda mengidentifikasi komponen mana yang penting untuk aplikasi.
Jika aplikasi memiliki dependensi kuat yang tidak dapat beroperasi tanpanya, target ketersediaan dan pemulihan dependensi ini harus selaras dengan target aplikasi itu sendiri. Jika siklus hidup aplikasi digabungkan erat dengan siklus hidup dependensinya, kelincahan operasional aplikasi mungkin terbatas, terutama untuk rilis baru.
Deteksi
Deteksi kegagalan sangat penting untuk memastikan bahwa Anda telah mengidentifikasi titik kegagalan dengan benar dalam analisis Anda dan merencanakan strategi mitigasi Anda dengan benar. Deteksi dalam konteks ini berarti pemantauan infrastruktur, data, dan aplikasi Anda, dan pemberitahuan ketika masalah muncul. Otomatiskan deteksi sebanyak mungkin, dan bangun redundansi ke dalam proses operasi Anda untuk memastikan bahwa peringatan selalu ditangkap dan ditanggapi dengan cukup cepat untuk memenuhi kebutuhan bisnis Anda. Untuk informasi selengkapnya, lihat Rekomendasi untuk pemantauan.
Hasil
Untuk hasil analisis Anda, buat serangkaian dokumen yang secara efektif mengomunikasikan temuan Anda, keputusan yang telah Anda buat relatif terhadap komponen alur dan mitigasi, dan efek kegagalan pada beban kerja Anda.
Dalam analisis Anda, prioritaskan mode kegagalan dan strategi mitigasi yang telah Anda identifikasi berdasarkan tingkat keparahan dan kemungkinan. Gunakan prioritas ini untuk memfokuskan dokumentasi Anda pada mode kegagalan yang umum dan cukup parah untuk menjamin menghabiskan waktu, tenaga, dan sumber daya untuk merancang strategi mitigasi. Misalnya, mungkin ada beberapa mode kegagalan yang sangat jarang terjadi atau terdeteksi. Merancang strategi mitigasi di sekitar mereka tidak sepadan dengan biayanya.
Lihat tabel contoh untuk titik awal dokumentasi.
Selama latihan FMA awal Anda, dokumen yang Anda hasilkan sebagian besar akan berupa perencanaan teoretis. Dokumen FMA harus ditinjau dan diperbarui secara berkala untuk memastikan bahwa dokumen tersebut tetap up-to-date dengan beban kerja Anda. Pengujian kekacauan dan pengalaman dunia nyata akan membantu Anda menyempurnakan analisis Anda dari waktu ke waktu.
Contoh
Tabel berikut menunjukkan contoh FMA untuk aplikasi pengeluaran yang dihosting sebagai Power Apps aplikasi kanvas dengan Microsoft Dataverse backend dan API yang dihosting di APIM untuk berinteraksi dengan sistem pihak ketiga.
Alur pengguna: Login pengguna, pengajuan klaim pengeluaran, dan interaksi dengan laporan pengeluaran
Komponen | Risiko | Kecenderungan | Efek/Mitigasi/Catatan | Penonaktifan |
---|---|---|---|---|
Microsoft Entra ID | Pemadaman layanan | Kurang Penting | Pemadaman beban kerja penuh. Bergantung pada Microsoft untuk memperbaikinya. | Penuh |
Microsoft Entra ID | Salah konfigurasi | Sedang | Pengguna tidak dapat masuk. Tidak ada efek hilir. Meja bantuan melaporkan masalah konfigurasi ke tim identitas. | Tidak ada |
Power Apps | Pemadaman layanan | Kurang Penting | Pemadaman penuh untuk pengguna eksternal. Bergantung pada Microsoft untuk memperbaikinya. | Penuh |
Power Apps | Pemadaman regional | Sangat rendah | Pemadaman penuh untuk pengguna eksternal. Bergantung pada Microsoft untuk memperbaikinya. | Penuh |
Power Apps | Serangan DDoS | Sedang | Potensi gangguan. Microsoft mengelola perlindungan DDoS (L3 dan L4). | Potensi pemadaman sebagian |
Dataverse | Pemadaman layanan | Kurang Penting | Pemadaman beban kerja penuh. Bergantung pada Microsoft untuk memperbaikinya. | Penuh |
Dataverse | Pemadaman regional | Sangat rendah | Grup failover otomatis failover ke wilayah sekunder. Potensi pemadaman selama failover. Tujuan waktu pemulihan (RTO) dan tujuan titik pemulihan (RPO) akan ditentukan selama pengujian keandalan. | Potensi penuh |
Dataverse | Serangan berbahaya (injeksi) | Sedang | Risiko minimal. | Potensi risiko rendah |
Pengelolaan API | Pemadaman layanan | Kurang Penting | Pemadaman penuh untuk pengguna eksternal. Bergantung pada Microsoft untuk memperbaikinya. | Penuh |
Pengelolaan API | Pemadaman regional | Sangat rendah | Pemadaman penuh untuk pengguna eksternal. Bergantung pada Microsoft untuk memperbaikinya. | Penuh |
Pengelolaan API | Serangan DDoS | Sedang | Potensi gangguan. Microsoft mengelola perlindungan DDoS (L3 dan L4). | Potensi pemadaman sebagian |
Solusi Anda Power Platform | Salah konfigurasi | Sedang | Kesalahan konfigurasi harus ditangkap selama penyebaran. Jika ini terjadi selama pembaruan konfigurasi, administrator harus mengembalikan perubahan. Pembaruan konfigurasi menyebabkan pemadaman eksternal singkat. | Potensi pemadaman penuh |
Power Platform Fasilitasi
Power Platform terintegrasi dengan Application Insights, yang merupakan bagian dari ekosistem Azure Monitor . Anda dapat menggunakan integrasi ini untuk:
Berlangganan untuk menerima telemetri yang ditangkap oleh Dataverse platform dalam Application Insights diagnostik, performa, dan operasi yang dilakukan aplikasi pada database Anda Dataverse dan dalam aplikasi berbasis model. Telemetri ini memberikan informasi yang dapat Anda gunakan untuk mendiagnosis dan memecahkan masalah yang terkait dengan kesalahan dan performa.
Hubungkan aplikasi kanvas Anda untuk Application Insights menggunakan analitik ini untuk mendiagnosis masalah, memahami apa yang sebenarnya dilakukan pengguna dengan aplikasi Anda, mendorong keputusan bisnis yang lebih baik, dan meningkatkan kualitas aplikasi Anda.
Konfigurasikan Power Automate telemetri untuk mengalir Application Insights. Anda dapat menggunakan telemetri ini untuk memantau eksekusi alur cloud dan membuat pemberitahuan untuk kegagalan eksekusi alur cloud.
Tangkap data telemetri dari agen Microsoft Copilot Studio Anda untuk digunakan di Azure Application Insights. Anda dapat menggunakan telemetri ini untuk memantau pesan dan peristiwa yang dicatat yang dikirim ke dan dari agen Anda, topik yang akan dipicu selama percakapan pengguna, dan peristiwa telemetri kustom yang dapat dikirim dari topik Anda.
Power Platform aktivitas log sumber daya di portal kepatuhanMicrosoft Purview. Sebagian besar acara tersedia dalam waktu 24 jam setelah kegiatan. Jangan gunakan informasi ini untuk pemantauan waktu nyata. Untuk informasi selengkapnya tentang aktivitas loging Power Platform, lihat:
- Power Apps
- Power Automate
- Copilot Studio
- Power Pages
- Power Platform Konektor
- Pencegahan kehilangan data
- Power Platform Log administratif
- Dataverse Audit
Daftar periksa keandalan
Lihat rangkaian lengkap rekomendasi.