Poznámka
Na prístup k tejto stránke sa vyžaduje oprávnenie. Môžete sa skúsiť prihlásiť alebo zmeniť adresáre.
Na prístup k tejto stránke sa vyžaduje oprávnenie. Môžete skúsiť zmeniť adresáre.
Vzťahuje sa na toto odporúčanie kontrolného zoznamu dobre navrhnutej spoľahlivosti: Power Platform
RE:03 | Na identifikáciu a stanovenie priorít potenciálnych zlyhaní v komponentoch vášho riešenia použite analýzu režimov zlyhania (FMA). Vykonajte FMA, ktorá vám pomôže posúdiť riziko a vplyv každého spôsobu poruchy. Určte, ako pracovná záťaž reaguje a ako sa obnovuje. |
---|
Táto príručka popisuje osvedčené postupy na vykonávanie analýzy poruchových režimov (FMA) pre vašu pracovnú záťaž. FMA je postup identifikácie potenciálnych bodov zlyhania v rámci vašej pracovnej záťaže a súvisiacich tokov a podľa toho plánovania zmierňujúcich opatrení. V každom kroku postupu identifikujete polomer rozsiahleho poškodenia viacerých typov zlyhaní, čo vám pomôže navrhnúť nové zaťaženie alebo refaktorovať existujúce zaťaženie s cieľom minimalizovať rozsiahly vplyv zlyhaní.
Kľúčovou zásadou FMA je, že k zlyhaniam dochádza bez ohľadu na to, koľko vrstiev odolnosti použijete. Zložitejšie prostredia sú vystavené viacerým typom porúch. Vzhľadom na túto skutočnosť vám FMA umožňuje navrhnúť pracovnú záťaž tak, aby odolala väčšine typov porúch a elegantne sa obnovila, keď k poruche dôjde.
Ak FMA úplne vynecháte alebo vykonáte neúplnú analýzu, vaša pracovná záťaž je vystavená riziku nepredvídaného správania a potenciálnych výpadkov spôsobených neoptimálnym návrhom.
Definície
Pojem | Definícia |
---|---|
Režim poruchy | Typ problému, ktorý môže spôsobiť zníženie prevádzkyschopnosti jednej alebo viacerých komponentov pracovnej záťaže alebo ich vážne ovplyvnenie až do bodu, kedy nebudú k dispozícii. |
Zmiernenie | Aktivity, ktoré ste identifikovali na riešenie problémov buď proaktívne, alebo reaktívne. |
Detekcia | Procesy a postupy monitorovania a upozorňovania vašich údajov a aplikácií. |
Kľúčové dizajnérske stratégie
V kontexte FMA je pochopenie predpokladov kľúčové. Začnite preskúmaním a implementáciou odporúčaní na identifikáciu tokov a ich prioritizáciou na základe kritickosti. Vaše dátové artefakty zohrávajú kľúčovú úlohu pri popise dátových ciest v rámci týchto tokov. Pri skúmaní prístupu FMA sa zamerajte na plánovanie komponentov pre kritické toky, identifikáciu závislostí (interných aj externých) a navrhovanie stratégií zmierňovania.
Požiadavky
Preskúmajte a implementujte odporúčania na identifikáciu a hodnotenie tokov . Predpokladá sa, že ste identifikovali a uprednostnili používateľské a systémové toky na základe kritickosti.
Údaje, ktoré ste zhromaždili, a artefakty, ktoré ste vytvorili počas svojej práce, vám poskytujú konkrétny popis vašich dátových ciest zapojených do tokov. Pre úspech vo vašej práci s FMA je presnosť a dôkladnosť vašich artefaktov kľúčová.
Prístup FMA
Po určení kritických tokov môžete naplánovať ich požadované komponenty. Ďalej postupujte krok za krokom podľa každého postupu, aby ste identifikovali závislosti vrátane služieb tretích strán a potenciálnych bodov zlyhania a naplánovali stratégie zmiernenia.
Rozložte pracovnú záťaž
Pri prechode od nápadu k návrhu je potrebné identifikovať typy komponentov, ktoré sú potrebné na podporu vášho pracovného zaťaženia. Vaše pracovné zaťaženie určuje potrebné komponenty, ktoré musíte naplánovať.
Po vytvorení počiatočného návrhu architektúry môžete prekrývať svoje postupy, aby ste identifikovali samostatné komponenty, ktoré sa v týchto postupoch používajú, a vytvoriť zoznamy alebo diagramy postupov, ktoré popisujú postupy a ich komponenty. Na pochopenie kritickosti komponentov použite definície kritickosti, ktoré ste priradili k tokom. Zvážte vplyv poruchy komponentu na vaše toky.
Identifikujte závislosti
Identifikujte závislosti od pracovnej záťaže, aby ste mohli vykonať analýzu jedného bodu zlyhania. Rozloženie pracovnej záťaže a prekrývanie postupov poskytuje prehľad o závislostiach, ktoré sú interné a externé voči pracovnej záťaži.
Vnútorné závislosti sú komponenty v rozsahu pracovnej záťaže, ktoré sú potrebné na fungovanie pracovnej záťaže. Medzi typické interné závislosti patria rozhrania API alebo riešenia správy tajných kľúčov/kľúčov, ako napríklad Azure Key Vault. Pre tieto závislosti zaznamenajte údaje o spoľahlivosti, ako sú napríklad dohody o úrovni služieb (SLA) o dostupnosti a limity škálovania. Externé závislosti sú požadované komponenty mimo rozsahu pracovnej záťaže, ako napríklad iná aplikácia alebo služba tretej strany. Medzi typické externé závislosti patria riešenia autentifikácie, ako napríklad ID a infraštruktúra. Microsoft Entra Power Platform
Identifikujte a zdokumentujte závislosti vo vašej pracovnej záťaži a zahrňte ich do artefaktov dokumentácie postupov.
Body zlyhania
V kritických postupoch vašej pracovnej záťaže zvážte každý komponent a určte, ako by mohol byť tento komponent a jeho závislosti ovplyvnené režimom zlyhania. Pamätajte, že pri plánovaní odolnosti a obnovy je potrebné zvážiť mnoho spôsobov zlyhania. Akýkoľvek komponent môže byť ovplyvnený viacerými poruchovými režimami v danom čase. Tieto režimy zlyhania zahŕňajú:
- Regionálny výpadok: Celá oblasť Azure nie je k dispozícii Power Platform
- Výpadok služby: Jedna alebo viac služieb Azure nie je k dispozícii Power Platform
- Distribuovaný útok typu odmietnutie služby (DDoS) alebo iný škodlivý útok
- Nesprávna konfigurácia aplikácie alebo komponentu
- Chyba operátora
- Plánovaná odstávka z dôvodu údržby
- Preťaženie komponentov
Zvážte pravdepodobnosť každého typu poruchy. Niektoré sú veľmi nepravdepodobné, ako napríklad výpadky vo viacerých zónach alebo regiónoch, a pridanie plánovania zmierňovania nad rámec redundancie nie je dobrým využitím zdrojov a času.
Zmiernenie
Stratégie zmierňovania sa delia do dvoch širokých kategórií: budovanie väčšej odolnosti a navrhovanie s ohľadom na znížený výkon.
Budovanie väčšej odolnosti znamená zabezpečiť, aby návrh vašej aplikácie dodržiaval osvedčené postupy pre odolnosť; napríklad rozdelenie monolitických aplikácií na izolované aplikácie a mikroslužby a používanie konfigurácií odolnosti poskytovaných platformou, ako sú politiky opakovania. Viac informácií nájdete Odporúčania pre prepúšťanie a Odporúčania pre sebazáchovu.
Ak chcete navrhnúť systém s ohľadom na znížený výkon, identifikujte potenciálne body zlyhania, ktoré by mohli deaktivovať jednu alebo viacero komponentov vášho postupu, ale úplne ho nedeaktivujú. Na zachovanie funkčnosti celého toku môže byť potrebné presmerovať jeden alebo viac krokov na iné komponenty alebo akceptovať, že zlyhaný komponent spustí funkciu, takže funkcia už nie je v používateľskom rozhraní dostupná. Aby sme sa vrátili k príkladu aplikácie elektronického obchodu, zlyhanie komponentu, ako napríklad mikroslužby, môže spôsobiť, že váš systém odporúčaní nebude k dispozícii, ale zákazníci budú môcť stále vyhľadávať produkty a dokončiť transakciu.
Taktiež je potrebné naplánovať zmierňovanie závislostí. Silné závislosti hrajú kľúčovú úlohu vo funkčnosti a dostupnosti aplikácie. Ak chýbajú alebo majú poruchu, môže to mať významný vplyv. Absencia slabých závislostí môže ovplyvniť iba špecifické funkcie a nie celkovú dostupnosť. Toto rozlíšenie odráža náklady na udržiavanie vzťahu vysokej dostupnosti medzi službou a jej závislosťami. Klasifikujte závislosti ako silné alebo slabé, aby ste mohli identifikovať, ktoré komponenty sú pre aplikáciu nevyhnutné.
Ak má aplikácia silné závislosti, bez ktorých nemôže fungovať, ciele dostupnosti a obnovy týchto závislostí by mali byť v súlade s cieľmi samotnej aplikácie. Ak je životný cyklus aplikácie úzko spojený so životným cyklom jej závislostí, operačná agilita aplikácie môže byť obmedzená, najmä pri nových vydaniach.
Detekcia
Detekcia porúch je nevyhnutná na zabezpečenie správnej identifikácie bodov zlyhania vo vašej analýze a správneho naplánovania stratégií zmierňovania. Detekcia v tomto kontexte znamená monitorovanie vašej infraštruktúry, údajov a aplikácie a upozornenie na vznik problémov. Automatizujte detekciu v čo najväčšej možnej miere a zabudujte redundanciu do svojich prevádzkových procesov, aby ste zabezpečili, že upozornenia budú vždy zachytené a že sa na ne bude reagovať dostatočne rýchlo na to, aby spĺňali vaše obchodné požiadavky. Viac informácií nájdete Odporúčania pre monitorovanie.
Výsledok
Ako výsledok vašej analýzy vytvorte súbor dokumentov, ktoré efektívne komunikujú vaše zistenia, rozhodnutia, ktoré ste urobili v súvislosti s komponentmi toku a ich zmierňovaním, a vplyv zlyhania na vašu pracovnú záťaž.
Vo svojej analýze uprednostnite spôsoby zlyhania a stratégie zmiernenia, ktoré ste identifikovali, na základe závažnosti a pravdepodobnosti. Pomocou tejto prioritizácie zamerajte svoju dokumentáciu na tie režimy zlyhania, ktoré sú bežné a dostatočne závažné na to, aby ste venovali čas, úsilie a zdroje navrhovaniu stratégií zmierňovania ich vplyvu. Napríklad môžu existovať niektoré poruchové režimy, ktoré sa vyskytujú alebo detekujú veľmi zriedkavo. Navrhovanie stratégií zmierňovania okolo nich sa neoplatí.
Východiskový bod pre dokumentáciu nájdete v príkladovej tabuľke .
Počas vášho úvodného cvičenia FMA budú dokumenty, ktoré vypracujete, pozostávať prevažne z teoretického plánovania. Dokumenty FMA by sa mali pravidelne kontrolovať a aktualizovať, aby sa zabezpečila ich aktuálnosť vzhľadom na vašu pracovnú záťaž. Testovanie chaosu a skúsenosti z reálneho sveta vám pomôžu časom spresniť vaše analýzy.
Príklad
Nasledujúca tabuľka zobrazuje príklad FMA pre aplikáciu na správu výdavkov, ktorá je hosťovaná ako plátnová aplikácia s backendom a rozhraniami API hosťovanými v APIM na interakciu so systémom tretej strany. Power Apps Microsoft Dataverse
Postup používateľa: Prihlásenie používateľa, odoslanie žiadosti o preplatenie výdavkov a interakcia s výkazom výdavkov
Súčasť | Riziko | Pravdepodobnosť | Účinok/Zmiernenie/Poznámka | Výpadok |
---|---|---|---|---|
Microsoft Entra ID | Výpadok služby | Nízky | Úplný výpadok pracovnej záťaže. Závisí od spoločnosti Microsoft pri náprave. | Úplný |
Microsoft Entra ID | Nesprávna konfigurácia | Stredný | Používatelia sa nemôžu prihlásiť. Žiadny následný účinok. Oddelenie technickej podpory nahlási problém s konfiguráciou tímu pre identitu. | None |
Power Apps | Výpadok služby | Nízky | Úplný výpadok pre externých používateľov. Závisí od spoločnosti Microsoft pri náprave. | Úplný |
Power Apps | Regionálny výpadok | Veľmi nízky | Úplný výpadok pre externých používateľov. Závisí od spoločnosti Microsoft pri náprave. | Úplný |
Power Apps | DDoS útok | Stredný | Potenciál narušenia. Spoločnosť Microsoft spravuje ochranu pred DDoS útokmi (L3 a L4). | Potenciál čiastočného výpadku |
Dataverse | Výpadok služby | Nízky | Úplný výpadok pracovnej záťaže. Závisí od spoločnosti Microsoft pri náprave. | Úplný |
Dataverse | Regionálny výpadok | Veľmi nízky | Skupina automatického prepnutia pri zlyhaní prepne do sekundárnej oblasti. Potenciálny výpadok počas záložného prepnutia. Cieľové časy obnovy (RTO) a cieľové body obnovy (RPO) sa majú určiť počas testovania spoľahlivosti. | Potenciál plný |
Dataverse | Zlomyseľný útok (vstreknutie) | Stredný | Minimálne riziko. | Potenciálne nízke riziko |
Správa rozhrania API | Výpadok služby | Nízky | Úplný výpadok pre externých používateľov. Závisí od spoločnosti Microsoft pri náprave. | Úplný |
Správa rozhrania API | Regionálny výpadok | Veľmi nízky | Úplný výpadok pre externých používateľov. Závisí od spoločnosti Microsoft pri náprave. | Úplný |
Správa rozhrania API | DDoS útok | Stredný | Potenciál narušenia. Spoločnosť Microsoft spravuje ochranu pred DDoS útokmi (L3 a L4). | Potenciál čiastočného výpadku |
Vaše riešenie Power Platform | Nesprávna konfigurácia | Stredný | Chybné konfigurácie by sa mali zachytiť počas nasadenia. Ak sa to stane počas aktualizácie konfigurácie, správcovia musia vrátiť zmeny späť. Aktualizácia konfigurácie spôsobuje krátky externý výpadok. | Potenciál úplného výpadku |
Power Platform uľahčenie
Power Platform integruje sa s Application Insights, ktorý je súčasťou ekosystému Azure Monitor . Túto integráciu môžete použiť na:
Prihláste sa na odber telemetrických údajov zachytených platformou o diagnostike, výkone a operáciách, ktoré aplikácie vykonávajú vo vašej databáze a v rámci modelovo riadených aplikácií. Dataverse Application Insights Dataverse Táto telemetria poskytuje informácie, ktoré môžete použiť na diagnostiku a riešenie problémov súvisiacich s chybami a výkonom.
Prepojte svoje plátnové aplikácie s aplikáciami, aby ste mohli tieto analytické údaje používať na diagnostikovanie problémov, pochopenie toho, čo používatelia s vašimi aplikáciami skutočne robia, prijímanie lepších obchodných rozhodnutí a zlepšovanie kvality vašich aplikácií. Application Insights
Nakonfigurujte telemetriu, ktorá má plynúť Power Automate . Application Insights Túto telemetriu môžete použiť na monitorovanie vykonávania cloudových tokov a vytváranie upozornení na zlyhania spustenia cloudových tokov.
Zaznamenávajte telemetrické údaje z vášho agenta na použitie v Azure. Microsoft Copilot Studio Application Insights Túto telemetriu môžete použiť na monitorovanie zaznamenaných správ a udalostí odoslaných vášmu agentovi a od neho, tém, ktoré sa majú spustiť počas konverzácií používateľov, a vlastných telemetrických udalostí, ktoré je možné odoslať z vašich tém.
Power Platform aktivity protokolovania zdrojov na portáli dodržiavania predpisov spoločnosti Microsoft Purview. ... Väčšina podujatí je k dispozícii do 24 hodín od ich začiatkov. Nepoužívajte tieto informácie na monitorovanie v reálnom čase. Viac informácií o aktivitách protokolovania v Power Platform nájdete tu:
- Power Apps
- Power Automate
- Copilot Studio
- Power Pages
- Power Platform konektory
- Prevencia straty údajov
- Power Platform administratívne protokoly
- Dataverse audit
Kontrolný zoznam spoľahlivosti
Pozrite si kompletný súbor odporúčaní.