Nota
L'accés a aquesta pàgina requereix autorització. Podeu provar d'iniciar la sessió o de canviar els directoris.
L'accés a aquesta pàgina requereix autorització. Podeu provar de canviar els directoris.
S'aplica a aquesta Power Platform recomanació de la llista de verificació de fiabilitat ben arquitectada:
| RE:06 | Proveu els escenaris de resiliència i disponibilitat aplicant els principis de l'enginyeria del caos als vostres entorns de prova i producció. Utilitzeu les proves per assegurar-vos que les vostres estratègies d'implementació de degradació són efectives mitjançant la realització de proves de mal funcionament actiu i de càrrega simulada. |
|---|
Aquesta guia descriu les recomanacions per dissenyar una estratègia de proves de fiabilitat per validar i optimitzar la fiabilitat de la vostra càrrega de treball. Les proves de fiabilitat se centren en la resiliència i la disponibilitat de la vostra càrrega de treball, específicament els fluxos crítics que identifiqueu quan dissenyeu la vostra solució. Aquesta guia proporciona orientació general de proves i orientacions específiques per a la injecció de fallades i l'enginyeria del caos.
Definicions
| Terme | Definició |
|---|---|
| Disponibilitat | La quantitat de temps que una càrrega de treball d'aplicació s'executa en un estat saludable sense temps d'inactivitat significatiu. |
| Enginyeria del caos | La pràctica de sotmetre aplicacions i serveis a tensions i fracassos del món real. L'objectiu de l'enginyeria del caos és construir i validar la resiliència a condicions poc fiables i dependències que falten. |
| Injecció de fallades | L'acte d'introduir un error en un sistema per provar la resistència del sistema. |
| Recuperabilitat | Sinònim de resiliència. |
| Resiliència | Capacitat d'una càrrega de treball d'aplicació per suportar i recuperar-se dels modes d'error. |
Estratègies clau de disseny
Les proves són essencials per garantir que la vostra càrrega de treball compleixi els seus objectius de fiabilitat i pugui gestionar els errors amb gràcia. La injecció de fallades és un tipus de prova que introdueix deliberadament falles o estrès al vostre sistema per simular escenaris del món real. Mitjançant tècniques d'injecció de fallades i enginyeria del caos, podeu descobrir i solucionar problemes de manera proactiva abans que afectin el vostre entorn de producció. Aquesta secció proporciona orientació general sobre proves, injecció d'errors i enginyeria del caos per a la vostra càrrega de treball.
Guia general de proves
Realitzeu proves rutinàries per validar els llindars, objectius i supòsits existents. Quan es produeixi un canvi important en la càrrega de treball, feu proves periòdiques. Realitzeu la majoria de proves en entorns de proves i preparació. També és beneficiós executar un subconjunt de proves contra el sistema de producció.
Automatitzeu les proves per ajudar a garantir una cobertura i reproductibilitat coherents de les proves. Automatitzeu les tasques de prova habituals i integreu-les als vostres processos de construcció. Provar manualment el programari és tediós i susceptible d'errors, però podeu realitzar proves exploratòries manuals. Per als casos en què necessiteu desenvolupar proves automatitzades, utilitzeu proves manuals per determinar l'abast de les proves a desenvolupar.
Adopteu un enfocament de proves de desplaçament a l'esquerra per realitzar proves de resistència i disponibilitat al principi del cicle de desenvolupament.
Adapta un format de documentació senzill perquè sigui fàcil per a tothom entendre el procés i els resultats de cada prova periòdica.
Compartiu els resultats documentats amb els equips adequats, com ara equips operatius, lideratge tecnològic, parts interessades empresarials i parts interessades en recuperació de desastres. Els resultats han d'informar el perfeccionament dels objectius de fiabilitat, com ara els objectius de nivell de servei (SLO), els acords de nivell de servei (SLA), els objectius de temps de recuperació (RTO) i els objectius de punt de recuperació (RPO).
Creeu una cadència de prova regular per a les vostres còpies de seguretat. Restaureu les dades a sistemes aïllats per garantir que les còpies de seguretat siguin vàlides i que les restauracions funcionin.
Documenteu i compartiu mètriques de temps de recuperació amb les parts interessades en la recuperació de desastres per assegurar-vos que les expectatives de recuperació siguin adequades.
Utilitzeu procediments de prova de desplegament estàndard del sector per garantir que teniu un procés de desplegament automatitzat, previsible i eficient.
Proveu la capacitat de la vostra càrrega de treball per suportar errors transitoris. Per obtenir més informació, vegeu Recomanacions per gestionar errors temporals.
Proveu com la vostra càrrega de treball gestiona els errors dels serveis dependents o altres dependències mitjançant la injecció d'errors.
Proveu el vostre pla de recuperació de desastres per respondre a fallades catastròfiques i altres incidents importants.
Proveu la capacitat de la vostra càrrega de treball per degradar-se amb gràcia i minimitzar el radi d'explosió del mal funcionament dels components mitjançant la injecció de falles.
Aprofiteu les interrupcions planificades i no planificades
Quan la vostra càrrega de treball està fora de línia a causa d'un manteniment planificat o una interrupció no planificada, teniu una oportunitat única de realitzar proves i millorar la vostra comprensió de la vostra càrrega de treball. Les seccions següents proporcionen recomanacions per a cada escenari.
Manteniment planificat
Quan teniu finestres de manteniment planificades per a actualitzacions o pedaços, podeu provar components i fluxos que no participen en el treball de manteniment. Realitzeu proves sense el risc potencial de degradar inesperadament la càrrega de treball o desconnectar-la del tot. Si teniu prou temps durant la finestra de manteniment, també podeu provar els components i els fluxos implicats en el manteniment un cop finalitzats els treballs de manteniment.
Interrupció no planificada
Utilitzeu cada incident d'interrupció com una oportunitat per obtenir més informació sobre la vostra càrrega de treball i millorar-ne la resistència seguint aquests passos, ordenats per prioritat:
Torneu a connectar la càrrega de treball per als usuaris. És possible que hàgiu de solucionar el problema, resoldre'l o iniciar els processos de recuperació.
Determineu la causa principal de la interrupció i solucioneu-la. Si podeu corregir la causa principal com a part de la investigació, documenteu la causa principal i les mesures que heu pres per solucionar-la. Si el problema requereix una altra finestra de manteniment més endavant, assegureu-vos que les vostres mesures de mitigació puguin gestionar la càrrega esperada provant-les a fons. Assegureu-vos que heu establert un seguiment suficient per cobrir les vostres mesures de mitigació.
Si escau, cerqueu el mateix problema o debilitats de configuració que es puguin veure afectats per problemes similars en tots els components de la càrrega de treball. Aprofiteu aquesta oportunitat per abordar proactivament aquests components. Consulteu el vostre historial d'incidents per detectar patrons de problemes similars a la vostra càrrega de treball.
Utilitzeu les vostres troballes per millorar la vostra estratègia de proves. Assegureu-vos que heu abordat correctament la causa principal i problemes similars provant directament el mateix error.
Injecció de fallades i guia d'enginyeria del caos
Les proves d'injecció de fallades segueixen els principis de l'enginyeria del caos destacant la capacitat de la càrrega de treball per reaccionar a les fallades dels components. Realitzar proves d'injecció de fallades en entorns de preproducció i producció. Apliqueu la informació que heu après realitzant l'anàlisi del mode d'error per assegurar-vos que només proveu els errors que prioritzeu i que teniu estratègies de mitigació que solucionin els errors.
Les directrius clau de l'enginyeria del caos són:
Sigues proactiu. No espereu que es produeixin fracassos. Intenteu anticipar-vos als errors realitzant experiments de caos per descobrir i solucionar problemes abans que afectin el vostre entorn de producció.
Abraça el fracàs. Accepta i aprèn de les fallades que es produeixen en el teu sistema. Vegeu les fallades com una part natural de sistemes complexos i utilitzeu-les com a oportunitats per aprendre i millorar la fiabilitat del vostre sistema.
Trencar el sistema. Injecteu deliberadament fallades o estrès al vostre sistema per provar la seva resistència. Simula fallades o interrupcions del món real per provar i millorar les capacitats de recuperació de la teva càrrega de treball.
Construir immunitat. Utilitzeu experiments d'enginyeria del caos per millorar la capacitat de la vostra càrrega de treball per prevenir i recuperar-vos d'errors.
L'enginyeria del caos és una part integral de la cultura de l'equip de càrrega de treball i una pràctica contínua, no un esforç tàctic a curt termini en resposta a una sola interrupció. Seguiu aquest mètode estàndard quan dissenyeu els vostres experiments de caos:
Comenceu amb una hipòtesi. Cada experiment ha de tenir un objectiu clar, com provar la capacitat d'un flux per suportar la pèrdua d'un component en particular.
Mesurar el comportament de referència. Assegureu-vos que teniu mètriques de fiabilitat i rendiment coherents per al flux i els components implicats en un experiment per comparar-los amb l'estat degradat quan s'executa l'experiment.
Injectar una falla o falles. L'experiment s'ha d'orientar intencionadament a components específics que es poden recuperar ràpidament, i hauríeu de tenir una expectativa informada de l'efecte que provocarà la injecció de falla per ajudar a controlar el radi d'explosió de l'experiment.
Superviseu el comportament resultant. Recolliu telemetria sobre els components de flux individuals i el comportament de flux d'extrem a extrem que l'experiment orienta per entendre correctament els efectes de l'error. Compareu les mètriques que recopileu amb les mètriques de referència per obtenir una imatge completa dels resultats de la injecció d'errors.
Documentar el procés i les observacions. Mantenir registres detallats dels vostres experiments informarà les decisions futures sobre el disseny de la càrrega de treball, assegurant-vos que abordeu les llacunes que s'han revelat al llarg del temps.
Identificar i actuar sobre el resultat. Planifiqueu els passos de correcció que es poden afegir a l'historial de càrrega de treball com a millores. Assegureu-vos que els plans de millora del disseny es revisin i provin en entorns que no siguin de producció d'acord amb els mateixos processos que altres desplegaments.
Valideu periòdicament el vostre procés, opcions d'arquitectura i codi per detectar ràpidament el deute tècnic, integrar noves tecnologies i adaptar-vos als requisits canviants.
Quan realitzeu experiments d'injecció de fallades:
Confirmeu que la supervisió està activada i que s'han configurat les alertes.
Valideu el vostre procés d'assignació d'una persona directament responsable (DRI) per fer-se càrrec d'un incident.
Assegura't que la documentació i els processos d'investigació estiguin actualitzats.
Integreu les recomanacions i consideracions següents per optimitzar la vostra estratègia de proves de caos:
Desafiar els supòsits del sistema. Amb les proves, intenteu millorar la resistència de la vostra càrrega de treball i les vostres estratègies de disseny de càrregues de treball. Busqueu oportunitats per injectar errors en components i fluxos que suposeu que són fiables basant-vos en experiències passades. És possible que no siguin fiables en la vostra nova càrrega de treball.
Valida el canvi. Sense proves exhaustives, incloses les proves d'injecció d'errors, és possible que tingueu una imatge incompleta de la vostra càrrega de treball després de fer canvis. Per exemple, podeu introduir noves dependències que no són evidents immediatament.
Utilitzeu memòries intermèdies SLA. Limiteu les proves de caos per mantenir-vos dins dels vostres SLA i evitar possibles efectes adversos de les interrupcions. Els objectius de recuperació de flux i components ajuden a definir l'abast de les proves.
Establir un pressupost d'error com a inversió en caos i injecció de fallades. El vostre pressupost d'error és la diferència entre aconseguir el 100% de l'SLO i assolir l'SLO acordat.
Atureu l'experiment si va més enllà de l'abast. Els resultats desconeguts són un resultat esperat dels experiments de caos. Esforçar-se per aconseguir l'equilibri entre la recopilació de dades substancials de resultats i afectar el menor nombre possible d'usuaris de producció.
Treballar estretament amb els equips de desenvolupament per garantir la rellevància dels errors injectats. Utilitzeu incidents o problemes anteriors com a guia. Examineu les dependències i avalueu els resultats quan les suprimiu.
Identifiqueu i documenteu dependències no descobertes prèviament entre diferents components de la vostra càrrega de treball que es revelen mitjançant proves de caos.
Ajusteu els plans de recuperació segons sigui necessari per tenir en compte les dependències que es descobreixen durant les proves de caos.
Utilitzeu els resultats dels vostres experiments i proves com a base per a nous experiments i proves. A mesura que sorgeixen comportaments inesperats, les noves proves poden dirigir-se directament a aquests comportaments i donar-vos l'oportunitat de dissenyar estratègies de correcció per a ells.
Compensació: les proves d'injecció de fallades en producció poden ser perjudicials i poden causar temps d'inactivitat. Sigueu transparents amb les parts interessades sobre aquesta possibilitat i assegureu-vos que teniu salvaguardes per finalitzar els experiments i els plans de reversió per revertir ràpidament els errors que introduïu.
Power Platform facilitació
Podeu utilitzar resultats estàtics per Power Automate retornar un resultat fix per provar la càrrega de treball.
El motor de proves del Power Apps és un component de la CLI del Power Platform que podeu utilitzar per provar aplicacions de llenç independents al Power Apps.
Azure Test Plans és una solució de gestió de proves fàcil d'utilitzar i basada en navegador que proporciona totes les capacitats necessàries per a les proves manuals planificades, les proves d'acceptació d'usuaris, les proves exploratòries i la recopilació de comentaris de les parts interessades.
Si la vostra càrrega de treball inclou recursos de l'Azure, podeu utilitzar l'Azure Chaos Studio, un servei administrat que utilitza l'enginyeria del caos per ajudar-vos a mesurar, entendre i millorar la resiliència de les aplicacions i els serveis al núvol.
Si la vostra càrrega de treball inclou un Microsoft Copilot Studio agent, podeu utilitzar el Power CAT Copilot Studio Kit per configurar agents i proves. Executant proves individuals contra les Copilot Studio API (Direct Line), les respostes de l'agent s'avaluen en funció dels resultats esperats.
Informació relacionada
Llista de verificació de fiabilitat
Consulteu el conjunt complet de recomanacions.