Aanbevelingen voor het ontwerpen van een betrouwbare bewakings- en waarschuwingsstrategie

Artikel
09/01/2024

Is van toepassing op deze aanbeveling voor de controlelijst voor betrouwbaarheid van Azure Well-Architected Framework:

RE:10	Meet en publiceer de statusindicatoren van de oplossing. Leg continu uptime en andere betrouwbaarheidsgegevens vast van de workload en ook van afzonderlijke onderdelen en sleutelstromen.

In deze handleiding worden de aanbevelingen beschreven voor het ontwerpen van een betrouwbare bewakings- en waarschuwingsstrategie. Implementeer deze strategie om uw operationele teams op de hoogte te houden van de status van uw omgeving en ervoor te zorgen dat u voldoet aan de vastgestelde betrouwbaarheidsdoelen voor uw workload.

Definities

Termijn	Definitie
Metrische gegevens voor	Numerieke waarden die regelmatig worden verzameld. Metrische gegevens beschrijven enkele aspecten van een systeem op een bepaald moment.
Resourcelogboeken	Gegevens die door een systeem worden gegenereerd. Het bevat informatie over de status van het systeem.
Traceringen	Gegevens die informatie bieden over het pad dat een aanvraag via services en onderdelen doorloopt.

Belangrijke ontwerpstrategieën

Voordat u een bewakings- en waarschuwingsstrategie maakt, moet u de volgende taken voor uw workload uitvoeren als onderdeel van uw betrouwbaarheidsplanning:

Kritieke en niet-kritieke stromen identificeren.
Voer FMA (Failure Mode Analysis) uit voor uw stromen.
Betrouwbaarheidsdoelen identificeren.
Ontwerp voor betrouwbaarheid door redundantie, schaalaanpassing , zelfbehoud en zelfherstel te implementeren.
Ontwerp een robuuste teststrategie.
Modelleer de status van uw workload en de bijbehorende onderdelen.

Maak een bewakings- en waarschuwingsstrategie om ervoor te zorgen dat uw workload betrouwbaar werkt. Een bewakings- en waarschuwingsstrategie biedt inzicht in uw operationele teams, zodat ze op de hoogte worden gesteld van wijzigingen in de situatie van uw workload en snel problemen kunnen oplossen. Bouw een robuuste en betrouwbare bewakingsstrategie door een statusmodel te maken voor uw kritieke stromen en de onderdelen die deze kritieke stromen vormen. Het statusmodel definieert statussen in orde, gedegradeerd en beschadigd. Ontwerp uw operationele houding om onmiddellijk wijzigingen in deze statussen te ondervangen. Wanneer statussen veranderen van gezond in gedegradeerd of beschadigd, activeren waarschuwingsmechanismen de automatische corrigerende maatregelen en waarschuwt de juiste teams.

Implementeer de volgende aanbevelingen om een bewakings- en waarschuwingsstrategie te ontwerpen die voldoet aan de vereisten van uw bedrijf.

Een algemene bewakingsstrategie implementeren

Inzicht in het verschil tussen metrische gegevens, logboeken en traceringen.
Schakel logboekregistratie in voor alle cloudresources . Gebruik automatisering en governance in uw implementaties om diagnostische logboekregistratie in te schakelen in uw omgeving.
Alle diagnostische logboeken doorsturen naar een gecentraliseerd gegevenssink- en analyseplatform, zoals een Log Analytics-werkruimte. Als u regionale vereisten voor gegevenssoevereine hebt, moet u lokale gegevenssinks gebruiken in de regio's waarvoor deze vereisten gelden.

Compromis: er zijn kosteneffecten voor het opslaan en opvragen van logboeken. U ziet hoe uw logboekanalyse en -retentie van invloed zijn op uw budget en hoe u het beste saldo van het gebruik kunt bepalen om te voldoen aan uw vereisten. Zie Best practices voor kostenoptimalisatie voor meer informatie.

Als uw workloads onderhevig zijn aan een of meer nalevingsframeworks, zijn sommige onderdeellogboeken die gevoelige informatie verwerken ook onderhevig aan deze frameworks. Verzend de relevante onderdeellogboeken naar een SIEM-systeem (Security Information and Event Management), zoals Microsoft Sentinel.
Maak een bewaarbeleid voor logboeken dat langetermijnretentievereisten bevat die de nalevingsframeworks voor uw workload opleggen.
Gebruik gestructureerde logboekregistratie voor alle logboekberichten om query's uit te voeren op de logboekgegevens.
Configureer waarschuwingen om te activeren wanneer waarden kritieke drempelwaarden doorgeven die correleren met een statuswijziging van het statusmodel, zoals groen in geel of rood.

Drempelwaardeconfiguratie is een praktijk van continue verbetering. Naarmate uw workload zich ontwikkelt, kunnen de drempelwaarden die u definieert, veranderen. In sommige gevallen zijn dynamische drempelwaarden een goede optie voor uw bewakingsstrategie.
Overweeg om waarschuwingen te gebruiken wanneer de statussen worden verbeterd, zoals rood naar geel of rood naar groen, zodat de operationele teams deze gebeurtenissen kunnen bijhouden voor toekomstig gebruik.
Visualiseer de realtime status van uw omgeving.
Gebruik gegevens die tijdens incidenten worden verzameld om uw statusmodellen en uw bewakings- en waarschuwingsstrategie continu te verbeteren.
Neem bewakings- en waarschuwingsservices voor cloudplatforms op, waaronder:
- Status op platformniveau, zoals Azure Service Health.
- Status op resourceniveau, zoals Azure Resource Health.
Maak gebruik van geavanceerde bewaking en analyses die uw cloudprovider biedt, zoals Azure Monitor Insight-hulpprogramma's.
Back-up- en herstelbewaking implementeren om vast te leggen:
- De status van de gegevensreplicatie om ervoor te zorgen dat uw workload herstel binnen de beoogde beoogde herstelpuntdoelstelling (RPO) bereikt.
- Geslaagde en mislukte back-ups en herstelbewerkingen.
- De herstelduur om uw planning voor herstel na noodgevallen te informeren.

Toepassingen bewaken

Maak statustests of controleer functies en voer ze regelmatig uit van buiten de toepassing. Zorg ervoor dat u test vanaf meerdere locaties die zich geografisch dicht bij uw klanten bevinden.
Logboekgegevens terwijl de toepassing wordt uitgevoerd in de productieomgeving. U hebt voldoende informatie nodig om de oorzaak van problemen in de productiestatus vast te stellen.
Registreer gebeurtenissen aan de grenzen van services. Neem een correlatie-id op die over de servicegrenzen heen gaat. Als een transactie door meerdere services loopt en een van deze services mislukt, helpt de correlatie-id u bij het bijhouden van aanvragen in uw toepassing en kunt u vaststellen waarom de transactie is mislukt.
Gebruik asynchrone logboekregistratie. Synchrone logboekregistratiebewerkingen blokkeren soms uw toepassingscode, waardoor aanvragen een back-up maken wanneer logboeken worden geschreven. Gebruik asynchrone logboekregistratie om de beschikbaarheid tijdens de logboekregistratie van toepassingen te behouden.
Scheid toepassingslogboekregistratie van controle. Controlerecords worden doorgaans bijgehouden voor nalevings- of regelgevingsvereisten en moeten zijn voltooid. Als u verwijderde transacties wilt voorkomen, houdt u auditlogboeken gescheiden van diagnostische logboeken.
Gebruik telemetriecorrelatie om ervoor te zorgen dat u transacties kunt toewijzen via de end-to-end-toepassing en kritieke systeemstromen. Dit proces is essentieel voor het uitvoeren van hoofdoorzaakanalyse (RCA) voor fouten. Verzamel metrische gegevens en logboeken op platformniveau, zoals CPU-percentage, netwerk in, netwerkbewerkingen en schijfbewerkingen per seconde, van de toepassing om een statusmodel te informeren en problemen te detecteren en te voorspellen. Deze benadering kan helpen onderscheid te maken tussen tijdelijke en niet-tijdelijke fouten.
Gebruik white box monitoring om de toepassing te instrumenteren met semantische logboeken en metrische gegevens. Verzamel metrische gegevens en logboeken op toepassingsniveau, zoals geheugenverbruik of latentie van aanvragen, van de toepassing om een statusmodel te informeren en problemen te detecteren en voorspellen.
Gebruik black box monitoring om platformservices en de resulterende klantervaring te meten. Black box monitoring test extern zichtbaar toepassingsgedrag zonder kennis van de interne werking van het systeem. Deze aanpak is gebruikelijk voor het meten van klantgerichte serviceniveauindicatoren (SLO's), serviceniveaudoelstellingen (SLO's) en service level agreements (SLA's).

Notitie

Zie het patroon Statuseindpuntbewaking voor meer informatie over toepassingsbewaking.

Gegevens en opslag bewaken

Bewaak de metrische beschikbaarheidsgegevens van uw opslagcontainers. Wanneer deze metrische waarde lager is dan 100 procent, geeft dit aan dat schrijfbewerkingen mislukken. Tijdelijke dalingen in beschikbaarheid kunnen optreden wanneer uw cloudprovider de belasting beheert. Houd de beschikbaarheidstrends bij om te bepalen of er een probleem is met uw workload.

In sommige gevallen geeft een daling van de metrische beschikbaarheidsgegevens voor een opslagcontainer een knelpunt aan in de rekenlaag die is gekoppeld aan de opslagcontainer.
Er zijn veel metrische gegevens om te controleren op databases. In de context van betrouwbaarheid zijn de belangrijke metrische gegevens die moeten worden bewaakt:
- Queryduur
- Time-outs
- Wachttijden
- Geheugendruk
- Vergrendelingen

Azure-facilitering

Azure Monitor is een uitgebreide bewakingsoplossing die wordt gebruikt voor het verzamelen, analyseren en reageren op bewakingsgegevens uit uw cloud- en on-premises omgevingen.
Log Analytics is een hulpprogramma in Azure Portal dat wordt gebruikt om logboekquery's te bewerken en uit te voeren op gegevens in de Log Analytics-werkruimte.
Application Insights is een uitbreiding van Azure Monitor. Het biedt APM-functies (Application Performance Monitoring).
Azure Monitor-inzichten zijn geavanceerde analysehulpprogramma's waarmee u Azure-services kunt bewaken, zoals virtuele machines, toepassingsservices en containers. Inzichten zijn gebaseerd op Azure Monitor en Log Analytics.
Azure Monitor voor SAP-oplossingen is een systeemeigen bewakingsproduct van Azure voor SAP-landschappen die worden uitgevoerd in Azure.
Azure Policy helpt bij het afdwingen van organisatiestandaarden en het beoordelen van naleving op schaal.
Azure Business Continuity Center biedt u inzicht in uw bedrijfscontinuïteit. Wanneer u de benaderingen voor bedrijfscontinuïteit en herstel na noodgevallen (BCDR) toepast, gebruikt u Azure Business Continuity Center om het beheer van bedrijfscontinuïteitsbeveiliging in Azure en hybride workloads te centraliseren. Azure Business Continuity Center verwijst naar resources die geen goede beveiliging hebben (via back-up of herstel na noodgevallen) en voert corrigerende acties uit. Het hulpprogramma vereenvoudigt geïntegreerde bewaking en stelt u in staat om naleving van governance en controle tot stand te brengen via Azure Policy, allemaal gemakkelijk toegankelijk op één locatie.
Zie Een Log Analytics-werkruimtearchitectuur ontwerpen voor meerdere aanbevolen procedures voor werkruimten.

Opmerking

Zie Bewaking van webtoepassingen in Azure en basislijnarchitectuur voor een Azure Kubernetes Service-cluster voor voorbeelden van echte bewakingsoplossingen.

Communitykoppelingen

Azure Monitor Baseline Alerts (AMBA) is een centrale opslagplaats van waarschuwingsdefinities die klanten en partners kunnen gebruiken om hun waarneembaarheidservaring te verbeteren door gebruik te maken van Azure Monitor.

Controlelijst voor betrouwbaarheid

Raadpleeg de volledige set aanbevelingen.

Controlelijst voor betrouwbaarheid

Delen via

Aanbevelingen voor het ontwerpen van een betrouwbare bewakings- en waarschuwingsstrategie

Belangrijke ontwerpstrategieën

Een algemene bewakingsstrategie implementeren

Toepassingen bewaken

Gegevens en opslag bewaken

Azure-facilitering

Opmerking

Communitykoppelingen

Controlelijst voor betrouwbaarheid

Feedback

Aanvullende resources

Delen via

Aanbevelingen voor het ontwerpen van een betrouwbare bewakings- en waarschuwingsstrategie

Belangrijke ontwerpstrategieën

Een algemene bewakingsstrategie implementeren

Toepassingen bewaken

Gegevens en opslag bewaken

Azure-facilitering

Opmerking

Verwante koppelingen

Communitykoppelingen

Controlelijst voor betrouwbaarheid

Feedback

Aanvullende resources