Aanbevelingen voor het ontwerpen van een betrouwbare bewakings- en waarschuwingsstrategie

Is van toepassing op deze aanbeveling voor de betrouwbaarheidschecklist van Azure Well-Architected Framework:

RE:10 Meet en publiceer de gezondheidsindicatoren van de oplossing. Leg continu uptime- en andere betrouwbaarheidsgegevens vast van de hele workload en ook van afzonderlijke onderdelen en sleutelstromen.

In deze handleiding worden de aanbevelingen beschreven voor het ontwerpen van een betrouwbare bewakings- en waarschuwingsstrategie. Implementeer deze strategie om uw operationele teams op de hoogte te houden van de status van uw omgeving en ervoor te zorgen dat u voldoet aan de vastgestelde betrouwbaarheidsdoelen voor uw workload.

Definities

Termijn Definitie
Metrische gegevens Numerieke waarden die regelmatig worden verzameld. Metrische gegevens beschrijven enkele aspecten van een systeem op een bepaald moment.
Resourcelogboeken Gegevens die door een systeem worden gegenereerd. Het biedt informatie over de status van het systeem.
Traceringen Gegevens die informatie bieden over het pad dat een aanvraag via services en onderdelen doorloopt.

Belangrijke ontwerpstrategieën

Voordat u een bewakings- en waarschuwingsstrategie maakt, moet u de volgende taken voor uw workload uitvoeren als onderdeel van uw betrouwbaarheidsplanning:

Maak een bewakings- en waarschuwingsstrategie om ervoor te zorgen dat uw workload betrouwbaar werkt. Een bewakings- en waarschuwingsstrategie biedt inzicht in uw operationele teams, zodat ze op de hoogte worden gesteld van wijzigingen in de toestand van uw workload en snel problemen kunnen oplossen. Bouw een robuuste en betrouwbare bewakingsstrategie door een statusmodel te maken voor uw kritieke stromen en de onderdelen waaruit deze kritieke stromen bestaan. Het statusmodel definieert de statussen in orde, gedegradeerd en niet in orde. Ontwerp uw operationele houding om onmiddellijk wijzigingen in deze statussen op te vangen. Wanneer statussen veranderen van gezond in gedegradeerd of beschadigd, activeren waarschuwingsmechanismen de automatische corrigerende maatregelen en worden de juiste teams op de markt gebracht.

Implementeer de volgende aanbevelingen om een bewakings- en waarschuwingsstrategie te ontwerpen die voldoet aan de vereisten van uw bedrijf.

Algemene richtlijnen

  • Inzicht in het verschil tussen metrische gegevens, logboeken en traceringen.

  • Logboekregistratie inschakelen voor alle cloudresources. Gebruik automatisering en governance in uw implementaties om diagnostische logboekregistratie in te schakelen in uw omgeving.

  • Alle diagnostische logboeken doorsturen naar een gecentraliseerde gegevenssink en een analyseplatform, zoals een Log Analytics-werkruimte. Als u regionale vereisten voor gegevenssoevereine hebt, moet u lokale gegevenssinks gebruiken in de regio's die aan deze vereisten zijn onderworpen.

Afweging: Er zijn kosten verbonden aan het opslaan van logboeken en het uitvoeren van query's op logboeken. U ziet hoe uw logboekanalyse en -retentie van invloed zijn op uw budget en bepaal de beste balans van het gebruik om aan uw vereisten te voldoen. Zie Best practices voor kostenoptimalisatie voor meer informatie.

  • Als uw workloads onderhevig zijn aan een of meer nalevingsframeworks, zijn sommige onderdeellogboeken die gevoelige informatie verwerken, ook onderhevig aan deze frameworks. Verzend de relevante onderdeellogboeken naar een SIEM-systeem (Security Information and Event Management), zoals Microsoft Sentinel.

  • Maak een bewaarbeleid voor logboeken dat langetermijnretentievereisten bevat die de nalevingsframeworks aan uw workload opleggen.

  • Gebruik gestructureerde logboekregistratie voor alle logboekberichten om query's op de logboekgegevens te optimaliseren.

  • Configureer waarschuwingen om te activeren wanneer waarden kritieke drempelwaarden overschrijden die correleren met een statuswijziging van een statusmodel, zoals groen in geel of rood.

    Drempelwaardeconfiguratie is een praktijk van continue verbetering. Naarmate uw workload zich ontwikkelt, kunnen de drempelwaarden die u definieert, veranderen. In sommige gevallen zijn dynamische drempelwaarden een goede optie voor uw bewakingsstrategie.

  • Overweeg om waarschuwingen te gebruiken wanneer de statussen verbeteren, zoals rood naar geel of rood naar groen, zodat de operationele teams deze gebeurtenissen kunnen volgen voor toekomstig gebruik.

  • Visualiseer de realtime status van uw omgeving.

  • Gebruik gegevens die tijdens incidenten worden verzameld om uw statusmodellen en uw bewakings- en waarschuwingsstrategie continu te verbeteren.

  • Neem cloudplatformbewakings- en waarschuwingsservices op, waaronder:

  • Gebruik speciaal ontwikkelde geavanceerde bewaking en analyses die uw cloudprovider biedt, zoals inzichthulpprogramma's van Azure Monitor.

  • Back-up- en herstelbewaking implementeren om het volgende vast te leggen:

    • De status van de gegevensreplicatie om ervoor te zorgen dat uw workload herstel binnen het beoogde herstelpunt (RPO) bereikt.

    • Geslaagde en mislukte back-ups en herstelbewerkingen.

    • De herstelduur ter informatie over uw planning voor herstel na noodgevallen.

Toepassingen bewaken

  • Maak statustests of controleer functies en voer deze regelmatig uit van buiten de toepassing. Zorg ervoor dat u test vanaf meerdere locaties die geografisch dicht bij uw klanten liggen.

  • Logboekgegevens terwijl de toepassing wordt uitgevoerd in de productieomgeving. U hebt voldoende informatie nodig om de oorzaak van problemen in de productiestatus vast te stellen.

  • Registreer gebeurtenissen aan de grenzen van services. Neem een correlatie-id op die over de servicegrenzen heen gaat. Als een transactie door meerdere services loopt en een van deze services mislukt, helpt de correlatie-id u aanvragen in uw toepassing bij te houden en vast te stellen waarom de transactie is mislukt.

  • Gebruik asynchrone logboekregistratie. Synchrone logboekregistratiebewerkingen blokkeren soms uw toepassingscode, waardoor aanvragen een back-up maken wanneer logboeken worden geschreven. Gebruik asynchrone logboekregistratie om de beschikbaarheid tijdens de logboekregistratie van toepassingen te behouden.

  • Scheid toepassingslogboeken van controle. Controlerecords worden doorgaans bijgehouden voor nalevings- of regelgevingsvereisten en moeten volledig zijn. Om te voorkomen dat transacties worden verwijderd, moet u auditlogboeken gescheiden houden van diagnostische logboeken.

  • Gebruik telemetriecorrelatie om ervoor te zorgen dat u transacties kunt toewijzen via de end-to-end-toepassings- en kritieke systeemstromen. Dit proces is essentieel voor het uitvoeren van hoofdoorzaakanalyse (RCA) voor fouten. Verzamel metrische gegevens en logboeken op platformniveau, zoals CPU-percentage, netwerkin, netwerk uit en schijfbewerkingen per seconde, van de toepassing om een statusmodel te informeren en problemen te detecteren en te voorspellen. Met deze benadering kunt u onderscheid maken tussen tijdelijke en niet-tijdelijke fouten.

  • Gebruik white box-bewaking om de toepassing te instrumenteert met semantische logboeken en metrische gegevens. Verzamel metrische gegevens en logboeken op toepassingsniveau, zoals geheugenverbruik of latentie van aanvragen, van de toepassing om een statusmodel te informeren en problemen te detecteren en te voorspellen.

  • Gebruik black box-bewaking om platformservices en de resulterende klantervaring te meten. Black Box Monitoring test extern zichtbaar toepassingsgedrag zonder kennis van de interne kenmerken van het systeem. Deze benadering is gebruikelijk voor het meten van klantgerichte serviceniveauindicatoren (SLA's), serviceniveaudoelstellingen (SLO's) en service level agreements (SLA's).

Notitie

Zie Patroon statuseindpuntbewaking voor meer informatie over toepassingsbewaking.

Gegevens en opslag bewaken

  • Bewaak de metrische beschikbaarheidsgegevens van uw opslagcontainers. Wanneer deze metrische waarde onder de 100 procent komt, duidt dit op mislukte schrijfbewerkingen. Tijdelijke dalingen van de beschikbaarheid kunnen optreden wanneer uw cloudprovider de belasting beheert. Houd de beschikbaarheidstrends bij om te bepalen of er een probleem is met uw workload.

    In sommige gevallen wijst een daling van de metrische beschikbaarheidsgegevens voor een opslagcontainer op een knelpunt in de rekenlaag die is gekoppeld aan de opslagcontainer.

  • Er zijn veel metrische gegevens die moeten worden bewaakt voor databases. In de context van betrouwbaarheid zijn de belangrijke metrische gegevens die moeten worden bewaakt:

    • Queryduur

    • Time-outs

    • Wachttijden

    • Geheugendruk

    • Vergrendelingen

Azure-facilitering

  • Azure Monitor is een uitgebreide bewakingsoplossing die wordt gebruikt voor het verzamelen, analyseren en reageren op bewakingsgegevens van uw cloud- en on-premises omgevingen.

  • Log Analytics is een hulpprogramma in de Azure Portal dat wordt gebruikt voor het bewerken en uitvoeren van logboekquery's op gegevens in de Log Analytics-werkruimte.

  • Application Insights is een uitbreiding van Azure Monitor. Het biedt APM-functies (Application Performance Monitoring).

  • Azure Monitor Insights zijn geavanceerde analysehulpprogramma's waarmee u Azure-services kunt bewaken, zoals virtuele machines, toepassingsservices en containers. Inzichten zijn gebaseerd op Azure Monitor en Log Analytics.

  • Azure Monitor voor SAP-oplossingen is een systeemeigen bewakingsproduct van Azure voor SAP-landschappen die worden uitgevoerd in Azure.

  • Azure Policy helpt bij het afdwingen van organisatiestandaarden en het evalueren van naleving op schaal.

  • Azure Bedrijfscontinuïteitsplatform geeft u inzicht in uw bedrijfscontinuïteit. Wanneer u de benaderingen voor bedrijfscontinuïteit en herstel na noodgevallen (BCDR) toepast, gebruikt u Azure Bedrijfscontinuïteitsplatform om het beheer van de beveiliging van bedrijfscontinuïteit te centraliseren in Azure en hybride workloads. Azure Bedrijfscontinuïteitsplatform verwijst naar resources die niet de juiste beveiliging hebben (via back-up of herstel na noodgevallen) en onderneemt corrigerende acties. Het hulpprogramma faciliteert geïntegreerde bewaking en stelt u in staat om governance en controlenaleving tot stand te brengen via Azure Policy, allemaal gemakkelijk toegankelijk op één locatie.

  • Zie Een Log Analytics-werkruimtearchitectuur ontwerpen voor aanbevolen procedures voor meerdere werkruimten.

Voorbeeld

Zie Bewaking van webtoepassingen in Azure en Basislijnarchitectuur voor een Azure Kubernetes Service cluster voor voorbeelden van praktische bewakingsoplossingen.

Controlelijst voor betrouwbaarheid

Raadpleeg de volledige set aanbevelingen.