Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Is van toepassing op deze controlelijst voor operationele uitmuntendheid van het Azure Well-Architected Framework:
| OE:07 | Ontwerp een bewakingsstack die operationele telemetrie, metrische gegevens en logboeken van de infrastructuur en code van de workload vastlegt om ontwerpbeslissingen te valideren en toekomstige verbeteringen te begeleiden. |
|---|
Verwante handleiding: Aanbevelingen voor het instrumenteren van een toepassing
Waarneembaarheid of bewaking is een belangrijke operationele praktijk die het workloadteam de mogelijkheid biedt om de interne status van een systeem te begrijpen op basis van de externe gegevens die het produceert. In tegenstelling tot de functionele stack, die bedrijfslogica en kernfuncties implementeert, wordt de bewakingsstack parallel uitgevoerd. Het verzamelt en analyseert metrische gegevens, logboeken, traceringen en gebeurtenissen die laten zien hoe workloads zich gedragen in reële omstandigheden.
Voor het ontwerpen van de bewakingsstack is een zorgvuldige planning vereist, omdat deze inzicht biedt in kruislingse problemen, zoals betrouwbaarheid, prestaties, beveiliging en kosten. Een goed ontworpen bewakingsstack maakt vroege detectie van problemen, effectieve incidentrespons en geïnformeerde operationele beslissingen mogelijk. Het vormt de basis voor proactief beheer en continue verbetering.
In deze handleiding worden de belangrijkste strategieën beschreven voor het ontwerpen van een bewakingsstack die ondersteuning biedt voor bewakings-, detectie- en waarschuwingsfuncties.
Definities
| Termijn | Definitie |
|---|---|
| Telemetrie | Collectieve term voor logboeken, metrische gegevens, traceringen en gebeurtenissen. Telemetrie biedt de basis voor waarneembaarheid. |
| logboeken | Opgenomen systeem gebeurtenissen die vastleggen wat er in het systeem is gebeurd. Logboeken kunnen gestructureerde of vrije tekst met tijdstempels zijn. Ze zijn handig voor het detecteren en onderzoeken van afwijkingen. |
| Metrics | Numerieke waarden die regelmatig worden verzameld om systeemprestaties te beschrijven. Metrische gegevens helpen trends in de prestaties en betrouwbaarheid van workloads te identificeren. |
| Observatievermogen | Waarneembaarheid helpt teams bij het detecteren van problemen, het bijhouden van prestatietrends en het nemen van operationele beslissingen. |
| Correlatie-id's | Unieke id's waarmee gerelateerde gebeurtenissen in meerdere onderdelen worden bijgehouden, waardoor end-to-end-tracering van transacties in gedistribueerde systemen mogelijk is. |
| instrumentatie | Bewakingsmogelijkheden toevoegen aan toepassingen en infrastructuur om telemetrie vast te leggen. Dit omvat logboekregistratie, verzameling met metrische gegevens en tracering. |
| Gezondheidsmodel | Een raamwerk voor het meten van de werkbelastinggezondheid met behulp van indicatoren, KPI's en meetwaarden die bedrijfs- en operationele doelstellingen weerspiegelen. |
| KPI's (Key Performance Indicators) | Meetbare waarden die laten zien hoe effectief een workload bedrijfs- en operationele doelstellingen bereikt. KPI's begeleiden telemetrieverzameling en -analyse. |
| APM (Application Performance Management) | Hulpprogramma's en procedures voor het bewaken van toepassingsprestaties, beschikbaarheid en gebruikerservaring. APM-hulpprogramma's bieden realtime en historisch inzicht in belangrijke metrische gegevens. |
| Traces | Records met het pad van aanvragen via gedistribueerde systemen. Traceringen helpen bij het vaststellen van problemen die meerdere services omvatten. |
Telemetrie afstemmen met status- en KPI-modellen
Definieer statusindicatoren, KPI's en metrische prestatiegegevens voor workloads, zodat strategieën voor telemetrieverzameling deze doelen weerspiegelen. Deze indicatoren worden vervolgens bijgehouden om afwijkingen te detecteren om beslissingen te nemen over corrigerende maatregelen.
Koppel telemetrie aan systeem- en gebruikersstromen. Dit helpt de doorstromingstatus te correleren met verzamelde gegevens, in aanvulling op de algehele status van de workload.
AI-kans: Teams besteden tijd aan het handmatig definiëren van KPI's en telemetrie. Ai-ondersteunde hulpprogramma's kunnen veelgebruikte telemetrie voorstellen op basis van architectuur, serviceafhankelijkheden en code. Hulpprogramma's zoals GitHub Copilot of Claude Code kunnen ook helpen bij het toevoegen van instrumentatie en het genereren van query's of sjablonen voor infrastructuur als code. Zorg ervoor dat er menselijk toezicht is om ervoor te zorgen dat ai-gestuurde waarneembaarheid nauwkeurig blijft en is afgestemd op standaarden.
Telemetrie verzamelen binnen de workload
Zorg ervoor dat alle onderdelen van het systeem, inclusief toepassingen, infrastructuur en platform, zinvolle telemetrie verzenden en logboeken en metrische gegevens consistent vastleggen in al deze lagen. Logboeken zijn voornamelijk handig voor het detecteren en onderzoeken van afwijkingen, terwijl metrische gegevens voornamelijk nuttig zijn voor het identificeren van trends in de workload, zoals prestatieproblemen.
Gebruik waar mogelijk door het platform geleverde bewakingshulpprogramma's. Ze vereisen minimale configuratie en bieden diepgaande inzichten.
Compromis: verhoog de details van logboekregistratie om debuggability en traceerbaarheid te verbeteren, maar houd er rekening mee dat er hogere opslag- en verwerkingskosten zijn. Om dit compromis te beheren, gebruikt u uitgebreide logboekregistratie tijdens de ontwikkelingsfase en gereduceerde uitgebreidheid in de productieomgeving. Vertrouw op correlatie-ID's om de zichtbaarheid van end-to-end transacties te behouden zonder overmatig logvolume.
Toepassingsgebeurtenissen vastleggen in gestructureerde, machineleesbare indelingen zoals JSON, MessagePack of Protobuf. Dit maakt eenvoudigere verwerking en integratie mogelijk.
Voor infrastructuur:
- Verzamel zowel logboeken als metrische gegevens.
- Voor IaaS moet u os-, toepassings- en diagnostische logboeken opnemen.
- Maximaliseer voor PaaS diagnostische logboeken waarbij de toegang tot onderliggende infrastructuur beperkt is.
Prioriteit geven aan gegevensoverdracht op basis van urgentie. Minder urgente gegevens kunnen in batches worden overgedragen, terwijl tijdgevoelige informatie onmiddellijk moet worden verzonden.
Er zijn twee fundamentele modellen voor verzameling. In een pull-model wordt telemetrie verzameld als een queryonderdeel, terwijl pushtelemetrie wordt verzonden door onderdelen die gegevens naar buiten verzenden. Kies een model op basis van factoren die van toepassing zijn op uw workload. Zijn bijvoorbeeld periodieke momentopnamen voldoende of zijn bijna realtime gegevens nodig? Wat is het verwachte telemetrievolume, wat is het gegevenstype: status of logboeken, gebeurtenissen en traceringen.
Het is gebruikelijk om een combinatiebenadering te gebruiken. Bewakingsagents kunnen bijvoorbeeld een pull-model gebruiken, lokaal worden uitgevoerd naast elke toepassingsexemplaar om regelmatig gegevens te verzamelen en naar gedeelde opslag te schrijven. Tegelijkertijd kan een pushmodel worden gebruikt voor toepassingstelemetrie, waarbij elk exemplaar logboeken, traceringen en metrische gegevens verzendt naar een berichtenwachtrij of eventstream wanneer gebeurtenissen plaatsvinden.
Gegevensconsolidatie standaardiseren
Verplaats telemetrie uit lokale silo's en voeg deze samen in een centrale opslagplaats, als dat door de organisatie wordt verplicht. Voor oplossingen voor meerdere regio's verzamelt en bewaart u gegevens eerst regionaal en voegt u deze vervolgens centraal samen. Voor bedrijfskritieke workloads wordt autonome opslag van gegevens echter aanbevolen.
Gebruik consistente indelingen en verzamelingsmethoden, zodat gegevens toegankelijk zijn voor analyse, dashboards, waarschuwingen en rapportage. Vermijd handmatig ophalen van onderdelen, omdat hiermee overhead en inconsistenties worden toegevoegd.
Services voor gegevensconsolidatie gebruiken om het volgende te doen:
- Gegevens ontdubbelen.
- Gerelateerde gebeurtenissen samenvoegen met correlatie-id's.
- Overbodige informatie filteren.
Risico: houd er rekening mee dat er kostengevolgen zijn voor het hebben van regionale en gecentraliseerde gegevensarchieven.
Opslag en retentie aanpassen voor gebruikspatronen
Selecteer opslagoplossingen die voornamelijk zijn gebaseerd op querybehoeften en toegangspatronen. Gegevens die waarschuwingen genereren, moeten bijvoorbeeld snel worden geopend, dus moeten ze worden bewaard in snelle gegevensopslag en geïndexeerd of gestructureerd om de query's te optimaliseren.
Gebruik polyglotpersistentie om verschillende gegevenstypen op te slaan in technologieën die geschikt zijn voor hun gebruik:
- SQL-databases voor prestatiemeteritems.
- Azure Monitor-logboeken of Azure Data Explorer voor traceringslogboeken.
- HDFS voor beveiligingsgegevens.
Ook moet u gegevensopslag scheiden per omgeving. Dit voorkomt dat niet-kritieke omgevingsgegevens productiebewaking compliceren.
Het plannen van gegevensbehoud voor gedetailleerde gegevens voor de korte termijn en trendanalyse voor de lange termijn. Oudere telemetrie archiveren naar goedkopere opslag. Houd regelmatig geopende gegevens in snellere opslagsystemen. Implementeer gegevensbeveiliging met resourcevergrendelingen, voorlopig verwijderen en op rollen gebaseerd toegangsbeheer.
Gegevens correleren voor end-to-end-inzichten
Ontwerp waarneembaarheid om telemetrie te verbinden vanuit metrische gegevens, logboeken en traceringen in alle onderdelen. Dit maakt gedistribueerde tracering van bewerkingen in services mogelijk, waardoor problemen die meerdere lagen omvatten, kunnen worden vastgesteld.
Gebruik correlatie-id's om transacties consistent bij te houden via presentatie-, midden- en gegevenslaag.
Logboeken op toepassingsniveau en resourceniveau aggregeren om problemen snel op te lossen en op te sporen. Overweeg een uniforme oplossing, zoals Azure Log Analytics, om gegevens op verschillende niveaus op te vragen en te analyseren.
Telemetrie afstemmen met systeem- en gebruikersstromen om de stroomstatus te correleren met de algehele workloadstatus. Als u deze stromen begrijpt, zorgt u ervoor dat uw waarneembaarheidsstrategie zowel het gedrag op onderdeelniveau als het end-to-endsysteem weerspiegelt.
Analyseren en visualiseren om bruikbare beslissingen te ondersteunen
Ontwerp dashboards en rapporten rond operationele gezondheidsmodellen. Met visualisaties kunnen teams snel problemen identificeren, trends begrijpen en reacties prioriteren.
Gebruik bewezen bewakingspatronen en architecturen in plaats van aangepaste implementaties of ad-hocoplossingen. Zorg ervoor dat dashboards zinvol en uitvoerbaar zijn. Met geparameteriseerde dashboards kunnen analisten onderliggende gegevens verkennen.
AI-kans: dashboards richten zich vaak op zakelijke of technische metrics. AI kan gegevens uit alle relevante bronnen analyseren en geïntegreerde dashboards ontwerpen met de juiste configuraties en visualisatie. Dit vermindert handmatige inspanning en geeft inzichten weer die anders over het hoofd kunnen worden gezien.
Waarschuwingen definiëren rond zinvolle operationele voorwaarden
Stel waarschuwingen in op basis van de status van de werkbelasting, niet willekeurige waarden. Waarschuwingen moeten kunnen worden uitgevoerd en context bieden. Stel een duidelijk, verantwoordelijk waarschuwingsproces in dat eigenaren, acties en bereik definieert en waarschuwingen configureert met de juiste granulariteit en uitgebreidheid om ruis te minimaliseren terwijl kritieke problemen onmiddellijk worden gedetecteerd.
Valideer drempelwaarden met behulp van eerdere ervaring en regelmatig testen. Gebruik snelle opslag voor het genereren van waarschuwingen om snelle meldingen mogelijk te maken. Stel waarschuwingen in voor goed gedefinieerde doelen en pas het detailniveau aan om ruis te minimaliseren.
Automatiseer waarschuwingen en koppel waarschuwingen aan ticketsystemen. Controleer de servicestatus, storingen, onderhoud en adviezen van het cloudplatform.
AI-kans: AI kan worden gebruikt om 'gezond' systeemgedrag dynamisch te definiëren door leerpatronen te leren in bedrijfscontexten, zoals piekverkeer, promoties, rustige perioden en regionale variaties. AI kan vervolgens metrische gegevens, logboeken en incidentgegevens analyseren om problemen te voorspellen en drempelwaarden aan te bevelen.
Schaalbare, duurzame telemetriepijplijnen ontwerpen
Waarneembaarheidssystemen moeten op grote schaal functioneren zonder knelpunten te veroorzaken of gegevens te verliezen. Neem buffering, wachtrijen en schaalbare invoerpaden op om de telemetriestroom onder belasting te houden.
Gebruik wachtrijmechanismen voor grootschalige omgevingen om pieken te verwerken. Implementeer redundantie om te voorkomen dat belangrijke gegevens verloren gaan. Plan voor opschalen tijdens het ontwerp om ervoor te zorgen dat bewakingssystemen meegroeien met de werkbelastingseisen.
Gebruik voor complexe workloads berichtenwachtrijen met 'ten minste één keer'-semantiek. Voer meerdere opslagschrijfservices uit om grote volumes te verwerken. Overweeg Event Hubs om telemetrieverwerking te distribueren en I/O-knelpunten met één punt te voorkomen.
Waarneembaarheid gebruiken om continue verbetering te ondersteunen
Waarneembaarheid behandelen als een feedbacklus. Gebruik productiegegevens om workloadontwerp, telemetrieregistratie en bewakingsdrempels te verfijnen.
Balans tussen automatisering en menselijk toezicht om nauwkeurigheid te garanderen. Continu bewakingsmethoden controleren en ontwikkelen wanneer workloads veranderen. Gebruik telemetrie om optimalisatiemogelijkheden te identificeren, architectuurbeslissingen te valideren en toekomstige ontwerpen te begeleiden.
Neem bewaking en waarschuwingen op bij het testen van algemene workloads. Automatiseer functies terwijl u trends kunt analyseren voor het voorspellen van operationele problemen en het plannen van capaciteit.
Azure facilitering
Azure Monitor is een bewakingsoplossing voor het verzamelen, analyseren en reageren op bewakingsgegevens uit uw cloud- en on-premises omgevingen.
Log Analytics is een hulpprogramma in Azure Portal dat u kunt gebruiken om logboekquery's te bewerken en uit te voeren op gegevens in de Log Analytics-werkruimte.
Als u meerdere werkruimten gebruikt, raadpleegt u de architectuurhandleiding voor Log Analytics-werkruimten voor best practices.
Application Insights is een uitbreiding van Azure Monitor. Het biedt APM-functies.
Azure Monitor Insights zijn geavanceerde analysehulpprogramma's voor specifieke Azure-technologieën (zoals VM's, app-services en containers). Deze hulpprogramma's maken deel uit van Azure Monitor en Log Analytics.
Azure Monitor voor SAP-oplossingen is een Azure-bewakingsprogramma voor SAP-landschappen die worden uitgevoerd in Azure.
Met Azure Policy kunt u organisatiestandaarden afdwingen en naleving op schaal beoordelen.
Azure Network Watcher is een hulpprogramma dat uw netwerk bewaakt, beheert en controleert om beveiliging, naleving en prestaties te garanderen.
Verbindingsproblemen oplossen is een diagnostisch hulpprogramma in Network Watcher. Het biedt diagnostische gegevens op aanvraag en pakketopname (PCAP) om connectiviteitsproblemen te onderzoeken.
Verbindingsmonitor is een bewakingsprogramma in Network Watcher. Er worden doorlopende synthetische tests uitgevoerd en realtime waarschuwingen verzonden voor connectiviteits- en prestatieproblemen.
Traffic Analytics is een oplossing voor verkeersanalyse in Network Watcher. Hiermee wordt de distributie van verkeer gevisualiseerd, worden de belangrijkste talkers geïdentificeerd en worden trends in het bandbreedtegebruik weergegeven. Deze mogelijkheden bieden een uniforme weergave van de netwerkstatus.
Verwante koppelingen
- Instrumentatiehandleiding
- Aanbevelingen voor het ontwerpen van een betrouwbare bewakings- en waarschuwingsstrategie
- Aanbevelingen voor bewaking en detectie van bedreigingen
- Aanbevelingen voor het verzamelen van prestatiegegevens
Communitykoppelingen
- Azure Monitor Baseline Alerts (AMBA) is een centrale opslagplaats van waarschuwingsdefinities die klanten en partners kunnen gebruiken om hun waarneembaarheidservaring te verbeteren door gebruik te maken van Azure Monitor.
Controlelijst voor operationele uitmuntendheid
Raadpleeg de volledige set aanbevelingen.