Ontwerp voor bedrijfsactiviteiten

Voltooid
Verschuif naar links in bewerkingen om te anticiperen op foutvoorwaarden.

Testfouten vroeg en vaak in de ontwikkelingslevenscyclus en bepalen de impact van de prestaties op betrouwbaarheid. Omwille van hoofdoorzaakanalyse en postmortems moet u gedeelde zichtbaarheid hebben in teams, van afhankelijkheidsstatus en lopende fouten. Inzichten, diagnostische gegevens en waarschuwingen van waarneembare systemen zijn essentieel voor effectief incidentbeheer en continue verbetering.

Contoso University voert een web-app uit die is gebouwd op microservices die onderwijsservices, zoals onlineklassen, biedt voor de faculteiten en studenten van Contoso. De workload is gebouwd op Azure-app Service, Azure SQL Database, Microsoft Entra ID, Azure Key Vault, Azure Service Bus, Azure Monitor en Azure DevOps.

Robuuste bewaking implementeren

Bouw waarneembare systemen die telemetrie kunnen correleren.

Bewaking en diagnose zijn cruciale bewerkingen. Als iets mislukt, moet u weten dat het is mislukt, wanneer het is mislukt en waarom het is mislukt. Waarneembaarheid op onderdeelniveau is fundamenteel, maar geaggregeerde waarneembaarheid van onderdelen en gecorreleerde stromen biedt een holistische weergave van de status. Deze gegevens zijn vereist om site-betrouwbaarheidstechnici in staat te stellen prioriteit te geven aan hun inspanningen voor herstel.

De uitdaging van Contoso

  • De workloadtoepassing wordt geïmplementeerd als onderdeel van een suite met vijf losgekoppelde services in meerdere functionele lagen.
  • Het team wil transacties en aanvragen van gebruikers kunnen analyseren wanneer ze de verschillende lagen van de oplossing doorlopen om knelpunten te identificeren die tot instabiliteit kunnen leiden en efficiëntere probleemoplossing kunnen uitvoeren wanneer zich problemen voordoen.

De aanpak en resultaten toepassen

  • Het workloadteam instrumenteert de onderdelen voor het vastleggen van logboeken en metrische gegevens met Application Insights en configureert logboekregistratie voor alle platformservices. Alle logboeken worden doorgestuurd naar de Azure Monitor-werkruimte van de workload.
  • Gegevens in de AzM-werkruimte kunnen worden gebruikt om de status van afzonderlijke onderdelen van de oplossing en geaggregeerde stromen en oplossingsstatus te analyseren.
  • Het correleren van vermeldingen die behoren tot dezelfde aanvraag in verschillende onderdelen en lagen helpt het team om de status van de workload te bepalen en hun probleemoplossingsprocessen te vergemakkelijken.

Potentiële storingen en afwijkend gedrag voorspellen

Maak fouten met actieve betrouwbaarheid zichtbaar met behulp van waarschuwingen met prioriteit en actie. Investeer in betrouwbare processen en infrastructuur die leiden tot snellere sortering.

Technici voor sitebetrouwbaarheid kunnen onmiddellijk op de hoogte worden gesteld, zodat ze doorlopende livesite-incidenten kunnen beperken en proactief potentiële fouten kunnen beperken die worden geïdentificeerd door voorspellende waarschuwingen voordat ze live-incidenten worden.

De uitdaging van Contoso

  • Het team verwacht een aanzienlijke toename van het verkeer aan het begin van elke term, omdat studenten zich registreren voor klassen, syllabi openen en lesboeken aanschaffen.
  • Tijdens deze kritieke periode van het academische jaar moet het team ervoor zorgen dat er voldoende capaciteit beschikbaar is voor de toename van de verwachte belasting. Het team moet ook snel kunnen reageren op andere potentiële beschikbaarheidsproblemen die zich kunnen voordoen.

De aanpak en resultaten toepassen

  • Het team configureert de lagen Web en Database zodanig dat deze automatisch worden uitgeschaald om extra capaciteit te hebben voordat de verwachte vraag toeneemt en om capaciteit toe te wijzen naarmate de belasting toeneemt.
  • Het plan voor respons op noodgevallen wordt aangepast om te bepalen dat waarschuwingen met betrekking tot de stromen onder stress tijdens deze periode prioriteit krijgen van het incidentresponsteam.

Testen op betrouwbaarheidsrisico's

Simuleer fouten en voer tests uit in productie- en preproductieomgevingen.

Het is nuttig om fouten in de productie te ervaren, zodat u realistische verwachtingen voor herstel kunt instellen. Hiermee kunt u ontwerpkeuzen maken die probleemloos reageren op fouten. Ook kunt u hiermee de drempelwaarden testen die u hebt ingesteld voor metrische zakelijke gegevens.

De uitdaging van Contoso

  • Communicatie tussen de weblaag en de REST-service voor studentregistratie in deze workload is afhankelijk van clientcertificaten.
  • Omdat de functionaliteit voor studentenregistratie niet veel wordt gebruikt nadat de term begint, kan het probleem enige tijd onopgemerkt blijven als het certificaat dat door de service voor studentenregistratie wordt gebruikt, verloopt.
  • Bovendien waren er tijdens de laatste registratieperiode verschillende onderbrekingen van de service vanwege een onjuiste afhandeling van tijdelijke connectiviteitsfouten. Het team heeft enkele codeverbeteringen aangebracht om tijdelijke fouten af te handelen, maar weet niet zeker hoe de functionaliteit zich in echte productiescenario's gedraagt.

De aanpak en resultaten toepassen

  • Het team ontwikkelt synthetische transactietests die volgens een maandelijks schema in productie worden uitgevoerd om verschillende stromen te simuleren, waaronder de registratiestroom.
  • Waarschuwingen worden geconfigureerd voor de synthetische transactietests, zodat het team op de hoogte wordt gesteld van storingen, waardoor het risico op verlopende certificaten wordt beperkt.
  • Daarnaast heeft het team geïnvesteerd in het bouwen van chaostests in hun SDLC, het uitvoeren van routine-chaostests en het vastleggen van de resultaten om zowel technieken voor zelfbehoud te valideren als om eerder onbekende betrouwbaarheidsproblemen te ontdekken.

Test uw kennis

1.

Waar of niet waar: een voorbeeld van het waarneembaar maken van een workload is het instrumenteren van de toepassing om telemetriegegevens te verzenden.

2.

Wat is een kenmerk van een goed ontworpen waarschuwingsstrategie?

3.

Wat is een manier waarop Contoso kan bewijzen dat hun workload in een gedegradeerde status kan werken?